首页 / 专利库 / 广播 / 下采样 / 一种基于时序行为检测的工作流识别方法

一种基于时序行为检测的工作流识别方法

阅读:675发布:2020-05-08

专利汇可以提供一种基于时序行为检测的工作流识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于时序行为检测的工作流识别方法。本发明提出了一种时序视频稀疏 采样 的方法,减少无用数据的同时加快了 框架 的整体速度。同时,为了加快识别速度和识别 精度 ,本发明使用三维残差网络来提取特征,以保证 时空 特征提取的速度和效率。在时序候选子网中,为了避免漏掉某些候选 片段 ,本发明使用Soft-NMS对NMS进行了更新,保证了检测结果的召回率。通过上述策略,使得本发明所提出的框架更加适用于复杂工厂生产环境中的工作流识别。发明解决了动作在视频中的时序 定位 问题,有效利用了工厂环境下产生的大量智能监控视频,通过神经网络检测出视频中活动的类别及其发生的时间片段,对工作流进行建模,从而进一步的对整个生产流程进行优化。,下面是一种基于时序行为检测的工作流识别方法专利的具体信息内容。

1.一种基于时序行为检测的工作流识别方法,其特征在于包括如下步骤:
步骤(1)、使用一种稀疏采样策略对待处理视频进行处理,包括将视频中的连续划分为一个区间,在区间内部进行随机取样,避免视频冗余;
步骤(2)、使用三维残差网络来提取特征,减少训练时间并缩小模型大小;
步骤(3)、使用一种锚点机制来获取候选的活动片段,构成锚点片段;
步骤(4)、通过一个分类网络判断这些候锚点片段里面是否包含有动作以及通过一个边界回归网络来确定这些锚点片段的边界,从而得出构成候选列表Ⅰ;
步骤(5)、使用一种Soft-NMS方法来去除候选列表Ⅰ中高度重叠和低置信度的活动片段,得到最终的候选列表Ⅱ;
步骤(6)、通过一种最大池化的方法,使得任意长度的候选特征都变成了固定维度为
512*1*4*4的特征Ⅰ;
步骤(7)、将固定维度的特征Ⅰ同时输入两个全连接层,其中两个连续的全连接层连接着一个softmax分类器用于判断活动类别,另外两个连续的全连接层连接一个回归层用于改善候选活动发生的时间段;
步骤(8)、根据得到的动作的类别及其发生的活动片段,对工作流进行建模,从而进一步的对整个生产流程进行优化。
2.根据权利要求1所述的一种基于时序行为检测的工作流识别方法,其特征在于:
相关概念定义及符号说明如下:
ft:表示视频在t时刻的视频帧
ak:表示某一时序位置上的第k个锚点的大小;
Lcls:表示一个多分类的softmax损失函数,用于判断工作流中活动片段的类别;
Lreg:表示L1平滑损失函数,用于优化候选片段和真实情况的相对偏移;
PLIST:包含置信度的候选列表;
PLIST:通过soft-NMS筛选之后得到的返回列表;
ROI:感兴趣区域;
softmax:多类型分类器,每一类别的概率如下:
步骤(1)具体采样方式如下:
1-1.将原始视频分解为连续的视频帧序列{f1,f2,f3,…,ft};
1-2.将连续4帧作为一个区间,每次在一个区间里面随机读取一帧,从而避免时序上冗余的同时也避免了每次都在相同的位置上获取视频帧;
1-3.将得到的连续随机帧作为训练样本输入三维残差神经网络。
3.根据权利要求2所述的一种基于时序行为检测的工作流识别方法,其特征在于步骤(2)使用三维残差网络来提取时空特征,对输入视频帧进行时空特征提取,为了保证计算效率同时保证端到端的训练,时序候选子网络和行为分类子网络将共享该时空特征,具体实现如下:
2-1.将输入视频帧的维度压缩为为112*112,用来最大化GPU性能;
2-2.通过残差来避免出现梯度消失或者梯度爆炸的现象,增加的网络的深度;
2-3.将连续的尺寸为3*112*112的RGB视频帧对三维残差神经网络进行输入,该网络最终输出为512*L/8*7*7的时空特征。
4.根据权利要求3所述的一种基于时序行为检测的工作流识别方法,其特征在于步骤(3)具体实现如下:
3-1.针对时空特征,时序候选子网络能快速生成大小不一的锚点片段,并判断该锚点片段内视频为目标或背景的概率,用于初步生成候选候选列表Ⅰ,锚点片段表示公式如下:
anchor={ci,li}
其中,ci表示锚点片段的中心位置,li表示锚点片段在时序上的长度;
3-2.锚点片段分布在长度为8/L的时空特征中,每一个时空特征的时序位置上都有k个锚点,因此在时序候选子网络中,每一个时空特征的时序位置都会有k个不同长度的锚点片段序列;即某一时序位置上的锚点片段的长度递增序列为:
{a1,a2,a3,…,ak}
ak即为某一时序位置上的第k锚点;
3-3.每秒读取f帧(FPS=f),则这些锚点片段在时序位置上的覆盖长度为:
{a1*8/f,a2*8/f,a3*8/f,…,ak*8/f}
这些不同长度的锚点片段,通过一个边界回归网络就能够确定一个锚点片段的时序位置位置。
5.根据权利要求4所述的一种基于时序行为检测的工作流识别方法,其特征在于步骤(4)通过一个分类网络判断这些锚点片段里面是否包含有动作以及通过一个边界回归网络来确定这些锚点片段,从而得出构成候选列表Ⅰ;对于步骤2-3中产生的时空特征进行一系列操作,将产生的候选活动片段作为下一阶段行为分类网络的输入,具体实现如下:
4-1.添加一个大小为3*3*3的三维卷积核来拓展时空感受野;
4-2.添加一个三维最大池化核,大小为1*H/16*W/16,用于产生仅包含时序特征的特征图;
4-3.添加两个1*1*1的卷积核操作后,最终得到的特征图大小为512*L/8*1*1;
4-4.通过一个边界回归网络和一个行为分类网络得到候选列表Ⅰ(候选列表PLIST),具体损失函数如下:
其,中Ncls为分类归一化值,即批处理数量;Nreg为回归归一化值,即锚点片段的数量,i为特征图中锚点片段的索引值;λ为权重值,用于平衡两种损失,由于cls项和reg项差不多等权重,故λ取1。
6.根据权利要求5所述的一种基于时序行为检测的工作流识别方法,其特征在于步骤(5)使用一种Soft-NMS方法来去除候选列表Ⅰ(候选列表PLIST)中高度重叠和低置信度的活动片段,得到最终的候选列表Ⅱ(返回列表RLIST),具体过程如下:
5-1.从候选列表PLIST里面选出一个置信度最大的候选活动片段M,将其从候选列表PLIST中删除并放入返回列表RLIST中;
5-2.对于候选列表PLIST里面的每一个候选bi,其置信度分数为si,如果计算出bi与M重合度大于阈值,则通过一种线性的方式对其置信度进行降低;即:
si(1-iou(M,bi))
其中,其中iou为交并比,即M和bi的交集与并集的比值;
5-3.重复步骤5-1和5-2,直至候选列表PLIST为空。
7.根据权利要求6所述的一种基于时序行为检测的工作流识别方法,其特征在于步骤(6)通过一种最大池化的方法得到固定维度的特征,使用ROI池化从时空特征中提取固定尺度的特征Ⅰ,即上述输入为512*L/8*7*7在一个1*4*4的格子里面进行最大池化,得到最终的统一尺寸512*1*4*4。
8.根据权利要求7所述的一种基于时序行为检测的工作流识别方法,其特征在于步骤(7)将固定维度的特征Ⅰ同时输入两个全连接层,其中两个连续的全连接层连接着一个softmax分类器用于判断活动类别,另外两个连续的全连接层连接一个回归层用于改善候选活动发生的时间段,具体实现如下:
7-1添加两个全连接层;
7-2添加一个边界回归网络进行边界修正,通过一个行为分类网络进行行为分类,得到目标动作类别,具体损失函数如下:
其中,Ncls为分类归一化值,即批处理数量;Nreg为回归归一化值,即候选片段的数量;λ为权重值,用于平衡两种损失,仍设为1。

说明书全文

一种基于时序行为检测的工作流识别方法

技术领域

[0001] 本发明属于计算机视觉深度学习在工厂生产操作行为识别技术方面的应用,用于识别生产操作的操作类别与其发生的时间片段。目前工业生产中智能监控每天产生数以万计的有价值的视频数据,为了充分利用这些视频数据,急需设计一个工作流识别方法能从大量视频数据中自动提取特征,识别工厂生产操作的类别以及其发生的时间片段。

背景技术

[0002] 随着信息技术和制造技术的发展,智能制造已经成为工业生产领域的一个重要趋势。工作流识别作为智能制造的一大技术方向,也进行着快速的革新。一般来说,一个工作流通常被看作是一系列独立活动组成的序列。传统的工作流识别技术主要是主要采用过程挖掘技术,即从业务过程信息系统产生的系统日志中提取和分析业务执行的相关内容,并及时调整业务流程或生产决策。
[0003] 得益于计算机视觉技术的发展,当前的工作流识别主要通过生产车间里的摄像头拍摄生产线上的各类生产活动,对视频进行处理与计算,实现对工业流程进行快速的检测。工厂生产车间内存在着明显的光线变化,物体运动遮挡工作流识别的场景与普通的场景相比具有其特殊性,这使得传统的依赖于目标物体检测的识别方法难以适用。因为监控视频为实时视频,工作流识别又有其在识别速度上的实时性需求。
[0004] 同时,由于工厂生产对工作流识别的需求进一步提高,工作流中不同的任务往往有不同的执行时间,并且在任务开始和任务结束之间没有明确的定义,而基于行为识别的工作流识别无法对视频中的活动进行时序定位。因此,本发明将工作流识别的重点从行为识别转向了时序行为检测。与基于行为识别的工作流识别不同,基于时序行为检测的工作流识别方法还包括活动在时序上的定位,即活动的开始时间,结束时间。此任务的关键主要在于以下两点:1、行为的时序边界,很多方法都是采用对候选片段进行分类的框架,对于这类方法,重要的是较高的候选片段的质量,即在保证识别结果正确的情况下,减少候选片段的数量。2、行为的类别,即能准确的得到时序片段的类别信息。
[0005] 然而,生产操作行为识别技术有其复杂性与特殊性。深度学习方法在图像处理领域获得了巨大的成功,许多基于卷积神经网络的分类架构已经被设计用来处理未处理长视频中的工作流识别。本发明设计一种基于时序行为检测的工作流方法来检测工厂中未处理的长视频中动作的类别以及其发生的时间片段。

发明内容

[0006] 本发明公开了一种基于时序行为检测的工作流识别方法。由于工作流识别所处的制造环境中背景的光线变化频繁、物体之间的严重遮挡、各种噪声干扰、工人持续工作时间较长,因此与一般的视频场景相比,工作流识别的场景具有复杂性和特殊性。由于工厂复杂环境中工人在进行某一生产活动时,会持续较长的一段时间,其中包含了大量无用视频。针对这个现象,本发明提出了一种时序视频稀疏采样的方法,减少无用数据的同时加快了框架的整体速度。同时,为了加快识别速度和识别精度,本发明使用三维残差网络来提取特征,以保证时空特征提取的速度和效率。在时序候选子网中,为了避免漏掉某些候选片段,本发明使用Soft-NMS对NMS进行了更新,保证了检测结果的召回率。通过上述策略,使得本发明所提出的框架更加适用于复杂工厂生产环境中的工作流识别。
[0007] 本发明的具体步骤是:
[0008] 步骤(1)、使用一种稀疏采样策略对待处理视频进行处理,包括将视频中的连续帧划分为一个区间,在区间内部进行随机取样,避免了视频的冗余。
[0009] 步骤(2)、使用三维残差网络来提取特征,主要为了减少训练时间并缩小模型大小。
[0010] 步骤(3)、使用一种锚点机制来获取候选的活动片段,构成锚点片段;
[0011] 步骤(4)、通过一个分类网络判断这些候锚点片段里面是否包含有动作以及通过一个边界回归网络来确定这些锚点片段的边界,从而得出构成候选列表Ⅰ。
[0012] 步骤(5)、使用一种Soft-NMS方法来去除候选列表Ⅰ中高度重叠和低置信度的活动片段,得到最终的候选列表Ⅱ。
[0013] 步骤(6)、通过一种最大池化的方法,使得任意长度的候选特征都变成了固定维度为512*1*4*4的特征Ⅰ。
[0014] 步骤(7)、将固定维度的特征Ⅰ同时输入两个全连接层,其中两个连续的全连接层连接着一个softmax分类器用于判断活动类别,另外两个连续的全连接层连接一个回归层用于改善候选活动发生的时间段。
[0015] 步骤(8)、根据得到的动作的类别及其发生的活动片段,对工作流进行建模,从而进一步的对整个生产流程进行优化。
[0016] 本发明有益效果如下:
[0017] 本发明所提供的基于时序行为检测的工作流识别方法主要有几点创新:1)提出一种稀疏采样的方法对输入视频进行处理;2)使用三维残差神经网络对输入视频进行特征提取;3)使用一种Soft-NMS方法对重叠度高和低置信度的候选片段进行处理。
[0018] 为了避免了长时间进行进行某一生产活动而产生的冗余帧,通过本发明提出的稀疏采样的方法对输入视频进行处理。使用三维残差神经网络减少训练时间并缩小模型。为了避免出现高度重叠和低置信度的候选片段,本发明使用了一种soft-NMS方法来提升候选片段的质量。
[0019] 本发明解决了动作在视频中的时序定位问题,有效利用了工厂环境下产生的大量智能监控视频,通过神经网络检测出视频中活动的类别及其发生的时间片段,对工作流进行建模,从而进一步的对整个生产流程进行优化。附图说明
[0020] 图1为三维残差神经网络构建示意图。
[0021] 图2为本发明中所采用的锚点机制的示意图。
[0022] 图3为本发明从输入到输出的整体流程。

具体实施方式

[0023] 下面结合附图和实例对本发明作进一步说明。
[0024] 相关概念定义及符号说明
[0025] ft:表示视频在t时刻的视频帧。
[0026] ak:表示某一时序位置上的第k个锚点的大小。
[0027] Lcls:表示一个多分类的softmax损失函数,用于判断工作流中活动片段的类别。
[0028] Lreg:表示L1平滑损失函数,用于优化候选片段和真实情况的相对偏移。
[0029] PLIST:包含置信度的候选列表。
[0030] RLIST:通过soft-NMS筛选之后得到的返回列表。
[0031] ROI:感兴趣区域。
[0032] softmax:多类型分类器,每一类别的概率如下:
[0033]
[0034] 如图1-3所示,一种基于时序行为检测的工作流识别方法,具体实现步骤如下:
[0035] 步骤(1)、通过一种视频稀疏采样的方式来避免长时间作业时产生的冗余,其中具体采样方式如下:
[0036] 1-1.将原始视频分解为连续的视频帧序列{f1,f2,f3,…,ft}。
[0037] 1-2.将连续4帧作为一个区间,每次在一个区间里面随机读取一帧,从而避免时序上冗余的同时也避免了每次都在相同的位置上获取视频帧。
[0038] 1-3.将得到的连续随机帧作为训练样本输入三维残差神经网络。
[0039] 步骤(2)、使用三维残差网络来提取时空特征。如何在保证模型大小的同时提升模型速度,本发明采用三维残差神经网络(一般采用Res18)对输入视频帧进行时空特征提取,为了保证计算效率同时保证端到端的训练,时序候选子网络和行为分类子网络将共享该时空特征。(见附图1)
[0040] 2-1.将输入视频帧的维度压缩为为112*112,用来最大化GPU性能。
[0041] 2-2.通过残差来避免出现梯度消失或者梯度爆炸的现象,增加的网络的深度。
[0042] 2-3.将连续的尺寸为3*112*112的RGB视频帧对三维残差神经网络进行输入,该网络最终输出为512*L/8*7*7的时空特征。
[0043] 步骤(3)、采用使用一种锚点机制来获取大小不一的锚点片段(见附图2)。
[0044] 3-1.针对时空特征,时序候选子网络能快速生成大小不一的锚点片段,并判断该锚点片段内视频为目标或背景的概率,用于初步生成候选候选列表Ⅰ,锚点片段表示公式如下:
[0045] anchor={ci,li}
[0046] 其中,ci表示锚点片段的中心位置,li表示锚点片段在时序上的长度。
[0047] 3-2.锚点片段分布在长度为8/L的时空特征中,每一个时空特征的时序位置上都有k个锚点,因此在时序候选子网络中,每一个时空特征的时序位置都会有k个不同长度的锚点片段序列。即某一时序位置上的锚点片段的长度递增序列为:
[0048] {a1,a2,a3,…,ak}
[0049] ak即为某一时序位置上的第k锚点;
[0050] 3-3.每秒读取f帧(FPS=f),则这些锚点片段在时序位置上的覆盖长度为:
[0051] {a1*8/f,a2*8/f,a3*8/f,…,ak*8/f}
[0052] 这些不同长度的锚点片段,通过一个边界回归网络就可以确定一个锚点片段的时序位置位置。
[0053] 步骤(4)、通过一个分类网络判断这些锚点片段里面是否包含有动作以及通过一个边界回归网络来确定这些锚点片段,从而得出构成候选列表Ⅰ;对于步骤2-3中产生的时空特征进行一系列操作,将产生的候选活动片段作为下一阶段行为分类网络的输入。
[0054] 4-1.添加一个大小为3*3*3的三维卷积核来拓展时空感受野。
[0055] 4-2.添加一个三维最大池化核,大小为1*H/16*W/16,用于产生仅包含时序特征的特征图。
[0056] 4-3.添加两个1*1*1的卷积核操作后,最终得到的特征图大小为512*L/8*1*1。
[0057] 4-4.通过一个边界回归网络和一个行为分类网络得到候选列表Ⅰ(候选列表PLIST)。具体损失函数如下:
[0058]
[0059] 其中,Ncls为分类归一化值,即批处理数量;Nreg为回归归一化值,即锚点片段的数量,i为特征图中锚点片段的索引值;λ为权重值,用于平衡两种损失,由于cls项和reg项差不多等权重,故λ取1。
[0060] 步骤(5)、使用一种Soft-NMS方法来去除候选列表Ⅰ(候选列表PLIST)中高度重叠和低置信度的活动片段,得到最终的候选列表Ⅱ(返回列表PLIST)。采取一定的线性方法进行降低而不是直接清零,这样的做法在保证精度的同时也尽可能地避免漏掉一些分数稍低的片段,具体过程如下:
[0061] 5-1.从候选列表PLIST里面选出一个置信度最大的候选活动片段M,将其从候选列表RLIST中删除并放入返回列表RLIST中。
[0062] 5-2.对于候选列表PLIST里面的每一个候选bi,其置信度分数为si,如果计算出bi与M重合度大于阈值,则通过一种线性的方式对其置信度进行降低。即:
[0063] si(1-iou(M,bi))
[0064] 其中,其中iou为交并比,即M和bi的交集与并集的比值。
[0065] 5-3.重复步骤5-1和5-2,直至候选列表PLIST为空。
[0066] 步骤(6)、通过一种最大池化的方法得到固定维度的特征,使用ROI池化从时空特征中提取固定尺度的特征Ⅰ,即上述输入为512*L/8*7*7在一个1*4*4的格子里面进行最大池化,得到最终的统一尺寸512*1*4*4。
[0067] 步骤(7)、将固定维度的特征Ⅰ同时输入两个全连接层,其中两个连续的全连接层连接着一个softmax分类器用于判断活动类别,另外两个连续的全连接层连接一个回归层用于改善候选活动发生的时间段,具体实现如下:
[0068] 7-1添加两个全连接层。
[0069] 7-2添加一个边界回归网络进行边界修正,通过一个行为分类网络进行行为分类,得到目标动作类别,具体损失函数如下:
[0070]
[0071] 其中,Ncls为分类归一化值,即批处理数量;Nreg为回归归一化值,即候选片段的数量;λ为权重值,用于平衡两种损失,仍设为1。
[0072] 步骤(8)、根据目标动作类别以及发生的时间片段,就可以确定任务间的关系,从而识别出工作流中的任务,并能够分析工业全局设备生产效率。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈