首页 / 专利库 / 人工智能 / 机器学习 / 无监督学习 / 一种视频无监督学习中的帧顺序判断方法

一种视频监督学习中的顺序判断方法

阅读:695发布:2020-05-19

专利汇可以提供一种视频监督学习中的顺序判断方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种视频 无 监督学习 中的 帧 顺序判断方法,首先在一个视频中,采集N组有序帧和1组无序帧;然后对这N+1组帧序列通过帧间差异进行编码,得到N+1张图像;最后将N+1张图片作为输入,输入到改进的 卷积神经网络 ,即N&1网络,输出结果即为无序帧的预测 位置 。本发明改进现有的视频 无监督学习 ,通过学习判断帧是否有序,能够更加精准地提取视频特征。,下面是一种视频监督学习中的顺序判断方法专利的具体信息内容。

1.一种视频监督学习中的顺序判断方法,其特征在于,包括以下步骤:
(1)在一个视频中,采集N组连续帧,每组连续帧均包含W帧;再采集1组无序帧,这组无序帧中的每一帧均来自于该视频的任意位置;W小于该视频的总帧数;
(2)对于步骤(1)获得的N+1组帧序列,分别对每组帧序列通过帧间差异进行编码,得到N+1张图片,每张图片能够反映对应帧序列的结构;
(3)将步骤(2)得到的N+1张图片作为输入,输入到改进的卷积神经网络,即N&1网络,输出结果即为无序帧的预测位置;所述N&1网络包含N+1个输入分支、融合层、第二全连接层和第三全连接层,每个输入分支依次包括5层卷积层和第一全连接层,且每个输入分支的5层卷积层的权值相同;在N&1网络的融合层中,对每个输入分支的第一全连接层的输出成对求差,并将差值求和,得到一个d维向量,作为融合层的输出,d是第一全连接层的维度,即:
上式中,o为融合层的输出,vi、vj分别为第i个、第j个输入分支第一全连接层的输出。
2.根据权利要求1所述一种视频无监督学习中的帧顺序判断方法,其特征在于:在步骤(2)中,所述帧间差异是指相邻帧之间的RGB变化。
3.根据权利要求2所述一种视频无监督学习中的帧顺序判断方法,其特征在于:在步骤(2)中,对于某组帧序列,将根据帧间差异进行编码的过程转化为对该帧序列的每一帧进行加权,然后求和取平均得到单张图片,该单张图片能够代表该组帧序列的结构。
4.根据权利要求3所述一种视频无监督学习中的帧顺序判断方法,其特征在于:在步骤(2)中,对每一帧进行加权所用的权值:
wt=W+1-2t
上式中,wt为第t帧的权值,t表示帧序列中的第t帧。

说明书全文

一种视频监督学习中的顺序判断方法

技术领域

[0001] 本发明属于计算机视觉技术领域,特别涉及了一种视频无监督学习中的帧顺序判断方法。

背景技术

[0002] 有序的数据以视觉和听觉的形式提供了一个丰富的信息源。在对有序数据的观察中学习是人类的潜意识中的认知过程,人类因此能够做出决策和解决问题。例如,回答“这辆车往哪个方向开?”这个问题,需要从有序的数据或者视频中提取信息,并做出预测。
[0003] 对于计算机视觉和动作识别领域而言,有序的数据集的作用尤为重要,它直接关系到动作识别最后预测结果的精准度。因此,良好的数据集训练是视频学习的基础
[0004] 在现阶段,视频常见的数据集训练方法主要包括两大类:有监督学习和无监督学习。否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。有监督学习通常依赖于手工标注标签,手工标注是非常消耗时间和成本的监督方式,尤其对于更加复杂的数据和概念,比如视频和人体行为分析,更是如此,所以手工标注的方式越来越不受欢迎。
[0005] 2016年在《Computer Science》上发表的《Unsupervised Learning of Video Representations using LSTMs》提出了视频数据中序列编码的无监督学习。使用LSTM编码器来学习无监督视频编码。对LSTM进行训练,使得前向视频的编码类似于反向视频的LSTM编码。然而,该方法需要预训练网络(具有监督性)来提取帧级特征,因此它不是无监督特征学习方法。
[0006] 因此,对于视频中的目标识别而言,在无监督学习的基础上,视频的帧顺序是非常具有研究意义的。

发明内容

[0007] 为了解决上述背景技术提出的技术问题,本发明旨在提供了一种视频无监督学习中的帧顺序判断方法,改进现有的视频无监督学习,通过学习判断帧是否有序,能够更加精准地提取视频特征。
[0008] 为了实现上述技术目的,本发明的技术方案为:
[0009] 一种视频无监督学习中的帧顺序判断方法,包括以下步骤:
[0010] (1)在一个视频中,采集N组连续帧,每组连续帧均包含W帧;再采集1组无序帧,这组无序帧中的每一帧均来自于该视频的任意位置;W小于该视频的总帧数;
[0011] (2)对于步骤(1)获得的N+1组帧序列,分别对每组帧序列通过帧间差异进行编码,得到N+1张图片,每张图片能够反映对应帧序列的结构;
[0012] (3)将步骤(2)得到的N+1张图片作为输入,输入到改进的卷积神经网络,即N&1网络,输出结果即为无序帧的预测位置;所述N&1网络包含N+1个输入分支、融合层、第二全连接层和第三全连接层,每个输入分支依次包括5层卷积层和第一全连接层,且每个输入分支的5层卷积层的权值相同。
[0013] 进一步地,在N&1网络的融合层中,对每个输入分支的第一全连接层的输出成对求差,并将差值求和,得到一个d维向量,作为融合层的输出,d是第一全连接层的维度,即:
[0014]
[0015] 上式中,o为融合层的输出,vi、vj分别为第i个、第j个输入分支第一全连接层的输出。
[0016] 进一步地,在步骤(2)中,所述帧间差异是指相邻帧之间的RGB变化。
[0017] 进一步地,在步骤(2)中,对于某组帧序列,将根据帧间差异进行编码的过程转化为对该帧序列的每一帧进行加权,然后求和取平均得到单张图片,该单张图片能够代表该组帧序列的结构。
[0018] 进一步地,在步骤(2)中,对每一帧进行加权所用的权值:
[0019] wt=W+1-2t
[0020] 上式中,wt为第t帧的权值,t表示帧序列中的第t帧。
[0021] 采用上述技术方案带来的有益效果:
[0022] 本发明改进了现有的卷积神经网络,增加了融合层,在融合层中使用差异和模型,不仅仍然将N+1的结构编码,而且可以用较低维度的向量表示,学习判断帧是否有序,能够更加精准地提取视频特征,为视频动作的识别效果打下良好的基础。本发明在将帧序列输入N&1网络之前,利用前后帧RGB的数值变化来获得帧间差异,由此对帧序列进行编码,从而提取帧序列的时序信息。附图说明
[0023] 图1是本发明的方法流程图

具体实施方式

[0024] 以下将结合附图,对本发明的技术方案进行详细说明。
[0025] 一种视频无监督学习中的帧顺序判断方法,如图1所示,具体步骤如下。
[0026] 步骤1:在一个视频中,采集N组连续帧(有序帧),每组连续帧均包含W帧,再采集1组无序帧,这组无序帧中的每一帧均来自于该视频的任意位置,W小于该视频的总帧数。
[0027] 步骤2:对于步骤1获得的N+1组帧序列,分别对每组帧序列通过帧间差异进行编码,得到N+1张图片,每张图片能够反映对应帧序列的结构。
[0028] 通常在特定时间点,单个RGB图像仅包含静态信息,并且缺少关于前一帧和下一帧的上下文信息。相反,两个连续帧之间的RGB差异描述了动作较大变化区域的颜色变化。
[0029] 帧间差异和编码是通过计算帧间的差值并求和来获得单张图片,该图片获取了帧序列的结构。确切地说,这与下文方程(1)完全相同,但现在应用于帧而不是向量,该方程归纳为帧的加权平均,则帧序列中第t帧的权重为wt=W+1-2t,根据每一帧的不同权重,可以将一组帧序列中W张图片合成为一张图片,该图片能够代表这组帧的结构。
[0030] 如果输入序列具有h×w的空间分辨率和W的时间范围,则输出图像具有相同的空间分辨率,但是对于RGB通道而言,时间信息被概括为大小为h×w×3的单个图像。
[0031] 步骤3:将步骤(2)得到的N+1张图片作为输入,输入到改进的卷积神经网络,即N&1网络,输出结果即为无序帧的预测位置;所述N&1网络包含N+1个输入分支、融合层、第二全连接层和第三全连接层,每个输入分支依次包括5层卷积层和第一全连接层,且每个输入分支的5层卷积层的权值相同。
[0032] 由多个有序组和一个无序组构成了一个问题q={I1,...,IN+1},其中,Ii为视频中的帧序列。本方案通过无监督的学习方式来解决这个问题。假设在视频分类的特征学习过程中,I1,...,IN是从同一个视频中采样的子序列。这N组序列在时间上是有序的。IN+1这组序列是从同一视频中采样出的无序序列。为了避免解决方法不具有一般性,本方案通过一种排列方法σ来随机化无序帧组的位置,并获得具有相应解决方法的问题aσ=σ(N+1)∈{1,2,...,N+1}。从(N+1)组序列中预测一组无序帧的任务依次简化为(N+1)的分类问题。由一组无标签的视频,本方案能够自动构建一个无监督的训练集合 其中σj是为每个问题qj随机选择的。给定这个无监督数据集,该学习问题可以通过标准极大似然估计来解决,即
[0033]
[0034] 其中,L是似然函数,fθ是参数化模型。
[0035] 本方案将预测模型fθ作为多分支卷积神经网络来实现,将此网络称为N&1网络。N&1网络由(N+1)个输入分支构成,每个分支依次包含五层卷积层和第一全连接层,这五层卷机层的权值均相同。每个输入分支的配置在第一个全连接层之前与AlexNet架构相同。因为本方案任务需要对给定问题的(N+1)个元素之间进行比较,并且不能仅通过查看单个元素来求解,因此本方案引入了融合层。融合层位于第一全连接层之后,它合并来自(N+1)个分支的信息。将融合层的运算结果输入到第二、第三全连接层中去,然后是一个分类器。N&1网络学会了预测无序帧的位置。
[0036] 融合层帮助网络执行关于问题中的元素的比较以找到无序帧组。理想情况下,融合层应该支持网络来比较元素并且找到规则,根据此找到具有不规则性的元素。本方案针在融合层提出了一种差异和模型。
[0037] 对每个输入分支的第一全连接层成对求差,并将差值求和,会获得一个d维向量,其中d是第一个全连接层的维度。令vi、vj为网络中第i个、第j个输入分支的向量,那么融合层的输出为
[0038] 实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈