首页 / 专利库 / 人工智能 / 多样性密度 / 一种基于多路特征的记忆网络视频摘要方法

一种基于多路特征的记忆网络视频摘要方法

阅读:348发布:2020-05-08

专利汇可以提供一种基于多路特征的记忆网络视频摘要方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于多路特征的记忆网络视频 摘要 方法,视频输入模 块 ,所述视频输入模块用于,录入待处理的 视频 帧 ;特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于RNN在视频帧中捕获长期依赖关系的能 力 ,只更新时间记忆网络,本发明可以更好地包含图像的有用信息,记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果。,下面是一种基于多路特征的记忆网络视频摘要方法专利的具体信息内容。

1.一种基于多路特征的记忆网络视频摘要方法,其特征在于,包括:
视频输入模,所述视频输入模块用于,录入待处理的视频
特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征xt,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于RNN在视频帧中捕获长期依赖关系的能,只更新时间记忆网络;
记忆网络与关键帧提取模块,所述记忆网络与关键帧提取模块用于,从特征提取模块出来的原始特征xt和差异特征xd被送入记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt;
摘要属性判断模块,所述摘要属性判断模块用于,通过卷及神经网络CNN的处理,得到xt序列,通过重要性和多样性判断选择视频帧子集的质量
2.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:所述重要性用于,表示摘要对全文视频信息的覆盖能力;
当做一个k-medoids问题,k-medoids算法的初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点,此时的中心点大概率就是视频中最重要的视频帧,其如下表示:
imp=min||xt-xt′||2
这里的t和t′表示为非同一时刻。
3.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:所述多样性用于,从另一方面反应出视频摘要是否最大化的包含了原视频的有用的多样化信息;
通过利用特征空间所选帧之间的差异大小作为评判标准,其如下所示:
公式中T的代表了所选视频帧的长度,D(xt,xt′)表示的是特征空间帧的差异大小。
4.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:所述特征提取模块包括原始特征提取模块和差异特征提取模块;
5.根据权利要求4所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:所述原始特征提取模块,基于指通过卷积神经网络CNN提取出的视觉特征,作为原始特征;
所述差异特征提取模块,是在原始特征的基础上求取两两视频帧之间的差异,作为差异特征。
6.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:在特征提取模块中,输入视频帧后,采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征,GoogleNet采用模块化的结构,即Inception结构。

说明书全文

一种基于多路特征的记忆网络视频摘要方法

技术领域

[0001] 本发明涉及计算机视觉自然语言处理技术领域,具体为一种基于多路特征的记忆网络视频摘要方法。

背景技术

[0002] 视频摘要(Video Summary)是一种涉及计算机视觉和自然语言处理的学习任务。视频摘要是以选取的视频作为输入,以生成一个简明紧凑的视频摘要作为输出。总的来说,视频摘要就是对输入的视频进行特征提取,以选取出最具有代表性的关键帧子集。受益于当下深度学习、神经网络、自然语言处理技术的快速发展,近些年来出现了大量的视频摘要的研究成果。B. Truong等就提出通过对大量视频的搜索与检索可以满足对所需内容的有效需求,但是这并没有提供实际视频内容的具体意义,带来的困难就是很难快速找到所需的内容,基于内容频率或非冗余虽然简单有效,但是却与视频的实时性缺少直接的联系。
[0003] 在普遍的视频摘要的过程中,以往大多数的视频摘要模型,采用的都是直接将分帧的视频送入到卷积神经网络(CNN),取其某一层的数据作为特征输出,即提取出的视频帧的特征,这种方法虽然便捷迅速,但是却忽视了视频图像中突出的显著性区域和对象,并且很多目前流行的视频摘要系统模型忽略了两两视频帧中显著性区域、对象之间的差异,一般的循环神经网络 (RNN)虽然能缓解这类问题,但是有其自身功能的局限性,无法达到对信息的长时间记忆,因此,我们需要解决的具体问题在于:
[0004] (1)如何设计提取视频帧的图像特征,使其可以很好地包含图像的有用信息[0005] (2)如何设计记忆更新模,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆
[0006] (3)如何设计选取方式,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果。

发明内容

[0007] 本发明的目的在于提供一种基于多路特征的记忆网络视频摘要方法,以解决上述背景技术中如何设计提取视频帧的图像特征,使其可以很好地包含图像的有用信息,如何设计记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆,如何设计选取方式,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果的问题。
[0008] 为实现上述目的,本发明提供如下技术方案:一种基于多路特征的记忆网络视频摘要方法,包括:
[0009] 视频输入模块,所述视频输入模块用于,录入待处理的视频帧;
[0010] 特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征xt,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于 RNN在视频帧中捕获长期依赖关系的能,只更新时间记忆网络;
[0011] 记忆网络与关键帧提取模块,所述记忆网络与关键帧提取模块用于,从特征提取模块出来的原始特征xt和差异特征xd被送入记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt;
[0012] 摘要属性判断模块,所述摘要属性判断模块用于,通过卷及神经网络CNN 的处理,得到xt序列,通过重要性和多样性判断选择视频帧子集的质量
[0013] 优选的,所述重要性用于,表示摘要对全文视频信息的覆盖能力;
[0014] 当做一个k-medoids问题,k-medoids算法的初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点,此时的中心点大概率就是视频中最重要的视频帧,其如下表示:
[0015] imp=min||xt-xt′||2
[0016] 这里的t和t′表示为非同一时刻。
[0017] 优选的,所述多样性用于,从另一方面反应出视频摘要是否最大化的包含了原视频的有用的多样化信息;
[0018] 通过利用特征空间所选帧之间的差异大小作为评判标准,其如下所示:
[0019]
[0020] 公式中T的代表了所选视频帧的长度,D(xt,xt′)表示的是特征空间帧的差异大小。
[0021] 优选的,所述特征提取模块包括原始特征提取模块和差异特征提取模块;
[0022] 优选的,所述原始特征提取模块,基于指通过卷积神经网络CNN提取出的视觉特征,作为原始特征,
[0023] 所述差异特征提取模块,是在原始特征的基础上求取两两视频帧之间的差异,作为差异特征。
[0024] 优选的,在特征提取模块中,输入视频帧后,采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征,GoogleNet采用模块化的结构,即Inception结构。
[0025] 本发明提供了一种基于多路特征的记忆网络视频摘要方法,具备以下有益效果:
[0026] 本发明采用将视频帧送入到卷积神经网络CNN,提取出的视觉特征我们作为原始特征,在原始特征的基础上我们求取两两视频帧之间的差异作为差异特征,然后把两者都送入到记忆网络,在提取出关键帧之后,判断所选择的视频帧是否满足属性特点的方式,可以更好地包含图像的有用信息,记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果。附图说明
[0027] 图1为本发明的系统框图
[0028] 图2为本发明的流程结构图。

具体实施方式

[0029] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0030] 如图1-2所示,本发明提供一种技术方案:一种基于多路特征的记忆网络视频摘要方法,包括:
[0031] 视频输入模块,所述视频输入模块用于,录入待处理的视频帧;
[0032] 特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征xt,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络,原始特征保留了视频的基本信息,差异特征则从侧面为视频所包含信息做了补充,由于 RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络;
[0033] 记忆网络与关键帧提取模块,所述记忆网络与关键帧提取模块用于,从特征提取模块出来的原始特征xt和差异特征xd被送入记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt;
[0034] 摘要属性判断模块,所述摘要属性判断模块用于,通过卷及神经网络CNN 的处理,得到xt序列,通过重要性和多样性判断选择视频帧子集的质量。
[0035] 优选的,所述重要性用于,表示摘要对全文视频信息的覆盖能力;
[0036] 当做一个k-medoids问题,k-medoids算法的初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点,此时的中心点大概率就是视频中最重要的视频帧,其如下表示:
[0037] imp=min||xt-xt′||2
[0038] 这里的t和t′表示为非同一时刻。
[0039] 优选的,所述多样性用于,从另一方面反应出视频摘要是否最大化的包含了原视频的有用的多样化信息;
[0040] 通过利用特征空间所选帧之间的差异大小作为评判标准,其如下所示:
[0041]
[0042] 公式中T的代表了所选视频帧的长度,D(xt,xt′)表示的是特征空间帧的差异大小。
[0043] 优选的,所述特征提取模块包括原始特征提取模块和差异特征提取模块;
[0044] 优选的,所述原始特征提取模块,基于指通过卷积神经网络CNN提取出的视觉特征,作为原始特征,
[0045] 所述差异特征提取模块,是在原始特征的基础上求取两两视频帧之间的差异,作为差异特征。
[0046] 优选的,在特征提取模块中,输入视频帧后,采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征,GoogleNet采用模块化的结构,即Inception结构。
[0047] 需要说明的是,一种基于多路特征的记忆网络视频摘要方法,在工作时,通过视频输入模块输入待处理模块,采用在ImageNet上预训练的GoogleNet 作为CNN模型来提取视频图像中的原始特征xt,每个视频用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd和原始特征xt一起输入到 RNN记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt,在经过卷及神经网络CNN的处理后,我们得到xt序列,所选视频帧子集要满足视频摘要的属性,即满足的重要性和多样性两点出发,来判断选择视频帧子集的质量。
[0048] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈