专利汇可以提供一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种利用卷积多层注意 力 网络机制生成面向查询的视频 摘要 的方法。1)针对一组视频,切割构建视频 片段 。利用全 卷积神经网络 ,提取视频每个镜头的视觉特征。2)利用局部自注意力机制,学习视频片段中所有镜头之间的语义关系,并生成视频镜头的视觉特征。3)利用查询相关的全局注意力机制,学习视频不同片段之间的语义关系,并生成面向查询的视频镜头的视觉特征。4)计算视频镜头和用户查询之间的相似度得分,用来生成查询相关的视频摘要。相比于一般视频摘要解决方案,本发明利用卷积多层注意力机制,能够更准确地反映查询相关的视频视觉特征,产生更加符合的视频摘要。本发明在视频摘要中所取得的效果相比于传统方法更好。,下面是一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法专利的具体信息内容。
1.一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于包括如下步骤:
1)构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;
1.1)对于输入的视频,构建视频片段;
1.2)对于步骤1.1)形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;
1.3)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力特征表达;
1.4)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,结合输入的查询语句,通过全局注意力机制,得到每一个视频片段的全局注意力特征表达;
1.5)根据步骤1.2)得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达,进一步生成查询相关的视频的融合特征表达;
2)根据步骤1)得到的查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对步骤1)构建的卷积多层注意力网络进行训练,固定训练好的参数,得到卷积多层注意力网络模型;
3)将一段待处理的视频构建成视频片段,与查询语句一起输入到卷积多层注意力网络模型中,得到视频镜头的查询相关性得分,将得分最高的视频镜头作为查询相关的视频摘要。
2.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤1.2)具体为:
将每一个视频片段输入到预训练的残差神经网络中,得到每个视频片段的视觉特征其vki表示第k个视频片段中第i个镜头的视觉特征,sk代表第k个视频片
段内的镜头数;
将 中的每一个元素使用一维全卷积神经网络进行编码,并按照如下公
式进行空洞卷积处理,得到第k个视频片段中所有镜头的输出:
其中,2k+1为过滤器的尺寸,f为过滤器,d为空洞因子;
通过时间轴上的池化层处理,得到第k个视频片段的镜头级别的视觉特征表达t为输出特征序列的长度。
3.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,步骤1.3)所述的局部自注意力机制的计算步骤如下:
1.3.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达,按照如下公式获得视频片段内第i个元素和第j个元素的对齐分数向量
其中, 为第k个视频片段内第i个元素的特征向量, 为第k个视频片段内第j个元素的特征向量,P与W1、W2为可训练的dc阶的实参数矩阵,dc为特征向量 的维数,b为dc阶的实偏置向量,tanh(·)为反正切函数;视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×dc,其中t为输出特征序列的长度;
1.3.2)计算视频片段内第i个元素和第j个元素的注意力权重:
1.3.3)计算第k个视频片段的局部自注意力特征表达 计算公式如下:
其中,⊙表示矩阵按位相乘。
4.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,步骤1.4)所述的全局注意力机制的计算步骤如下:
1.4.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达和由两个概念(c1,c2)组成的查询语句q,得到查询相关的视频片段级别的视觉特征表达 n
为视频的片段数; 的计算公式如下:
其中, 表示第k个视频片段对特定查询的聚合特征表达;vT与W1、W2为可训练的参数c
矩阵,b为偏置向量,h为查询的概念表达, 为第k个视频片段内第i个元素的视觉特征表达;
1.4.2)计算每一个视频片段的全局注意力特征表达 的计算公式如
下:
其中,vT与 为可训练的参数矩阵,b为偏置向量, 为第j个视频片段对特定查询的聚合特征表达,即查询相关的视频片段级别的视觉特征表达 中的第j个元素。
5.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤1.5)具体为:
根据视频片段的镜头级别的视觉特征表达、视频片段的局部自注意力特征表达和视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达
其中
则查询相关的视频的融合特征表达为
其中tk表示第k个视频片段的融合特征表达序列的长度。
6.根据权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤2)具体为:
获取查询概念c的嵌入特征fc,根据fc和 按照如下公式得到第k个视频
片段每一个镜头与概念c之间基于距离的相似度di:
其中Wf与Wc是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵;
对于由两个概念(c1,c2)组成的查询q,共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度di1和di2;对于di1和di2,通过多层感知器得到第i个镜头与查询q之间的两个相关性得分,取平均数作为第i个镜头的查询相关性得分si;
由于一段视频包含n个视频片段,根据得到的每一个视频片段中所有镜头的查询相关性得分,构成视频镜头的查询相关性得分s={s1,s2,…,sN},其中N为视频中的镜头总数;
根据给定的查询相关性的基本事实注释 对卷积多层注意力网络进行
训练,损失函数Lsumm的公式如下:
的方法
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于校园大数据的学生行为与心理检测结果的精准分析方法及系统 | 2020-05-11 | 973 |
互联网医疗黄牛风险控制的实现方法 | 2020-05-12 | 156 |
一种基于CBR和RBR的机器人焊接工艺参数优化方法 | 2020-05-11 | 368 |
基于映射字典学习的跨模态哈希检索方法 | 2020-05-13 | 39 |
一种用于舆情分析的可扩展文本分析系统及方法 | 2020-05-12 | 736 |
基于改进非支配排序遗传算法的空间对象索引与查询方法 | 2020-05-14 | 965 |
一种变电设备故障率预测方法,系统,设备及可读存储介质 | 2020-05-13 | 798 |
一种多层级发电厂实时对标优化方法 | 2020-05-08 | 767 |
一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | 2020-05-11 | 759 |
一种电子实验报告生成、智能批阅、存储及下载系统 | 2020-05-12 | 566 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。