一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法专利检索-查询似然模型人工智能专利检索查询-专利查询网

一种利用卷积多层注意力网络机制生成面向查询的视频 摘要的方法

阅读：253发布：2020-05-13

专利汇可以提供一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法。1)针对一组视频，切割构建视频片段。利用全卷积神经网络，提取视频每个镜头的视觉特征。2)利用局部自注意力机制，学习视频片段中所有镜头之间的语义关系，并生成视频镜头的视觉特征。3)利用查询相关的全局注意力机制，学习视频不同片段之间的语义关系，并生成面向查询的视频镜头的视觉特征。4)计算视频镜头和用户查询之间的相似度得分，用来生成查询相关的视频摘要。相比于一般视频摘要解决方案，本发明利用卷积多层注意力机制，能够更准确地反映查询相关的视频视觉特征，产生更加符合的视频摘要。本发明在视频摘要中所取得的效果相比于传统方法更好。，下面是一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法专利的具体信息内容。

权利要求

1.一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法，其特征在于包括如下步骤：
1)构建卷积多层注意力网络，所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制；对于输入的视频及查询语句，利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达；
1.1)对于输入的视频，构建视频片段；
1.2)对于步骤1.1)形成的视频片段，首先利用残差神经网络提取视频片段的视觉特征，然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达；
1.3)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达，通过局部自注意力机制，得到每一个视频片段的局部自注意力特征表达；
1.4)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达，结合输入的查询语句，通过全局注意力机制，得到每一个视频片段的全局注意力特征表达；
1.5)根据步骤1.2)得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达，得到查询相关的视频片段的融合特征表达，进一步生成查询相关的视频的融合特征表达；
2)根据步骤1)得到的查询相关的视频的融合特征表达，结合查询语句的嵌入特征，得到视频镜头的查询相关性得分；根据给定的查询相关性的基本事实注释，对步骤1)构建的卷积多层注意力网络进行训练，固定训练好的参数，得到卷积多层注意力网络模型；
3)将一段待处理的视频构建成视频片段，与查询语句一起输入到卷积多层注意力网络模型中，得到视频镜头的查询相关性得分，将得分最高的视频镜头作为查询相关的视频摘要。
2.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法，其特征在于，所述的步骤1.2)具体为：
将每一个视频片段输入到预训练的残差神经网络中，得到每个视频片段的视觉特征其vki表示第k个视频片段中第i个镜头的视觉特征，sk代表第k个视频片
段内的镜头数；
将中的每一个元素使用一维全卷积神经网络进行编码，并按照如下公
式进行空洞卷积处理，得到第k个视频片段中所有镜头的输出：
其中，2k+1为过滤器的尺寸，f为过滤器，d为空洞因子；
通过时间轴上的池化层处理，得到第k个视频片段的镜头级别的视觉特征表达t为输出特征序列的长度。
3.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法，其特征在于，步骤1.3)所述的局部自注意力机制的计算步骤如下：
1.3.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达，按照如下公式获得视频片段内第i个元素和第j个元素的对齐分数向量
其中，为第k个视频片段内第i个元素的特征向量，为第k个视频片段内第j个元素的特征向量，P与W1、W2为可训练的dc阶的实参数矩阵，dc为特征向量的维数，b为dc阶的实偏置向量，tanh(·)为反正切函数；视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×dc，其中t为输出特征序列的长度；
1.3.2)计算视频片段内第i个元素和第j个元素的注意力权重：
1.3.3)计算第k个视频片段的局部自注意力特征表达计算公式如下：
其中，⊙表示矩阵按位相乘。
4.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法，其特征在于，步骤1.4)所述的全局注意力机制的计算步骤如下：
1.4.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达和由两个概念(c1,c2)组成的查询语句q，得到查询相关的视频片段级别的视觉特征表达 n
为视频的片段数；的计算公式如下：
其中，表示第k个视频片段对特定查询的聚合特征表达；vT与W1、W2为可训练的参数c
矩阵，b为偏置向量，h为查询的概念表达，为第k个视频片段内第i个元素的视觉特征表达；
1.4.2)计算每一个视频片段的全局注意力特征表达的计算公式如
下：
其中，vT与为可训练的参数矩阵，b为偏置向量，为第j个视频片段对特定查询的聚合特征表达，即查询相关的视频片段级别的视觉特征表达中的第j个元素。
5.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法，其特征在于，所述的步骤1.5)具体为：
根据视频片段的镜头级别的视觉特征表达、视频片段的局部自注意力特征表达和视频片段的全局注意力特征表达，得到查询相关的视频片段的融合特征表达
其中
则查询相关的视频的融合特征表达为
其中tk表示第k个视频片段的融合特征表达序列的长度。
6.根据权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法，其特征在于，所述的步骤2)具体为：
获取查询概念c的嵌入特征fc，根据fc和按照如下公式得到第k个视频
片段每一个镜头与概念c之间基于距离的相似度di：
其中Wf与Wc是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵；
对于由两个概念(c1,c2)组成的查询q，共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度di1和di2；对于di1和di2，通过多层感知器得到第i个镜头与查询q之间的两个相关性得分，取平均数作为第i个镜头的查询相关性得分si；
由于一段视频包含n个视频片段，根据得到的每一个视频片段中所有镜头的查询相关性得分，构成视频镜头的查询相关性得分s＝{s1,s2,…,sN}，其中N为视频中的镜头总数；
根据给定的查询相关性的基本事实注释对卷积多层注意力网络进行
训练，损失函数Lsumm的公式如下：

说明书全文

一种利用卷积多层注意力网络机制生成面向查询的视频 摘要

的方法

技术领域

[0001] 本发明涉及视频摘要生成，尤其涉及一种利用卷积多层注意力网络来生成与查询相关的视频摘要的方法。

背景技术

[0002] 自动化的视频摘要技术广泛应用于诸多领域，例如运动识别，监视视频分析，基于个人生活日志视频的可视日记创建，以及视频站点的视频预览。

[0003] 现有的视频摘要方法侧重于寻找最多样化和最具代表性的视觉内容，缺少对用户偏好的考虑。它可以分为两个领域：(1)通用视频摘要(2)面向查询的视频摘要。通用视频摘要通过选择长视频的亮点，并删除视频冗余内容来生成原始视频的紧凑版本；面向查询的视频摘要不仅删除视频的多余部分，找到视频中的关键帧或镜头，而且挑选出与用户查询相关的视频片段。面向查询的视频摘要相较于通用视频摘要的优越性主要体现在以下三点：首先，视频摘要需要考虑用户的主观性，因为不同的用户查询可能会收到不同的视频摘要；其次，通用视频摘要方法的性能评估通常是为了测量时间重叠，从而难以捕获摘要和原始视频之间的语义相似性；第三，文本查询可以为任务带来更多的语义信息。

[0004] 近期面向查询的视频摘要的相关研究主要采取序列标记的思路，采用基于顺序结构的模型，例如长短期记忆网络(LSTM，Long Short-Term Memory)(Hochreiter and Schmidhuber,1997)。对于视频的每个时间步长，模型都会输出一个二进制分数，以判定此框架是否重要以及是否与给定查询相关。但是，顺序模型通常会逐步执行计算，当视频长度增加时，模型的计算时间也会变长。而且，由于梯度消失的问题，当视频太长时，顺序模型不能轻易处理视频之间的长距离关系。在(Rochan，Ye，and Wang 2018)中，使用完全卷积网络进行编码与解码，以解决视频摘要任务，这表明卷积网络可以生成高质量的视频摘要。

发明内容

[0005] 为了克服现有技术中缺少对于用户主观性的考虑，针对于目前较少评估摘要与原始视频之间的语义相似性，并且文本查询会带来额外的语义信息的情况，本发明采用一种利用卷积多层注意力网络(CHAN)来生成面向查询的视频摘要，该方法由两部分组成：特征编码网络和查询相关性计算模块。在特征编码网络中，本发明结合局部自注意力机制和查询相关的全局注意力机制的卷积网络来学习每个镜头的视觉特征，并生成视频的融合特征表达。编码后的视觉特征通过计算视频镜头的查询相关性得分，生成面向查询的视频摘要。

[0006] 本发明所采用的具体技术方案是：

[0007] 1.构建卷积多层注意力网络，所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制；对于输入的视频及查询语句，利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达；

[0008] 1.1对于输入的视频，构建视频片段；

[0009] 1.2对于步骤1.1形成的视频片段，首先利用残差神经网络提取视频片段的视觉特征，然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达；

[0010] 1.3利用步骤1.2得到的视频片段的镜头级别的视觉特征表达，通过局部自注意力机制，得到每一个视频片段的局部自注意力特征表达；

[0011] 1.4利用步骤1.2得到的视频片段的镜头级别的视觉特征表达，结合输入的查询语句，通过全局注意力机制，得到每一个视频片段的全局注意力特征表达；

[0012] 1.5根据步骤1.2得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达，得到查询相关的视频片段的融合特征表达，进一步生成查询相关的视频的融合特征表达；

[0013] 2.根据步骤1得到的查询相关的视频的融合特征表达，结合查询语句的嵌入特征，得到视频镜头的查询相关性得分；根据给定的查询相关性的基本事实注释，对步骤1构建的卷积多层注意力网络进行训练，固定训练好的参数，得到卷积多层注意力网络模型；

[0014] 3.将一段待处理的视频构建成视频片段，与查询语句一起输入到卷积多层注意力网络模型中，得到视频镜头的查询相关性得分，将得分最高的视频镜头作为查询相关的视频摘要。

[0015] 本发明具备的有益效果：

[0016] (1)本发明率先提出利用自注意机制，解决面向查询的视频摘要任务。该方法可以从时序的角度以及视频特征的每个维度，学习视频相同片段内不同帧的相对语义关系，生成具有代表性的视频特征表达。

[0017] (2)本发明在特征编码时，利用全卷积网络以减少时间序列的维数和视频视觉特征的维数，从而减少模型中的参数数量。

[0018] (3)本发明通过计算视频镜头与查询语句之间的查询相关性得分，处理视频和文本查询之间的语义关系，以保证所生成的视频摘要与查询语句之间的语义相关性。

[0019] (4)本发明的模型在包含视频描述信息的数据集上训练，以对视觉内容和文本信息之间的语义关系进行建模，然后解决视频摘要的生成问题。这使模型可以获取足够的语义信息，从而生成高质量的视频摘要。附图说明

[0020] 图1是本发明所使用的对于生成面向查询的视频摘要的卷积多层注意力网络的整体示意图。

具体实施方式

[0021] 下面结合附图和具体实施方式对本发明做进一步阐述和说明。

[0022] 如图1所示，本发明利用卷积多层注意力网络机制来生成面向查询的视频摘要的方法包括如下步骤：

[0023] 步骤一、对于输入的视频，构建视频片段。

[0024] 对于所给视频，使用名为“核时间分割”(Kernel Temporal Segmentation,Potapovetal.2014)的算法，构建视频片段，得到视频镜头序列(s1,s2,…,sn)，其中n为视频的镜头数。

[0025] 步骤二、利用残差神经网络提取视频片段的视觉特征，然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达。

[0026] 将每一个视频片段输入到预训练的残差神经网络中，得到每个视频片段的视觉特征其vki表示第k个视频片段中第i个镜头的视觉特征，sk代表第k个视频片段内的镜头数；

[0027] 将中的每一个元素使用一维全卷积神经网络进行编码，并按照如下公式进行空洞卷积处理，得到第k个视频片段中所有镜头的输出：

[0028]

[0029] 其中，2k+1为过滤器的尺寸，f为过滤器，d为空洞因子；

[0030] 通过时间轴上的池化层处理，得到第k个视频片段的镜头级别的视觉特征表达t为输出特征序列的长度。

[0031] 步骤三、采用局部自注意力机制，得到每一个视频片段的局部自注意力特征表达。

[0032] 根据视频片段的镜头级别的视觉特征表达，按照如下公式获得视频片段内第i个元素和第j个元素的对齐分数向量

[0033]

[0034] 其中，为第k个视频片段内第i个元素的特征向量，为第k个视频片段内第j个元素的特征向量，P与W1、W2为可训练的dc阶的实参数矩阵，dc为特征向量的维数，b为dc阶的实偏置向量，tanh(·)为反正切函数；视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×dc，其中t为输出特征序列的长度；

[0035] 计算视频片段内第i个元素和第j个元素的注意力权重：

[0036]

[0037] 计算第k个视频片段的局部自注意力特征表达计算公式如下：

[0038]

[0039] 其中，⊙表示矩阵按位相乘。

[0040] 步骤四、通过全局注意力机制，得到每一个视频片段的全局注意力特征表达。

[0041] 根据视频片段的镜头级别的视觉特征表达和由两个概念(c1,c2)组成的查询语句q，得到查询相关的视频片段级别的视觉特征表达 n为视频的片段数；的计算公式如下：

[0042]

[0043]

[0044]

[0045] 其中，表示第k个视频片段对特定查询的聚合特征表达；vT与W1、W2为可训练的参数矩阵，b为偏置向量，hc为查询的概念表达，为第k个视频片段内第i个元素的视觉特征表达；

[0046] 计算每一个视频片段的全局注意力特征表达的计算公式如下：

[0047]

[0048]

[0049]

[0050] 其中，vT与W1g、为可训练的参数矩阵，b为偏置向量，为第j个视频片段对特定查询的聚合特征表达，即查询相关的视频片段级别的视觉特征表达中的第j个元素。

[0051] 步骤五、获取查询相关的视频的融合特征表达。

[0052] 根据视频片段的镜头级别的视觉特征表达、视频片段的局部自注意力特征表达和视频片段的全局注意力特征表达，得到查询相关的视频片段的融合特征表达其中

[0053] 则查询相关的视频的融合特征表达为

[0054] 步骤六、根据查询相关的视频的融合特征表达，结合查询语句的嵌入特征，得到视频镜头的查询相关性得分；根据给定的查询相关性的基本事实注释，对卷积多层注意力网络进行训练，得到卷积多层注意力网络模型。

[0055] 获取查询概念c的嵌入特征fc，根据fc和按照如下公式得到第k个视频片段每一个镜头与概念c之间基于距离的相似度di：

[0056]

[0057] 其中Wf与Wc是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵；

[0058] 对于由两个概念(c1,c2)组成的查询q，共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度di1和di2；对于di1和di2，通过多层感知器得到第i个镜头与查询q之间的两个相关性得分，取平均数作为第i个镜头的查询相关性得分si；

[0059] 由于一段视频包含n个视频片段，根据得到的每一个视频片段中所有镜头的查询相关性得分，构成视频镜头的查询相关性得分s＝{s1,s2,…,sN}，其中N为视频中的镜头总数；

[0060] 根据给定的查询相关性的基本事实注释对卷积多层注意力网络进行训练，损失函数Lsumm的公式如下：

[0061]

[0062] 随后将损失最小化，得到与查询相关性最强的视频镜头，输出查询相关的视频摘要。

[0063] 下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

[0064] 实施例

[0065] 本发明在(Sharghi，Laurel和Gong 2017)中提出的针对查询的视频摘要数据集上进行实验验证。数据集包含4个视频，其中包含不同的日常生活场景，每个视频持续3到5个小时。数据集提供一组用于用户查询的概念，其中概念总数为48；数据集中有46个查询，每个查询由两个概念组成，查询共有四种场景，即1)查询中的所有概念都出现在同一视频中；2)查询中的所有概念都出现在视频中但不是同一张照片；3)查询中的一些概念出现在视频中；4)查询中的所有概念都没有出现在视频中。数据集提供了标注于视频镜头上的注释，每个镜头标记了几个概念。随后本发明对于针对查询的视频摘要数据集进行如下预处理：

[0066] 1)将视频采样为1fps，然后将所有帧的大小调整为244×244。随后利用在ImageNet数据库中预训练好的ResNet获取每一帧的2048维的视觉特征表达。

[0067] 2)以5秒作为视频的一个镜头，并计算出同一镜头中每一帧的平均值，作为镜头级别的特征表达。

[0068] 3)利用KTS算法(Kernel Temporal Segmentation,Potapovetal.2014)，将视频分成小片段，视频中的片段数不超过20并且同一片段内的镜头数不超过200。

[0069] 4)对于每个查询中的概念单词，使用Glove向量(Pennington，Socher和Manning 2014)提取其概念的单词级别表达。

[0070] 为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了precision、recall及F1 score来对于本发明的效果进行评价。将本发明与其他针对查询的视频摘要方法进行比较，包括以下四个方法：SeqDPP method(Gong et al.2014)，SH-DPP(Sharghi,Gong,and Shah 2016)，QC-DPP(Sharghi,Laurel,and Gong 2017)，TPAN(Wei et al.2018)。对于本发明提出的CHAN(Convolutional Hierarchical Attention Network)分为以下3类进行测试，CHAN w/o Local Att(不包含局部自注意力模块)，CHAN w/o Global Att(不包含查询相关的全局注意力模块)，CHAN(既包含局部自注意力模块也包含查询相关的全局注意力模块)。对于实验中的全卷积神经网络，第一层输出通道的维数为256，第二层输出通道的维数为512。在局部自注意力模块和查询相关的全局注意力模块，视频的特征向量维数dc设置为256。在训练过程中，使用Adamoptimizer(Kingma and Ba 2014)将损失最小化，初始学习率为0.0001，衰减率为0.8。将批数据集大小(batch size)设置为5。获得相似度得分后，我们通过选择得分最高的视频镜头来创建与查询相关的视频摘要。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示：

[0071] 表1本发明针对于面向查询的视频摘要的数据集与不同方法的比较结果[0072]

[0073] 表2本发明生成面向查询的视频摘要的消融实验结果

[0074] Model Pre Rec F1CHAN w/o Local Att 42.72 49.04 43.26
CHAN w/o Global Att 37.62 43.17 38.09
CHAN 46.40 53.13 46.94

标题	发布/更新时间	阅读量
一种基于校园大数据的学生行为与心理检测结果的精准分析方法及系统	2020-05-11	973
互联网医疗黄牛风险控制的实现方法	2020-05-12	156
一种基于CBR和RBR的机器人焊接工艺参数优化方法	2020-05-11	368
基于映射字典学习的跨模态哈希检索方法	2020-05-13	39
一种用于舆情分析的可扩展文本分析系统及方法	2020-05-12	736
基于改进非支配排序遗传算法的空间对象索引与查询方法	2020-05-14	965
一种变电设备故障率预测方法，系统，设备及可读存储介质	2020-05-13	798
一种多层级发电厂实时对标优化方法	2020-05-08	767
一种基于强化学习和迁移学习的动态金融知识图谱构建方法	2020-05-11	759
一种电子实验报告生成、智能批阅、存储及下载系统	2020-05-12	566

一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

一种利用卷积多层注意力网络机制生成面向查询的视频摘要

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：