一种基于动态注意力机制的多事件视频描述方法专利检索-视频编码层视听技术与设备专利检索查询-专利查询网

一种基于动态注意力机制的多事件视频描述方法

阅读：733发布：2020-05-08

专利汇可以提供一种基于动态注意力机制的多事件视频描述方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于动态注意力机制的多事件视频描述方法，包括如下步骤：将视频序列输入三维卷积神经网络，提取视频的视觉特征；采用基于注意力机制的视频编码层对视觉特征进行编码，并将特征编码输入到事件预测层；事件预测层根据视频编码信息对各个事件进行预测；事件描述层根据事件预测结果获取各事件视觉特征，并动态结合自身的上下文信息产生各事件的文字描述。所述方法克服了现有多事件视频描述方法并行性差，效率低的缺点，同时保证了视频描述生成的准确性，并能够采用端到端的方式进行模型的训练。，下面是一种基于动态注意力机制的多事件视频描述方法专利的具体信息内容。

权利要求

1.一种基于动态注意力机制的多事件视频描述方法，其特征在于，包括以下步骤：
步骤一、采用卷积神经网络提取目标视频序列X的视觉特征V；
步骤二、将视频的视觉特征V输入到L层自注意力机制视频编码层，得到视频的编码Fi；
步骤三、利用事件预测层根据视频编码Fi产生对事件的预测φi，并选取预测置信度最高的层预测作为最终预测结果φk；
步骤四、基于事件预测层的预测结果生成事件j的掩膜采用掩模截取事件j的视觉特征序列：
其中⊙表示矩阵元素依次相乘；
采用平均池化得到事件j的视觉特征向量Cj：
其中 n为特征序列的长度；
将事件的视觉特征向量和上下文向量H融合得到调整后的最终特征向量
假设事件j的描述Sj由Ts个单词组成，即则将编码器生成一个单词w视为一个时间周期，则Sj的生成需要Ts个时间周期，则
将事件的视觉特征和上下文特征ht-1映射到同一个特征空间： h′t-1＝tanh(Wcht-1)，Wv和Wc为视觉特征和上下文特征的映射矩阵，上下文特征ht-1为LSTM单元在上一个时刻的隐藏状态。ht的更新由当前输入单词的特征向量Et，输入视觉特征向量前一个时刻的隐藏状态ht-1共同决定：其中Et＝E[wt-1]，特
别地， E0＝E[＜BOS＞]；
计算上下文特征的门限值 Et为解码器在t时刻的输入词wt-1的嵌
入向量；
采用门限机制将视觉特征和上下文特征融合：事件j的最
终特征表示
将事件j的最终特征表示输入LSTM解码器解码，得到事件j的描述Sj。
2.根据权利要求1所述基于动态注意力机制的多事件视频描述方法，其特征在于：所述步骤二中视频的编码步骤为：
将视觉特征V作为第一个编码器层的输入，该层输出为F1＝E(V)，其余层编码器将前面一层的输出作为输入，编码输出为Fl+1＝E(Fl)。
3.根据权利要求2所述基于动态注意力机制的多事件视频描述方法，其特征在于：每个编码器层均包括一个多头注意力层和一个点式前馈层；
所述多头注意力层计算公式为：
点式前馈层计算公式为：
E(Fl)＝LN(FF(Ω(Fl))，Ω(Fl))
其中，LN(p，q)＝LayerNorm(p+q)，表示在残留输出上进行归一化操作，FF(·)表示第一层具有非线性ReLU激活函数的两层前馈神经网络，是该网络的权值矩阵，为偏执因子，Ω(·)的定义使用了自注意力机制，在第t步的编码过程中，被作为注意力层的查询，得到的输出是fil(i＝1，2，...，T)的加权和。
4.根据权利要求1所述基于动态注意力机制的多事件视频描述方法，其特征在于：所述步骤三中事件预测层根据视频编码Fi产生对事件的预测的具体方法如下：
步骤3.1、将视频编码Fi输入到事件预测层的基础层；
步骤3.2、将基础层的输出特征输入到事件预测层的锚层，逐步减少特征的时间维度；
步骤3.3、将每个锚层的输出输入到预测层，并一次性生成一组固定的事件预测。
5.根据权利要求4所述基于动态注意力机制的多事件视频描述方法，其特征在于：所述步骤三中第i层第j个事件的预测的计算方法为：
通过下式计算事件的边界
和分别代表优化之前的锚的中央位置和宽度，为优化之前锚的中央位置的时序偏移量，为优化之前锚的宽度的时序偏移量，exp(·)为指数函数，和分别代表优化之后的锚的中央位置和宽度；
通过下式计算事件的预测置信度sj：
和分别表示事件的分类置信度和语言上的描述可信度，λ为超参数。
6.根据权利要求5所述基于动态注意力机制的多事件视频描述方法，其特征在于：
所述步骤三中最终预测结果φk的选取方法为选取事件预测置信度之和最大的一层的预测作为最终预测结果：

说明书全文

一种基于动态注意力机制的多事件视频描述方法

技术领域

[0001] 本发明涉及一种基于动态注意力机制的多事件视频描述方法，属于计算机视觉中的视频描述领域。

背景技术

[0002] 视频标签(VideoTagging)是一种对视频内容进行分析,并形成分类标签的技术，视频标签能有效提取视频的关键信息，被广泛应用于视频存储和检索领域。但是视频标签不能表现出视频更加详细的信息。视频描述(VideoCaptioning)是通过计算机自动生成视频的自然语言描述的过程，通过视频描述不仅能提取到视频中的关键元素，还能通过句子描述体现出这些元素之间的关联，因此视频描述在视频存储检索、人机交互、知识抽取等领域具有重要的应用价值和发展前景。

[0003] 与对图像描述(ImageCaptioning)不同的是，视频包含有大量的，不断变化的时空信息，如何高效获取有用的信息进行准确的视频描述是计算机视觉领域一个重大的挑战。S.Venugopalan等人提出的S2VT(Sequence to Sequence-Video to Text)算法是深度学习方法在视频描述领域的首次成功运用。该方法提取视频的2D卷积特征和光流特征，并输入两层栈式LSTM网络来产生视频的描述，奠定了采用编码器-解码器(Encoder-Decoder)架构进行视频描述算法的基础。目前视频描述领域已经有了不少研究成果，但大部分是在S2VT算法的基础上的改进，如采用3DCNN提取视频特征、采用多模态融合的特征、采用改进的GRU网络进行解码等。

[0004] 一段长视频包含的事件可能有多个，传统的视频描述方法生成一句话来描述视频过于粗糙，只能描述到一部分信息，为了解决这以问题，密集视频描述(DenseVideoCaptioning)应运而生。密集视频描述是由Z.Shen等人在《Weakly Supervised Dense Video Captioning》这篇文章中提出的，对一段视频，先提取出不同的区域序列，然后对每个区域序列生成一句描述，这就是现在密集视频描述普遍采用的事件预测(EventProposal)-描述生成(CaptionGeneration)架构的雏形。相比于传统的视频描述算法，该算法提出的区域序列的描述更加精细化，更富有信息量，开辟了一个全新的研究方向。

[0005] 近年来关于密集视频描述的研究主要是有效提取并表示视频中的信息以及提高事件预测的精度。针对第一个问题，注意力机制(如Describing Videos by Exploiting Temporal Structure)替代最初的平均池化方法来生成视频信息表示，较好地解决了视频时序信息在编码过程中丢失的问题。针对第二个问题，J.Wang等人(Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning)指出大部分的方法在视频编码过程中只提取了视频序列后向的上下文信息，而忽略了前向的上下文信息，从而导致事件预测方法不能区分出高程度重叠的事件。因此，他们提出了一个双向视频编码方法，采用两层LSTM网络分别对视频的前向和后向上下文信息进行编码，并根据融合后的上下文信息进行事件预测，从而提高了事件预测的准确性。

[0006] 但是现有的密集视频描述生成方法仍存在问题，大部分方法在进行视频解码时，只是简单将上下文特征和视觉特征连接得到解码器的输入，因此生成的描述并不准确。同时被广泛采用的LSTM视频编码器存在并行性差的问题。因此需要一种高效的密集视频描述生成方法，能够对视频中的事件进行快速精确定位和描述。

发明内容

[0007] 本发明为了解决现有密集视频描述生成算法中存在的并行性差、准确性低的问题，提供一种基于动态注意力机制的多事件视频描述方法，实现对视频中的事件进行准确定位和描述。为了达到上述目的，本发明提出的技术方案为：一种基于动态注意力机制的多事件视频描述方法，其特征在于，包括以下步骤：

[0008] 步骤一、采用卷积神经网络提取目标视频序列X的视觉特征V；

[0009] 步骤二、将视频的视觉特征V输入到L层自注意力机制视频编码层，得到视频的编码Fi；

[0010] 步骤三、利用事件预测层根据视频编码Fi产生对事件的预测φi，并选取预测置信度最高的层预测作为最终预测结果φk；

[0011] 步骤四、基于事件预测层的预测结果生成事件j的掩膜采用掩模截取事件j的视觉特征序列：

[0012]

[0013] 其中⊙表示矩阵元素依次相乘；

[0014] 采用平均池化得到事件j的视觉特征向量Cj：

[0015]

[0016] 其中 n为特征序列的长度；

[0017] 将事件的视觉特征向量和上下文向量H融合得到调整后的最终特征向量[0018] 假设事件j的描述Sj由Ts个单词组成，即则将编码器生成一个单词w视为一个时间周期，则Sj的生成需要Ts个时间周期，则

[0019] 将事件的视觉特征和上下文特征ht-1映射到同一个特征空间：h′t-1＝tanh(Wcht-1)，Wv和Wc为视觉特征和上下文特征的映射矩阵，上下文特征ht-1为LSTM单元在上一个时刻的隐藏状态。ht的更新由当前输入单词的特征向量Et，输入视觉特征向量前一个时刻的隐藏状态ht-1共同决定：其中Et＝E
[wt-1]，特别地， E0＝E[]；

[0020] 计算上下文特征的门限值 Et为解码器在t时刻的输入词wt-1的嵌入向量；

[0021] 采用门限机制将视觉特征和上下文特征融合：事件j的最终特征表示

[0022] 将事件j的最终特征表示输入LSTM解码器解码，得到事件j的描述Sj。

[0023] 所述步骤二中视频的编码步骤为：

[0024] 将视觉特征V作为第一个编码器层的输入，该层输出为F1＝E(V)，其余层编码器将前面一层的输出作为输入，编码输出为Fl+1＝E(Fl)。

[0025] 每个编码器层均包括一个多头注意力层和一个点式前馈层；

[0026] 所述多头注意力层计算公式为：

[0027]

[0028] 点式前馈层计算公式为：

[0029] E(Fl)＝LN(FF(Ω(Fl)),Ω(Fl))

[0030]

[0031] 其中，LN(p,q)＝LayerNorm(p+q)，表示在残留输出上进行归一化操作，FF(·)表示第一层具有非线性ReLU激活函数的两层前馈神经网络，是该网络的权值矩阵，l为偏执因子，Ω(·)的定义使用了自注意力机制，在第t步的编码过程中，ft被作为注意力层的查询，得到的输出是fil(i＝1,2,…,T)的加权和。

[0032] 所述步骤三中事件预测层根据视频编码Fi产生对事件的预测的具体方法如下：

[0033] 步骤3.1、首先将视频编码Fi输入到事件预测层的基础层；

[0034] 步骤3.2、将基础层的输出特征输入到事件预测层的锚层，逐步减少特征的时间维度；

[0035] 步骤3.3、将每个锚层的输出输入到预测层，并一次性生成一组固定的事件预测。

[0036] 所述步骤三中第i层第j个事件的预测的计算方法为：

[0037] 通过下式计算事件的边界

[0038]

[0039]

[0040]

[0041]

[0042] 和分别代表优化之前的锚的中央位置和宽度，为优化之前锚的中央位置的时序偏移量，为优化之前锚的宽度的时序偏移量，exp(·)为指数函数，和分别代表优化之后的锚的中央位置和宽度；

[0043] 通过下式计算事件的预测置信度sj：

[0044]

[0045] 和分别表示事件的分类置信度和语言上的描述可信度，λ为超参数。

[0046] 所述步骤三中最终预测结果φk的选取方法为选取事件预测置信度之和最大的一层的预测作为最终预测结果：

[0047]

[0048] 本发明的有益效果为：

[0049] 本发明提出的一种基于动态注意力机制的多事件视频描述方法，采用自注意力机制对视觉特征进行编码，将特征编码输入到事件预测层；事件预测层根据视频编码信息对视频中的各个事件进行预测。事件描述层根据事件预测的结果和视频特征，并动态融合解码器的上下文信息产生各个事件的文字描述。所述方法将自注意力机制和前馈神经网络进行结合替代了基于LSTM网络的视频编码器，克服了采用LSTM网络对视频进行编码并行性差，效率低的缺点，同时保证了视频描述生成的准确性。

[0050] 本发明在获取事件的视觉特征时根据事件预测结果生成的掩膜矩阵来截取事件对应的视觉特征，从而使解码器获得有效的信息，排除其他信息的干扰，鲁棒性和稳定性高。

[0051] 本发明在视频解码时将事件视觉特征和解码器的上下文信息动态融合，采用门限动态调整解码器的输入中视觉特征与上下文特征所占的比例，从而产生更准确，更连贯的事件描述。

[0052] 本发明提出的方法通过最小化总损失(包括事件预测损失和句子生成损失)来进行端到端的模型训练的，训练效率和稳定性高，降低了训练成本。附图说明

[0053] 图1是本发明实施例方法的流程图；

[0054] 图2为本发明实施例方法的结构框图；

[0055] 图3为本发明实施例方法的流程示意图；

[0056] 图4为本发明实施例中视觉特征和上下文信息动态融合机制示意图；

[0057] 图5为本发明实施例方法在ActivityNet Captions数据集上的运行结果。

具体实施方式

[0058] 下面结合附图以及具体实施例对本发明进行详细说明。

[0059] 实施例

[0060] 如图1、图2和图3所示，本发明设计了一种基于动态注意力机制的多事件视频描述方法，该方法具体包括以下步骤：

[0061] 步骤1：采用卷积神经网络(本实施例中采用3D-CNN)提取视频序列X＝{x1,x2,…xL}的视觉特征V＝{v1,v2,…vT}。

[0062] 对于一个L 帧的视频序列X＝{x1,x2,…xL}，采用在Sports-1M视频数据集上预训练的3DCNN对其视频帧进行特征提取。提取的C3D特征的时间分辨率为δ＝16帧，因此输入的视频流可以被离散化为T＝L/δ步，因此最后生成的特征序列为V＝{v1,v2,…vT}。

[0063] 步骤2：将视频的视觉特征V输入到L层自注意力视频编码层，得到视频的编码表示{F1,F2,…Fl}。

[0064] 步骤1得到的特征序列作为L个编码器层的输入，每个编码器层都是由一个多头注意力层和点式前馈层组成的。每层编码器将其前面一层的输出作为输入，编码得到本层的输出Fl+1＝E(Fl)，特别地，F1＝E(V)。具体方法如下：

[0065] 多头注意力层：

[0066]

[0067] 点式前馈层：

[0068] E(Fl)＝LN(FF(Ω(Fl)),Ω(Fl))

[0069]

[0070] 其中，LN(p,q)＝LayerNorm(p+q)，表示在残留输出上进行归一化(LayerNormalization)操作，FF(·)表示第一层具有非线性ReLU激活函数的两层前馈神经网络，是该网络的权值矩阵，为偏执因子。Ω(·)的定义使用了自注意力机l l
制，在第t步的编码过程中，ft被作为注意力层的查询，得到的输出是fi (i＝1,2,…,T)的加权和，因此第t步不仅编码了当前步的信息还有其他步的信息，这样经过自注意力机制的每一步编码都包含有所有的上下文信息。

[0071] 多头注意力机制由N个放缩点积注意力层组成：

[0072]

[0073] 每层为一个“头”，“头”的定义为：

[0074] headi＝Attention(WiQQ,WiKK,WiVV)

[0075] 其中WiQ，WiK，WiV为映射矩阵。放缩点积注意力的定义为：

[0076]

[0077] 其中分别为查询矩阵，键矩阵，值矩阵。qi，ki，vi的维度都为d。其通过计算查询q和键kt(t＝1,…,T)的点积得到值vt的权重，然后对vt加权求和得到输出。

[0078] 步骤3：事件预测层根据各层的视频编码Fi对视频中的事件进行预测，得到各编码层对事件的预测φi，并选取预测置信度最高的k＝argMax(φi)层预测作为最终预测结果。具体实现如下：

[0079] (1)视频编码Fi首先被输入到事件预测层的基础层(conv1和conv2)，以减小视频编码的时间维数，增大其时间接收域，最后的输出特征维数为T/2×1024。

[0080] (2)基础层的输出特征然后被输入到九个锚层(conv3到conv11，每个锚层的核大小为3，步长为2，滤波器数量为512)，逐步减少特征的时间维度，以便于在多个时间尺度上进行事件预测。

[0081] (3)每个锚层的输出都会被预测层接收，并一次性生成一组固定的事件预测。具体地，对于一个大小为Tj×Dj的输入特征fj，它的事件预测结果由一个通过全连接层的1×Dj的特征单元生成的，其中是进行事件/背景二分类时的分类得分，是描述性得分，表示预测事件能够被很好地描述的可信度。分别是事件j相对于与其关联的锚的中央位置和宽度的偏移量。

[0082] (4)其中第i层第j个事件的预测表示的计算方法为：

[0083] a.事件的边界通过下式计算：

[0084]

[0085]

[0086]

[0087]

[0088] 和分别代表优化之前的锚的中央位置和宽度，为优化之前锚的中央位置的时序偏移量，为优化之前锚的宽度的时序偏移量，exp(·)为指数函数，和分别代表优化之后的锚的中央位置和宽度。

[0089] b.事件的预测置信度 sj的计算结合了事件在视觉的分类置信度和语言上的描述可信度 λ为超参数。

[0090] (5)最终预测结果φk的选取方法为选取事件预测置信度之和最大的一层的预测作为最终预测结果：

[0091]

[0092] 步骤4：事件描述层根据事件预测层的预测结果生成事件j的掩膜使用掩膜截取视觉特征序列V，得到事件j对应的视觉特征然后对应用平均池化得到视频的视觉特征向量Cj，并将视觉特征向量和上下文向量H融合得到最终特征向量最后将其输入LSTM解码器解码，得到事件j的描述Sj。具体方法如下：

[0093] (1)基于事件预测层的预测结果生成事件j的掩膜该掩膜的作用范围由事件j的边界确定：

[0094]

[0095] (2)采用掩模截取事件j的视觉特征序列：

[0096]

[0097] 其中⊙表示矩阵元素相乘。

[0098] (3)采用平均池化得到事件j的视觉特征向量Cj：

[0099]

[0100] 其中 n为特征序列的长度。

[0101] (4)将事件的视觉特征向量和上下文向量H融合得到调整后的最终特征向量[0102] 假设事件j的描述Sj由Ts个单词组成，即将编码器生成一个单词w视为一个时间周期，则Sj的生成需要Ts个时间周期，则 t时刻视频解码的输出，不仅与事件的视觉特征有关还与解码器的上下文信息有关。将事件的视觉特征向量Cj与解码器的上下文特征ht-1动态融合，调整解码器的输入中视觉特征与上下文特征所占的比例，从而产生更准确的事件描述。具体方法如图4：

[0103] a.将事件的视觉特征和上下文特征映射到同一个特征空间：

[0104] h′t-1＝tanh(Wcht-1)，Wv和Wc为视觉特征和上下文特征的映射矩阵,

[0105] b.计算上下文特征的门限值 Et为LSTM解码器在t时刻的输入词wt-1的嵌入向量。

[0106] c.采用门限机制将视觉特征和上下文特征融合：事件j的最终特征表示

[0107] (5)将事件j的最终特征表示输入LSTM解码器解码，得到事件j的描述Sj：

[0108] a.LSTM是视频解码器基本组成单元，其隐藏状态ht的更新由当前输入单词的特征向量Et ，输入视觉特征向量前一个时刻的隐藏状态ht-1共同决定：其中Et＝E[wt-1]，特别地， E0＝E[]。

[0109] 具体地，LSTM单元由输入门Git、遗忘门Gft、输出门Got和输入单元gt组成，具体计算方式为：

[0110]

[0111] 其中σ表示sigmoid激活函数，tanh表示双曲正切函数，W为转换矩阵，需要通过模型训练来确定。LSTM的存储单元ct和隐藏状态ht通过下式进行更新：

[0112] ct＝Gft⊙ct-1+it⊙gt

[0113] ht＝Got⊙tanh(ct)

[0114] 其中，⊙表示矩阵元素相乘操作。

[0115] b.根据t时刻LSTM的隐藏状态ht计算一组可能的单词的概率分布Pt＝softmax(Uψp(Wpht+bp)+d)，Up，Wp，bp，和d参数需要通过模型的训练来确定。

[0116] c.将解码器softmax层输出的概率分布Pt作为各个单词的概率分布θ代表整个模型的参数。模型参数θ的学习是通过最小化单词的概率分布的
负对数进行的： Ts为视频描述的长度。

[0117] d.模型参数确定之后，采用束搜索(BeamSearch)算法产生事件的描述，即选择t时刻之前前k个最好的描述作为t时刻描述的候选者，一直迭代该过程直至完成描述。最终选择Sj＝argMaxS(-Lc(S))为事件j的描述。

[0118] 模型的训练：

[0119] 对应事件预测和事件描述两个模块，该模型有两个损失函数：事件预测损失Lp和事件描述损失Lc。

[0120] 对于一个包含有NE个事件的视频特征序列V＝{v1,v2,…vT}，有一个真实标签序列V＝＝{y1,y2,…yT}与之对应。每个yt都是一个NE维向量，其每个元素取值为0或1。当vt所对应的事件预测边界与事件j的真实边界的时域交并比(tIoU)大于0.5时，将设为1，反之设为0。

[0121] 本发明采用加权多标签交叉熵作为事件预测损失函数：

[0122]

[0123] 其中分别由正确预测、错误预测的数量来确定。为t时刻事件i的预测置信度。通过对所有视频序列的事件预测损失取平均得到Lp。

[0124] 单个事件描述损失Lc(S)的定义已经在步骤4-(5)-b中给出，通过对所有视频序列的所有事件的描述损失取平均得到Lc。

[0125] 总损失函数L＝λpLp+λcLc。λp、λc是用于平衡各个损失在总损失中贡献的系数。整个模型的训练是通过最小化损失函数以端到端的方式进行的。

[0126] 图5展示了本方法在ActivityNetCaptions数据集上的运行结果，结果显示本上述方法与传统的基于注意力机制的密集视频描述算法相比，生成的事件描述更具体，前后句子更加连贯，能够表达出更丰富的信息。同时该方法也有效克服了现有视频密集描述生成算法并行性差、效率低的不足，具有更强的实用性和鲁棒性。

[0127] 本发明的技术方案不局限于上述各实施例，凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

标题	发布/更新时间	阅读量
将子块细分的推导用于来自基础层的预测的可伸缩视频编码	2020-05-12	834
用于视频编码的自适应环内滤波	2020-05-12	197
一种视频编码的方法和装置	2020-05-08	697
图像处理方法、装置、存储介质及电子设备	2020-05-08	595
仿射模型的多个假设	2020-05-08	85
一种基于动态注意力机制的多事件视频描述方法	2020-05-08	733
在native层实现无缝录像的方法、装置及终端设备	2020-05-08	810
一种360度视频帧间快速编码方法	2020-05-08	379
基于非对称多层LSTM的连续手语视频自动翻译方法	2020-05-12	178
处理传输媒体数据和指定参考图像的方法和装置	2020-05-11	553

一种基于动态注意力机制的多事件视频描述方法

一种基于动态注意力机制的多事件视频描述方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：