基于语义指导与记忆机制的视频描述方法专利检索-相似性得分人工智能专利检索查询-专利查询网

基于语义指导与记忆机制的视频描述方法

阅读：422发布：2020-05-12

专利汇可以提供基于语义指导与记忆机制的视频描述方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于语义指导与记忆机制的视频描述方法，主要解决现有技术中视频语义信息利用不足，LSTM网络记忆能力有限的问题，其实现方案是：提取视频的视觉特征；利用单词与视频的视觉特征训练多层感知机得到语义属性预测器；使用注意力机制对视觉特征进行动态的加权求和；构建外部记忆网络，以与LSTM网络进行信息交互；将视频的语义属性融入加权求和后的视觉特征与记忆网络，计算视频的单词概率分布；更新参数，使训练集中所有视频的单词概率分布接近正确分布；固定更新后的参数，得到测试集中视频的描述。本发明能充分利用视频信息，且记忆力强，获得的视频描述准确，可用于视频检索或人机交互中视频的自动语义描述。，下面是基于语义指导与记忆机制的视频描述方法专利的具体信息内容。

权利要求

1.一种基于语义指导与记忆机制的视频描述方法，其特征在于，包括如下：
(1)从公开网络下载视频描述任务的数据集Q，将该数据集Q划分为训练集E和测试集S，
将数据集Q中每个视频分解成视频单帧图像，使用已预训练好的ResNet152网络提取视频单
帧图像的目标视觉特征fi，构成每个视频的一组目标视觉特征{fi}，i＝1,2,…,n，n为每个
视频的总帧数；
(2)将数据集Q中每个视频的连续16帧图像作为一个视频段，使用已预训练好的C3D-
ResNet18网络提取每个视频段的动作视觉特征mj，构成每个视频的一组动作视觉特征{mj}，
j＝1,2,…,r，r为每个视频的总视频段数；
(3)将训练集E中句子所包含的单词分为三种类型的语义属性词典：全局语义属性词
典、目标语义属性词典、动作语义属性词典，用这三种类型的语义属性词典与视频的视觉特
征分别训练多层感知机模型，得到三个语义属性预测器；
(4)取数据集Q中的一个视频，在LSTM网络生成描述该视频的每个单词时，使用注意力
机制中的注意力分值，分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进
行加权求和，得到加权求和后的结果和
(5)创建一个M×N的矩阵作为外部记忆网络，M代表记忆网络中存储器的总数，N代表每
个位置的存储长度，该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互；
(6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器，分别得
到该视频全局语义属性ga、目标语义属性oa、动作语义属性va；
(7)用全局语义属性ga分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从
外部记忆网络读取的信息进行融合，分别得到融合后的结果 m*；
(8)用目标语义属性oa与(4)得到的目标视觉特征的加权和进行融合，得到融合
后的结果v*；
(9)用动作语义属性va与(4)得到的动作视觉特征的加权和进行融合，得到融合
后的结果c*；
(10)将(7)～(9)的计算过程重复4遍，分别得到4组融合结果 mi、vi、ci，
mf、vf、cf， mo、vo、co， mg、vg、cg；
(11)将(10)计算的结果输入LSTM网络，得到LSTM网络当前时刻的隐藏状态；
(12)用全局语义属性ga与LSTM网络当前时刻的隐藏状态ht进行融合，得到融合后的结
果R1，用目标语义属性oa与(4)得到的目标视觉特征的加权和进行融合，得到融合后
的结果R2，用动作语义属性va与(4)得到的动作视觉特征的加权和进行融合，得到融
合后的结果R3，并将R1、R2、R3进一步融合得到Pt；
(13)将(12)的计算结果输入到softmax函数，计算得到数据集Q所选视频的当前时刻的
单词概率分布wt；
(14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ)；
(15)对训练集E中的每个视频进行(4)～(14)操作，用Adam 算法更新所有随机初始化的
参数，使所有视频的交叉熵总和最小；
(16)在步骤14完成所有参数的更新后，固定所有参数的值，对测试集S中的每个视频进
行(4)～(13)操作，对于测试集S中的每个视频的单词概率分布，取概率值最大的单词作为
描述该视频的单词。
2.根据权利要求1所述的方法，其特征在于，(3)中将训练集E中句子所包含的单词分为
三种类型的语义属性词典，按如下过程进行：
(3a)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析，从解析出
的关系中选择名词主语和直接宾语；
(3b)从名词主语和直接宾语的单词对中提取名词和动词，从中选择出现频次最高的前
T个单词来构建全局语义属性词典；
(3c)在一个视频的所有句子描述中选择出现次数不少于两次的名词，用这些名词构建
出目标语义属性词典；
(3d)在一个视频的所有句子描述中选择出现次数不少于两次的动词，用这些动词构建
出动作语义属性词典。
3.根据权利要求1所述的方法，其特征在于，(3)中用三种类型的语义属性词典与视频
的视觉特征分别训练多层感知机模型，得到三个语义属性预测器，按如下过程进行：
(3e)对于训练集E中的一个视频，用g＝[g1,g2,…gi,…gK]∈{0,1}K表示该视频的全局
语义属性，用o＝[o1,o2,…oi,…oX]∈{0,1}X表示该视频的目标语义属性，用v＝[v1,v2,…
vi,…vY]∈{0,1}Y表示该视频的动作语义属性，其中，gi是g中第i个位置的值，i＝1,2,…,
K，K表示全局语义属性词典的大小，如果全局语义属性词典中的第i个单词出现在描述该视
频的句子中，就让gi＝1，否则gi＝0；oi是o中第i个位置的值，X表示目标语义属性词典的大
小，如果目标语义属性词典中的第i个单词出现在描述该视频的句子中，就让oi＝1，否则oi
＝0；vi是v中第i个位置的值，Y表示动作语义属性词典的大小，如果动作语义属性词典中的
第i个单词出现在描述该视频的句子中，就让vi＝1，否则vi＝0；
(3f)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机，分别得到该视频
三种语义属性的预测值，计算公式如下：
ga＝MLP([f,m])
oa＝MLP(f)
va＝MLP(m)
其中，ga表示全局语义属性预测值，oa表示目标语义属性预测值，va表示动作语义属性
预测值，f表示对该视频的目标视觉特征{fi}取平均之后的特征，m表示对该视频的动作视
觉特征{mj}取平均之后的特征，[f,m]表示f与m的拼接；
(3g)计算三种语义属性预测值与真实语义属性之间的交叉熵，计算公式如下：
其中L(g,ga)是全局语义属性预测值与真实全局语义属性的交叉熵，L(o,oa)是目标语
义属性预测值与真实目标语义属性的交叉熵，L(v,va)是动作语义属性预测值与真实动作
语义属性的交叉熵，gai表示ga中第i个位置的值，oai表示oa中第i个位置的值，vai表示va中第i个位置的值；
(3h)对训练集E中的每个视频进行(3e)～(3g)操作，用Adam算法更新三个多层感知机
的参数，使所有视频的语义属性交叉熵总和最小。
4.根据权利要求1所述的方法，其特征在于，(4)中对一个视频的一组目标视觉特征{fi}
进行加权求和，按如下过程进行：
(4a)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态ht-1
和视频第i帧的目标视觉特征fi作为输入，计算相似性得分并根据相似性得分计算目
标视觉特征加权权重计算公式如下：
其中，表示tanh函数，ω1、Wb、Wf、bb都是随机初始化的不同参数；
(4b)计算LSTM网络在t时刻输入的目标视觉特征加权和
5.根据权利要求1所述的方法，其特征在于，(4)中对一个视频的一组动作视觉特征{mj}
进行加权求和，按如下过程进行：
(4c)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态ht-1
和视频第j个视频段的动作视觉特征mj作为输入，计算相似性得分并根据相似性得分
计算动作视觉特征加权权重计算公式如下：
其中，表示tanh函数，ω2、Wc、Wm、bc都是随机初始化的不同参数；
(4d)计算LSTM网络在t时刻输入的动作视觉特征加权和
6.根据权利要求1所述的方法，其特征在于，(5)中外部记忆网络通过写入和读取操作
与LSTM网络进行信息交互，按如下步骤进行：
(5a)在生成视频描述句子的每个单词概率分布之前，先根据LSTM网络前一时刻的隐藏
状态计算出擦除向量et和添加向量at：
et＝σ(Weht-1+be)
at＝φ(Waht-1+ba)
其中，σ表示sigmoid函数，表示tanh函数，ht-1为LSTM网络前一时刻的隐藏状态，We、Wa、
be、ba都是随机初始化的不同参数；
(5b)计算出写入关键值向量写入强度系数和写入权重向量计算公式如
下：
其中，δ为ReLU函数，Ww、 bw、都是随机初始化的不同参数，
是记忆写入权重值，是由写入关键值向量与记忆网络
中每个位置的存储向量Mt-1(i)进行相似性度量得到的，||·||表示取二范数，ε是为了防止
分母为0而取的一个正数；
(5c)用擦除向量et、添加向量at和写入权重向量对记忆网络每个位置的存储向量进
行更新，得到每个位置更新后的存储向量Mt(i)：
其中，⊙表示逐元素点乘操作；
(5d)在记忆网络内的存储向量完成更新后，分别计算读取关键值向量读取强度
系数读取权重向量计算公式为：
其中，为记忆读取权重值，Wr、 br、都是随机初始
化的不同参数；
(5e)LSTM网络读取记忆网络里的内容rt，表示为：
7.根据权利要求1所述的方法，其特征在于，(7)中得到融合后的结果 m*分别
表示如下：
全局语义属性ga与LSTM网络前一时刻的隐藏状态ht-1融合后的结果为：
其中，⊙表示逐元素点乘操作，Ua*、Ub*是随机初始化的不同参数；
全局语义属性ga与当前时刻的单词向量xt融合后的结果为：其
中，xt是已预训练得到的单词向量，Wa*、Wb*是随机初始化的不同参数；
全局语义属性ga与从外部记忆网络读取的信息rt融合后的结果m*为：m*＝Ma*rt⊙Mb*ga，
其中，Ma*、Mb*是随机初始化的不同参数。
8.根据权利要求1所述的方法，其特征在于，(8)中得到融合后的结果v*表示如下：
其中，⊙表示逐元素点乘操作，Va*、Vb*是随机初始化的不同参数。
9.根据权利要求1所述的方法，其特征在于，(9)中得到融合后的结果c*表示如下：
其中，⊙表示逐元素点乘操作，Ca*、Cb*是随机初始化的不同参数。
10.根据权利要求1所述的方法，其特征在于，(11)中LSTM网络当前时刻的隐藏状态，按
如下过程得到：
(11a)计算LSTM网络当前时刻输入门it，遗忘门ft，输出门ot，输入权重门gt的值，计算公
式为：
其中，σ表示sigmoid函数，表示tanh函数， mi、vi、ci， mf、vf、cf，
mo、vo、co， mg、vg、cg是(10)计算得到的四组结果，Wci、Wcf、Wco、Wcg、Uci、
Ucf、Uco、Ucg、Vci、Vcf、Vco、Vcg、Cci、Ccf、Cco、Ccg、Mci、Mcf、Mco、Mcg、bi、bf、bo、bg都是随机初始化的不同参数；
(11b)根据输入门it、遗忘门ft、输入权重门gt的值，计算LSTM网络当前时刻的细胞记忆
状态ct：
ct＝gt⊙it+ct-1⊙ft，
其中，⊙表示逐元素点乘操作，ct-1为LSTM网络前一时刻细胞记忆状态的值；
(11c)根据LSTM网络当前时刻输出门ot和细胞记忆状态ot的值，计算LSTM网络当前时刻
的隐藏状态ht：
ht＝ot⊙φ(ct)。
11.根据权利要求1所述的方法，其特征在于，(12)中得到的融合结果R1、R2、R3、Pt分别表
示如下：
全局语义属性ga与LSTM网络当前时刻的隐藏状态ht融合后的结果R1为：R1＝Wkht⊙Wlga，
其中，⊙表示逐元素点乘操作，Wk、Wl是随机初始化的不同参数；
目标语义属性oa与(4)得到的目标视觉特征的加权和融合后的结果R2为：
其中Wp、Ws是随机初始化的不同参数；
动作语义属性va与(4)得到的动作视觉特征的加权和融合后的结果R3为：
其中Wu、Wv是随机初始化的不同参数；
R1、R2、R3融合后的结果Pt为：Pt＝φ(Wq[R1,R2,R3]+bq)，其中，Wq、bq是随机初始化的不同参数，[R1,R2,R3]表示R1、R2、R3的拼接。
12.根据权利要求1所述的方法，其特征在于，(13)中计算得到该视频的当前时刻的单
词概率分布wt，通过如下公式计算：
wt＝softmax(WdPt+bd)
其中，softmax表示softmax函数，Wd、bd是随机初始化的不同参数。
13.根据权利要求1所述的方法，其特征在于，(14)中计算该视频的单词概率分布与该
视频自带的正确的单词概率分布的交叉熵L(θ)，通过如下公式计算：
其中，Ti表示该视频自带的第i个正确句子的单词数量，w1～(t-1)表示t时刻之前得到的所
有单词的概率分布，V表示该视频的视觉特征，S表示该视频的语义属性，θ表示所有随机初
始化的参数。

说明书全文

基于语义指导与记忆机制的视频描述方法

技术领域

[0001] 本发明属于视频处理技术领域，特别涉及一种视频描述方法，可用于视频检索、人机交互和监控安防，分析视频中出现的目标对象，同时检测和识别这些目标对象的行为。

背景技术

[0002] 在各式各样的多媒体数据中，视频数据复杂，包含内容更丰富，可传达的信息量也更大，因此，视频成为当今社会信息传播的重要载体。然而，人们亟需一种有效的技术来管
理这些海量复杂的视频数据，并且帮助用户从中获取有用信息。而视频的自动语义描述，可
以节省观看和标注视频的时间和人工成本，克服人工标注的主观性等问题，这使视频自动
语义描述成为视频处理、分析与理解领域的关键技术。但是，为视频生成自然语言描述是一
项非常具有挑战性的复杂任务，它不仅要识别视频中显著的目标和场景，还要描述它们的
 时空上下文关系以及动作交互等。因而，该任务涉及视频的视觉内容分析和自然语言处理
等方面的技术。

[0003] 目前的视频描述方法主要分为两类：

[0004] 一类是基于模板的方法，其对描述视频的句子进行模板划分，使句子的每个片段与视觉内容相对齐，然后将从视觉中检测出的单词填入预定义的模板。

[0005] 日本大阪府立大学的Kojima等人提出的基于动作概念的视频描述方法是早期的代表性工作之一，该方法首先检测人体姿势，包括头部位置、头部方向和手部位置，然后通
过对齐动作的语义和视频的视觉特征，选择合适的目标及动词，按照句法结构填充到常用
的案例模板中。

[0006] 德州大学奥斯汀分校的Thomason等人提出了整合语言与视觉的方法，该方法首先通过视觉识别系统来获得视频中存在的目标、动作和场景的置信度，然后将其结合基于因
子图模型FGM从文本语料库中挖掘出概率知识，以估计语句中的主语、动词、宾语和地点。

[0007] 第二类是基于机器翻译的方法，该方法首先采用深度卷积神经网络CNN提取视频特征，然后采用循环神经网络将视频特征翻译为语句。典型的方法如下:

[0008] 德州大学奥斯汀分校的Venugopalan等人提出的基于长短时记忆网络LSTM的视频描述模型。该模型是首先利用在大规模物体识别图像数据集ImageNet上预训练好的CNN模
型来提取视频的帧级视觉特征，然后对帧级特征进行平均池化，以获得固定维度的视频帧
级特征，并将其输入到LSTM网络中生成描述视频的句子。

[0009] 蒙特利尔大学的Yao等人提出在生成视频描述时考虑视频的局部和全局时间结构。这种方法是利用三维卷积神经网络提取视频段视频的局部动作特征，利用二维卷积神
经网络提取视频的视觉特征，并且结合时序注意力机制TA来探索视频的全局时间结构，在
生成单词时，动态地关注与该单词最相关的那一部分视觉特征。

[0010] 上述第一类方法过度依赖于预定义的模板和检测出来的视觉元素，生成的句子语法结构受限并且准确率低，只能简单的描述视频，缺乏语言的张力和表现力，不能展示语言
自身的丰富性和美感。第二类方法中的大多数只用了视频的视觉信息，而忽略了视频中丰
富的语义信息，且对视觉特征直接进行平均操作，导致视觉信息利用不充分；此外，只使用
LSTM网络对视觉特征解码，没有充分利用视频的时序记忆，在解码过程中会使部分视觉信
息丢失。

发明内容

[0011] 本发明的目的在于克服上述已有技术的不足，提出一种基于语义指导与记忆机制的视频描述方法，以增加视频的语义信息，充分利用视频的视觉信息与时序记忆，提高视频
描述语句的准确性和丰富性。

[0012] 为实现上述目的，本发明的技术方案包括如下步骤：

[0013] (1)从公开网络下载视频描述任务的数据集Q，将该数据集Q划分为训练集E和测试集S，将数据集Q中每个视频分解成视频单帧图像，使用已预训练好的ResNet152网络提取视
频单帧图像的目标视觉特征fi，构成每个视频的一组目标视觉特征{fi}，i＝1,2,…,n，n为
每个视频的总帧数；

[0014] (2)将数据集Q中每个视频的连续16帧图像作为一个视频段，使用已预训练好的C3D-ResNet18网络提取每个视频段的动作视觉特征mj，构成每个视频的一组动作视觉特征
{mj}，j＝1,2,…,r，r为每个视频的总视频段数；

[0015] (3)将训练集E中句子所包含的单词分为三种类型的语义属性词典：全局语义属性词典、目标语义属性词典、动作语义属性词典，用这三种类型的语义属性词典与视频的视觉
特征分别训练多层感知机模型，得到三个语义属性预测器；

[0016] (4)取数据集Q中的一个视频，在LSTM网络生成描述该视频的每个单词时，使用注意力机制中的注意力分值，分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征
{mj}进行加权求和，得到加权求和后的结果和

[0017] (5)创建一个M×N的矩阵作为外部记忆网络，M代表记忆网络中存储器的总数，N代表每个位置的存储长度，该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互；

[0018] (6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器，分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va；

[0019] (7)用全局语义属性ga分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从外部记忆网络读取的信息进行融合，分别得到融合后的结果

[0020] (8)用目标语义属性oa与(4)得到的目标视觉特征的加权和进行融合，得到融合后的结果v*；

[0021] (9)用动作语义属性va与(4)得到的动作视觉特征的加权和进行融合，得到融合后的结果c*；

[0022] (10)将(7)～(9)的计算过程重复4遍，分别得到4组融合结果 mi、vi、ci，mf、vf、cf， mo、vo、co， mg、vg、cg；

[0023] (11)将(10)计算的结果输入LSTM网络，得到LSTM网络当前时刻的隐藏状态；

[0024] (12)用全局语义属性ga与LSTM网络当前时刻的隐藏状态进行融合，得到融合后的结果R1，用目标语义属性oa与(4)得到的目标视觉特征的加权和进行融合，得到融合
后的结果R2，用动作语义属性va与(4)得到的动作视觉特征的加权和进行融合，得到
融合后的结果R3，并将R1、R2、R3进一步融合得到Pt；

[0025] (13)将(12)的计算结果输入到softmax函数，计算得到数据集Q中所选视频的当前时刻的单词概率分布wt；

[0026] (14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ)；

[0027] (15)对训练集E中的每个视频进行(4)～(14)操作，用Adam 算法更新所有随机初始化的参数，使所有视频的交叉熵总和最小；

[0028] (16)固定所有参数的值，对测试集S中的每个视频进行(4)～(13)操作，对于测试集S中的每个视频的单词概率分布，取概率值最大的单词作为描述该视频的单词。

[0029] 本发明与现有技术相比具有如下优点：

[0030] 1.对视频的描述更加准确

[0031] 现有大多数已有的视频描述方法只使用了视频中的视觉信息，而忽视了视频中丰富的语义信息。

[0032] 本发明利用视频的三种语义属性作为视频的语义信息，指导更新视觉特征、单词向量以及LSTM网络的隐藏状态，即将视觉信息、语义信息相结合，使视频获得的自然语言描
述更准确。

[0033] 2.能更好地捕获视频的时间动态

[0034] 现有大多数已有的视频描述方法对视觉特征直接进行平均操作，导致视觉信息利用不充分，并且只使用LSTM网络对视觉特征解码，在解码过程中会使部分视觉信息丢失。

[0035] 本发明使用注意力机制根据之前生成的单词自动地选择当前时刻应该关注的重要信息，并且在解码过程中加入外部记忆网络，提高了模型的记忆能力，可以更好地捕获视
频的时间动态。
附图说明

[0036] 图1是本发明的实现流程图；

[0037] 图2是本发明中的语义属性预测示例；

[0038] 图3是本发明仿真实验使用的MSVD数据集中视频与对应描述句子的示例图；

[0039] 图4是用本发明在MSVD数据集上的仿真结果图。

具体实施方式

[0040] 以下结合附图，对本发明的实施例和效果作进一步详细描述。

[0041] 参照图1本实例的实施步骤如下：

[0042] 步骤1，数据集视频预处理及提取视频的目标视觉特征。

[0043] 1.1)从公开网络下载视频描述任务的数据集Q，将该数据集Q划分为训练集E和测试集S，将数据集Q中每个视频分解成视频单帧图像；

[0044] 1.2)将每个视频单帧图像随机裁剪成224×224 像素大小，将裁减后的图像分别输入在ImageNet数据集上预训练好的ResNet152网络中，使用ResNet152网络pool5层的输出
作为视频单帧图像的目标视觉特征fi，构成每个视频的一组目标视觉特征{fi}，i＝1,2,…,
n，n为每个视频的总帧数。

[0045] 步骤2，提取视频的动作视觉特征。

[0046] 2.1)将数据集Q中每个视频的连续16帧图像作为一个视频段，将视频段送到在Sport1M数据集上预训练好的C3D-ResNet18网络中，通过该网络将该段中的每一帧图像都
随机裁剪为112×112像素大小，并且对每个视频段中的帧以间隔J为采样率进行采样；

[0047] 2.2)使用C3D-ResNet18网络中pool5层的输出作为视频的动作视觉特征mj，构成每个视频的一组动作视觉特征{mj}，j＝1,2,…,r，r为每个视频的总视频段数。

[0048] 步骤3，利用训练集E中的单词与视频的视觉特征分别训练多层感知机模型，得到三个语义属性预测器。

[0049] 3.1)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析，从解析出的关系中选择名词主语和直接宾语；

[0050] 3.2)从名词主语和直接宾语的单词对中提取名词和动词，从中选择出现频次最高的前T个单词来构建全局语义属性词典；

[0051] 3.3)在一个视频的所有句子描述中选择出现次数不少于两次的名词，用这些名词构建出目标语义属性词典；

[0052] 3.4)在一个视频的所有句子描述中选择出现次数不少于两次的动词，用这些动词构建出动作语义属性词典；

[0053] 3.5)对于训练集E中的一个视频，用g＝[g1,g2,…gi,…gK]∈{0,1}K表示该视频的全局语义属性，用o＝[o1,o2,…oi,…oX]∈{0,1}X表示该视频的目标语义属性，用v＝[v1,
v2,…vi,…vY]∈{0,1}Y表示该视频的动作语义属性；

[0054] 其中，gi是g中第i个位置的值，i＝1,2,…,K，K表示全局语义属性词典的大小，如果全局语义属性词典中的第i个单词出现在描述该视频的句子中，就让gi＝1，否则gi＝0；oi
是o中第i个位置的值，X表示目标语义属性词典的大小，如果目标语义属性词典中的第i个
单词出现在描述该视频的句子中，就让oi＝1，否则oi＝0；vi是v中第i个位置的值，Y表示动
作语义属性词典的大小，如果动作语义属性词典中的第i个单词出现在描述该视频的句子
中，就让vi＝1，否则vi＝0；

[0055] 3.6)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机，分别得到该视频三种语义属性的预测值，计算公式如下：

[0056] ga＝MLP([f,m])

[0057] oa＝MLP(f)

[0058] va＝MLP(m)，

[0059] 其中，ga表示全局语义属性预测值，oa表示目标语义属性预测值，va表示动作语义属性预测值，f表示对该视频的目标视觉特征{fi}取平均之后的特征，m表示对该视频的动
作视觉特征{mj}取平均之后的特征，[f,m]表示f与m的拼接；

[0060] 3.7)计算三种语义属性预测值与真实语义属性之间的交叉熵，计算公式如下：

[0061]

[0062]

[0063]

[0064] 其中L(g,ga)是全局语义属性预测值与真实全局语义属性的交叉熵，L(o,oa)是目标语义属性预测值与真实目标语义属性的交叉熵，L(v,va)是动作语义属性预测值与真实
动作语义属性的交叉熵，gai表示ga中第i个位置的值，oai表示oa中第i个位置的值，vai表示va
中第i个位置的值；

[0065] 3.8)对训练集E中的每个视频进行3.5)～3.7)操作，用Adam算法更新三个多层感知机的参数，使所有视频的语义属性交叉熵总和最小。

[0066] 步骤4，取数据集Q中的一个视频，在LSTM网络生成描述该视频的每个单词时，使用注意力机制中的注意力分值，分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征
{mj}进行加权求和，得到加权求和后的结果和

[0067] 4.1)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态ht-1和视频第i帧的目标视觉特征fi作为输入，计算相似性得分并根据相似性得分计
算目标视觉特征加权权重计算公式如下：

[0068]

[0069]

[0070] 其中，表示tanh函数，ω1、Wb、Wf、bb都是随机初始化的不同参数；

[0071] 4.2)计算LSTM网络在t时刻输入的目标视觉特征加权和

[0072]

[0073] 4.3)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态ht-1和视频第j个视频段的动作视觉特征mj作为输入，计算相似性得分并根据相似性得
分计算动作视觉特征加权权重计算公式如下：

[0074]

[0075]

[0076] 其中，表示tanh函数，ω2、Wc、Wm、bc都是随机初始化的不同参数；

[0077] 4.4)计算LSTM网络在t时刻输入的动作视觉特征加权和

[0078]

[0079] 步骤5，创建一个M×N的矩阵作为外部记忆网络，M代表记忆网络中存储器的总数，N代表每个位置的存储长度，该外部记忆网络通过写入和读取操作与LSTM网络进行信息交
互。

[0080] 5.1)在生成视频描述句子的每个单词概率分布之前，先根据LSTM网络前一时刻的隐藏状态计算出擦除向量et和添加向量at：

[0081] et＝σ(Weht-1+be)

[0082] at＝φ(Waht-1+ba)，

[0083] 其中，σ表示sigmoid函数，表示tanh函数，ht-1为LSTM网络前一时刻的隐藏状态，We、Wa、be、ba都是随机初始化的不同参数；

[0084] 5.2)计算出写入关键值向量写入强度系数和写入权重向量计算公式如下：

[0085]

[0086]

[0087]

[0088] 其中，δ为ReLU函数，Ww、 bw、都是随机初始化的不同参数，是记忆写入权重值，是由写入关键值向量与记忆网络
中每个位置的存储向量Mt-1(i)进行相似性度量得到的，||·||表示取二范数，ε是为了防止
分母为0而取的一个正数；

[0089] 5.3)用擦除向量et、添加向量at和写入权重向量对记忆网络每个位置的存储向量进行更新，得到每个位置更新后的存储向量Mt(i)：

[0090]

[0091] 其中，⊙表示逐元素点乘操作；

[0092] 5.4)在记忆网络内的存储向量完成更新后，分别计算读取关键值向量读取强度系数读取权重向量计算公式为：

[0093]

[0094]

[0095]

[0096] 其中，为记忆读取权重值，Wr、 br、都是随机初始化的不同参数；

[0097] 5.5)LSTM网络读取记忆网络里的内容rt，表示为：

[0098]

[0099] 步骤6，将数据集Q中所选视频的视觉特征输入到步骤3得到的三个语义属性预测器，分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va。

[0100] 6.1)对数据集Q中所选视频的一组目标视觉特征{fi}取平均得到f，将f输入目标语义属性预测器，得到该视频的目标语义属性oa；

[0101] 6.2)将该视频的一组动作视觉特征{mj}取平均得到m，将m输入动作语义属性预测器，得到该视频的动作语义属性va；

[0102] 6.3)将f与m拼接起来输入全局语义属性预测器，得到该视频的全局语义属性ga，得到的三种语义属性，如图2所示。

[0103] 步骤7，用全局语义属性ga分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从外部记忆网络读取的信息进行融合，分别得到融合后的结果 m*。

[0104] 7.1)将全局语义属性ga与LSTM网络前一时刻的隐藏状态ht-1融合，得到融合后的结果计算公式为：

[0105]

[0106] 其中，⊙表示逐元素点乘操作，Ua*、Ub*是随机初始化的不同参数；

[0107] 7.2)将全局语义属性ga与当前时刻的单词向量xt融合，得到融合后的结果计算公式为：

[0108]

[0109] 其中，xt是已预训练得到的单词向量，Wa*、Wb*是随机初始化的不同参数；

[0110] 7.3)将全局语义属性ga与从外部记忆网络读取的信息rt融合，得到融合后的结果m*，计算公式为：

[0111] m*＝Ma*rt⊙Mb*ga，

[0112] 其中，Ma*、Mb*是随机初始化的不同参数。

[0113] 步骤8，用目标语义属性oa与目标视觉特征的加权和进行融合，用动作语义属性va与动作视觉特征的加权和进行融合。

[0114] 8.1)将目标语义属性oa与步骤4得到的目标视觉特征的加权和进行融合，得到融合后的结果v*，计算公式为：

[0115]

[0116] 其中，⊙表示逐元素点乘操作，Va*、Vb*是随机初始化的不同参数。

[0117] 8.2)将动作语义属性va与步骤4得到的动作视觉特征的加权和进行融合，得到融合后的结果c*，计算公式为：

[0118]

[0119] 其中，⊙表示逐元素点乘操作，Ca*、Cb*是随机初始化的不同参数。

[0120] 步骤9，将步骤7～步骤8的计算过程重复4遍，分别得到4组融合结果 mi、vi、ci， mf、vf、cf， mo、vo、co， mg、vg、cg。

[0121] 步骤10，将步骤9计算的结果输入LSTM网络，得到LSTM网络当前时刻的隐藏状态。

[0122] 10.1)计算LSTM网络当前时刻输入门it，遗忘门ft，输出门ot，输入权重门gt的值，计算公式为：

[0123]

[0124]

[0125]

[0126]

[0127] 其中，σ表示sigmoid函数，表示tanh函数， mi、vi、ci， mf、vf、cf， mo、vo、co， mg、vg、cg是(9)计算得到的四组结果，Wci、Wcf、Wco、
Wcg、Uci、Ucf、Uco、Ucg、Vci、Vcf、Vco、Vcg、Cci、Ccf、Cco、Ccg、Mci、Mcf、Mco、Mcg、bi、bf、bo、bg都是随机初始化的不同参数；

[0128] 10.2)根据输入门it、遗忘门ft、输入权重门gt的值，计算LSTM网络当前时刻的细胞记忆状态ct：

[0129] ct＝gt⊙it+ct-1⊙ft，

[0130] 其中，⊙表示逐元素点乘操作，ct-1为LSTM网络前一时刻细胞记忆状态的值；

[0131] 10.3)根据LSTM网络当前时刻输出门ot和细胞记忆状态ot的值，计算LSTM网络当前时刻的隐藏状态ht：

[0132] ht＝ot⊙φ(ct)。

[0133] 步骤11，用全局语义属性ga与LSTM网络当前时刻的隐藏状态ht进行融合，用目标语义属性oa与目标视觉特征的加权和进行融合，用动作语义属性va与动作视觉特征的
加权和进行融合，并将这三个融合结果进一步融合。

[0134] 11.1)将全局语义属性ga与LSTM网络当前时刻的隐藏状态ht融合，得到融合后的结果R1，计算公式为：

[0135] R1＝Wkht⊙Wlga，

[0136] 其中，⊙表示逐元素点乘操作，Wk、Wl是随机初始化的不同参数；

[0137] 11.2)将目标语义属性oa与步骤4得到的目标视觉特征的加权和融合，得到融合后的结果R2，计算公式为：

[0138]

[0139] 其中，Wp、Ws是随机初始化的不同参数；

[0140] 11.3)将动作语义属性va与步骤4得到的动作视觉特征的加权和融合，得到融合后的结果R3，计算公式为：

[0141]

[0142] 其中，Wu、Wv是随机初始化的不同参数；

[0143] 11.4)将R1、R2、R3融合，得到融合后的结果Pt，计算公式为：

[0144] Pt＝φ(Wq[R1,R2,R3]+bq)，

[0145] 其中，Wq、bq是随机初始化的不同参数，[R1,R2,R3]表示R1、R2、R3的拼接。

[0146] 步骤12，计算数据集Q中选取的一个视频的单词概率分布wt。

[0147] 将步骤11的计算结果输入到softmax函数中，计算得到数据集Q所选视频的当前时刻单词概率分布wt：

[0148] wt＝softmax(WdPt+bd)，

[0149] 其中，softmax表示softmax函数，Wd、bd是随机初始化的两个不同参数。

[0150] 步骤13，计算数据集Q所选视频的单词概率分布与正确的单词概率分布的交叉熵L(θ)。

[0151] 根据步骤12得到的单词概率分布wt及所选视频的视觉特征V、语义属性S、所有随机初始化的参数θ，计算交叉熵L(θ)：

[0152]

[0153] 其中，Ti表示数据集Q所选视频自带的第i个正确句子的单词数量，w1～(t-1)表示t时刻之前得到的所有单词的概率分布。

[0154] 步骤14，对训练集E中的每个视频进行步骤4～步骤13操作，用Adam算法更新所有随机初始化的参数，使训练集E中所有视频的交叉熵总和最小。

[0155] 步骤15，在步骤14完成所有参数的更新后，固定所有参数的值，对测试集S中的每个视频进行步骤4～步骤12操作，对于测试集S中的每个视频的单词概率分布，取概率值最
大的单词作为描述该视频的单词。

[0156] 本发明的优点可通过以下实验进一步说明：

[0157] 1.实验条件

[0158] 本发明的仿真实验是在MSVD数据集上进行的，实验中将数据集的1970个视频划分为大小分别为1200、100、670的训练集、验证集、测试集。

[0159] 数据集中视频与对应描述句子的示例如图3所示，图3(a)是数据集中的一个视频，图3(b)是该视频自带的一些语言描述。

[0160] 对仿真的结果用METEOR、BLEU、ROUGE、CIDER四种评价指标进行打分。

[0161] 2.仿真内容

[0162] 仿真1，用本发明在MSVD数据集上进行仿真，图4展示了本发明对测试集上前六个视频的描述结果，其中，每三幅图代表一个视频，每个视频下面的句子代表本发明对该视频
生成的描述，即第一个视频生成的描述是“men are playing basketball”，第二个视频生
成的描述是“a band is performing on stage”，第三个视频生成的描述是“a boy is
playing a guitar”，第四个视频生成的描述是“a person is cutting meat”，第五个视频
生成的描述是“a man is riding a motorcycle”，第六个视频生成的描述是“a dog is
swimming in a pool”，由图4可看出本发明可以对视频生成准确、生动的自然语言描述。

[0163] 将仿真结果的四种评分与其他现有的8种主流方法进行比较，评分结果如表1所示。

[0164] 表1

[0165] 方法 METEOR BLEU@1 BLEU@2 BLEU@3 BLEU@4 CIDEr ROUGE_LFGM 23.9 - - - - - -
LSTM 29.1 - - - 33.3 - -
S2VT 29.8 - - - - - -
TA 29.6 80.0 64.7 52.6 41.9 51.7 -
LSTM-E 31.0 78.8 66.0 55.4 45.3 - -
GRU-RCN 31.6 - - - 43.3 68.0 -
h-RNN 32.6 81.5 70.4 60.4 49.9 65.8 -
HRNE 33.9 81.1 68.6 57.8 46.7 - -
本发明 34.1 81.8 70.4 60.9 51.3 76.3 70.8

[0166] 表1中，FGM是整合语言与视觉特征的方法，

[0167] LSTM是仅基于LSTM网络的方法，

[0168] S2VT是使用图像特征和光流特征，并使用两个LSTM网络的方法，

[0169] TA是使用了注意力机制的方法，

[0170] LSTM-E是将视觉特征和文本特征嵌入到同一空间的方法，

[0171] GRU-RCN是结合GRU网络和循环卷积网络的方法，

[0172] h-RNN是使用多层循环网络做视频解码的方法，

[0173] HRNE是使用多层循环网络做视频编码的方法，

[0174] BLEU@1、BLEU@2、BLEU@3、BLEU@4是BLEU评价指标中的四种评价方法，分别表示生成的句子与参考句子之间连续1、2、3、4个单词序列相同的比率，

[0175] ROUGE-L是ROUGE评价指标中以最长公共子句的精确率以及召回率为基础的评价方法。

[0176] 表1表明本发明提出的方法性能在各项评价指标上均高于其它主流方法，并且在CIDER指标上的结果达到了76.3，相对于TA，GRU-RCN，h-RNN分别提高了47.6％，12.0％，
16.0％，并且在METEOR指标上也达到了34.1，目前极少有方法能在METEOR指标上突破34，此
外与其它方法相比，本发明在BLEU的各项指标上的结果也具有非常显著提升。

[0177] 仿真2，对本发明提出的方法做消融实验，即分别去掉注意力机制、外部记忆网络、语义属性，比较仿真结果的评分变化，结果如表2所示。

[0178] 表2

[0179]

[0180] 表2表明，使用语义属性、注意力机制、外部记忆网络相结合的方法结果最好，并且语义信息、注意力机制和外部记忆网络分别都对提升视频描述模型的性能有帮助。

[0181] 综上，本发明提出的方法使用注意力机制动态选择最相关的目标视觉特征和动作视觉特征，同时也可以相对抑制不重要的视觉信息，并且通过外加记忆网络，将外部记忆网
络和语言模型的内部状态进行信息交流，可以帮助语言模型记住更长时间的信息，帮助生
成的单词可以更好的理解上下文信息；此外还使用了三种类型语义属性，融入在每一时刻
生成单词的计算过程，可以让模型更好的关注与整个视频的目标和动作相关的信息，从而
生成更加准确、生动的自然语言描述。

标题	发布/更新时间	阅读量
一种知识图谱驱动型的法律智能咨询系统	2020-05-14	582
用于筛选新冠肺炎候选药物的方法及装置	2020-05-08	894
使用图像分割的对象跟踪	2020-05-12	413
一种基于物品时间流行性的推荐方法	2020-05-08	846
使用用户特定信息定制建议的方法和系统	2020-05-12	249
一种在线评测系统的题目推荐方法	2020-05-12	379
一种图像显著目标的检测方法	2020-05-13	251
一种基于状态评估的一二次融合柱上开关巡检策略	2020-05-12	299
一种双模块神经网络结构视频对象分割方法	2020-05-15	677
一种基于事理推荐的逻辑图谱构建及预警方法和装置	2020-05-13	921

基于语义指导与记忆机制的视频描述方法

基于语义指导与记忆机制的视频描述方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：