专利汇可以提供基于语义指导与记忆机制的视频描述方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于语义指导与记忆机制的视频描述方法,主要解决 现有技术 中视频语义信息利用不足,LSTM网络记忆能 力 有限的问题,其实现方案是:提取视频的视觉特征;利用单词与视频的视觉特征训练多层 感知 机得到语义属性预测器;使用注意力机制对视觉特征进行动态的加权求和;构建外部记忆网络,以与LSTM网络进行信息交互;将视频的语义属性融入加权求和后的视觉特征与记忆网络,计算视频的单词概率分布;更新参数,使训练集中所有视频的单词概率分布接近正确分布;固定更新后的参数,得到测试集中视频的描述。本发明能充分利用视频信息,且记忆力强,获得的视频描述准确,可用于视频检索或 人机交互 中视频的自动语义描述。,下面是基于语义指导与记忆机制的视频描述方法专利的具体信息内容。
1.一种基于语义指导与记忆机制的视频描述方法,其特征在于,包括如下:
(1)从公开网络下载视频描述任务的数据集Q,将该数据集Q划分为训练集E和测试集S,
将数据集Q中每个视频分解成视频单帧图像,使用已预训练好的ResNet152网络提取视频单
帧图像的目标视觉特征fi,构成每个视频的一组目标视觉特征{fi},i=1,2,…,n,n为每个
视频的总帧数;
(2)将数据集Q中每个视频的连续16帧图像作为一个视频段,使用已预训练好的C3D-
ResNet18网络提取每个视频段的动作视觉特征mj,构成每个视频的一组动作视觉特征{mj},
j=1,2,…,r,r为每个视频的总视频段数;
(3)将训练集E中句子所包含的单词分为三种类型的语义属性词典:全局语义属性词
典、目标语义属性词典、动作语义属性词典,用这三种类型的语义属性词典与视频的视觉特
征分别训练多层感知机模型,得到三个语义属性预测器;
(4)取数据集Q中的一个视频,在LSTM网络生成描述该视频的每个单词时,使用注意力
机制中的注意力分值,分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进
行加权求和,得到加权求和后的结果 和
(5)创建一个M×N的矩阵作为外部记忆网络,M代表记忆网络中存储器的总数,N代表每
个位置的存储长度,该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互;
(6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器,分别得
到该视频全局语义属性ga、目标语义属性oa、动作语义属性va;
(7)用全局语义属性ga分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从
外部记忆网络读取的信息进行融合,分别得到融合后的结果 m*;
(8)用目标语义属性oa与(4)得到的目标视觉特征的加权和 进行融合,得到融合
后的结果v*;
(9)用动作语义属性va与(4)得到的动作视觉特征的加权和 进行融合,得到融合
后的结果c*;
(10)将(7)~(9)的计算过程重复4遍,分别得到4组融合结果 mi、vi、ci,
mf、vf、cf, mo、vo、co, mg、vg、cg;
(11)将(10)计算的结果输入LSTM网络,得到LSTM网络当前时刻的隐藏状态;
(12)用全局语义属性ga与LSTM网络当前时刻的隐藏状态ht进行融合,得到融合后的结
果R1,用目标语义属性oa与(4)得到的目标视觉特征的加权和 进行融合,得到融合后
的结果R2,用动作语义属性va与(4)得到的动作视觉特征的加权和 进行融合,得到融
合后的结果R3,并将R1、R2、R3进一步融合得到Pt;
(13)将(12)的计算结果输入到softmax函数,计算得到数据集Q所选视频的当前时刻的
单词概率分布wt;
(14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ);
(15)对训练集E中的每个视频进行(4)~(14)操作,用Adam算法更新所有随机初始化的
参数,使所有视频的交叉熵总和最小;
(16)在步骤14完成所有参数的更新后,固定所有参数的值,对测试集S中的每个视频进
行(4)~(13)操作,对于测试集S中的每个视频的单词概率分布,取概率值最大的单词作为
描述该视频的单词。
2.根据权利要求1所述的方法,其特征在于,(3)中将训练集E中句子所包含的单词分为
三种类型的语义属性词典,按如下过程进行:
(3a)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析,从解析出
的关系中选择名词主语和直接宾语;
(3b)从名词主语和直接宾语的单词对中提取名词和动词,从中选择出现频次最高的前
T个单词来构建全局语义属性词典;
(3c)在一个视频的所有句子描述中选择出现次数不少于两次的名词,用这些名词构建
出目标语义属性词典;
(3d)在一个视频的所有句子描述中选择出现次数不少于两次的动词,用这些动词构建
出动作语义属性词典。
3.根据权利要求1所述的方法,其特征在于,(3)中用三种类型的语义属性词典与视频
的视觉特征分别训练多层感知机模型,得到三个语义属性预测器,按如下过程进行:
(3e)对于训练集E中的一个视频,用g=[g1,g2,…gi,…gK]∈{0,1}K表示该视频的全局
语义属性,用o=[o1,o2,…oi,…oX]∈{0,1}X表示该视频的目标语义属性,用v=[v1,v2,…
vi,…vY]∈{0,1}Y表示该视频的动作语义属性,其中,gi是g中第i个位置的值,i=1,2,…,
K,K表示全局语义属性词典的大小,如果全局语义属性词典中的第i个单词出现在描述该视
频的句子中,就让gi=1,否则gi=0;oi是o中第i个位置的值,X表示目标语义属性词典的大
小,如果目标语义属性词典中的第i个单词出现在描述该视频的句子中,就让oi=1,否则oi
=0;vi是v中第i个位置的值,Y表示动作语义属性词典的大小,如果动作语义属性词典中的
第i个单词出现在描述该视频的句子中,就让vi=1,否则vi=0;
(3f)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机,分别得到该视频
三种语义属性的预测值,计算公式如下:
ga=MLP([f,m])
oa=MLP(f)
va=MLP(m)
其中,ga表示全局语义属性预测值,oa表示目标语义属性预测值,va表示动作语义属性
预测值,f表示对该视频的目标视觉特征{fi}取平均之后的特征,m表示对该视频的动作视
觉特征{mj}取平均之后的特征,[f,m]表示f与m的拼接;
(3g)计算三种语义属性预测值与真实语义属性之间的交叉熵,计算公式如下:
其中L(g,ga)是全局语义属性预测值与真实全局语义属性的交叉熵,L(o,oa)是目标语
义属性预测值与真实目标语义属性的交叉熵,L(v,va)是动作语义属性预测值与真实动作
语义属性的交叉熵,gai表示ga中第i个位置的值,oai表示oa中第i个位置的值,vai表示va中第i个位置的值;
(3h)对训练集E中的每个视频进行(3e)~(3g)操作,用Adam算法更新三个多层感知机
的参数,使所有视频的语义属性交叉熵总和最小。
4.根据权利要求1所述的方法,其特征在于,(4)中对一个视频的一组目标视觉特征{fi}
进行加权求和,按如下过程进行:
(4a)在LSTM网络生成描述视频的每个单词时,将LSTM网络的前一时刻的隐藏状态ht-1
和视频第i帧的目标视觉特征fi作为输入,计算相似性得分 并根据相似性得分 计算目
标视觉特征加权权重 计算公式如下:
其中,表示tanh函数,ω1、Wb、Wf、bb都是随机初始化的不同参数;
(4b)计算LSTM网络在t时刻输入的目标视觉特征加权和
5.根据权利要求1所述的方法,其特征在于,(4)中对一个视频的一组动作视觉特征{mj}
进行加权求和,按如下过程进行:
(4c)在LSTM网络生成描述视频的每个单词时,将LSTM网络的前一时刻的隐藏状态ht-1
和视频第j个视频段的动作视觉特征mj作为输入,计算相似性得分 并根据相似性得分
计算动作视觉特征加权权重 计算公式如下:
其中,表示tanh函数,ω2、Wc、Wm、bc都是随机初始化的不同参数;
(4d)计算LSTM网络在t时刻输入的动作视觉特征加权和
6.根据权利要求1所述的方法,其特征在于,(5)中外部记忆网络通过写入和读取操作
与LSTM网络进行信息交互,按如下步骤进行:
(5a)在生成视频描述句子的每个单词概率分布之前,先根据LSTM网络前一时刻的隐藏
状态计算出擦除向量et和添加向量at:
et=σ(Weht-1+be)
at=φ(Waht-1+ba)
其中,σ表示sigmoid函数,表示tanh函数,ht-1为LSTM网络前一时刻的隐藏状态,We、Wa、
be、ba都是随机初始化的不同参数;
(5b)计算出写入关键值向量 写入强度系数 和写入权重向量 计算公式如
下:
其中,δ为ReLU函数,Ww、 bw、 都是随机初始化的不同参数,
是记忆写入权重值,是由写入关键值向量 与记忆网络
中每个位置的存储向量Mt-1(i)进行相似性度量得到的,||·||表示取二范数,ε是为了防止
分母为0而取的一个正数;
(5c)用擦除向量et、添加向量at和写入权重向量 对记忆网络每个位置的存储向量进
行更新,得到每个位置更新后的存储向量Mt(i):
其中,⊙表示逐元素点乘操作;
(5d)在记忆网络内的存储向量完成更新后,分别计算读取关键值向量 读取强度
系数 读取权重向量 计算公式为:
其中, 为记忆读取权重值,Wr、 br、 都是随机初始
化的不同参数;
(5e)LSTM网络读取记忆网络里的内容rt,表示为:
7.根据权利要求1所述的方法,其特征在于,(7)中得到融合后的结果 m*分别
表示如下:
全局语义属性ga与LSTM网络前一时刻的隐藏状态ht-1融合后的结果 为:
其中,⊙表示逐元素点乘操作,Ua*、Ub*是随机初始化的不同参数;
全局语义属性ga与当前时刻的单词向量xt融合后的结果 为: 其
中,xt是已预训练得到的单词向量,Wa*、Wb*是随机初始化的不同参数;
全局语义属性ga与从外部记忆网络读取的信息rt融合后的结果m*为:m*=Ma*rt⊙Mb*ga,
其中,Ma*、Mb*是随机初始化的不同参数。
8.根据权利要求1所述的方法,其特征在于,(8)中得到融合后的结果v*表示如下:
其中,⊙表示逐元素点乘操作,Va*、Vb*是随机初始化的不同参数。
9.根据权利要求1所述的方法,其特征在于,(9)中得到融合后的结果c*表示如下:
其中,⊙表示逐元素点乘操作,Ca*、Cb*是随机初始化的不同参数。
10.根据权利要求1所述的方法,其特征在于,(11)中LSTM网络当前时刻的隐藏状态,按
如下过程得到:
(11a)计算LSTM网络当前时刻输入门it,遗忘门ft,输出门ot,输入权重门gt的值,计算公
式为:
其中,σ表示sigmoid函数,表示tanh函数, mi、vi、ci, mf、vf、cf,
mo、vo、co, mg、vg、cg是(10)计算得到的四组结果,Wci、Wcf、Wco、Wcg、Uci、
Ucf、Uco、Ucg、Vci、Vcf、Vco、Vcg、Cci、Ccf、Cco、Ccg、Mci、Mcf、Mco、Mcg、bi、bf、bo、bg都是随机初始化的不同参数;
(11b)根据输入门it、遗忘门ft、输入权重门gt的值,计算LSTM网络当前时刻的细胞记忆
状态ct:
ct=gt⊙it+ct-1⊙ft,
其中,⊙表示逐元素点乘操作,ct-1为LSTM网络前一时刻细胞记忆状态的值;
(11c)根据LSTM网络当前时刻输出门ot和细胞记忆状态ot的值,计算LSTM网络当前时刻
的隐藏状态ht:
ht=ot⊙φ(ct)。
11.根据权利要求1所述的方法,其特征在于,(12)中得到的融合结果R1、R2、R3、Pt分别表
示如下:
全局语义属性ga与LSTM网络当前时刻的隐藏状态ht融合后的结果R1为:R1=Wkht⊙Wlga,
其中,⊙表示逐元素点乘操作,Wk、Wl是随机初始化的不同参数;
目标语义属性oa与(4)得到的目标视觉特征的加权和 融合后的结果R2为:
其中Wp、Ws是随机初始化的不同参数;
动作语义属性va与(4)得到的动作视觉特征的加权和 融合后的结果R3为:
其中Wu、Wv是随机初始化的不同参数;
R1、R2、R3融合后的结果Pt为:Pt=φ(Wq[R1,R2,R3]+bq),其中,Wq、bq是随机初始化的不同参数,[R1,R2,R3]表示R1、R2、R3的拼接。
12.根据权利要求1所述的方法,其特征在于,(13)中计算得到该视频的当前时刻的单
词概率分布wt,通过如下公式计算:
wt=softmax(WdPt+bd)
其中,softmax表示softmax函数,Wd、bd是随机初始化的不同参数。
13.根据权利要求1所述的方法,其特征在于,(14)中计算该视频的单词概率分布与该
视频自带的正确的单词概率分布的交叉熵L(θ),通过如下公式计算:
其中,Ti表示该视频自带的第i个正确句子的单词数量,w1~(t-1)表示t时刻之前得到的所
有单词的概率分布,V表示该视频的视觉特征,S表示该视频的语义属性,θ表示所有随机初
始化的参数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种知识图谱驱动型的法律智能咨询系统 | 2020-05-14 | 582 |
用于筛选新冠肺炎候选药物的方法及装置 | 2020-05-08 | 894 |
使用图像分割的对象跟踪 | 2020-05-12 | 413 |
一种基于物品时间流行性的推荐方法 | 2020-05-08 | 846 |
使用用户特定信息定制建议的方法和系统 | 2020-05-12 | 249 |
一种在线评测系统的题目推荐方法 | 2020-05-12 | 379 |
一种图像显著目标的检测方法 | 2020-05-13 | 251 |
一种基于状态评估的一二次融合柱上开关巡检策略 | 2020-05-12 | 299 |
一种双模块神经网络结构视频对象分割方法 | 2020-05-15 | 677 |
一种基于事理推荐的逻辑图谱构建及预警方法和装置 | 2020-05-13 | 921 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。