首页 / 专利库 / 视听技术与设备 / 视频编码层 / 基于非对称多层LSTM的连续手语视频自动翻译方法

基于非对称多层LSTM的连续手语视频自动翻译方法

阅读:178发布:2020-05-12

专利汇可以提供基于非对称多层LSTM的连续手语视频自动翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于非对称多层LSTM的连续手语视频自动翻译方法,包括:建立三层LSTM网络结构,网络结构分为编码和解码两个阶段;提取手语视频特征并构建单词表;对视频特征进行关键 帧 挖掘,并分为关键 块 与非关键块;将视频特征输入第一层LSTM,对非关键块输出进行pooling 池化 操作,并与关键块输出组成视素特征;将视素特征输入第二层LSTM得到视素特征编码,并输入第三层LSTM得到视觉表达;在解码阶段,利用解码部分对视觉表达进行解码,得到单词序列,组成句子。本发明能够有效克服手语者的形体、手语习惯不同的复杂情况的影响,以实现对于手语句子的翻译,并提高手语翻译的精确性,增强手语翻译的鲁棒性。,下面是基于非对称多层LSTM的连续手语视频自动翻译方法专利的具体信息内容。

1.一种基于非对称多层LSTM的连续手语视频自动翻译方法,其特征是按如下步骤进行:
步骤1、搭建非对称三层LSTM网络结构:
令所述非对称三层LSTM网络结构共包含三层的LSTM模块,第一层LSTM1模块为循环递归特征抽取层LSTM1,第二层LSTM2模块为视觉特征学习编码层LSTM2,第三层LSTM3模块为语义学习解码层LSTM3;
将所述非对称三层LSTM网络结构分为两个部分:视频编码阶段和语义解码阶段;所述视频编码阶段包含:第一层LSTM1模块、第二层LSTM2模块和第三层LSTM3模块;所述语义解码阶段包含:第二层LSTM2模块和第三层LSTM3模块;
步骤2、数据准备:
获取手语视频数据库,所述手语视频数据库中包含若干个手语视频及其所对应的翻译句子标签;将所述手语视频数据库分为训练数据集Data_train和测试数据集Data_test;
创建单词表Voc,并为所述单词表Voc中各个单词建立索引,得到单词索引,同时为单词表Voc建立嵌入式词矩阵Wemb,所述嵌入式词矩阵Wemb中第l行向量即为单词表Voc中第l个单词的向量表达,l表示词向量索引;1≤l≤|Voc|,其中,|Voc|为单词量大小;
步骤3、所述视频编码阶段:
步骤3.1、对所述手语视频数据库中的任意一段手语视频S进行特征提取,得到所述手语视频S的特征集合,记为 其中, 表示所述手语视频S中
第k个特征向量,k=1,2,…,KS,KS为视频S的总帧数,dimf为特征向量的维度;
步骤3.2、采用RSS残差平方和计算方法获取所述手语视频S的特征集合F的残差序列εk表示第k个特征向量fk的残差平方和;
步骤3.3、将所述手语视频S的特征集合F输入到所述循环递归特征抽取层LSTM1,得到所述手语视频S的循环递归特征集合 其中,hk表示第k个循环递归特
征, 为所述第一层LSTM1模块的隐状态个数;
步骤3.4、根据所述残差序列ε的曲线划分得到P个递增曲线段,获取任意一个递增曲线段中包括局部最低点和局部最高点之间的所有残差平方和所对应的下标,并与所述循环递归特征集合H中循环递归特征的下标相对应,从而将所述循环递归特征集合H中相应下标的循环递归特征划分为P个关键块{A1,A2,…,Ap,…,AP};Ap表示第p个关键块,并有:
表示第p个关键块Ap中第n个循环递归特征;1≤n≤|Ap
|,|Ap|为所述第p个关键块Ap中循环递归特征总个数;1≤p≤P;
则所述循环递归特征集合H中其余下标对应的循环递归特征作为Q个非关键块{R1,R2,…,Rq,…,RQ};Rq表示第q个非关键块,并有: 表示第q
个关键块Rq中第m个循环递归特征;1≤m≤|Rq|,|Rq|为所述第q个关键块Rq中循环递归特征总个数;1≤q≤Q;Q=P或者Q=P-1;
步骤3.5、计算得到视素特征集合 代表第x个视素特征,1≤x
≤X,并有
步骤3.5.1、初始化p=1;并将所述关键块Ap中所有循环递归特征作为视素特征输出;
步骤3.5.2、令p+1赋值给p后,判断p>P是否成立,若成立,执行步骤3.6;否则初始化n=1;
步骤3.5.3、判断n=1是否成立;
若成立,则将所述关键块Ap中第n个循环递归特征 与其前一个非关键块中的循环递归特征合并为待pooling池化的特征块 其中,q=p-1;选择一
个策略对所述待pooling池化的特征块执行池化操作,并将池化结果作为所述第n个循环递归特征 的视素特征输出;
否则,直接将所述第n个循环递归特征 作为视其素特征输出;
步骤3.5.4、令n+1赋值给n后,判断n>|Ap|是否成立,若成立,执行步骤3.5.2;否则,返回步骤3.5.3;
步骤3.6、获得所述视素特征集合 并利用式(1)得到注意力权
重调优后的视素特征集合
式(1)中,watt,x为第x个注意力权重向量;
步骤3.7、设置参数U为所述视觉特征学习编码层LSTM2的编码长度;将所述注意力权重调优后的视素特征集合 映射到集合元素个数为U的校正视素特征集
合 其中 表示第u个校正视素特征,1≤u≤U:
若X>U,采用等距取样将 中的元素抽取到 中;
若X=U,则令
否则,则对 添加U-X个向量 构成
步骤3.8、将所述校正视素特征集合 输入所述视觉特征学习编码
层LSTM2,得到视素特征编码集合H″={h″1,h″2,…,h″u,…,h″U},其中h″u表示第u个视素特征编码, 为所述第二层LSTM2模块的隐状态个数;
步骤3.9、将所述视素特征编码H″={h″1,h″2,…,h″u,…,h″U}输入所述语义学习解码层LSTM3,得到所述手语视频S的视觉表达V={v1,v2,…,vu,…,vU},vu表示第u个视觉表达;
为所述第三层LSTM3模块的隐状态个数;
步骤4、所述语义视频解码阶段:
步骤4.1、定义解码阶段中第t个视素特征编码为h″U+t;记解码阶段中第t个词向量为wt;
步骤4.2、初始化t=1,令解码阶段中第t-1个视素特征编码h″U+t-1=h″U和第t-1个词向量wt-1=vU;
步骤4.3、将零向量 作为视素特征,与解码阶段中第t-1个视素特征编码为h″U+t-1一起输入到所述视觉特征学习编码层LSTM2;得到解码阶段中第t个视素特征编码h″U+t;
步骤4.4、利用所述语义学习解码层LSTM3得到解码阶段中第t个语义表达yt,第t个词向量wt,当前第t个单词wordt及第t个条件概率向量probt:
步骤4.4.1、将解码阶段中第t-1个词向量wt-1,与解码阶段中第t个视素特征编码h″U+t一起输入所述语义学习解码层LSTM3,得到解码阶段中第t个语义表达yt;
步骤4.4.2、在所述视频解码阶段的语义学习解码层LSTM3下建立Softmax层,输入所述第t个语义表达yt得到所述第t个条件概率向量probt,所述第t个条件概率向量probt中包含单词表Voc中各个单词的概率;
步骤4.4.3、从所述第t个条件概率向量probt中选取条件概率最大值所对应的索引作为解码阶段中生成的第t个单词索引idt;
步骤4.4.4、根据第t个单词索引idt查找单词表Voc中所对应识别的单词,作为所述第t个识别单词wordt;判断wordt是否为结束符,若是,执行步骤4.6;否则,继续执行步骤4.4.5;
步骤4.4.5、判断所述手语视频S∈Data_train是否成立,
如果成立,则将t赋值给识别序号ind,并从所述手语视频S所对应的翻译句子标签中取出第ind个单词,在单词表Voc中检索第ind个单词的索引序号作为第t个词向量索引IDt;
否则,将第t个单词索引idt赋值给第t个词向量索引IDt;
步骤4.4.6、从所述嵌入式词矩阵Wemb中取出第IDt行向量作为第t个词向量wt;
步骤4.5、将t+1赋给t,并执行步骤4.3;
步骤4.6、从而得到所述手语视频S的识别单词集合
及条件概率集合
t=1,2,…,TS,TS表示所述手语视频S中单词总
数;
步骤5、所述非对称三层LSTM网络结构的模型参数优化:
步骤5.1、将所述训练数据集Data_train中所有手语视频均按照步骤3至步骤4进行处理,从而得到所述训练数据集Data_train中所有手语视频的识别单词集合以及条件概率集合;
记所述训练数据集Data_train中任意一个手语视频E的识别单词集合为
以及条件概率集合为
1≤g≤GE,GE为所述手语视频E中单词总
数;
步骤5.2、利用式(2)得到所述训练数据集Data_train的翻译句子信息叉熵之和EntropyData_train:
步骤5.3、利用随机梯度下降法对所述翻译句子信息叉熵EntropyData_train进行优化求解,使得EntropyData_train最小化,从而得到所述非对称三层LSTM网络结构的最优模型参数;
步骤6、获得测试视频的翻译句子:
从所述测试数据集Data_test中获取任意一个手语视频作为测试视频,并利用所述非对称三层LSTM网络结构的最优模型参数获得所述测试视频的识别单词集合,从而实现手语视频自动翻译。
2.根据权利要求1所述的连续手语视频自动翻译方法,其特征是所述pooling池化操作所选择的策略包括:
Key pooling策略:直接将第n个循环递归特征 作为当前pooling的输出;
Mean pooling策略:利用式(3)所示的平均值量化法对所述待pooling池化的特征块在各维度上取均值,并作为当前pooling操作输出:
式(3)中,mean(·)为平均值量化函数; 分别为 在第j维上的特
征值;
Max pooling策略:利用式(4)所示的最大值量化法对所述待pooling池化的特征块在各维度上取最大值,并作为当前pooling操作输出:
式(4)中,max(·)为最大值量化函数;
Linear pooling策略:利用式(5)对非关键帧特征集合Rq中的最后一个循环递归特征和第p个关键块Ap中第n个循环递归特征 在各维度上取均值,并作为当前pooling操作输出:

说明书全文

基于非对称多层LSTM的连续手语视频自动翻译方法

技术领域

[0001] 本发明属于计算机视觉技术领域,涉及到模式识别自然语言处理人工智能等技术,具体地说是一种基于非对称多层LSTM的连续手语视频自动翻译方法。

背景技术

[0002] 当聋哑人在和未学习过手语的正常人进行交流时,会存在沟通障碍,而手语翻译系统可以将聋哑人的手语转变为文字,方便正常人理解,从而实现双方的无障碍交流,因此
手语翻译系统具有广泛的应用场景,且需求十分迫切,是计算机视觉和模式识别的重要研
究课题。但目前手语翻译仍然是计算机视觉领域的一个难题,原因是手语者的身材、手语速
度、手语习惯等千差万别,识别的情况复杂,因此识别正确率有待提高。而且对于连续的手
语句子来说,需要学习词与词之间的语义关系,才能在识别之后生成正确的文字序列,这也
提高了手语翻译的难度。
[0003] 在手语翻译过程中,特征提取是一个基本步骤,同时也是一个重要步骤,选择一个合适的特征提取方法能够有效改善手语识别效果,提高手语识别精度。目前比较流行的特
征包括point cloud、视觉深度词袋、Haar-like特征、HOG特征等传统特征,以及使用卷积神
经网络模型如VGGNet提取深度网络特征或。其缺点是在提取视频特征时,对于视频序列,
无法同时保留帧与帧之间的时序信息和每一帧的空间特征信息,进而影响后续的识别效
果。
[0004] 另外在手语翻译模型方面,常用的有支持向量机(SVM)、动态时间规整算法(DTW)以及隐尔可夫模型(HMM)等传统模型,其缺点是更适用于识别和翻译单个手语单词,而对
于一个包含多个手语单词的连续手语句子,并不能学习单词之间的语义关系,因而无法有
效地对连续的手语句子进行翻译。传统的编码解码结构的翻译系统通常用来解决文字到文
字的翻译,而无法有效地处理从视频到文字的跨模态问题。

发明内容

[0005] 本发明是为了克服现有技术存在的不足之处,提供一种基于非对称多层LSTM的连续手语视频自动翻译方法,以期能够有效克服手语者的外观形体以及手语习惯各异的复杂
情况的影响,并且学得句子中手语单词之间语义关系,从而实现对于手语句子的翻译,并提
高手语翻译的精确性,增强手语翻译的鲁棒性。
[0006] 本发明为解决技术问题采用如下技术方案:
[0007] 本发明一种基于非对称多层LSTM的连续手语视频自动翻译方法的特点是按如下步骤进行:
[0008] 步骤1、搭建非对称三层LSTM网络结构:
[0009] 令所述非对称三层LSTM网络结构共包含三层的LSTM模,第一层LSTM1模块为循环递归特征抽取层LSTM1,第二层LSTM2模块为视觉特征学习编码层LSTM2,第三层LSTM3模块
为语义学习解码层LSTM3;
[0010] 将所述非对称三层LSTM网络结构分为两个部分:视频编码阶段和语义解码阶段;所述视频编码阶段包含:第一层LSTM1模块、第二层LSTM2模块和第三层LSTM3模块;所述语义
解码阶段包含:第二层LSTM2模块和第三层LSTM3模块;
[0011] 步骤2、数据准备:
[0012] 获取手语视频数据库,所述手语视频数据库中包含若干个手语视频及其所对应的翻译句子标签;将所述手语视频数据库分为训练数据集Data_train和测试数据集Data_
test;
[0013] 创建单词表Voc,并为所述单词表Voc中各个单词建立索引,得到单词索引,同时为单词表Voc建立嵌入式词矩阵Wemb,所述嵌入式词矩阵Wemb中第l行向量即为单词表Voc中第l
个单词的向量表达,l表示词向量索引;1≤l≤|Voc|,其中,|Voc|为单词量大小;
[0014] 步骤3、所述视频编码阶段:
[0015] 步骤3.1、对所述手语视频数据库中的任意一段手语视频S进行特征提取,得到所述手语视频S的特征集合,记为 其中, 表示所述手语视
频S中第k个特征向量,k=1,2,…,KS,KS为视频S的总帧数,dimf为特征向量的维度;
[0016] 步骤3.2、采用RSS残差平方和计算方法获取所述手语视频S的特征集合F的残差序列 εk表示第k个特征向量fk的残差平方和;
[0017] 步骤3.3、将所述手语视频S的特征集合F输入到所述循环递归特征抽取层LSTM1,得到所述手语视频S的循环递归特征集合 其中,hk表示第k个循环
递归特征, 为所述第一层LSTM1模块的隐状态个数;
[0018] 步骤3.4、根据所述残差序列ε的曲线划分得到P个递增曲线段,获取任意一个递增曲线段中包括局部最低点和局部最高点之间的所有残差平方和所对应的下标,并与所述循
环递归特征集合H中循环递归特征的下标相对应,从而将所述循环递归特征集合H中相应下
标的循环递归特征划分为P个关键块{A1,A2,…,Ap,…,AP};Ap表示第p个关键块,并有:
表示第p个关键块Ap中第n个循环递归特征;1≤n≤|Ap
|,|Ap|为所述第p个关键块Ap中循环递归特征总个数;1≤p≤P;
[0019] 则所述循环递归特征集合H中其余下标对应的循环递归特征作为Q个非关键块{R1,R2,…,Rq,…,RQ};Rq表示第q个非关键块,并有: 表
示第q个关键块Rq中第m个循环递归特征;1≤m≤|Rq|,|Rq|为所述第q个关键块Rq中循环递
归特征总个数;1≤q≤Q;Q=P或者Q=P-1;
[0020] 步骤3.5、计算得到视素特征集合 代表第x个视素特征,1≤x≤X,并有
[0021] 步骤3.5.1、初始化p=1;并将所述关键块Ap中所有循环递归特征作为视素特征输出;
[0022] 步骤3.5.2、令p+1赋值给p后,判断p>P是否成立,若成立,执行步骤3.6;否则初始化n=1;
[0023] 步骤3.5.3、判断n=1是否成立;
[0024] 若成立,则将所述关键块Ap中第n个循环递归特征 与其前一个非关键块中的循环递归特征合并为待pooling池化的特征块 其中,q=p-1;选
择一个策略对所述待pooling池化的特征块执行池化操作,并将池化结果作为所述第n个循
环递归特征 的视素特征输出;
[0025] 否则,直接将所述第n个循环递归特征 作为视其素特征输出;
[0026] 步骤3.5.4、令n+1赋值给n后,判断n>|Ap|是否成立,若成立,执行步骤3.5.2;否则,返回步骤3.5.3;
[0027] 步骤3.6、获得所述视素特征集合 并利用式(1)得到注意权重调优后的视素特征集合
[0028]
[0029] 式(1)中,watt,x为第x个注意力权重向量;
[0030] 步骤3.7、设置参数U为所述视觉特征学习编码层LSTM2的编码长度;将所述注意力权重调优后的视素特征集合 映射到集合元素个数为U的校正视素特
征集合 其中 表示第u个校正视素特征,1≤u≤U:
[0031] 若X>U,采用等距取样将 中的元素抽取到 中;
[0032] 若X=U,则令
[0033] 否则,则对 添加U-X个向量 构成
[0034] 步骤3.8、将所述校正视素特征集合 输入所述视觉特征学习编码层LSTM2,得到视素特征编码集合H″={h″1,h″2,…,h″u,…,h″U},其中h″u表示第u个视素特征编码, 为所述第二层LSTM2模块的隐状态个数;
[0035] 步骤3.9、将所述视素特征编码H″={h″1,h″2,…,h″u,…,h″U}输入所述语义学习解码层LSTM3,得到所述手语视频S的视觉表达V={v1,v2,…,vu,…,vU},vu表示第u个视觉表
达; 为所述第三层LSTM3模块的隐状态个数;
[0036] 步骤4、所述语义视频解码阶段:
[0037] 步骤4.1、定义解码阶段中第t个视素特征编码为h″U+t;记解码阶段中第t个词向量为wt;
[0038] 步骤4.2、初始化t=1,令解码阶段中第t-1个视素特征编码h″U+t-1=h″U和第t-1个词向量wt-1=vU;
[0039] 步骤4.3、将零向量 作为视素特征,与解码阶段中第t-1个视素特征编码为h″U+t-1一起输入到所述视觉特征学习编码层LSTM2;得到解码阶段中第t个视素特征编码
h″U+t;
[0040] 步骤4.4、利用所述语义学习解码层LSTM3得到解码阶段中第t个语义表达yt,第t个词向量wt,当前第t个单词wordt及第t个条件概率向量probt:
[0041] 步骤4.4.1、将解码阶段中第t-1个词向量wt-1,与解码阶段中第t个视素特征编码h″U+t一起输入所述语义学习解码层LSTM3,得到解码阶段中第t个语义表达yt;
[0042] 步骤4.4.2、在所述视频解码阶段的语义学习解码层LSTM3下建立Softmax层,输入所述第t个语义表达yt得到所述第t个条件概率向量probt,所述第t个条件概率向量probt中
包含单词表Voc中各个单词的概率;
[0043] 步骤4.4.3、从所述第t个条件概率向量probt中选取条件概率最大值所对应的索引作为解码阶段中生成的第t个单词索引idt;
[0044] 步骤4.4.4、根据第t个单词索引idt查找单词表Voc中所对应识别的单词,作为所述第t个识别单词wordt;判断wordt是否为结束符,若是,执行步骤4.6;否则,继续执行步骤
4.4.5;
[0045] 步骤4.4.5、判断所述手语视频S∈Data_train是否成立,
[0046] 如果成立,则将t赋值给识别序号ind,并从所述手语视频S所对应的翻译句子标签中取出第ind个单词,在单词表Voc中检索第ind个单词的索引序号作为第t个词向量索引
IDt;
[0047] 否则,将第t个单词索引idt赋值给第t个词向量索引IDt;
[0048] 步骤4.4.6、从所述嵌入式词矩阵Wemb中取出第IDt行向量作为第t个词向量wt;
[0049] 步骤4.5、将t+1赋给t,并执行步骤4.3;
[0050] 步骤4.6、从而得到所述手语视频S的识别单词集合
[0051] 及条件概率集合 t=1,2,…,TS,TS表示所述手语视频S中单词总数;
[0052] 步骤5、所述非对称三层LSTM网络结构的模型参数优化:
[0053] 步骤5.1、将所述训练数据集Data_train中所有手语视频均按照步骤3至步骤4进行处理,从而得到所述手语视频训练集Data_train中所有手语视频的识别单词集合以及条
件概率集合;
[0054] 记所述手语视频训练集Data_train中任意一个手语视频E的识别单词集合为以及条件概率集合为
1≤g≤GE,GE为所述手语视频E中单词总
数;
[0055] 步骤5.2、利用式(2)得到所述手语视频训练集Data_train的翻译句子信息叉熵之和EntropyData_train:
[0056]
[0057] 步骤5.3、利用随机梯度下降法对所述翻译句子信息叉熵EntropyData_train进行优化求解,使得EntropyData_train最小化,从而得到所述非对称三层LSTM网络结构的最优模型
参数;
[0058] 步骤6、获得所述测试视频的翻译句子:
[0059] 从所述测试数据集Data_test中获取任意一个手语视频作为测试视频,并利用所述非对称三层LSTM网络结构的最优模型参数获得所述测试视频的识别单词集合,从而实现
手语视频自动翻译。
[0060] 本发明所述的连续手语视频自动翻译方法的特点也在于,所述pooling池化操作所选择的策略包括:
[0061] Key pooling策略:直接将第n个循环递归特征 作为当前pooling的输出;
[0062] Mean pooling策略:利用式(3)所示的平均值量化法对所述待pooling池化的特征块 在各维度上取均值,并作为当前pooling操作输出:
[0063]
[0064] 式(3)中,mean(·)为平均值量化函数; 分别为 在第j维上的特征值;
[0065] Max pooling策略:利用式(4)所示的最大值量化法对所述待pooling池化的特征块 在各维度上取最大值,并作为当前pooling操作输出:
[0066]
[0067] 式(4)中,max(·)为最大值量化函数;
[0068] Linearpooling策略:利用式(5)对所述非关键帧特征集合Rq中的最后一个循环递归特征 和第p个关键块Ap中第n个循环递归特征 在各维度上取均值,并作为当前
pooling操作输出:
[0069]
[0070] 与已有技术相比,本发明的有益效果体现在:
[0071] 1、本发明提出了一种基于分层LSTM的手语翻译模型,模型结构为非对称的编码解码结构,编码部分由三层LSTM组成,而解码部分由两层LSTM组成,该结构实现了紧凑且高效
的视觉表示和语义编码,可以充分适用于视频这一类时序特征的学习以及对包含多个手语
单词的句子的翻译。
[0072] 2、本发明提出了基于残差平方和(RSS)的关键特征块挖掘方法,根据RSS曲线的单调递增和单调递减部分将特征序列分为关键块和非关键块,关键块对应手语视频中辨识度
较大的动作,是在手语识别过程中真正起到作用的代表性动作。关键特征块挖掘方法不同
于固定帧数的特征采样方法,可以有所侧重地获取关键块特征的连续变化和区分干扰学习
的非关键块特征。
[0073] 4、本发明提出了四种pooling池化策略,即Key pooling、Mean pooling、Max pooling和Linear pooling,通过四种pooling池化策略对非关键特征片段进行处理,避免
了模型对于非关键特征的过度学习,防止学习过程受到无用信息的干扰。
[0074] 5、本发明提出了一种基于时间注意力权重调优机制,权值初始化为任意值,通过模型自主学习优化,用于平衡编码部分特征片段的之间的权重,优化对于视频特征的学习
过程。
附图说明
[0075] 图1为本发明的结构示意图;
[0076] 图2为本发明的流程图
[0077] 图3a为本发明pooling池化操作示意图;
[0078] 图3b为第一个关键块示意图;
[0079] 图3c为非第一个关键块示意图。

具体实施方式

[0080] 本实施例中,如图1和图2所示,一种基于非对称多层LSTM的连续手语视频自动翻译方法能充分提取手语视频中的空间特征与时序特征,对识别度高的关键动作的特征进行
有效地学习,并有效避免模型学习过程中受到手语者体形、手语速度、手语习惯等影响因素
的干扰。首先对原始手语视频进行预处理,提取手语视频特征;再利用基于RSS残差平方和
的关键特征挖掘技术,将视频特征分为关键特征和非关键特征。利用由三层LSTM模块组成
的非对称编码解码结构的网络模型,在编码部分,对于第一层LSTM输出,进行pooling池化
操作,再乘以注意力权重组成视素特征;将视素特征输入到编码部分,得到视频语义表示,
再利用解码部分计算文字的条件概率,得到完整的文字序列,组成句子;具体地说,包括如
下步骤:
[0081] 步骤1、搭建非对称三层LSTM网络结构:
[0082] 如图1所示,令非对称三层LSTM网络结构共包含三层的LSTM模块,第一层LSTM1模块为循环递归特征抽取层LSTM1,第二层LSTM2模块为视觉特征学习编码层LSTM2,第三层
LSTM3模块为语义学习解码层LSTM3;
[0083] 将非对称三层LSTM网络结构分为两个部分:视频编码阶段和语义解码阶段;视频编码阶段包含:第一层LSTM1模块、第二层LSTM2模块和第三层LSTM3模块;语义解码阶段包
含:第二层LSTM2模块和第三层LSTM3模块;
[0084] 步骤2、数据准备:
[0085] 获取手语视频数据库,手语视频数据库中包含若干个手语视频及其所对应的翻译句子标签;将手语视频数据库分为训练数据集Data_train和测试数据集Data_test;
[0086] 创建单词表Voc,并为单词表Voc中各个单词建立索引,得到单词索引,同时为单词表Voc建立嵌入式词矩阵Wemb,嵌入式词矩阵Wemb中第l行向量即为单词表Voc中第l个单词的
向量表达,l表示词向量索引;1≤l≤|Voc|,其中,|Voc|为单词量大小;
[0087] 创建单词表Voc的方法:单词表可以包含单词、标点符号和结束符,通常可以选择使用句号“.”或“。”作为结束符;单词表可以由翻译句子标签中所有出现的单词组成,或直
接使用包含翻译句子标签中出现的单词的现有单词语料库,例如互联网上公布的。
[0088] 矩阵Wemb的初始化及其训练学习:在非对称三层LSTM网络结构训练学习之前,Wemb可以被任意初始化;如果在非对称三层LSTM网络结构训练学习过程中,Wemb参与训练学习并
更新其状态值,训练学习完成后,将随网络结构参数一起保留在模型中;否则,加载已训练
学习完成的Wemb且不再变更其值,而直接进行使用;
[0089] 步骤3、视频编码阶段:
[0090] 步骤3.1、对手语视频数据库中的任意一段手语视频S进行特征提取,得到手语视频S的特征集合,记为 其中, 表示手语视频S中第k个特征
向量,k=1,2,…,KS,KS为视频S的总帧数,dimf为特征向量的维度;
[0091] 手语视频特征,例如可以采用、HOG特征、骨架节点特征、二维卷积特征、三维卷积特征等;本实施例中,可以采用三维卷积神经网络模型C3D三维卷积神经网络对视频特征进
行特征提取;相比二维卷积网络,C3D模型增加了时间维度的卷积,因此该模型不仅能够提
取视频中每一帧的特征,还可以有效地提取视频中帧与帧之间的时序信息,在较长的视频
帧序列中保留他们的关联关系;
[0092] 步骤3.2、利用RSS残差平方和计算方法获取手语视频S的特征集合F的残差序列εk表示第k个特征向量fk的残差平方和;
[0093] 步骤3.2.1、初始化k=1;
[0094] 步骤3.2.2、令k+1赋值给k后,判断k>KS是否成立,若成立,执行步骤3.3;否则执行步骤3.2.3;
[0095] 步骤3.2.3、根据式(1)计算第k个相关系数βk:
[0096]
[0097] 其中,令Fk-1=[f1,f2,…,fk-1];
[0098] 步骤3.2.4、根据式(2)计算第k个残差平方和εk:
[0099] εk=||fk-Fk-1βk||   (2)
[0100] 步骤3.2.4、根据式(3)计算第k个相关矩阵Mk,并返回执行步骤3.2.3:
[0101]
[0102] 步骤3.3、将手语视频S的特征集合F输入到循环递归特征抽取层LSTM1,利用式(4)得到手语视频S的循环递归特征集合 其中,hk表示第k个循环递归
特征, 为第一层LSTM1模块的隐状态个数;
[0103]
[0104] 式(4)中,σ为sigmoid函数,tanh(·)为正切函数,⊙为按元素相乘,ck表示LSTM1模块的第k个记忆单元状态,当k=1时,hk-1为维度为 的零向量,ck-1为维度为
的零向量;Wτ、Wδ、Wι、Wζ、bδ、bι、bτ、bζ为第一层LSTM1模块自带的参数;
[0105] 步骤3.4、根据残差序列ε的曲线划分得到P个递增曲线段,获取任意一个递增曲线段中包括局部最低点和局部最高点之间的所有残差平方和所对应的下标,并与循环递归特
征集合H中循环递归特征的下标相对应,从而将循环递归特征集合H中相应下标的循环递归
特征划分为P个关键块{A1,A2,…,Ap,…,AP};Ap表示第p个关键块,并有:
表示第p个关键块Ap中第n个循环递归特征;1≤n≤|Ap
|,|Ap|为第p个关键块Ap中循环递归特征总个数;1≤p≤P;
[0106] 则循环递归特征集合H中其余下标对应的循环递归特征作为Q个非关键块{R1,R2,…,Rq,…,RQ};Rq表示第q个非关键块,并有: 表示第q
个关键块Rq中第m个循环递归特征;1≤m≤|Rq|,|Rq|为第q个关键块Rq中循环递归特征总个
数;1≤q≤Q;Q=P或者Q=P-1;
[0107] 如图3a所示一个残差序列ε的实例,实线代表关键块,虚线代表非关键块;
[0108] 步骤3.5、计算得到视素特征集合 代表第x个视素特征,1≤x≤X,并有
[0109] 步骤3.5.1、初始化p=1;如图3b所示,并将关键块Ap中所有循环递归特征作为视素特征输出;
[0110] 步骤3.5.2、令p+1赋值给p后,判断p>P是否成立,若成立,执行步骤3.6;否则初始化n=1;
[0111] 步骤3.5.3、判断n=1是否成立;如图3c所示,
[0112] 若成立,则将关键块Ap中第n个循环递归特征 与其前一个非关键块中的循环递归特征合并为待pooling池化的特征块 其中,q=p-1;选择一
个策略对待pooling池化的特征块执行池化操作,并将池化结果作为第n个循环递归特征
的视素特征输出;
[0113] 执行pooling池化操作,可以选择的策略包括:
[0114] Key pooling策略:直接将第n个循环递归特征 作为当前pooling的输出;此种策略直接忽略非关键块Rq的循环递归特征,只保留其传递到当前循环递归特征 的作用;
该策略是一种基本pooling策略,性能上较为稳定,适合于各种手语视频翻译的应用场景;
[0115] Mean pooling策略:利用式(5)所示的平均值量化法对待pooling池化的特征块在各维度上取均值,并作为当前pooling操作输出:
[0116]
[0117] 式(5)中,mean(·)为平均值量化函数; 分别为 在第j维上的特征值; 此种策略保留了非关键块Rq在循环递归传递过程中的平均
性能,较为适合对已见过句子的手语视频翻译的应用场景:
[0118] Max pooling策略:利用式(6)所示的最大值量化法对待pooling池化的特征块在各维度上取最大值,并作为当前pooling操作输出;此种策略
保留非关键块Rq在循环递归传递过程中的各维度上的最大响应,较为适合对未见过句子的
手语视频翻译的应用场景:
[0119]
[0120] 式(6)中,max(·)为最大值量化函数;
[0121] Linearpooling策略:利用式(7)对非关键帧特征集合Rq中的最后一个循环递归特征 和第p个关键块Ap中第n个循环递归特征 在各维度上取均值,并作为当前pooling
操作输出;此种策略采用近似线性插帧的思想,对非关键块Rq和关键块Ap的衔接处取均值,
适合将视频中个骨架点的坐标值作为特征输入的手语视频翻译的应用场景:
[0122]
[0123] 否则,直接将第n个循环递归特征 作为视其素特征输出;
[0124] 步骤3.5.4、令n+1赋值给n后,判断n>|Ap|是否成立,若成立,执行步骤3.5.2;否则,返回步骤3.5.3;
[0125] 步骤3.6、获得视素特征集合 并利用式(1)得到注意力权重调优后的视素特征集合
[0126]
[0127] 式(8)中,watt,x为第x个注意力权重向量;
[0128] 步骤3.7、设置参数U为视觉特征学习编码层LSTM2的编码长度;将注意力权重调优后的视素特征集合 映射到集合元素个数为U的校正视素特征集合
其中 表示第u个校正视素特征,1≤u≤U:
[0129] 若X>U,采用等距取样将 中的元素抽取到 中;
[0130] 若X=U,则令
[0131] 否则,则对 添加U-X个向量 构成
[0132] 步骤3.8、将校正视素特征集合 输入视觉特征学习编码层LSTM2,利用公式(9),得到视素特征编码集合H″={h″1,h″2,…,h″u,…,h″U},其中h″u表示第u个视素特征编码, 为第二层LSTM2模块的隐状态个数;
[0133]
[0134] 式(9)中,c″u表示LSTM2模块的第u个记忆单元状态,当u=1时,h″u-1为维度为的零向量,c″u-1为维度为 的零向量;Wτ″、Wδ″、Wι″、Wζ″、bδ″、bι″、bτ″、bζ″为特征学习编码层LSTM2自带模块参数;
[0135] 步骤3.9、将视素特征编码H″={h″1,h″2,…,h″u,…,h″U}输入语义学习解码层LSTM3,利用公式(10),得到手语视频S的视觉表达V={v1,v2,…,vu,…,vU},vu表示第u个视
觉表达; 为第三层LSTM3模块的隐状态个数;
[0136]
[0137] 式(10)中,c″′u表示LSTM3模块的第u个记忆单元状态,当u=1时,vu-1为维度为的零向量,c″′u-1为维度为 的零向量;Wδ″′、Wι″′、Wτ″′、Wζ″′、bδ″′、bι″′、bτ″′、bζ″′为语义学习解码层LSTM3自带模块参数;
[0138] 步骤4、语义视频解码阶段:
[0139] 步骤4.1、定义解码阶段中第t个视素特征编码为h″U+t;记解码阶段中第t个词向量为wt;
[0140] 步骤4.2、初始化t=1,令解码阶段中第t-1个视素特征编码h″U+t-1=h″U和第t-1个词向量wt-1=vU;即继续传递视频编码阶段的特征编码h″U和视觉表达vU到语义解码阶段;
[0141] 步骤4.3、将零向量 作为视素特征,与解码阶段中第t-1个视素特征编码为h″U+t-1一起输入到视觉特征学习编码层LSTM2;利用公式(11),得到解码阶段中第t个视素特
征编码h″U+t;
[0142]
[0143] 步骤4.4、利用语义学习解码层LSTM3得到解码阶段中第t个语义表达yt,第t个词向量wt,当前第t个单词wordt及第t个条件概率向量probt:
[0144] 步骤4.4.1、将解码阶段中第t-1个词向量wt-1,与解码阶段中第t个视素特征编码h″U+t一起输入语义学习解码层LSTM3,利用公式(12),得到解码阶段中第t个语义表达yt;
[0145]
[0146] 步骤4.4.2、在视频解码阶段的语义学习解码层LSTM3下建立Softmax层,输入第t个语义表达yt得到第t个条件概率向量probt,第t个条件概率向量probt中包含单词表Voc中
各个单词的概率;
[0147] 步骤4.4.3、从第t个条件概率向量probt中选取条件概率最大值所对应的索引作为解码阶段中生成的第t个单词索引idt;
[0148] 步骤4.4.4、根据第t个单词索引idt查找单词表Voc中所对应识别的单词,作为第t个识别单词wordt;判断wordt是否为结束符,若是,执行步骤4.6;否则,继续执行步骤4.4.5;
[0149] 步骤4.4.5、判断手语视频S∈Data_train是否成立,
[0150] 如果成立,则将t赋值给识别序号ind,并从手语视频S所对应的翻译句子标签中取出第ind个单词,在单词表Voc中检索第ind个单词的索引序号作为第t个词向量索引IDt;
[0151] 否则,将第t个单词索引idt赋值给第t个词向量索引IDt;
[0152] 步骤4.4.6、从嵌入式词矩阵Wemb中取出第IDt行向量作为第t个词向量wt;
[0153] 步骤4.5、将t+1赋给t,并执行步骤4.3;
[0154] 步骤4.5、将t+1的值赋给t,并执行步骤4.3;
[0155] 步骤4.6、从而得到手语视频S的识别单词集合及条件概率集合
t=1,2,…,TS,TS表示手语视频S中单词总数;
[0156] 步骤5、非对称三层LSTM网络结构的模型参数优化:
[0157] 步骤5.1、将训练数据集Data_train中所有手语视频均按照步骤3至步骤4进行处理,从而得到手语视频训练集Data_train中所有手语视频的识别单词集合以及条件概率集
合;
[0158] 记手语视频训练集Data_train中任意一个手语视频E的识别单词集合为以及条件概率集合为
1≤g≤GE,GE为手语视频E中单词总数;
[0159] 步骤5.2、利用式(13)得到手语视频训练集Data_train的翻译句子信息叉熵之和EntropyData_train:
[0160]
[0161] 步骤5.3、利用随机梯度下降法对翻译句子信息叉熵EntropyData_train进行优化求解,使得EntropyData_train最小化,从而得到非对称三层LSTM网络结构的最优模型参数;
[0162] 步骤6、获得测试视频的翻译句子:
[0163] 从测试数据集Data_test中获取任意一个手语视频作为测试视频,并利用非对称三层LSTM网络结构的最优模型参数获得测试视频的识别单词集合,从而实现手语视频自动
翻译。
[0164] 综上所述,本发明的意义在于:1本发明提出的非对称连续手语翻译模型结构可以实现对于连续手语序列的翻译,编码过程对视频特征进行学习,得到视觉表达,并在解码过
程利用语义生成单词序列,从而实现连续手语序列翻译;2编码过程中第一层LSTM融入了循
环递归学习的时序性优势;3提出的可边长关键特征块挖掘方法和pooling池化策略有效地
提高了模型对于手语变化模式的学习效率,提高了特征学习的针对性,避免了对于无用特
征的过度学习,有效提高了手语翻译的正确率;4提出的基于注意力的加权机制平衡了特征
学习过程中的语义关系。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈