专利汇可以提供一种基于两阶段神经网络模型的汉语唇语识别方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于两阶段神经网络模型的汉语唇语识别方法,该方法包括:对输入视频逐 帧 提取唇部区域图像;对提取的唇部区域图像进行标准化处理;利用 卷积神经网络 对标准化处理后的唇部区域图像进行特征提取,得到唇部 特征向量 ;利用双层双向LSTM网络对唇部特征向量进行处理,得到发音序列;利用拼音-汉字编码-解码网络对发音序列进行处理,得到对应的文字信息。本发明可以更好的获取唇部区域的视觉特征,从而更准确的压缩图像,提升唇语识别的准确率和识别速度;同时极大缩小了目标范围,降低了对LSTM层提取能 力 的要求,降低了识别难度;同时提高了拼音-文字网络层的准确率。,下面是一种基于两阶段神经网络模型的汉语唇语识别方法专利的具体信息内容。
1.一种基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述汉语唇语识别方法采用的两阶段神经网络模型包括双层双向LSTM网络,即图片-拼音LSTM网络层和拼音-汉字编码-解码网络层,通过这两个网络层逐阶段识别汉语唇语;并且所述汉语唇语识别方法具体包括如下步骤:
步骤1)输入原始视频,该原始视频包含带有完整面部的单人说话的说话视频,然后逐帧对所述原始视频逐帧提取唇部区域图像,得到包含唇部区域图像的视频长度个视频帧;
步骤2)将提取到的唇部区域图像缩放到指定大小,进行灰度化处理,将得到的视频帧补齐至指定长度,不足的补全零帧,即黑帧,得到定长的图像序列作为下一步输入;
步骤3)通过3D-2D卷积神经网络,对得到的定长的图像序列进行特征提取,得到唇部特征向量,该3D-2D卷积神经网络包含一层3D卷积层和多层连续的2D卷积层,并且该3D-2D卷积神经网络采用流式传播,即下一层网络使用上一层网络的输出作为输入,并通过卷积核实现输入图像序列的重编码;步骤3)具体包括:
步骤31)给定一个输入的图像序列x={x1,x2,...,xm},其中,x为步骤2)所得的定长的图像序列,x1,x2,...,xm为经过步骤1)特征提取后的单通道视频帧,m为补齐后的视频长度;
步骤32)初始化3D-2D卷积神经网络每层的n个卷积核,遍历每个视频帧xj,其中j=1,
2,...,m, 为第i个卷积核的参数,对每个卷积核,有 其中,xj表
示输入的视频帧, 表示第i个卷积核的偏置,yi表示第i个卷积核运算之后的输出,表示第i个卷积核对视频帧的卷积操作,其中,i=1,2,...,n;
步骤33)对于每个yi进行池化操作,进一步缩小唇部特征大小;
步骤34)重复步骤33)和步骤34)直到唇部特征被充分压缩;
步骤35)对于每个视频帧xj,得到Yj={y1,y2,...,yn}作为视频帧xj的唇部特征向量输出,对于整个视频,得到了Y={Y1,Y2,...,Ym};
步骤4)将输入的原始视频提取为特征向量Y后,将Y输入双层双向LSTM网络中进行训练;
步骤41)对于每个输入Yj,有输出fj=σ(Af×[Sj-1,hj-1,Yj]+bf),j=1,2,...,m,Sj-1代表双层双向LSTM网络维护的记忆层参数,hj-1=Yj*fj-1代表视频帧xj-1对应的时序位置双层双向LSTM网络的隐藏层状态,用来表示已输入的语义信息在当前时序位置的期望,fj表示输入Yj后得到的输出,是一个长度为现有所有拼音类别数Z的向量,即 σ表示双层双向LSTM网络进行每一步计算的操作,Af表示双层双向LSTM网络单元的参数矩阵,bf表示双层双向LSTM网络的偏置;
步骤42)利用CTC(Connectionist Temporal Classification)算法计算双层双向LSTM网络输出的概率分布F={f1,f2,...,fm}与输入的原始视频对应的拼音的标签向量P={p1,p2,…,pk}间的距离D作为损失函数,其中,k表示输入的原始视频对应的拼音序列的长度;所述损失函数loss1=-lnΠ(F,P)δ(fj|pi),fj∈F,pi∈P,其中F表示双层双向LSTM网络输出的概率分布F={f1,f2,…,fm},P表示输入的原始视频对应的句子经过one-hot处理后得到的拼音的标签向量P={p1,p2,...,pk},fj表示每个视频帧xj对应的在拼音上的概率分布,pi表示视频帧xj对应的时序位置可能出现的真实拼音的标签,δ表示当前时序位置出现的真实拼音为pj的情况下,双层双向LSTM网络计算得到fj的概率,然后通过极大似然分别得到每个视频帧xj对应概率最大的拼音标签,并计算当前的概率分布F={f1,f2,…,fm}与该拼音的标签向量P={p1,p2,…,pk}的距离;利用上述损失函数loss1对双层双向LSTM网络进行反向传播,使距离达到最小进行训练;
步骤5)将双层双向LSTM网络的输出F={f1,f2,…,fm}输入到下一层拼音-汉字编码-解码网络中,得到输入的原始视频对应的汉字;具体包括:
步骤51)对单个输出fj,j=1,2,...,m取对数之后进行softmax操作,将拼音概率分布映射到0-1区间内,并且所有项概率之和为1;对于fj中的第i项得到 其中,Z表示现有所有拼音类别数,fj表示F={f1,f2,...,fm}在第j项的值, 表示 在
第i项的值,wi表示当前输入是拼音类别为i的拼音的概率;由此,得到当前视频帧xj在拼音级别上的概率分布W={w1,w2,...,wZ};
步骤52)将W={w1,w2,...,wZ}输入到拼音-汉字编码-解码网络中,利用其编码-解码器结构对拼音级别上的概率分布W={w1,w2,...,wZ}再编码,编码器和解码器由门控循环单元(GRU)组成;首先将W输入到编码器中,有 其中
rgate表示所述编码器GRU单元中视频帧xj对应的时序位置的门参数,其
中, 代表视频帧xj-1对应的时序位置处拼音-汉字编码-解码网络的状态与当前输入W进行运算后得到的注意力向量,用来表示已输入的语义信息在当前位置的期望, 表示输入W后得到的输出,σencode表示所述编码器进行每一步计算的操作, 表示所述编码器的参数矩阵, 表示所述编码器的偏置;最后得到所有视频帧的输出以及最后的句子编码 其中j为视频长度,j=1,
2,...,m;
步骤53)将句子编码H用注意力机制与输出OUT进行运算,得到 其中
u0为解码器的隐藏层参数;利用预设的起始句柄ystart初始化所述解码器,有其中f1′为hdecode通过全连接网络转换维度至汉
字类别数得到的向量中第一个位置上的汉字概率分布,hdecode为所述解码器隐藏层参数;
wdecode为所述解码器GRU单元的参数, 为所述解码器GRU单元的偏置,σdecode代表所述解码器GRU单元执行每一步运算时进行的操作;用softmax归一化f1′后取概率最大的标签,对应的文字就是第一个位置上解读出的汉字;
步骤54)对第一个位置之后的汉字的解码采取两种输入方式:
a)采用输入的原始视频对应句子中对应位置上真实的汉字作为下一步输入,这种方式只在训练拼音-汉字编码-解码网络的过程中使用;
b)采用当前的输出对应的汉字作为下一步输入,这种方式在训练拼音-汉字编码-解码网络的过程和预测汉字的过程中均可使用;
上述两种方式a)和b)在训练过程中通过取0-1间随机数的方式决定使用哪一种,当随机数大于0.5时使用a),否则使用b);
预测第一个位置之后的汉字过程如下:令输入为yin,上一个位置n-1上的解码器的隐藏层参数为 有 解码得到fn′,
其中的参数定义与步骤53)中的参数定义一致,对fn′进行如上处理得到当前位置n上的汉字,当输出为预设终止句柄yend时,终止解码;
步骤55)使用外源语料,即不来自于原始视频的一串有语义的汉字序列对拼音-汉字编码-解码网络进行预训练时,使用词向量模型将汉字的onehot编码转化至与双层双向LSTM网络输出相同的维度,其他步骤与上述一致;
步骤6)计算每个位置上输出的汉字概率分布f′与真实汉字间的标签的交叉熵作为损失函数,即 其中p′代表当前位置的汉字真实分布用one-hot向量表
示, 代表所述解码器预期的当前位置j上汉字概率分布在第i类汉字上的概率,N表示汉字的类别数;loss2表示了解码器输入与真实值的距离,通过最小化loss2使拼音-汉字编码-解码网络的输出接近真实值,对拼音-汉字编码-解码网络进行训练,然后对整个两阶段神经网络模型通过反向传播进行联合训练;
步骤7)当所述联合训练完成后,对整个两阶段神经网络模型输出进行softmax处理后概率最大的汉字组成的字符串即为汉语唇语识别结果。
2.根据权利要求1所述的基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述步骤1)中提取唇部区域图像采用了faster-rcnn网络检测唇部区域。
3.根据权利要求2所述的基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述步骤2)中进行灰度化处理指对唇部区域图像的全部通道对应位置取平均,并缩放到0-
1范围内以代替彩色图像。
4.根据权利要求3所述的基于两阶段神经网络模型的汉语唇语识别方法,其特征在于,所述步骤55)中使用的外源语料为外源拼音-汉字语料库。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
驾驶行为特征检测方法、装置、电子设备和计算机可读存储介质 | 2020-05-08 | 715 |
一种基于块编码特性的3D视频错误隐藏方法 | 2020-05-08 | 117 |
基于ELM-PID的Buck变换器输出电压控制方法 | 2020-05-11 | 113 |
部分硬板移除装置、系统及方法 | 2020-05-08 | 391 |
一种面向云负载测试的共享式资源分配方法 | 2020-05-11 | 272 |
一种支持多端异构模式下的秘钥管理架构 | 2020-05-08 | 875 |
密码芯片通过一阶泄露模型改进二阶功耗分析的方法 | 2020-05-11 | 980 |
存储地形特征估计程序的介质、地形特征估计方法及装置 | 2020-05-08 | 142 |
文本信息表征方法、系统及计算机设备、存储介质 | 2020-05-08 | 896 |
一种基于人工智能的综合客服系统 | 2020-05-08 | 477 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。