专利汇可以提供一种基于深度学习的肢体语言检测与行为分析方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种基于 深度学习 的肢体语言检测与行为分析方法及系统。通过对目标的行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集。后使用CNN训练图片及 视频 帧 数据,关键点为面部表情,头部动作,四肢动作,整体动作 频率 ,这4点训练成一个集成模型,其次使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能 力 。上述过程使得本发明拥有较强的主动学习能力,并不断优化 数据库 ,使得准确率能够随着识别次数的增加不断提升。,下面是一种基于深度学习的肢体语言检测与行为分析方法及系统专利的具体信息内容。
1.一种基于深度学习的肢体语言检测与行为分析方法,其特征是包括以下步骤:
步骤1、制作训练集:对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集;
步骤2、肢体语言检测及行为分析:通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务;
步骤3、行为应对指导:抓取网络数据,在前一步检测结果的基础上,根据网络上的最优方案给予指导意见。
2.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1进一步包括:
步骤1-1、对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;
步骤1-2、使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型;
步骤1-3、使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力。
3.根据权利要求2所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-1进一步包括:
提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,
1],R(ω)表示期望风险。
4.根据权利要求2所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-2进一步包括:
将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLC,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLC、锐化图像YLR以0.8∶0.9∶1.1的比率混合形成多通道图像Ym;
将图片和视频帧数据通过卷积运算分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为
128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
式中,Fc2表示第一层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子,其余符号含义同上;
构造超分辨重构模型,采用均方误差作为损失函数:
式中, 表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数。
5.根据权利要求2所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-3进一步包括:
使用LSTM结构输出序列S:
式中,A表示状态转移概率矩阵, 表示A从状态yi转移到状态yi+1所需要的状态转移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h(t)表示深度神经网络上一层时刻t输入数据时的隐藏状态;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差, 表示学习率;
对能量函数进行激活概率计算:
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
式中, 表示模型的期望, 表示数据的期望。
6.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤2进一步包括:
通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的模型比对,对每个像素点上使用差分算子为(-1,0,1)在垂直和水平放行进行运算,计算其梯度值和梯度方向:
梯度方向:
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度, 表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
式中,f(x+1,y)表示y方向不变,x方向累加一个像素点的图像函数,f(x,y+1)表示x方向不变,y方向累加一个像素点的图像函数,其它含义同上。
7.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤3进一步包括:
将步骤2中的结果与步骤1中训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将该输出序列记录在数据集中并做好标记。
8.一种基于深度学习的肢体语言检测与行为分析方法,其特征是包括以下模块:
用于对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集的数据获取模块;
通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务的数据实时检测模块;
使用CNN训练图片及视频帧数据、使用LSTM训练语音数据,最后将两个模型进行集成训练的结果反馈模块;
抓取网络数据,在CNN训练和LSTM训练的基础上,根据网络上的最优方案给予指导意见的指导意见模块。
9.根据权利要求8所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于:
所述数据获取模块进一步对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型;使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力;提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,
1],R(ω)表示期望风险;
所述数据实时检测模块进一步通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的模型比对,对每个像素点上使用差分算子为(-1,0,1)在垂直和水平放行进行运算,计算其梯度值和梯度方向:
梯度方向:
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度, 表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
式中,f(x+1,y)表示y方向不变,x方向累加一个像素点的图像函数,f(x,y+1)表示x方向不变,y方向累加一个像素点的图像函数,其它含义同上;
所述结果反馈模块进一步使用CNN训练图片及视频帧数据,关键点为面部表情,头部动作,四肢动作,整体动作频率,这4点训练成一个集成模型:
将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLC,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLC、锐化图像YLR以0.8∶0.9∶1.1的比率混合形成多通道图像Ym;
将图片和视频帧数据通过卷积运算分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为
128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
式中,Fc2表示第一层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子,其余符号含义同上;
构造超分辨重构模型,采用均方误差作为损失函数:
式中, 表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数;
使用LSTM训练语音数据,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力:
使用LSTM结构输出序列S:
式中,A表示状态转移概率矩阵, 表示A从状态yi转移到状态yi+1所需要的状态转(t)
移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h 表示深度神经网络上一层时刻t输入数据时的隐藏状态;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差, 表示学习率;
对能量函数进行激活概率计算:
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
式中, 表示模型的期望, 表示数据的期望;
所述指导意见模块进一步将结果反馈模块的结果与训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将该输出序列记录在数据集中并做好标记。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
用于提供增强的聊天服务的系统、方法和计算机程序产品 | 2020-05-13 | 360 |
锁屏界面信息处理方法及装置 | 2020-05-13 | 1030 |
短信文本模版的识别方法 | 2020-05-16 | 720 |
基于动态纹理特征的人脸表情的分类与识别方法 | 2020-05-16 | 11 |
将图像或标签输入到电子设备的系统和方法 | 2020-05-14 | 502 |
一种基于深度学习和特征融合的文本情感分类方法 | 2020-05-15 | 635 |
分类模型的训练方法和装置 | 2020-05-15 | 86 |
具有用于广域广播的延迟管理的视听协作方法 | 2020-05-16 | 301 |
地理位置定位方法、系统、计算机设备和存储介质 | 2020-05-12 | 638 |
端末装置に適用される情報生成方法および装置 | 2020-05-16 | 27 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。