首页 / 专利库 / 人工智能 / 多模态交互 / 一种多模态情感识别方法、系统及存储介质

一种多模态情感识别方法、系统及存储介质

阅读:636发布:2020-05-15

专利汇可以提供一种多模态情感识别方法、系统及存储介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种多模态 情感识别 方法、系统及存储介质,所述方法包括:响应所监听到的情感识别任务 请求 ,采集音视频数据;从音视频数据中提取视频情感特征、音频情感特征和语义情感特征;将视频情感特征、音频情感特征和语义情感特征进行特征融合;依据融合情感特征进行情感特征识别。所述系统包括CPU、FPGA和存储单元;CPU能够执行前述方法步骤,FPGA能够执行前述方法中的特征提取及特征融合步骤;本发明依据视频、音频及语义情感特征融合结果进行情感特征识别,能够显著提高情感识别的准确率;将多模态情感特征提取 算法 同时嵌入CPU及FPGA,依据利用率选择执行设备,有助于提高算法运行速度、降低延迟。,下面是一种多模态情感识别方法、系统及存储介质专利的具体信息内容。

1.一种多模态情感识别方法,其特征在于,包括如下步骤:
响应所监听到的情感识别任务请求,采集音视频数据;
从所述音视频数据中提取视频情感特征、音频情感特征和语义情感特征;
将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
依据融合情感特征进行情感特征识别。
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述方法还包括:对所采集的音视频数据进行数据切分,获取若干最小情感识别片段
3.根据权利要求2所述的多模态情感识别方法,其特征在于,所述视频情感特征的提取方法包括如下步骤:
从最小情感识别片段中提取视频数据;
从视频数据中选取一图像进行人脸检测,将人脸检测结果输入至训练好的卷积神经网络中,将卷积神经网络的隐藏层作为视频情感特征。
4.根据权利要求2所述的多模态情感识别方法,其特征在于,所述音频情感特征的提取方法包括如下步骤:
从最小情感识别片段中提取音频数据;
提取所述音频数据的梅尔倒谱特征,生成梅尔倒谱图;
将所述梅尔倒谱图输入至训练好的循环卷积神经网络中,将循环卷积神经网络的隐藏层作为音频情感特征。
5.根据权利要求1所述的多模态情感识别方法,其特征在于,所述语义情感特征的提取方法包括如下步骤:
从所采集的音视频数据中提取音频数据;
对所述音频数据进行语音识别获取相应的文本信息;
对所述文本信息进行分词及词嵌入处理,将处理结果输入至训练好的长短期记忆网络,将长短期记忆网络的隐藏层作为语义情感特征。
6.根据权利要求1所述的多模态情感识别方法,其特征在于,获取融合情感特征的方法包括:
将所提取的视频情感特征、音频情感特征和语义情感特征分别拉伸为一维向量并拼接;
将拼接得到的一维向量输入至深度置信网络,输出融合情感特征。
7.根据权利要求2所述的多模态情感识别方法,其特征在于,依据融合情感特征进行情感特征识别的方法包括如下步骤:
将融合情感特征输入至训练好的全连接神经网络分类器,获取每个最小情感识别片段对应的情感类别列表;
根据情感类别列表,选取出现频率最高的情感类别作为情感识别结果。
8.根据权利要求7所述的多模态情感识别方法,其特征在于,所述方法还包括:
根据历史数据中情感状态变化的先验知识,对出现频率最高的情感类别进行时序分析,以判断当前情感识别结果是否合理:如合理,则选取出现频率最高的情感类别作为最终的情感识别结果;否则,从剩余情感类别中选取出现频率最高的情感类别作为情感识别结果,重新进行合理性检验,直至满足合理性要求。
9.根据权利要求1所述的多模态情感识别方法,其特征在于,所述方法还包括:对所述音视频数据进行解码,对解码后的音视频数据进行存储。
10.一种多模态情感识别系统,其特征在于,所述系统包括如下模
采集模块:用于响应所监听到的情感识别任务请求,采集音视频数据;
提取模块:用于从所述音视频数据中提取视频情感特征、音频情感特征和语义情感特征;
融合模块:用于将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
识别模块:用于依据融合情感特征进行情感特征识别。
11.一种多模态情感识别系统,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1 9任一项所述方法的步~
骤。
12.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1 9任一项所述方法的步骤。
~
13.一种多模态情感识别系统,其特征在于,包括CPU、FPGA和存储单元;所述CPU能够响应所监听到的情感识别任务请求采集音视频数据,并对所采集的音视频数据进行数据处理
当被选择为计算任务执行设备时,所述CPU和FPGA能够执行下述操作步骤:依据数据处理结果提取视频情感特征、音频情感特征和语义情感特征;同时将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
所述CPU能够依据融合情感特征进行情感特征识别;
所述存储单元用于存储CPU及FPGA执行上述操作步骤所需的运行信息。
14.根据权利要求13所述的多模态情感识别系统,其特征在于,所述CPU包括:
任务监听模块:用于监听情感识别任务请求;
数据交互模块:用于响应任务监听模块发送的情感识别任务请求,采集音视频数据,并对音视频数据进行解码,存储至所述存储单元;
数据处理模块:用于对所采集的音视频数据进行数据处理;
计算设备选择模块,能够依据CPU和FPGA的利用率,选择CPU或FPGA作为计算任务执行设备。
15.根据权利要求14所述的多模态情感识别系统,其特征在于,所述数据处理模块包括:
数据切分模块:用于对所采集的音视频数据进行数据切分,获取若干最小情感识别片段;
第一提取模块:用于从最小情感识别片段中提取视频数据;
人脸检测模块:用于从视频数据中选取一帧图像进行人脸检测;
第二提取模块:用于从最小情感识别片段中提取音频数据;
梅尔倒谱图生成模块:用于提取所述音频数据的梅尔倒谱特征,生成梅尔倒谱图;
第三提取模块:用于从所采集的音视频数据中提取音频数据;
语音识别模块:用于对所述音频数据进行语音识别获取相应的文本信息;
分词及词嵌入处理模块:用于对所述文本信息进行分词及词嵌入处理。
16.根据权利要求15所述的多模态情感识别系统,其特征在于,所述CPU和FPGA分别包括有:
视频情感特征提取模块:用于将人脸检测结果输入至训练好的卷积神经网络中,将卷积神经网络的隐藏层作为视频情感特征;
音频情感特征提取模块:用于将所述梅尔倒谱图输入至训练好的循环卷积神经网络中,将循环卷积神经网络的隐藏层作为音频情感特征;
语义情感特征提取模块:用于将处理结果输入至训练好的长短期记忆网络,将长短期记忆网络的隐藏层作为语义情感特征;
情感特征融合模块:用于将所提取的视频情感特征、音频情感特征和语义情感特征分别拉伸为一维向量并拼接,并将拼接得到的一维向量输入至深度置信网络,输出融合情感特征。
17.根据权利要求13所述的多模态情感识别系统,其特征在于,所述CPU还包括:
情感特征识别模块:用于将融合情感特征输入至训练好的全连接神经网络分类器,获取每个最小情感识别片段对应的情感类别列表;
根据情感类别列表,选取出现频率最高的情感类别作为情感识别结果。
18.根据权利要求17所述的多模态情感识别系统,其特征在于,所述CPU还包括:
合理性检验模块:用于根据历史数据中情感状态变化的先验知识,对出现频率最高的情感类别进行时序分析,以判断当前情感识别结果是否合理:如合理,则选取出现频率最高的情感类别作为最终的情感识别结果;否则,从剩余情感类别中选取出现频率最高的情感类别作为情感识别结果,重新进行合理性检验,直至满足合理性要求。

说明书全文

一种多模态情感识别方法、系统及存储介质

技术领域

[0001] 本发明涉及一种多模态情感识别方法、系统及存储介质,属于人工智能技术领域。

背景技术

[0002] 情感识别是人工智能、心理学、计算科学等多学科交叉的新兴领域,进入21世纪后,随着人工智能领域的快速发展,情感识别的需求越来越大。情感识别大体上可以分为语音情感识别,人脸情感识别和文本情感识别。传统的情感识别算法常常只着眼于单一模态,例如针对语音情感识别或文本情感识别,识别效果不尽如人意。如今深度学习已经成为热研究方向,深度学习与普通机器学习相比,一个特点是计算量巨大,在嵌入式系统上,用通用处理器做深度学习太慢,而GPU也存在功耗巨大价格昂贵等缺点。

发明内容

[0003] 本发明的目的在于克服现有技术中的不足,提供一种多模态情感识别方法、系统及存储介质,能够提高情感识别准确率。
[0004] 为达到上述目的,本发明是采用下述技术方案实现的:
[0005] 第一方面,本发明提供了一种多模态情感识别方法,包括如下步骤:
[0006] 响应所监听到的情感识别任务请求,采集音视频数据;
[0007] 从所述音视频数据中提取视频情感特征、音频情感特征和语义情感特征;
[0008] 将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
[0009] 依据融合情感特征进行情感特征识别。
[0010] 结合第一方面,进一步的,所述方法还包括:对所采集的音视频数据进行数据切分,获取若干最小情感识别片段
[0011] 结合第一方面,进一步的,所述视频情感特征的提取方法包括如下步骤:
[0012] 从最小情感识别片段中提取视频数据;
[0013] 从视频数据中选取一图像进行人脸检测,将人脸检测结果输入至训练好的卷积神经网络中,将卷积神经网络的隐藏层作为视频情感特征。
[0014] 结合第一方面,进一步的,所述音频情感特征的提取方法包括如下步骤:
[0015] 从最小情感识别片段中提取音频数据;
[0016] 提取所述音频数据的梅尔倒谱特征,生成梅尔倒谱图;
[0017] 将所述梅尔倒谱图输入至训练好的循环卷积神经网络中,将循环卷积神经网络的隐藏层作为音频情感特征。
[0018] 结合第一方面,进一步的,所述语义情感特征的提取方法包括如下步骤:
[0019] 从所采集的音视频数据中提取音频数据;
[0020] 对所述音频数据进行语音识别获取相应的文本信息;
[0021] 对所述文本信息进行分词及词嵌入处理,将处理结果输入至训练好的长短期记忆网络,将长短期记忆网络的隐藏层作为语义情感特征。
[0022] 结合第一方面,进一步的,获取融合情感特征的方法包括:
[0023] 将所提取的视频情感特征、音频情感特征和语义情感特征分别拉伸为一维向量并拼接;
[0024] 将拼接得到的一维向量输入至深度置信网络,输出融合情感特征。
[0025] 结合第一方面,进一步的,依据融合情感特征进行情感特征识别的方法包括如下步骤:
[0026] 将融合情感特征输入至训练好的全连接神经网络分类器,获取每个最小情感识别片段对应的情感类别列表;
[0027] 根据情感类别列表,选取出现频率最高的情感类别作为情感识别结果。
[0028] 结合第一方面,进一步的,所述方法还包括:
[0029] 根据历史数据中情感状态变化的先验知识,对出现频率最高的情感类别进行时序分析,以判断当前情感识别结果是否合理:如合理,则选取出现频率最高的情感类别作为最终的情感识别结果;否则,从剩余情感类别中选取出现频率最高的情感类别作为情感识别结果,重新进行合理性检验,直至满足合理性要求。
[0030] 结合第一方面,进一步的,所述方法还包括:对所述音视频数据进行解码,对解码后的音视频数据进行存储。
[0031] 第二方面,本发明提供了一种多模态情感识别系统,所述系统包括如下模
[0032] 采集模块:用于响应所监听到的情感识别任务请求,采集音视频数据;
[0033] 提取模块:用于从所述音视频数据中提取视频情感特征、音频情感特征和语义情感特征;
[0034] 融合模块:用于将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
[0035] 识别模块:用于依据融合情感特征进行情感特征识别。
[0036] 第三方面,本发明提供了一种多模态情感识别系统,包括处理器及存储介质;
[0037] 所述存储介质用于存储指令;
[0038] 所述处理器用于根据所述指令进行操作以执行前述任一项所述方法的步骤。
[0039] 第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任一项所述方法的步骤。
[0040] 第五方面,本发明提供了一种多模态情感识别系统,包括CPU、FPGA和存储单元;所述CPU能够响应所监听到的情感识别任务请求采集音视频数据,并对所采集的音视频数据进行数据处理
[0041] 当被选择为计算任务执行设备时,所述CPU和FPGA能够执行下述操作步骤:依据数据处理结果提取视频情感特征、音频情感特征和语义情感特征;同时将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
[0042] 所述CPU能够依据融合情感特征进行情感特征识别;
[0043] 所述存储单元用于存储CPU及FPGA执行上述操作步骤所需的运行信息。
[0044] 结合第五方面,进一步的,所述CPU包括:
[0045] 任务监听模块:用于监听情感识别任务请求;
[0046] 数据交互模块:用于响应任务监听模块发送的情感识别任务请求,采集音视频数据,并对音视频数据进行解码,存储至所述存储单元;
[0047] 数据处理模块:用于对所采集的音视频数据进行数据处理;
[0048] 计算设备选择模块,能够依据CPU和FPGA的利用率,选择CPU或FPGA作为计算任务执行设备。
[0049] 结合第五方面,进一步的,所述数据处理模块包括:
[0050] 数据切分模块:用于对所采集的音视频数据进行数据切分,获取若干最小情感识别片段;
[0051] 第一提取模块:用于从最小情感识别片段中提取视频数据;
[0052] 人脸检测模块:用于从视频数据中选取一帧图像进行人脸检测;
[0053] 第二提取模块:用于从最小情感识别片段中提取音频数据;
[0054] 梅尔倒谱图生成模块:用于提取所述音频数据的梅尔倒谱特征,生成梅尔倒谱图;
[0055] 第三提取模块:用于从所采集的音视频数据中提取音频数据;
[0056] 语音识别模块:用于对所述音频数据进行语音识别获取相应的文本信息;
[0057] 分词及词嵌入处理模块:用于对所述文本信息进行分词及词嵌入处理。
[0058] 结合第五方面,进一步的,所述CPU和FPGA分别包括有:
[0059] 视频情感特征提取模块:用于将人脸检测结果输入至训练好的卷积神经网络中,将卷积神经网络的隐藏层作为视频情感特征;
[0060] 音频情感特征提取模块:用于将所述梅尔倒谱图输入至训练好的循环卷积神经网络中,将循环卷积神经网络的隐藏层作为音频情感特征;
[0061] 语义情感特征提取模块:用于将处理结果输入至训练好的长短期记忆网络,将长短期记忆网络的隐藏层作为语义情感特征;
[0062] 情感特征融合模块:用于将所提取的视频情感特征、音频情感特征和语义情感特征分别拉伸为一维向量并拼接,并将拼接得到的一维向量输入至深度置信网络,输出融合情感特征。
[0063] 结合第五方面,进一步的,所述CPU还包括:
[0064] 情感特征识别模块:用于将融合情感特征输入至训练好的全连接神经网络分类器,获取每个最小情感识别片段对应的情感类别列表;
[0065] 根据情感类别列表,选取出现频率最高的情感类别作为情感识别结果。
[0066] 结合第五方面,进一步的,所述CPU还包括:
[0067] 合理性检验模块:用于根据历史数据中情感状态变化的先验知识,对出现频率最高的情感类别进行时序分析,以判断当前情感识别结果是否合理:如合理,则选取出现频率最高的情感类别作为最终的情感识别结果;否则,从剩余情感类别中选取出现频率最高的情感类别作为情感识别结果,重新进行合理性检验,直至满足合理性要求。
[0068] 与现有技术相比,本发明所达到的有益效果:将视频情感特征、音频情感特征和语义情感特征进行特征融合,依据融合情感特征进行情感特征识别,相对于单一模态情感识别算法,本发明能够大大提高情感识别的准确率;将多模态情感特征提取算法同时嵌入CPU及FPGA,能够根据CPU和FPGA的利用率进行设备选择,在低功耗的同时,提高算法运行速度、降低延迟、提高系统的高连接性。附图说明
[0069] 图1是根据本发明实施例提供的一种多模态情感识别方法的流程图
[0070] 图2是图1中多模态情感识别算法的流程图;
[0071] 图3是多模态情感识别算法的原理框图
[0072] 图4是针对一组最小情感识别片段进行多模态情感识别的方法流程图;
[0073] 图5是本发明实施例提供的一种多模态情感识别系统的原理框图;
[0074] 图6是适用于图5的多模态情感识别方法的流程图。

具体实施方式

[0075] 下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0076] 本发明实施例提供了一种多模态情感识别方法,具体包括如下步骤:
[0077] 步骤一:响应所监听到的情感识别任务请求,采集音视频数据;
[0078] 步骤二:从所述音视频数据中提取视频情感特征、音频情感特征和语义情感特征;
[0079] 步骤三:将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
[0080] 步骤四:依据融合情感特征进行情感特征识别。
[0081] 本发明实施例提供的多模态情感识别方法,融合了视频、音频及语义三种模态的情感特征进行情感识别,相对于单一模态情感特征识别,能够显著提高情感识别结果的准确率。
[0082] 如图1所示,是本发明实施例提供的多模态情感识别方法的流程图,对于所采集的音视频数据首先进行解码处理,对解码后的音视频数据进行存储,以便后期调用。对于所采集的每段音视频数据均包含若干最小情感识别片段,本发明实施例首先对所采集的音视频数据进行数据切分,将切分获取的最小情感识别片段作为最小识别单元,采用多模态情感识别算法对每一最小识别单元进行情感识别,最后综合各考虑每个最小识别单元的识别结果,通过投票及时序分析等处理步骤获取音视频数据的最终情感识别结果。
[0083] 现对于数据切分的具体方法说明如下:
[0084] 首先,从原始音视频信号中依次截取时长为length1的音视频数据作为待检测情感片段,length1为预设的每段待检测情感片段的时间长度;
[0085] 对于待检测情感片段,仍然需将其切分为若干最小情感识别片段,以length2为最小情感识别片段时长,通过对待检测情感片段进行切分能够获取若干最小情感识别片段。例如:设置length1为5s,length2为500ms,则从原始音视频信号中截取长为5s的待检测情感片段,再将一个待检测情感片段等分为10个长为500ms的最小片段,即完成数据切分处理。
[0086] 如图2所示,是图1中多模态情感识别算法的流程图。对于步骤二中从音视频数据中提取视频情感特征、音频情感特征及语义情感特征的具体方法分别如下:
[0087] 从最小情感识别片段中提取视频数据,从视频数据中随机选取一帧图像进行人脸检测,将人脸检测结果输入至训练好的卷积神经中,将卷积神经网络的隐藏层作为视频情感特征;
[0088] 从最小情感识别片段中提取音频数据,提取所述音频数据的梅尔倒谱特征,生成梅尔倒谱图,将所述梅尔倒谱图输入至训练好的循环卷积神经网络中,将循环卷积神经网络的隐藏层作为音频情感特征;
[0089] 梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)考虑到人对语音频率高低的敏感度,更符合人耳听觉特征。梅尔倒谱特征提取过程如下:
[0090] 1.将一段音频数据分解为多个讯框;
[0091] 2.对每个讯框中的音频数据进行预强化,通过高通滤波器进行滤波处理;
[0092] 3.对滤波处理后的音频数据进行傅立叶变换,将时域音频数据变换至频域信号;
[0093] 4.将每个讯框获得的频谱通过梅尔滤波器(三重叠窗口),得到梅尔刻度;
[0094] 5.在每个梅尔刻度上提取对数能量
[0095] 6.对上面获得的结果进行离散傅里叶反变换,变换到倒频谱域。
[0096] MFCC就是这个倒频谱图的幅度,一般使用12个系数,与讯框能量叠加得13维的系数。
[0097] 循环卷积神经网络由CNN与双向LSTM神经网络构成,其中CNN用来提取梅尔频谱特征的局部不变特征,双向递归神经网络(BLSTM)用于学习不同时间步长局部不变特征之间的时间关联性,将话语级特征输入全连接层以获得更高级别的特征表示后将更高级别的特征输入softmax层以进行最终分类。
[0098] 考虑到一个最小情感识别片段时长较短,其中语义信息不足,因此使用语音识别技术将最小情感识别片段所属的待检测情感片段中的音频数据转化成文本信息,再经过分词、词嵌入(使用word2vec技术)对文本信息进行处理,处理之后含义相近词语在向量空间中具有相近的表示;将处理结果输入至训练好的长短期记忆网络,将长短期记忆网络的隐藏层作为语义情感特征。
[0099] 对于步骤三中,获取融合情感特征的具体方法,如图3所示,包括如下步骤:
[0100] 将所提取的视频情感特征、音频情感特征和语义情感特征分别拉伸为一维向量并拼接;
[0101] 将拼接得到的一维向量输入至深度置信网络,输出融合情感特征。
[0102] 深度置信网络(Deep Belief Network,简称DBN)是一种深层的概率有向图模型,其结构由多层的节点构成。每层节点的内部没有连接,相邻两层的节点和全连接的前馈神经网络结之间为全连接。网络的最底层为可观测变量,其它层节点都为隐变量,最顶层的两层间的连接是无向的,其他层之间的连接是有向的。
[0103] 对于步骤四中,依据融合情感特征进行情感特征识别的方法包括如下步骤:
[0104] 将融合情感特征输入至训练好的全连接神经网络分类器,获取每个最小情感识别片段对应的情感类别列表。
[0105] 根据情感类别列表,从一段待检测情感片段内包含的多段最小情感识别片段的情感识别结果中统计出各情感类别出现的频率,通过投票处理选取出现频率最高的情感类别作为情感识别结果。
[0106] 经过投票步骤后,已经能够对一段待检测情感片段给出所属的情感类别与其属于各情感类别的概率,从而得到待检测情感片段情感类别组成的序列。用户情感状态随时间变化是合理的,但情感状态变化不应反复突变。为此,本发明实施例还提出了一种时序分析方法,以对出现频率最高的情感类别进行合理性检验,综合考虑历史数据中的情感状态变化的先验知识、与最近的4个最小情感识别片段预测情感类别的概率变化,以判断当前识别出的情感类别是否合理,从历史数据中获取训练集作为支撑向量机分类模型的输入,训练分类模型。如合理,则选取出现频率最高的情感类别作为最终的情感识别结果;否则,从剩余情感类别中选取出现频率最高的情感类别作为情感识别结果,重新进行合理性检验,直至满足合理性要求。
[0107] 本发明实施例提供的时序分析方法具体如下:
[0108] 定义情感类别数目为c,投票出当前的待检测情感片段的情感类别为epred,实际情感类别为etrue,之前3个待检测情感片段属于各情感类别的概率为[q1,q2,…qc],[r1,r2,…rc],[s1,s2,…sc]。当前待检测情感片段属于各情感类别的概率为[p1,p2,…pc]。
[0109] 假设一段待检测情感片段的情感受之前n个片段的影响。统计历史数据的情感标签,可以得出给定之前n个片段的情感标签的条件下,当前待检测情感片段为epred类别的概率为f。
[0110] 基于历史投票数据和数据的真实标签构建训练集,1个样本中的特征向量为:[f,q1,q2,…qc,r1,r2,…rc,s1,s2,…sc,p1,p2,…pc],若epred=etrue类别标签为1,否则为0。
[0111] 训练支撑向量机分类模型,用于判断多模态情感识别算法识别出得情感类别是否合理。如不合理,则从其它情感类别中选择概率最大的类别作为最终结果。
[0112] 给出了多模态情感识别方法的详细流程图,可以通过摄像头获取原始音视频流,从音视频流中按照固定时间长度10秒钟截取出一系列音视频片段,目的是识别出对应片段中,说话人的情感状态类别。如图4所示,从音视频流中截取出一系列音视频片段,依时间先后顺序命名为S1,S2,…,Sn,假设已经得到片段S1至St-1的情感类别,针对片段St的情感识别过程如下:
[0113] 将片段St分为视频片段video与音频片段audio;语音识别将audio识别为文本text;
[0114] 将video均等切分为10个片段video1,video2,…,video10,将audio均等切分为audio1,audio2,…,video10;
[0115] 从video1中随机选出一帧图像并经过人脸检测裁剪得到face1,对video2等做同样操作,得到face1,face2,…,face10;将audio1至audio10输入音频MFCC提取模块,输出各自对应的MFCC特征MFCC1,MFCC2,…,MFCC10;将文本text输入词向量转换模块生成inputtext;
[0116] 将模态数据组合{face1,MFCC1,inputtext}输入多模态情感分类器,输出face1对应的音视频片段的情感类别sub_emotion1,依次类推,可以得到情感列表{sub_emotion1,sub_emotion2,…,sub_emotion10};
[0117] 将情感列表输入投票器,各情感类别出现概率为 产生片段St的情感识别结果[0118] 如前文所述,已 有片段S1至St-1的情感类别概率 至 将至 输入时序分析模块,输出片段St的最终情感识别结果
保存 与 用于后续音视频片段的情感识别过程。
[0119] 本发明实施例提供的多模态情感识别方法综合考虑了视频、音频、语义这3种模态的情感特征:分别训练单一模态情感识别算法,利用该算法提取模态的深层特征,将3种模态的深层特征一同输入深度置信网络,利用深度置信网络将上述特征处理为联合判别特征,再将联合判别特征输入全连接层神经网络识别得到情感类别;并且引入了投票机制和时序分析,考虑了情绪变化的一般规律,提高对较长音视频片段识别的准确性和鲁棒性。
[0120] 本发明实施例还提供了一种多模态情感识别系统,能够用于实现前述的多模态情感识别方法,包括如下模块:
[0121] 采集模块:用于响应所监听到的情感识别任务请求,采集音视频数据;
[0122] 提取模块:用于从所述音视频数据中提取视频情感特征、音频情感特征和语义情感特征;
[0123] 融合模块:用于将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;
[0124] 识别模块:用于依据融合情感特征进行情感特征识别。
[0125] 本发明实施例还提供了一种多模态情感识别系统,包括处理器及存储介质;
[0126] 所述存储介质用于存储指令;
[0127] 所述处理器用于根据所述指令进行操作以执行前述任一项所述方法的步骤。
[0128] 本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述方法的步骤。
[0129] 本发明实施例还提供了一种多模态情感识别系统,包括CPU、FPGA和存储单元;所述CPU能够响应所监听到的情感识别任务请求采集音视频数据,并对所采集的音视频数据进行数据处理;当被选择为计算任务执行设备时,所述CPU和FPGA能够执行下述操作步骤:依据数据处理结果提取视频情感特征、音频情感特征和语义情感特征;同时将所述视频情感特征、音频情感特征和语义情感特征进行特征融合,获取融合情感特征;所述CPU能够依据融合情感特征进行情感特征识别;所述存储单元用于存储CPU及FPGA执行上述操作步骤所需的运行信息。
[0130] 如图5所示,是本发明实施例提供的多模态情感识别系统的原理框图,如图6所示是本发明实施例提供的多模态情感识别系统的情感识别方法流程图,本发明实施例提供的多模态情感识别系统将多模态情感识别算法分别嵌入FPGA及CPU中,可根据设备利用率选择算法执行主体,有助于加快算法执行速度;当选择FPGA作为算法执行主体时,能够利用FPGA快速、低功耗、延迟低、连接性强的优势,实现算法的快速运行,低延迟和系统的高连接性。
[0131] 所述CPU包括:
[0132] 任务监听模块:用于监听情感识别任务请求;
[0133] 数据交互模块:用于响应任务监听模块发送的情感识别任务请求,采集音视频数据,并对音视频数据进行解码,存储至所述存储单元;
[0134] 数据处理模块:用于对所采集的音视频数据进行数据处理;
[0135] 计算设备选择模块,能够依据CPU和FPGA的利用率,选择CPU或FPGA作为计算任务执行设备。
[0136] 其中,所述数据处理模块包括:
[0137] 数据切分模块:用于对所采集的音视频数据进行数据切分,获取若干最小情感识别片段;
[0138] 第一提取模块:用于从最小情感识别片段中提取视频数据;
[0139] 人脸检测模块:用于从视频数据中选取一帧图像进行人脸检测;
[0140] 第二提取模块:用于从最小情感识别片段中提取音频数据;
[0141] 梅尔倒谱图生成模块:用于提取所述音频数据的梅尔倒谱特征,生成梅尔倒谱图;
[0142] 第三提取模块:用于从所采集的音视频数据中提取音频数据;
[0143] 语音识别模块:用于对所述音频数据进行语音识别获取相应的文本信息;
[0144] 分词及词嵌入处理模块:用于对所述文本信息进行分词及词嵌入处理。
[0145] 所述CPU和FPGA分别包括有:
[0146] 视频情感特征提取模块:用于将人脸检测结果输入至训练好的卷积神经网络中,将卷积神经网络的隐藏层作为视频情感特征;
[0147] 音频情感特征提取模块:用于将所述梅尔倒谱图输入至训练好的循环卷积神经网络中,将循环卷积神经网络的隐藏层作为音频情感特征;
[0148] 语义情感特征提取模块:用于将处理结果输入至训练好的长短期记忆网络,将长短期记忆网络的隐藏层作为语义情感特征;
[0149] 情感特征融合模块:用于将所提取的视频情感特征、音频情感特征和语义情感特征分别拉伸为一维向量并拼接,并将拼接得到的一维向量输入至深度置信网络,输出融合情感特征。
[0150] 所述CPU还包括:
[0151] 情感特征识别模块:用于将融合情感特征输入至训练好的全连接神经网络分类器,获取每个最小情感识别片段对应的情感类别列表;
[0152] 根据情感类别列表,选取出现频率最高的情感类别作为情感识别结果;
[0153] 合理性检验模块:用于根据历史数据中情感状态变化的先验知识,对出现频率最高的情感类别进行时序分析,以判断当前情感识别结果是否合理:如合理,则选取出现频率最高的情感类别作为最终的情感识别结果;否则,从剩余情感类别中选取出现频率最高的情感类别作为情感识别结果,重新进行合理性检验,直至满足合理性要求。
[0154] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0155] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0156] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0157] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0158] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈