一种基于表情、语音和眼动特征的多模态测谎方法专利检索-数字音频文件资料储存系统专利检索查询-专利查询网

一种基于表情、语音和眼动特征的多模态测谎方法

阅读：355发布：2020-05-11

专利汇可以提供一种基于表情、语音和眼动特征的多模态测谎方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于表情、语音和眼动特征的多模态测谎方法，包括：获取表情、眼动特征、语音的数据并进行音视频分离、去噪等预处理，处理后分别送入表情情感识别模块、语音情感识别模块和眼动特征识别模块进行分析得到从表情、声音、眼部特征分别得到的情感特征，通过将三个模态的情感结合作为情感特征送入训练好的分类模型进行测谎，最终得到综合测谎结果。本发明通过多模态的情感分类能更加准确的实现测谎。，下面是一种基于表情、语音和眼动特征的多模态测谎方法专利的具体信息内容。

权利要求

1.一种基于表情、语音和眼动特征的多模态测谎方法，其特征在于，该方法包括以下步骤：
(1)获取测谎所需视频，对获取的视频进行音视频分离；
(2)对视频文件输入到表情情感识别模型得到表情情感识别结果；
(3)对视频文件进行眼动特征分析得到眼动特征；
(4)对音频文件进行语音情感识别模型得到语音情感识别结果；
(5)将步骤(2)-(3)得到的结果组合成特征向量输入到测谎模型中进行测谎识别，得到测谎结果。
2.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法，其特征在于，所述步骤(1)获取视频的方法如下：上传离线视频或在线视频通话或虚拟人物对话。
3.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法，其特征在于，步骤(2)中表情情感识别模型的训练方法如下：
(2.1)采集不同的视频，对视频流进行预处理，对人脸进行定位，提取具有旋转不变性的VLBP特征作为表情特征，视频每帧的特征为fi，视频流的特征向量为F＝[f1，f2，...，fn]，将F调整为行向量的形式作为视频的表情特征；
(2.2)采集不同视频时，设置不同视频的表情特征对应不同的表情情绪标签；
(2.3)将步骤(2.1)中的表情特征作为输入，将步骤(2.2)中的表情情绪标签作为输出，训练分类模型，得到表情情感识别模型。
4.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法，其特征在于，步骤(3)中，对视频文件进行眼动特征分析，得到眼动特征，方法如下：
(3.1)首先将获取的视频文件分帧，对人脸进行定位，得到人脸位置的矩形框；
(3.2)根据人脸的几何特征，定位出眼睛所在的区域，再使用基于图像梯度的方法在梯度最低的位置定位瞳孔，记录左右瞳孔的坐标[xli，yli]和[xri，yri]，其中，i表示帧数，瞳孔间距为根据前后帧记录的瞳孔坐标，可得到瞳孔的运动
角度和位移其中xi＝{xli，xri}，yi
＝{yli，yri}，对左右瞳孔分别计算d和a。
5.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法，其特征在于，步骤(4)中语音情感识别模型的训练方法如下：
(4.1)对音频文件进行预处理，数字化、预加重、去掉音频文件中句与句之间的停顿、分割成一句一句的语音片段，对语音片段进行降噪处理，得到语音信号s(n)，其中，n为时间；
(4.2)对语音信号使用倒谱法进行基音检测，得到基音频率v；语音信号s(n)通过加窗函数w(n)分帧处理后得到分段的帧语音信号si(n)，基音频率对应为vi，i为第i帧数，共fn帧，窗长为L，第i帧的短时能量为： 1≤i≤fn；过零率为：
1≤i≤fn；对语音信号si(n)进行倒谱法计算得
到共振峰的值ti；对语音信号si(n)进行梅尔频率计算方法得出语音的MFCC参数MFCCi；得到语音特征为
其中，为基音频率的平均值，D(vi)为基音频率
的方差，为短时能量的平均值，D(Ei)为短时能量的方差，m0.5(Ei)为短时能量的中位数，max(Ei)-min(Ei)为短时能量的最大值和最小值之差，是过零率的平均值，m0.5(Pi)是过零率的中位数，min(ti)是共振峰的最小值，为MFCC参数的平均值，D(MFCCi)为MFCC参数的方差；
(4.3)采集不同视频时，设置不同视频的语音特征对应不同的情绪标签；
(4.4)将步骤(4.2)中的语音特征作为输入，步骤(4.3)中的情绪标签作为输出，训练分类模型，训练得到语音情感识别模型。
6.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法，其特征在于，步骤(5)中，测谎模型的训练方法如下：
(5.1)根据步骤(2)-(4)的方法对每段视频进行识别，得到表情情感识别结果、眼动特征、语音情感识别结果；
(5.2)将表情情感识别结果、眼动特征、语音情感识别结果组合成为测谎特征向量；
(5.3)采集样本时得到的每段视频文件对应的是否说谎的标签，标签代表说谎或真实；
(5.4)将步骤(5.2)中的测谎特征向量作为输入，步骤(5.3)中的标签作输出，训练分类样本，得到测谎模型。

说明书全文

一种基于表情、语音和眼动特征的多模态测谎方法

技术领域

[0001] 本发明涉及模式识别领域，具体涉及一种基于表情、语音和眼动特征的多模态测谎方法。

背景技术

[0002] 测谎技术是通过一定物理技术的辅助，测试被测对象是否有撒谎的方法。人在说谎时会不由自主地产生一定的心理压力，而这种心理压力又会引起一系列的生理反应，如心跳加快、血压升高、手掌出汗、体温微升、肌肉微颤、呼吸速度和容量略见异常等，由于这些生理反应是受人体植物神经系统控制的，所以难以被人的主观意志所改变和控制。测谎技术就是依照上述原理，根据具体的实际情况，用预先准备的题目向被测试人提问，使其形成心理刺激，再由仪器记录被测试人的相关生理反应，通过对其生理反应峰值数据的分析，得出被测试人是否诚实回答问题。

[0003] 目前，常规的测谎仪主要采用肌电、脑电等接触式设备，虽然较为准确，但是专业设备庞大贵重，故人们开始探索具有轻便性质的非接触式测谎技术。不同于常规测谎仪用昂贵的肌电、脑电等接触式设备来测谎，非接触式测谎技术用摄像头与麦克风等非接触式设备实现测谎，具有设备成本低、隐蔽性、应用场景多等优势。

[0004] 随着人工智能技术的兴起，深度学习算法，表情识别、语音情感识别、人脸识别等技术的准确率已经达到与人类相当的程度。而人在说谎时除了可测量到生理反应变化之外，外在的面部表情变化、语音语调变化、以及眼动频率变化等也能够反应出说话的真实性。这些变化可以通过普通的摄像头与麦克风来捕捉。与常规的测谎仪相比，通过表情、语音、眼动三种模态的心理识别系统具有准确性、非接触式、设备成本低、隐蔽性、应用场景多等优势。并且，该系统还可以应用在抑郁症诊断等其他心理疾病方面。

发明内容

[0005] 发明目的：本发明所要解决的技术问题是开发出一套融合多种模态的集成测谎软件系统。在线通过麦克风、摄像头等设备获取被测对象的视频上传到服务器，通过服务器上集成的表情识别、语言情感识别和眼动特征识别子模块进行分析，将分析结果传回设备，能够实现在非接触式测谎。

[0006] 技术方案：为实现本发明的目的，本发明所采用的技术方案是：本发明设计了一种基于表情、语音和眼动特征的多模态测谎方法，该方法包括以下步骤：

[0007] (1)获取测谎所需视频，对获取的视频进行音视频分离；

[0008] (2)对视频文件输入到表情情感识别模型得到表情情感识别结果；

[0009] (3)对视频文件进行眼动特征分析得到眼动特征；

[0010] (4)对音频文件进行语音情感识别模型得到语音情感识别结果；

[0011] (5)将步骤(2)-(3)得到的结果组合成特征向量输入到测谎模型中进行测谎识别，得到测谎结果。

[0012] 进一步的，所述步骤(1)获取视频的方法如下：上传离线视频、在线视频通话，虚拟人物对话。

[0013] 进一步的，步骤(2)中表情情感识别模型的训练方法如下：

[0014] (2.1)采集不同的视频，对视频流进行预处理，对人脸进行定位，提取具有旋转不变性的VLBP特征作为表情特征，视频每帧的特征为fi，视频流的特征向量为F＝[f1,f2,…,fn]，将F调整为行向量的形式作为视频的表情特征；

[0015] (2.2)采集不同视频时，设置不同视频的表情特征对应不同的表情情绪标签；

[0016] (2.3)将步骤(2.1)中的表情特征作为输入，将步骤(2.2)中的表情情绪标签作为输出，训练分类模型，得到表情情感识别模型。

[0017] 进一步的，步骤(3)中，对视频文件进行眼动特征分析，得到眼动特征，方法如下：

[0018] (3.1)首先将获取的视频文件分帧，对人脸进行定位，得到人脸位置的矩形框；

[0019] (3.2)根据人脸的几何特征，定位出眼睛所在的区域，再使用基于图像梯度的方法在梯度最低的位置定位瞳孔，记录左右瞳孔的坐标[xli,yli]和[xri,yri]，其中，i表示帧数，瞳孔间距为根据前后帧记录的瞳孔坐标，可得到瞳孔的运动角度和位移其中xi＝{xli,
xri}，yi＝{yli,yri}，对左右瞳孔分别计算d和a。

[0020] 进一步的，步骤(4)中语音情感识别模型的训练方法如下：

[0021] (4.1)对音频文件进行预处理，数字化、预加重、去掉音频文件中句与句之间的停顿、分割成一句一句的语音片段，对语音片段进行降噪处理，得到语音信号s(n)，其中，n为时间；

[0022] (4.2)对语音信号使用倒谱法进行基音检测，得到基音频率v；语音信号s(n)通过加窗函数w(n)分帧处理后得到分段的帧语音信号si(n)，基音频率对应为vi，i为第i帧数，共fn帧，窗长为L，第i帧的短时能量为： 1≤i≤fn；过零率为：1≤i≤fn；对语音信号si(n)进行倒谱法计算得
到共振峰的值ti；对语音信号si(n)进行梅尔频率计算方法得出语音的MFCC参数MFCCi；得到语音特征为
其中，为基音频率的平均值，D(vi)为基音频率
的方差，为短时能量的平均值，D(Ei)为短时能量的方差，m0.5(Ei)为短时能量的中位数，max(Ei)-min(Ei)为短时能量的最大值和最小值之差，是过零率的平均值，m0.5(Pi)是过零率的中位数，min(ti)是共振峰的最小值，为MFCC参数的平均值，D(MFCCi)为MFCC参数的方差；

[0023] (4.3)采集不同视频时，设置不同视频的语音特征对应不同的情绪标签；

[0024] (4.4)将步骤(4.2)中的语音特征作为输入，步骤(4.3)中的情绪标签作为输出，训练分类模型，训练得到语音情感识别模型。

[0025] 进一步的，步骤(5)中，测谎模型的训练方法如下：

[0026] (5.1)根据步骤(2)-(4)的方法对每段视频进行识别，得到表情情感识别结果、眼动特征、语音情感识别结果；

[0027] (5.2)将表情情感识别结果、眼动特征、语音情感识别结果组合成为测谎特征向量；

[0028] (5.3)采集样本时得到的每段视频文件对应的是否说谎的标签，标签代表说谎或真实；

[0029] (5.4)将步骤(5.2)中的测谎特征向量作为输入，步骤(5.3)中的标签作输出，训练分类样本，得到测谎模型。

[0030] 有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

[0031] (1)本发明实现了表情、语音和眼动的多模态融合，是心理测试系统的一次创新。多模态融合测谎准确率比单一模态测谎准确率更具备说服力；

[0032] (2)此外，提供了一种非接触式的测谎方式，大大减少了测谎的设备成本，对于测谎地点的自由度也大大提高，给用户带来了极大的便利；

[0033] (3)此外，本软件有着很大的扩展性，如从离线测谎扩展到搭建流媒体服务器在线测谎，后续可以不断完善软件的功能，提升软件的性能；

[0034] (4)本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

[0035] 图1是本发明实施测谎的流程图；

[0036] 图2是本发明得网络架构示意图；

[0037] 图3是本发明眼动特征分析模块流程图；

[0038] 图4是本发明音频情感识别模块流程图；

[0039] 图5是本发明表情识别模块流程图；

[0040] 图6是本发明综合测谎的示意图。

具体实施方式

[0041] 以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

[0042] 另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

[0043] 图1为根据本发明实施测谎的流程图，下面参照图1，详细说明各个步骤。

[0044] 步骤S110，在测谎的设备端有三种方式可供选择进行测谎，分别是：上传离线视频、在线视频通话，虚拟人物对话。其中，上传离线视频方式是用户选择已有的视频文件来提交给服务器。在线视频通话方式是通过在线视频的方式，通话过程中可以录制用于测谎的视频。录制之后再传到服务器。虚拟人物方式是通过由虚拟人物每隔一定时间提问问题来与用户交互，被测试的过程将会被录制，然后上传到服务器处理。虚拟人物为服务端准备的一段虚拟人物来提问预先准备好的问题的视频。

[0045] 步骤S120，视频传送到服务端首先要进行音频视频分离，将声道单独抽取作为音频输入，剩下的部分为视频输入，获得的纯视频文件和音频文件分别送入表情识别、语音情感识别和眼动特征分析模块作为原始输入。

[0046] 表情识别是通过对视频进行情感识别，每2秒更新一次识别结果，使用分类算法(SVM或神经网络)进行识别，输出识别的情绪x,x∈{1,2,3,4,5,6,7}，其中数字1-7分别代表愤怒、蔑视、厌恶、恐惧、高兴、悲伤和惊讶，输出两个结果，一个是所有7种情绪对应的概率值。一个是概率最大的情绪对应的数字，视为与视频中人物相符的情绪，即为上述的x。

[0047] 语音情感识别也是通过对被测对象的语音进行识别，也是每两秒输出一次识别出来的情绪y,y∈{1,2,3,4,5,6}，其中，数字1-6分别代表生气、害怕、高兴、平静、伤心和惊讶六种情绪，由输出结果y得到音频中的人物情绪。

[0048] 眼动特征分析是逐帧处理视频数据，通过人脸定位和瞳孔定位来计算两眼瞳孔间距，每一帧输出一个数据，保存瞳孔位置，据此进一步计算瞳孔的运动轨迹参数，作为特征分析的特征向量z＝[d,a]，包括根据瞳孔前后位置计算得到的位移d和瞳孔变化角度a。具体来说d＝[dl,dr],a＝[al,ar]，分别包括左右瞳孔的位移和变化角度。

[0049] 获得了3个子模块的识别数据，语音和表情子模块的识别结果x,y用识别出的情绪序号表示，眼动特征模块的结果z，以数值的形式输出，三个子模块的输出结果组成一个向量[x,y,z]，代表被测对象的特征，输入训练好的支持向量机来进行情感分类，分辨该向量属于真实情感类还是谎言情感类，得出最后的测谎结果。

[0050] 对于支持向量机的训练，需要采集一定视频样本和说谎与否的标签建立一个谎言测试的数据库，数据库中保存视频文件经过三个子模块得到的向量组{[x1,y1,z1],[x2,y2,z2],…,[xn,yn,zn]}，以及对应的标签{[l1],[l2],…,[ln]}，其中，标签只有1和0，1代表说谎，0代表真实，将向量和类别标签送入支持向量机进行训练，最后得到训练好的二分类支持向量机可实现准确测谎，上述得到的所有数据都存储在数据库中作为用户的历史纪录，便于随时查询，也便于进行更加深层次的心理变化分析。

[0051] 步骤S130，将三个子模块的输出结果和测谎的最后结果传输给设备端，其中眼动特征用动态数字来显示实时的瞳孔间距，而表情识别和语音识别用饼图表示，饼图的每个部分表示所有可能识别出来的情感，识别结果的部分用高亮颜色突出显示，根据服务端传送的数据实时变化，用文字显示最终的识别结果，也可查询以往的测谎记录。

[0052] 图2为本发明得网络架构示意图，架构分为三个部分，设备端、服务端和数据库。设备端主要是用于视频传输、在线通话、虚拟人物的实现和显示服务端传输来的测试结果。服务端主要有两个功能，一是实现数据的接受和发送，包括设备端的视频数据、测试结果和数据库中保存的历史测试结果。二是实现测谎算法，多线程进行表情识别、眼动特征识别和语音情感识别，获得最后的测谎结果。

[0053] 图3为本发明眼动特征分析模块流程图，步骤如下：首先将设备传来的视频文件分帧，用自动人脸识别引擎进行人脸识别来定位人脸，得到人脸位置的矩形框，根据人脸的几何特征，用引擎中的对其功能大致定位眼睛所在区域，再使用基于图像梯度的方法在梯度最低的位置定位瞳孔，记录左右瞳孔的坐标[xli,yli]和[xri,yri]，其中，i表示帧数，瞳孔间距为根据前后帧记录的瞳孔坐标，可得到瞳孔的运动角度和位移其中xi＝{xli,xri}，yi＝
{yli,yri}，xi+1＝{xli+1,xri+1}，yi＝{yli+1,yri+1}，对左右瞳孔分别计算d和a。

[0054] 图4是本发明音频情感识别模块流程图，步骤如下：首先对音频文件进行预处理，数字化、预加重、截出语音部分、分帧，进行一定的降噪处理，得到语音信号s(n)，其中，n为时间。然后根据音频的频率特性不同提取不同音频片段的基音频率，共振峰，短时能量和梅尔倒谱系数等频率特征，具体来说，对语音信号使用倒谱法进行基音检测，得到基音频率v；语音信号s(n)通过加窗函数w(n)分帧处理后得到分段的帧语音信号si(n)，基音频率对应为vi，i为第i帧数，共fn帧，上述的窗函数可选择矩形窗、海宁窗或汉明窗，窗长为L，第i帧的短时能量为 1≤i≤fn；过零率为
1≤i≤fn；对语音信号si(n)进行倒谱法计算得到共振峰的值ti；对语音信号si(n)进行梅尔频率计算方法得出语音的MFCC参数MFCCi；得到语音特征为
其中，为基音频率的平均值，D(vi)为基音频率
的方差，为短时能量的平均值，D(Ei)为短时能量的方差，m0.5(Ei)为短时能量的中位数，max(Ei)-min(Ei)为短时能量的最大值和最小值之差，是过零率的平均值，m0.5(Pi)是过零率的中位数，min(ti)是共振峰的最小值，为MFCC参数的平均值，D(MFCCi)为MFCC参数的方差。据此建立语音情感识别数据库，采集已知情绪的语音样本，通过上述步骤获得语音特征，故数据库中数据包含语音特征和对应的生气、害怕、高兴、平静、伤心和惊讶六种情绪标签，训练多分类支持向量机，得到的训练好的支持向量机能识别语音特征对应的情感。

[0055] 图5是本发明表情识别模块流程图，主要流程如下：首先对接收到的视频流进行预处理，对光照等影响因素进行抑制，对人脸识别引擎对人脸位置进行定位。根据表情不同而五官的变化进行表情特征的提取，提取具有旋转不变性的VLBP特征作为表情特征，每帧的特征为fi，视频流的特征向量为F＝[f1,f2,…,fn]，将F调整为行向量的形式作为视频的表情特征。以此建立表情识别数据库，采集已知情绪的表情样本，通过上述步骤获得表情特征，故数据库中数据包含表情特征和对应的愤怒、蔑视、厌恶、恐惧、高兴、悲伤和惊讶7种情绪标签，训练多分类支持向量机，得到的训练好的支持向量机能识别表情特征对应的情感。

[0056] 图6是本发明综合测谎的示意图，在上述3个子模块的识别结果和数据库的基础上，将这三个情感识别结果融合作为测谎的特征，用识别出的情绪序号表示的语音和表情子模块的识别结果x,y和眼动特征识别得到的特征向量z＝[d,a]三个模态组合为测谎特征向量[x,y,z]。数据库中保存视频文件经过三个子模块得到的向量组{[x1,y1,z1],[x2,y2,z2],…,[xn,yn,zn]}，以及采集样本时得到的每段视频文件对应的是否说谎的标签{[l1],[l2],…,[ln]}，其中标签只有1和0，1代表说谎，0代表真实，进行测谎数据集的建立，由此训练一个结合语音、表情、眼动特征的谎言二分类支持向量机，实现多模态测谎。其中，支持向量机是一种常用的监督式学习算法，输入训练样本和样本对应的类别标签，能够创建一个针对样本的分类模型，将低维特征映射到高维空间，将分类问题转化为线性分类问题，找到不同类别区分的决策面，从而分类模型的建立。故支持向量机能够胜任上述的谎言辨别任务。

[0057] 虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

标题	发布/更新时间	阅读量
信息查询方法、客户端及服务器	2020-05-13	481
一种符合数字电影规范的三维音频节目码流传输的方法	2020-05-11	100
用于对等传输的用户界面	2020-05-11	192
一种系统界面设计方法	2020-05-13	378
一种网络化列车广播系统及实现方法	2020-05-08	702
一种基于物联网技术的作业人员状态风险管控系统	2020-05-08	543
一种基于表情、语音和眼动特征的多模态测谎方法	2020-05-11	355
一种AI智能语音控制蓝牙音响系统	2020-05-08	808
可自定义的耳鸣声治疗器	2020-05-08	668
基于阿尔法脑波的学习机	2020-05-08	78

一种基于表情、语音和眼动特征的多模态测谎方法

一种基于表情、语音和眼动特征的多模态测谎方法

技术领域

背景技术

发明内容

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：