首页 / 专利库 / 空中管制 / 空域 / 自然状态下多角度人脸表情识别方法

自然状态下多度人脸表情识别方法

阅读:3发布:2020-09-05

专利汇可以提供自然状态下多度人脸表情识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种自然状态下多 角 度人脸表情识别方法,输入多角度的人脸表情图像数据,对其图像数据进行预处理;建立MVFE-LightNet网络结构,预处理后图像数据输入 输入层 后,再经过两个二维卷积层,提取图像低级边缘特征;再依次经过6个残差深度可分离的卷积层、1个二维卷积层和1个GlobalAveragePooling2D层进行图像深层特征提取和处理后;最后提取的图像深层特征送入Softmax分类器进行训练和识别,最终分类输出。方法适用于多角度下的人脸表情识别;本方法运算速度快,能够实现实时运算;本方法在不同角度人脸表情识别中均具有较高的识别率;本方法有效解决了网络层数增加而带来的过拟合问题。,下面是自然状态下多度人脸表情识别方法专利的具体信息内容。

1.一种自然状态下多度人脸表情识别方法,其特征在于,具体包括如下步骤:
1)输入多角度的人脸表情图像数据,对其图像数据进行预处理,包括如下步骤:
1.1)采用多任务级联卷积神经网络方法来对人脸进行检测和关键点的粗略定位,再裁剪人脸区域;
1.2)全局对比度归一化:对已经经过人脸检测和裁剪后的原始图像进行灰度化和归一化处理,使各个特征的尺度控制在相应的范围;
1.3)人脸表情数据扩增:使用随机变换对图像进行“增强”处理,自动对图片进行扩增数据;
2)建立MVFE-LightNet网络框架:MVFE-LightNet网络结构依次包括输入层、两个二维卷积层、6个残差深度可分离的卷积层、1个二维卷积层、1个GlobalAveragePooling2D层和Softmax分类器输出层;预处理后图像数据输入输入层后,再经过两个二维卷积层,提取图像低级边缘特征;再依次经过6个残差深度可分离的卷积层、1个二维卷积层实现图像深层特征提取,图像深层特征再通过1个GlobalAveragePooling2D层对空域信号施加全局平均值池化,进行全连接的替换后,送入Softmax分类器进行训练和识别,最终分类输出。
2.根据权利要求1所述自然状态下多角度人脸表情识别方法,其特征在于,所述步骤2)中每个卷积后跟一个Batch Normalization函数和一个ReLU激活函数,其中,残差深度可分离的卷积层后再加上一次MaxPooling2D计算。

说明书全文

自然状态下多度人脸表情识别方法

技术领域

[0001] 本发明涉及一种人脸识别技术,特别涉及一种基于MVFE-LightNet网络的自然状态下多角度人脸表情识别方法。

背景技术

[0002] 人脸表情识别是计算机视觉模式识别领域的研究热点之一,是人机交互情感计算技术研究的发展趋势,在智能安防、机器人制造、医疗、通信和汽车领域等得到广泛的应用。人的情感在很大程度在人脸表情呈现,可以通过表情的变化来判断人们的内心想法。随着人工智能的发展,人类对智能化和舒适化生活的需求日益增加,通过人脸表情获取人类情感信息的分析不仅具有科学研究价值,还对人类心理状态和情感理解具有重大意义。
[0003] 在过去的几十年中,人脸表情识别的研究成果主要针对正面或近正面人脸图像。而自然状态下的多角度人脸表情显然具有更广泛的应用领域和更高的应用价值。与正面人脸表情相比识别,非正面人脸需要处理人脸姿态变化带来的表情信息缺失、多姿态特征匹配等问题,大大提高了人脸采集、检测和识别的难度。
[0004] 传统人脸表情识别算法一般分为两个步骤:特征提取和分类器判别。其中,特征提取方法有基于外观或几何特征、方向梯度直方图(HOG)、离散余弦变换(DCT)和尺度不变特征变换(SIFT)等,以及他们不同的变体、特征降维(PCA、LDA和SVD)和特征融合(主要包括特征级融合和决策层融合)。对于分类器来说,大多数流行的分类器,如支持向量机(SVM)和贝叶斯分类器,连同一些无监督的学习技术。但是这类算法需要人工标记特征点,不能根据类和图像调整特征提取,缺乏鲁棒性和实用性。如果所选择的提取特征方法缺乏区分类别所需的表征能,则分类模型的准确性会受到很大的影响,一定程度上与所采用的分类策略的类型无关。

发明内容

[0005] 本发明是针对非正面人脸检测和识别难的问题,提出了一种自然状态下多角度人脸表情识别方法,可实现人脸姿态变化大、脸部信息缺失严重的人脸表情识别。
[0006] 本发明的技术方案为:一种自然状态下多角度人脸表情识别方法,具体包括如下步骤:
[0007] 1)输入多角度的人脸表情图像数据,对其图像数据进行预处理,包括如下步骤:
[0008] 1.1)采用多任务级联卷积神经网络方法来对人脸进行检测和关键点的粗略定位,再裁剪人脸区域;
[0009] 1.2)全局对比度归一化:对已经经过人脸检测和裁剪后的原始图像进行灰度化和归一化处理,使各个特征的尺度控制在相应的范围;
[0010] 1.3)人脸表情数据扩增:使用随机变换对图像进行“增强”处理,自动对图片进行扩增数据;
[0011] 2)建立MVFE-LightNet网络框架:MVFE-LightNet网络结构依次包括输入层、两个二维卷积层、6个残差深度可分离的卷积层、1个二维卷积层、1个GlobalAveragePooling2D层和Softmax分类器输出层;预处理后图像数据输入输入层后,再经过两个二维卷积层,提取图像低级边缘特征;再依次经过6个残差深度可分离的卷积层、1个二维卷积层实现图像深层特征提取,图像深层特征再通过1个GlobalAveragePooling2D层对空域信号施加全局平均值池化,进行全连接的替换后,送入Softmax分类器进行训练和识别,最终分类输出。
[0012] 所述步骤2)中每个卷积后跟一个Batch Normalization函数和一个ReLU激活函数,其中,残差深度可分离的卷积层后再加上一次MaxPooling2D计算。本发明的有益效果在于:本发明自然状态下多角度人脸表情识别方法,适用于多角度下的人脸表情识别;本方法运算速度快,能够实现实时运算;本方法在不同角度人脸表情识别中均具有较高的识别率;本方法有效解决了网络层数增加而带来的过拟合问题。
附图说明
[0013] 图1为本发明多视角人脸检测和裁剪示意图;
[0014] 图2为本发明多视角人脸表情灰度化和归一化示意图;
[0015] 图3为本发明人脸表情数据扩增示意图;
[0016] 图4为本发明基于MVFE-LightNet网络模型示意图;
[0017] 图5为本发明Conv2D卷积样本输出示意图;
[0018] 图6为本发明图像深层卷积提取图像深层特征示意图;
[0019] 图7为本发明BU-3DFE数据库中的多视角人脸表情识别混淆矩阵的实验结果图。

具体实施方式

[0020] 1、人脸表情数据预处理
[0021] 输入多角度的人脸表情图像数据,对其图像数据进行预处理,如图1、2、3为建立的人脸表情数据预处理的示意图。
[0022] (1)人脸检测和裁剪:采用多任务级联卷积神经网络(Multi-Task Convolutional Neural Net-work,MTCNN)方法来对人脸进行检测和关键点的粗略定位,再裁剪人脸区域,如图1所示多视角人脸检测和裁剪示意图。MTCNN是一个深层级(24层)多任务框架的神经网络,首先,调整图像大小到不同的尺度以构建图像金字塔,并作为三级级联框架的输入,三级深卷积网络的级联结构如下:
[0023] P-Net(Proposal Network):生成候选人脸框及其边界框回归向量,然后使用该边界框回归向量来校准候选框,并采用非极大值抑制(NMS)方法合并高度重叠的候选框。
[0024] R-Net(Refine Network):进一步筛选候选框,使用边界框回归进行校正,并用NMS合并候选框。
[0025] O-Net(Output Network):与R-Net类似,选出最优候选框,并输出五个特征点的位置
[0026] (2)全局对比度归一化:归一化是将已经经过人脸检测和裁剪后的原始图像各个特征的尺度控制在相应的范围。人脸图像进行灰度化和归一化处理,如图2所示多视角人脸表情灰度化和归一化示意图,以正面脸部为90度表示,其他角度表示0°,45°,90°,135°和180°。除中性外,包括生气,厌恶,恐惧,高兴,悲伤和惊奇七种基本表情。
[0027] (3)数据增强
[0028] 深度学习模型处理大型数据集时表现更好。使用一系列随机变换对图像进行“增强”处理,以使模型不会看到两次完全相同的图像,有效提高图片利用率。例如,旋转、翻转、缩放和平移等变换。本发明使用了宽度和高度位移,图像总宽度或高度为0.2,随机旋转范围为0-20°,剪切范围为0.1,变焦范围为[0-0.1]。还将图像平翻转,并应用“填充模式”策略填充新创建的像素,利用深度学习框架keras的图片预处理工具自动对图片的扩增数据,如图3所示人脸表情数据扩增示意图。
[0029] 2、MVFE-LightNet网络框架
[0030] 本发明设计的MVFE-LightNet网络模型的基本结构如图4所示,以Xception和Resnet架构为基础,这种架构结合深度可分离的卷积和残差网络模,网络参数减少的同时,不损失网络性能,使用Adam优化器进行了训练。
[0031] MVFE-LightNet网络结构是一个全卷积神经网络,MVFE-LightNet网络结构依次包括输入层、两个二维卷积层、6个残差深度可分离的卷积层、1个二维卷积层、1个GlobalAveragePooling2D层和1个Softmax输出层。除最后GlobalAveragePooling2D层外,每个卷积层后跟一个Batch Normalization函数和一个ReLU激活函数,其中,每个残差深度可分离的卷积层后再加上一次MaxPooling2D运算。输入层是输入大小为64×64×1像素的多角度表情图像,两个二维卷积层(Conv2D),采用大小为3×3的8个卷积核进行滑动窗卷积,此层提取图像低级边缘特征,保留了图像的细节,如图5所示Conv2D卷积样本输出示意图。提取的图像深层特征如图6所示图像深层卷积提取图像深层特征示意图,图6中a-f分别是第1到第6残差深度可分离卷积层的输出,可以发现越往深层,其所表达的信息越抽象复杂。最后一层用GlobalAveragePooling2D层为空域信号施加全局平均值池化,是进行全连接的替换,减少参数的数量,对整个网络在结构上做正则化防止过拟合。输出层是Softmax分类器来产生预测,GlobalAveragePooling2D层输出送入Softmax分类器进行训练和识别,最终达到分类目的。这是逻辑回归模型在多分类问题上的推广,在多分类问题中,可预测k种可能(k为样本标签的种类数,本文中k=6,角度分为5个角度,是分别针对5个角度的人脸表情进行训练和识别的,也就是分类器并不区分当前表情是哪个角度。换句话说,我们预先已知人脸角度,然后输入到某一个角度的分类器中进行表情识别),假设分类器输入特征为( 指n+1维空间。n+1是一个假设值,也就是经过6层残差深度可分离的卷积(i)
层后的输出特征向量假设是n+1维,然后输入给softmax进行分类),样本标签为y ,即构成的分类层的监督学习的训练集S={(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))},那么假设函数hθ(x)和代价函数J(θ)形式分别如下:
[0032]
[0033] 其中P是概率,条件概率;θ是分类器参数,有k个,每个n+1维; 是模型参数, 为对概率分布进行归一化项,使得所有概率之和为1。
[0034]
[0035] 其中,1{ }=1是一个示性函数,其取值规则为:当大括号内表达式为真时,该函数的结果就为1,否则其结果就为0。
[0036] Softmax回归模型是logistic回归模型在多分类问题上的推广,当分类数为2的时候会退化为Logistic分类。在多分类问题中,类标签y可以取两个以上的值。
[0037] logistic回归模型的假设函数如下:
[0038]
[0039] 训练模型参数θ,使其能够最小化代价函数J(θ):
[0040]
[0041] 对于给定的测试输入x,用假设函数针对每一个类别y=j估算出概率值p(y=j|x),即,估计x的每一种分类结果出现的概率。假设函数将要输出一个k维的向量来表示这k个估计的概率值。假设函数hθ(x)形式如下:
[0042]
[0043] 其中 是模型参数, 为对概率分布进行归一化项,使得所有概率之和为1。
[0044] 为了方便起见,我们同样使用符号θ来表示全部的模型参数。在实现Softmax回归时,将θ用一个k×(n+1)的矩阵来表示会很方便,该矩阵是将θ1,θ2,...,θk按行罗列起来得到的,如下所示:
[0045]
[0046] T为转置。
[0047] 在softmax回归算法中,回归代价函数为:
[0048]
[0049] 其中,1{ }=1是一个示性函数,其取值规则为:当大括号内表达式为真时,该函数的结果就为1,否则其结果就为0。
[0050] 3.实验结果与分析
[0051] 在BU-3DFE数据库中不同角度下的每种表情的识别率如表1所示,这6种表情之间的混淆矩阵如图7所示。从表1中可以看出,正面比其他角度的识别率高,识别率为0.837,此外,整体的识别率高达0.887;从图7这些混淆矩阵中可以看出,在六种表情中,惊奇和高兴的表情比厌恶和恐惧更容易被识别,最有可能是这两种表情的肌肉变形比其他表情相对较大。
[0052] 表1
[0053]
[0054] 如表2所示网络参数大小和训练速度比较,比较了几种模型的大小,识别率和速度,可以看出MVFE-LightNet网络模型的识别率明显高于LightNet和Mnist-cnn网络模型,而Xcepton模型出现过拟合问题。本文网络模型的识别率略低于Resent-18网络模型,但是运行时间是大约是其二分之一,大大节省了实验时间。
[0055] 表2
[0056]
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈