首页 / 专利库 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 深度神经网络 / 基于唇部特征和深度学习的笑脸识别方法

基于唇部特征和深度学习的笑脸识别方法

阅读:1013发布:2020-11-25

专利汇可以提供基于唇部特征和深度学习的笑脸识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于唇部特征和 深度学习 的笑脸识别方法,先在包含笑脸的正样本图像和不包含笑脸的负样本图像上裁剪得到唇部图像的训练样本,对所有唇部图像训练样本分别进行特征提取,得到每个训练样本对应的 特征向量 ,采用训练样本的特征向量对 深度神经网络 进行训练;对于待识别图像,采用同样方法获取待识别图像中人脸的唇部特征向量,输入训练好的深度神经网络进行识别,得到是否为笑脸的识别结果。本发明采用唇部特征结合深度神经网络的特征学习能 力 ,提高复杂条件下的笑脸识别准确率;并且通过对深度神经网络训练时的整体代价函数进行改进,进一步抑制非高斯噪声的影响,提高识别准确率。,下面是基于唇部特征和深度学习的笑脸识别方法专利的具体信息内容。

1.一种基于唇部特征和深度学习的笑脸识别方法,其特征在于,包括以下步骤:
S1:收集包含笑脸的正样本图像和不包含笑脸的负样本图像,对每个训练样本图像分别提取标准人脸图像,标准人脸图像的提取方法为:先采用人脸检测分类器从待识别图像中检测得到初始人脸图像,再采用人眼检测分类器从初始人脸图像中检测定位到眼睛,以眼睛位置为基准,对初始人脸图像进行旋转、缩绽放和裁剪,得到标准人脸图像;再通过唇部位置在标准人脸图像上进行裁剪,获取唇部图像的训练样本;
S2:对步骤S1中获取的所有唇部图像训练图像分别进行LBP特征提取,得到每个训练样本对应的特征向量
S3:构建深度神经网络,包括两层自编码网络和分类器,自编码网络是一种输入与输出相等的三层BP神经网络,记自编码网络的参数为(W,b)=(W(1),b(1),W(2),b(2)),令 表示第L层第j个单元与第L+1层第i个单元之间的连接参数, 表示第L层第i单元的偏置项,记第L层有sL个单元,其中L=1,2;用 表示第2层第i个单元输入加权和, 表示第2层第i单元的激活值,那么有如下表达式:
函数f为激活函数:
记第2层的激活值 第2层的输入加权和
(3)
第3层的激活值a 按照下面步骤计算得到:
z(3)=W(2)a(2)+b(2)
a(3)=f(z(3))
自编码网络输出为hW,b(x)=a(3)=f(z(3));
将第一层自编码网络中隐含层的输出作为第二层自编码网络的输入,将第二层自编码网络中隐含层的输出作为分类器的输入,构建得到的深度神经网络包括输入层、第一隐含层、第二隐含层和分类器,其中输入层的神经单元数量为训练样本特征向量的维度,第一隐含层和第二隐含层的神经单元数量可以根据需要进行设置,分类器根据需要选择;
将所有训练样本的特征向量作为深度神经网络的输入,对应的样本标签作为输出,其中正样本的样本标签为1,负样本的样本标签为-1,对深度神经网络进行训练,训练时先采用训练样本的特征向量训练第一层自编码网络,然后将第一层自编码网络中隐含层的输出作为第二层自编码网络的输入,训练第二层自编码网络,最后将训练样本的特征向量依次输入双层自编码网络,将第二隐含层的输出作为分类器的输入,训练样本所对应的样本标签作为输出,对分类器进行训练;
S4:对于待识别图像,采用与步骤S1和S2相同的方法获取待识别图像中人脸的唇部特征向量,输入至步骤S3训练好的深度神经网络进行识别,得到是否为笑脸的识别结果。
2.根据权利要求1所述的笑脸识别方法,其特征在于,所述步骤S3中深度神经网络中自编码网络在训练过程中,采用的整体代价函数Jsparse(W,b)的表达式为:
其中,M表示训练样本数量,N表示训练样本特征的维数, 表示第m个训练样本特征向量的第n个元素, 表示第m个训练样本对应输出的第n个元素,λ表示权重衰减参数,nL表示自编码网络的层数,sL表示第L层的单元数量, 表示第L层第j个单元与第L+1层第i个单元之间的连接参数,其中L=1,2,β是控制稀疏性惩罚因子的权重, 表示惩罚因子。

说明书全文

基于唇部特征和深度学习的笑脸识别方法

技术领域

[0001] 本发明属于计算机视觉技术领域,更为具体地讲,涉及一种基于唇部特征和深度学习的笑脸识别方法。

背景技术

[0002] 人脸表情识别(Facial Expression Recognition,FER)研究作为人机交互情感计算的重要内容,已经受到越来越多研究者的关注。笑脸表情作为人脸表情中重要的一种表情,对它的有效识别能够在一定程度上推动着表情识别的发展。
[0003] 到目前为止,针对笑脸识别的研究还非常少。2010年,深圳华为通信技术有限公司申请了笑脸检测专利,其原理主要是通过获取到的人脸视频中的嘴部的运动信息来判断是否检测到笑脸。华南理工大学针对笑脸识别进行研究发明了笑脸识别专利。专利中主要采用梯度直方图特征(Histogram of Gradient,HOG)分类笑脸,将笑脸分为笑和不笑两类。何聪利用一种高层次仿真生物视觉方法来实现笑脸的识别与分类,该方法主要基于生物启发特征来进行笑脸的特征提取和分类。2011年陈俊研究了基于生物启发特征的真实环境下的笑脸识别,构造了一个符合人类识别机制的一个笑脸分类系统,2012年,郭礼华等人利用PHOG特征与聚类特征选择进行笑脸识别,严新平融合LBP特征与HOG特征来进行笑脸识别研究。C.Shan通过提高像素间的差异进行笑脸检测,这些研究都在一定程度上促进了笑脸识别技术的发展。
[0004] 综上所述,传统的笑脸识别主要采用传统的特征提取方法,同时其主要针对特定条件下拍摄的人脸表情库进行实验,一旦将场景变换到真实情况下,不具有良好的鲁棒性和实用性。

发明内容

[0005] 本发明的目的在于克服现有技术的不足,提供一种基于唇部特征和深度学习的笑脸识别方法,采用唇部特征结合深度神经网络的特征学习能,提高复杂条件下的笑脸识别准确率。
[0006] 为实现上述发明目的,本发明基于唇部特征和深度学习的笑脸识别方法包括以下步骤:
[0007] S1:收集包含笑脸的正样本图像和不包含笑脸的负样本图像,对每个训练样本图像分别提取标准人脸图像,再通过唇部位置在标准人脸图像上进行裁剪,获取唇部图像的训练样本;
[0008] S2:对步骤S1中获取的所有唇部图像训练图像分别进行特征提取,得到每个训练样本对应的特征向量
[0009] S3:将所有训练样本的特征向量作为深度神经网络的输入,对应的样本标签作为输出,其中正样本的样本标签为1,负样本的样本标签为-1,对深度神经网络进行训练;
[0010] S4:对于待识别图像,采用与步骤S1和S2相同的方法获取待识别图像中人脸的唇部特征向量,输入至步骤S3训练好的深度神经网络进行识别,得到是否为笑脸的识别结果。
[0011] 本发明基于唇部特征和深度学习的笑脸识别方法,先在包含笑脸的正样本图像和不包含笑脸的负样本图像上裁剪得到唇部图像的训练样本,对所有唇部图像训练样本分别进行特征提取,得到每个训练样本对应的特征向量,采用训练样本的特征向量对深度神经网络进行训练;对于待识别图像,采用同样方法获取待识别图像中人脸的唇部特征向量,输入训练好的深度神经网络进行识别,得到是否为笑脸的识别结果。
[0012] 本发明采用唇部特征结合深度神经网络的特征学习能力,提高复杂条件下的笑脸识别准确率;并且通过对深度神经网络训练时的整体代价函数进行改进,进一步抑制非高斯噪声的影响,提高识别准确率。附图说明
[0013] 图1是本发明基于唇部特征和深度学习的笑脸识别方法的流程图
[0014] 图2是本实施例中唇部图像获取的示例图;
[0015] 图3是本实施例中深度神经网络的结构图。

具体实施方式

[0016] 下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0017] 实施例
[0018] 图1是本发明基于唇部特征和深度学习的笑脸识别方法的流程图。如图1所示,本发明基于唇部特征和深度学习的笑脸识别方法包括以下步骤:
[0019] S101:训练样本唇部图像获取:
[0020] 在表情识别中,一般将人脸表情分为六类,这属于多分类问题。而笑脸识别是一个二分类的问题,只需将笑脸图片从所有图片中辨识出来。如果盲目的将传统的人脸表情识别的方法直接套用在笑脸识别中,势必会增加许多干扰因素,造成识别率的下降,因此首先应该考虑的是笑脸和非笑脸之间的主要区别。通过对一些图片的研究分析,发现在大多数情况下,可以轻易的从唇部图片区分出该图片是否为笑脸,而难以从人脸上半部分区分出是该图片上的人处于什么表情。因此本发明中采用唇部图像特征来进行笑脸识别,那么首先需要进行唇部图像提取,其具体方法为:收集包含笑脸的正样本图像和不包含笑脸的负样本图像,对每个训练样本图像分别提取标准人脸图像,再通过唇部位置在标准人脸图像上进行裁剪,获取唇部图像的训练样本。本实施例中唇部图像的训练样本数量为1000张,其中笑脸图像对应的训练样本500张,非笑脸图像对应的训练样本500张。
[0021] 提取标准人脸图像的具体算法可以根据需要从现有算法中进行选择。本实施例中所采用的算法为:先采用人脸检测分类器从待识别图像中检测得到初始人脸图像,再采用人眼检测分类器从初始人脸图像中检测定位到眼睛,以眼睛位置为基准,对初始人脸图像进行旋转、缩放和裁剪,得到标准人脸图像。人脸检测分类器和人眼检测分类器是本技术领域中的常用工具,在此不再赘述。图2是本实施例中唇部图像获取的示例图。本实施例中标准人脸图像的尺寸为70×70,裁剪得到的唇部图像的尺寸为32×32。
[0022] S102:唇部特征提取:
[0023] 对步骤S101中获取的所有唇部图像训练图像分别进行特征提取,得到每个训练样本对应的特征向量。
[0024] 目前业内已经具有多种图像特征,可以根据实际需要选择,本实施例中采用LBP特征。LBP(Local Binary Pattern,局部二值模式)特征是一种用来描述图像局部纹理特征的算子;它具有旋转不变性和灰度不变性等显著的优点。本实施例中LBP特征具体步骤包括:
[0025] 1)将唇部图像进行网络化,划分为4×4的小区域(cell);
[0026] 2)对于每个cell中的每一个像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3*3邻域内的8个点经比较可产生8位二进制数,每个像素点都对应一个8位二进制数;
[0027] 3)采用等价模式对LBP算子的模式种类进行降维,当某个像素对应的8位循环二进制数从0到1或从1到0最多有两次跳变时,该LBP所对应的二进制记为一个等价模式类。除等价模式类以外的模式都归为另一类,记为混合模式类,如此,LBP模式由原始的256种减少为58种;
[0028] 4)计算每个cell的直方图,即每个LBP模式出现的频率;然后对该直方图进行归一化处理;
[0029] 5)最后将得到的每个cell的统计直方图进行连接成为一个特征向量,也就是整幅图的LBP纹理特征向量,尺寸为928×1。
[0030] S103:训练深度神经网络:
[0031] 将所有训练样本的特征向量作为深度神经网络的输入,对应的样本标签作为输出,其中正样本为样本标签为1,负样本的样本标签为-1,对深度神经网络进行训练。
[0032] 深度神经网络是一种由多层自编码网络和分类器构成的神经网络,本实施例中深度神经网络采用两层自编码网络和分类器组成。图3是本实施例中深度神经网络的结构图。如图3所示,深度神经网络包括输入层、第一隐含层、第二隐含层和分类器,其中输入层的神经单元数量为训练样本特征向量的维度,第一隐含层和第二隐含层的神经单元数量可以根据需要进行设置,分类器也可以根据需要选择。本实施例中,输入层包含928个神经单元,第一隐含层包含200个神经单元,第二隐含层包含100个神经单元,分类器采用SVM(Support Vector Machine,支持向量机)分类器。深度神经网络是分层训练的,下面对每层网络的训练过程分别进行说明。
[0033] ·第一层自编码网络
[0034] 自编码网络是一种输入与输出相等的三层BP神经网络。本实施例中,由于LBP特征为928×1的特征向量,因此第一层自编码网络的输入层包含928个神经网络,第一隐含层包含200个神经网络,输出层包含928个神经网络。
[0035] 记第一层自编码网络的参数为(W,b)=(W(1),b(1),W(2),b(2)),令 表示第L层第j个单元与第L+1层第i个单元之间的连接参数(即连接线上的权重), 表示第L层第i单元的偏置项,记第L层有sL个单元,其中L=1,2。用 表示第2层第i个单元输入加权和(包括偏置单元), 表示第2层第i单元的激活值,那么有如下表达式:
[0036]
[0037]
[0038] 函数f为激活函数:
[0039] 记 第2 层的 激活 值 第 2层 的输 入 加权 和第3层的激活值a(3)就可以按照下面步骤计算得到:
[0040] z(3)=W(2)a(2)+b(2)
[0041] a(3)=f(z(3))
[0042] 自编码网络输出为hW,b(x)=a(3)=f(z(3))。
[0043] 在自编码网络训练时,需要根据整体代价函数来判定当前网络参数的优劣。本发明是基于唇部特征来进行笑脸识别,在样本图像中存在较多的非高斯噪声,为了降低深度神经网络对非高斯噪声的敏感度,本发明对自编码网络的整体代价函数进行了改进。本发明中所采用的整体代价函数Jsparse(W,b)的表达式为:
[0044]
[0045] 其中,M表示训练样本数量,N表示训练样本特征的维数, 表示第m个训练样本特征向量的第n个元素, 表示第m个训练样本对应输出的第n个元素;λ表示权重衰减参数,nL表示自编码网络的层数,sL表示第L层的单元数量,β是控制稀疏性惩罚因子的权重,表示惩罚因子,其计算公式为:
[0046]
[0047] 其中, 表示隐含层神经元j的平均活跃度, 表示隐含层第k个神经单元的激活值,k=1,2,…,s2,Xm表示第m个训练样本的特征向量,ρ是稀疏性参数。
[0048] 本实施例中,设置λ=0.003,β=3,ρ=0.05。
[0049] 自编码网络训练目标是使整体代价函数值最小,可以根据需要选择训练方法,常用的训练方法为梯度下降法,本实施例采用梯度下降法,其具体过程在此不再赘述。
[0050] ·第二层自编码网络
[0051] 在深度自编码网络中,第二层自编码网络的输入是第一层自编码网络中隐含层的输出。因此第二层自编码网络的输入层和输出层包含200个神经网络,本实施例中第二隐含层包含100个神经网络。
[0052] 的在第一层自编码网络训练完成后,将第一层自编码网络的输出作为第二层自编码网络的输入,采用同样的方式对第二层自编码网络进行训练。
[0053] ·SVM分类器
[0054] 将训练样本的LBP特征依次输入双层自编码网络,将第二隐含层的输出作为SVM分类器的输入,训练样本所对应的样本标签作为输出,对SVM分类器进行训练。在本发明中,由于训练样本线性不可分,因此本实施例中使用高斯核函数将其映射到高维使其线性可分。SVM分类器是一种常用的分类器,其具体原理和训练过程在此不再赘述。
[0055] S104:笑脸识别:
[0056] 对于待识别图像,采用与步骤S101、步骤S102相同的方法获取待识别图像中人脸的唇部特征向量,输入至步骤S103训练好的深度神经网络进行识别,得到是否为笑脸的识别结果。
[0057] 为了说明本发明的技术效果,采用一个具体的图像样本集进行实验验证。图像样本集采用GENKI-4K数据库上做了基于不同特征输入的对比实验。GENKI-4K数据库是2009年Jacob Whitehill和Gwen Littlewor等人为了研究非实验室场景下的笑容检测专建立的一个数据库。该数据库从网络个人主页下载而来,是全世界普通群众为了各自不同的目的所拍摄,除了姿态、光照的变化,拍摄场景有户内户外之分,还包含年龄、性别、种族、配饰、眼镜遮挡等各种干扰因素。
[0058] 对比实验分为6组,其最终的分类器都采用SVM分类器,以输入SVM分类器的特征进行区分,6组实验的特征分别为:原始人脸图片作为输入特征,原始嘴唇图片作为输入特征,人脸图片提取LBP特征后作为输入,嘴唇图片提取LBP特征后作为输入,人脸LBP特征经过双层自编码器后得到的特征作为输入,嘴唇LBP特征经过双层自编码器后得到的特征作为输入。实验采用了笑脸和非笑脸图片各500张作为训练样本图像,2320张图片作为测试样本,其中笑脸和非笑脸各1160张。表1是本发明与对比识别方法的检测准确率统计。
[0059]检测准确率 唇部特征 脸部特征
原始图片 77.88% 71.42%
LBP特征 83.13% 76.24%
本文算法 92.68% 84.76%
[0060] 表1
[0061] 根据表1可知,唇部特征在笑容识别上有更好的表现,而融合了LBP特征和自编码器网络的笑脸识别算法相较于传统的只基于LBP特征的笑脸识别算法有更高的准确率。
[0062] 另外,为了验证本发明所提出的整体代价函数对非高斯噪声的抑制效果,在图像样本集的每幅图像上加入非高斯噪声,然后对改进前的传统整体代价函数和改进后的整体代价函数下的检测准确率进行统计。表2是整体代价函数改进前后的检测准确率统计。
[0063]检测准确率 改进前 改进后
未加高斯噪声 90.79% 92.68%
加高斯噪声后 82.58% 88.35%
[0064] 表2
[0065] 如表2所示,采用本发明对深度神经网络的整体代价函数进行改进后,加入高斯噪声后其错误率只增加了4.33%,小于未改进下增加的错误率8.21%,说明本发明改进的整体代价函数对于非高斯噪声具有良好的鲁棒性。
[0066] 尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈