首页 / 专利库 / 图形技术 / 亮度模式 / 一种抗年龄干扰的人脸识别方法

一种抗年龄干扰的人脸识别方法

阅读:1032发布:2020-06-25

专利汇可以提供一种抗年龄干扰的人脸识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种抗年龄干扰的 人脸识别 方法,采用端到端的非级联结构深度 卷积神经网络 对同一个人不同年龄阶段的图片进行特征提取及人脸识别,包括:通过跨年龄人脸 数据库 获得图片,形成训练集和测试集;采用增 大数据 集的方法对数据进行扩充形成训练图像;建立含有7个卷积层、3个最大值 池化 层、1个全连层和一个softmax层的端到端的非级联结构深度卷积神经网络并对其进行网络训练;通过 深度神经网络 来提取人脸深层次的抽象的特征的方式进行人脸识别;不仅能更好的兼具时间和性能两个优势,还对人脸 角 度、光照强度及遮挡程度有较好的适应性,有效克服了年龄变化对人脸识别带来的影响,提高了跨年龄人脸识别的 精度 。,下面是一种抗年龄干扰的人脸识别方法专利的具体信息内容。

1.一种抗年龄干扰的人脸识别方法,其特征在于:采用端到端的非级联结构深度卷积神经网络对同一个人不同年龄阶段的图片进行特征提取及人脸识别。
2.根据权利要求1所述的一种抗年龄干扰的人脸识别方法,其特征在于:所述人脸识别方法包括以下步骤:
1)数据准备:通过跨年龄人脸数据库获得图片,形成训练集和测试集;
2)采用增大数据集的方法对数据进行扩充形成训练图像;
3)建立含有7个卷积层、3个最大值池化层、1个全连层和一个softmax层的端到端的非级联结构深度卷积神经网络,并对端到端的非级联结构深度卷积神经网络进行网络训练;
4)通过深度神经网络来提取人脸深层次的抽象的特征的方式进行人脸识别。
3.根据权利要求2所述的一种抗年龄干扰的人脸识别方法,其特征在于:所述网络训练的具体步骤为:
3.1)将128×128×3大小的训练图像输入端到端的非级联结构深度卷积神经网络,经过三层卷积操作、归一化操作、非线性激活操作及池化层操作后得到64×64×64的特征矩阵;
3.2)将步骤3.1)所得的64×64×64的特征矩阵经过三层卷积操作、归一化操作、非线性激活操作及池化层操作后得到32×32×128的特征矩阵;
3.3)将步骤3.2)所得32×32×128的特征矩阵经过一层卷积操作、非线性激活操作、池化层操作得到16×16×256的特征矩阵;
3.4)将步骤3.3)所得的16×16×256的特征矩阵通过FC操作、softmax处理,输出N维的向量。
4.根据权利要求2或3所述的一种抗年龄干扰的人脸识别方法,其特征在于:所述端到端的非级联结构深度卷积神经网络在建立时使用SGD类型的算法来求解优化,设置的基础学习率为0.001,通过step的方式在迭代过程中对基础学习率进行调整;配置网络结构以及solver文件中的参数完成后,利用caffe.exe进行网络训练。
5.根据权利要求2或3所述的一种抗年龄干扰的人脸识别方法,其特征在于:所述步骤
4)包括以下具体步骤:
4.1)将两张测试集中的图片送入训练好的端到端的非级联结构深度卷积神经网络;
4.2)将训练好的端到端的非级联结构深度卷积神经网络的softmax层去掉,而后对步骤4.1)所送入的图片进行特征提取;
4.3)经步骤4.2)后提取得到的256维特征向量通过欧式距离计算;
4.4)将经过欧氏距离计算所得结果通过阈值比较后,判断两张图片是否为同一个人。
6.根据权利要求5所述的一种抗年龄干扰的人脸识别方法,其特征在于:在进行所述欧式距离计算时,先将256维特征向量进行归一化处理,映射到正太分布N(0,1)的区间,再用欧式距离公式 计算向量之间的距离。
7.根据权利要求6所述的一种抗年龄干扰的人脸识别方法,其特征在于:256维特征向量进行归一化处理,映射到正太分布N(0,1)的区间后的数据还被保存在本地磁盘。
8.根据权利要求2或3或6或7所述的一种抗年龄干扰的人脸识别方法,其特征在于:所述步骤1)包括以下具体步骤:
1.1)从CACD数据库中获取图片形成训练集,从MORPH数据库中获取图片形成测试集;
1.2)将训练集划分成不同的年龄组,并将CACD数据库中的每一个人作为一个类别,生成类别标签文件,记录在txt文件中;
1.3)经步骤1.2)后,对训练集中的多幅图片进行预处理,将图片按统一模式剪切出来,并缩放到统一大小128x128。
9.根据权利要求8所述的一种抗年龄干扰的人脸识别方法,其特征在于:所述年龄组以每5岁一个跨度。
10.根据权利要求2或3或6或7或9所述的一种抗年龄干扰的人脸识别方法,其特征在于:所述步骤2)包括以下步骤:
2.1)通过celebFaces增加新的数据,形成新的数据集之后,对它进行人脸提取、人脸矫正、图像尺寸固定;
2.2)经步骤2.1)后,对所有图片进行5次随机裁剪,随机裁剪完成后将所得图片的尺寸固定为128×128;
2.3)将步骤2.2)经过尺寸固定后的所有图片进行随机亮度调节或/和对比度调节,最终变成符合要求的训练图像。

说明书全文

一种抗年龄干扰的人脸识别方法

技术领域

[0001] 本发明涉及计算机视觉领域(Computer  Vision)和深度学习领域(Deep Learning),具体的说,是一种抗年龄干扰的人脸识别方法。

背景技术

[0002] 人脸识别系统以人脸识别技术为核心,是一项新兴的生物识别技术,是当今国际科技领域攻关的高精尖技术。它广泛采用区域特征分析方法,融合了计算机图像处理技术与生物统计学原理于一体,利用计算机图像处理技术从视频中提取人像特征点,利用生物统计学的原理进行分析建立数学模型,具有广阔的发展前景。2006年,美国已经要求和它有出入免签证协议的国家在10月26日之前必须使用结合了人脸识别的电子护照系统,到2006年底已经有50多个国家实现了这样的系统。2012年4月,路部宣布车站安检区域将安装用于身份识别的高科技安检系统人脸识别系统;可以对人脸明暗侦测,自动调整动态曝光补偿,人脸追踪侦测,自动调整影像放大。
[0003] 人脸,作为识别一个人最显著的区域,被广泛地应用于各种场合的身份识别。一般来说,人脸的识别方法包括四个步骤:图片采集及检测、图片预处理、图片特征提取、人脸匹配与验证。通常使用一些人工设定的特征描述字,例如LBP、SIFT和Gabor等,来表示人脸数据,利用余弦距离来度量一对图像的相似度,从而实现判断验证。
[0004] 但是随着年龄的增长,人的脸部会不可避免地产生变化(如图1所示)。在一些场合,只是一个人不同年龄段的照片,例如只有十几年前的照片,需要将备选人员的头像与已有的线索进行比对验证,以达到目的,这就要求进行跨年龄人脸验证。所谓跨年龄人脸验证,就是给定一些不同年龄段的图片,判定这些图片是否属于同一个人。如果人脸验证方法能够应对人脸随着年龄的增长而产生的变化,在档案管理系统、安全验证系统、公安系统的罪犯身份识别、行和海关的监控等领域,将具有广阔的应用前景。
[0005] 为了实现跨年龄验证,大多数传统的方法是对年龄进行建模,通过设计人脸成长模型来进行跨年龄的人脸验证。然而,这类方法往往需要依赖先验,比如说个体的实际年龄,而并不是所有数据集都能够提供年龄信息。
[0006] 深度学习方法模拟人脑的层次处理结构,以简洁的表达方式刻画数据丰富的内在信息,它是一种高度非线性的模型,具有超强的数据拟合能和学习能力,表达能力更强,更能刻画数据丰富的内在信息。深度网络可以无监督地从数据中学习到特征,这种方式学习到的特征也符合人类感知世界的机理,而且通过深度学习方法学习到的特征往往具有一定的语义特征。
[0007] 就人脸验证中最关键的步骤特征提取而言,目前主要存在两个问题:
[0008] 1、图片的单调性。目前已知的大量人脸数据集中,图片往往是比较单调的,而且目前大多数方法都是在单尺度上做的,这样提取的特征往往不够丰富,不足以表征人脸。
[0009] 2、另一个值得关注的问题就是特征的获取。传统的人脸验证采用的都是手工设计的特征,这种特征针对性比较高,但是一般都是低层特征,往往不包含语义信息,而且泛化能力不强。随着大数据时代的到来,数据量也越来越大,如何自动地获取特征成为一个值得研究的课题。

发明内容

[0010] 本发明的目的在于提供一种抗年龄干扰的人脸识别方法,不仅能更好的兼具时间和性能两个优势(时间更短/性能更强),还对人脸度、光照强度及遮挡程度有较好的适应性,还有效克服了年龄变化对人脸识别带来的影响,解决了现有技术对跨年龄人脸的识别能力较差的问题,提高了跨年龄人脸识别的精度
[0011] 本发明通过下述技术方案实现:一种抗年龄干扰的人脸识别方法,采用端到端的非级联结构深度卷积神经网络对同一个人不同年龄阶段的图片进行特征提取及人脸识别。
[0012] 进一步的为更好地实现本发明,特别采用下述设置方式:所述人脸识别方法包括以下步骤:
[0013] 1)数据准备:通过跨年龄人脸数据库获得图片,形成训练集和测试集;
[0014] 2)采用增大数据集的方法对数据进行扩充形成训练图像;
[0015] 3)建立含有7个卷积层、3个最大值池化层、1个全连层和一个softmax层的端到端的非级联结构深度卷积神经网络并对端到端的非级联结构深度卷积神经网络进行网络训练;
[0016] 4)通过深度神经网络来提取人脸深层次的抽象的特征的方式进行人脸识别。
[0017] 进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤1)包括以下具体步骤:
[0018] 1.1)从CACD数据库中获取图片形成训练集,从MORPH数据库中获取图片形成测试集;
[0019] 1.2)将训练集划分成不同的年龄组,并将CACD数据库中的每一个人作为一个类别,生成类别标签文件,记录在txt文件中;
[0020] 1.3)经步骤1.2)后,对训练集中的多幅图片进行预处理(人脸提取、人脸矫正、图像尺寸固定),将图片按统一模式剪切出来,并缩放到统一大小128x128。预处理的目的在于:由于原始图片是带有大面积背景的图片,为了减小干扰,将图片的主体-人脸从图片里面剪切出来。
[0021] 进一步的为更好地实现本发明,特别采用下述设置方式:所述年龄组以每5岁一个跨度。
[0022] 进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤2)包括以下步骤:
[0023] 2.1)通过celebFaces增加新的数据,形成新的数据集之后,对它进行人脸提取、人脸矫正、图像尺寸固定至128×128;新的数据集指为扩充训练集容量而将celebFaces添加到训练集后所形成的新的训练集;
[0024] 2.2)经步骤2.1)后,对所有图片进行5次随机裁剪,随机裁剪完成后将所得图片的尺寸固定为128×128;
[0025] 2.3)将步骤2.2)经过尺寸固定后的所有图片进行随机亮度调节或/和对比度调节,形成训练图像。
[0026] 进一步的为更好地实现本发明,特别采用下述设置方式:所述端到端的非级联结构深度卷积神经网络在建立时使用SGD类型的算法来求解优化,设置的基础学习率为0.001,通过step的方式在迭代过程中对基础学习率进行调整;配置网络结构以及solver文件中的参数完成后,利用caffe.exe进行网络训练。
[0027] 进一步的为更好地实现本发明,特别采用下述设置方式:所述网络训练的具体步骤为:
[0028] 3.1)将128×128×3大小的训练图像输入端到端的非级联结构深度卷积神经网络,经过三层卷积操作、归一化操作、非线性激活操作及池化层操作后得到64×64×64的特征矩阵;其中,128×128指的是训练图像的长度和宽度,后面的3代表了通道数,常见的图片都是RGB彩色三通道图;灰度图和黑白图只有一个通道,即width*height*1;
[0029] 3.2)将步骤3.1)所得的64×64×64的特征矩阵经过三层卷积操作、归一化操作、非线性激活操作及池化层操作后得到32×32×128的特征矩阵;
[0030] 3.3)将步骤3.2)所得32×32×128的特征矩阵经过一层卷积操作、非线性激活操作、池化层操作得到16×16×256的特征矩阵;
[0031] 3.4)将步骤3.3)所得的16×16×256的特征矩阵通过FC(Full Connected,即全连接层)操作、softmax处理,输出N维向量。
[0032] 进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤4)包括以下具体步骤:
[0033] 4.1)将两张测试集中的图片送入训练好的端到端的非级联结构深度卷积神经网络;
[0034] 4.2)将训练好的端到端的非级联结构深度卷积神经网络的softmax层去掉,而后对步骤4.1)所送入的图片进行特征提取;
[0035] 4.3)经步骤4.2)后提取得到的256维特征向量通过欧式距离计算;
[0036] 4.4)将经过欧氏距离计算所得结果通过阈值比较后,判断两张图片是否为同一个人。
[0037] 进一步的为更好地实现本发明,特别采用下述设置方式:在进行所述欧式距离计算时,先将256维特征向量进行归一化处理,映射到正太分布N(0,1)的区间,再用欧式距离公式 计算向量之间的距离。
[0038] 进一步的为更好地实现本发明,特别采用下述设置方式:256维特征向量进行归一化处理,映射到正太分布N(0,1)的区间后的数据还被保存在本地磁盘。
[0039] 本发明与现有技术相比,具有以下优点及有益效果:
[0040] (1)本发明采用端到端的非级联结构深度卷积神经网络,该端到端的非级联结构深度卷积神经网络只含有7个卷积层,3个最大值池化层,1个全连层,1个softmax层,具有构造简单、实现简单的优势。由于端到端的非级联结构深度卷积神经网络是全卷积网络,不含其它对输入尺寸有要求的层,使得输入可以是任意尺寸,可以是灰度可以是彩色。
[0041] (2)本发明为了提高识别精度,设计了256维度的特征向量来表示一张人脸,把一张128×128×3维度的人脸经过训练好的网络映射成256维度的向量,这个映射过程中有效的去除掉了大部分冗余且贡献率低的特征,有效提高了识别的精确到;增强了网络结构模型对外界环境变换的抗干扰性;通过实验测试表明256个特征能够有效的表示一张人脸的细节,使得不同人的人脸特征向量差异大,同一个人的人脸特征差异小。
[0042] (3)本发明使用了深度可分离卷积,这是一种能有效降低模型参数量的卷积方式。网络参数量大大的减少,进一步使得训练、测试过程中的计算量大大减少,存储所需空间也随之减少。
[0043] (4)本发明由于使用了256维度的特征,使得端到端的非级联结构深度卷积神经网络能够较好的应对生活中多种场景,光照变换、黑白照片、小面积遮挡、表情变化等。
[0044] (5)本发明使用了跨年龄人脸识别领域的两个标准数据库(MORPH,CACD),将CACD数据库用作训练,MORPH数据库用作测试。
[0045] (6)本发明还具备特征读取保存功能,一张人脸图片经过端到端的非级联结构深度卷积神经网络后,产生的256维特征向量会被保存到本地,下次用作比对时,就可以直接读取这个特征向量文件,而不是再一次使用网络提取特征,这样做大大降低了数据存储成本、模型计算成本;加速了人脸的1:1比对和1:N比对。附图说明
[0046] 图1为FGNET数据库中同一个人不同年龄的图片。
[0047] 图2为本发明的工作流程图
[0048] 图3为CACD数据库预处理后图片。
[0049] 图4为本发明所述的网络结构模型的模型结构示意图。
[0050] 图5为测试人员A不同年龄阶段,提取到的256维人脸特征向量。
[0051] 图6为被测试人员及其人脸特征向量图。

具体实施方式

[0052] 下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
[0053] 为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0054] 在本文中所述的尺寸都是以像素为单位。
[0055] 实施例1:
[0056] 本发明设计出一种抗年龄干扰的人脸识别方法,不仅能更好的兼具时间和性能两个优势(时间更短/性能更强),还对人脸角度、光照强度及遮挡程度有较好的适应性,还有效克服了年龄变化对人脸识别带来的影响,解决了现有技术对跨年龄人脸的识别能力较差的问题,提高了跨年龄人脸识别的精度,特别采用下述设置方式:采用端到端的非级联结构深度卷积神经网络对同一个人不同年龄阶段的图片进行特征提取及人脸识别。
[0057] 实施例2:
[0058] 本实施例是在上述实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:所述人脸识别方法包括以下步骤:
[0059] 1)数据准备:通过跨年龄人脸数据库获得图片,形成训练集和测试集;
[0060] 在使用时,通用跨年龄人脸数据库获取图片,由于跨年龄人脸数据库中包括按照人脸的身份特征和年龄特征分类的多个图片组。在跨年龄人脸数据库中已经按照人脸的身份特征和年龄特征分类了多个图片组。其中,图片的身份特征是图片所代表人脸的图像特征,不同的人脸具有标记成不同的身份类标,根据人脸的身份统计信息对身份特征进行分组,年龄则根据人脸所在不同的阶段,如婴儿、少年、青年、中年、老年等,因此根据人脸的年龄统计信息对年龄特征进行分组。优选的采用的跨年龄人脸数据库中为真实跨年龄的图片样本,采用跨年龄人脸数据库作为训练样本相比于采用手工设计特征更为灵活。本发明中使用的跨年龄人脸数据库主要有MORPH数据库和CACD数据库。MORPH数据库学术版有55134张图片,13618个人,平均每个人只有四张图片,每个人的年龄跨度相对较小,且包含较大的姿态、表情干扰;CACD数据库数据量最大,2000个人,163446张图片,平均每个人有82张图片,同类样本的年龄跨度相对较小。
[0061] 两个数据库(MORPH数据库和CACD数据库),在技术实施时,优选的将CACD数据库用作训练(构建训练集),MORPH数据库用作测试(构建测试集)。所有训练集划分成不同的年龄组,每5岁的年龄跨度作为一个年龄组,同时将数据库(MORPH数据库和CACD数据库)中的每一个人作为一个类别,生成类别标签文件,记录在txt文件中。随即对训练集中的多幅图片进行预处理(人脸提取、人脸矫正、图像尺寸固定),将图片按统一模式剪切出来,并缩放到统一大小128x128。若图片不够理想,例如人脸关键点没有对齐,或者图片的大小不统一,还需要执行预处理。处理后的人脸效果图如图3所示。
[0062] 2)采用增大数据集的方法对数据进行扩充形成训练图像;
[0063] 3)建立含有7个卷积层、3个最大值池化层、1个全连层和一个softmax层的端到端的非级联结构深度卷积神经网络并对端到端的非级联结构深度卷积神经网络进行网络训练;
[0064] 4)通过深度神经网络来提取人脸深层次的抽象的特征的方式进行人脸识别。
[0065] 实施例3:
[0066] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤1)包括以下具体步骤:
[0067] 1.1)从CACD数据库中获取图片形成训练集,从MORPH数据库中获取图片形成测试集;
[0068] 1.2)将训练集划分成不同的年龄组,并将CACD数据库中的每一个人作为一个类别,生成类别标签文件,记录在txt文件中;
[0069] 1.3)经步骤1.2)后,对训练集中的多幅图片进行预处理(人脸提取、人脸矫正、图像尺寸固定),将图片按统一模式剪切出来,并缩放到统一大小128x128;若图片不够理想,例如人脸关键点没有对齐,或者图片的大小不统一,还需要执行预处理。
[0070] 实施例4:
[0071] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:所述年龄组以每5岁一个年龄跨度,在对训练集进行进行年龄组的划分时,采用每5年为一个年龄跨度。
[0072] 实施例5:
[0073] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤2)包括以下步骤:
[0074] 2.1)通过celebFaces增加新的数据,形成新的数据集之后,对它进行人脸提取、人脸矫正、图像尺寸固定至128×128;新的数据集指为扩充训练集容量而将celebFaces添加到训练集后所形成的新的训练集;
[0075] 2.2)对所有预处理后(人脸提取、人脸矫正、图像尺寸固定)的图片进行5次随机裁剪,随机裁剪完成后将所得图片的尺寸固定为128×128;优选的对所有预处理后的照片以96×96的尺寸进行5次随机裁剪,依次是左上、右上、左下、右下、中心,裁剪完成后,再次固定到128×128尺寸。
[0076] 2.3)将步骤2.2)经过尺寸固定后的所有图片进行随机亮度调节或/和对比度调节,形成训练图像。
[0077] 实施例6:
[0078] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:所述端到端的非级联结构深度卷积神经网络在建立时使用SGD类型的算法来求解优化,设置的基础学习率为0.001,通过step的方式在迭代过程中对基础学习率进行调整;配置网络结构以及solver文件中的参数完成后,利用caffe.exe进行网络训练,端到端的非级联结构深度卷积神经网络的结构图如图4所示。
[0079] 实施例7:
[0080] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:所述网络训练的具体步骤为:
[0081] 3.1)将128×128×3大小的训练图像输入端到端的非级联结构深度卷积神经网络,经过三层卷积操作、归一化操作、非线性激活操作及池化层操作后得到64×64×64的特征矩阵;其中,128×128指的是训练图像的长度和宽度,后面的3代表了通道数,常见的图片都是RGB彩色三通道图;灰度图和黑白图只有一个通道,即width*height*1;
[0082] 作为优选的设置方案,步骤3.1)的具体步骤为:将128×128×3大小的图片输入网络,首先经过三层卷积(分别为conv1_1,conv1_2,conv1_3,他们合称为conv1)。conv1_1卷积层安置了64个大小为3×3的卷积核,以及固定填充padding为1;conv1_3卷积层和conv1_1的设置相同;conv1_2卷积层安置了32个大小为1×1的卷积核,以及固定填充padding为0,通过这三层得到大小为128×128×64的特征;然后经过归一化操作(batch 
normalization)和非线性激活(relu)后输入到池化层max pool1,max pool1具有2×2×64的卷积核,步长为2,得到64×64×64的特征矩阵。
[0083] 3.2)将步骤3.1)所得的64×64×64的特征矩阵经过三层卷积操作、归一化操作、非线性激活操作及池化层操作后得到32×32×128的特征矩阵;
[0084] 作为优选的设置方案,步骤3.2)的具体步骤为:将步骤3.1)所得的64×64×64的特征矩阵经过三层卷积(分别为conv2_1,conv2_2,conv2_3,他们合称为conv2)。conv2_1卷积层安置了128个大小为3×3的卷积核,以及固定填充padding为1;conv2_3卷积层和conv2_1的设置相同;conv2_2卷积层安置了64个大小为1×1的卷积核,以及固定填充padding为0,通过这三层得到大小为64×64×128的特征。然后经过归一化操作(batch normalization)和非线性激活(relu)后输入到池化层max pool2,max pool2具有2×2×128的卷积核,步长为2,得到32×32×128的特征矩阵。
[0085] 3.3)将步骤3.2)所得32×32×128的特征矩阵经过一层卷积操作、非线性激活操作、池化层操作得到16×16×256的特征矩阵;
[0086] 作为优选的设置方案,步骤3.3)的具体步骤为:将步骤3.2)所得32×32×128的特征矩阵输入到具有256个3×3卷积核的卷积层conv3,得到32×32×256的特征矩阵;
[0087] 3.4)将步骤3.3)所得的16×16×256的特征矩阵通过FC(Full Connected,即全连接层)操作、softmax处理,输出N维向量,该参数N取决于训练集中不同的人的数量(即训练集中的人脸类别数)。
[0088] 即将步骤3.3)所得的16×16×256的特征矩阵使用一个FC,得到1x1x256的特征矩阵;最后到达softmax,输出个数设置为人脸数据库内总共的人脸类别数。
[0089] 实施例8:
[0090] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤4)包括以下具体步骤:
[0091] 4.1)将两张人脸(测试集中的图片)送入训练好的端到端的非级联结构深度卷积神经网络;
[0092] 4.2)将训练好的端到端的非级联结构深度卷积神经网络的softmax层去掉,而后对步骤4.1)所送入的图片进行特征提取;
[0093] 4.3)经步骤4.2)后提取得到的256维特征向量通过欧式距离计算;
[0094] 4.4)将经过欧氏距离计算所得结果通过阈值比较后,判断两张图片是否为同一个人。
[0095] 实施例9:
[0096] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:在进行所述欧式距离计算时,先将256维特征向量进行归一化处理,映射到正太分布N(0,1)的区间,再用欧式距离公式 计算向量之间的距离。
[0097] 实施例10:
[0098] 本实施例是在上述任一实施例的基础上进一步优化,进一步的为更好地实现本发明,特别采用下述设置方式:256维特征向量进行归一化处理,映射到正太分布N(0,1)的区间后的数据还被保存在本地磁盘。
[0099] 实施例11:
[0100] 跨年龄人脸识别是人脸识别领域中的一个极具挑战性的国际性难题。众所周知,同一个人的不同年龄阶段的图片会有非常大的差异,这些差异会严重影响到跨年龄人脸识别的精度。迄今为止,深度学习已经被广泛运用到人脸识别,并且取得了非常好的性能。但是,对于跨年龄人脸识别问题,由于同一个人在不同年龄阶段下的多张人脸之间存在着非常显著的差异,这严重影响到现有的深度人脸识别模型的性能。根据学习得到的特征来进行识别是最近兴起的一个研究方向。通过现有的人脸数据库对深度卷积网络进行训练,进而得到学习的图片特征比手动设计特征要更为灵活。
[0101] 为了克服这个巨大的年龄差异,本发明提出了一种抗年龄干扰的人脸识别方法,该方法使用了一种端到端的非级联结构的神经网络对同一个人不同年龄阶段的图片进行特征提取,进而识别,不仅能更好的兼具时间和性能两个优势(时间更短/性能更强),还对人脸角度、光照强度及遮挡程度有较好的适应性,还有效克服了年龄变化对人脸识别带来的影响,解决了现有技术对跨年龄人脸的识别能力较差的问题,提高了跨年龄人脸识别的精度。图2展示了整个发明的工作流程。其包括以下具体步骤:
[0102] 1、数据准备
[0103] 原始图片(A/B)步骤:获取通用跨年龄人脸数据库获取图片,由于跨年龄人脸数据库中包括按照人脸的身份特征和年龄特征分类的多个图片组。在跨年龄人脸数据库中已经按照人脸的身份特征和年龄特征分类了多个图片组。其中,图片的身份特征是图片所代表人脸的图像特征,不同的人脸具有标记成不同的身份类标,根据人脸的身份统计信息对身份特征进行分组,年龄则根据人脸所在不同的阶段,如婴儿、少年、青年、中年、老年等,因此根据人脸的年龄统计信息对年龄特征进行分组。优选的采用的跨年龄人脸数据库中为真实跨年龄的图片样本,采用跨年龄人脸数据库作为训练样本相比于采用手工设计特征更为灵活。本发明中使用的跨年龄人脸数据库主要有MORPH数据库和CACD数据库。MORPH数据库学术版有55134张图片,13618个人,平均每个人只有四张图片,每个人的年龄跨度相对较小,且包含较大的姿态、表情干扰;CACD数据库数据量最大,2000个人,163446张图片,平均每个人有82张图片,同类样本的年龄跨度相对较小。
[0104] 两个数据库(MORPH数据库和CACD数据库),在技术实施时,优选的将CACD数据库用作训练(构建训练集),MORPH数据库用作测试(构建测试集)。所有训练集划分成不同的年龄组,每5岁的年龄跨度作为一个年龄组,同时将数据库(MORPH数据库和CACD数据库)中的每一个人作为一个类别,生成类别标签文件,记录在txt文件中。图像矫正对齐/图像RESIZE步骤:随即对训练集中的多幅图片进行预处理(人脸提取、人脸矫正、图像尺寸固定),将图片按统一模式剪切出来,并缩放到统一大小128x128。若图片不够理想,例如人脸关键点没有对齐,或者图片的大小不统一,还需要执行预处理。处理后的人脸效果图如图3所示。
[0105] 2、数据扩充
[0106] 为了得到更好的效果,本发明进一步采用增大数据集的方法,一是增加新的数据,celebFaces(87628张图片,5436个人),增加数据集之后,对其进行人脸提取、人脸矫正、图像尺寸固定等步骤;二是对所有预处理后的照片再次进行一系列操作:随机裁剪,将128x128的图片以96x96的尺寸进行5次随机裁剪,依次是左上、右上、左下、右下、中心,裁剪完成后,再次固定到128x128尺寸。
[0107] 最后对所有128x128的训练图像进行随机亮度调节,对比度调节。
[0108] 3、模型建立
[0109] 在本发明使用的端到端的非级联结构深度卷积神经网络中,一共包含了7个卷积层,3个最大值池化层,1个全连层,1个softmax层,网络构造简单,实现简单。在本发明实施例中设置了使用SGD类型的算法来求解优化。其次设置了基础学习率为0.001,然后通过step的方式,在迭代过程中,对基础学习率进行调整。配置网络结构以及solver文件中的参数完成后,利用caffe.exe进行网络训练。网络结构模型的具体结构如图4所示。
[0110] 将128×128×3大小的图片输入端到端的非级联结构深度卷积神经网络,首先经过三层卷积,分别为conv1_1,conv1_2,conv1_3,他们合称为conv1。conv1_1卷积层安置了64个大小为3×3的卷积核,以及固定填充padding为1;conv1_3卷积层和conv1_1的设置相同;conv1_2卷积层安置了32个大小为1×1的卷积核,以及固定填充padding为0,通过这三层得到大小为128×128×64的特征。经过归一化操作(batch normalization)和非线性激活(relu)后输入到池化层max pool1,max pool1具有2×2×64的卷积核,步长为2,得到64×64×64的特征矩阵。
[0111] 再经过三层卷积,分别为conv2_1,conv2_2,conv2_3,他们合称为conv2。Conv2_1卷积层安置了128个大小为3×3的卷积核,以及固定填充padding为1;conv2_3卷积层和conv2_1的设置相同;conv2_2卷积层安置了64个大小为1×1的卷积核,以及固定填充padding为0,通过这三层得到大小为64×64×128的特征。经过归一化操作(batch normalization)和非线性激活(relu)后输入到池化层max pool2,pool2具有2×2×128的卷积核,步长为2,得到32×32×128的特征矩阵。
[0112] 接着输入到具有256个3×3卷积核的卷积层conv3,得到32×32×256的特征矩阵。同样经过relu3、max pool3,得到大小为16×16×256的特征矩阵。然后使用一个FC,得到
1x1x256的特征矩阵。最后到达softmax,输出个数设置为人脸数据库内总共的人脸类别数。
[0113] 4、人脸识别
[0114] 在经过人脸检测、人脸对齐之后,我们要开始判断两张人脸究竟是否是同一张脸。本发明采用的方法简要来说,就是通过深度神经网络来提取人脸深层次的抽象的特征,这种特征抽象到可以区别出两张不同的人脸,在提取出特征后,再用分类器进行分类。
[0115] 将两张人脸送入训练好的网络结构模型,去掉网络最后一层softmax,进行特征提取,用提取到的256维向量结合欧式距离计算公式(在进行两张脸是否是同一个人的概率判断时,该结果的数值范围是0~1之间,0代表了完全就是一个人,1代表了一定不是一个人。如果越相似,那么得到的特征向量就越接近,那么特征向量之间的距离就越小,就越靠近
0),设定(相似度)阈值(优选的设定阈值为0.22,小于0.22就判定为同一个人),判定2张人脸是否为同一个人。欧式距离源自N维欧氏空间中向量x1,x2的距离公式:
[0116]
[0117] 为了保证数据数值数量级一致,我们使用标准化欧式距离,即将向量先进行归一化,映射到正太分布N(0,1)的区间,再用距离公式计算向量之间的距离。
[0118] 具体的,把一张128x128x3维度的人脸图片经过训练好的端到端的非级联结构深度卷积神经网络映射成256维度的向量,这个映射过程中有效的去除掉了大部分冗余且贡献率低的特征,有效提高了识别的精确到;增强了端到端的非级联结构深度卷积神经网络对外界环境变换的抗干扰性;降低了数据存储成本、端到端的非级联结构深度卷积神经网络计算成本;加速了人脸的1:1比对和1:N比对。如图5所示,我们将一个人不同年龄阶段的256维度的特征向量调整到16x16,然后显示出来,分别对应了小学,初中,高中,大学,研究生五个阶段。图6是另外两个人的人脸特征向量。我们可以看到,同一个人,不同年龄阶段的特征向量很相似,但是不同人之间的特征向量差异很大。
[0119] 5、结果保存
[0120] 本发明还提供了特征保存加载功能,一张人脸图片经过训练好的端到端的非级联结构深度卷积神经网络后,产生的256维特征向量经过标准正态化后会被保存到本地,下次用作比对时,就可以直接读取这个特征向量文件,而不是再一次使用图片送入网络提取特征,这样做大大降低了数据存储成本、模型计算成本;加速了后续工作的进行。
[0121] 本发明对训练集做了增强,利用了多种不同类型的数据增强手段来构造高质量数据,其中包括亮度变换、对比度变换、模糊操作、噪声添加等(这些操作都是图片上的像素级操作。通过改变图片的像素的数值大小,来达到亮度变换、对比度变换、模糊操作、噪声添加的目的。做这些操作的目的,都是为了让网络模型结构增强稳定性,让其具有更好的适应能力。日常生活中,我们监控探头所处的环境都是复杂多变的,导致我们从监控探头中获取的图片也是复杂的。),通过这些数据增强方式,手动增加了训练集复杂度,有效地提高了模型对真实场景的适应能力和稳定性。
[0122] 以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈