首页 / 专利库 / 人工智能 / 人工神经网络 / 前馈神经网络 / 多层感知器 / 隐藏层 / 一种端到端的高分辨率多特征提取的人脸交换方法

一种端到端的高分辨率多特征提取的人脸交换方法

阅读:606发布:2020-05-08

专利汇可以提供一种端到端的高分辨率多特征提取的人脸交换方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种端到端的高 分辨率 多特征提取的人脸交换方法。其步骤为:1)对输入视频进行解 帧 ,图像人脸对齐并提取面部特征点;2)构建网络模型;3)训练网络和更新参数;4)对生成人脸进行融合替换。本发明具有以下优点:使用了一种端到端的高分辨率多特征提取的人脸交换方法,能够生成目标神态表情;采用自 编码器 模型和残差结构对人脸的特征进行学习,可以提升人脸的细节;采用多特征的 卷积神经网络 的方法,能够捕捉到人脸的的更多特征,构造的神经网络模型中使用LeakyReLU激活函数提升网络性能;对于产生的结果,使用泊松融合 颜色 转换等方法使效果更加自然。,下面是一种端到端的高分辨率多特征提取的人脸交换方法专利的具体信息内容。

1.一种端到端的高分辨率多特征提取的人脸交换方法,其特征在于,包括以下步骤:
1)对输入视频进行解,标定人脸特征点,得到人脸的面部范围;选择人脸关键点,根据人脸关键点的坐标值进行人脸对齐操作;
2)构建深度神经网络,包括一个编码器和两个解码器;所述编码器包括多个特征提取器,并将多个特征提取器的输出叠加;两个解码器均包括交替连接的多个上采样层和残差
3)采集目标人脸样本和素材人脸样本作为训练样本,对深度神经网络进行训练,采用反向传递算法对深度神经网络中的权重进行更新,得到训练好的编码器和两个解码器;将两个解码器的位置对调,得到人脸交换的深度神经网络模型;
4)将待交换的目标人脸和素材人脸的图片序列输入到人脸交换的深度神经网络模型中,生成目标人脸的替换人脸,对生成的替换人脸进行融合以及颜色转换,得到换脸之后的结果。
2.根据权利要求1所述的一种端到端的高分辨率多特征提取的人脸交换方法,其特征在于,所述的步骤1)具体为:
1.1)人脸检测
从输入视频中拆解出包含人脸的目标图像帧,得到目标图像和候选框,并采用边框回归的方法校正候选框;对候选框中的人脸上的特征点进行标定,得到多个人脸特征点坐标;
对人脸特征点采用级联回归, 其中t表示级联序号,rt(·,·)表示当
前级的回归器,I为输入图像, 为上一级回归器更新之后的特征形状;对于一张目标图像中的人脸,一共标定68个特征点;
1.2)人脸对齐:
选择鼻子、左眼右眼以及嘴唇部分的基准特征点为人脸关键点,根据人脸关键点坐标值将步骤1.1)标定后的人脸通过仿射变换进行人脸对齐,并截取仅包含人脸的图像区域,人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标。
3.根据权利要求1所述的一种端到端的高分辨率多特征提取的人脸交换方法,其特征在于,所述的步骤2)具体为:
构建深度神经网络,包括输入层隐藏层输出层;所述隐藏层由一个编码器和两个相同的解码器组成;所述编码器由4个特征提取器、全连接层和上采样层组成,每一个特征提取器由r个下采样层组成,将经步骤1)预处理后的图像通过输入层同时输入到4个特征提取器中,每一个特征提取器输出一个特征向量,将4个特征向量在通道上做叠加,输入到全连接层中,再经上采样层后输出隐空间变量;所述解码器包括多个上采样层和残差块,每一个上采样层之后连接一个残差块,最后一个残差块连接一个卷积层,两个解码器的输入为编码器的输出;
所述深度神经网络采用LeakyReLU激活函数,公式如下:
f(x)表示输入的LeakyReLU函数,x表示输入值,a为(0,1)区间内的固定参数。
4.根据权利要求1所述的一种端到端的高分辨率多特征提取的人脸交换方法,其特征在于,所述的步骤3)具体为:
搜集拍摄的视频,用ffmeng将视频分解为人脸图像作为训练样本,包括目标人脸样本和素材人脸样本,通过步骤1)对训练样本进行预处理;
将步骤2)建立的深度神经网络采用MSRA权重初始化,该初始化是均值为0,方差为2/n的高斯分布;将预处理后的目标人脸样本和素材人脸样本作为训练样本同时输入到深度学习网络中进行训练,采用反向传递算法对深度神经网络中的权重进行更新,得到训练好的编码器参数和解码器参数并将参数固定;将两个解码器互换,得到人脸交换的深度神经网络模型;
所述训练的过程采用像素损失函数和结构相似性损失函数,所述像素损失函数表达式为:
其中,x代表生成的图像,y代表原始图像,对每一个像素进行取L1距离作为像素损失;
所述结构相似性损失函数表达式为:
SSIM(X,Y)=L(X,Y)×C(X,Y)×S(X,Y)
其中,L(X,Y)为亮度对比因子,C(X,Y)为对比度因子,S(X,Y)为结构对比因子。
5.根据权利要求4所述的一种端到端的高分辨率多特征提取的人脸交换方法,其特征在于,所述的步骤4)为:
4.1)将目标人脸和素材人脸的图片序列输入到人脸交换的深度神经网络模型中,生成替换人脸,经仿射变换矩阵重新进行人脸对齐操作;
4.2)根据目标人脸的面部范围,对对齐后的人脸进行泊松融合,公式如下:
4.3)对融合之后图像进行颜色转换,将源图像转换lαβ色彩空间,对图像的每个像素减去所有像素的均值,得到的新的像素值与参考空间上的像素值的标准差做乘积,得到的新像素加上参考空间像素值的均值,最终得到换脸之后的结果。

说明书全文

一种端到端的高分辨率多特征提取的人脸交换方法

技术领域

[0001] 本发明涉及人脸交换和深度学习领域,尤其涉及一种端到端的高分辨率多特征提取的人脸交换方法。

背景技术

[0002] 人脸交换技术一直是研究人脸相关技术领域的一大热点。换脸主要应用在娱乐相关或数据生成等领域,其目的为将人脸从源图像转换到目标图像,它可以无缝地替换目标图像中出现的人脸,并产生真实的结果。但是在实际的使用中,目前的方法达到的精度和真实感,并不能满足人们对于人脸交换的预期结果。
[0003] 人脸交换方法主要分为传统方法和目前的基于深度学习的方法。传统的方法主要是依赖底层的三维人脸特征进行转移和控制面部外观。并且根据输入的图像来估计脸型,将生成的三维人脸特征和输入的图片进行拟合对齐。这种方法需要过程繁琐,需要花费大量的时间,并且生成的效果差。
[0004] 基于深度学习的方法主要有基于自编码器模型的方法和基于对抗神经网络的方法。对抗神经网络是一种无监督表示学习,主要用于生成自然场景图片。2014年Mehdi Mirza等人提出的CGAN,在训练集中加入监督信息,能够生成更加逼真图像。2018年Ryota Natsume提出分离人脸的特征到隐空间变量,这些方法将人脸的身份成分从剩余的特征中分解出来,将身份编码为潜在特征向量的表现形式,但是这种方法会导致显著的信息丢失,限制了人脸的识别能。基于生成对抗网络的方法需要大量的人脸数据去拟合神经网络,获取大量的人脸数据集非常困难,并且在训练的过程中容易过拟合。
[0005] 基于自编码器(Autoencoder,AE)的方法,是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在空间表征,然后通过这种表征来重构输出。自编码器在其研究早期是为解决表征学习中的“编码器问题(encoder problem)”,即基于神经网络的降维问题而提出的联结主义模型的学习算法。1985年,David H.Ackley、Geoffrey E.Hinton和Terrence J.Sejnowski在玻尔兹曼机上对自编码器算法进行了首次尝试,并通过模型权重对其表征学习能力进行了讨论。自编码器包含编码器(encoder)和解码器(decoder)两部分。按学习范式,自编码器可以被分为收缩自编码器(undercomplete autoencoder)、正则自编码器(regularized autoencoder)和变分自编码器(Variational AutoEncoder,VAE),其中前两者是判别模型、后者是生成模型。在2018年,网络上出现了Deepfake应用,用于人脸的替换,能够生成以假乱真的图片。但是生成图像的清晰度不足,对于大度的人脸生成效果差。以上提到的方法在实际使用中具有一定的复杂性。

发明内容

[0006] 本发明的目的在于克服生成人脸分辨率低的缺点,提供一种端到端的高分辨率多特征提取的人脸交换方法,其需要的数据集少,并且使用多种技术,实现高分辨率逼真的人脸交换结果。
[0007] 端到端的高分辨率多特征提取的人脸交换方法包括以下步骤:
[0008] 1、对输入视频进行解,标定人脸特征点,得到人脸的面部范围;选择人脸关键点,根据人脸关键点的坐标值进行人脸对齐操作;
[0009] 2、构建深度神经网络,包括一个编码器和两个解码器;所述编码器包括多个特征提取器,并将多个特征提取器的输出叠加;两个解码器均包括交替连接的多个上采样层和残差
[0010] 3、采集目标人脸样本和素材人脸样本作为训练样本,对深度神经网络进行训练,采用反向传递算法对深度神经网络中的权重进行更新,得到训练好的编码器和两个解码器;将两个解码器的位置对调,得到人脸交换的深度神经网络模型;
[0011] 4、将待交换的目标人脸和素材人脸的图片序列输入到人脸交换的深度神经网络模型中,生成目标人脸的替换人脸,对生成的替换人脸进行融合以及颜色转换,得到换脸之后的结果。
[0012] 本发明具备的有益效果是:
[0013] (1)使用了一种端到端的高分辨率多特征提取的人脸交换方法,能够生成目标神态表情;
[0014] (2)采用多层次特征提取的自编码器模型和残差结构对人脸的特征进行学习,获得更多的人脸特征,产生的结果表现出更多的人脸细节;
[0015] (3)采用多特征的卷积神经网络的方法,能够捕捉到人脸的的更多特征,构造的神经网络模型中使用LeakyReLU激活函数提升网络性能;对于产生的结果,使用泊松融合颜色转换等方法使效果更加自然。附图说明
[0016] 图1为本发明的步骤展示;
[0017] 图2为本发明人脸对齐结果图;
[0018] 图3为本发明的人脸标定图;
[0019] 图4为本发明换脸效果图,(a)素材(b)目标(c)结果;
[0020] 图5为本发明眼部细节以及边缘融合处放大图;
[0021] 图6为本发明的编码器结构示意图;
[0022] 图7为本发明的解码器结构示意图。

具体实施方式

[0023] 一种端到端的高分辨率多特征提取的人脸交换方法,其具体实施过程如下:
[0024] 步骤一、对输入视频进行解帧,图像人脸对齐并提取面部特征点:
[0025] 1.1)检测人脸bounding box并提取标定点
[0026] 第一步是从输入视频中拆解出包含人脸的目标图像帧,从图像数据中寻找图像中的人脸位置,并且将人脸上的特征点进行标注。对图像进行多个角度旋转,对不同角度的图像进行提取人脸存在范围。获取四个标定点进行边界框的回归。对于人脸特征点采用级联回归, 其中t表示级联序号,rt(·,·)表示当前级的回归器regressor。I为输入图像, 为上一级回归器更新之后的shape。对于每一张人脸,围绕眼睛等五官一共标定68个特征点。
[0027] 1.2)人脸对齐
[0028] 在获取到标定的人脸之后,需要对比对齐的人脸模型,通过仿射变换进行人脸对齐。选择编号10-37,43-47的关键点(即鼻子,左眼右眼以及嘴唇部分的基准关键点)计算两个点集之间的相似变换矩阵,获取当前人脸图像获取当前人脸图像相对于基准人脸间的旋转角度、缩放系数及应该获取的人脸区域的rect坐标。仿射变换的公式如下所示:
[0029]
[0030] 其中T为仿射矩阵,x和y分别为变换前的人脸关键点的坐标值,x′和y′分别为对齐后的坐标值。在获得基准点和对应的面部点坐标之后,如下所示,仿射矩阵为线性变化,易计算得上文所提仿射矩阵T。根据仿射矩阵,可将面部进行对齐。
[0031]
[0032] 其中(x1,y1)(x2,y2)(x3,y3)分别为三个基准点的坐标值,(x10,y10)(x20,y20)(x30,y30)分别为与基准点对应的待变换的对应特征点的坐标值。
[0033] 步骤二、构建深度神经网络模型:
[0034] 2.1)构建网络层;
[0035] 所述深度神经网络的网络层包括输入层隐藏层输出层;输入层为图像的输入,隐藏层深度设为35层由神经元相互连接构成网络层,节点之间相互联接构成网络层,节点即神经元,神经元分成不同的层次,每个神经元与相邻层的其它神经元相连;每一层神经元都有输入(它的输入为前一层神经元输出)和输出;
[0036] 2.2)构建隐藏层;
[0037] 隐藏层结构参考自编码器结构由编码器和解码器组成,编码器通过卷积神经网络,将输入图像卷积之后,宽和高不断的减少,通道数不断增加,最后将人脸卷积到一个大小为32×32×1024的隐空间变量。解码器将隐空间变量转换为人脸的图像。
[0038] 如图6所示,所述编码器由4个特征提取器、全连接层和上采样层组成组成;每一个特征提取器由4个下采样块组成。不同卷积核对于图像的感受野不同,因此能够捕捉到不同大小的特征,为高分辨率的结果提供面部细节。本发明中设置3种不同尺寸大小的卷积滤波器,分别为3×3,5×5,7×7,对于5×5的卷积滤波器,采用步长为2的空洞卷积。对于单个特征提取器,每一步操作会将特征图的宽高缩小一倍,通道数量变为原来的4倍。一张图片经过一个特征提取器后最终输出大小为32×32×1024。将得到的4个特征向量进行信息串联后得到多特征向量,将多特征向量输入到全连接层中。全连接层可以看作是非线性变化,打乱特征的线性变化,使网络能更好的拟合目标。上采样层由3层网络组成,能够将特征图的宽高扩大一倍,通道数缩小4倍。
[0039] 如图7所示,所述解码器由残差块和反卷积网络组成,残差块可以用公式xl+1=xl+F(xl,Wl)近似表示,残差块分为两部分,直接映射部分和残差部分,公式中的xl表示输入,而公式后一部分表示残差部分,由两个卷积操作构成。每一个上采样层都经过一个残差层,在解码器中,一共由3层上采样层和残差块组成,每一个上采样层之后跟着一个残差块,最后一个残差块连接一个卷积层,两个解码器的输入为编码器的输出。在本发明中,所有的隐藏层均使用LeakyReLU作为激活函数处理。
[0040] LeakyReLU激活函数公式如下:
[0041]
[0042] f(x)表示输入的LeakyReLU函数,x表示输入值,在激活函数中,参数a选择了0.1,保证反向传递时梯度不会消失。
[0043] 步骤三、训练深度神经网络网络,反向传递更新参数:
[0044] 3.1)训练网络和更新参数:网络模型采用的训练集为拍摄的视频,用ffmeng将视频分解为图像之后由步骤1.3可以得到对齐之后的人脸用于训练,其中训练的数据建议在1000张以上,素材和目标都是如此。经过对齐之后人脸图像的每一张分辨率大小为(256,
256,3)。得到训练样本之后,需要训练一个编码器两个解码器,两个解码器分别对应两个个体,在训练完成时,得到训练好的编码器参数和解码器参数并将参数固定;将两个解码器互换,得到人脸交换的深度神经网络模型。
[0045] 3.2)反向传播更新参数;
[0046] 网络模型的中的权重初始化采用MSRA权重初始化,该初始化是均值为0,方差为2/n的高斯分布。该网络对人脸的特征的特征进行学习,在解码器阶段将编码器中隐变量重新生成为人脸。模型中采用反向传递算法(BP)对网络中的权重进行更新。不断的迭代完成训练。
[0047] 3.3)定义损失函数;
[0048] 在训练的过程采用像素损失函数和结构相似性损失函数,所述像素损失函数表达式为:
[0049]
[0050] 其中,x代表生成的图像,y代表原始图像,对每一个像素进行取L1距离作为像素损失;
[0051] 所述结构相似性损失函数表达式为:
[0052] SSIM(X,Y)=L(X,Y)×C(X,Y)×S(X,Y)
[0053] 其中,L(X,Y)为亮度对比因子,C(X,Y)为对比度因子,S(X,Y)为结构对比因子。
[0054] 步骤四、对生成的人脸进行融合以及颜色转换:
[0055] 4.1)将目标人脸和素材人脸的图片序列输入到训练好的人脸交换的深度神经网络模型中,生成替换人脸,经仿射变换矩阵重新进行人脸对齐操作,调整到正确位置。
[0056] 4.2)根据目标人脸的面部范围,对对齐后的人脸进行泊松融合,消除面部贴合之间的不真实感,泊松融合需要求解:
[0057]
[0058] 使得素材和目标之间融合的提梯度最为接近。
[0059] 4.3)对融合之后图像进行颜色转换,将源图像转换lαβ色彩空间,对图像的每个像素减去所有像素的均值,得到的新的像素值与参考空间上的像素值的标准差做乘积,得到的新像素加上参考空间像素值的均值,最终得到换脸之后的结果。
[0060] 通过以上步骤,图1-5给出了本发明在实际使用中的过程以及产生的效果。图1为本发明的本发明的步骤展示;图2为本发明人脸对齐结果图,其中(a)(c)表示原始的素材图片,(b)(d)表示人脸对齐之后的照片;图3为本发明的人脸标定图,可见其面部标定点由步骤2可得;图4为本发明换脸效果图,其中(a)表示再当前例子中使用的人脸素材,(b)表示目标的图像,(c)为换脸之后的结果;图5为本发明眼部细节以及边缘融合处放大图,经过步骤4处理过后的图片,可见眼部细节和边缘融合之处比较柔和。
[0061] 以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈