本发明的目的是提供一种基于视频流的人脸表情幻想方法。
基于视频流的人脸表情幻想方法包括训练阶段和测试阶段两个阶段,训练阶段为捕获多 种表情训练视频,对表情视频的每一
帧手工切分出感兴趣的表情兴趣子区域,这些构成一个 子区域视频序列,采用主成分分析提取每段子区域视频的特征表示ER,ER将在测试阶段用 来合成新的表情序列;
测试阶段包括如下步骤:
1)手工从输入人脸图像中选择人脸兴趣子区域作为
算法输入Iin,一幅人脸图像的兴趣子 区域是最能反映表情特征的子区域,分为眼睛区域和嘴巴区域两
块;
2)选择每段训练子区域视频的第一帧作为样本空间,计算Iin在此样本空间中的k近邻 Inb以及相应的m维特征空间中的坐标Yin和Ynb;
3)选择与Ynb对应的特征表示ERnb并用Ynb和ERnb训练径向基函数,得到低维特征空间 与视频特征表示之间的映射关系;
4)将Yin作为输入,利用径向基函数回归得到与Iin对应的特征表示ERin;
5)利用合成的特征表示ERin逐帧合成人脸兴趣子区域的动态序列,将此子区域逐帧移植 到输入的中性人脸图像获得最终合成的动态表情序列。
所述的对表情视频的每一帧手工切分出感兴趣的表情兴趣子区域:对于一幅人脸图像, 手工确定两眼和两嘴
角的准确
位置,以两跟连线le和两嘴角连线lm为
水平基准线分别向上下 推移一定距离,从两外侧眼角和两侧嘴角向左右两侧各推移一定距离,这个矩形子区域看作 是人脸兴趣子区域,推移的距离分别按le和lm的特定比例确定。
采用主成分分析提取每段子区域视频的特征表示:对每一
视频帧,以
像素列为单位把所 有列
叠加在一起构成一个列向量,所有列向量构成的样本矩阵X就表示了整段视频,用 X表 示均值矩阵,其中每一列 X1均为X的列均值向量,则
可看作是X的规范化形 式,其中N是这段视频包含的帧数,对 进行QR因子分解,得到
进一步对r 进行奇异值分解,得到{u,s,v]=SVD(r),则主成分分析的
特征向量U可由下式得到:U=q·u, 接下来将每一视频帧f投射到这组特征向量上得到f的重建系数y=UT·(f- X1),则 表示重 建后的f,
U,y和 X1组成了一个视频帧的特征表示er,每帧视频都可由er按 照上面的步骤进行重建,ER代表了整段视频的特征表示。
计算Iin在此样本空间中的k近邻Inb以及相应的m维特征空间中的坐标Yin和Ynb按如下 方法:
1)计算Iin与样本空间中每幅图像Is的欧氏距离‖Iin-Is‖2,按照距离大小进行排序,选择 前k个距离最小的样本组成Iin的k近邻Inb;
2)设样本空间中共有N幅图像,此N幅图像和Iin构成一个集合,此集合中每一幅I均 可看作由其余图像按权重w线性组合得到,总的重建误差为
其 中∑wi=1,且当Ij不在Ii的k近邻中时,wj=0,令I1表示I的近邻,定义G=(I1T-I1)T(I1T-I1), 其中1表示k×1的列向量,则组合权重可计算如下,wj=G-11/(1TG-11);
3)令W表示N+1维的权重方阵,其中wij可按上步计算,定义M=(I-W)T(I-W),其中 I是单位矩阵,求取M的m+1个最小特征值对应的特征向量并保留其中m个较大特征向量, 此m个特征向量即表示Ii和Inb的m维特征空间坐标Yin和Ynb。
用Ynb和ERnb训练径向基函数为:选择Ynb和对应的特征表示ERnb训练径向基函数
利用最小二乘算法解得径向基函数参数β;n为基函数的个数, K为核函数,μ为训练中心数据,设定为将Ynb聚类后每个类簇的质心,类簇的个数等于N/k, 即样本数目与近邻个数的商。
利用合成的特征表示ERin逐帧合成人脸兴趣子区域的动态序列为:将Yin作为径向基函数 的输入,回归得到与Iin对应的特征表示ERin,利用此ERin逐帧合成人脸兴趣子区域的动态序 列,将此子区域手工逐帧移植到输入的中性人脸图像获得最终合成的动态表情序列。
本发明的有益效果:
以往的技术通常局限于图像的合成,而忽略了人脸表情本身的动态特性,本发明突破了 这个思路,采用视频的特征表示代表一段视频,利用邻域样本合成与输入图像对应的表情视 频序列。本发明根据一张中性表情图像可高效地合成多种表情视频序列,结果真实自然,具 有较高的可信度,较之中性表情具有更强的表现
力,有利于使用有限的素材进行动画制作、 游戏开发以及人机交互界面设计,在影视动画创作、游戏娱乐等领域有广泛用途。
附图说明
图1是基于视频流的人脸表情幻想方法流程示意图;
图2是本发明的人脸表情的兴趣子区域示意图;
图3是本发明的训练样本中不同人的兴趣子区域示意图;
图4(a)是本发明的输入中性表情人脸图像;
图4(b)是本发明的根据输入中性人脸表情图像幻想得到的惊讶表情序列与真实惊讶表 情序列对比示意图;
图5(a)是本发明的输入中性人脸表情图像;
图5(b)是本发明的根据输入中性人脸表情图像幻想得到的高兴表情序列与真实高兴表 情序列对比示意图;
图6(a)是本发明的输入中性人脸表情图像;
图6(b)是本发明的根据输入中性人脸表情图像幻想得到的愤怒表情序列与真实愤怒表 情序列对比示意图。
本发明是根据输入的一张中性人脸表情图像合成动态的表情视频序列,其原理是:建立 训练视频的特征表示与视频首帧在特征空间中的坐标之间的映射关系,然后通过度量输入图 像和训练视频首帧在特征空间中的相似度,按照训练得到的映射关系,利用相似的邻域训练 视频来合成表情序列。
样本视频和测试图像包含
正面无遮挡的人脸,且具有相同的图像分辨率。当输入图像的 分辨率有所变化时,将训练视频的分辨率手工调至与测试图像相仿即可执行算法。为了能处 理多种分辨率的输入图像,我们离线地调整所有训练视频分辨率,形成了多个分辨率的训练 视频库,分别包含1920×1080,1024×768,800×600像素分辨率的视频帧。为了建立包含 多种表情的表情视频样本集,我们对40个志愿者进行表情视频摄制,每个志愿者拍摄三段典 型的表情,即惊讶、高兴和愤怒,每段视频限定为50帧,包含了从中性表情直到表情最大值 的动态变化过程。
在训练时我们需要离线地对训练视频进行预处理,首先手工截取训练视频的表情兴趣区 域(图2深色矩形方框内的区域),然后使用主成分分析方法获得每段训练子区域视频的特征 表示ER。手工截取训练视频的表情兴趣区域方法如下:只需确定两眼中心点的位置和两嘴角 的位置并固定这些特征点在兴趣区域内的相对位置,兴趣区域可根据这些显著特征点的位置 自动圈定。在主成分分析方法中需要设置特征向量的数目,在本发明中,我们通过将重建图 像与原始图像之间的均方根误差限定在某个
阈值范围内确定特征向量的个数,经验表明特征 向量设定为10到15个即可恢复原始图像98%的信息,因此在训练过程中我们将特征向量个 数设定为12个。一旦获得了每段训练视频的特征表示,我们将这些特征表示存储下来以作视 频合成。当有新的训练视频加入视频库时,只需计算并存储这些新视频的特征表示即可,因 此训练过程可以增量式进行,十分快捷有效。
如图1所示,基于视频流的人脸表情幻想方法实施如下:
1:手工截取输入图像的表情兴趣区域,作为算法输入Iin。此方法与训练过程中截取表情 兴趣区域的方法完全相同,例如:当输入图像为1920×1080像素时,眼睛兴趣区域应为400 ×200像素,嘴巴兴趣区域应为200×300像素。在手工截取时,我们只需确定两眼中心点的 位置和两嘴角的位置并固定这些特征点在兴趣区域内的相对位置,兴趣区域可根据这些显著 特征点的位置自动圈定。
2:选择每段训练子区域视频的第一帧作为样本空间,计算Iin在此样本空间中的k近邻 Inb以及相应的m维特征空间中的坐标Yin和Ynb。这一步骤是在训练视频中找到与输入图像最 接近的k个样本,并对输入图像和这k个样本进行维度约减,得到最能代表这些数据的m维 低维特征坐标。在进行维度约减的时候,算法涉及到邻域的大小k和维度m,目前在这一领 域内还没有方法能够自动决定最优的k和m,因此我们进行多次实验,挑选能够使最终合成 的图像与真实图像之间误差最小的参数值。实验表明,当k在8到17之间,m在8到16之 间取值时,算法效果最优。
3:选择与Ynb对应的特征表示ERnb。由于每段训练视频对应一个ER,而Y则代表了这段 训练视频首帧的低维特征,因此Y和ER之间显然存在一个一一对应,所以我们只需要
定位 Ynb在整个低维特征空间矩阵中的位置,并在特征表示空间中的相同位置选择出ERnb即可。
4:这一步骤是要用Ynb与ERnb训练径向基函数,得到低维特征空间与特征表示空间之间 的映射关系。在训练径向基函数时,核函数的中心可以由样本聚类的质心表示,而类簇的数 目等于样本的数目与k的商。例如样本的数目为32,k取值为8,则类簇的数目为4,核函数 中心即为这4个类簇的质心。
5:将Yin作为输入,利用径向基函数回归得到与Iin对应的特征表示ERin。此步骤根据训 练得到的映射关系,由输入图像的兴趣区域估计出对应的表情兴趣区域视频的特征表示,特 征表示是这段兴趣区域视频的表示方式。
6:由于特征表示是由主成分分析方法得到的,因此根据步骤5得到的特征表示可以逆向 重建出兴趣区域视频的每一帧。重建出的兴趣区域同样包括眼睛区域和嘴巴区域,分别为400 ×200和200×300像素分辨率,表征了输入图像的眼睛和嘴巴在表情运动时所应当具有的视 觉外观。
7:将得到的一系列表情兴趣区域逐帧移植至输入的中性人脸图像上,即可得到最终的表 情幻想结果。移植时,我们只需要确定兴趣区域中眼睛中心点和两嘴角的位置,将这些特征 点的位置与输入中性人脸的特征点位置重叠,然后就可自动使用合成的表情兴趣区域
覆盖输 入中性人脸的兴趣区域,每帧重复这种做法即可得到连续的表情视频。
图3描述了部分样本人脸表情兴趣区域视频的首帧,由于人脸表情是从中性过渡到表情 的最大幅度,因此图示为中性表情图像。
我们选择40个志愿者中的32个人用作训练,其余8个人用作测试,对于三种表情的测 试结果如下:
实施例1
惊讶表情序列幻想实施例:
1:输入图像为1920×1080像素,手工确定图像上双眼瞳孔的位置,双眼瞳孔水平间距 为190像素,从双眼瞳孔分别向左右各推移105个像素宽度、向上下各推移100个像素宽度, 得到400×200像素的眼睛子区域;手工确定图像上两嘴角的位置,两嘴角水平间距为140像 素,从两嘴角分别向左右各推移80个像素宽度、向上下分别推移150和50个像素宽度,得 到300×200像素的嘴巴子区域,此眼睛子区域和嘴巴子区域构成了此输入图像的人脸表情兴 趣子区域。
2:将眼睛周围子区域和嘴巴周围子区域分别作为Iin,选择相应训练子区域视频的第一帧 作为样本空间,使用
局部线性嵌入算法在此样本空间中选择12个样本构成Iin的近邻Inb,计 算Iin和Inb的9维特征空间坐标Yin和Ynb。
3:选择与Ynb对应的特征表示ERnb。
4:用Ynb与ERnb训练径向基函数,对Ynb使用K近邻算法聚为3类,选择每类的质心作 为核函数中心。
5:将Yin作为输入,利用径向基函数回归得到与Iin对应的特征表示ERin。
6:使用ERin根据主成分分析算法,逆向重建出兴趣子区域视频的每一帧。重建出的兴趣 子区域同样包括眼睛子区域和嘴巴子区域,分别为400×200和200×300像素分辨率。
7:在输入图像上手工标定两眼瞳孔位置,由于合成的眼睛子区域中瞳孔的位置是已知的, 因此只需将合成的眼睛子区域中瞳孔位置与输入图像中瞳孔逐帧位置对齐,眼睛区域即可复 制到输入图像,同样嘴巴区域也可以复制到输入图像,这样就形成了最终的表情视频。
图4是一个惊讶表情幻想效果示意图,共包括两个测试者。图4(a)描述了输入的中性人 脸表情图像,图4(b)则是幻想得到的惊讶表情序列与真实惊讶表情序列的对比,其中第一行 是真实的人脸表情,第二行是幻想得到的人脸表情。
本例根据一张输入的中性人脸表情产生动态的惊讶表情序列,且产生的表情非常逼真, 较之中性表情具有更强的表现力,可用于影视特技制作。
实施例2
高兴表情序列幻想实施例:
1:输入图像为1920×1080像素,手工确定图像上双眼瞳孔的位置,双眼瞳孔水平间距 为188像素,从双眼瞳孔分别向左右各推移106个像素宽度、向上下各推移100个像素宽度, 得到400×200像素的眼睛子区域;手工确定图像上两嘴角的位置,两嘴角水平间距为144像 素,从两嘴角分别向左右各推移78个像素宽度、向上下分别推移150和50个像素宽度,得 到300×200像素的嘴巴子区域,此眼睛子区域和嘴巴子区域构成了此输入图像的人脸表情兴 趣子区域。
2:将眼睛周围子区域和嘴巴周围子区域分别作为Iin,选择相应训练子区域视频的第一帧 作为样本空间,使用局部线性嵌入算法在此样本空间中选择16个样本构成Iin的近邻Inb,计 算Iin和Inb的9维特征空间坐标Iin和Ynb。
3:选择与Ynb对应的特征表示ERnb。
4:用Ynb与ERnb训练径向基函数,对Ynb使用K近邻算法聚为2类,选择每类的质心作 为核函数中心。
5:将Yin作为输入,利用径向基函数回归得到与Iin对应的特征表示ERin。
6:使用ERin根据主成分分析算法,逆向重建出兴趣子区域视频的每一帧。重建出的兴趣 子区域同样包括眼睛子区域和嘴巴子区域,分别为400×200和200×300像素分辨率。
7:在输入图像上手工标定两眼瞳孔位置,由于合成的眼睛子区域中瞳孔的位置是已知的, 因此只需将合成的眼睛子区域中瞳孔位置与输入图像中瞳孔逐帧位置对齐,眼睛区域即可复 制到输入图像,同样嘴巴区域也可以复制到输入图像,这样就形成了最终的表情视频。
图5是一个高兴表情幻想效果示意图。图5(a)描述了输入的中性人脸表情图像,图5(b) 则是幻想得到的高兴表情序列与真实高兴表情序列的对比,其中第一行是真实的人脸表情, 第二行是幻想得到的人脸表情。
本例根据一张输入的中性人脸表情产生动态的高兴表情序列,产生的表情较为自然,较 之中性表情具有更强的表现力,可面向用于面向娱乐的游戏制作。
实施例3
愤怒表情序列幻想实施例:
1:输入图像为1920×1080像素,手工确定图像上双眼瞳孔的位置,双眼瞳孔水平间距 为186像素,从双眼瞳孔分别向左右各推移107个像素宽度、向上下各推移100个像素宽度, 得到400×200像素的眼睛子区域;手工确定图像上两嘴角的位置,两嘴角水平间距为138像 素,从两嘴角分别向左右各推移81个像素宽度、向上下分别推移150和50个像素宽度,得 到300×200像素的嘴巴子区域,此眼睛子区域和嘴巴子区域构成了此输入图像的人脸表情兴 趣子区域。
2:将眼睛周围子区域和嘴巴周围子区域分别作为Iin,选择相应训练子区域视频的第一帧 作为样本空间,使用局部线性嵌入算法在此样本空间中选择8个样本构成Iin的近邻Inb,计算 Iin和Inb的10维特征空间坐标Yin和Ynb。
3:选择与Ynb对应的特征表示ERnb。
4:用Ynb与ERnb训练径向基函数,对Ynb使用K近邻算法聚为4类,选择每类的质心作 为核函数中心。
5:将Yin作为输入,利用径向基函数回归得到与Iin对应的特征表示ERin。
6:使用ERin根据PCA算法,逆向重建出兴趣子区域视频的每一帧。重建出的兴趣子区 域同样包括眼睛子区域和嘴巴子区域,分别为400×200和200×300像素分辨率。
7:在输入图像上手工标定两眼瞳孔位置,由于合成的眼睛子区域中瞳孔的位置是已知的, 因此只需将合成的眼睛子区域中瞳孔位置与输入图像中瞳孔逐帧位置对齐,眼睛区域即可复 制到输入图像,同样嘴巴区域也可以复制到输入图像,这样就形成了最终的表情视频。
图6是一个愤怒表情幻想效果示意图。图6(a)描述了输入的中性人脸表情图像,图6(b) 则是幻想得到的愤怒表情序列与真实愤怒表情序列的对比,其中第一行是真实的人脸表情, 第二行是幻想得到的人脸表情。
本例根据一张输入的中性人脸表情产生动态的愤怒表情序列,产生的表情真是自然,较 之中性表情具有更强的表现力,可用于人机交互界面设计以及影视特技制作。
在三个例子中最终产生的表情是动态连续的,表情的过渡真实自然,具有较高的可信度, 在游戏娱乐、人机交互以及影视动画创作等领域具有广阔应用前景。