首页 / 专利库 / 信号处理 / 信号处理 / 音频信号处理 / 音频分割 / 基于神经网络生成虚拟人物视频的方法及相关设备

基于神经网络生成虚拟人物视频的方法及相关设备

阅读:740发布:2020-05-15

专利汇可以提供基于神经网络生成虚拟人物视频的方法及相关设备专利检索,专利查询,专利分析的服务。并且本 申请 涉及 人工智能 技术领域,尤其涉及一种基于神经网络生成虚拟人物视频的方法及相关设备,包括:获取待识别文本,将所述文本导入到文本语音转换模型中进行声音转换后,得到音频;提取所述音频的韵律参数,进行音频特征点提取;生成虚拟人物嘴部运动轨迹;获取虚拟人物的二维图片,处理后生成虚拟人物的三维面部图;将所述嘴部运动轨迹导入到所述三维面部图,生成动态人脸面部画面;获取每一 帧 动态人脸面部画对应的实时音频,并对动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频。本申请实现了只要输入文本就可以得到想要的视频展示效果的目的,从而保证虚拟人物的声音和虚拟人物的嘴部动作保持完全一致。,下面是基于神经网络生成虚拟人物视频的方法及相关设备专利的具体信息内容。

1.一种基于神经网络生成虚拟人物视频的方法,其特征在于,包括:
获取待识别文本,并将所述待识别文本导入到预置文本语音转换模型中进行声音转换,得到音频;
提取所述音频的韵律参数,并将所述韵律参数导入到预置音频生成模型中进行音频特征点提取;
根据所述音频特征点,生成虚拟人物的嘴部运动轨迹;
获取预置虚拟人物的二维图片,并将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图;
将所述嘴部运动轨迹导入到所述三维面部图,生成多连续的动态人脸面部画面;
获取所述每一帧动态人脸面部画对应的实时音频,并对所述动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频。
2.根据权利要求1所述的基于神经网络生成虚拟人物视频的方法,其特征在于,所述获取待识别文本,将所述待识别文本导入到预置文本语音转换模型中进行声音转换,得到音频,包括:
获取待识别文本,提取所述待识别文本中的分割符,根据所述分隔符,将所述待识别文本划分为数个子文本;
将所述子文本进行词向量编码,得到数个多维词向量;
将所述多维词向量进行降维后,得到二维词向量;
计算所述二维词向量的特征值,以所述二维词向量的特征值为权重,将所述二维词向量和所述权重导入到所述文本语音转换模型中进行文本声音转换,得到所述音频。
3.根据权利要求1所述的基于神经网络生成虚拟人物视频的方法,其特征在于,所述提取所述音频的韵律参数,将所述韵律参数导入到音频生成模型中进行音频特征点提取,包括:
提取所述音频的第一韵律参数和级别语言参数,并根据所述第一韵律参数中的音长、音高和停顿时机,生成韵律标记;
对所述韵律标记进行编码,生成编码串流;
根据所述编码串流和所述级别语言参数,生成第二韵律参数;
将所述第二韵律参数导入到所述音频生成模型,以提取所述第二韵律参数中的音频特征点。
4.根据权利要求3所述的基于神经网络生成虚拟人物视频的方法,其特征在于,所述根据所述音频特征点,生成虚拟人物嘴部运动轨迹,包括:
获取预置虚拟人物图像,根据预设的嘴部关键点提取算法,从所述虚拟人物图像中提取嘴部关键点;
对所述嘴部关键点进行归一化处理,得到增强关键点;
根据所述增强关键点,得到所述音频的播放频率和播放时的嘴部运动幅度,并对所述播放频率和所述嘴部运动幅度进行拟合,得到所述虚拟人物嘴部运动轨迹。
5.根据权利要求1所述的基于神经网络生成虚拟人物视频的方法,其特征在于,所述获取预置虚拟人物的二维图片,并将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图,包括:
获取所述虚拟人物的二维图片并对所述二维图片进行灰度处理,得到二值化的二维图片,以及根据所述二值化的二维图片的梯度,得到所述三维面部图的深度信息;
以所述二维图片的左下为坐标原点,建立人脸特征点坐标系
从所述人脸特征点坐标系中获取所述二维图片中人脸五官关键点的坐标,并计算所述各人脸五官关键点之间的距离;
根据所述距离,调整预置标准三维面部图中人脸五官的位置,得到虚拟人物的三维面部图。
6.根据权利要求5所述的基于神经网络生成虚拟人物视频的方法,其特征在于,所述将所述嘴部运动轨迹导入到所述三维面部图,生成多帧连续的动态人脸面部画面,包括:
将所述嘴部运动轨迹导入到所述三维面部图,并提取三维面部图中发生位置变化的人脸五官关键点作为变化特征;
将所述变化特征入参到预置对抗神经网络模型中进行嘴部图像重构;
将重构后的数张嘴部图像按照生成时间进行排序后,生成所述多帧连续的动态人脸面部画面。
7.根据权利要求1至6任一项所述的基于神经网络生成虚拟人物视频的方法,其特征在于,所述获取所述每一帧动态人脸面部画对应的实时音频,并对所述动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频之后,所述方法还包括:
定位所述虚拟人物视频中所述韵律参数对应的关键音频帧的位置;
根据所述关键音频帧的位置,分别从所述虚拟人物视频中提取所述关键音频帧对应的嘴部图像和音频信号
将所述音频信号的谱特征入参到预存的长短期记忆网络模型中,进行语音识别
根据语音识别结果,得到所述音频信号对应的嘴部状态,将所述嘴部状态与所述嘴部图像进行比较,若同步,则发送所述虚拟人物视频至客户端,否则重新进行音视频合成编码,直到所述虚拟人物视频中虚拟人物的嘴部状态与所述嘴部图像同步。
8.一种基于神经网络生成虚拟人物视频的装置,其特征在于,包括以下模
轨迹生成模块,设置为获取待识别文本,将所述待识别文本导入到预置文本语音转换模型中进行声音转换后,得到音频;提取所述音频的韵律参数,将所述韵律参数导入到预置音频生成模型中进行音频特征点提取;根据所述音频特征点,生成虚拟人物的嘴部运动轨迹;
画面生成模块,设置为获取预置虚拟人物的二维图片,将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图;将所述嘴部运动轨迹导入到所述三维面部图,生成多帧连续的动态人脸面部画面;
视频生成模块,设置为获取所述每一帧动态人脸面部画对应的实时音频,并对所述动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述基于神经网络生成虚拟人物视频的方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述基于神经网络生成虚拟人物视频的方法的步骤。

说明书全文

基于神经网络生成虚拟人物视频的方法及相关设备

技术领域

[0001] 本申请涉及人工智能技术领域,尤其涉及一种基于神经网络生成虚拟人物视频的方法及相关设备。

背景技术

[0002] 虚拟人物指在现实中不存在的人物,它可以存在于电视剧、漫画、游戏等创作性作品中,是在电视剧、漫画、游戏等创作性作品中虚构的人物。合成虚拟人物通常采用3D扫描等方式,通过对人脸参数设置,生成所需的虚拟人物。
[0003] 但是,在生成虚拟人物时无法使虚拟人物的声音和虚拟人物的嘴部动作保持完全一致,导致虚拟人物逼真度差,不能做到以假乱真的播放效果。发明内容
[0004] 基于此,针对生成虚拟人物时无法使虚拟人物的声音和虚拟人物的嘴部动作保持完全一致的问题,提供一种基于神经网络生成虚拟人物视频的方法及相关设备。
[0005] 一种基于神经网络生成虚拟人物视频的方法,包括如下步骤:
[0006] 获取待识别文本,并将所述待识别文本导入到预置文本语音转换模型中进行声音转换,得到音频;
[0007] 提取所述音频的韵律参数,并将所述韵律参数导入到预置音频生成模型中进行音频特征点提取;
[0008] 根据所述音频特征点,生成虚拟人物的嘴部运动轨迹;
[0009] 获取预置虚拟人物的二维图片,并将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图;
[0010] 将所述嘴部运动轨迹导入到所述三维面部图,生成多连续的动态人脸面部画面;
[0011] 获取所述每一帧动态人脸面部画对应的实时音频,并对所述动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频。
[0012] 在其中一个可能的实施例中,所述获取待识别文本,将所述待识别文本导入到文本语音转换模型中进行声音转换后,得到音频,包括:
[0013] 获取待识别文本,提取所述待识别文本中的分割符,根据所述分隔符,将所述待识别文本划分为数个子文本;
[0014] 将所述子文本进行词向量编码,得到数个多维词向量;
[0015] 将所述多维词向量进行降维后,得到二维词向量;
[0016] 计算所述二维词向量的特征值,以所述二维词向量的特征值为权重,将所述二维词向量和所述权重导入到所述文本语音转换模型中进行文本声音转换,得到所述音频。
[0017] 在其中一个可能的实施例中,所述提取所述音频的韵律参数,将所述韵律参数导入到音频生成模型中进行音频特征点提取,包括:
[0018] 提取所述音频的第一韵律参数和级别语言参数,并根据所述第一韵律参数中的音长、音高和停顿时机,生成韵律标记;
[0019] 对所述韵律标记进行编码,生成编码串流;
[0020] 根据所述编码串流和所述级别语言参数,生成第二韵律参数;
[0021] 将所述第二韵律参数导入到所述音频生成模型,以提取所述第二韵律参数中的音频特征点。
[0022] 在其中一个可能的实施例中,所述根据所述音频特征点,生成虚拟人物嘴部运动轨迹,包括:
[0023] 获取预置虚拟人物图像,根据预设的嘴部关键点提取算法,从所述虚拟人物图像中提取嘴部关键点;
[0024] 对所述嘴部关键点进行归一化处理,得到增强关键点;
[0025] 根据所述增强关键点,得到所述音频的播放频率和播放时的嘴部运动幅度,并对所述播放频率和所述嘴部运动幅度进行拟合,得到所述虚拟人物嘴部运动轨迹。
[0026] 在其中一个可能的实施例中,所述获取虚拟人物的二维图片,将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图,包括:
[0027] 获取所述虚拟人物的二维图片并对所述二维图片进行灰度处理,得到二值化的二维图片,以及根据所述二值化的二维图片的梯度,得到所述三维面部图的深度信息;
[0028] 以所述二维图片的左下为坐标原点,建立人脸特征点坐标系
[0029] 从所述人脸特征点坐标系中获取所述二维图片中人脸五官关键点的坐标,并计算所述各人脸五官关键点之间的距离;
[0030] 根据所述距离,调整预置标准三维面部图中人脸五官的位置,得到虚拟人物的三维面部图。
[0031] 在其中一个可能的实施例中,所述将所述嘴部运动轨迹导入到所述三维面部图,生成多帧连续的动态人脸面部画面,包括:
[0032] 将所述嘴部运动轨迹导入到所述三维面部图,并提取三维面部图中发生位置变化的人脸五官关键点作为变化特征;
[0033] 将所述变化特征入参到预置对抗神经网络模型中进行嘴部图像重构;
[0034] 将重构后的数张嘴部图像按照生成时间进行排序后,生成所述多帧连续的动态人脸面部画面。
[0035] 在其中一个可能的实施例中,所述获取所述动态人脸面部画面中每一帧对应的实时音频,同步播放所述动态人脸面部画面和所述实时音频,得到虚拟人物视频之后,所述方法还包括:
[0036] 定位所述虚拟人物视频中所述韵律参数对应的关键音频帧的位置;
[0037] 根据所述关键音频帧的位置,分别从所述虚拟人物视频中提取所述关键音频帧对应的嘴部图像和音频信号
[0038] 将所述音频信号的谱特征入参到预存的长短期记忆网络模型中,进行语音识别
[0039] 根据语音识别结果,得到所述音频信号对应的嘴部状态,将所述嘴部状态与所述嘴部图像进行比较,若同步,则发送所述虚拟人物视频至客户端,否则重新进行音视频合成编码,直到所述虚拟人物视频中虚拟人物的嘴部状态与所述嘴部图像同步。
[0040] 一种基于神经网络生成虚拟人物视频的装置,包括如下模
[0041] 轨迹生成模块,设置为获取待识别文本,将所述待识别文本导入到预置文本语音转换模型中进行声音转换后,得到音频;提取所述音频的韵律参数,将所述韵律参数导入到预置音频生成模型中进行音频特征点提取;根据所述音频特征点,生成虚拟人物的嘴部运动轨迹;
[0042] 画面生成模块,设置为获取预置虚拟人物的二维图片,将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图;将所述嘴部运动轨迹导入到所述三维面部图,生成多帧连续的动态人脸面部画面;
[0043] 视频生成模块,设置为获取所述每一帧动态人脸面部画对应的实时音频,并对所述动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频。
[0044] 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于神经网络生成虚拟人物视频的方法的步骤。
[0045] 一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于神经网络生成虚拟人物视频的方法的步骤。
[0046] 与现有机制相比,本申请通过对文本中字符进行有效转换成音频,然后再通过对抗神经网络和记忆神经网络技术将音频对应的面部特征很好的重构在三维面部图像上。从整体上实现了文本到视频的转换,不需要再对文本、音频和视频中的每一个环节进行分别模拟训练,实现了只要输入文本就可以得到想要的视频展示效果的目的,从而保证虚拟人物的声音和虚拟人物的嘴部动作保持完全一致。附图说明
[0047] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
[0048] 图1为本申请在一个实施例中的一种基于神经网络生成虚拟人物视频的方法的整体流程图
[0049] 图2为本申请在一个实施例中的一种基于神经网络生成虚拟人物视频的方法中的音频生成过程示意图;
[0050] 图3为本申请在一个实施例中的一种基于神经网络生成虚拟人物的方法中的音频特征点提取过程示意图;
[0051] 图4为本申请在一个实施例中的一种基于神经网络生成虚拟人物视频的装置的结构图。

具体实施方式

[0052] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0053] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
[0054] 图1为本申请在一个实施例中的一种基于神经网络生成虚拟人物视频的方法的整体流程图,一种基于神经网络生成虚拟人物视频的方法,包括以下步骤:
[0055] S1、获取待识别文本,将所述待识别文本导入到预置文本语音转换模型中进行声音转换后,得到音频;
[0056] 具体的,待识别文本可以是采用中文、英文或者日语等语言,对于待识别文本可以先确定文本中分隔符的位置,比如“,”、“。”等。根据这些分隔符的位置,将待识别文本分割成数个子文本。将每一个子文本导入到文本语音转换模型进行文本到声音的转换。
[0057] 其中,文本语音转换模型可以采用Char2Wav架构组成,在Char2Wav架构中采用简单循环神经网络和交叉循环网络子文本中的词语进行声音转换。
[0058] 在对子文本进行声音转换时,可以将子文本中的词语进行词向量转换,转换成多维词向量,然后以多维词向量的特征值和维度作为参数入参到简单循环神经网络和交叉循环神经网络中进行训练转换。
[0059] S2、提取所述音频的韵律参数,将所述韵律参数导入到音频生成模型中进行音频特征点提取;
[0060] 具体的,音频的韵律参数包括,音高、音长、停顿频率等。在对所述韵律参数进行提取时,音频生成模型可以采用隐尔科夫模型。
[0061] 获取音频频谱频率范围值和振动幅度值,将所述频率范围值和振动幅度值入参到隐马尔科夫模型中进行音频特征点提取。其中,音频特征点提取的公式为:
[0062] D(x,y)=∫P(X|x)·P(X|y)dX,式子中,D(x,y)表示音频特征点在二维坐标系下的取值,表示振动幅度概率值,表示频率概率值。
[0063] S3、根据所述音频特征点,生成虚拟人物嘴部运动轨迹;
[0064] 具体的,应用dlib算法提取的20个嘴部关键点,将嘴部关键点做归一化处理从而不受图像大小、面部位置、面部旋转、面部大小的影响。归一化在此过程中非常重要,因为它能使生成的关键点兼容于任何视频。然后,在归一化处理过的嘴部-关键点上利用PCA降维,将一共20×2共40维降到8维。采用双线性差值的方法,对PCA后的嘴部标准点数据进行扩充,然后根据每一个音频特征点对应的嘴部开闭幅度和频率,确定嘴部标准点的运动轨迹,汇总所有嘴部标准点的运动轨迹后,得到所述虚拟人物嘴部运动轨迹。
[0065] S4、获取预置虚拟人物的二维图片,将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图;
[0066] 具体的,获取待生成虚拟人物的二维图片,建立二维坐标系,从所述二维坐标系中,获取二维图片中嘴、鼻子和眼睛的轮廓,从嘴、鼻子和眼睛的轮廓中提取五官关键点的坐标,比如,鼻尖坐标,嘴角坐标等。根据这些关键点坐标,确定虚拟人物的头部姿态,并利用最小二乘法对头部姿态的正确性进行评价。其中,最小二乘法估计计算公式为:
[0067]
[0068] 式子中,c表示正确估值,n表示特征点数目,pi表示特征点出现概率,s表示旋转参数,R表示平移参数,t表示缩放参数,V表示特征点到原点的距离。
[0069] S5、将所述嘴部运动轨迹导入到所述三维面部图,生成多帧连续的动态人脸面部画面;
[0070] 具体的,在将嘴部运动轨迹导入到所述三维面部图时,可以采用Canny算法对三维面部图中的嘴部边缘进行检测。其中,Canny算法通常处理的图像为灰度图,因此如果摄像机获取的是彩色图像,那首先就得进行灰度化。对一幅彩色图进行灰度化,就是根据图像各个通道的采样值进行加权平均。常用灰度处理方法为Gray=0.299R+0.587G+0.114B,对灰度处理后的图像进行高斯滤波处理,在进行用一阶偏导的有限差分来计算梯度的幅值和方向,在进行梯度幅度和方向计算时可以采用的算子有Roberts算子:对梯度幅值进行非极大值抑制后得到嘴部边缘轮廓。将嘴部运动轨迹在嘴部边缘轮廓上进行依次标记后,就可以生成多帧连续的动态人脸面部画面。
[0071] S6、获取所述每一帧动态人脸面部画对应的实时音频,并对所述动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频。
[0072] 具体的,将动态人脸面部画面按照预设的播放速度进行播放,记录好播放完整个动态人脸面部画面的播放时长、初始播放节点和终止播放节点,然后根据播放时长、初始播放节点的位置和终止播放节点的位置确定步骤S1生成的音频所要播放的片段。最后,应用视频编码器将音频所要播放的片段和对应的动态人脸面部画面进行合成就可以得到虚拟人物视频。
[0073] 本实施例,通过对文本中字符进行有效转换成音频,然后再通过对抗神经网络和记忆神经网络技术将音频对应的面部特征很好的重构在三维面部图像上。从整体上实现了文本到视频的转换,不需要再对文本、音频和视频中的每一个环节进行分别模拟训练,实现了只要输入文本就可以得到想要的视频展示效果的目的,从而保证虚拟人物的声音和虚拟人物的嘴部动作保持完全一致。
[0074] 图2为本申请在一个实施例中的一种基于神经网络生成虚拟人物视频的方法中的音频生成过程示意图,如图所示,所述S1、获取待识别的文本,将所述文本导入到文本语音转换模型中进行声音转换后,得到音频,包括:
[0075] S11、获取待识别文本,提取所述待识别文本中的分割符,根据所述分隔符,将所述待识别文本划分为数个子文本;
[0076] 具体的,待识别文本通常是流式数据文本,在流式数据文本中分割符可以是“。”、“,”等标点符号,也可以是“1”、“2”等数字。在对待识别文本进行划分时可以采用等长度划分,也可以采用不等长度划分。
[0077] S12、将所述子文本进行词向量编码,得到数个多维词向量;
[0078] 其中,将所述子文本中的每一个字符应用word2vec进行词向量编码,词向量编码后可以生成每一个字符对应的多维词向量,对于每一个字符对应的多维词向量可以根据字符在所述子文本中的位置进行标记,即第一个字符的词向量为[1,2,5],则标记后的词向量为[1,1,2,5]。进行标记后可以确定每一个多维词向量的位置,从而避免在进行语音转换时,字符位置发生变化,从而导致生成的音频与原文本不一致。
[0079] S13、将所述多维词向量进行降维后,得到二维词向量;
[0080] 其中,多维词向量降维的方法可以采用PCA降维的方式,也可以采用向量投影法,将n为向量投影到n-1维空间,然后再将n-1维空间中的n-1维向量投影到n-2维空间,逐次投影直到二维平面上,得到所述二维词向量。
[0081] S14、计算所述二维词向量的特征值,以所述二维词向量的特征值为权重,将所述二维词向量和所述权重导入到所述文本语音转换模型中进行文本声音转换,得到所述音频。
[0082] 其中,文本语音转换模型可以采用双向循环神经网络模型,双向循环神经网络模型被应用于学习目标与完整(输入序列相关的场合。例如在语音识别中,当前语音对应的词汇可能与其后出现的词汇有对应关系,因此需要以完整的语音作为输入。
[0083] 本实施例,通过文本语音转换模型,准确的将输入的文本转换成对应的音频,而不会产生字符遗漏。
[0084] 图3为本申请在一个实施例中的一种基于神经网络生成虚拟人物的方法中的音频特征点提取过程示意图,如图所示所述S2、提取所述音频的韵律参数,将所述韵律参数导入到预置音频生成模型中进行音频特征点提取,包括:
[0085] S21、提取所述音频的第一韵律参数和级别语言参数,根据所述第一韵律参数中的音长、音高和停顿时机,生成韵律标记;
[0086] 其中,级别语言参数分为低级别语言参数和高级别语言参数,第一韵律参数是音频未进行加工时的韵律参数。
[0087] S22、对所述韵律标记进行编码,生成编码串流;
[0088] 其中,在根据所述韵律参数进行编码时,采用的公式为:
[0089] T=argmax P(q,A|L),式子中,T表示韵律编码,P表示韵律状态,q表示音高,A表示基础音律特征参数,L表示级别语言参数,argmax为自变量最大值函数。
[0090] S23、根据所述编码串流和所述级别语言参数,生成第二韵律参数;
[0091] 具体的,所述第二韵律参数生成是将编码串流和所述级别语言参数进行相加后得到的。
[0092] S24、将所述第二韵律参数导入到所述音频生成模型,以提取所述第二韵律参数中的音频特征点。
[0093] 本实施例,通过韵律参数对生成的音频进行音频特征点提取,从而简化了生成虚拟人物视频的时间,即可以在短时间内生成所需的虚拟人物视频。
[0094] 图3为本申请在一个实施例中的一种基于神经网络生成虚拟人物视频的方法中的嘴部轨迹生成过程示意图,如图所示,所述S3、根据所述音频特征点,生成虚拟人物嘴部运动轨迹,包括:
[0095] S31、获取预置虚拟人物图像,根据预设的嘴部关键点提取算法,从所述虚拟人物图像中提取嘴部关键点;
[0096] 其中,预设的嘴部特征提取算法为dlib算法。
[0097] S32、对所述嘴部关键点进行归一化处理,得到增强关键点;
[0098] 具体的,在归一化嘴部特征点采用区域聚类的方式,由于嘴部是对称结构,因此将嘴部划分为左上、左下、右上和右下四个区域,以划分区域的直线作为坐标轴,建立一坐标系,对坐标中四个区域中的任意一个区域中的关键点进行聚类增强。具体增强的方式是,计算两个关键点之间的距离,若距离小于预设阈值,则以这连个关键点连线的线段中点作为一个增强关键点。这样可以减少需要进行计算的关键点数量。
[0099] S33、根据所述增强关键点,得到所述音频的播放频率和播放时嘴部运动幅度,并对所述播放频率和所述嘴部运动幅度进行拟合后,得到所述虚拟人物嘴部运动轨迹。
[0100] 具体的,根据增强关键点在嘴部的位置,例如,A人物增强关键点为左嘴角和上嘴唇中点,那么A人物的播放频率为30kbps,播放时嘴部运动幅度为0.8mm,B人物增强关键点为右嘴角和下嘴唇中点,那么B人物的播放频率为35kbps,播放时嘴部运动幅度为0.7mm。上述A人物和B人物的播放频率和播放时嘴部运动幅度是从根据数据库中已有的嘴部运动与音频播放对应关系得到的。拟合播放频率和嘴部运动幅度后,就可以得到虚拟人物嘴部运动轨迹。
[0101] 本实施例,通过对嘴部关键点进行有效提取,从而保证了音频和虚拟人物画面中嘴部运动结合时的准确性。
[0102] 在一个实施例中,所述S4、获取虚拟人物的二维图片,将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图,包括:
[0103] 获取所述虚拟人物的二维图片并对所述二维图片进行灰度处理,得到二值化的二维图片,以及根据所述二值化的二维图片的梯度,得到所述三维面部图的深度信息;
[0104] 其中,在计算二维图片的梯度时,可以将二维图片分割成多个等大小的子块,然后提取每一个子块像素点的像素值,建立子块二值化像素值矩阵,根据二值化像素值矩阵中每一行或者每一列中“1”和“0”交替的次数,得到每一个子块的梯度值,汇总各个子块的梯度值后,可以得到三维面部图中不同面部区域的深度信息。即梯度值大的区域,三维图深度大,梯度值小的区域,三维图深度小。
[0105] 以所述二维图片的左下角为坐标原点,建立人脸特征点坐标系;
[0106] 从所述人脸特征点坐标系中获取所述二维图片中人脸五官关键点的坐标,并计算所述各人脸五官关键点之间的距离;
[0107] 根据所述距离,调整预置标准三维面部图中人脸五官的位置,得到虚拟人物的三维面部图。
[0108] 具体的,例如,在预设的标准三维面部图中,嘴角之间的距离为10,而通过计算后的距离为9,则根据距离值9对嘴角距离进行修改
[0109] 本实施例,通过深度处理将二维图像转换后三维面部图,有效保证了虚拟人物人脸的真实性,以达到以假乱真的效果。
[0110] 在一个实施例中,所述S5、将所述嘴部运动轨迹导入到所述三维面部图,生成多帧连续的动态人脸面部画面,包括:
[0111] 将所述嘴部运动轨迹导入到所述三维面部图,并提取三维面部图中发生位置变化的人脸五官关键点作为变化特征;
[0112] 具体的,三维面部图中仍然保留着二维图片的人脸关键点,只是将这些人脸关键点三维立体化。在将嘴部运动轨迹导入到三维面部图后,三维面部图中的人脸关键点会随着嘴部运动轨迹发生位置变化,如嘴部运动轨迹为张开嘴,则三维面部图中的嘴中关键点向上位移5mm,嘴角关键点,将这些发生位置变化的人脸五官关键点作为变化特征。
[0113] 将所述变化特征入参到预置对抗神经网络模型中进行嘴部图像重构;
[0114] 其中,在利用对抗神经网络模型(Edge-connect)进行嘴部图像重构时,可以采用下面公式减少对抗误差:
[0115] 式子中,L表示对抗误差,E()表示期望,G()表示对抗误差生成模型,D()表示对抗误差模型,S表示变化特征,T表示重构图像。
[0116] 将重构后的数张嘴部图像按照生成时间进行排序后,生成所述多帧连续的动态人脸面部画面。
[0117] 具体的,通过对抗神经网络模型可以生成数张嘴部图像,由于这些嘴部图像是根据嘴部运动轨迹的变化依次生成的,所以将这些重构后的嘴部图像依次排序后连续播放就可以得到动态人脸面部画面。
[0118] 本实施例,利用对抗神经网络生成动态人脸面部画面,从而保证了音频与人脸图像的同步性。
[0119] 在一个实施例中,所述S6、获取所述动态人脸面部画面中每一帧对应的实时音频,同步播放所述动态人脸面部画面和所述实时音频,得到虚拟人物视频之后,所述方法还包括:
[0120] 定位所述虚拟人物视频中所述韵律参数对应的关键音频帧的位置;
[0121] 具体的,在步骤S1生成的音频对应的韵律参数中有音高、音长等。当音高大于预设的音高阈值时,标记为高音,记录所有高音在音频中所处的位置,这些位置就是虚拟人物视频时关键音频帧的位置。也就是说,如在音频中第3秒是一个高音,那么在虚拟人物视频时第3秒的位置就是一个关键音频帧。
[0122] 根据所述关键音频帧的位置,分别从所述虚拟人物视频中提取所述关键音频帧对应的嘴部图像和音频信号;
[0123] 将所述音频信号的谱特征入参到预存的长短期记忆网络模型中,进行语音识别;
[0124] 其中,长短期记忆神经网络是一种时间递归神经网络,是为了解决长期以来问题而专设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。可以预先将该音频对应的频谱输入到长短期记忆神经网络进行记忆存储,然后从关键帧的视频流中对音频进行有效的识别。
[0125] 根据语音识别结果,得到所述音频信号对应的嘴部状态,将所述嘴部状态与所述嘴部图像进行比较,若同步,则发送所述虚拟人物视频至客户端,否则重新进行音视频合成编码,直到所述虚拟人物视频中虚拟人物的嘴部状态与所述嘴部图像同步。
[0126] 本实施例,通过对虚拟人物视屏中的关键帧进行有效分析,从而验证了虚拟人物视屏的声音与画面的同步性。
[0127] 在一个实施例中,提出了一种基于神经网络生成虚拟人物视频的装置,如图4所示,包括如下模块:
[0128] 轨迹生成模块,设置为获取待识别文本,将所述待识别文本导入到预置文本语音转换模型中进行声音转换后,得到音频;提取所述音频的韵律参数,将所述韵律参数导入到预置音频生成模型中进行音频特征点提取;根据所述音频特征点,生成虚拟人物的嘴部运动轨迹;
[0129] 画面生成模块,设置为获取预置虚拟人物的二维图片,将所述二维图片导入到面部特征生成模型进行处理后生成虚拟人物的三维面部图;将所述嘴部运动轨迹导入到所述三维面部图,生成多帧连续的动态人脸面部画面;
[0130] 视频生成模块,设置为获取所述每一帧动态人脸面部画对应的实时音频,并对所述动态人脸面部画面和所述实时音频同步进行音视频合成编码,得到虚拟人物视频。
[0131] 在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于神经网络生成虚拟人物视频的方法的步骤。
[0132] 在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中的所述基于神经网络生成虚拟人物视频的方法的步骤。其中,所述存储介质可以为非易失性存储介质。
[0133] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
[0134] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0135] 以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈