专利汇可以提供一种音视频合成方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种音视频合成方法,该音视频合成方法有别于 现有技术 需要对视频图像的关键点进行提取和建模处理,其在合成过程中并不涉及任何视频图像关键点的设计,而是完全通过输入的文本数据进行驱动实现音频和视频的生成以及两者的合成,并且该音视频合成方法在生成视频时充分考虑了视频前后 帧 图像之间的关系,还采用由粗到精的生成方式来对文本数据对应的视频进行进一步的优化处理,以使得生成的视频能够在画面连续性和画面清晰度上都满足特定要求,从而大大地降低了音视频合成的难度和提高音视频合成的 质量 。,下面是一种音视频合成方法专利的具体信息内容。
1.一种音视频合成方法,其特征在于,所述音视频合成方法包括如下步骤:
步骤(1),对经过训练的深度神经网络模型输入文本数据,以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征;
步骤(2),根据所述声学参数,得到与所述文本数据对应的目标音频;
步骤(3),根据所述变分自编码器VAE隐层特征,得到与所述文本数据对应的目标视频;
步骤(4),将所述目标音频和所述目标视频进行组合,以实现所述音视频合成。
2.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(1)中,对经过训练的深度神经网络模型输入文本数据,以得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征具体包括,
步骤(101),构建用于所述训练的文本-音频-视频数据库;
步骤(102),基于所述文本-音频-视频数据库中的所有数据对所述深度神经网络模型进行训练;
步骤(103),将所述文本数据输入至经过训练的所述深度神经网络模型中,并从所述深度神经网络模型的输出得到与所述文本数据对应的声学参数和变分自编码器VAE隐层特征。
3.如权利要求2所述的音视频合成方法,其特征在于:
在所述步骤(101)中,构建用于所述训练的文本-音频-视频数据库具体包括,获取关于不同场景的音频数据和视频数据,并从所述音频数据中提取对应的声学参数,以及从所述视频数据的每一帧图像中提取对应的VAE隐层特征,并根据预设数据结构,通过所述声学参数和所述VAE隐层特征录制和标注,以得到所述文本-音频-视频数据库。
4.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(2)中,根据所述声学参数,得到与所述文本数据对应的目标音频具体包括,
步骤(201),将所述文本数据输入至训练好的网络模型中,从而得到所述声学参数;
步骤(202),将所述声学参数输入至声码器,从而通过所述声码器重构得到所述目标音频。
5.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(3)中,根据所述变分自编码器VAE隐层特征,得到与所述文本数据对应的目标视频具体包括,
步骤(301),对所述变分自编码器VAE隐层特征进行变换处理,以此得到初级视频;
步骤(302),对所述初级视频进行关于预设算法模型的变换处理,以此得到关于所述文本数据的自然视频;
步骤(303),根据所述自然视频生成所述目标视频。
6.如权利要求5所述的音视频合成方法,其特征在于:
在所述步骤(301)中,对所述变分自编码器VAE隐层特征进行变换处理,以此得到初级视频具体包括,
步骤(3011),对所述变分自编码器VAE隐层特征进行VAE解码处理,以此得到关于所述文本数据的若干帧图像;
步骤(3012),根据预设图像组合模式,对所述若干帧图像进行组合处理,以此得到所述初级视频。
7.如权利要求5所述的音视频合成方法,其特征在于:
在所述步骤(302)中,对所述初级视频进行关于预设算法模型的变换处理,以此得到关于所述文本数据的自然视频具体包括,
步骤(3021),基于条件生成对抗网络CGAN,构建Video-to-VideoSynthesis模型作为所述预设算法模型;
步骤(3022),对所述Video-to-Video Synthesis模型进行训练处理;
步骤(3023),将所述初级视频输入至经过所述训练处理的所述Video-to-Video Synthesis模型,以此输出得到所述自然视频。
8.如权利要求7所述的音视频合成方法,其特征在于:
在所述步骤(3021)中,基于条件生成对抗网络CGAN,构建Video-to-Video Synthesis模型作为所述预设算法模型具体包括,基于条件生成对抗网络CGAN、预设视频图像帧顺序条件和视频精度调整模式,构建得到所述Video-to-Video Synthesis模型;
或者,
在所述步骤(3022)中,对所述Video-to-Video Synthesis模型进行训练处理具体包括,
采用训练所述深度神经网络模型的文本-音频-视频数据库中的视频相关数据,对所述Video-to-Video Synthesis模型进行训练处理,以使所述Video-to-Video Synthesis模型的视频变换特性满足预设特性条件。
9.如权利要求7所述的音视频合成方法,其特征在于:
在所述步骤(3023)中,将所述初级视频输入至经过所述训练处理的所述Video-to-Video Synthesis模型,以此输出得到所述自然视频具体包括,
步骤(30231),获取所述Video-to-Video Synthesis模型对应的视频转换精度和/或视频转换连续度;
步骤(30232),基于所述视频转换精度和/或所述视频转换连续度,对所述Video-to-Video Synthesis模型进行训练处理;
步骤(30233),将所述初级视频输入至训练好的所述Video-to-VideoSynthesis模型,从而转换得到所述自然视频。
10.如权利要求1所述的音视频合成方法,其特征在于:
在所述步骤(4)中,将所述目标音频和所述目标视频进行组合,以实现所述音视频合成具体包括,
步骤(401),获取所述目标音频对应的音频特性和所述目标视频对应的视频特性;
步骤(402),根据所述音频特性和所述视频特性,通过预设音视频合成器,将所述目标音频和所述目标视频进行组合处理。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于边缘计算的综合传感网测试平台 | 2020-05-08 | 767 |
用于电力保密数据的大数据云平台安全防护方法 | 2020-05-08 | 666 |
一种均衡长期能效和网络稳定性的C-RAN系统资源分配方法 | 2020-05-08 | 975 |
一种联盟链的性能维持方法、系统及存储介质 | 2020-05-08 | 416 |
应用自动登录方法、装置、计算机设备和存储介质 | 2020-05-08 | 510 |
一种用于视频压缩的预测方法 | 2020-05-08 | 126 |
信息推送方法及相关产品 | 2020-05-08 | 146 |
一种5G系统基于PSS与SSS联合的频偏估计方法 | 2020-05-11 | 513 |
一种电力物联网场景中基于协同内容缓存的卸载方法 | 2020-05-08 | 614 |
基于LoRa技术的农业病虫防害系统 | 2020-05-08 | 498 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。