专利类型 | 发明授权 | 法律事件 | 公开; 实质审查; 授权; |
专利有效性 | 有效专利 | 当前状态 | 授权 |
申请号 | CN202411835274.2 | 申请日 | 2024-12-13 |
公开(公告)号 | CN119316678B | 公开(公告)日 | 2025-03-18 |
申请人 | 成都开心音符科技有限公司; | 申请人类型 | 企业 |
发明人 | 肖杰; | 第一发明人 | 肖杰 |
权利人 | 成都开心音符科技有限公司 | 权利人类型 | 企业 |
当前权利人 | 成都开心音符科技有限公司 | 当前权利人类型 | 企业 |
省份 | 当前专利权人所在省份:四川省 | 城市 | 当前专利权人所在城市:四川省成都市 |
具体地址 | 当前专利权人所在详细地址:四川省成都市高新区天府三街199号B区16层B3-2、B4、B5、B6单元 | 邮编 | 当前专利权人邮编:610000 |
主IPC国际分类 | H04N21/81 | 所有IPC国际分类 | H04N21/81 ; G06N3/0455 ; G06N3/08 ; G06N3/0475 ; H04N21/43 ; G10L21/055 ; G10L25/30 |
专利引用数量 | 1 | 专利被引用数量 | 0 |
专利权利要求数量 | 8 | 专利文献类型 | B |
专利代理机构 | 北京超凡宏宇知识产权代理有限公司 | 专利代理人 | 杨斌; |
摘要 | 本 申请 提供一种音频和视频生成方法、 电子 设备和计算机可读存储介质,该方法包括:获取目标文本,其中,目标文本包括目标文本特征;将目标文本输入预先训练完成的音视频生成扩散模型,获得音视频生成扩散模型输出的目标视频特征以及目标音频特征;对目标视频特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频,由于音视频生成扩散模型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,音视频生成扩散模型在生成目标视频特征的 时空 扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标音频特征与视频特征实现关联,使得本方案生成的目标视频和音频同步性高,进而使得音画同步性和 质量 更高。 | ||
权利要求 | 1.一种音频和视频生成方法,其特征在于,所述方法包括: |
||
说明书全文 | 音频和视频生成方法、电子设备和计算机可读存储介质技术领域[0001] 本申请涉及音视频转换技术领域,具体而言,涉及一种音频和视频生成方法、电子设备和计算机可读存储介质。 背景技术[0003] 在扩散模型架构中没有同时可以生成音频和视频的结构,都是输入文本来分别生成音频和视频,使得音频和视频存在独立无关,从而导致生成的音频和视频没有直接的关 联,进而造成生成的音频和视频存在音画不同步、质量低的问题。 发明内容 [0005] 第一方面,本发明提供一种音频和视频生成方法,该方法包括:获取目标文本,其中,目标文本包括目标文本特征;将目标文本输入预先训练完成的音视频生成扩散模型,获 得音视频生成扩散模型输出的目标视频特征以及目标音频特征,其中,目标视频特征通过 音视频生成扩散模型根据初始视频特征、初始音频特征以及目标文本特征进行时空扩散变 换生成,目标音频特征通过音视频生成扩散模型根据初始音频特征、初始视频特征以及目 标文本特征进行扩散变换生成,初始视频特征通过音视频生成扩散模型根据第一高斯噪声 和目标文本特征进行时空扩散变换生成,初始音频特征通过音视频生成扩散模型根据第二 高斯噪声和目标文本特征进行扩散变换生成;对目标视频特征以及目标音频特征分别进行 解码,获得目标文本对应的目标视频以及目标音频。 [0006] 上述设计的音频和视频生成方法,本方案首先获取具有文本特征的目标文本,然后将目标文本输入预先训练完成的音视频生成扩散模型中,通过音视频生成扩散模型生成 输出目标文本对应的目标视频特征以及目标音频特征,进而对目标视频特征以及目标音频 特征分别进行解码,获得目标文本对应的目标视频和目标音频。由于该音视频生成扩散模 型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,因此,生成的目 标音频特征与视频特征实现关联,同理,音视频生成扩散模型在生成目标视频特征的时空 扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标视频特征与音频特征实 现关联,进而实现生成的目标视频特征与目标音频特征之间具备关联性,使得本方案生成 的目标视频和音频同步性高,进而使得音画同步性和质量更高。 [0007] 在第一方面的可选实施方式中,音视频生成扩散模型的训练过程,包括:获取训练集,其中,训练集包括多个样本,每个样本包括文本样本特征以及文本样本特征对应的视频 样本特征以及音频样本特征;对每个样本的视频样本特征进行时空切分并加入第一高斯噪 声,获得每个样本的视频噪声的隐空间特征;对每个样本的音频样本特征进行时空切分并 加入第二高斯噪声,获得每个样本的音频噪声的隐空间特征;根据多个样本的文本样本特 征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音 视频生成扩散模型。 [0008] 在第一方面的可选实施方式中,根据多个样本的文本样本特征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散模型, 包括:获取目标扩散步数;根据文本样本特征以及视频噪声的隐空间特征进行时空扩散变 换实现噪声去除,得到初始视频噪声去除特征,并根据文本样本特征以及音频噪声的隐空 间特征进行扩散变换噪声去除,得到初始音频噪声去除特征;判断扩散步数是否达到预设 扩散步数;若扩散步数达到预设扩散步数,则根据初始视频噪声去除特征、初始音频噪声去 除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始视频交互特征,并根 据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行扩散变换实现噪 声去除,获得初始音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目 标扩散步数,则根据初始视频交互特征、视频样本特征、初始音频交互特征与音频样本特征 计算预设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩 散模型的损失值达到目标损失值,则获得音视频生成扩散模型。 [0009] 在第一方面的可选实施方式中,在判断扩散步数是否达到预设扩散步数之后,该方法还包括:若判定扩散步数没有达到预设扩散步数,则根据初始视频噪声去除特征以及 文本样本特征进行时空扩散变换实现噪声去除,获得第二视频噪声去除特征,并根据初始 音频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得第二音频噪声去除 特征;判断扩散步数是否达到预设扩散步数;若扩散步数达到预设扩散步数,则根据第二视 频噪声去除特征、第二音频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去 除,获得初始视频交互特征,并根据第二视频噪声去除特征、第二音频噪声去除特征以及文 本样本特征进行扩散变换实现噪声去除,获得初始音频交互特征;判断扩散步数是否达到 目标扩散步数;若扩散步数达到目标扩散步数,则根据初始视频交互特征、视频样本特征、 初始音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散模型的损失 值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则获得音视频生成扩 散模型。 [0010] 在第一方面的可选实施方式中,在判断扩散步数是否达到目标扩散步数之后,该方法还包括:若判定扩散步数未达到目标扩散步数,则根据初始视频交互特征、初始音频交 互特征以及文本样本特征进行时空扩散变换实现噪声去除,获得第二视频交互特征,并根 据初始视频交互特征、初始音频交互特征以及文本样本特征进行扩散变换实现噪声去除, 获得第二音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩散 步数,则根据第二视频交互特征、视频样本特征、第二音频交互特征与音频样本特征计算预 设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型 的损失值达到目标损失值,则获得音视频生成扩散模型。 [0011] 在第一方面的可选实施方式中,在判断预设扩散模型的损失值是否达到目标损失值之后,该方法还包括:若判定预设扩散模型的损失值未达到目标损失值,则对预设扩散模 型的时空扩散变换参数以及扩散变换参数进行更新;根据更新的时空扩散变换参数、更新 的扩散变换参数以及多个样本中的下一样本对预设扩散模型进行训练,直至计算得到的损 失值达到目标损失值,获得音视频生成扩散模型。 [0012] 上述多种实施方式,本方案在训练预设扩散模型的过程中,通过在达到预设扩散步数的情况下,在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,并 在生成目标视频特征的时空扩散变换过程中将音频特征作为扩散考虑条件,从而使得视频 特征与音频特征进行关联,进而使得训练得到的预设扩散模型对于输入的文本而输出的视 频特征与音频特征也相应进行关联,使得本方案训练得到的音视频生成扩散模型识别输出 的目标视频特征和目标音频特征具备关联性,使得本方案生成的目标视频和音频同步性 高,进而使得音画同步性和质量更高。 [0013] 在第一方面的可选实施方式中,获取文本样本特征,包括:获取文本信息,对文本信息进行编码,获得文本样本特征。 [0014] 在第一方面的可选实施方式中,获取文本样本特征对应的视频样本特征以及音频样本特征,包括:获取文本样本特征对应的视频信息以及音频信息;对文本样本特征对应的 视频信息进行压缩量化编码,获得文本样本特征对应的视频样本特征;对文本样本特征对 应的音频信息进行量化压缩,获得文本样本特征对应的音频样本特征。 [0015] 第二方面,本申请提供一种音频和视频生成装置,该装置包括获取模块、输入模块以及解码模块,该获取模块,用于获取目标文本,其中,所述目标文本包括目标文本特征;该 输入模块,用于将目标文本输入预先训练完成的音视频生成扩散模型,获得音视频生成扩 散模型输出的目标视频特征以及目标音频特征,其中,目标视频特征通过音视频生成扩散 模型根据初始视频特征、初始音频特征以及目标文本特征进行时空扩散变换生成,目标音 频特征通过音视频生成扩散模型根据初始音频特征、初始视频特征以及目标文本特征进行 扩散变换生成,初始视频特征通过音视频生成扩散模型根据第一高斯噪声和目标文本特征 进行时空扩散变换生成,初始音频特征通过音视频生成扩散模型根据第二高斯噪声和目标 文本特征进行扩散变换生成;解码模块,用于对目标视频特征以及目标音频特征分别进行 解码,获得目标文本对应的目标视频以及目标音频。 [0016] 上述设计的音频和视频生成装置,本方案首先获取具有文本特征的目标文本,然后将目标文本输入预先训练完成的音视频生成扩散模型中,通过音视频生成扩散模型生成 输出目标文本对应的目标视频特征以及目标音频特征,进而对目标视频特征以及目标音频 特征分别进行解码,获得目标文本对应的目标视频和目标音频。由于该音视频生成扩散模 型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,因此,生成的目 标音频特征与视频特征实现关联,同理,音视频生成扩散模型在生成目标视频特征的时空 扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标视频特征与音频特征实 现关联,进而实现生成的目标视频特征与目标音频特征之间具备关联性,使得本方案生成 的目标视频和音频同步性高,进而使得音画同步性和质量更高。 [0017] 在第二方面的可选实施方式中,该装置还包括训练模块,用于获取训练集,其中,训练集包括多个样本,每个样本包括文本样本特征以及文本样本特征对应的视频样本特征 以及音频样本特征;对每个样本的视频样本特征进行时空切分并加入第一高斯噪声,获得 每个样本的视频噪声的隐空间特征;对每个样本的音频样本特征进行时空切分并加入第二 高斯噪声,获得每个样本的音频噪声的隐空间特征;根据多个样本的文本样本特征、视频噪 声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩 散模型。 [0018] 在第二方面的可选实施方式中,该训练模块,具体用于获取目标扩散步数;根据文本样本特征以及视频噪声的隐空间特征进行时空扩散变换实现噪声去除,得到初始视频噪 声去除特征,并根据文本样本特征以及音频噪声的隐空间特征进行扩散变换噪声去除,得 到初始音频噪声去除特征;判断扩散步数是否达到预设扩散步数;若扩散步数达到预设扩 散步数,则根据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行时 空扩散变换实现噪声去除,获得初始视频交互特征,并根据初始视频噪声去除特征、初始音 频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得初始音频交互特征; 判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据初始视频交 互特征、视频样本特征、初始音频交互特征与音频样本特征计算预设扩散模型的损失值;判 断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失 值,则获得音视频生成扩散模型。 [0019] 在第二方面的可选实施方式中,该训练模块,还具体用于若判定扩散步数没有达到预设扩散步数,则根据初始视频噪声去除特征以及文本样本特征进行时空扩散变换实现 噪声去除,获得第二视频噪声去除特征,并根据初始音频噪声去除特征以及文本样本特征 进行扩散变换实现噪声去除,获得第二音频噪声去除特征;判断扩散步数是否达到预设扩 散步数;若扩散步数达到预设扩散步数,则根据第二视频噪声去除特征、第二音频噪声去除 特征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始视频交互特征,并根据 第二视频噪声去除特征、第二音频噪声去除特征以及文本样本特征进行扩散变换实现噪声 去除,获得初始音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目标 扩散步数,则根据初始视频交互特征、视频样本特征、初始音频交互特征与音频样本特征计 算预设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散 模型的损失值达到目标损失值,则获得音视频生成扩散模型。 [0020] 在第二方面的可选实施方式中,该训练模块,还具体用于若判定扩散步数未达到目标扩散步数,则根据初始视频交互特征、初始音频交互特征以及文本样本特征进行时空 扩散变换实现噪声去除,获得第二视频交互特征,并根据初始视频交互特征、初始音频交互 特征以及文本样本特征进行扩散变换实现噪声去除,获得第二音频交互特征;判断扩散步 数是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据第二视频交互特征、视频 样本特征、第二音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散 模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则获得音 视频生成扩散模型。 [0021] 在第二方面的可选实施方式中,该训练模块,还具体用于若判定预设扩散模型的损失值未达到目标损失值,则对预设扩散模型的时空扩散变换参数以及扩散变换参数进行 更新;根据更新的时空扩散变换参数、更新的扩散变换参数以及多个样本中的下一样本对 预设扩散模型进行训练,直至计算得到的损失值达到目标损失值,获得音视频生成扩散模 型。 [0022] 在第二方面的可选实施方式中,该获取模块,具体用于获取文本信息,对文本信息进行编码,获得文本样本特征。 [0023] 在第二方面的可选实施方式中,该获取模块,还具体用于获取文本样本特征对应的视频信息以及音频信息;对文本样本特征对应的视频信息进行压缩量化编码,获得文本 样本特征对应的视频样本特征;对文本样本特征对应的音频信息进行量化压缩,获得文本 样本特征对应的音频样本特征。 [0025] 第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时执行第一方面中任一可选所述的方法。 [0026] 第五方面,本发明提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时执行第一方面中任一可选所述的方法的步骤。 [0027] 上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够 更明显易懂,以下特举本申请的具体实施方式。 附图说明 [0028] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看 作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他相关的附图。 [0029] 图1为本申请实施例提供的音频和视频生成方法的第一流程示意图; [0030] 图2为本申请实施例提供的音频和视频生成方法的第二流程示意图; [0031] 图3为本申请实施例提供的时空扩散变换的结构示意图; [0032] 图4为本申请实施例提供的扩散变换的结构示意图; [0033] 图5为本申请实施例提供的音频和视频生成装置的结构示意图; [0034] 图6为本申请实施例提供的电子设备的结构示意图。 [0035] 图标:500‑获取模块;510‑输入模块;520‑解码模块;530‑训练模块;6‑电子设备;601‑处理器;602‑存储器;603‑通信总线。 具体实施方式[0036] 下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范 围。 [0037] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的, 不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和 “具有”以及它们的任何变形,意图在于覆盖不排他的包含。 [0038] 在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次 关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。 [0039] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同 的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和 隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。 [0040] 在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三 种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。 [0041] 在本申请实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。 [0042] 在本申请实施例的描述中,技术术语“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、 以特定的方位构造和操作,因此不能理解为对本申请实施例的限制。 [0043] 在本申请实施例的描述中,除非另有明确的规定和限定,技术术语“安装”“相连”“连接”“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一 体;也可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连, 可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而 言,可以根据具体情况理解上述术语在本申请实施例中的具体含义。 [0045] 在扩散模型架构中没有同时可以生成音频和视频的结构,都是输入文本来分别生成音频和视频,使得音频和视频存在独立无关,从而导致生成的音频和视频没有直接的关 联,进而造成生成的音频和视频存在音画不同步、质量低的问题。 [0046] 基于上述问题,本申请设计一种音频和视频生成方法、电子设备和计算机可读存储介质,通过在扩散模型的扩散过程中,将音频特征引入到视频生成的时空扩散变换结构 中,将视频特征引入到音频生成的扩散变换结构中,从而使得扩散模型生成音频和视频的 时候产生音频和视频的交互信息,使得训练得到的扩散模型输出的音频和视频具有关联 性,进而使得本方案生成的音频和视频的同步性和质量更高。 [0047] 基于上述思路,本申请首先提供一种音频和视频生成方法,该方法可应用于计算设备,该计算设备包括但不限于计算机、服务器、计算芯片、GPU、CPU等等,如图1所示,该音 频和视频生成方法可通过如下方式实现,包括: [0048] 步骤S100:获取目标文本。 [0049] 步骤S110:将目标文本输入预先训练完成的音视频生成扩散模型,获得音视频生成扩散模型输出的目标视频特征以及目标音频特征。 [0050] 步骤S120:对目标视频特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频。 [0051] 在上述实施方式中,目标文本表示的是需转换成视频以及音频的文本信息,例如,该目标文本可以对某个景点的文字描述内容,需生成该景点文字描述内容对应的视频内容 以及音频内容。其中,目标文本可包括目标文本特征,该目标文本特征具体可以是文本特征 向量,文本特征向量可通过对目标文本特征进行编码获得。具体地,文本特征向量可通过采 用T5模型对目标文本特征进行编码获得。 [0052] 通过上述方式获得目标文本的情况下,本方案将该目标文本输入预先训练完成的音视频生成扩散模型,通过预先训练完成的音视频生成扩散模型,输出目标文本对应的目 标视频特征以及目标音频特征。该目标视频特征通过音视频生成扩散模型根据初始视频特 征、初始音频特征以及目标文本特征进行时空扩散变换STDIT生成,该目标音频特征通过音 视频生成扩散模型根据初始音频特征、初始视频特征以及目标文本特征进行扩散变换生 成。其中,该初始视频特征通过音视频生成扩散模型根据第一高斯噪声和目标文本特征进 行时空扩散变换生成,初始音频特征通过音视频生成扩散模型根据第二高斯噪声和目标文 本特征进行扩散变换生成。由于该音视频生成扩散模型在生成目标音频特征的扩散变换过 程中将视频特征作为扩散考虑条件,因此,生成的目标音频特征与视频特征实现关联,同 理,音视频生成扩散模型在生成目标视频特征的时空扩散变换过程中将音频特征作为扩散 考虑条件,因此,生成的目标视频特征与音频特征实现关联,进而实现生成的目标视频特征 与目标音频特征之间具备关联性。其中,本方案描述的扩散变换描述的是使用扩散模型 (Diffusion Transformer,DIT)生成音频特征的变换过程,Diffusion Transformer是一种 结合了Transformer架构的扩散模型,用于图像和视频生成任务,能够高效地捕获数据中的 依赖关系病生成高质量的结果;空间‑时间注意力机制的 STDiT (Spatial Temporal Diffusion Transformer)模型采用了前述的扩散模型Diffusion Transformer 架构,以同 样使用DiT架构的高质量开源文生图模型PixArt‑α 为基座,在此基础上引入时间注意力 层,将其扩展到了视频数据上的模型,其中,DIT和STDIT可采用目前已有的任意一种已有的 模型,本方案是将两个模型结合训练生成前述的音视频生成扩散模型。高斯噪声是指它的 概率密度函数服从高斯分布(即正态分布)的一类噪声。常见的高斯噪声包括起伏噪声、宇 宙噪声、热噪声和散粒噪声等等。 [0053] 通过上述音视频生成扩散模型输出获得目标文本对应的目标视频特征以及目标音频特征之后,本方案对目标视频特征以及目标音频特征分别进行解码,从而获得目标文 本对应的目标视频以及目标音频。具体地,作为一种可能的示例,本方案可采用视频的code 模块的decoder结构对目标视频特征进行解码,获得目标视频,同理,本方案可采用音频的 code模块decoder结构对目标音频特征进行解码,从而获得目标音频。 [0054] 上述设计的音频和视频生成方法,本方案首先获取具有文本特征的目标文本,然后将目标文本输入预先训练完成的音视频生成扩散模型中,通过音视频生成扩散模型生成 输出目标文本对应的目标视频特征以及目标音频特征,进而对目标视频特征以及目标音频 特征分别进行解码,获得目标文本对应的目标视频和目标音频。由于该音视频生成扩散模 型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,因此,生成的目 标音频特征与视频特征实现关联,同理,音视频生成扩散模型在生成目标视频特征的时空 扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标视频特征与音频特征实 现关联,进而实现生成的目标视频特征与目标音频特征之间具备关联性,使得本方案生成 的目标视频和音频同步性高,进而使得音画同步性和质量更高。 [0055] 在本实施例的可选实施方式中,前文描述到本方案通过音视频生成扩散模型生成输出目标视频特征和目标音频特征,对此,本方案可提前对扩散模型进行训练,从而获得训 练完成的音视频生成扩散模型。如图2所示,音视频生成扩散模型的训练过程可包括: [0056] 步骤S200:获取训练集,其中,训练集包括多个样本,每个样本包括文本样本特征以及文本样本特征对应的视频样本特征以及音频样本特征。 [0057] 步骤S210:对每个样本的视频样本特征进行时空切分并加入第一高斯噪声,获得每个样本的视频噪声的隐空间特征。 [0058] 步骤S220:对每个样本的音频样本特征进行时空切分并加入第二高斯噪声,获得每个样本的音频噪声的隐空间特征。 [0059] 步骤S230:根据多个样本的文本样本特征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散模型。 [0060] 在上述实施方式中,本方案可首先获取训练集,该训练集中可包括多个样本,每个样本可包括一个文本样本特征以及文本样本特征对应的视频样本特征以及音频样本特征。 其中,同一样本中的文本样本特征、视频样本特征以及音频样本特征具有对应关系,例如, 该样本可为描述某景点的文字内容、描述该景点的文字内容对应的视频内容以及描述该景 点的文字内容对应的音频内容。该文本样本特征可为前文描述的文本特征向量,该视频样 本特征具体可通过对视频进行压缩量化编码得到的视频特征,例如,可通过 VideoAutoencoder进行视频的特征抽取获得的视频特征;该音频样本特征具体可以是通过 DAC的encoder模型对音频进行量化压缩得到的压缩后的音频特征。 [0061] 通过上述方式得到训练集的多个样本的情况下,本方案可对每个样本中的视频样本特征进行时空切分并加入第一高斯噪声,获得每个样本的视频噪声的隐空间特征,并对 每个样本中的音频样本特征进行时空切分并加入第二高斯噪声,获得每个样本的音频噪声 的隐空间特征。 [0062] 具体地,本方案可对视频进行时空patch切分,然后进行加入第一高斯噪声,得到视频噪声的隐空间特征;即: , , 这里 是扩散步数; ,这里z表示的是时空切分后获得的视频中 间特征, 表示的是加入噪声后得到的隐空间特征; 表示的是进行视频的特征抽取获得 的视频特征; 表示的是依赖视频的参数。 [0063] 本方案可对对压缩后的音频特征,加入第二高斯噪声,得到音频噪声的隐空间特征;即: , 这里 是扩散步数; ,其中, 表示的是音频噪声的隐空间特征, 表示进行 音频的特征抽取获得的音频特征, 表示的是依赖音频的参数。 [0065] 然后本方案根据多个样本的文本样本特征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散模型。 [0066] 具体地,本方案可首先获取目标扩散步数,根据文本样本特征以及视频噪声的隐空间特征进行时空扩散变换实现噪声去除,得到初始视频噪声去除特征,并根据文本样本 特征以及音频噪声的隐空间特征进行扩散变换噪声去除,得到初始音频噪声去除特征。 [0067] 然后判断扩散步数是否达到预设扩散步数,若判定扩散步数达到预设扩散步数,说明扩散达到需要视频和音频交互的步数,本方案则根据初始视频噪声去除特征、初始音 频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始视频交互特 征,并根据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行扩散变 换实现噪声去除,获得初始音频交互特征。 [0068] 进一步判断扩散步数是否达到目标扩散步数,若扩散步数达到目标扩散步数,则说明扩散步数执行完毕,在此情况下,本方案根据初始视频交互特征、视频样本特征、初始 音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散模型的损失值是 否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则说明预设的扩散模型的 参数达到了要求,进而获得音视频生成扩散模型。 [0069] 作为一种可能的实施方式,若本方案判定扩散步数没有达到预设扩散步数,则说明扩散未达到需要视频和音频交互的步数,在此情况下,本方案则继续根据初始视频噪声 去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得第二视频噪声去除特 征,并根据初始音频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得第 二音频噪声去除特征。 [0070] 然后判断扩散步数是否达到预设扩散步数;若扩散步数达到预设扩散步数,则根据第二视频噪声去除特征、第二音频噪声去除特征以及文本样本特征进行时空扩散变换实 现噪声去除,获得初始视频交互特征,并根据第二视频噪声去除特征、第二音频噪声去除特 征以及文本样本特征进行扩散变换实现噪声去除,获得初始音频交互特征。 [0071] 进一步再判断扩散步数是否达到目标扩散步数,若扩散步数达到目标扩散步数,则根据初始视频交互特征、视频样本特征、初始音频交互特征与音频样本特征计算预设扩 散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损 失值达到目标损失值,则获得音视频生成扩散模型。 [0072] 作为一种可能的实施方式,本方案在判断扩散步数是否达到目标扩散步数之后,还包括:若判定扩散步数没有达到目标扩散步数,则说明当前还需要继续进行扩散,在此情 况下,本方案则根据初始视频交互特征、初始音频交互特征以及文本样本特征进行时空扩 散变换实现噪声去除,获得第二视频交互特征,并根据初始视频交互特征、初始音频交互特 征以及文本样本特征进行扩散变换实现噪声去除,获得第二音频交互特征。 [0073] 在上述获得第二视频交互特征以及第二音频交互特征的情况下,本方案继续判定扩散步数是否达到目标扩散步数,若扩散步数达到目标扩散步数,则根据第二视频交互特 征、视频样本特征、第二音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预 设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则 获得音视频生成扩散模型。 [0074] 作为一种可能的实施方式,本方案在判断预设扩散模型的损失值是否达到目标损失值之后,本方法还包括:若判定预设扩散模型的损失值未达到目标损失值,则对预设扩散 模型的时空扩散变换参数以及扩散变换参数进行更新;根据更新的时空扩散变换参数、更 新的扩散变换参数以及多个样本中的下一样本对预设扩散模型进行训练,直至计算得到的 损失值达到目标损失值,获得音视频生成扩散模型。其中,前文描述的预设扩散步数以及目 标扩散步数可根据用户需求进行适应性调整,用户也可以自行调整设置,具体数值可根据 实际应用场景进行调节。 [0075] 上述实施方式可通过如下实施例进行具体说明: [0076] 假设预设扩散步数为3,目标扩散步数为5,在此情况下,本方案首先根据文本样本特征以及视频噪声的隐空间特征进行时空扩散变换实现噪声去除,得到初始视频噪声去除 特征,并根据文本样本特征以及音频噪声的隐空间特征进行扩散变换噪声去除,得到初始 音频噪声去除特征,此时,扩散步数+1其为2,预设扩散步数为3,即扩散步数小于预设扩散 步数。 [0077] 在上述情况下,本方案继续根据初始视频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得第二视频噪声去除特征,并根据初始音频噪声去除特征以 及文本样本特征进行扩散变换实现噪声去除,获得第二音频噪声去除特征,此时,扩散步数 +1其为3,预设扩散步数为3,即扩散步数达到预设扩散步数。 [0078] 在上述扩散步数达到预设扩散步数情况下,本方案则根据第二视频噪声去除特征、第二音频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始 视频交互特征,并根据第二视频噪声去除特征、第二音频噪声去除特征以及文本样本特征 进行扩散变换实现噪声去除,获得初始音频交互特征,此时,判断扩散步数3小于目标扩散 步数5。 [0079] 在上述扩散步数3小于目标扩散步数5的情况下,本方案则根据初始视频交互特征、初始音频交互特征以及文本样本特征进行时空扩散变换实现噪声去除,获得第二视频 交互特征,并根据初始视频交互特征、初始音频交互特征以及文本样本特征进行扩散变换 实现噪声去除,获得第二音频交互特征,此时,判断扩散步数4小于目标扩散步数5。 [0080] 在上述扩散步数4小于目标扩散步数5的情况下,本方案则根据第二视频交互特征、第二音频交互特征以及文本样本特征进行时空扩散变换实现噪声去除,获得第三视频 交互特征,并根据第二视频交互特征、第二音频交互特征以及文本样本特征进行扩散变换 实现噪声去除,获得第三音频交互特征,此时判断扩散步数5达到目标扩散步数5,则根据第 三视频交互特征、视频样本特征、第三音频交互特征与音频样本特征计算预设扩散模型的 损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到 目标损失值,则获得音视频生成扩散模型;若预设扩散模型的损失值没有达到目标损失值, 则继续采用训练集中的样本执行前述训练过程对预设扩散模型进行训练,直至损失值达到 目标损失值为止。 [0081] 其中,前文描述的时空扩散变换可为目前已有的任意一种时空扩散变换结构,例如,如图3所示,视频噪声输入给时空域注意力机制space attention得到时空域注意力机 制space attention的输出,其中,space attention是对同一帧的所有块放一起进行自注 意力模型。 [0082] 在上述基础上,时空域注意力机制的输出、视频噪声、文本特征以及在扩散步数达到预设扩散步数情况下引入的音频特征,一起输入给交叉注意力机制Cross Attention,得 到交叉注意力机制Cross Attention的输出,其中,Cross Attention计算的是第一个序列 中每个元素与第二个序列中所有元素之间的注意力分数,通过这种方式来学习两个序列之 间的关系。 [0083] 在上述基础上,交叉注意力机制Cross Attention的输出以及时空域注意力机制space attention的输出经过第一个多层感知机后输入给时间注意力机制Time Attention,其中,Time Attention表示时间序列的预测。 [0084] 在上述基础上,时间注意力机制Time Attention的输出以及第一多层感知机的输出经过第二个多层感知机后,得到时空扩散变换的输出结果。 [0085] 这里需要说明的是,本方案的创新点在于在交叉注意力机制Cross Attention的步骤增加引入音频特征,从而使得视频特征的时空扩散变换过程将音频特征加入参考,从 而使得视频特征与音频特征关联,其余部分均可为常规的时空扩散变换结构,具体内容在 本申请不进行具体说明。 [0086] 前文描述的扩散变换可为目前已有的任意一种扩散变换结构,例如,如图4所示,音频噪声输入给自注意力模型,得到自注意力模型的输出,然后将自注意力模型的输出、文 本特征以及在达到预设扩散步数情况下引入的视频特征输入给交叉注意力机制Cross Attention,获得交叉注意力机制Cross Attention的输出后经过多层感知机得到音频扩散 变换的结果。 [0087] 这里需要说明的是,本方案的创新点在于在扩散变换的交叉注意力机制Cross Attention的步骤增加引入视频特征,从而使得音频特征的扩散变换过程将视频特征加入 参考,从而使得视频特征与音频特征关联,其余部分均可为常规的扩散变换结构,具体内容 在本申请不进行具体说明。 [0088] 上述实施方式,本方案在训练预设扩散模型的过程中,通过在达到预设扩散步数的情况下,在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,并在生 成目标视频特征的时空扩散变换过程中将音频特征作为扩散考虑条件,从而使得视频特征 与音频特征进行关联,进而使得训练得到的预设扩散模型对于输入的文本而输出的视频特 征与音频特征也相应进行关联,使得本方案训练得到的音视频生成扩散模型识别输出的目 标视频特征和目标音频特征具备关联性,使得本方案生成的目标视频和音频同步性高,进 而使得音画同步性和质量更高。 [0089] 图5出示了本申请提供一种音频和视频生成装置的示意性结构框图,应理解,该装置应用于前文描述的电子设备,该装置与图1和4中执行的方法实施例对应,能够执行前述 的方法涉及的步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略 详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化 在装置的操作系统(operating system,OS)中的软件功能模块。具体地,该装置包括:获取 模块500、输入模块510以及解码模块520,该获取模块500,用于获取目标文本,其中,所述目 标文本包括目标文本特征;该输入模块510,用于将目标文本输入预先训练完成的音视频生 成扩散模型,获得音视频生成扩散模型输出的目标视频特征以及目标音频特征,其中,目标 视频特征通过音视频生成扩散模型根据初始视频特征、初始音频特征以及目标文本特征进 行时空扩散变换生成,目标音频特征通过音视频生成扩散模型根据初始音频特征、初始视 频特征以及目标文本特征进行扩散变换生成,初始视频特征通过音视频生成扩散模型根据 第一高斯噪声和目标文本特征进行时空扩散变换生成,初始音频特征通过音视频生成扩散 模型根据第二高斯噪声和目标文本特征进行扩散变换生成;解码模块520,用于对目标视频 特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频。 [0090] 上述设计的音频和视频生成装置,本方案首先获取具有文本特征的目标文本,然后将目标文本输入预先训练完成的音视频生成扩散模型中,通过音视频生成扩散模型生成 输出目标文本对应的目标视频特征以及目标音频特征,进而对目标视频特征以及目标音频 特征分别进行解码,获得目标文本对应的目标视频和目标音频。由于该音视频生成扩散模 型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,因此,生成的目 标音频特征与视频特征实现关联,同理,音视频生成扩散模型在生成目标视频特征的时空 扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标视频特征与音频特征实 现关联,进而实现生成的目标视频特征与目标音频特征之间具备关联性,使得本方案生成 的目标视频和音频同步性高,进而使得音画同步性和质量更高。 [0091] 根据本申请的一些实施例,该装置还包括训练模块530,用于获取训练集,其中,训练集包括多个样本,每个样本包括文本样本特征以及文本样本特征对应的视频样本特征以 及音频样本特征;对每个样本的视频样本特征进行时空切分并加入第一高斯噪声,获得每 个样本的视频噪声的隐空间特征;对每个样本的音频样本特征进行时空切分并加入第二高 斯噪声,获得每个样本的音频噪声的隐空间特征;根据多个样本的文本样本特征、视频噪声 的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散 模型。 [0092] 根据本申请的一些实施例,该训练模块530,具体用于获取目标扩散步数;根据文本样本特征以及视频噪声的隐空间特征进行时空扩散变换实现噪声去除,得到初始视频噪 声去除特征,并根据文本样本特征以及音频噪声的隐空间特征进行扩散变换噪声去除,得 到初始音频噪声去除特征;判断扩散步数是否达到预设扩散步数;若扩散步数达到预设扩 散步数,则根据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行时 空扩散变换实现噪声去除,获得初始视频交互特征,并根据初始视频噪声去除特征、初始音 频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得初始音频交互特征; 判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据初始视频交 互特征、视频样本特征、初始音频交互特征与音频样本特征计算预设扩散模型的损失值;判 断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失 值,则获得音视频生成扩散模型。 [0093] 根据本申请的一些实施例,该训练模块530,还具体用于若判定扩散步数没有达到预设扩散步数,则根据初始视频噪声去除特征以及文本样本特征进行时空扩散变换实现噪 声去除,获得第二视频噪声去除特征,并根据初始音频噪声去除特征以及文本样本特征进 行扩散变换实现噪声去除,获得第二音频噪声去除特征;判断扩散步数是否达到预设扩散 步数;若扩散步数达到预设扩散步数,则根据第二视频噪声去除特征、第二音频噪声去除特 征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始视频交互特征,并根据第 二视频噪声去除特征、第二音频噪声去除特征以及文本样本特征进行扩散变换实现噪声去 除,获得初始音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩 散步数,则根据初始视频交互特征、视频样本特征、初始音频交互特征与音频样本特征计算 预设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模 型的损失值达到目标损失值,则获得音视频生成扩散模型。 [0094] 根据本申请的一些实施例,该训练模块530,还具体用于若判定扩散步数未达到目标扩散步数,则根据初始视频交互特征、初始音频交互特征以及文本样本特征进行时空扩 散变换实现噪声去除,获得第二视频交互特征,并根据初始视频交互特征、初始音频交互特 征以及文本样本特征进行扩散变换实现噪声去除,获得第二音频交互特征;判断扩散步数 是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据第二视频交互特征、视频样 本特征、第二音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散模 型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则获得音视 频生成扩散模型。 [0095] 根据本申请的一些实施例,该训练模块530,还具体用于若判定预设扩散模型的损失值未达到目标损失值,则对预设扩散模型的时空扩散变换参数以及扩散变换参数进行更 新;根据更新的时空扩散变换参数、更新的扩散变换参数以及多个样本中的下一样本对预 设扩散模型进行训练,直至计算得到的损失值达到目标损失值,获得音视频生成扩散模型。 [0096] 根据本申请的一些实施例,该获取模块500,具体用于获取文本信息,对文本信息进行编码,获得文本样本特征。 [0097] 根据本申请的一些实施例,该获取模块500,还具体用于获取文本样本特征对应的视频信息以及音频信息;对文本样本特征对应的视频信息进行压缩量化编码,获得文本样 本特征对应的视频样本特征;对文本样本特征对应的音频信息进行量化压缩,获得文本样 本特征对应的音频样本特征。 [0098] 根据本申请的一些实施例,如图6所示,本申请提供一种电子设备6,包括:处理器601和存储器602,处理器601和存储器602通过通信总线603和/或其他形式的连接机构(未 标出)互连并相互通讯,存储器602存储有处理器601可执行的计算机程序,当计算设备运行 时,处理器601执行该计算机程序,以执行时执行任一可选的实现方式的方法,例如步骤 S100至步骤S120:获取目标文本;将目标文本输入预先训练完成的音视频生成扩散模型,获 得音视频生成扩散模型输出的目标视频特征以及目标音频特征;对目标视频特征以及目标 音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频。 [0099] 本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述任一可选的实现方式中的方法。 [0100] 其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory, 简称SRAM),电可擦除可编程 只读存储器(Electrically Erasable Programmable Read‑Only Memory, 简称EEPROM), 可擦除可编程只读存储器(Erasable Programmable Read Only Memory, 简称EPROM),可 编程只读存储器(Programmable Red‑Only Memory, 简称PROM),只读存储器(Read‑Only Memory, 简称ROM),磁存储器,快闪存储器,磁盘或光盘。 [0101] 本申请提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行任一可选的实现方式中的方法。 [0102] 最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依 然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进 行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术 方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。尤其是,只要不存在结 构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来。本申请并不局限 于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。 |