视频格转换方法、转换装置、存储介质和程序产品

专利类型 发明公开 法律事件 实质审查;
专利有效性 实质审查 当前状态 实质审查
申请号 CN202410863820.7 申请日 2024-06-29
公开(公告)号 CN118870122A 公开(公告)日 2024-10-29
申请人 北京捷通华声科技股份有限公司; 申请人类型 企业
发明人 李健; 高大帅; 王愈; 陈明; 武卫东; 第一发明人 李健
权利人 北京捷通华声科技股份有限公司 权利人类型 企业
当前权利人 北京捷通华声科技股份有限公司 当前权利人类型 企业
省份 当前专利权人所在省份:北京市 城市 当前专利权人所在城市:北京市海淀区
具体地址 当前专利权人所在详细地址:北京市海淀区东北旺西路8号9号楼3层2区318 邮编 当前专利权人邮编:100193
主IPC国际分类 H04N21/4402 所有IPC国际分类 H04N21/4402G06T9/00G06T3/04
专利引用数量 0 专利被引用数量 0
专利权利要求数量 10 专利文献类型 A
专利代理机构 北京康信知识产权代理有限责任公司 专利代理人 汪凡;
摘要 本 申请 提供了一种视频 风 格转换方法、转换装置、存储介质和程序产品。该方法包括:获取第一视频,且获取目标描述文本;至少将第一视频和目标描述文本输入第一加噪模型,得到第一目标噪声序列;将第一目标噪声序列输入第一去噪模型,得到第二视频;该方法解决了 现有技术 中转换风格后的视频前后 帧 之间的连续性较差的问题。
权利要求

1.一种视频格转换方法,其特征在于,所述方法包括:
获取第一视频,且获取目标描述文本,所述目标描述文本定义了目标风格,所述目标风格为用户期望的风格,所述风格至少表示色调和镜头运用;
至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列,所述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组所述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,所述第一风格为任意一种所述风格,所述描述文本定义了第二风格,所述第二风格为区别于所述第一风格的任意一种所述风格;
将所述第一目标噪声序列输入第一去噪模型,得到第二视频,所述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组所述第二训练数据包括历史时间段内获取的:噪声序列、所述第二风格的视频,所述第二视频的风格为所述目标风格。
2.根据权利要求1所述的方法,其特征在于,获取目标描述文本,包括:
将目标图像输入CLIP编码器,得到所述目标图像对应的语义向量,所述目标图像为所述风格为所述目标风格的图像,所述目标图像对应的所述语义向量表示所述目标图像在语义空间中的位置
根据所述目标图像对应的所述语义向量,确定所述目标描述文本。
3.根据权利要求2所述的方法,其特征在于,根据所述目标图像对应的所述语义向量,确定所述目标描述文本,包括:
将所述目标图像对应的所述语义向量输入文本生成模型,得到所述目标描述文本,所述文本生成模型是通过多组第三训练数据训练神经网络得到的,每组所述第三训练数据包括历史时间段内获取的:图像对应的所述语义向量、所述图像对应的文本,所述图像对应的所述文本定义了所述图像的所述风格。
4.根据权利要求1所述的方法,其特征在于,至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列,包括:
将所述第一视频和第一目标随机噪声输入第二加噪模型,得到第二目标噪声序列,所述第一目标随机噪声为任意一种随机噪声,所述第二加噪模型为通过多组第四训练数据训练第二脉冲扩散模型构建得到的,每组所述第四训练数据包括历史时间段内获取的:所述第一风格的视频、随机噪声、噪声序列;
将所述第二目标噪声序列和输入第二去噪模型,得到第三视频,所述第二去噪模型是通过多组第五训练数据训练第二DPM模型得到的,每组所述第五训练数据包括历史时间段内获取的:噪声序列、所述第一风格的视频;
至少将所述第三视频和所述目标描述文本输入所述第一加噪模型,得所述第一目标噪声序列。
5.根据权利要求4所述的方法,其特征在于,至少将所述第三视频和所述目标描述文本输入所述第一加噪模型,得所述第一目标噪声序列,包括:
将所述第三视频和第二目标随机噪声输入第三加噪模型,得到第三目标噪声序列,所述第二目标随机噪声为任意一种所述随机噪声,所述第三加噪模型为通过多组第六训练数据训练第三脉冲扩散模型构建得到的,每组所述第六训练数据包括历史时间段内获取的:
所述第一风格的视频、随机噪声、噪声序列;
将所述第三目标噪声序列和所述目标描述文本输入所述第一加噪模型,得所述第一目标噪声序列,每组所述第一训练数据还包括历史时间段内获取的:噪声序列。
6.根据权利要求1所述的方法,其特征在于,在至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列之前,所述方法还包括:
将第一扩散模型中的内部神经元替换为LIF神经元,得到所述第一脉冲扩散模型。
7.根据权利要求3所述的方法,其特征在于,所述神经网络为SNNMLP神经网络。
8.一种视频风格转换装置,其特征在于,所述装置包括:
获取单元,用于获取第一视频,且获取目标描述文本,所述目标描述文本定义了目标风格,所述目标风格为用户期望的风格,所述风格至少表示色调和镜头运用;
加噪单元,用于至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列,所述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组所述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,所述第一风格为任意一种所述风格,所述描述文本定义了第二风格,所述第二风格为区别于所述第一风格的任意一种所述风格;
去噪单元,用于将所述第一目标噪声序列输入第一去噪模型,得到第二视频,所述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组所述第二训练数据包括历史时间段内获取的:噪声序列、所述第二风格的视频,所述第二视频的风格为所述目标风格。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的视频风格转换方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7中任意一项所述的视频风格转换方法。

说明书全文

视频格转换方法、转换装置、存储介质和程序产品

技术领域

[0001] 本发明涉及视频风格转换领域,具体而言,涉及一种视频风格转换方法、视频风格转换装置、计算机可读存储介质和计算机程序产品。

背景技术

[0002] 目前的视频风格转换方法为:将原视频和自定义的描述词(描述目标风格)输入卷积神经网络(CNN,Convolutional Neural Network),得到目标风格的视频,这种方法存在一些问题,这些问题如下:
[0003] 风格转换后的视频往往缺乏强烈的时间关联性,导致每一之间的连贯性和一致性不够,尤其是在要求严格的场景下难以满足实际需求,未能有效地保持前后帧之间的连续性和流畅性,使得结果视频缺乏自然的过渡和一致的风格表现,在需要强时间关联性和统一性的应用场景中,这种问题限制了风格迁移技术的有效性和可用性,使其难以满足对视频连续性和风格一致性有严格要求的场合。
[0004] 自定义的描述词无法完全表述目标风格,因此,利用自定义的描述词来指导卷积神经网络进行视频风格转换,导致卷积神经网络法完全理解和捕捉目标风格的细节信息,导致风格转换后的视频显得生硬、缺乏细节且显得不够自然。
[0005] 目前,针对上述问题,暂无解决方案。

发明内容

[0006] 本申请的主要目的在于提供一种视频风格转换方法、视频风格转换装置、计算机可读存储介质和计算机程序产品,以至少解决现有技术中转换风格后的视频前后帧之间的连续性较差的问题。
[0007] 为了实现上述目的,根据本申请的一个方面,提供了一种视频风格转换方法,所述方法包括:获取第一视频,且获取目标描述文本,所述目标描述文本定义了目标风格,所述目标风格为用户期望的风格,所述风格至少表示色调和镜头运用;至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列,所述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组所述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,所述第一风格为任意一种所述风格,所述描述文本定义了第二风格,所述第二风格为区别于所述第一风格的任意一种所述风格;将所述第一目标噪声序列输入第一去噪模型,得到第二视频,所述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组所述第二训练数据包括历史时间段内获取的:噪声序列、所述第二风格的视频,所述第二视频的风格为所述目标风格。
[0008] 可选地,获取目标描述文本,包括:将目标图像输入CLIP编码器,得到所述目标图像对应的语义向量,所述目标图像为所述风格为所述目标风格的图像,所述目标图像对应的所述语义向量表示所述目标图像在语义空间中的位置;根据所述目标图像对应的所述语义向量,确定所述目标描述文本。
[0009] 可选地,根据所述目标图像对应的所述语义向量,确定所述目标描述文本,包括:将所述目标图像对应的所述语义向量输入文本生成模型,得到所述目标描述文本,所述文本生成模型是通过多组第三训练数据训练神经网络得到的,每组所述第三训练数据包括历史时间段内获取的:图像对应的所述语义向量、所述图像对应的文本,所述图像对应的所述文本定义了所述图像的所述风格。
[0010] 可选地,至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列,包括:将所述第一视频和第一目标随机噪声输入第二加噪模型,得到第二目标噪声序列,所述第一目标随机噪声为任意一种随机噪声,所述第二加噪模型为通过多组第四训练数据训练第二脉冲扩散模型构建得到的,每组所述第四训练数据包括历史时间段内获取的:所述第一风格的视频、随机噪声、噪声序列;将所述第二目标噪声序列和输入第二去噪模型,得到第三视频,所述第二去噪模型是通过多组第五训练数据训练第二DPM模型得到的,每组所述第五训练数据包括历史时间段内获取的:噪声序列、所述第一风格的视频;至少将所述第三视频和所述目标描述文本输入所述第一加噪模型,得所述第一目标噪声序列。
[0011] 可选地,至少将所述第三视频和所述目标描述文本输入所述第一加噪模型,得所述第一目标噪声序列,包括:将所述第三视频和第二目标随机噪声输入第三加噪模型,得到第三目标噪声序列,所述第二目标随机噪声为任意一种所述随机噪声,所述第三加噪模型为通过多组第六训练数据训练第三脉冲扩散模型构建得到的,每组所述第六训练数据包括历史时间段内获取的:所述第一风格的视频、随机噪声、噪声序列;将所述第三目标噪声序列和所述目标描述文本输入所述第一加噪模型,得所述第一目标噪声序列,每组所述第一训练数据还包括历史时间段内获取的:噪声序列。
[0012] 可选地,在至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列之前,所述方法还包括:将第一扩散模型中的内部神经元替换为LIF神经元,得到所述第一脉冲扩散模型。
[0013] 可选地,所述神经网络为SNNMLP神经网络。
[0014] 根据本申请的另一方面,提供了一种视频风格转换装置,所述装置包括:获取单元,用于获取第一视频,且获取目标描述文本,所述目标描述文本定义了目标风格,所述目标风格为用户期望的风格,所述风格至少表示色调和镜头运用;加噪单元,用于至少将所述第一视频和所述目标描述文本输入第一加噪模型,得到第一目标噪声序列,所述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组所述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,所述第一风格为任意一种所述风格,所述描述文本定义了第二风格,所述第二风格为区别于所述第一风格的任意一种所述风格;去噪单元,用于将所述第一目标噪声序列输入第一去噪模型,得到第二视频,所述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组所述第二训练数据包括历史时间段内获取的:噪声序列、所述第二风格的视频,所述第二视频的风格为所述目标风格。
[0015] 根据本申请的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的视频风格转换方法。
[0016] 根据本申请的又一方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现任意一种所述的视频风格转换方法。
[0017] 应用本申请的技术方案,本申请在视频风格转换过程中引入脉冲扩散模型,脉冲扩散模型能够充分学习每一帧之间的关联性,使得风格转换后的视频的帧之间有强相关性,确保帧与帧之间的连续性。从而解决了现有技术中转换风格后的视频前后帧之间的连续性较差的问题。附图说明
[0018] 图1示出了根据本申请的实施例中提供的一种执行视频风格转换方法的移动终端的硬件结构框图
[0019] 图2示出了根据本申请的实施例提供的第一种视频风格转换方法的流程示意图;
[0020] 图3示出了根据本申请的实施例提供的第二种视频风格转换方法的流程示意图;
[0021] 图4示出了根据本申请的实施例提供的一种视频风格转换装置的结构框图。
[0022] 其中,上述附图包括以下附图标记:
[0023] 102、处理器;104、存储器;106、传输设备;108、输入输出设备。

具体实施方式

[0024] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0025] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0026] 需要说明的是,本申请的说明书权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0027] 为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
[0028] CLIP编码器(Contrastive Language‑Image Pre‑training Encoder):CLIP编码器是一种深度学习模型,用于将输入的文本或图像编码成语义向量。
[0029] SNNMLP神经网络(Spiking Neural Network Multi‑Layer Perceptron):是一种结合了脉冲神经网络(Spiking  Neural Network)和多层感知器(Multi‑Layer Perceptron)的神经网络模型。在SNNMLP神经网络中,神经元之间的信号传递是通过脉冲信号来实现的,这种传输方式比传统的神经元之间的连续信号传输更接近生物神经系统的工作方式。
[0030] DPM模型(Diffusion Probability Model,扩散概率模型):一种用于去噪的模型,其输入是包含噪声的数据,输出是去除噪声后的数据。
[0031] 正如背景技术中所介绍的,现有技术中转换风格后的视频前后帧之间的连续性较差,为解决现有技术中转换风格后的视频前后帧之间的连续性较差的问题,本申请的实施例提供了一种视频风格转换方法、视频风格转换装置、计算机可读存储介质和计算机程序产品。
[0032] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0033] 本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种视频风格转换方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0034] 存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模,如本发明实施例中的设备信息的显示方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
[0035] 在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的视频风格转换方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0036] 图2是根据本申请实施例的视频风格转换方法的流程图。如图2所示,该方法包括以下步骤:
[0037] 步骤S201,获取第一视频,且获取目标描述文本;
[0038] 其中,上述目标描述文本定义了目标风格,上述目标风格为用户期望的风格,上述风格至少表示色调和镜头运用;
[0039] 具体地,上述风格还包括光影、对比度等视频画面风格。
[0040] 在一种可选的方案中,在上述步骤S2012之前,上述方法还包括:
[0041] 将第一扩散模型中的内部神经元替换为LIF神经元,得到上述第一脉冲扩散模型。
[0042] 具体地,下述的第二脉冲扩散模型、第三脉冲扩散模型同理。
[0043] 在一种可选的方案中,上述步骤S201中的获取目标描述文本包括:
[0044] 步骤S2011,将目标图像输入CLIP编码器,得到上述目标图像对应的语义向量,上述目标图像为上述风格为上述目标风格的图像,上述目标图像对应的上述语义向量表示上述目标图像在语义空间中的位置;
[0045] 步骤S2012,根据上述目标图像对应的上述语义向量,确定上述目标描述文本。
[0046] 具体地,将目标风格的图像即目标图像输入CLIP编码器,得到目标图像对应的语义向量,CLIP编码器能够从目标图像中更加全面地理解和捕捉目标视频风格的细节信息,以使得风格转换后的视频更加流畅、细节全面且自然,从而解决了现有技术中自定义的描述词无法完全表述目标风格,因此,利用自定义的描述词来指导卷积神经网络进行视频风格转换,导致卷积神经网络法完全理解和捕捉目标风格的细节信息,导致风格转换后的视频显得生硬、缺乏细节且显得不够自然的问题。
[0047] 在一种可选的方案中,上述步骤S2012可以实现为:
[0048] 将上述目标图像对应的上述语义向量输入文本生成模型,得到上述目标描述文本,上述文本生成模型是通过多组第三训练数据训练神经网络得到的,每组上述第三训练数据包括历史时间段内获取的:图像对应的上述语义向量、上述图像对应的文本,上述图像对应的上述文本定义了上述图像的上述风格。
[0049] 具体地,文本生成模型能够从目标图像对应的语义向量中更加全面地理解和捕捉目标视频风格的细节信息,输出具有目标视频风格的细节信息的目标描述文本。
[0050] 在一种可选的方案中,上述神经网络为SNNMLP神经网络。
[0051] 步骤S202,至少将上述第一视频和上述目标描述文本输入第一加噪模型,得到第一目标噪声序列;
[0052] 其中,上述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组上述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,上述第一风格为任意一种上述风格,上述描述文本定义了第二风格,上述第二风格为区别于上述第一风格的任意一种上述风格;
[0053] 具体地,第一目标噪声序列中的噪声与第一视频中的图像一一对应。
[0054] 在一种可选的方案中,上述步骤S202可以实现为:
[0055] 步骤S2021,将上述第一视频和第一目标随机噪声输入第二加噪模型,得到第二目标噪声序列,上述第一目标随机噪声为任意一种随机噪声,上述第二加噪模型为通过多组第四训练数据训练第二脉冲扩散模型构建得到的,每组上述第四训练数据包括历史时间段内获取的:上述第一风格的视频、随机噪声、噪声序列;
[0056] 具体地,第二目标噪声序列中的噪声与第一视频中的图像一一对应。
[0057] 步骤S2022,将上述第二目标噪声序列和输入第二去噪模型,得到第三视频,上述第二去噪模型是通过多组第五训练数据训练第二DPM模型得到的,每组上述第五训练数据包括历史时间段内获取的:噪声序列、上述第一风格的视频;
[0058] 步骤S2023,至少将上述第三视频和上述目标描述文本输入上述第一加噪模型,得上述第一目标噪声序列。
[0059] 具体地,首先,将第一视频和第一目标随机噪声输入第二加噪模型,得到第二目标噪声序列,然后,将第二目标噪声序列和输入第二去噪模型,得到第三视频,即依次对第一视频进行加噪和去噪处理,加噪可以模拟真实环境中的噪声,使加噪后的视频更接近真实世界的情况,而去噪则可以帮助消除视频中的噪声,经过加噪和去噪处理的视频清晰度更高、质量更高且更关注于细节,因此,相比于第一视频,第三视频的清晰度更高、质量更高且更关注于细节,至少将第三视频和目标描述文本输入第一加噪模型,得第二视频,从而避免第一视频中的噪声对视频风格转换的影响。
[0060] 在一种可选的方案中,上述步骤S2023可以实现为:
[0061] 将上述第三视频和第二目标随机噪声输入第三加噪模型,得到第三目标噪声序列,上述第二目标随机噪声为任意一种上述随机噪声,上述第三加噪模型为通过多组第六训练数据训练第三脉冲扩散模型构建得到的,每组上述第六训练数据包括历史时间段内获取的:上述第一风格的视频、随机噪声、噪声序列;
[0062] 具体地,第三目标噪声序列中的噪声与第一视频中的图像一一对应。
[0063] 将上述第三目标噪声序列和上述目标描述文本输入上述第一加噪模型,得上述第一目标噪声序列,每组上述第一训练数据还包括历史时间段内获取的:噪声序列。
[0064] 具体地,增加加噪次数可以帮助进一步模糊第一视频,从而增强去噪效果,从而避免第一视频中的噪声对视频风格转换的影响。
[0065] 需要说明的是,第一加噪模型的输入为第一风格的视频和描述文本,输出为第二风格的视频,或者,第一加噪模型的输入为第噪声序列和描述文本,输出为第二风格的视频。
[0066] 步骤S203,将上述第一目标噪声序列输入第一去噪模型,得到第二视频;
[0067] 其中,上述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组上述第二训练数据包括历史时间段内获取的:噪声序列、上述第二风格的视频,上述第二视频的风格为上述目标风格。
[0068] 通过上述实施例,本申请在视频风格转换过程中引入脉冲扩散模型,脉冲扩散模型能够充分学习每一帧之间的关联性,使得风格转换后的视频的帧之间有强相关性,确保帧与帧之间的连续性。从而解决了现有技术中转换风格后的视频前后帧之间的连续性较差的问题。
[0069] 为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例对本申请的视频风格转换方法的实现过程进行详细说明。
[0070] 本实施例涉及一种具体的视频风格转换方法,如图3所示,包括如下步骤:
[0071] 步骤S1:将目标图像输入CLIP编码器,得到上述目标图像对应的语义向量;
[0072] 步骤S2:将上述目标图像对应的上述语义向量输入文本生成模型,得到上述目标描述文本;
[0073] 步骤S3:将上述第一视频和第一目标随机噪声输入第二加噪模型,得到第二目标噪声序列;
[0074] 步骤S4:将上述第二目标噪声序列和输入第二去噪模型,得到第三视频;
[0075] 步骤S5:将上述第三视频和第二目标随机噪声输入第三加噪模型,得到第三目标噪声序列;
[0076] 步骤S6:将上述第三目标噪声序列和上述目标描述文本输入上述第一加噪模型,得上述第一目标噪声序列;
[0077] 步骤S5:将上述第一目标噪声序列输入第一去噪模型,得到第二视频。
[0078] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0079] 本申请实施例还提供了一种视频风格转换装置,需要说明的是,本申请实施例的视频风格转换装置可以用于执行本申请实施例所提供的用于视频风格转换方法。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0080] 以下对本申请实施例提供的视频风格转换装置进行介绍。
[0081] 图4是根据本申请实施例的视频风格转换装置的结构框图。如图4所示,该装置包括:
[0082] 获取单元10,用于获取第一视频,且获取目标描述文本;
[0083] 其中,上述目标描述文本定义了目标风格,上述目标风格为用户期望的风格,上述风格至少表示色调和镜头运用;
[0084] 具体地,上述风格还包括光影、对比度等视频画面风格。
[0085] 在一种可选的方案中,上述装置还包括:
[0086] 替换单元,用于将第一扩散模型中的内部神经元替换为LIF神经元,得到上述第一脉冲扩散模型。
[0087] 具体地,下述的第二脉冲扩散模型、第三脉冲扩散模型同理。
[0088] 在一种可选的方案中,上述获取单元包括:
[0089] 第一输入模块,用于将目标图像输入CLIP编码器,得到上述目标图像对应的语义向量,上述目标图像为上述风格为上述目标风格的图像,上述目标图像对应的上述语义向量表示上述目标图像在语义空间中的位置;
[0090] 确定模块,用于根据上述目标图像对应的上述语义向量,确定上述目标描述文本。
[0091] 具体地,目标风格的图像即目标图像输入CLIP编码器,得到目标图像对应的语义向量,CLIP编码器能够从目标图像中更加全面地理解和捕捉目标视频风格的细节信息,以使得风格转换后的视频更加流畅、细节全面且自然,从而解决了现有技术中自定义的描述词无法完全表述目标风格,因此,利用自定义的描述词来指导卷积神经网络进行视频风格转换,导致卷积神经网络法完全理解和捕捉目标风格的细节信息,导致风格转换后的视频显得生硬、缺乏细节且显得不够自然的问题。
[0092] 在一种可选的方案中,上述确定模块包括:
[0093] 第一输入子模块,用于将上述目标图像对应的上述语义向量输入文本生成模型,得到上述目标描述文本,上述文本生成模型是通过多组第三训练数据训练神经网络得到的,每组上述第三训练数据包括历史时间段内获取的:图像对应的上述语义向量、上述图像对应的文本,上述图像对应的上述文本定义了上述图像的上述风格。
[0094] 具体地,文本生成模型能够从目标图像对应的语义向量中更加全面地理解和捕捉目标视频风格的细节信息,输出具有目标视频风格的细节信息的目标描述文本。
[0095] 在一种可选的方案中,上述神经网络为SNNMLP神经网络。
[0096] 加噪单元20,用于至少将上述第一视频和上述目标描述文本输入第一加噪模型,得到第一目标噪声序列;
[0097] 其中,上述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组上述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,上述第一风格为任意一种上述风格,上述描述文本定义了第二风格,上述第二风格为区别于上述第一风格的任意一种上述风格;
[0098] 具体地,第一目标噪声序列中的噪声与第一视频中的图像一一对应。
[0099] 在一种可选的方案中,上述加噪单元包括:
[0100] 第二输入模块,用于将上述第一视频和第一目标随机噪声输入第二加噪模型,得到第二目标噪声序列,上述第一目标随机噪声为任意一种随机噪声,上述第二加噪模型为通过多组第四训练数据训练第二脉冲扩散模型构建得到的,每组上述第四训练数据包括历史时间段内获取的:上述第一风格的视频、随机噪声、噪声序列;
[0101] 具体地,第二目标噪声序列中的噪声与第一视频中的图像一一对应。
[0102] 第三输入模块,用于将上述第二目标噪声序列和输入第二去噪模型,得到第三视频,上述第二去噪模型是通过多组第五训练数据训练第二DPM模型得到的,每组上述第五训练数据包括历史时间段内获取的:噪声序列、上述第一风格的视频;
[0103] 第四输入模块,用于至少将上述第三视频和上述目标描述文本输入上述第一加噪模型,得上述第一目标噪声序列。
[0104] 具体地,首先,将第一视频和第一目标随机噪声输入第二加噪模型,得到第二目标噪声序列,然后,将第二目标噪声序列和输入第二去噪模型,得到第三视频,即依次对第一视频进行加噪和去噪处理,加噪可以模拟真实环境中的噪声,使加噪后的视频更接近真实世界的情况,而去噪则可以帮助消除视频中的噪声,经过加噪和去噪处理的视频清晰度更高、质量更高且更关注于细节,因此,相比于第一视频,第三视频的清晰度更高、质量更高且更关注于细节,至少将第三视频和目标描述文本输入第一加噪模型,得第二视频,从而避免第一视频中的噪声对视频风格转换的影响。
[0105] 在一种可选的方案中,上述第四输入模块包括:
[0106] 第二输入子模块,用于将上述第三视频和第二目标随机噪声输入第三加噪模型,得到第三目标噪声序列,上述第二目标随机噪声为任意一种上述随机噪声,上述第三加噪模型为通过多组第六训练数据训练第三脉冲扩散模型构建得到的,每组上述第六训练数据包括历史时间段内获取的:上述第一风格的视频、随机噪声、噪声序列;
[0107] 具体地,第三目标噪声序列中的噪声与第一视频中的图像一一对应。
[0108] 第三输入子模块,用于将上述第三目标噪声序列和上述目标描述文本输入上述第一加噪模型,得上述第一目标噪声序列,每组上述第一训练数据还包括历史时间段内获取的:噪声序列。
[0109] 具体地,增加加噪次数可以帮助进一步模糊第一视频,从而增强去噪效果,从而避免第一视频中的噪声对视频风格转换的影响。
[0110] 需要说明的是,第一加噪模型的输入为第一风格的视频和描述文本,输出为第二风格的视频,或者,第一加噪模型的输入为第噪声序列和描述文本,输出为第二风格的视频。
[0111] 去噪单元30,用于将上述第一目标噪声序列输入第一去噪模型,得到第二视频;
[0112] 其中,上述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组上述第二训练数据包括历史时间段内获取的:噪声序列、上述第二风格的视频,上述第二视频的风格为上述目标风格。
[0113] 通过上述实施例,本申请在视频风格转换过程中引入脉冲扩散模型,脉冲扩散模型能够充分学习每一帧之间的关联性,使得风格转换后的视频的帧之间有强相关性,确保帧与帧之间的连续性。从而解决了现有技术中转换风格后的视频前后帧之间的连续性较差的问题。
[0114] 上述视频风格转换装置包括处理器和存储器,上述获取单元、加噪单元和去噪单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
[0115] 处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中转换风格后的视频前后帧之间的连续性较差的问题。
[0116] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
[0117] 本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述视频风格转换方法。
[0118] 具体地,视频风格转换方法包括:
[0119] 步骤S201,获取第一视频,且获取目标描述文本;
[0120] 其中,上述目标描述文本定义了目标风格,上述目标风格为用户期望的风格,上述风格至少表示色调和镜头运用;
[0121] 步骤S202,至少将上述第一视频和上述目标描述文本输入第一加噪模型,得到第一目标噪声序列;
[0122] 其中,上述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组上述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,上述第一风格为任意一种上述风格,上述描述文本定义了第二风格,上述第二风格为区别于上述第一风格的任意一种上述风格;
[0123] 步骤S203,将上述第一目标噪声序列输入第一去噪模型,得到第二视频;
[0124] 其中,上述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组上述第二训练数据包括历史时间段内获取的:噪声序列、上述第二风格的视频,上述第二视频的风格为上述目标风格。
[0125] 本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述视频风格转换方法。
[0126] 具体地,视频风格转换方法包括:
[0127] 步骤S201,获取第一视频,且获取目标描述文本;
[0128] 其中,上述目标描述文本定义了目标风格,上述目标风格为用户期望的风格,上述风格至少表示色调和镜头运用;
[0129] 步骤S202,至少将上述第一视频和上述目标描述文本输入第一加噪模型,得到第一目标噪声序列;
[0130] 其中,上述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组上述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,上述第一风格为任意一种上述风格,上述描述文本定义了第二风格,上述第二风格为区别于上述第一风格的任意一种上述风格;
[0131] 步骤S203,将上述第一目标噪声序列输入第一去噪模型,得到第二视频;
[0132] 其中,上述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组上述第二训练数据包括历史时间段内获取的:噪声序列、上述第二风格的视频,上述第二视频的风格为上述目标风格。
[0133] 本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
[0134] 步骤S201,获取第一视频,且获取目标描述文本;
[0135] 其中,上述目标描述文本定义了目标风格,上述目标风格为用户期望的风格,上述风格至少表示色调和镜头运用;
[0136] 步骤S202,至少将上述第一视频和上述目标描述文本输入第一加噪模型,得到第一目标噪声序列;
[0137] 其中,上述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组上述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,上述第一风格为任意一种上述风格,上述描述文本定义了第二风格,上述第二风格为区别于上述第一风格的任意一种上述风格;
[0138] 步骤S203,将上述第一目标噪声序列输入第一去噪模型,得到第二视频;
[0139] 其中,上述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组上述第二训练数据包括历史时间段内获取的:噪声序列、上述第二风格的视频,上述第二视频的风格为上述目标风格。
[0140] 本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
[0141] 步骤S201,获取第一视频,且获取目标描述文本;
[0142] 其中,上述目标描述文本定义了目标风格,上述目标风格为用户期望的风格,上述风格至少表示色调和镜头运用;
[0143] 步骤S202,至少将上述第一视频和上述目标描述文本输入第一加噪模型,得到第一目标噪声序列;
[0144] 其中,上述第一加噪模型为通过多组第一训练数据训练第一脉冲扩散模型构建得到的,每组上述第一训练数据包括历史时间段内获取的:第一风格的视频、描述文本、噪声序列,上述第一风格为任意一种上述风格,上述描述文本定义了第二风格,上述第二风格为区别于上述第一风格的任意一种上述风格;
[0145] 步骤S203,将上述第一目标噪声序列输入第一去噪模型,得到第二视频;
[0146] 其中,上述第一去噪模型是通过多组第二训练数据训练第一DPM模型得到的,每组上述第二训练数据包括历史时间段内获取的:噪声序列、上述第二风格的视频,上述第二视频的风格为上述目标风格。
[0147] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0148] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0149] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0150] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0151] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0152] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0153] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
[0154] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0155] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0156] 从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
[0157] 1)、本申请的视频风格转换方法中,本申请在视频风格转换过程中引入脉冲扩散模型,脉冲扩散模型能够充分学习每一帧之间的关联性,使得风格转换后的视频的帧之间有强相关性,确保帧与帧之间的连续性。从而解决了现有技术中转换风格后的视频前后帧之间的连续性较差的问题。
[0158] 2)、本申请的视频风格转换装置中,本申请在视频风格转换过程中引入脉冲扩散模型,脉冲扩散模型能够充分学习每一帧之间的关联性,使得风格转换后的视频的帧之间有强相关性,确保帧与帧之间的连续性。从而解决了现有技术中转换风格后的视频前后帧之间的连续性较差的问题。
[0159] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
QQ群二维码
意见反馈