视频配音方法、装置、终端及存储介质专利检索-配音编辑中专利检索查询-专利查询网

视频配音方法、装置、终端及存储介质

阅读：873发布：2020-05-11

专利汇可以提供视频配音方法、装置、终端及存储介质专利检索，专利查询，专利分析的服务。并且本发明实施例公开了一种视频配音方法、装置、终端及存储介质。其中方法包括：接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。本发明实施例可以提高用户视频配音体验度。，下面是视频配音方法、装置、终端及存储介质专利的具体信息内容。

权利要求

1.一种视频配音方法，其特征在于，应用于电子设备，所述方法包括：
接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；
在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；
接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。
2.根据权利要求1所述的方法，其特征在于，所述在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频，包括：
确定所述视频片段对应的多个角色，获取所述多个角色与声纹特征的映射关系；
依据所述多个角色与声纹数据的映射关系确定所述目标配音角色的目标声纹数据；
将所述目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；
获取所述视频片段对应的音轨数据，依据所述目标声纹特征在所述音轨数据中确定待配音音轨集；
依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频。
3.根据权利要求2所述的方法，其特征在于，所述依据所述目标声纹特征在所述音轨数据中确定待配音音轨集，包括：
将所述音轨数据作为所述特征提取模型的输入，得到所述音轨数据对应的音轨特征集，所述音轨特征集包括：所述多个角色对应的多个音轨特征；
将所述目标声纹特征与所述音轨特征集进行匹配，确定所述目标声纹特征对应的目标音轨特征，确定所述目标音轨特征对应的音轨集作为所述待配音音轨集。
4.根据权利要求2所述的方法，其特征在于，所述依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频，包括：
获取所述待配音音轨集包含的多个待配音音轨；
依据所述多个待配音音轨在所述视频片段中确定所述多个视频子片段，对所述多个视频子片段执行消音操作，得到多个消音子片段；
依据所述多个消音子片段对所述视频片段执行更新操作，得到所述消音视频，获取所述多个消音子片段对应的多个消音时间集，依据所述多个消音时间集对所述消音视频进行标记，得到所述待配音视频。
5.根据权利要求4所述的方法，其特征在于，所述多个消音时间集中任意一个时间集包括：消音起始时间和消音终止时间，所述得到所述待配音视频之后，还包括：
播放所述待配音视频，对所述待配音视频的已播放时长进行监测；
获取所述多个消音时间集对应的多个消音起始时间，在检测到所述已播放时长与所述多个消音起始时间匹配时，执行音频采集操作，在检测到所述已播放时长与所述多个消音终止时间匹配时，停止执行所述音频采集操作，到多个录音子数据；
依据所述多个录音子数据生成所述待配音视频。
6.根据权利要求1所述的方法，其特征在于，所述依据所述录音数据与所述待配音视频生成配音视频，包括：
获取所述待配音视频的待配音音轨和所述录音数据对应的录音音轨；
依据所述录音音轨对所述待配音音轨进行更新，得到配音音轨；
在待配音视频中依据所述配音音轨对所述待配音音轨进行替换，得到所述配音视频。
7.根据权利要求4所述的方法，其特征在于，所述获取所述待配音音轨集包含的多个待配音音轨之后，还包括：
将所述多个待配音音轨作为预先训练好的音轨识别模型的输入，得到所述多个待配音音轨对应的多个待配音文本；
建立所述多个待配音音轨与所述多个待配音文本的映射表并存储。
8.根据权利要求5所述的方法，其特征在于，所述执行音频采集操作之前，还包括：
确定所述已播放时长匹配的目标消音起始时间，确定所述目标消音起始时间对应的目标消音音轨，确定所述目标消音音轨对应的目标待配音音轨；
依据所述多个待配音音轨与所述多个待配音文本的映射表确定所述目标待配音音轨对应的目标配音文本；
显示所述目标配音文本。
9.根据权利要求1所述的方法，其特征在于，所述播放所述配音视频之后，还包括：
在检测到所述配音视频播放完毕时，显示预设的第一窗口，其中，所述第一窗口包括：
视频确定请求；
若接收到所述目标对象返回的视频确定指令，存储所述配音视频；
若接收到所述目标对象返回的驳回指令，接收第二配音请求，依据所述第二配音请求执行所述视频配音方法。
10.根据权利要求9所述的方法，其特征在于，所述存储所述配音视频之后，还包括：
显示预设的第二窗口，其中，所述第二窗口包括：视频分享请求；
若接收到所述目标对象返回的视频分享指令，将所述配音视频发送至预设服务器；
若接收到所述目标对象返回的驳回分享指令，停止执行所述视频配音方法。
11.一种视频配音方法，其特征在于，应用于终端设备，所述方法包括：
接收到目标对象的视频配音功能触发操作时，显示视频配音确定界面；
若从所述视频配音确定界面中提取到视频配音确定数据，显示配音数据界面，提取所述配音数据界面所包含的视频配音数据；
播放所述视频配音数据对应的待配音视频，显示所述待配音视频对应的配音文本，采集所述目标对象的录音数据；
根据所述待配音视频与所述录音数据得到配音视频。
12.一种视频配音装置，其特征在于，应用于电子设备，所述装置包括：
接收单元，用于接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；
消音单元，用于在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；
执行单元，用于接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。
13.一种终端，包括输入设备和输出设备，其特征在于，还包括：
处理器，适于实现一条或多条指令；以及，
计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的视频配音方法。
14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-10任一项所述的视频配音方法。

说明书全文

视频配音方法、装置、终端及存储介质

技术领域

[0001] 本发明涉及电子设备领域，具体涉及视频配音领域，尤其涉及一种视频配音方法、一种视频配音装置、一种终端及一种计算机存储介质。

背景技术

[0002] 随着物联网技术与电子设备的快速发展，给视频配音逐渐成为一种热门的娱乐活动。

[0003] 目前的视频配音技术，往往是需要通过相关的专业人士对视频进行剪辑、消音处理，得到配音素材，再由专业人士将配音素材与用户的录音音频进行合成得到配音视频，整个配音流程复杂繁冗，操作困难，降低视频配音的娱乐性，用户体验度低下。

发明内容

[0004] 本发明实施例提供一种视频配音方法、装置、终端及存储介质，有利于简化视频配音流程，提高视频配音娱乐性和用户体验度。

[0005] 一方面，本发明提供一种视频配音方法，应用于电子设备，该视频配音方法包括：

[0006] 接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0007] 在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0008] 接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0009] 其中，所述在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频，包括：

[0010] 确定所述视频片段对应的多个角色，获取所述多个角色与声纹特征的映射关系；

[0011] 依据所述多个角色与声纹数据的映射关系确定所述目标配音角色的目标声纹数据；

[0012] 将所述目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；

[0013] 获取所述视频片段对应的音轨数据，依据所述目标声纹特征在所述音轨数据中确定待配音音轨集；

[0014] 依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频。

[0015] 其中，所述依据所述目标声纹特征在所述音轨数据中确定待配音音轨集，包括：

[0016] 将所述音轨数据作为所述特征提取模型的输入，得到所述音轨数据对应的音轨特征集，所述音轨特征集包括：所述多个角色对应的多个音轨特征；

[0017] 将所述目标声纹特征与所述音轨特征集进行匹配，确定所述目标声纹特征对应的目标音轨特征，确定所述目标音轨特征对应的音轨集作为所述待配音音轨集。

[0018] 其中，所述依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频，包括：

[0019] 获取所述待配音音轨集包含的多个待配音音轨；

[0020] 依据所述多个待配音音轨在所述视频片段中确定所述多个视频子片段，对所述多个视频子片段执行消音操作，得到多个消音子片段；

[0021] 依据所述多个消音子片段对所述视频片段执行更新操作，得到所述消音视频，获取所述多个消音子片段对应的多个消音时间集，依据所述多个消音时间集对所述消音视频进行标记，得到所述待配音视频。

[0022] 其中，所述多个消音时间集中任意一个时间集包括：消音起始时间和消音终止时间，所述得到所述待配音视频之后，还包括：

[0023] 播放所述待配音视频，对所述待配音视频的已播放时长进行监测；

[0024] 获取所述多个消音时间集对应的多个消音起始时间，在检测到所述已播放时长与所述多个消音起始时间匹配时，执行音频采集操作，在检测到所述已播放时长与所述多个消音终止时间匹配时，停止执行所述音频采集操作，得到多个录音子数据；

[0025] 依据所述多个录音子数据生成所述待配音视频。

[0026] 其中，所述依据所述录音数据与所述待配音视频生成配音视频，包括：

[0027] 获取所述待配音视频的待配音音轨和所述录音数据对应的录音音轨；

[0028] 依据所述录音音轨对所述待配音音轨进行更新，得到配音音轨；

[0029] 在待配音视频中依据所述配音音轨对所述待配音音轨进行替换，得到所述配音视频。

[0030] 其中，所述获取所述待配音音轨集包含的多个待配音音轨之后，还包括：

[0031] 将所述多个待配音音轨作为预先训练好的音轨识别模型的输入，得到所述多个待配音音轨对应的多个待配音文本；

[0032] 建立所述多个待配音音轨与所述多个待配音文本的映射表并存储。

[0033] 其中，所述执行音频采集操作之前，还包括：

[0034] 确定所述已播放时长匹配的目标消音起始时间，确定所述目标消音起始时间对应的目标消音音轨，确定所述目标消音音轨对应的目标待配音音轨；

[0035] 依据所述多个待配音音轨与所述多个待配音文本的映射表确定所述目标待配音音轨对应的目标配音文本；

[0036] 显示所述目标配音文本。

[0037] 其中，所述播放所述配音视频之后，还包括：

[0038] 在检测到所述配音视频播放完毕时，显示预设的第一窗口，其中，所述第一窗口包括：视频确定请求；

[0039] 若接收到所述目标对象返回的视频确定指令，存储所述配音视频；

[0040] 若接收到所述目标对象返回的驳回指令，接收第二配音请求，依据所述第二配音请求执行所述视频配音方法。

[0041] 其中，所述存储所述配音视频之后，还包括：

[0042] 显示预设的第二窗口，其中，所述第二窗口包括：视频分享请求；

[0043] 若接收到所述目标对象返回的视频分享指令，将所述配音视频发送至预设服务器；

[0044] 若接收到所述目标对象返回的驳回分享指令，停止执行所述视频配音方法。

[0045] 另一方面，本发明实施例提供了一种视频配音方法，应用于终端设备，所述方法包括：

[0046] 接收到目标对象的视频配音功能触发操作时，显示视频配音确定界面；

[0047] 若从所述视频配音确定界面中提取到视频配音确定数据，显示配音数据界面，提取所述配音数据界面所包含的视频配音数据；

[0048] 播放所述视频配音数据对应的待配音视频，显示所述待配音视频对应的配音文本，采集所述目标对象的录音数据；

[0049] 合成所述待配音视频与所述录音数据得到配音视频。

[0050] 再一方面，本发明实施例提供了一种视频配音装置，应用于电子设备，该视频配音装置包括：

[0051] 接收单元，用于接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0052] 消音单元，用于在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0053] 执行单元，用于接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0054] 其中，在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频方面，所述消音单元，具体用于：

[0055] 确定所述视频片段对应的多个角色，获取所述多个角色与声纹特征的映射关系；

[0056] 依据所述多个角色与声纹数据的映射关系确定所述目标配音角色的目标声纹数据；

[0057] 将所述目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；

[0058] 获取所述视频片段对应的音轨数据，依据所述目标声纹特征在所述音轨数据中确定待配音音轨集；

[0059] 依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频。

[0060] 其中，在所述依据所述目标声纹特征在所述音轨数据中确定待配音音轨集方面，所述消音单元，具体用于：

[0061] 将所述音轨数据作为所述特征提取模型的输入，得到所述音轨数据对应的音轨特征集，所述音轨特征集包括：所述多个角色对应的多个音轨特征；

[0062] 将所述目标声纹特征与所述音轨特征集进行匹配，确定所述目标声纹特征对应的目标音轨特征，确定所述目标音轨特征对应的音轨集作为所述待配音音轨集。

[0063] 其中，在所述依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频方面，所述消音单元，具体用于：

[0064] 获取所述待配音音轨集包含的多个待配音音轨；

[0065] 依据所述多个待配音音轨在所述视频片段中确定所述多个视频子片段，对所述多个视频子片段执行消音操作，得到多个消音子片段；

[0066] 依据所述多个消音子片段对所述视频片段执行更新操作，得到所述消音视频，获取所述多个消音子片段对应的多个消音时间集，依据所述多个消音时间集对所述消音视频进行标记，得到所述待配音视频。

[0067] 其中，在所述多个消音时间集中任意一个时间集包括：消音起始时间和消音终止时间，所述得到所述待配音视频之后方面，所述消音单元，还用于：

[0068] 播放所述待配音视频，对所述待配音视频的已播放时长进行监测；

[0069] 获取所述多个消音时间集对应的多个消音起始时间，在检测到所述已播放时长与所述多个消音起始时间匹配时，执行音频采集操作，在检测到所述已播放时长与所述多个消音终止时间匹配时，停止执行所述音频采集操作，得到多个录音子数据；

[0070] 依据所述多个录音子数据生成所述待配音视频。

[0071] 其中，在所述依据所述录音数据与所述待配音视频生成配音视频方面，所述执行单元，具体用于：

[0072] 获取所述待配音视频的待配音音轨和所述录音数据对应的录音音轨；

[0073] 依据所述录音音轨对所述待配音音轨进行更新，得到配音音轨；

[0074] 在待配音视频中依据所述配音音轨对所述待配音音轨进行替换，得到所述配音视频。

[0075] 其中，在所述获取所述待配音音轨集包含的多个待配音音轨之后方面，所述消音单元，还用于：

[0076] 将所述多个待配音音轨作为预先训练好的音轨识别模型的输入，得到所述多个待配音音轨对应的多个待配音文本；

[0077] 建立所述多个待配音音轨与所述多个待配音文本的映射表并存储。

[0078] 其中，在所述执行音频采集操作之前方面，所述执行单元，还用于：

[0079] 确定所述已播放时长匹配的目标消音起始时间，确定所述目标消音起始时间对应的目标消音音轨，确定所述目标消音音轨对应的目标待配音音轨；

[0080] 依据所述多个待配音音轨与所述多个待配音文本的映射表确定所述目标待配音音轨对应的目标配音文本；

[0081] 显示所述目标配音文本。

[0082] 其中，在所述播放所述配音视频之后方面，所述执行单元，还用于：

[0083] 在检测到所述配音视频播放完毕时，显示预设的第一窗口，其中，所述第一窗口包括：视频确定请求；

[0084] 若接收到所述目标对象返回的视频确定指令，存储所述配音视频；

[0085] 若接收到所述目标对象返回的驳回指令，接收第二配音请求，依据所述第二配音请求执行所述视频配音方法。

[0086] 其中，在所述存储所述配音视频之后方面，所述执行单元，还用于：

[0087] 显示预设的第二窗口，其中，所述第二窗口包括：视频分享请求；

[0088] 若接收到所述目标对象返回的视频分享指令，将所述配音视频发送至预设服务器；

[0089] 若接收到所述目标对象返回的驳回分享指令，停止执行所述视频配音方法。

[0090] 再一方面，本发明实施例提供了一种终端，所述终端包括输入设备和输出设备，所述终端还包括：

[0091] 处理器，适于实现一条或多条指令；以及，

[0092] 计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

[0093] 接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0094] 在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0095] 接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0096] 再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

[0097] 接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0098] 在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0099] 接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0100] 本发明实施例接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。由此可见，电子设备可以依据目标配音角色确定视频子片段进行消音，依据目标对象的录音数据与待配音视频生成配音视频，简化了视频配音的流程，降低了视频配音的技术要求，提高了视频配音的实用性，从而提高了视频配音的娱乐性，有利于提高用户体验度。附图说明

[0101] 为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0102] 图1是本发明实施例提供的一种网络架构示意图；

[0103] 图2是本发明实施例提供的一种视频配音方法的场景示意图；

[0104] 图3是本发明实施例提供的一种视频配音方法的交互示意图；

[0105] 图4a是本发明实施例提供的一种视频配音方法的流程示意图；

[0106] 图4b是本发明实施例提供的一种获取目标声纹特征的方法的流程示意图；

[0107] 图5是本发明实施例提供的另一种视频配音方法的流程示意图；

[0108] 图6是本发明实施例提供的另一种视频配音方法的流程示意图；

[0109] 图7是本发明实施例提供的一种视频配音方法的界面显示流程示意图；

[0110] 图8是本发明实施例提供的一种终端的结构示意图；

[0111] 图9是本发明实施例提供的一种视频配音装置的结构示意图。

具体实施方式

[0112] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0113] 本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0114] 在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

[0115] 请参见图1，图1是本发明实施例提供的一种网络架构示意图，该网络架构可以包括多个服务器以及终端设备(如图1所示，具体包括终端设备100、服务器101、服务器102)，终端设备100可以通过网络与每个服务器进行数据传输，如图1所示，当终端设备100执行视频配音方法时，可以通过向服务器101和服务器102发送配音视频实现配音视频的分享。

[0116] 在一种实施方式中，当终端设备100接收到目标对象发送的第一配音请求时，依据第一配音请求执行视频配音操作，得到配音视频，当检测到目标对象发送的确定分享指令时，依据该确定分享指令将该配音视频发送至服务器101和/或服务器102。

[0117] 其中，终端设备可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)。

[0118] 由此可见，本发明实施例所提出的视频配音方法以通过终端设备与服务器之间的交互实现，通过终端设备生成配音视频，终端设备通过向多个服务器发送配音视频实现配音视频的分享，从而有利于简化视频配音的流程，提高用户体验度。

[0119] 具体请一并参见图2，图2是本发明实施例提供的一种视频配音方法的场景示意图，如图2所示，该场景以图1所对应实施例中的终端设备100为例，本视频配音方法包括：

[0120] 在终端设备101播放视频时，对目标对象发送的指令进行监测，当监测到该目标对象发送第一配音指令时，从该第一配音指令中获取视频片段和目标配音角色，其中，从第一配音指令中还可以获取配音人数，依据目标配音角色与视频片段确定目标角色声纹，对该目标声纹数据执行学习操作，得到该目标声纹数据对应的目标声纹特征，依据该目标声纹特征在该视频片段中进行匹配消音生成待配音视频，其中，该依据该目标声纹特征在该视频片段中进行匹配消音生成待配音视频包括：依据该目标声纹特征在视频片段中确定多个视频子片段，对该多个视频子片段执行消音操作得到多个消音子片段，依据该多个消音子片段对该视频片段进行替换得到该待配音视频，播放该待配音视频并显示待配音视频确定请求，该请求用于请求目标对象对该待配音视频进行确定，接收该目标对象返回的待配音视频确定指令，启动录音功能得到录音数据，合成该录音数据与该待配音视频得到配音视频，向目标对象发送视频确定请求，若接收到驳回指令，则接收第二配音请求，依据该第二配音请求执行视频配音方法；若接收到视频确定指令，则存储该配音视频，向目标对象发送视频分享请求，若接收到驳回分享指令，则停止执行视频配音方法；若接收到视频分享指令，依据该视频分享指令进行多渠道分享配音视频操作，停止执行视频配音方法。

[0121] 本发明实施例接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。由此可见，电子设备可以依据目标配音角色确定视频子片段进行消音，依据目标对象的录音数据与待配音视频生成配音视频，简化了视频配音的流程，降低了视频配音的技术要求，提高了视频配音的实用性，从而提高了视频配音的娱乐性，有利于提高用户体验度。

[0122] 请参见图3，是本发明实施例提供的一种视频配音方法的交互示意图。该方法可以包括以下步骤：

[0123] 步骤301、接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0124] 可选的，在检测到该电子设备执行视频播放功能时，对目标对象发送的指令进行监控，当检测到该目标对象启动视频裁剪功能时，获取源视频的已播放时长，以该已播放时长为视频起始时间进行裁剪，当监测到该目标对象关闭视频裁剪功能时，以当前播放时长为视频结束时间，得到该视频片段；获取该视频片段中包含的至少一个角色，依据该至少一个角色生成角色确定请求，显示该角色确定请求，接收该目标对象返回的角色确定响应，该角色确定响应包括：目标配音角色；依据该视频片段与该目标配音角色生成该第一配音请求并返回。

[0125] 步骤302、在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0126] 可选的，确定该视频片段对应的源视频，获取该源视频对应的视频信息，其中，该视频信息包括：角色集，该角色集包括：多个角色，获取该多个角色与声纹数据的映射关系，依据该多个角色与声纹数据的映射关系确定目标配音角色对应的目标声纹数据；获取预设的特征提取模型，将该目标声纹数据作为该特征提取模型的输入，得到目标声纹特征。获取该视频片段对应的音轨数据，依据该目标声纹特征在该音轨数据中确定待配音音轨集；依据该待配音音轨集和该视频片段确定该多个视频子片段，对该多个视频子片段执行消音操作得到该待配音视频。

[0127] 进一步地，依据该目标声纹特征在该音轨数据中确定待配音音轨集还可以包括：将该音轨数据作为该特征提取模型的输入，得到该音轨数据对应的音轨特征集，其中，该音轨特征集包括：多个角色对应的多个音轨特征，将该目标声纹特征与该音轨特征集进行匹配，若目标声纹特征与该音轨特征集匹配成功，确定该目标声纹该特征对应的目标音轨特征，确定该目标音轨特征对应的音轨集为待配音音轨集。

[0128] 进一步地，对多个视频子片段执行消音操作可以包括：获取该待配音音轨集包含的多个待配音音轨，依据该多个待配音音轨在该视频片段中确定该多个视频子片段，对该多个视频子片段执行消音操作，得到多个消音子片段，依据该多个消音子片段对视频片段进行更新，得到消音视频，在该消音视频中对该多个消音子片段进行标记，得到该待配音视频。

[0129] 步骤303、接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频；

[0130] 可选的，获取该录音数据对应的录音音轨，将该待配音视频对应的音轨替换为该录音音轨，得到该配音视频。

[0131] 步骤304、若接收到所述目标对象返回的视频确定指令，存储所述配音视频；

[0132] 可选的，在接收到目标对象返回的视频确定指令之前，在电子设备的显示屏上显示预设的第一窗口，其中，第一窗口包括：视频确定请求，该视频确定请求用于询问目标对象是否重新执行视频配音方法。

[0133] 进一步地，若接收到该目标对象返回的视频确定指令，将该配音视频存储至预设数据库中；若接收到该目标对象返回的驳回指令，接收目标对象发送的第二配音请求，依据第二配音请求重新执行视频配音方法。

[0134] 步骤305、若接收到所述目标对象返回的视频分享指令，将所述配音视频发送至预设服务器；

[0135] 可选的，在接收到目标对象返回的视频分享指令之前，在电子设备的显示屏上显示预设的第二窗口，其中，第二窗口包括：视频分享请求，该视频分享请求用于询问目标对象是否执行视频分享操作。

[0136] 可选的，将配音视频发送至预设服务器可以包括：若该视频分享请求中包含目标分享平台，确定该目标分享平台对应的目标服务器，向该配音视频发送至该目标服务器和分享请求，该分享请求用于请求目标服务器将该配音视频存储孩子该目标对象在该目标分享平台上的关联账号中；若该视频分享请求中不包含目标分享平台，确定该目标对象预先设置的关联分享平台，将该配音视频发送至该关联分享平台对应的关联服务器。

[0137] 进一步地，若接收到该目标对象返回的驳回分享指令，停止执行该视频配音方法。

[0138] 步骤306、存储并分享所述配音视频。

[0139] 请参见图4a，是本发明实施例提供的一种视频配音方法的流程示意图。该方法可以包括以下步骤：

[0140] 步骤401、接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0141] 可选的，该第一配音请求还可以包括：配音人数N，其中，配音人数N为大于0的整数，在该配音人数N大于1时，从该第一配音请求中获取第一目标对象对应的第一目标配音角色和第二目标对象对应的第二目标配音角色。

[0142] 可选的，步骤401还可以包括：启动配音功能，接收第一配音请求，获取第一配音请求中的视频片段、配音人数和目标配音角色，确定该视频片段对应的源视频。

[0143] 其中，上述配音功能的启动方式可以有多种，例如在一种可选的实施例中，可以通过一个特定的按钮来确定是否启动配音功能。当然在另一种可选的实施例中，可以通过满足设定触发条件时，启动配音功能，该触发条件可以是一个特定的操作来确定是否启动配音功能，该特定的操作包括但不限于，特定的手势、或者生物识别验证，该生物识别验证包括但不限于：人脸识别验证、指纹识别验证、声纹识别验证等等。本申请具体实施方式并不限制上述启动配音功能的方案。

[0144] 步骤402、在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0145] 可选的，步骤402的具体实施方式还可以是：确定该视频片段对应的多个角色，获取该多个角色与声纹特征的映射关系；依据该多个角色与声纹特征的映射关系确定该目标配音角色的目标声纹数据；将该目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；获取该视频片段对应的音轨数据，依据该目标声纹特征在该音轨数据中确定待配音音轨集；依据该待配音音轨集和该视频片段确定该多个视频子片段，对该多个子片段执行消音操作得到该待配音视频。

[0146] 具体实施过程中，该特征提取模型可以包括基于深度学习的iVector模型，其中，该特征提取模型可以如图4b所示。当提取目标声纹特征时，通过DNN特征与目标声纹数据作为特征提取模型的输入进行训练，得到目标声纹数据对应的帧后验概率和0阶统计量，提取该目标声纹数据对应的目标语音特征，其中，通过对目标声纹数据执行预加重、分帧、加窗、傅里叶变换、滤波、对数运算、离散余弦变换后得到该目标语音特征，该语音特征输入特征提取模型后，依据帧后验概率计算该语音特征对应的1阶统计量，控制计算模块(即i-vector系统)对0阶统计量、1阶统计量进行计算，得到该目标声纹数据对应的目标声纹特征(即i-vectors)。

[0147] 具体实施过程中，将该目标声纹数据作为预设的特征提取模型的输入时，通过概率线性判别分析算法(Probabilistic Linear Discriminant Analysis，PLDA)降低信道信息对声纹特征学习的干扰。在声纹特征学习中，假设训练数据语音由i个说话人的语音组成，其中每个说话人有j段自己不同的语音。那么，定义第i个说话人的第j条语音为Xij。然后，根据因子分析，我们定义Xij的生成模型为：

[0148] Xjj＝μ+Fhi+Gwij+∈ij；

[0149] 其中，这个模型可以看成两个部分：等号右边前两项只跟说话人有关而跟说话人的具体某一条语音无关，称为信号部分，这描述了说话人类间的差异；等号右边后两项描述了同一说话人的不同语音之间的差异，称为噪音部分。等号右边的中间两项分别是一个矩阵和一个向量的表示形式，这便是因子分析的又一核心部分。这两个矩阵F和G包含了各自假想变量空间中的基本因子，这些因子可以看做是各自空间的特征向量。比如，F的每一列就相当于类间空间的特征向量，G的每一列相当于类内空间的特征向量。而两个向量可以看做是分别在各自空间的特征表示，比如hi就可以看做是Xij在说话人空间中的特征表示。在识别打分阶段，如果两条语音的hi特征相同的似然度越大，那么这两条语音就更确定地属于同一个说话人。

[0150] 进一步地的，步骤402的具体实施方式还可以是：将所述音轨数据作为所述特征提取模型的输入，得到所述音轨数据对应的音轨特征集，所述音轨特征集包括：所述多个角色对应的多个音轨特征；将所述目标声纹特征与所述音轨特征集进行匹配，确定所述目标声纹特征对应的目标音轨特征，确定所述目标音轨特征对应的音轨集作为所述待配音音轨集。

[0151] 具体实施过程中，如图4b所示，通过DNN特征与音轨数据作为特征提取模型的输入进行训练，得到音轨数据对应的帧后验概率和0阶统计量，提取该音轨数据对应的语音特征，其中，通过对音轨数据执行预加重、分帧、加窗、傅里叶变换、滤波、对数运算、离散余弦变换后得到该语音特征，该语音特征输入特征提取模型后，依据帧后验概率计算该语音特征对应的1阶统计量，控制计算模块(即i-vector系统)对0阶统计量、1阶统计量进行计算，得到该音轨数据对应的音轨特征集(即i-vectors)。

[0152] 其中，将所述目标声纹特征与所述音轨特征集进行匹配时，通过计算目标声纹特征与该音轨特征集中的多个音轨特征的多个相似度确定是否匹配成功，该相似度可以通过计算特征向量的余弦距离来确定，该余弦距离的计算公式可以包括：

[0153]

[0154] 其中，cosθ表示目标声纹特征x与音轨特征集中的音轨特征y的相似度；获取该多个相似度中的最大值，判断该最大值是否大于预设的相似度阈值，若该最大值大于该相似度阈值，确定该目标声纹特征与该最大值对应的音轨特征匹配成功。

[0155] 可选的，步骤402的具体实施方式还可以包括：获取该待配音音轨集包含的多个待配音音轨；依据该多个待配音音轨在该视频片段中确定该多个视频子片段，对该多个视频子片段执行消音操作，得到多个消音子片段；依据该多个消音子片段对该视频片段执行更新操作，得到该消音视频，获取该多个消音子片段对应的多个消音时间集，依据该多个消音时间集对该消音视频进行标记，得到该待配音视频。

[0156] 具体实施过程中，假设在配音片段中确定第一视频子片段与第二视频子片段，获取该第一视频子片段的第一视频子音轨和该第二视频子片段的第二视频子音轨，对第一视频子音轨和第二视频子音轨执行消音操作，得到第一消音子音轨和第二消音子音轨，将该第一视频子片段的第一视频子音轨替换为第一消音子音轨得到第一消音子片段，将该第二视频子片段的第二视频子音轨替换为第二消音子音轨得到第二消音子片段，在该视频片段中通过第一消音子片段对第一视频子片段进行替换、通过第二消音子片段对第二视频子片段进行替换，得到消音视频，在该消音视频中标记第一消音子片段的第一消音起始时间和第一消音终止时间，在该消音视频中标记第二消音子片段的第二消音起始时间和第二消音终止时间，得到待配音视频。

[0157] 进一步地，将该多个待配音音轨作为预先训练好的音轨识别模型的输入，得到该多个待配音音轨对应的多个待配音文本；建立该多个待配音音轨与该多个待配音文本的映射表并存储。

[0158] 可选的，步骤402的具体实施方式还可以包括：播放该待配音视频，对该待配音视频的已播放时长进行监测；获取该多个消音时间集对应的多个消音起始时间，在检测到该已播放时长与该多个消音起始时间匹配时，执行音频采集操作，在检测到该已播放时长与该多个消音终止时间匹配时，停止执行该音频采集操作，得到多个录音子数据；依据该多个录音子数据生成该待配音视频。

[0159] 具体实施过程中，在检测到该已播放时长与该多个消音终止时间中任意一个消音终止时间匹配时(例如，已播放时长为19:38，该多个消音终止时间为1:25、15:20、19:38，确定已播放时长与多个消音终止时间匹配)，设置定时器，当该定时器时间等于预设时间时，停止执行音频采集操作，其中，该预设时间可以为：1s、2s、5s等等，在此不作限定。

[0160] 步骤403、接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0161] 可选的，步骤403的具体实施方式还可以包括：获取该待配音视频的待配音音轨和该录音数据对应的录音音轨；依据该录音音轨对该待配音音轨进行更新，得到配音音轨；在待配音视频中依据该配音音轨对该待配音音轨进行替换，得到该配音视频。

[0162] 可选的，接收目标对象的录音数据之前，确定该已播放时长匹配的目标消音起始时间，确定该目标消音起始时间对应的目标消音音轨，确定该目标消音音轨对应的目标待配音音轨；依据该多个待配音音轨与该多个待配音文本的映射表确定该目标待配音音轨对应的目标配音文本；显示该目标配音文本。

[0163] 进一步地，依据该目标待配音音轨确定目标配音语速，显示该目标配音语速。

[0164] 可选的，在检测到该配音视频播放完毕时，显示预设的第一窗口，其中，该第一窗口包括：视频确定请求；若接收到该目标对象返回的视频确定指令，存储该配音视频；若接收到该目标对象返回的驳回指令，接收第二配音请求，依据该第二配音请求执行该视频配音方法。

[0165] 可选的，显示预设的第二窗口，其中，该第二窗口包括：视频分享请求；若接收到该目标对象返回的视频分享指令，将该配音视频发送至预设服务器；若接收到该目标对象返回的驳回分享指令，停止执行该视频配音方法。

[0166] 本发明实施例接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。由此可见，电子设备可以依据目标配音角色确定视频子片段进行消音，依据目标对象的录音数据与待配音视频生成配音视频，简化了视频配音的流程，降低了视频配音的技术要求，从而提高了视频配音的娱乐性，有利于提高用户体验度。

[0167] 请参见图5，是本发明实施例提供的另一种视频配音方法的流程示意图。该方法可以包括以下步骤：

[0168] 步骤501、接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0169] 步骤502、确定所述视频片段对应的多个角色，获取所述多个角色与声纹特征的映射关系；

[0170] 步骤503、依据所述多个角色与声纹数据的映射关系确定所述目标配音角色的目标声纹数据；

[0171] 步骤504、将所述目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；

[0172] 步骤505、获取所述视频片段对应的音轨数据，依据所述目标声纹特征在所述音轨数据中确定待配音音轨集；

[0173] 步骤506、依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频；

[0174] 步骤507、接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0175] 本发明实施例可以接收第一配音请求，该第一配音请求包括：视频片段和目标配音角色；确定该视频片段对应的多个角色，获取该多个角色与声纹特征的映射关系；依据该多个角色与声纹数据的映射关系确定该目标配音角色的目标声纹数据；将该目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；获取该视频片段对应的音轨数据，依据该目标声纹特征在该音轨数据中确定待配音音轨集；依据该待配音音轨集和该视频片段确定该多个视频子片段，对该多个子片段执行消音操作得到该待配音视频；接收目标对象的录音数据，依据该录音数据与该待配音视频生成配音视频，播放该配音视频。通过声纹识别对视频片段进行消音，提高了视频配音方法的智能性，简化了视频消音操作的流程，从而提高了视频配音的实用性，有利于提高用户体验度。

[0176] 请参见图6，是本发明实施例提供的另一种视频配音方法的流程示意图。该方法可以包括以下步骤：

[0177] 步骤601、接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0178] 步骤602、在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0179] 步骤603、接收目标对象的录音数据，获取所述待配音视频的待配音音轨和所述录音数据对应的录音音轨；

[0180] 步骤604、依据所述录音音轨对所述待配音音轨进行更新，得到配音音轨；

[0181] 步骤605、在待配音视频中依据所述配音音轨对所述待配音音轨进行替换，得到所述配音视频；

[0182] 步骤606、依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频，播放所述配音视频。

[0183] 本发明实施例可以通过接收第一配音请求，该第一配音请求包括：视频片段和目标配音角色；在该视频片段中对该目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；接收目标对象的录音数据，获取该待配音视频的待配音音轨和该录音数据对应的录音音轨；依据该录音音轨对该待配音音轨进行更新，得到配音音轨；在待配音视频中依据该配音音轨对该待配音音轨进行替换，得到该配音视频；依据该待配音音轨集和该视频片段确定该多个视频子片段，对该多个子片段执行消音操作得到该待配音视频，播放该配音视频。通过依据录音音轨对待配音音轨进行替换得到配音视频，提高了视频合成的速率，从而提高了视频配音的实用性，有利于提高用户体验度。

[0184] 请参加图7，图7是本发明实施例提供的一种视频配音方法的界面显示流程示意图，如图7所示，以动画《小猪佩奇》为例，首先，终端设备播放《小猪佩奇》，在该动画播放至1:05时，接收到目标对象的视频配音功能触发操作时，显示视频配音确定界面，其中，视频配音确定界面可以包括：视频配音确定请求700a，其中，该视频配音确定请求700a还可以通过视频配音确定弹窗进行显示；接着，若从该视频配音确定界面中提取到视频配音确定数据，显示配音数据界面，提取该配音数据界面所包含的视频配音数据，如图7所示，该配音数据界面包括：配音数据请求700b，该配音数据请求700b可以包括：配音片段、配音角色、配音人数，如图7所示，在该配音片段对应的区域可以对片段时长进行选择，例如，选取时长为1:
05-3:10对应的片段为配音视频片段，在配音角色对应的区域可以对目标配音角色进行选择，例如，选取“角色1”为目标配音角色，在配音人数界面可以对配音的人数进行选择，例如，选取配音人数为1；然后，播放视频配音数据对应的待配音视频，显示该待配音视频对应的配音文本，采集该目标对象的录音数据，如图7所示，在播放待配音视频时，可以在当前界面左上角显示“录制”字样，同时，通过字体大小对当前待配音视频的播放进度对应的已配音文本进行标记，其中，还可以通过字体颜色对当前待配音视频对应的已配音文本进行标记，例如，当前播放进度为播放至1:10，当前配音文本为“哇哦！红色的新鞋子”，当前播放进度对应的已配音文本为“哇哦！红”，则增大该已配音文本“哇哦！红”的字号；最后，根据待配音视频与录音数据得到配音视频。

[0185] 本发明实施例中，终端设备接收到目标对象的视频配音功能触发操作时，显示视频配音确定界面；若从所述视频配音确定界面中提取到视频配音确定数据，显示配音数据界面，提取所述配音数据界面所包含的视频配音数据；播放所述视频配音数据对应的待配音视频，显示所述待配音视频对应的配音文本，采集所述目标对象的录音数据；播放所述待配音视频与所述录音数据合成的配音视频。可见，通过实施本发明实施例可以简化视频配音的流程，有利于提高用户体验度。

[0186] 基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端。请参见图8，该终端至少包括处理器801、输入设备802、输出设备803以及计算机存储介质804。其中，终端内的处理器801、输入设备802、输出设备803以及计算机存储介质804可通过总线或其他方式连接。

[0187] 计算机存储介质804可以存储在终端的存储器中，所述计算机存储介质804用于存储计算机程序，所述计算机程序包括程序指令，所述处理器801用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器801可以用于执行一系列的视频配音方法，包括：接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频，等等。

[0188] 本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

[0189] 在一个实施例中，可由处理器801加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关场景切换实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器801加载并执行如下步骤：

[0190] 接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0191] 在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0192] 接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0193] 在一种实施方式中，在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频方面，所述一条或多条指令还可由处理器801加载并具体执行：确定所述视频片段对应的多个角色，获取所述多个角色与声纹特征的映射关系；依据所述多个角色与声纹数据的映射关系确定所述目标配音角色的目标声纹数据；将所述目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；获取所述视频片段对应的音轨数据，依据所述目标声纹特征在所述音轨数据中确定待配音音轨集；依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频。

[0194] 在一种实施方式中，在所述依据所述目标声纹特征在所述音轨数据中确定待配音音轨集方面，所述一条或多条指令还可由处理器801加载并具体执行：将所述音轨数据作为所述特征提取模型的输入，得到所述音轨数据对应的音轨特征集，所述音轨特征集包括：所述多个角色对应的多个音轨特征；将所述目标声纹特征与所述音轨特征集进行匹配，确定所述目标声纹特征对应的目标音轨特征，确定所述目标音轨特征对应的音轨集作为所述待配音音轨集。

[0195] 在一种实施方式中，在所述依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频方面，所述一条或多条指令还可由处理器801加载并具体执行：获取所述待配音音轨集包含的多个待配音音轨；依据所述多个待配音音轨在所述视频片段中确定所述多个视频子片段，对所述多个视频子片段执行消音操作，得到多个消音子片段；依据所述多个消音子片段对所述视频片段执行更新操作，得到所述消音视频，获取所述多个消音子片段对应的多个消音时间集，依据所述多个消音时间集对所述消音视频进行标记，得到所述待配音视频。

[0196] 在一种实施方式中，在所述多个消音时间集中任意一个时间集包括：消音起始时间和消音终止时间，所述得到所述待配音视频之后方面，所述一条或多条指令还可由处理器801加载并具体执行：播放所述待配音视频，对所述待配音视频的已播放时长进行监测；获取所述多个消音时间集对应的多个消音起始时间，在检测到所述已播放时长与所述多个消音起始时间匹配时，执行音频采集操作，在检测到所述已播放时长与所述多个消音终止时间匹配时，停止执行所述音频采集操作，得到多个录音子数据依据所述多个录音子数据生成所述待配音视频。

[0197] 在一种实施方式中，在所述依据所述录音数据与所述待配音视频生成配音视频方面，所述一条或多条指令还可由处理器801加载并具体执行：获取所述待配音视频的待配音音轨和所述录音数据对应的录音音轨；依据所述录音音轨对所述待配音音轨进行更新，得到配音音轨；在待配音视频中依据所述配音音轨对所述待配音音轨进行替换，得到所述配音视频。

[0198] 在一种实施方式中，在所述获取所述待配音音轨集包含的多个待配音音轨之后方面，所述一条或多条指令还可由处理器801加载并具体执行：将所述多个待配音音轨作为预先训练好的音轨识别模型的输入，得到所述多个待配音音轨对应的多个待配音文本；建立所述多个待配音音轨与所述多个待配音文本的映射表并存储。

[0199] 在一种实施方式中，在所述执行音频采集操作之前方面，所述一条或多条指令还可由处理器801加载并具体执行：确定所述已播放时长匹配的目标消音起始时间，确定所述目标消音起始时间对应的目标消音音轨，确定所述目标消音音轨对应的目标待配音音轨；依据所述多个待配音音轨与所述多个待配音文本的映射表确定所述目标待配音音轨对应的目标配音文本；显示所述目标配音文本。

[0200] 在一种实施方式中，在所述播放所述配音视频之后方面，所述一条或多条指令还可由处理器801加载并具体执行：在检测到所述配音视频播放完毕时，显示预设的第一窗口，其中，所述第一窗口包括：视频确定请求；若接收到所述目标对象返回的视频确定指令，存储所述配音视频；若接收到所述目标对象返回的驳回指令，接收第二配音请求，依据所述第二配音请求执行所述视频配音方法。

[0201] 在一种实施方式中，在所述存储所述配音视频之后方面，所述一条或多条指令还可由处理器801加载并具体执行：显示预设的第二窗口，其中，所述第二窗口包括：视频分享请求；若接收到所述目标对象返回的视频分享指令，将所述配音视频发送至预设服务器；若接收到所述目标对象返回的驳回分享指令，停止执行所述视频配音方法。

[0202] 基于上述场景切换方法实施例的描述，本发明实施例还公开了一种视频配音装置，所述视频配音装置可以是运行于终端中的一个计算机程序(包括程序代码)。该视频配音装置可以执行图4a、图4b、图5或图6所示的方法。请参见图9，所述虚拟对象控制装置可以运行如下单元：

[0203] 接收单元901，用于接收第一配音请求，所述第一配音请求包括：视频片段和目标配音角色；

[0204] 消音单元902，用于在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频；

[0205] 执行单元903，用于接收目标对象的录音数据，依据所述录音数据与所述待配音视频生成配音视频，播放所述配音视频。

[0206] 在一种实施方式中，在所述视频片段中对所述目标配音角色对应的多个视频子片段执行消音操作得到待配音视频方面，所述消音单元902，具体用于：确定所述视频片段对应的多个角色，获取所述多个角色与声纹数据的映射关系；依据所述多个角色与声纹特征的映射关系确定所述目标配音角色的目标声纹数据；将所述目标声纹数据作为预设的特征提取模型的输入，得到目标声纹特征；获取所述视频片段对应的音轨数据，依据所述目标声纹特征在所述音轨数据中确定待配音音轨集；依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频。

[0207] 在一种实施方式中，在所述依据所述目标声纹特征在所述音轨数据中确定待配音音轨集方面，所述消音单元902，具体用于：将所述音轨数据作为所述特征提取模型的输入，得到所述音轨数据对应的音轨特征集，所述音轨特征集包括：所述多个角色对应的多个音轨特征；将所述目标声纹特征与所述音轨特征集进行匹配，确定所述目标声纹特征对应的目标音轨特征，确定所述目标音轨特征对应的音轨集作为所述待配音音轨集。

[0208] 在一种实施方式中，在所述依据所述待配音音轨集和所述视频片段确定所述多个视频子片段，对所述多个子片段执行消音操作得到所述待配音视频方面，所述消音单元902，具体用于：获取所述待配音音轨集包含的多个待配音音轨；依据所述多个待配音音轨在所述视频片段中确定所述多个视频子片段，对所述多个视频子片段执行消音操作，得到多个消音子片段；依据所述多个消音子片段对所述视频片段执行更新操作，得到所述消音视频，获取所述多个消音子片段对应的多个消音时间集，依据所述多个消音时间集对所述消音视频进行标记，得到所述待配音视频。

[0209] 在一种实施方式中，在所述多个消音时间集中任意一个时间集包括：消音起始时间和消音终止时间，所述得到所述待配音视频之后方面，所述消音单元902，还用于：播放所述待配音视频，对所述待配音视频的已播放时长进行监测；获取所述多个消音时间集对应的多个消音起始时间，在检测到所述已播放时长与所述多个消音起始时间匹配时，执行音频采集操作，在检测到所述已播放时长与所述多个消音终止时间匹配时，停止执行所述音频采集操作，得到多个录音子数据依据所述多个录音子数据生成所述待配音视频。

[0210] 在一种实施方式中，在所述依据所述录音数据与所述待配音视频生成配音视频方面，所述执行单元903，具体用于：获取所述待配音视频的待配音音轨和所述录音数据对应的录音音轨；依据所述录音音轨对所述待配音音轨进行更新，得到配音音轨；在待配音视频中依据所述配音音轨对所述待配音音轨进行替换，得到所述配音视频。

[0211] 在一种实施方式中，在所述获取所述待配音音轨集包含的多个待配音音轨之后方面，所述消音单元902，还用于：将所述多个待配音音轨作为预先训练好的音轨识别模型的输入，得到所述多个待配音音轨对应的多个待配音文本；建立所述多个待配音音轨与所述多个待配音文本的映射表并存储。

[0212] 在一种实施方式中，在所述执行音频采集操作之前方面，所述执行单元903，还用于：确定所述已播放时长匹配的目标消音起始时间，确定所述目标消音起始时间对应的目标消音音轨，确定所述目标消音音轨对应的目标待配音音轨；依据所述多个待配音音轨与所述多个待配音文本的映射表确定所述目标待配音音轨对应的目标配音文本；显示所述目标配音文本。

[0213] 在一种实施方式中，在所述播放所述配音视频之后方面，所述执行单元903，还用于：在检测到所述配音视频播放完毕时，显示预设的第一窗口，其中，所述第一窗口包括：视频确定请求；若接收到所述目标对象返回的视频确定指令，存储所述配音视频；若接收到所述目标对象返回的驳回指令，接收第二配音请求，依据所述第二配音请求执行所述视频配音方法。

[0214] 在一种实施方式中，在所述存储所述配音视频之后方面，所述执行单元903，还用于：显示预设的第二窗口，其中，所述第二窗口包括：视频分享请求；若接收到所述目标对象返回的视频分享指令，将所述配音视频发送至预设服务器；若接收到所述目标对象返回的驳回分享指令，停止执行所述视频配音方法。

[0215] 本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

[0216] 本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

[0217] 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

[0218] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0219] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

[0220] 上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0221] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0222] 上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0223] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

[0224] 以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

标题	发布/更新时间	阅读量
一种语音转换系统及方法	2020-05-11	35
一种音频文件处理方法及装置	2020-05-13	962
一种基于文字转语音技术进行视频配音的方法	2020-05-11	540
一种音频工作站管理方法和系统	2020-05-12	26
一种VR游戏设计方法	2020-05-13	273
一种演绎时实时渲染输出的三维动画制作方法	2020-05-15	784
一种人机交互的学习方法及装置、用户终端	2020-05-13	711
一种音乐配音用编钟击打装置	2020-05-14	166
一种音响输出装置	2020-05-13	641
一种具有耳机、话筒及亭子安全防护组件的配音朗读亭	2020-05-08	254

视频配音方法、装置、终端及存储介质

视频配音方法、装置、终端及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：