声音转换方法及相关产品专利检索-语音合成程序人工智能专利检索查询-专利查询网

声音转换方法及相关产品

阅读：116发布：2020-05-15

专利汇可以提供声音转换方法及相关产品专利检索，专利查询，专利分析的服务。并且本申请实施例公开了一种声音转换方法及相关产品，所述方法应用于用户设备，所述方法包括如下步骤：获取目标对象的录入信息，将所述录入信息发送至网络设备；接收网络设备返回的与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据；确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。本申请提供的技术方案具有用户体验度高的优点。，下面是声音转换方法及相关产品专利的具体信息内容。

权利要求

1.一种声音转换方法，其特征在于，所述方法应用于用户设备，所述方法包括如下步骤：
获取目标对象的录入信息，将所述录入信息发送至网络设备；
接收网络设备返回的与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据；
确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。
2.权利要求1所述的方法，其特征在于，
所述中间数据为所述网络设备对源音频文件处理得到的中间数据，所述源音频文件为所述网络设备依据所述录入信息查询得到的源音频文件。
3.根据权利要求1所述的方法，其特征在于，
所述中间数据为所述网络设备依据所述录入信息以及录入信息与中间数据的映射关系查询得到的与所述录入信息匹配的中间数据。
4.根据权利要求1所述的方法，其特征在于，所述获取目标对象的录入信息具体包括：
所述中间数据为所述网络设备解析所述录入信息得到的中间数据。
5.根据权利要求3所述的方法，其特征在于，所述获取目标对象的录入信息具体包括：
采集目标对象发出的语音信息；
或采集目标对象依据显示页面选择的触控信息，依据所述触控信息的位置确定音频标识信息。
6.根据权利要求1所述的方法，其特征在于，所述确定所述目标发音人的语音合成模型具体包括：
确定所述目标发音人，从预设的语音合成模型中查询得到与所述目标发音人匹配的语音合成模型。
7.一种声音转换方法，其特征在于，所述方法包括如下步骤：
用户设备获取目标对象的录入信息，将所述录入信息发送至网络设备；
网络设备获取与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据，将所述中间数据发送至所述用户设备；
所述用户设备确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。
8.一种用户设备，其特征在于，所述用户设备包括：获取单元、收发单元、合成单元，其中，
所述获取单元，用于获取目标对象的录入信息；
所述收发单元，用于将所述录入信息发送至网络设备；接收网络设备返回的与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据；
所述确定单元，用于确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。
9.一种声音转换系统，其特征在于，所述系统包括：用户设备与网络设备，其中，所述用户设备，用于获取目标对象的录入信息，将所述录入信息发送至网络设备；
所述网络设备，用于获取与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据，将所述中间数据发送至所述用户设备；
所述用户设备，还用于确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。
10.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-6任一项、如权利要求7或如权利要求9所述的方法。

说明书全文

声音转换方法及相关产品

技术领域

[0001] 本申请涉及电子设备技术领域，具体涉及一种声音转换方法及相关产品。

背景技术

[0002] 声音转换是指在保持说话内容信息一致的前提下，将原说话人的声音(源音频)转换成目标说话人的声音(目标音频)。该技术具有广泛的应用场景：例如用于娱乐，可将自己的声音转成某位明星的声音，或者将其他有声读物的声音转换成自己的声音；例如用于发音辅助，帮助发音障碍者实现正常发音等。声音转换具有大规模的特点，所述大规模是指该声音转换支持转换的目标说话人的数目众多，可达几万甚至几百万数目，因此声音转换的时间成为用户关注的焦点，现有的声音转换的时间长，用户体验度低。发明内容

[0003] 本申请实施例提供了一种声音转换方法及相关装置，以期减少声音转换的时间，提升用户体验度。

[0004] 第一方面，本申请实施例提供一种声音转换方法，包括：声音转换方法，所述方法应用于用户设备，所述方法包括如下步骤：

[0005] 获取目标对象的录入信息，将所述录入信息发送至网络设备；

[0006] 接收网络设备返回的与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据；

[0007] 确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。

[0008] 可选的，所述中间数据为所述网络设备对源音频文件处理得到的中间数据，所述源音频文件为所述网络设备依据所述录入信息查询得到的源音频文件。

[0009] 可选的，所述中间数据为所述网络设备依据所述录入信息以及录入信息与中间数据的映射关系查询得到的与所述录入信息匹配的中间数据。

[0010] 可选的，所述获取目标对象的录入信息具体包括：

[0011] 所述中间数据为所述网络设备解析所述录入信息得到的中间数据。

[0012] 可选的，所述获取目标对象的录入信息具体包括：

[0013] 采集目标对象发出的语音信息；

[0014] 或采集目标对象依据显示页面选择的触控信息，依据所述触控信息的位置确定音频标识信息。

[0015] 可选的，所述确定所述目标发音人的语音合成模型具体包括：

[0016] 确定所述目标发音人，从预设的语音合成模型中查询得到与所述目标发音人匹配的语音合成模型。

[0017] 第二方面，提供一种声音转换方法，所述方法包括如下步骤：

[0018] 用户设备获取目标对象的录入信息，将所述录入信息发送至网络设备；

[0019] 网络设备获取与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据，将所述中间数据发送至所述用户设备；

[0020] 所述用户设备确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。

[0021] 可选的，所述网络设备获取与所述录入信息匹配的中间数据具体包括：

[0022] 所述网络设备依据所述录入信息查询得到源音频文件，将所述源音频文件处理得到所述中间数据。

[0023] 可选的，所述网络设备获取与所述录入信息匹配的中间数据具体包括：

[0024] 所述网络设备依据所述录入信息以及录入信息与中间数据的映射关系查询得到所述录入信息匹配的所述中间数据。

[0025] 可选的，所述网络设备获取与所述录入信息匹配的中间数据具体包括：

[0026] 所述网络设备解析所述录入信息得到所述中间数据。

[0027] 第三方面，提供一种用户设备，所述用户设备包括：获取单元、收发单元、合成单元，其中，

[0028] 所述获取单元，用于获取目标对象的录入信息；

[0029] 所述收发单元，用于将所述录入信息发送至网络设备；接收网络设备返回的与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据；

[0030] 所述确定单元，用于确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。

[0031] 可选的，所述中间数据为所述网络设备对源音频文件处理得到的中间数据，所述源音频文件为所述网络设备依据所述录入信息查询得到的源音频文件。

[0032] 可选的，所述中间数据为所述网络设备依据所述录入信息以及录入信息与中间数据的映射关系查询得到的与所述录入信息匹配的中间数据。

[0033] 可选的，所述获取目标对象的录入信息具体包括：

[0034] 所述中间数据为所述网络设备解析所述录入信息得到的中间数据。

[0035] 可选的，所述获取单元，具体用于采集目标对象发出的语音信息；

[0036] 或采集目标对象依据显示页面选择的触控信息，依据所述触控信息的位置确定音频标识信息。

[0037] 可选的，所述确定单元，具体用于确定所述目标发音人，从预设的语音合成模型中查询得到与所述目标发音人匹配的语音合成模型。

[0038] 第四方面，提供一种声音转换系统，所述系统包括：用户设备与网络设备，其中，[0039] 所述用户设备，用于获取目标对象的录入信息，将所述录入信息发送至网络设备；

[0040] 所述网络设备，用于获取与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据，将所述中间数据发送至所述用户设备；

[0041] 所述用户设备，还用于确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。

[0042] 第五方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面或第二方面中所描述的部分或全部步骤。

[0043] 第六方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面或第二方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

[0044] 可以看出，本申请实施例中，本申请提供的技术方案通过用户设备获取录入信息后，通过与网络设备的交互得到与该录入信息匹配的中间数据，然后将该中间数据输入到语音合成模型得到目标语音数据，此技术方案的语音合成在用户设备侧，即在网络设备侧仅仅只有与目标发音人无关的中间数据，这样避免了网络设备泄露了目标发音人的特征音频信息，保护了目标发音人的隐私。并且用户设备执行了部分语音合成的计算，减少了网络设备的计算量，提高了语音合成的效率。附图说明

[0045] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0046] 图1a是一种声音转换流程的示意图；

[0047] 图1b是一种声音转换系统的结构示意图；

[0048] 图1c是一种声音转换系统的结构示意图；

[0049] 图2a是本申请实施例提供一种声音转换系统的结构示意图；

[0050] 图2b是本申请实施例提供一种声音转换系统的结构示意图；

[0051] 图2c是本申请实施例提供一种声音转换系统的结构示意图；

[0052] 图3本申请实施例提供的一种声音转换方法的流程示意图；

[0053] 图4a本申请实施例提供的一种声音转换方法的流程示意图；

[0054] 图4b本申请实施例提供的一种声音转换方法的流程示意图；

[0055] 图4c本申请实施例提供的一种声音转换方法的流程示意图；

[0056] 图5a本申请实施例提供的一种用户设备的功能单元组成框图；

[0057] 图5b本申请实施例提供的一种声音转换系统的功能单元组成框图。

具体实施方式

[0058] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0059] 声音转换一般分成如图1a所示3个过程。如图1a所示，源语音经过分析、转换、合成三个过程变成目标发音人的语音。在实际的应用中，将声音转换划分为前端和后端两个阶段，前端和后端就是将如图1a所示的三个过程重新进行划分，哪些过程作为前端处理阶段，哪些过程作为后端处理阶段，一般将如图1a所示的分析作为前端处理阶段，将如图1a所示的转换和合成作为后端处理阶段。声音转换系统通常采用集中式的部署方式，即转换任务的前后处理阶段主要在一个设备上完成。

[0060] 声音转换的部署方案主要有两种。一种是本地端部署，本地端包括PC、手机或其他嵌入式端设备；本地端部署包括接收语音信号、声音转换、最后输出语音信号这几个过程。由于本地端受到计算能力以及存储空间的限制，声音转换系统部署在本地端通常转换效果不佳且需要较大的存储资源。另一种是服务器端部署，用户通过本地客户端采集语音信号，经过网络传输传递给服务器端，然后服务器端实现变声，最后将变声之后的声音传到本地端进行播放。服务器计算能力强、存储空间大，声音转换系统的效果较好，但是上传和下载语音均需经过网络常常时延较长；由于每个目标发音人对应一个个性化发音人资源，针对大规模应用的时候，服务器端需要加载大规模个性化发音人资源，将承受较大压力；而且不同发音人资源都存在同一机器上，由于变声涉及个人隐私问题，如果转换资源选错或被恶意攻击，将存在安全隐患。

[0061] 参阅图1b，图1b为一种声音转换系统，该系统如图1b所示，包括：服务端和客户端，其中客户端可以为多个，为了方便描述，如图1b所示的系统中的客户端可以为3个，分别为客户端1、客户端2和客户端3，客户端1、客户端2和客户端3分别连接该服务端，该连接方式包括但不限于：有线连接方式或无线连接方式。如图1b所示，该服务端可以包括前端和后端，该前端和后端可以共同实现如图1a所示的3个过程，即能够实现分析、转换、合成三个过程。

[0062] 参阅图1c，图1c为另一种声音转换方案，该方案为本地声音转换方案，该声音转换方案包括客户端，该客户端如图1c所示可以包括：前端和后端；该前端和后端可以共同实现如图1a所示的3个过程，即能够实现分析、转换、合成三个过程。

[0063] 参阅图2a，如图2a所示，为本申请提供的一种声音转换系统，该系统如图2a所示，包括：服务端和客户端，其中客户端可以为多个，为了方便描述，如图2a所示的系统中的客户端可以为n个，分别为客户端1、客户端2…客户端n，客户端1、客户端2…客户端n分别连接该服务端，该连接方式包括但不限于：有线连接方式或无线连接方式；该无线连接方式包括但不限于：wifi、蓝牙、射频等短距离连接方式，当然上述无线连接方式也可以通过无线通信网络连接，例如，可以LTE(英文：long term evolution，中文：长期演进)、NR(英文：new radio，中文：新空口)等方式，当然在实际应用中，还可以采用其他的通信连接方式，本申请并不限制上述如图2a所示系统中客户端与服务端之间的连接方式。如图2a所示，该服务端可以包括：前端模块，该客户端可以包括后端模块；该前端模块用于处理声音转换的分析，即该前端模块具体用于提取源音频中的声学和韵律特征；该后端模块可以用于处理声音转换的转换和合成，即后端模块可以用于将前端模块提取的声学和韵律特征合成为目标发音人的声音。

[0064] 如图2b所示，图2b为本申请提供的一种声音转换系统，该系统如图2b所示，包括：服务端和客户端，其中，客户端可以为单个，即一个客户端，如图2b所示，该服务端可以包括：前端模块，该客户端可以包括后端模块；该前端模块以及后端模块的功能可以参见如图
2a所示系统的描述，这里不再赘述。

[0065] 如图2c所示，图2c为本申请提供的一种声音转换系统，该系统如图2c所示，包括：服务端和客户端，其中，客户端可以为多个，如图2c所示，该服务端可以包括：音频服务器和变声服务器，该变声服务器可以包括：前端模块，该音频服务器包括音频文件以及缓存，该客户端可以包括后端模块；该前端模块以及后端模块的功能可以参见如图2a所示系统的描述，这里不再赘述。

[0066] 参阅图3，图3为本申请提供的一种声音转换方法，如图3所示，该方法可以由如图2a所示的声音转换系统实现，当然在实际应用中，如图3所示的方法还可以由如图2b所示的声音转换系统实现。如图2a或如图2b所示的客户端均可以为用户设备，该用户设备具体可以为如智能手机、智能音响等设备。该服务端具体可以为网络设备，该网络设备例如，服务器、计算机、数据中心等设备。如图3所示，该声音转换方法如图3所示，包括如下步骤：

[0067] 步骤S301、用户设备获取目标对象的录入信息，将该录入信息发送至网路设备；

[0068] 上述步骤S301中的目标对象依据不同的场景可能不同，例如，在一种可选的方案中，该目标对象可以为使用该用户设备的人，当然在另一种可选的方案中，该目标对象可以为其他的人。

[0069] 上述用户设备获取目标对象的录入信息依据录入信息的种类不同其获取的硬件也不同。例如该录入信息为语音信息时，该获取目标对象的语音信息的硬件可以为麦克或音频采集设备。又如该录入信息为输入信息时，该获取目标对象的输入信息的硬件可以为触控显示屏或手写设备，具体的，用户设备的触控显示屏可以显示一个页面，采集目标对象在该页面的选择的触控信息，依据该触控信息的位置确定音频标识信息。例如，该用户设备的触控显示屏可以显示一个包含有多首歌曲的页面，假设采集目标对象选择的触控信息的位置对应该页面的第一首歌曲的位置，则依据该第一首歌曲的位置确定该音频标识信息为第一首歌曲的第一标识。

[0070] 当然如果该录入信息为其他类型的信息时，其硬件也可以为与该其他类型对应的硬件，本申请并不限制上述录入信息的具体类型，也不限制获取目标对象的录入信息所采用的硬件。

[0071] 上述步骤S301中将所述录入信息发送至网络设备的发送方法包括但不限于有线发送或无线发送的方式，在为无线发送的方式时，该无线发送基于的协议包括但不限于：2G、3G、4G、5G通信协议，当然还可以基于LPWAN(英文：low-Power wide-area network，中文：低功率广域网络)。该LPWAN可以是蓝牙、LORA、SigFox、Weightless、RPMA、Qowisio、N-Wave、Telensa、DART中一种或多种私有或公有协议建立的自组网络，当然在实际应用中还可以应用其它中长距离的私有公有通信协议。

[0072] 步骤S302、用户设备接收网络设备返回的与该录入信息匹配的中间数据，该中间数据可以为与目标发音人无关的音频特征数据。

[0073] 上述中间数据为与目标发音人无关的音频特征数据具体可以包括：与录入信息匹配的音频的语义内容信息以及韵律信息，由于上述内容信息以及韵律信息与目标发音人无关，因此称为中间数据。上述与录入信息匹配的音频具体可以包括：目标对象的源音频数据或目标对象选择的源音频数据。例如，如录入信息为采集目标对象的第一音频数据，则该与录入信息匹配的音频即为第一音频数据；又如录入信息为依据触控信息的位置确定的音频标识信息，则该与录入信息匹配的音频为该音频标识信息对应的第二音频数据。

[0074] 上述中间数据的获取方式具体可以包括：利用神经网络模型提取该第一音频数据或第二音频数据中的语义内容信息以及韵律信息。上述神经网络模型包括但不限于：DNN(英文：deep neural network，中文：深度神经网络)、RNN(英文：recurrent neural network，中文：循环神经网络)、CNN(英文：convolution neural network，中文：卷积神经网络)。

[0075] 步骤S303、用户设备确定该目标发音人的语音合成模型，将该中间数据输入到语音合成模型合成得到目标语音数据。

[0076] 上述步骤S303中确定语音合成模型的方式可以有多种，例如，在一种可选的方案中，上述语音合成模型可以通过发音人与语音合成模型的映射关系中查询得到该目标发音人对应的第一语音模型。

[0077] 上述语音合成模型包括但不限于：神经网络模型、机器学习模型等等语音合成模型。

[0078] 上述目标发音人的身份确认方式可以有多种，例如，上述身份确定方式可以通过声纹方式来识别，当然在一种可选的方案中，上述确认目标发音人的身份可以通过指纹识别的方式来确定，该指纹识别包括但不限于：光学指纹识别或电容指纹识别方式。在另一种可选的方案中，上述确定目标发音人的身份还可以通过人脸识别的方式来确定；在又一种可选的方案中，上述确定目标发音人的身份还可以通过静脉识别的方式来确定。

[0079] 本申请提供的技术方案通过用户设备采集到录入信息后，通过与网络设备的交互得到与该录入信息匹配的中间数据，然后将该中间数据输入到语音合成模型得到目标语音数据，此技术方案的语音合成在用户设备侧，即在网络设备侧仅仅只有与目标发音人无关的中间数据，这样避免了网络设备泄露了目标发音人的特征音频信息，保护了目标发音人的隐私。另外，本申请的技术方案将语音合成的技术方案放置在用户设备侧，网络设备仅仅是获取录入信息对应的中间数据，而无需进行语音合成，此技术方案用户设备分担了网络设备侧的部分计算量，因此减少了网络设备侧的计算量，使得网络设备可以处理更多数量的用户设备，提高了响应速度以及声音转换的时间，提高了用户体验度。

[0080] 在如图3所示的方法实施例中，假设步骤S301中的录入信息为语音信息，则声音转换方法的实现方法可以参阅图4a，图4a为本申请提供的一种声音转换方法，如图4a所示，该方法可以由如图2a所示的声音转换系统实现，当然在实际应用中，如图4a所示的方法还可以由如图2b所示的声音转换系统实现。如图2a或如图2b所示的客户端均可以为用户设备，该用户设备具体可以为如智能手机、智能音响等设备。该服务端具体可以为网络设备，该网络设备例如，服务器、计算机、数据中心等设备。如图4a所示，该声音转换方法如图4a所示，包括如下步骤：

[0081] 步骤S401a、用户设备获取目标对象的语音信息，将该语音信息发送至网路设备；

[0082] 上述用户设备获取目标对象的语音信息可以通过语音采集器件实现，该语音信息可以为语音采集器件实时采集的数据，当然也可以为用户设备存储的语音采集器件采集的数据。上述语音采集器件包括但不限于：麦克、耳麦、耳机等等能够采集语音信息的器件。

[0083] 上述将语音信息发送至网络设备可以通过无线网络或有限网络来发送，该无线网络或有限网络的具体表现形式可以参见步骤S301的描述，这里不再赘述。

[0084] 步骤S402a、网络设备解析该语音信息得到该中间数据，将该中间数据发送至用户设备；

[0085] 上述步骤S402a的实现方法具体可以包括：网络设备调用神经网络模型(例如DNN、RNN或CNN)处理该语音信息得到该中间数据。

[0086] 步骤S403a、用户设备确定目标发音人对应的语音合成模型，将该中间数输入语音合成模型得到目标语音信息。

[0087] 上述步骤S403a的实现方法具体可以包括：

[0088] 用户设备调用与目标发音人对应的神经网络模型将中间数据转换成目标发音人的声学相关特征信息，然后将该声学相关特征信息合成为目标语音信息。上述将该声学相关特征信息合成为目标语音信息的方式可以采用信号处理的方式，例如Straight方法；当然在实际应用中，上述将该声学相关特征信息合成为目标语音信息的方式还可以采用基于模型的合成方式，上述模型包括但不限于：wavenet模型。

[0089] 本申请提供的技术方案通过用户设备采集到语音信息后，通过与网络设备的交互得到与该录入信息匹配的中间数据，然后将该中间数据输入到语音合成模型得到目标语音数据，此技术方案的语音合成在用户设备侧，即在网络设备侧仅仅只有与目标发音人无关的音频特征数据，即网络设备仅具有中间数据，因为该中间数据与目标发音人并无关联，因此本方案避免了网络设备泄露了目标发音人的特征音频信息，保护了目标发音人的隐私。并且用户设备执行了部分语音合成的计算，减少了网络设备的计算量，提高了语音合成的效率。

[0090] 上述语音合成模型可以为神经网络模型，该语音合成模型可以预先存储在用户设备内的语音合成模型，当然在实际应用中，如该用户设备未存储目标发音人的模型，则可以向网络设备请求该目标发音人的参数，将该参数加载至语音合成模型得到该目标发音人的模型。下面以一个实际的例子来说明，例如，用户设备存储的语音合成模型为目标发音人“张三”的语音合成模型，此时用户设备需要的目标发音人为“李四”，用户设备可以将“李四”发送至网络设备，网络设备获取“李四”的参数，将该参数发送至用户设备，用户设备用“李四”的参数覆盖“张三”的参数即得到了“李四”对应的语音合成模型。当然在实际应用中，也可以同时支持“张三”和“李四”，其与上述覆盖不同的是，将“李四”的参数单独存储在一个地址区域，并生成地址区域的首地址与“李四”的索引关系，如果确定需要调用“李四”的参数时，只需要将语音合成模型中指令的权重调用地址的起始地址更换成“李四”对应的地址区域的首地址即可实现对“李四”的语音合成模型的调用。

[0091] 在如图3所示的方法实施例中，假设步骤S301中的录入信息为依据目标对象在该显示页面选择的触控信息的位置确定音频标识信息时，该声音转换方法的实现方法可以参阅图4b，图4b为本申请提供的一种声音转换方法，如图4b所示，该方法可以由如图2a所示的声音转换系统实现，当然在实际应用中，如图4b所示的方法还可以由如图2b所示的声音转换系统实现。如图2a或如图2b所示的客户端均可以为用户设备，该用户设备具体可以为如智能手机、智能音响等设备。该服务端具体可以为网络设备，该网络设备例如，服务器、计算机、数据中心等设备。如图4b所示，该声音转换方法如图4b所示，包括如下步骤：

[0092] 步骤S401b、用户设备显示一页面，采集目标对象在该页面的触控信息，依据该触控信息的位置确定音频标识信息；

[0093] 上述步骤S401b的实现方法具体可以包括：

[0094] 用户设备显示一页面，该页面包括多个音频信息的名称，假设采集到目标对象在该页面的触控信息的位置对应为第一音频信息的位置时，确定该音频标识信息为第一音频信息对应的音频标识信息。假设该页面在第一音频信息的位置显示的歌曲名称为“白雪公主”，则确定该音频标识信息为“白雪公主”对应的音频标识信息，该音频标识信息具体可以为：ID01201。

[0095] 步骤S402b、网络设备查找该音频标识信息对应的中间数据，将该中间数据发送至用户设备；

[0096] 上述网络设备查询该音频标识信息对应的中间数据可以依据该音频标识信息查询得到，例如，该中间数据列表可以如表1所示，那么“ID01201”的中间数据可以对应第一个中间数据地址，即/data/af/ID01201.af。

[0097] 表1：

[0098]

[0099] 步骤S403b、用户设备确定目标发音人对应的语音合成模型，将该中间数据输入语音合成模型得到目标语音信息。

[0100] 上述将该中间数据输入语音合成模型得到目标语音数据的方法可以参见上述步骤S403a的描述，这里不再赘述。本申请提供的技术方案通过用户设备得到用户选择的音频标识信息后，通过与网络设备的交互得到与该音频标识信息匹配的中间数据，然后将该中间数据输入到语音合成模型得到目标语音数据，此技术方案的语音合成在用户设备侧，即在网络设备侧仅仅只有与目标发音人无关的中间数据，这样避免了网络设备泄露了目标发音人的特征音频信息，保护了目标发音人的隐私。

[0101] 在如图3所示的方法实施例中，假设步骤S301中的录入信息为音频名称时，该声音转换方法的具体实现方法可以参阅图4c，图4c为本申请提供的一种声音转换方法，如图4c所示，该方法可以由如图2c所示的声音转换系统实现，如图4c所示，该声音转换方法如图4c所示，包括如下步骤：

[0102] 步骤S401c、用户设备接收用户输入的音频名称“白雪公主”，将该音频名称“白雪公主”发送至网路设备；

[0103] 上述音频名称可以为一首歌的名称，例如“白雪公主”、“狐狸与马”。步骤S402c、网络设备的音频服务器查找“白雪公主”对应的音频标识信息得到“白雪公主”的音频标识信息ID01201，音频服务器提取该ID01201对应的音频数据，将该音频数据传输至变声服务器；

[0104] 上述网络设备查询该ID01201对应的音频数据可以依据该ID查询得到，例如，该音频数据列表可以如表2所示，那么音频ID为“ID01201”对应的音频名为“白雪公主”对应的音频数据地址可以为“/data/wav/ID01201.wav”，根据该音频文件地址，提取该音频文件地址对应的音频数据，即可将其上传到变声服务器。

[0105] 表2：

[0106]

[0107] 步骤S403c、网络设备的变声服务器的前端模块对该音频数据进行解析得到中间数据，将该中间数据发送至音频服务器缓存；

[0108] 上述步骤S403c中的前端模块对该音频数据进行解析得到中间数据的具体方式可以包括：利用神经网络模型提取该音频数据的中间数据(例如该音频数据的语义内容信息以及韵律信息)。上述神经网络模型的表现形式可以参见上述步骤S302中的描述，这里不再赘述。

[0109] 步骤S404c、网络设备的音频服务器接收到该中间数据后，将该中间数据发送至用户设备；

[0110] 上述音频服务器与变声服务器的网络连接方式包括但不限于：有线连接或无线连接方式，该音频服务器与用户设备的连接方式也可以为有线连接或无线连接。

[0111] 需要说明的是，本申请设置音频服务器主要是因为音频数据的数量很大，海量的音频数据和前端模块设置在一个服务器内可能影响前端模块的速度，因为海量的音频数据的查找很消耗系统的资源，而前端模块进行解析音频数据得到中间数据的计算量也很大，也需要消耗较大的系统的资源，因此将两个都很消耗资源的功能结合在一起会影响声音转换的效率，并且两个功能结合后的服务器需要较高的硬件配置才能够实现上述两个功能，将两个功能分别设置在不同的服务器能够提高声音转换的效率。

[0112] 步骤S405c、用户设备确定目标发音人对应的语音合成模型，将该中间数输入语音合成模型得到目标语音信息。

[0113] 上述步骤S405c中将中间数据输入语音合成模块得到目标语音信息的方法可以参见上述步骤S403a的描述，这里不再赘述。

[0114] 步骤S406c、用户设备播放该目标语音信息。

[0115] 上述步骤S406c的实现方法可以包括：

[0116] 用户设备调用音频器件播放该目标语音信息，该音频器件包括但不限于：耳机、音箱等等器件。

[0117] 本申请提供的技术方案通过用户设备采集目标对象输入的音频名称后，发送至网络设备，网络设备的音频服务器提取该音频名称对应的音频ID，依据音频ID提取源文件，将该源文件传递到变声服务器的前端模块，前端模块对该源文件解析得到中间数据，将该中间数据传递到音频服务器，音频服务器将该中间数据发送至用户设备，用户设备将该中间数据输入到语音合成模型得到目标语音数据，此技术方案的语音合成在用户设备侧，即在网络设备侧仅仅只有与目标发音人无关的中间数据，这样避免了网络设备泄露了目标发音人的特征音频信息，保护了目标发音人的隐私。并且用户设备执行了部分语音合成的计算，减少了网络设备的计算量，提高了语音合成的效率。另外，本申请的技术方案的网络设备包含音频服务器和变声服务器，两个服务器分别负责查询音频源文件以及解析源文件得到中间数据的步骤，两个服务器的方案降低了服务器的硬件要求，降低了成本，另外，两个服务器的方案能够很好的分配两个功能的计算量，加快了声音转换的响应速度，提高了声音转换的效率。

[0118] 参阅图5a，图5a提供了一种实现如图3所示方法的用户设备，如图5a所示的用户设备中的名词解释，例如录入信息、中间数据等等可以参见如图3所示方法实施例的描述，这里不再赘述。所述用户设备包括：获取单元501、收发单元502、合成单元503，其中，[0119] 所述获取单元，用于获取目标对象的录入信息；

[0120] 所述收发单元，用于将所述录入信息发送至网络设备；接收网络设备返回的与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据；

[0121] 所述确定单元，用于确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。

[0122] 本申请提供的用户设备采集到录入信息后，通过与网络设备的交互得到与该录入信息匹配的中间数据，然后将该中间数据输入到语音合成模型得到目标语音数据，此技术方案的语音合成在用户设备侧，即在网络设备侧仅仅只有与目标发音人无关的中间数据，这样避免了网络设备泄露了目标发音人的特征音频信息，保护了目标发音人的隐私。并且用户设备执行了部分语音合成的计算，减少了网络设备的计算量，提高了语音合成的效率。

[0123] 在一种可选的方案中，

[0124] 所述中间数据为所述网络设备对源音频文件处理得到的中间数据，所述源音频文件为所述网络设备依据所述录入信息查询得到的源音频文件。

[0125] 在一种可选的方案中，

[0126] 所述中间数据为所述网络设备依据所述录入信息以及录入信息与中间数据的映射关系查询得到的与所述录入信息匹配的中间数据。

[0127] 在一种可选的方案中，

[0128] 所述获取目标对象的录入信息具体包括：

[0129] 所述中间数据为所述网络设备解析所述录入信息得到的中间数据。

[0130] 在一种可选的方案中，

[0131] 所述获取单元，具体用于采集目标对象发出的语音信息；

[0132] 或采集目标对象依据显示页面选择的触控信息，依据所述触控信息的位置确定音频标识信息。

[0133] 在一种可选的方案中，

[0134] 所述确定单元，具体用于确定所述目标发音人，从预设的语音合成模型中查询得到与所述目标发音人匹配的语音合成模型。

[0135] 参阅图5b，图5b提供了一种实现如图3所示方法实施例的声音转换系统，如图5b所示的用户设备中的名词解释，例如录入信息、中间数据等等可以参见如图3所示方法实施例的描述，这里不再赘述。所述系统包括：用户设备与网络设备，其中，

[0136] 所述用户设备，用于获取目标对象的录入信息，将所述录入信息发送至网络设备；

[0137] 所述网络设备，用于获取与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据，将所述中间数据发送至所述用户设备；

[0138] 所述用户设备，还用于确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。

[0139] 本申请提供的声音转换系统通过用户设备采集到语音信息后，通过与网络设备的交互得到与该录入信息匹配的中间数据，然后将该中间数据输入到语音合成模型得到目标语音数据，此技术方案的语音合成在用户设备侧，即在网络设备侧仅仅只有与目标发音人无关的中间数据，这样避免了网络设备泄露了目标发音人的特征音频信息，保护了目标发音人的隐私。并且用户设备执行了部分语音合成的计算，减少了网络设备的计算量，提高了语音合成的效率。

[0140] 在一种可选的方案中，

[0141] 所述网络设备，具体用于依据所述录入信息查询得到的源音频文件，对源音频文件处理得到的中间数据。

[0142] 上述查询得到源音频文件的具体实现方式可以参见上述步骤S402c的描述，这里不再赘述。上述对源文件处理得到的中间数据的具体处理方式可以参见步骤S403c中的描述。

[0143] 在一种可选的方案中，

[0144] 所述网络设备，具体用于依据所述录入信息以及录入信息与中间数据的映射关系查询得到的与所述录入信息匹配的中间数据。

[0145] 上述查询得到的与所述录入信息匹配的中间数据的实现方式具体可以参见步骤S402b的描述，这里不再赘述。

[0146] 在一种可选的方案中，

[0147] 所述网络设备，具体用于解析所述录入信息得到的中间数据。

[0148] 上述解析所述录入信息得到中间数据的具体实现方式可以参见步骤S302的描述。

[0149] 在一种可选的方案中，

[0150] 所述用户设备，具体用于采集目标对象发出的语音信息；或采集目标对象依据显示页面选择的触控信息，依据所述触控信息的位置确定音频标识信息。述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。

[0151] 可以理解的是，声音转换系统的用户设备或网络设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

[0152] 本申请实施例可以根据上述方法示例对用户设备或声音转换系统进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

[0153] 本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

[0154] 本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

[0155] 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

[0156] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0157] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

[0158] 上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0159] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0160] 上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0161] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

[0162] 以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

标题	发布/更新时间	阅读量
一种便于定位与导航的列车广播系统	2020-05-08	26
基于语音合成的视频配音方法、装置、计算机设备及介质	2020-05-08	854
一种用于闽南语的合成方法及其装置	2020-05-08	737
一种说话人声音转换方法及装置	2020-05-13	801
一种语音切换方法、装置、终端及计算机可读存储介质	2020-05-14	309
信息管理系统和信息管理方法	2020-05-15	64
一种巡检设备及基于语音数据提醒巡检路线的方法	2020-05-15	62
一种离线质检用语音识别方法及系统	2020-05-11	941
基于儿童专用穿戴智能设备的教育能力支持方法及系统	2020-05-13	594
语音合成方法、装置、系统和存储介质	2020-05-13	857

声音转换方法及相关产品

声音转换方法及相关产品

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：