首页 / 专利分类库 / 乐器;声学 / 一种语音合成方法、语音合成模型的训练方法和相关装置

一种语音合成方法、语音合成模型的训练方法和相关装置

申请号 CN202311868862.1 申请日 2023-12-28 公开(公告)号 CN117935773A 公开(公告)日 2024-04-26
申请人 科大讯飞股份有限公司; 发明人 张治慧; 胡亚军; 方昕; 潘嘉; 高建清;
摘要 本 申请 公开了一种语音合成方法、语音合成模型的训练方法和相关装置,该方法包括:获取目标对象的目标参考语音和目标文本的文本特征;基于目标参考语音,提取目标对象的语音韵律特征;至少将语音韵律特征与文本特征进行融合,以得到第一融合特征;基于第一融合特征生成目标对象对应目标文本的目标声学特征,能够提高语音合成的真实性。
权利要求

1.一种语音合成方法,其特征在于,所述方法包括:
获取目标对象的目标参考语音和目标文本的文本特征;
基于所述目标参考语音,提取所述目标对象的语音韵律特征;
至少将所述语音韵律特征与所述文本特征进行融合,以得到第一融合特征;
基于所述第一融合特征生成所述目标对象对应所述目标文本的目标声学特征。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标参考语音,提取所述目标对象的语音韵律特征包括:
对所述目标参考语音进行特征提取,得到所述目标参考语音的音频特征;
对所述目标参考语音的音频特征进行韵律特征提取,得到所述目标对象的语音韵律特征。
3.根据权利要求1所述的方法,其特征在于,所述至少将所述语音韵律特征与所述文本特征进行融合,以得到第一融合特征之前,所述方法还包括:
基于所述目标参考语音的声学特征,提取得到细粒度音色特征,所述细粒度音色特征包括所述目标参考语音中各音素的音素音色特征;
所述至少将所述语音韵律特征与所述文本特征进行融合,以得到第一融合特征包括:
将所述细粒度音色特征融合到所述文本特征中,得到第二融合特征;
将所述第二融合特征、所述文本特征和所述语音韵律特征进行融合,以得到所述第一融合特征。
4.根据权利要求1所述的方法,其特征在于,所述第一融合特征包括所述目标文本中各音素对应的子融合特征;所述基于所述第一融合特征生成所述目标对象对应所述目标文本的目标声学特征包括:
对所述第一融合特征进行长度调节,得到长度调节特征,其中,所述长度调节特征包括所述目标文本对应的各音频的音频帧特征;
至少基于所述长度调节特征进行映射,得到所述目标声学特征;
其中,所述至少基于所述长度调节特征进行映射,得到所述目标声学特征的步骤由目标语音合成模型的解码器执行;所述解码器包括至少一个解码模,所述至少一个解码模块设有特征变换层;所述特征变换层用于基于所述目标对象的变换参数进行特征变换;所述目标对象的变换参数基于所述目标对象的样本参考语音得到。
5.根据权利要求4所述的方法,其特征在于,所述解码模块包括多个顺序连接的原始操作层,至少一个所述原始操作层作为目标操作层,各所述目标操作层均通过一特征变换层连接下一原始操作层;
其中,所述多个原始操作层分为尾原始操作层和非尾原始操作层,各所述非尾原始操作层分别作为所述目标操作层;和/或,所述特征变换层用于基于所述目标对象的变换参数对所述目标操作层输出的特征进行特征变换,得到变换结果;其中,所述变换结果用于作为所述特征变换层连接的下一原始操作层的输入,所述目标对象的变换参数包括平移参数和缩放参数中的至少一者。
6.根据权利要求1所述的方法,其特征在于,所述语音韵律特征是利用目标语音合成模型的韵律建模模块得到,所述目标对象对应所述目标文本的目标声学特征是利用目标语音合成模型的声学模块得到,所述获取目标对象的目标参考语音和目标文本的文本特征之前,所述方法还包括如下步骤以获取所述目标语音合成模型:
获取经预训练的原始语音合成模型,以及获取所述目标对象的样本参考语音和对应的样本文本,其中,所述原始语音合成模型包括所述韵律建模模块和所述声学模块;
利用所述韵律建模模块,基于所述样本参考语音提取所述目标对象的样本语音韵律特征;
利用所述声学模块,基于所述样本语音韵律特征和所述样本文本的样本文本特征,生成所述目标对象对应所述样本文本的预测声学特征;
至少基于所述预测声学特征与所述样本参考语音标注的参考声学特征之间的差异,调整所述声学模块的至少部分模型参数,以得到所述目标语音合成模型。
7.根据权利要求6所述的方法,其特征在于,所述声学模块包括解码器,所述解码器包括至少一个解码模块,所述解码模块包括多个原始操作层,至少一个所述原始操作层作为目标操作层;
所述利用所述声学模块,基于所述样本语音韵律特征和所述样本文本的样本文本特征,生成所述目标对象对应所述样本文本的预测声学特征之前,所述方法还包括:
在所述目标操作层与所述目标操作层连接的下一原始操作层之间,增加一特征变换层;其中,所述多个原始操作层分为尾原始操作层和非尾原始操作层,各所述非尾原始操作层分别作为所述目标操作层;
所述利用所述声学模块,基于所述样本语音韵律特征和所述样本文本的样本文本特征,生成所述目标对象对应所述样本文本的预测声学特征包括:
基于所述样本语音韵律特征和所述样本文本特征进行融合和长度调节,得到样本长度调节特征;
利用所述解码器,基于所述样本长度调节特征进行映射,得到所述预测声学特征;
其中,所述基于所述样本长度调节特征进行映射,得到所述预测声学特征包括:
利用所述特征变换层,基于所述样本参考语音的样本全局音色特征,对所述目标操作层输出的特征进行变换,得到样本变换结果,并将所述样本变换结果输出至下一原始操作层。
8.根据权利要求7所述的方法,其特征在于,所述特征变换层包括参数获取单元和特征变换单元;所述基于所述样本参考语音的样本全局音色特征,对所述目标操作层输出的特征进行变换,得到样本变换结果包括:
利用所述参数获取单元,对所述样本全局音色特征进行线性变换,得到变换参数,其中,所述变换参数包括缩放参数和平移参数中的至少一者;
利用所述特征变换单元,基于所述变换参数对所述目标操作层输出的特征进行变换,得到所述样本变换结果。
9.根据权利要求8所述的方法,其特征在于,所述调整所述声学模块的至少部分模型参数包括:
调整所述解码器中所述特征变换层和非目标操作层的模型参数;和/或,所述方法还包括:
将训练得到的所述特征变换层中的参数获取单元删除,将训练得到的所述变换参数作为所述目标对象的变换参数,所述目标对象的变换参数用于作为所述特征变换层的输入。
10.一种语音合成模型的训练方法,其特征在于,所述方法包括:
获取经预训练的原始语音合成模型,以及获取目标对象的样本参考语音和对应的样本文本,其中,所述原始语音合成模型包括韵律建模模块和声学模块;
利用所述韵律建模模块,基于所述样本参考语音提取所述目标对象的样本语音韵律特征;
利用所述声学模块,基于所述样本语音韵律特征和所述样本文本的样本文本特征,生成所述目标对象对应所述样本文本的预测声学特征;
至少基于所述预测声学特征与所述样本参考语音标注的参考声学特征之间的差异,调整所述声学模块的至少部分模型参数,以得到目标语音合成模型。
11.根据权利要求10所述的方法,其特征在于,所述声学模块包括解码器,所述解码器包括至少一个解码模块,所述解码模块包括多个原始操作层,至少一个所述原始操作层作为目标操作层;
所述利用所述声学模块,基于所述样本语音韵律特征和所述样本文本的样本文本特征,生成所述目标对象对应所述样本文本的预测声学特征之前,所述方法还包括:
在所述目标操作层与所述目标操作层连接的下一原始操作层之间,增加一特征变换层;其中,所述多个原始操作层分为尾原始操作层和非尾原始操作层,各所述非尾原始操作层分别作为所述目标操作层;
所述利用所述声学模块,基于所述样本语音韵律特征和所述样本文本的样本文本特征,生成所述目标对象对应所述样本文本的预测声学特征包括:
基于所述样本语音韵律特征和所述样本文本特征进行融合和长度调节,得到样本长度调节特征;
利用所述解码器,基于所述样本长度调节特征进行映射,得到所述预测声学特征;
其中,所述基于所述样本长度调节特征进行映射,得到所述预测声学特征包括:
利用所述特征变换层,基于所述样本参考语音的样本全局音色特征,对所述目标操作层输出的特征进行变换,得到样本变换结果,并将所述样本变换结果输出至下一原始操作层。
12.一种语音合成装置,其特征在于,所述装置包括:
获取模块,用于获取目标对象的目标参考语音和目标文本的文本特征;
提取模块,用于基于所述目标参考语音,提取所述目标对象的语音韵律特征;
融合模块,用于至少将所述语音韵律特征与所述文本特征进行融合,以得到第一融合特征;
生成模块,用于基于所述第一融合特征生成所述目标对象对应所述目标文本的目标声学特征。
13.一种语音合成模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取经预训练的原始语音合成模型,以及获取目标对象的样本参考语音和对应的样本文本,其中,所述原始语音合成模型包括韵律建模模块和声学模块;
提取模块,用于利用所述韵律建模模块,基于所述样本参考语音提取所述目标对象的样本语音韵律特征;
生成模块,用于利用所述声学模块,基于所述样本语音韵律特征和所述样本文本的样本文本特征,生成所述目标对象对应所述样本文本的预测声学特征;
调整模块,用于至少基于所述预测声学特征与所述样本参考语音标注的参考声学特征之间的差异,调整所述声学模块的至少部分模型参数,以得到目标语音合成模型。
14.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至9任一项所述的语音合成方法或权利要求10或11所述的语音合成模型的训练方法。
15.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至9任一项所述的语音合成方法或权利要求10或11所述的语音合成模型的训练方法。

说明书全文

一种语音合成方法、语音合成模型的训练方法和相关装置

技术领域

[0001] 本申请涉及语音技术领域,特别是涉及一种语音合成方法、语音合成模型的训练方法和相关装置。

背景技术

[0002] 语音合成(speech synthesis)又称文语转换(text‑to‑speech,TTS),旨在实现将输入文本转换为流畅自然的输出语音。个性化语音合成(Adaptation TTS)是语音合成领域中至关重要的一项工作,旨在录取目标对象的少量声音片段后,即能模拟出录音者的语音。
[0003] 本申请的申请人在长期的研发过程中发现,现有的语音合成方法得到的合成语音与录音者说出的真实语音之间仍然存在一定的差异。有鉴于此,如何提高语音合成的真实性,成为亟待解决的问题。发明内容
[0004] 本申请主要解决的技术问题是提供一种语音合成方法、语音合成模型的训练方法和相关装置,能够提高语音合成的真实性。
[0005] 为解决上述技术问题,本申请采用的一个技术方案是:提供一种语音合成方法,该方法包括:获取目标对象的目标参考语音和目标文本的文本特征;基于目标参考语音,提取目标对象的语音韵律特征;至少将语音韵律特征与文本特征进行融合,以得到第一融合特征;基于第一融合特征生成目标对象对应目标文本的目标声学特征。
[0006] 为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音合成模型的训练方法,包括:获取经预训练的原始语音合成模型,以及获取目标对象的样本参考语音和对应的样本文本,其中,原始语音合成模型包括韵律建模模和声学模块;利用韵律建模模块,基于样本参考语音提取目标对象的样本语音韵律特征;利用声学模块,基于样本语音韵律特征和样本文本的样本文本特征,生成目标对象对应样本文本的预测声学特征;至少基于预测声学特征与样本参考语音标注的参考声学特征之间的差异,调整声学模块的至少部分模型参数,以得到目标语音合成模型。
[0007] 为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音合成装置,该装置包括:获取模块、提取模块、融合模块和生成模块,获取模块用于获取目标对象的目标参考语音和目标文本的文本特征;提取模块用于基于目标参考语音,提取目标对象的语音韵律特征;融合模块用于至少将语音韵律特征与文本特征进行融合,以得到第一融合特征;生成模块用于基于第一融合特征生成目标对象对应目标文本的目标声学特征。
[0008] 为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音合成模型的训练装置,该装置包括获取模块、提取模块、生成模块和调整模块,获取模块,用于获取经预训练的原始语音合成模型,以及获取目标对象的样本参考语音和对应的样本文本,其中,原始语音合成模型包括韵律建模模块和声学模块;提取模块用于利用韵律建模模块,基于样本参考语音提取目标对象的样本语音韵律特征;生成模块用于利用声学模块,基于样本语音韵律特征和样本文本的样本文本特征,生成目标对象对应样本文本的预测声学特征;调整模块用于至少基于预测声学特征与样本参考语音标注的参考声学特征之间的差异,调整声学模块的至少部分模型参数,以得到目标语音合成模型。
[0009] 为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一语音合成方法或者语音合成模型的训练方法。
[0010] 为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述任一语音合成方法或者语音合成模型的训练方法。
[0011] 上述方案,基于目标对象的目标参考语音,提取目标对象的语音韵律参考,与文本特征相结合用于生成目标声学特征,丰富了语音合成所依据的目标对象特有的特征,使得目标声学特征对应的合成语音能够更加贴近目标对象的真实语音,提升语音合成的真实性。附图说明
[0012] 图1是本申请语音合成方法一实施例的流程示意图;
[0013] 图2是本申请图1中步骤S120另一实施例的流程示意图;
[0014] 图3是本申请语音合成方法另一实施例的流程示意图;
[0015] 图4是本申请语音合成模型一实施例的示意图;
[0016] 图5是本申请语音合成模型另一实施例的示意图;
[0017] 图6是本申请语音合成模型的训练方法一实施例的流程示意图;
[0018] 图7是本申请语音合成模型的训练方法一实施例的示意图;
[0019] 图8是本申请语音合成装置一实施例的框架示意图;
[0020] 图9是本申请语音合成模型的训练装置一实施例的框架示意图;
[0021] 图10是本申请电子设备一实施例的框架示意图;
[0022] 图11是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

[0023] 为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0024] 本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
[0025] 请参阅图1,图1是本申请语音合成方法一实施例的流程示意图。
[0026] 具体而言,该方法可以包括如下步骤:
[0027] 步骤S110:获取目标对象的目标参考语音和目标文本的文本特征。
[0028] 可以理解的是,语音合成方法的目的是为了合成特定对象音色的语音,语音的内容可以为指定文本。其中,目标对象可以为合成语音的音色目标对象,目标文本可以为合成语音的指定文本。
[0029] 其中,目标参考语音可以为目标对象真实发声的语音。目标文本的文本特征可以基于目标文本提取得到。
[0030] 步骤S120:基于目标参考语音,提取目标对象的语音韵律特征。
[0031] 其中,语音韵律特征可以表征目标对象与音色无关的声音的韵律特征,例如,说话习惯带来的韵律特征等。
[0032] 步骤S130:至少将语音韵律特征与文本特征进行融合,以得到第一融合特征。
[0033] 其中,融合方式可以根据用户实际应用需要而设置,在此不做一一举例说明。
[0034] 可以理解的是,为了得到用于生成目标声学特征的第一融合特征,除了融合语音韵律特征和文本特征之外,还可以融合其他特征,示例性地,目标对象的全局音色特征,以使得合成语音更加贴近目标对象的真实音色。
[0035] 步骤S140:基于第一融合特征生成目标对象对应目标文本的目标声学特征。
[0036] 其中,目标声学特征可以用于得到合成语音,该合成语音为模拟目标对象说出目标文本的音频。
[0037] 在一具体的应用场景中,可以利用声码器,基于目标声学特征生成合成语音,该合成语音为模拟目标对象说目标文本的语音。
[0038] 第一融合特征既融合了目标对象特有的语音韵律特征,也融合了目标文本的特征,可以用于生成目标声学特征,以使得合成语音能够带有目标对象特有的韵律的特征,更加贴近目标对象的真实语音。
[0039] 一些实施例中,目标声学特征可以为梅尔谱。
[0040] 一些实施例中,基于第一融合特征生成目标对象对应目标文本的目标声学特征可以包括:对第一融合特征进行长度调节,得到长度调节特征,其中,长度调节特征包括目标文本对应的各音频的音频帧特征。至少基于长度调节特征进行映射,得到目标声学特征。
[0041] 在一具体的应用场景中,长度调节的步骤可以利用长度调节器实现。其中,第一融合特征可以为音素作为表征单位的特征,包括目标文本中各音素对应的子融合特征,也称为第一子融合特征,而通过长度调节可以得到以音频帧作为表征单位的特征,从而可以用于映射得到目标声学特征,例如,梅尔谱等。
[0042] 上述方式,基于目标对象的目标参考语音,提取目标对象的语音韵律参考,与文本特征相结合用于生成目标声学特征,丰富了语音合成所依据的目标对象特有的特征,使得目标声学特征对应的合成语音能够更加贴近目标对象的真实语音,提升语音合成的真实性。
[0043] 请参阅图2,图2是本申请图1中步骤S120另一实施例的流程示意图。具体而言,该步骤可以包括:
[0044] 步骤S221:对目标参考语音进行特征提取,得到目标参考语音的音频特征。
[0045] 其中,上述提取得到的音频特征与音色无关。
[0046] 具体地,可以利用ASR模型(语音识别模型)对目标参考语音进行特征提取,得到目标参考语音的BN特征(瓶颈层特征)。
[0047] 步骤S222:对目标参考语音的音频特征进行韵律特征提取,得到目标对象的语音韵律特征。
[0048] 具体地,韵律特征提取可以利用一韵律编码器实现,将BN特征输入韵律编码器,基于BN特征进行编码得到隐层特征,即语音韵律特征。
[0049] 请参阅图3,图3是本申请语音合成方法另一实施例的流程示意图。
[0050] 具体而言,该方法可以包括:
[0051] 步骤S310:获取目标对象的目标参考语音和目标文本的文本特征。
[0052] 一些实施例中,目标参考语音可以为一条。一些实施例中,目标参考语音也可以为多条。
[0053] 一些实施例中,目标文本的文本特征可以是将目标文本转换为音素序列,对转换得到的音素序列进行特征提取得到的。进一步地,可以利用一编码器实现。将音素序列输入编码器中,对音素序列进行编码,得到目标文本的文本特征。进一步地,文本特征可以是以音素作为表征单位。
[0054] 步骤S320:基于目标参考语音,提取目标对象的语音韵律特征。
[0055] 其中,该语音韵律特征可以为全局特征。若目标参考语音为多条,那么语音韵律特征可以是基于一条或者多条而得到。
[0056] 步骤S330:基于目标参考语音的声学特征,提取得到细粒度音色特征。
[0057] 其中,目标参考语音的声学特征可以是基于目标参考语音变换得到的。示例性地,可以是目标参考语音的梅尔谱。
[0058] 其中,细粒度音色特征区别于全局特征,其表征单元相较于目标参考语音更小,示例性地,可以以音素作为表征单元。细粒度音色特征可以包括目标参考语音中各音素的音素音色特征。
[0059] 当然,细粒度音色特征的表征单元也可以不限于为音素,可以根据实际应用需要而进行调整,以充分表征目标对象的音色。一些实施例中,细粒度音色特征也可以是融合不同粒度的音色特征而得到。
[0060] 在一实施场景中,细粒度音色特征可以利用一说话人编码器获取。将目标参考语音的梅尔谱输入说话人编码器,对其进行编码,得到细粒度的音色隐层特征,即细粒度音色特征。
[0061] 步骤S340:将细粒度音色特征融合到文本特征中,得到第二融合特征。
[0062] 可以理解的是,融合的方式可以根据实际应用需要进行选择。示例性地,可以采用注意机制对两者进行融合。
[0063] 在一具体的应用场景中,可以将细粒度音色特征作为注意力处理的K(键)和V(值),将文本特征作为注意力处理的Q(查询),经注意力处理得到第二融合特征。通过上述方式,可以学习到目标对象细节性的音色习惯,以使得合成语音更加贴近目标对象真实音色。
[0064] 步骤S350:将第二融合特征、文本特征和语音韵律特征进行融合,以得到第一融合特征。
[0065] 其中,将第二融合特征、文本特征和语音韵律特征进行融合,得到第三融合特征。一些实施例中,可以直接将第三融合特征作为第一融合特征,一些实施例中,也可以在第三融合特征的基础上再融入其他信息,以得到第一融合特征。
[0066] 具体来说,在进行特征融合时,可以根据特征的表征单元而进行融合。示例性地,第二融合特征和文本特征均为以音素作为表征单元,第二融合特征包括各音素的第二子融合特征,那么可以将每个音素对应的第二子融合特征和音素文本特征进行融合。
[0067] 其中,语音韵律特征可以为全局的特征。示例性地,在将语音韵律特征与采用细粒度表征单元的特征融合时,可以将语音韵律特征与各个细粒度的子特征进行拼接。例如,对每个音素文本特征,拼接语音韵律特征。
[0068] 在一具体的应用场景中,文本特征包括各个音素的音素文本特征,对各个音素,将其音素文本特征与其第二子融合特征在特征维度拼接起来,以得到第二融合特征。
[0069] 一些实施例中,还可以进一步融合其他特征,例如,多尺度韵律特征,区别于语音韵律,该多尺度韵律特征侧重于基于文本带来的韵律特征。示例性地,在得到第三融合特征之后,可以对第三融合特征进行多尺度韵律特征提取,得到多尺度韵律特征,并将该多尺度韵律特征与第三融合特征融合,融合结果可以直接作为第一融合特征。当然此处也可以进行残差处理,将第三融合特征与融合结果再次进行融合,得到第一融合特征。
[0070] 步骤S360:基于第一融合特征生成目标对象对应目标文本的目标声学特征。
[0071] 进一步地,利用长度调节器对第一融合特征进行长度调节,得到长度调节特征,至少基于长度调节特征进行映射,得到对应目标文本的目标声学特征。
[0072] 另外,还可以对多尺度韵律特征与第三融合特征融合的融合结果进行时长预测,得到预测时长。长度调节器在进行长度调节时,可以一并利用该预测时长。
[0073] 其中,至少基于长度调节特征进行映射,得到目标文本的目标声学特征的步骤是由目标语音合成模型的解码器执行。解码器包括至少一个解码模块,至少一个解码模块设有特征变换层。特征变换层用于基于目标对象的变换参数进行特征变换。其中,目标对象的变换参数基于目标对象的样本参考语音得到。
[0074] 因此,通过基于目标对象的变换参数对特征进行变换,使得特征能够更加贴近目标对象,从而能够提升合成语音模拟的真实性。
[0075] 一些实施例中,每个解码模块包括多个顺序连接的原始操作层,至少一个原始操作层作为目标操作层,各个目标操作层均通过一特征变换层连接下一原始操作层。
[0076] 其中,多个原始操作层分为尾原始操作层和非尾原始操作层,尾原始操作层为每个解码模块的最后一层。各个非尾原始操作层分别作为目标操作层,通过一特征变换层连接下一原始操作层。
[0077] 此外,特征变换层可以用于基于目标对象的变换参数对目标操作层输出的特征进行特征变换,得到变换结果,变换结果作为该特征变换层连接的下一原始操作层的输入。目标对象的变换参数可以包括平移参数和缩放参数中的至少一者,平移参数用于对特征进行平移变换,缩放参数用于对特征进行缩放变换。
[0078] 一些实施例中,变换参数也可以有其他类型,用于指示对特征进行对应类型的变换,在此不做一一举例说明。
[0079] 通过上述方式,在解码得到目标声学特征的过程中,可以多次对特征进行变换,以使得特征更加贴近目标对象,提升合成语音模拟的真实性。
[0080] 一些实施例中,在得到细粒度音色特征之后,还可以获取细粒度音色特征包含的各音素的音素音色特征的统计值,以作为全局音色特征,来表征目标参考语音在全局粒度下的音色特征。该全局音色特征可以用于生成目标声学特征的过程中。
[0081] 具体地,可以将全局音色特征与长度调节特征一并作为解码器的输入。解码器包括至少一个解码模块,解码模块可以包括多个顺序连接的原始操作层。经各个原始操作层处理,将长度调节特征映射为声学特征,其中,至少一个原始操作层可以用于将全局音色特征与编码过程中的长度调节特征进行融合。
[0082] 请参阅图4,图4是本申请语音合成模型一实施例的示意图。
[0083] 本实施例中,图中所示语音合成模型包括声学模块和韵律建模模块。其中,韵律建模模块包括韵律编码器,可以用于对BN特征进行编码得到隐层特征,即语音韵律特征。声学模块包括编码器、多尺度韵律子模块、时长预测子模块、长度调节器(LR)、下采样子模块和解码器。其中,编码器可以用于对文本对应的音素序列进行编码得到文本特征。文本特征与语音韵律特征融合,输入到多尺度韵律子模块,经多尺度韵律子模块拼接多尺度韵律特征以及残差处理之后,得到第一融合特征。
[0084] 时长预测子模块可以用于预测时长,时长与第一融合特征一并输入长度调节器中,得到长度调节特征,长度调节特征经下采样处理和编码器进行映射之后,得到目标声学特征,如梅尔谱。
[0085] 推理时使用的目标语音合成模型与预训练得到的原始语音合成模型相比,解码器、时长预测子模块和多尺度韵律子模块的模型参数存在不同。
[0086] 在原始语音合成模型预训练时,韵律编码器之后可以连接一韵律分类器,用于计算韵律建模损失。此外,原始语音合成模型预训练时还可以用到时长模型损失、多尺度韵律模块损失、以及声学特征损失。多个损失相加联合进行训练。
[0087] 在预训练和微调阶段,向长度调节器输入真实时长信息以替代时长预测子模块向长度调节器输入的时长信息。
[0088] 请参阅图5,图5是本申请语音合成模型另一实施例的示意图。
[0089] 本实施例中,与图4中所示的语音合成模型的区别在于,本实施例中语音合成模型还包括音色建模模块。音色建模模块包括说话人编码器、注意力子模块。说话人编码器可以用于对目标参考语音的声学特征进行编码,如梅尔谱,得到隐层特征为细粒度音色特征,对细粒度音色特征求均值可以得到全局音色特征。
[0090] 注意力子模块可以用于对细粒度音色特征和文本特征进行注意力处理,得到的结果用于与文本特征、语音韵律特征进行融合。
[0091] 而全局音色特征可以用于输入解码器,参与解码过程,以得到目标对象对应目标文本的声学特征。
[0092] 在原始语音合成模型预训练时,音色建模模块还可以包括一说话人分类器,用于对全局音色特征进行分类,以计算音色建模损失,用于调整模型参数。
[0093] 请参阅图6,图6是本申请语音合成模型的训练方法一实施例的流程示意图。具体而言,该方法可以包括:
[0094] 步骤S610:获取经预训练的原始语音合成模型,以及获取目标对象的样本参考语音和对应的样本文本。
[0095] 其中,原始语音合成模型为经预训练的模型,经步骤S620‑步骤S640可以对该原始语音合成模型针对目标对象进行微调,得到能够合成目标对象的语音的目标语音合成模型。
[0096] 在微调过程中,需要利用目标对象的样本参考语音,该样本参考语音可以为若干条,具体数量可以根据实际需要而设置。其中,样本参考语音为目标对象发声,说出对应的样本文本而得到的。
[0097] 原始语音合成模型可以包括声学模块和韵律建模模块,在微调阶段,可以只调整声学模块中的至少部分。而目标语音合成模型的韵律建模模块可以与原始语音合成模型的韵律建模模块保持一致。
[0098] 步骤S620:利用韵律建模模块,基于样本参考语音提取目标对象的样本语音韵律特征。
[0099] 步骤S620的具体描述可以参考前述实施例中的相关内容。
[0100] 步骤S630:利用声学模块,基于样本语音韵律特征和样本文本的样本文本特征,生成目标对象对应样本文本的预测声学特征。
[0101] 声学模块可以包括编码器,可以用于对样本文本进行特征提取,以得到样本文本特征。具体地,可以利用样本文本转换为样本音素序列,音素序列包含有韵律特征。对样本音素序列进行编码,得到样本文本特征。
[0102] 生成目标对象对应样本文本的预测声学特征的过程可以参考前述实施例中的相关内容。
[0103] 具体地,可以包括将样本语音韵律特征和样本文本特征进行融合,以得到第一样本融合特征,基于第一融合特征进行长度调节,得到样本长度调节特征,基于样本长度调节特征进行映射,得到目标对象对应目标文本的预测声学特征。
[0104] 在一实施场景中,原始语音合成模型还包括长度调节器和解码器。其中,长度调节器用于进行长度调节。解码器用于基于样本长度调节特征进行映射,得到预测声学特征。
[0105] 可以理解的是,声学模块还可以包括时长预测子模块,该时长预测子模块可以用于预测语音时长,在训练过程中不采用时长预测子模块的输出作为长度调节器的输入。在训练过程中,可以将样本参考语音的真实长度信息输入长度调节器,以用于进行长度调节。在模型推理阶段,再采用时长预测子模块预测的时长输入长度调节器中。
[0106] 一些实施例中,声学模块还可以包括下采样子模块,用于对样本长度调节特征进行下采样,经下采样后的样本长度调节特征用于输入解码器。
[0107] 一些实施例中,原始语音合成模型还可以包括音色建模模块,那么目标语音合成模型可以包括韵律建模模块、音色建模模块和经微调的声学模块。
[0108] 音色建模模块可以用于基于样本参考语音的样本声学特征,提取得到样本细粒度音色特征,将样本细粒度音色特征融合到样本文本特征中,得到第二样本融合特征,将第二样本融合特征、样本文本特征和样本语音韵律特征进行融合,以得到第一样本融合特征。其中,样本声学特征可以是利用样本参考语音获取得到的,示例性地,可以为样本参考语音的梅尔谱。
[0109] 在一具体的应用场景中,音色建模模块可以包括说话人编码器和注意力子模块,说话人编码器用于基于样本声学特征进行编码,得到样本细粒度音色特征。注意力子模块用于将样本细粒度音色特征与样本文本特征进行融合,得到第二样本融合特征。
[0110] 一些实施例中,声学模块还包括多尺度韵律子模块,用于基于第二样本融合特征、样本文本特征和样本语音韵律特征融合得到的第三样本融合特征而提取样本多尺度融合特征并与第三样本融合特征进行融合,以得到第一样本融合特征。
[0111] 进一步地,多尺度韵律子模块还可以设置有残差连接。
[0112] 进一步地,一些实施例中,音色建模模块还可以用于获取样本细粒度音色特征的统计值,作为样本全局音色特征,以用于输入解码器中,在得到预测声学特征的过程中,融合到解码处理过程的特征中,进一步帮助声学模型恢复目标对象的音色。
[0113] 步骤S640:至少基于预测声学特征与样本参考语音标注的参考声学特征之间的差异,调整声学模块的至少部分模型参数,以得到目标语音合成模型。
[0114] 其中,调整参数的对象可以是声学模块中的部分子模块,例如,解码器、时长预测子模块和多尺度韵律子模块。
[0115] 可以理解的是,获取目标对象通过真实发声说出样本文本的语音,作为样本参考语音。可以将样本参考语音处理为参考声学特征、样本音频特征,对样本参考语音获取其真实时长信息,对样本文本处理为包含韵律的样本音素序列。
[0116] 其中,样本声学特征用于输入音色建模模块,样本音频特征用于输入韵律建模模块,样本音素序列用于输入声学模块。
[0117] 时长预测子模块输出的样本预测时长可以与真实时长信息进行比较,得到时长模型损失。解码器输出的预测声学特征与参考声学特征之间的差异,得到声学特征损失。基于多尺度韵律子模块的输出得到多尺度韵律损失。将三个损失融合,得到最终损失,并根据得到的最终损失调整解码器、时长预测子模块和多尺度韵律子模块的模型参数。
[0118] 在一具体的应用场景中,利用自有知识库模型预测样本文本的发音和韵律;并且将对应的样本参考语音自动处理成模型自适应微调所需的数据形式,包括梅尔谱、BN特征、真实时长信息和包含韵律的样本音素序列。
[0119] 一些实施例中,声学模块的解码器包括若干个解码模块,每个解码模块包括多个顺序连接的原始操作层,在微调阶段,为解码器增加设置特征变换层,用于基于样本全局音色特征,对输入特征变换层的特征进行变换,得到样本变换结果,样本变换结果用于输入特征变换层连接的下一层。
[0120] 具体地,至少一个原始操作层作为目标操作层,在利用声学模块得到预测声学特征之前,在目标操作层与其连接的下一原始操作层之间,增加一特征变换层。
[0121] 一些实施例中,对解码器来说,目标操作层的模型参数可以不参与调整。调整的对象可以为特征变换层和非目标操作层的模型参数。经微调之后声学模块可以与韵律建模模块构成目标语音合成模型,一些情况下还可以包括音色建模模块。
[0122] 一些实施例中,多个原始操作层分为尾原始操作层和非尾原始操作层,各个非尾原始操作层分别作为目标操作层。
[0123] 在一具体的应用场景中,解码器包括多个解码模块,每个解码模块中,除尾原始操作层外,各个原始操作层之后增加一特征变换层。
[0124] 在一具体的应用场景中,对解码器来说,非尾原始操作层的模型参数固定不变,调整的是特征变换层和尾原始操作层的模型参数。
[0125] 一些实施例中,特征变换层包括参数获取单元和特征变换单元。其中参数获取单元用于对样本全局音色特征进行线性变换,得到变换参数。特征变换单元用于基于变换参数对目标操作层输出的特征进行变换,得到样本变换结果。
[0126] 其中,参数获取单元获取的变换参数的类型可以为一个或者多个,对应地,特征变换单元对应变换参数进行对应类型的变换。示例性地,变换参数包括缩放参数和平移参数中的至少一者。相应地,特征变换单元对应进行缩放、平移中至少一种变换。
[0127] 在一实施场景中,参数获取单元可以包括若干线性变换层,每个线性变换层用于得到一种类型的变换参数。
[0128] 在一具体的应用场景中,参数获取单元可以包括两个线性层,分别用于对样本全局音色进行变换,得到缩放参数和平移参数。
[0129] 在一具体的应用场景中,对解码器来说,目标操作层的模型参数可以不参与调整。调整的对象可以为参数获取单元和尾原始操作层的模型参数。
[0130] 通过上述方式,在解码过程中,对隐层特征进行对应目标对象的特征变换,以使得特征能够更加准确地表示目标对象的说话特征,从而提升语音合成的真实性。
[0131] 另外,在调整参数时,对目标操作层的参数可以不进行调整,大大减少了模型更新的参数量,提升效率。
[0132] 在模型部署时,可以删除参数获取单元,只保留微调过程中得到的目标对象的变换参数以进行特征变换,在提升语音合成真实性的同时,能够简化模型,提升效率。
[0133] 一些实施例中,在微调结束之后,可以将训练得到的特征变换层中的参数获取单元删除,保留特征变换单元,并将训练得到的变换参数作为目标对象的变换参数,用于在模型推理时作为特征变换层的输入。从而经上述删除步骤之后的声学模块可以与韵律建模模块构成目标语音合成模型,一些情况下还可以包括音色建模模块。
[0134] 一些实施例中,样本参考语音的数量可以为多条,微调过程中每次训练可以使用其中的一条。
[0135] 一些实施例中,样本参考语音和目标参考语音可以是相同的。对目标对象,仅需要获取少量的样本参考语音,就可以实现对原始语音合成模型进行微调,得到目标对象的目标语音合成模型。而后可以输出任意文本的合成语音。其中,目标语音合成模型所利用的参考语音的音频特征可以是基于微调使用的样本参考语音而得到的,目标语音合成模型所利用的参考语音的声学特征也可以是基于微调使用的样本参考语音而得到的。
[0136] 可以理解的是,目标语音合成模型可以用于实现前述的语音合成方法,其中,韵律建模模块可以用于得到语音韵律特征。声学模块可以用于得到目标对象对应目标文本的目标声学特征。语音合成方法中,在获取目标对象的目标参考语音和目标文本的文本特征之前,还可以包括对模型的训练步骤,包括预训练和微调。
[0137] 请参阅图7,图7是本申请语音合成模型的训练方法一实施例的示意图。
[0138] 图7中a给出了训练过程中,解码器中一解码模块的示意图。
[0139] 其中,解码模块包括多个依次连接的操作层,最后一个操作层称为尾层,如实线部分所示。在除了尾层之外的各个操作层之后,新增一个SCSSF层(特征变换层)用于自适应更新,如虚线部分所示。SCSSF层(Speaker conditional scaling shifting features)表示以说话人特征为条件对隐层特征进行缩放平移的层,其中说话人特征为样本全局音色特征。
[0140] 如图7中b给出了SCSSF层的示意图。SCSSF层包含参数获取单元,包括两个线性层,分别用于获取平移参数和缩放参数。
[0141] 其中,训练过程中,更新的模型参数包括SCSSF层中两个线性层以及尾层,如图中白色层为会进行调整的层,灰色层不调整。
[0142] 请参参阅图8,图8是本申请语音合成装置一实施例的框架示意图。
[0143] 本实施例中,语音合成装置80包括获取模块81、提取模块82、融合模块83和生成模块84。
[0144] 获取模块81用于获取目标对象的目标参考语音和目标文本的文本特征;提取模块82用于基于目标参考语音,提取目标对象的语音韵律特征;融合模块83用于至少将语音韵律特征与文本特征进行融合,以得到第一融合特征;生成模块84用于基于第一融合特征生成目标对象对应目标文本的目标声学特征。
[0145] 其中,提取模块82用于基于目标参考语音,提取目标对象的语音韵律特征,具体包括:对目标参考语音进行特征提取,得到目标参考语音的音频特征;对目标参考语音的音频特征进行韵律特征提取,得到目标对象的语音韵律特征。
[0146] 其中,语音合成装置80还包括音色建模模块,用于在至少将语音韵律特征与文本特征进行融合,以得到第一融合特征之前,基于目标参考语音的声学特征,提取得到细粒度音色特征,细粒度音色特征包括目标参考语音中各音素的音素音色特征。融合模块83用于至少将语音韵律特征与文本特征进行融合,以得到第一融合特征,具体包括:将细粒度音色特征融合到文本特征中,得到第二融合特征;将第二融合特征、文本特征和语音韵律特征进行融合,以得到第一融合特征。
[0147] 其中,第一融合特征包括目标文本中各音素对应的子融合特征;生成模块84用于基于第一融合特征生成目标对象对应目标文本的目标声学特征,具体包括:对第一融合特征进行长度调节,得到长度调节特征,其中,长度调节特征包括目标文本对应的各音频帧的音频帧特征;至少基于长度调节特征进行映射,得到目标声学特征。
[0148] 其中,至少基于长度调节特征进行映射,得到目标声学特征的步骤由目标语音合成模型的解码器执行;解码器包括至少一个解码模块,至少一个解码模块设有特征变换层;特征变换层用于基于目标对象的变换参数进行特征变换;目标对象的变换参数基于目标对象的样本参考语音得到。
[0149] 其中,解码模块包括多个顺序连接的原始操作层,至少一个原始操作层作为目标操作层,各目标操作层均通过一特征变换层连接下一原始操作层;其中,多个原始操作层分为尾原始操作层和非尾原始操作层,各非尾原始操作层分别作为目标操作层。
[0150] 其中,特征变换层用于基于目标对象的变换参数对目标操作层输出的特征进行特征变换,得到变换结果;其中,变换结果用于作为特征变换层连接的下一原始操作层的输入,目标对象的变换参数包括平移参数和缩放参数中的至少一者。
[0151] 其中,语音韵律特征是利用目标语音合成模型的韵律建模模块得到,目标对象对应目标文本的目标声学特征是利用目标语音合成模型的声学模块得到,语音合成装置80还包括模型训练模块,用于在获取目标对象的目标参考语音和目标文本的文本特征之前,获取经预训练的原始语音合成模型,以及获取目标对象的样本参考语音和对应的样本文本,其中,原始语音合成模型包括韵律建模模块和声学模块;利用韵律建模模块,基于样本参考语音提取目标对象的样本语音韵律特征;利用声学模块,基于样本语音韵律特征和样本文本的样本文本特征,生成目标对象对应样本文本的预测声学特征;至少基于预测声学特征与样本参考语音标注的参考声学特征之间的差异,调整声学模块的至少部分模型参数,以得到目标语音合成模型。
[0152] 其中,声学模块包括解码器,解码器包括至少一个解码模块,解码模块包括多个原始操作层,至少一个原始操作层作为目标操作层;模型训练模块还用于在利用声学模块,基于样本语音韵律特征和样本文本的样本文本特征,生成目标对象对应样本文本的预测声学特征之前,在目标操作层与目标操作层连接的下一原始操作层之间,增加一特征变换层;其中,多个原始操作层分为尾原始操作层和非尾原始操作层,各非尾原始操作层分别作为目标操作层。
[0153] 模型训练模块用于利用声学模块,基于样本语音韵律特征和样本文本的样本文本特征,生成目标对象对应样本文本的预测声学特征,具体包括:基于样本语音韵律特征和样本文本特征进行融合和长度调节,得到样本长度调节特征;利用解码器,基于样本长度调节特征进行映射,得到预测声学特征;其中,基于样本长度调节特征进行映射,得到预测声学特征包括:利用特征变换层,基于样本参考语音的样本全局音色特征,对目标操作层输出的特征进行变换,得到样本变换结果,并将样本变换结果输出至下一原始操作层。
[0154] 其中,特征变换层包括参数获取单元和特征变换单元;模型训练模块用于基于样本参考语音的样本全局音色特征,对目标操作层输出的特征进行变换,得到样本变换结果,具体包括:利用参数获取单元,对样本全局音色特征进行线性变换,得到变换参数,利用特征变换单元,基于变换参数对目标操作层输出的特征进行变换,得到样本变换结果。
[0155] 其中,模型训练模块用于调整声学模块的至少部分模型参数具体包括:调整解码器中特征变换层和非目标操作层的模型参数。
[0156] 其中,模型训练模块还用于将训练得到的特征变换层中的参数获取单元删除,将训练得到的变换参数作为目标对象的变换参数,目标对象的变换参数用于作为特征变换层的输入。
[0157] 上述方式,使用细粒度的音色编码结合全局的音色特征来控制合成语音的音色,从而提升个性化语音合成系统合成语音的音色相似度。增加韵律编码提取模块来提取代表目标说话人说话时韵律特征的韵律编码,从而提升个性化语音合成系统合成语音的韵律相似度。使用说话人相关的缩放移位特征实现自适应finetune,从而降低个性化语音合成系统自适应finetune的更新参数量。
[0158] 请参阅图9,图9是本申请语音合成模型的训练装置一实施例的框架示意图。
[0159] 本实施例中,语音合成模型的训练90包括获取模块91、提取模块92、生成模块93和调整模块94。
[0160] 获取模块91用于获取经预训练的原始语音合成模型,以及获取目标对象的样本参考语音和对应的样本文本,其中,原始语音合成模型包括韵律建模模块和声学模块;提取模块92用于利用韵律建模模块,基于样本参考语音提取目标对象的样本语音韵律特征;生成模块93用于利用声学模块,基于样本语音韵律特征和样本文本的样本文本特征,生成目标对象对应样本文本的预测声学特征;调整模块94用于至少基于预测声学特征与样本参考语音标注的参考声学特征之间的差异,调整声学模块的至少部分模型参数,以得到目标语音合成模型。
[0161] 请参阅图10,图10是本申请电子设备一实施例的框架示意图。
[0162] 本实施例中,电子设备100包括存储器101、处理器102,其中存储器101耦接处理器102。具体地,电子设备100的各个组件可通过总线耦合在一起,或者电子设备100的处理器
102分别与其他组件一一连接。该电子设备100可以为具有处理能力的任意设备,例如计算机、平板电脑、手机等。
[0163] 存储器101用于存储处理器102执行的程序指令以及处理器102在处理过程中的数据等。例如,样本文本、原始语音合成模型等。其中,该存储器101包括非易失性存储部分,用于存储上述程序指令。
[0164] 处理器102控制电子设备100的操作,处理器102还可以称为CPU(Central Processing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由多个成电路芯片共同实现。
[0165] 处理器102通过调用存储器101存储的程序指令,用于执行指令以实现上述任一语音合成方法或者语音合成模型的训练方法。
[0166] 请参阅图11,图11是本申请计算机可读存储介质一实施例的框架示意图。
[0167] 本实施例中,该计算机可读存储介质110存储有处理器可运行的程序指令111,该程序指令111能够被执行,用以实现上述任一语音合成方法或者语音合成模型的训练方法。
[0168] 该计算机可读存储介质110具体可以为U盘、移动硬盘只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质,或者也可以为存储有该程序指令111的服务器,该服务器可将存储的程序指令发送给其他设备运行,或者也可以自运行该存储的程序指令。
[0169] 在一些实施例中,计算机可读存储介质110还可以为如图10所示的存储器。
[0170] 若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
[0171] 以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
QQ群二维码
意见反馈