首页 / 专利库 / 电信 / 迭代 / 基于beta-VAE的多对多语音转换方法

基于beta-VAE的多对多语音转换方法

阅读:958发布:2024-02-27

专利汇可以提供基于beta-VAE的多对多语音转换方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于beta-VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动 编码器 (VAE) 框架 的 修改 ,在提高隐变量解纠缠能 力 的同时,也改善其在 瓶颈 层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音 质量 ,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。,下面是基于beta-VAE的多对多语音转换方法专利的具体信息内容。

1.一种基于beta-VAE的多对多语音转换方法,其特征在于:包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取非平行训练语料,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句频谱包络特征X、非周期特征、对数基频logf0;
(1.3)将上述的频谱包络特征X、说话人标签y,输入由编码器解码器组成beta-VAE网络进行训练,得到训练好的beta-VAE网络;
(1.4)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征Xs、非周期特征、对数基频
(2.2)将源说话人的频谱特征Xs、目标说话人的标签yt,输入步骤(1.3)训练好的beta-VAE网络中,输出目标说话人的频谱特征Xt;
(2.3)通过步骤(1.4)得到基频转换函数,将步骤(2.1)中提取出的源说话人对数基频频 转换为目标说话人的对数基频频
(2.4)将步骤(2.1)中得到的非周期特征、步骤(2.2)中得到的频谱特征Xt、以及(2.3)中得到的目标说话人对数基频 输入WORLD语音分析/合成模型,得到转换后的目标说话人语音。
2.根据权利要求1所述的基于beta-VAE的多对多语音转换方法,其特征在于步骤(1.3)中输入和训练的步骤为:
(1)将X输入beta-VAE网络的编码器,编码器输出语义特征z;
(2)将z和y,输入beta-VAE网络的的解码器,最小化X与Xt’的距离D(X,Xt‘),Xt’为解码器生成的频谱包络特征;
(3)重复上述步骤直至迭代次数;
(4)计算beta-VAE网络的MCD值,根据最小的MCD值选择模型参数β和C。
3.根据权利要求2所述的基于beta-VAE的多对多语音转换方法,其特征在于:D(X,Xt‘)使用KL散度来衡量,所述KL散度为 其中,D为z的维度,μ(i)和
分别为X的一般正态分布的均值向量和方差向量的第i个向量。
4.根据权利要求1所述的基于beta-VAE的多对多语音转换方法,其特征在于步骤(2.2)中的输入过程为:将源说话人频谱特征Xs,输入beta-VAE网络的编码器,将编码器的输出与目标说话人的标签yt输入beta-VAE网络的解码器,转换获取目标说话人频谱特征Xt。
5.根据权利要求1所述的基于beta-VAE的多对多语音转换方法,其特征在于:所述的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层,5个卷积层的过滤器大小均为
7*1,步长均为3,过滤器深度分别为16、32、64、128、256;所述的解码器采用二维卷积神经网络,包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、
3、1,过滤器深度分别为32、16、8、1。
6.根据权利要求1所述的基于beta-VAE的多对多语音转换方法,其特征在于:所述基频转换函数为:
其中, 为源说话人的基频, 为转换后目标说话人的基频,源说话人基频在对数域的均值和方差分别为μs和σs,目标说话人基频在对数域的均值和方差分别为μt和σt。

说明书全文

基于beta-VAE的多对多语音转换方法

技术领域

[0001] 本发明涉及多对多语音转换方法,特别是涉及一种基于beta-VAE的多对多语音转换方法。

背景技术

[0002] 语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(Deep Neural Network,DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中,获取大量的平行语料殊为不易,甚至无法满足,此外训练时语音特征参数对齐的准确性也成为语音转换系统性能的一种制约。无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
[0003] 基于变分自动编码器(Variational Vutoencoder,VAE)模型的语音转换方法是直接利用说话人的身份标签(one-hot)建立语音转换的系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音进行对齐,可以解除对平行文本的依赖,已经用于非平行的语音转换模型。在传统的基于VAE的非平行语音转换中,编码器从输入语音参数中提取与说话者无关的代表语义内容的隐变量,然后解码器从隐变量中重建参数。然而由于VAE的隐变量中的过度正则化效应,这使得隐变量对语音数据的表征能不足,并且很难拓展到更为复杂的语音数据,因此这种基于原始VAE的非平行语料转换语音质量差、噪声多等诸多不足。

发明内容

[0004] 发明目的:本发明要解决的技术问题是提供一种基于beta-VAE的多对多语音转换方法,解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。
[0005] 技术方案:本发明所述的基于beta-VAE的多对多语音转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
[0006] (1.1)获取非平行训练语料,包含源说话人和目标说话人;
[0007] (1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句频谱包络特征X、非周期特征、对数基频log f0;
[0008] (1.3)将上述的频谱包络特征X、说话人标签y,输入由编码器和解码器组成beta-VAE网络进行训练,得到训练好的beta-VAE网络;
[0009] (1.4)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
[0010] 所述转换阶段包括以下步骤:
[0011] (2.1)将源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征Xs、非周期特征、对数基频log
[0012] (2.2)将源说话人的频谱特征Xs、目标说话人的标签yt,输入步骤(1.3)训练好的beta-VAE网络中,输出目标说话人的频谱特征Xt;
[0013] (2.3)通过步骤(1.4)得到基频转换函数,将步骤(2.1)中提取出的源说话人对数基频频log 转换为目标说话人的对数基频频log
[0014] (2.4)将步骤(2.1)中得到的非周期特征、步骤(2.2)中得到的频谱特征Xt、以及(2.3)中得到的目标说话人对数基频log 输入WORLD语音分析/合成模型,得到转换后的目标说话人语音。
[0015] 进一步的,在于步骤(1.3)中输入和训练的步骤为:
[0016] (1)将X输入beta-VAE网络的编码器,编码器输出语义特征z;
[0017] (2)将z和y,输入beta-VAE网络的的解码器,最小化X与Xt’的距离D(X,Xt‘),Xt’为解码器生成的频谱包络特征;
[0018] (3)重复上述步骤直至迭代次数;
[0019] (4)计算beta-VAE网络的MCD值,根据最小的MCD值选择模型参数β和C。
[0020] 进 一 步 的 ,D (X ,X t‘) 使 用K L 散 度 来 衡 量 ,所 述 K L 散 度 为其中,D为z的维度,μ(i)和 分别为X的一般正态分布的均值向量和方差向量的第i个向量。
[0021] 进一步的,
[0022]
[0023] 其中,D为隐变量z的维度,μ(i)和 分别为X的一般正态分布的均值向量和方差向量的第i个向量。
[0024] 进一步的,步骤(2.2)中的输入过程为:将源说话人频谱特征Xs,输入beta-VAE网络的编码器,将编码器的输出与目标说话人的标签yt输入beta-VAE网络的解码器,转换获取目标说话人频谱特征Xt。
[0025] 进一步的,所述的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层,5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256;所述的解码器采用二维卷积神经网络,包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*
1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。
[0026] 进一步的,所述基频转换函数为:
[0027]
[0028] 其中, 为源说话人的基频, 为转换后目标说话人的基频。源说换人基频在对数域的均值和方差分别为μs和σs,目标说话人基频在对数域的均值和方差分别为μt和σt。
[0029] 有益效果:本方法能够改善隐变量对语音信息的表征不足,能够较好地提升转换后的语音质量,实现高质量的语音转换,并且解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。附图说明
[0030] 图1是本方法的整体流程图

具体实施方式

[0031] 如图1所示,本实施例提供一种非平行文本条件下基于beta-VAE的多对多语音转换方法,分为训练和转换两个步骤:
[0032] 1、说话人语音训练阶段
[0033] 1.1获取非平行训练语料,本处采用的语音库为VCC2018,该语音库包含8个源说话人(SF1、SF2、SM1、SM2、SF3、SF4、SM3、SM4)和4个目标说话人(TF1、TF2、TM1、TM2)。本文中选取的非平行训练语料为4个源说话人:SF3、SF4、SM3、SM4,和4个目标说话人TF1、TF2、TM1、TM2。其中,S(source)代表源说话人、T(target)代表目标说话人、F(female)代表女、M(male)代表男。由于本文的目标是非平行语音转换,因此选取的训练语料也为非平行的。分别为为4个源说话人:SF3、SF4、SM3、SM4,和4个目标说话人TF1、TF2、TM1、TM2,源和目标说话人内容不同。对于充分训练的说话人每人81条语句作为训练语料进行充分训练,35句语句作为测试语料进行模型评估。
[0034] 1.2使用语音分析/合成模型WORLD提取说话人语句的特征包括每一帧的频谱包络sp′,语音对数基频log f0,谐波频谱包络ap,其中语音采样频率fs=16000。这里进行的是1024点的快速傅里叶变换,因此得到的频谱包络特征sp和非周期特征ap均为1024/2+1=
513维。ap与sp都是n*513维的二维矩阵,说话人标签y为每个说话人子集在训练语音集中的编号,最终将提取的每一帧的频谱特征表示为X=[sp]。
[0035] 1.3对于beta-VAE模型的训练,1.2中的频谱特征X输入到VAE模型的编码端进行模型训练,并将编码输出的说话人无关的语义特征z、说话人标签y,组成联合向量(z,y)输入VAE模型的解码端。迭代输入说话人频谱特征X、说话人标签y,完成对语音转换模型的训练。在VAE网络训练过程中,图1中VAE模型编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、
256。解码器采用二维卷积神经网络,包括4个卷积层。4个卷积层的过滤器大小分别为9*1、
7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。
[0036] 1.4原始VAE模型用判别模型 去逼近真实的后验概率pθ(z|X),而衡量两个分布的相似程度,则采用KL散度,如式1-1所示:
[0037]
[0038] 其中, 表示判别模型 和真实后验模型pθ(z|X)之间的KL散度。
[0039] 将式1-1作贝叶斯公式的变换并整理可得式1-2:
[0040]
[0041] VAE框架中每一帧的对数概率可以重写为等式1-3:
[0042]
[0043] 其中, 为变分后验,pθ(z|X)为真实后验,DKL(.||.)来计算两者之间的KL散度,Γ(θ,φ;x(i))为边缘概率的变分下界。
[0044] 进一步可写成1-4:
[0045]
[0046] 上述等式1-4为原始VAE网络的目的函数。
[0047] 本文所述beta-VAE网络是原始VAE框架的修改,它将可调参数β和C引入原始VAE基本框架。
[0048]
[0049] 在等式1-5中,右边第一项 表示的KL散度为隐层损失,右边第二项 表示生成损失。改变β会改变模型学习期间应用压力的程度,从
而得到不同的隐变量解纠缠能力。当β=1时,其表示原始的VAE模型;当β>1时,它对潜在的瓶颈的应用有更强的约束,以获得更好的解纠缠数据的能力。所谓解纠缠的定义为单个潜在变量对单个生成因子变化敏感,而对其他因素的变化相对不敏感的能力。解纠缠的变量通常带来的一个好处是变量具有良好的可解释性和对于各种任务的易推广性,但正是由于这种解纠缠特性的提升限制了VAE模型瓶颈层特征有效编码的能力,使得重构数据失真。
[0050] 因此在本文中将β的值设置为大于1的同时,也要通过增加参数C来提高瓶颈层编码的容量。即在获得隐变量z的解纠缠能力的同时,也获取隐变量z对语音数据更好的表征能力,使得pθ(x(i)|z)更加接近pθ(x(i)),改善系统性能。
[0051] 一般采用等式1-5中beta-VAE网络的目标函数Γ(θ,φ;x(i),β),来优化编码器参数 和解码器参数θ。对于上式通常采用抽样的方式来估计期望项,即:
[0052]
[0053] 其中,L代表每帧采样的样本数,一般采用重新参数化技巧,通过生成标准正态随机变量从z的分布中进行采样,对其应用数据驱动的确定性函数:
[0054]
[0055] ε~N(0,Ι)
[0056]
[0057]
[0058]
[0059] 其中,°表示逐元素乘积, 和 是由前馈神经网络构成的非线性函数,是编码器的参数集合。 用来生成隐变量z的均值, 用来生成隐变量的方
差。通过重新参数化等式1-6可改写为:
[0060]
[0061] 将L设置为1来简化上式,从而得到每帧最终的目标函数:
[0062]
[0063] 其中,beta-VAE模型假设z的分布为各向同性的标准正态分布,因此隐变量的损失(KL散度)可以改写成:
[0064]
[0065] 其中,D为隐变量z的维度,而μ(i)和 分别代表一般正态分布的均值向量和方差向量的第i个向量。
[0066] 假设特征(对数谱)的可见变量X服从具有对线方差矩阵(diagonal variance matrix)的高斯分布,即:
[0067]
[0068]
[0069]
[0070] 其中, 和 是由前馈神经网络构成的非线性函数,θ={θ1,θ2}是解码器的参数集合。因此等式1-8中的对数概率项可以改写成:
[0071]
[0072] 其中,D为隐变量z的维度。
[0073] 最终目标函数可以通过将公式1-9和1-10代入1-8来获得,训练beta-VAE的过程相当于迭代地找到最大化变分下界的参数:
[0074]
[0075] 一般采用随机梯度下降对上式进行优化,本实验中选择迭代次数为20000次。
[0076] 模型训练好后,频谱转换只需要指定目标说话人的yt,编码器将输入频谱帧变为隐变量z,然后解码器将(z,yt)重构为Xt.
[0077] 1.5至此beta-VAE模型已经训练完成。
[0078] 2、说话人语音合成阶段
[0079] 2.1利用WORLD语音分析/合成模型提取源说话人语音特征参数,包括频谱包络sp′,语音对数基频log f0,非周期特征ap,最终提取的每一帧的频谱特征表示为:Xs=[sp];
[0080] 2.2将源说话人频谱特征Xs、目标说话人标签yt输入训练好的转换模型,其中目标说话人标签yt作为beta-VAE频谱转换网络解码过程的控制条件,进而得到转换后的目标说话人语音频谱参数Xt;
[0081] 2.3将2.1中提取的源说话人对数基频logf0利用对数域线性变换得到目标说话人的基频。
[0082] 对数域线性变换是一种简单的,同时也是当前使用最广泛的基频转换方法。这种方法基于一个假设,那就是每个说话人的基频在对数域服从一个高斯分布。那么,只要统计出每个说话人的对数基频的均值和方差,便能构造出两个说话人之间的基频转换关系:
[0083]
[0084] 其中,源说话人的基频在对数域的均值和方差分别为μs和σs,目标说话人的基频在对数域的均值和方差分别为μt和σt, 为源说话人的基频, 为转换后的目标说话人基频。
[0085] 2.4最后将目标说话人频谱参数特征Xt、以及非周期特征ap、以及转换后的目标说话人基频 通过语音合成工具WORLD合成转换后的目标说话人语音。
[0086] 3参数选取
[0087] 3.1对于参数β和C具体数值的选择,实施例采用客观评价标准梅尔倒谱失真距离(Mel-Cepstral Distortion,MCD)和主观评价标准平均意见分(Mean Opinion Score,MOS)相结合的方式进行评测。MCD是把梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为语音信号的特征参数来表示客观失真度的计算模型,MOS评分是衡量语音质量(清晰度和自然度)的关键指标。在本文中使用转换后的说话人语音与目标说话人语音之间的MCD值作为客观评价标准来比较不同系统的转换性能。其中MCD值通过下式计算得到:
[0088]
[0089] 其中cd和 分别代表目标说话人和转换后语音的d维梅尔倒谱系数,N代表梅尔倒谱的维度。MCD值越小,说明转换后的语音与目标语音之间的失真越小,即转换后的说话人个性特征参数与目标说话人个性特征参数越相似,转换模型性能越好。MCD是一种客观度比较高的客观音质评价方法,并且在实践中得到广泛的应用。
[0090] 3.2对不同β和C值的组合模型进行训练,并计算出SF3-TM1转换情形下MCD平均值,如表1所示:
[0091] 表1不同参数组合模型在SF3-TM1转换情形下MCD平均值
[0092]
[0093] 由表3.1中数据显示,MCD值随着β值增加逐渐降低,但降低幅度不大,随着C值的增大MCD值先减小后逐渐增大。本实验综合考虑主客观评价标准,最终选择模型参数为β=150,C=20。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈