首页 / 专利库 / 电脑编程 / 算法 / 期望最大化算法 / 基于语音生成模型的变分贝叶斯语音增强方法

基于语音生成模型的变分贝叶斯语音增强方法

阅读:946发布:2020-10-09

专利汇可以提供基于语音生成模型的变分贝叶斯语音增强方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于语音生成模型的变分贝叶斯语音增强方法,首先建立含噪语音模型和语音生成模型的 状态空间 方程,然后表达含噪过程和语音生成过程的概率分布。根据变分贝叶斯方法,用近似后验分布来逼近语音生成模型的参数和纯净语音的概率分布,最后,得到这些近似后验分布的参数更新等式,循环 迭代 更新等式直到 算法 收敛。自动模型选择是将语音生成模型的阶数作为变分贝叶斯方法的代价函数的自变量,最小的代价函数值对应的阶数,即是最优的模型阶数,由这个最优阶数计算得到的语音 信号 即最佳结果。本发明充分利用变分贝叶斯学习模型参数和结构的优点,能准确地估计语音生成模型的参数和阶数,提高了语音增强效果。,下面是基于语音生成模型的变分贝叶斯语音增强方法专利的具体信息内容。

1、一种基于语音生成模型的变分贝叶斯语音增强方法,其特征在于包括如下具体步骤:1)将含噪语音信号表达为纯净语音信号和噪声相加的形式,建立含噪语音模型,用一个自回归过程来表示语音生成模型,并建立含噪语音模型和语音生成模型对应的状态空间方程;2)选定含噪语音模型的噪声为高斯分布,语音生成模型的驱动噪声也为高斯分布,根据这两个高斯分布及含噪语音模型和语音生成模型对应的状态空间方程,得出状态向量和观测向量的概率分布,由先验知识确定语音生成模型的权重系数和所有高斯分布的逆方差的先验分布;3)根据变分贝叶斯方法的代价函数,并根据状态向量的概率分布和观测向量的概率分布,以及语音生成模型的权重系数和所有高斯分布的逆方差的先验分布,用变分期望最大化算法求出状态向量的近似后验分布、语音生成模型的权重系数的近似后验分布和所有高斯分布的逆方差的近似后验分布;4)用变分卡尔曼平滑算法估计状态向量的近似后验分布参数的更新等式,通过变分期望最大化算法的变分最大化来推导语音生成模型的权重系数的近似后验分布参数的更新等式和所有高斯分布的逆方差的近似后验分布参数的更新等式;5)在预先确定的语音生成模型阶数范围内选择一个初始阶数值,将含噪语音信号和初始阶数值带入由步骤4)推导的参数更新等式中,反复迭代计算代价函数,直到代价函数从一步到下一步的变化的绝对值不大于某个事先确定的阈值,将此时的代价函数及与之对应的状态向量的近似后验分布参数保存;6)在预先确定的语音生成模型阶数范围内依次改变模型阶数的值,用新的阶数值代替步骤5)中的初始阶数值,重复步骤5),得到一组与各模型阶数对应的代价函数和状态向量的近似后验分布参数;7)在得到的所有代价函数中,最小的代价函数对应的阶数就是最优的模型阶数,由这个最优模型阶数所对应的状态向量的近似后验分布参数计算得到的语音信号就是最优的结果。

说明书全文

基于语音生成模型的变分贝叶斯语音增强方法

技术领域

发明涉及一种基于语音生成模型的变分贝叶斯语音增强方法,可广泛应 用于语音通讯和语音识别等方面,属于语音信号处理领域。 背景技术
实际的语音采集设备和语音采集环境下不能得到纯净的语音,语音会被各 种背景噪声污染,因此在语音通讯和语音识别等应用中,将语音增强作为一个 预处理环节是很重要的,增强后的语音可以更好的保证后续语音处理的准确性。
为提高语音质量,现有的语音增强方法主要有以下几种:
第一种方法是阈值法,其基本原理认为信号中幅值绝对值较小的部分主要 是噪声,通过一种线性或者非线性压縮函数进一步压縮这部分信号达到语音增 强的目的。此算法的主要缺点是压縮噪声的同时也压縮了很多有用的语音信息。
第二种方法是谱减法,假设噪声是平稳的或者是慢时变的加性噪声,并a 假设语音信号和噪声是相互独立的条件下,从含噪语音的功率谱中减去噪声的 功率谱,从而得到较为纯净的语音频谱。但是,这个方法有一个众所周知的缺 点就是增强后的语音信号中存在称为"音乐"噪声的不自然音,进而使人fe 观感觉不舒服。
第三种方法是基于语音生成模型的增强算法,这种算法由于"纯净"语音-模型的参数无法准确估计,所以只能采用从含噪信号中直接佔计模型参数,如 果模型估计不准确,增强后语音可懂度变差。因此从含噪声的语音中准确的估
计模型参数和模型阶数是这一方法的关键。Gannot等(S. Gamiot, D. Burshtein and E. Weinstein, Iterative and Sequential Kalman Filter-Based Speech Enhancement Algorithms, IEEE Trans. Speech and Audio Processing, vol.6, No.4, My 1998, pp.373-385.)提出一种基于卡尔曼滤波的增强算法,用最大似然法估计语音生成 模型参数,但是这种方法不能估计模型阶数,只能用其他方法或者先验知识来确定模型阶数,并且参数初始值的估计对结果影响很大。Vermaak等(J. Vermaak, C. Andrieu, A. Doucet and S.J. Godsill, Partical Methods for Bayesian Modeling and Enhancement of Speech Signals, IEEE Trans. Speech and Audio Processing, Vol.10, No.3 , 2002, pp.l73-185.)提出用尔可夫链蒙特卡罗方法估计语音生成模型参 数,用卡尔曼滤波器估计纯净的语音信号。但是,这种方法也不能估计模型阶 数,并且计算量很大,不适用于很多场合。 发明内容
本发明的目的在于针对现有技术的不足,提出 一种基于语音生成模型的变 分贝叶斯语音增强方法,能够自动选择语音生成模型的阶数,并且能避免参数 估计过程中产生过拟合现象,使模型的估计更准确,语音增强的效果更好,
为实现这一目的,本发明采用的技术方案考虑到:变分贝叶斯方法是最近 几年发展起来的一种贝叶斯近似方法,其原理是用未知变量和参数的近似后验 分布来逼近它们的真实分布,使贝叶斯方法能解析实现,它能学习模型结构和 模型参数。因此,本发明充分利用变分贝叶斯方法在学习参数过程中避免过拟 合的优点和模型选择的能,来准确估计语音生成模型的参数和阶数,以更好 的达到语音增强的目的。本发明首先建立含噪语音模型和语音生成模型的状态 空间方程,然后表达含噪过程和语音生成过程的概率分布。根据变分贝叶斯方 法,用近似后验分布来逼近语音生成模型的参数和纯净语音信号的概率分布,
最后,得到这些近似后验分布的参数的更新等式,循环迭代更新等式直到算法
收敛。自动模型选择是将语音生成模型的阶数作为变分贝叶斯方法的代价函数 的自变量,最小的代价函数值对应的阶数,即是最优的模型阶数。由这个设优 的阶数计算得到的语音信号是最佳的结果。
本发明的基于语音生成模型的变分贝叶斯语音增强方法!r:要包括以卜7L个
步骤-
1、将含噪语音信号表达为纯净语音信号和噪声相加的形式,建立含噪语逢 模型,用一个自回归过程来表示语音生成模型,并建立含噪语音模型和语音生 成模型对应的状态空间方程。2、 选定含噪语音模型的噪声为高斯分布,语音生成模型的驱动噪声也为卨
斯分布,根据这两个高斯分布及含噪语音模型和语音生成模型对应的状态空问 方程,得出状态向量和观测向量的概率分布,由先验知识确定语音生成模型的 权重系数和所有高斯分布的逆方差的先验分布。
3、 根据变分贝叶斯方法的代价函数,并根据状态向量和观测向量的概率分 布,以及语音生成模型的权重系数和所有高斯分布的逆方差的先验分布,用变 分期望最大化算法求出状态向量、语音生成模型的权重系数和所有高斯分布的 逆方差的近似后验分布。
4、 用变分卡尔曼平滑算法估计状态向量的近似后验分布参数的更新等式, 通过变分期望最大化算法的变分最大化来推导语音生成模型的权重系数和所有 高斯分布逆方差的近似后验分布参数的更新等式。
5、 在预先确定的语音生成模型阶数范围内选择一个初始阶数值,将含噪语 音信号和初始阶数值带入由步骤4推导的参数更新等式中,反复迭代计算代价 函数,直到代价函数从一步到下一步的变化的绝对值不大于某个事先确定的阈 值,将此时的代价函数及与之对应的状态向量的近似后验分布参数保存。
6、 在预先确定的语音生成模型阶数范围内依次改变模型阶数的值,用新的 阶数值代替步骤5中的初始阶数值,重复歩骤5,得到一组与各模型阶数对应的 代价函数和状态向量的近似后验分布参数。
7、 在得到的所有代价函数中,最小的代价函数对应的阶数就是最优的模型 阶数,由这个最优模型阶数所对应的状态向量的近似后验分布参数计算得到的 语音信号就是最优的结果。
本发明充分利用变分贝叶斯学习模型参数和结构的优点,更加准确地估计 语音生成模型的参数和阶数,提高了语音增强效果。
本发明提出的基于语音生成模型的变分贝叶斯语音增强方法,可广泛应用 于语音通讯和语音识别等方面,具有相当的实用价值。 具体实施方式
为了更好地理解本发明的技术方案,以下作进一歩的详细描述。1.含噪语音信号x,表达为纯净语音信号s,和噪声",相加的形式,建立含噪语 音模型如下-
W", (1) 下标/是时间。语音生成模型用一个自回归过程来表示:
s, e, (2)
^[w^…w/是自回归模型的权重系数,^=[^,..,^]是和,时刻语音值有关
的过去的p个值,p是模型的阶数。e,是自回归模型的驱动噪声。根据上述的含 噪语音模型(1)和语音生成模型(2),建立状态空间方程如下:
?, "?M+Se, (3)
x, =o;+", (4)
^…p+,f是p维的状态向量,含噪语音信号x,是观测向量,
/<全
是pxp的状态转移矩阵,S = Cr4[l 0…Of , /[p-l]是
(P-1)X(/7-l)单位阵。
2.噪声n,选为高斯分布,表示为p(",)-Q",10,力。自回归模型的驱动噪声e, 也选为高斯分布,表示为p(e,— S(e,IO,/?)。 g(jHa,6)表示随机变量少满足均值为a , 逆方差为6的高斯分布。根据(3),状态向量5的概率分布如下式:
/7(《1?,—= g(5|/f?M,/?) (5)
根据(4),观测向量的概率分布可以被写作
P",|?,," = G",IW) (6)
自回归模型的权重系数服从一个零均值的高斯先验分布
一l咖,IO,a/[p]) (7)所有高斯分布的逆方差服从Gamma先验分布
剩W)-G細剩C) (8)
pO(W) = gw—WV") (】0)
3. 用义表示观测向量的集合^,,^…,;^ ,用S表示状态向量的集合 {52,..,W ,用6表示语音生成模型的权重系数和所有高斯分布的逆方差的集合
一,",A",变分贝叶斯方法的原理就是用一个近似后验分布e(s,e)来逼近 p(s,eiJO,在实际中用的代价函数是
〈、表示在概率分布G(.)下的期望。根据变分贝叶斯方法的代价函数(ll),并根
据状态向量和观测向量的概率分布(5)-(6),以及语音生成模型的权重系数和所 有高斯分布的逆方差的先验分布(7)-(10),用变分期望最大化算法可以得到状 态向量、语音生成模型的权重系数和所有高斯分布的逆方差的近似后验分布如
下:
跑)=艰1«") (12) ,=啊„>) (13)
e(a)-Ga廳a(W。',f(")) (14) 靜)=Go顧a(》j (15)
2("-G训啦(WW)) (16)
4. 用变分卡尔曼平滑算法求状态向量的近似后验分布(12)中的参数。 一个
序列集合k。,v,,…,w用来表示,首先定义条件期望^=iw:)和条件协方差矩阵^-^啦IW:),初始值〜。=示。和^。=^>,对< =1,..,7",以下是卡尔曼滤 波前向递归过程:
formula see original document page 8(18)
formula see original document page 8(19)
formula see original document page 8(20)
formula see original document page 8(21),3=(〈、)—',iw:)=附i〜,〜)是状态向
量^的卡尔曼滤波分布。继续进行卡尔曼平滑算法,用对应的卡尔曼滤波值初始
化^r和^v,对z-r-i,...,o,接着进行后向递归过程如下:
formula see original document page 8(22)
formula see original document page 8(23)
formula see original document page 8(24)
因此,我们得到e(s)^(s K)"))参数的更新等式为:《=^,和^>。 用变分期望最大化算法的变分最大化推导语音生成模型的权重系数和所有高斯
分布逆方差的近似后验分布参数的更新等式如下:
formula see original document page 8(25)
formula see original document page 8(26)
formula see original document page 8(27)
formula see original document page 8(28)formula see original document page 9
5. 在预先确定的语音生成模型阶数范围内选择一个初始阶数值p,,将实际 的含噪信号x,和初始阶数值p,带入由步骤4推导的参数的更新等式(17)-(32)
中,反复迭代计算(ll)式的代价函数,直到代价函数从一步到下一步的变化的 绝对值不大于某个事先确定的阈值停止,将此时的代价函数及与之对应的状态
向量的近似后验分布参数W"保存;
6. 在预先确定的语音生成模型阶数范围内依次改变模型阶数的值,用新 的阶数值P代替步骤5中的初始阶数值p,,重复步骤5,得到一组与各模型阶数
对应的代价函数和状态向量的近似后验分布参数;
7. 在得到的所有代价函数中,最小的代价函数对应的p值就是最优的模型
阶数,由这个最优模型阶数所对应的状态向量的近似后验分布参数而,("计算得到 的语音信号SjC而,w就是最好的结果。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈