识别浊音/清音的方法和装置及其语音编码方法专利检索-音调工艺品专利检索查询-专利查询网

识别浊音/清音的方法和装置及其语音编码方法

阅读：3发布：2020-11-02

专利汇可以提供识别浊音/清音的方法和装置及其语音编码方法专利检索，专利查询，专利分析的服务。并且一种判断输入的语言信号是浊音或清音的浊音/清音判定方法和装置。对用于浊音/清音(V/UV)判断的输入参数做综合判断,以通过简单的算法进行V/UV的精确判断。做为判断输入的语言信号为浊音或清音的参数,输入语言信号的帧平均能量 lev,归一化自相关峰值ror, 频谱相似度pos,零交叠数nZero和音调延迟等被提供给输入端11至15。如果这些参数用x表示,则这些参数利用S形函数g(x)由函数计算电路 31至35进行转换。，下面是识别浊音/清音的方法和装置及其语音编码方法专利的具体信息内容。

权利要求

1、一种判断输入的语言信号为浊音或清音的方法，包括：
利用S形函数g(x)对用于输入语言信号进行浊音/清音判断的参数x 进行变换，并利用此经S形函数变换的参数进行浊音/清音判断，其中，S形函数g(x)表示为：g(x)＝A/(1+exp(-(x-b)/a))， A、a和b是常数。
2、根据权利要求1所述的判断输入的语言信号为浊音或清音的方法，其特征在于所述参数x通过函数g′(x)转换，而g′(x)通过对S形函数g (x)的多次直线近似获得，并利用转换的参数给出浊音/清音判定。
3、根据权利要求1所述的判断输入的语言信号为浊音或清音的方法，其特征在于输入的语言信号的帧平均能量，归一化自相关峰值，频谱相似度、零交叠数和音调周期中，至少有一个用作上述进行浊音/清音判断的参数。
4、根据权利要求1所述的判断输入的语言信号为浊音或清音的方法，其特征在于做为浊音/清音判断的所述参数，采用了输入的语言信号的帧平均能量lev、归一化自相关峰值ror、频谱相似度pos、零交叠数 nZero和音调延迟pch，其特征还在于如果基于这些参数并代表与浊音语言相似度的函数分别由pLev(lev)，pRor(ror)、 pPos(pos)、pNZero(nZero)和pPch(pch)表示，则利用这些函数代表浊音语言的最终外形的函数f(lev，ror， pos，nZero，pch)由下式计算：
f(lev，ror，pos，nZero，pch) ＝((αpRor(ror)+βpLev(lev)/(α+β)) ×pPos(pos)×pNZero(nZero)×pPch(pch) 其中，α和β是常数。
5、一种判断输入的语言信号是浊音还是清音的装置，包括：
函数计算装置，通过S形函数g(x)转换用于对输入的语言信号进行浊音/清音判断的参数x，产生一个函数输出值，函数g(x)表示为：
g(x)＝A/(1+exp(-(x-b)/a)) 其中a、A和b是常数；和
一种利用所述函数计算装置根据S形函数g(x)得到的值进行浊音/清音判断的装置。
6、一种对输入的语言信号进行编码的方法，其中输入的语言信号在时间域上以帧为单位进行划分，并在此帧的基础上进行编码，该方法包括：
利用S形函数g(x)将用于输入语言信号的浊音/清音判断的参数x进行转换，g(x)表示为：
g(x)＝A/(1+exp(-(x-b)/a)) 其中A，a和b是常数，并利用由此S形函数转换的参数进行浊音/清音判断；和
根据浊音/清音的判定结果，对被认为是浊音的输入语言信号部分进行正弦分解编码。
7、根据权利要求6所述的语言编码方法，其特征在于利用g′(x)函数转换此参数x，并利用该转换的参数作出浊音/清音判定，其中g′(x)通过对S形函数g(x)以多条线段近似获得。
8、根据权利要求6所述的语言编码方法，其特征在于被认作清音的输入语言信号部分，根据浊音/清音的判定结果，通过利用合成分解方法闭环搜索最佳矢量对其时域波形进行矢量量化。

说明书全文

本发明涉及一种浊音/清音的判定方法和装置，用于判断输入的语言 信号是清音还是浊音，以及一种应用此浊音/清音识别方法进行语音编码的方法。

目前已知有各种利用在时域和频域中声频信号的统计特性以及人耳的机理特征压缩声频信号的编码方法，其中声频信号包括语音信号和声信号。这些编码方法可粗略地分为在时域内编码、在频域编码和分解/合成编码。

为了对语言信号编码，要判断输入的语言信号是浊音还是清音，浊音( Voiced sound)就是伴随着声带振带的声音，而清音(Unvoiced sound)就是没有伴随声带振动的声音。

一般地，浊音(V)和清音(UV)的判断(V/UV判断)通过根据由例如做为其周期性/非周期性特征的自相关函数的峰值所做的浊音/清音(V/ UV)判断，伴随音高提取的方法进行。但是，因为在输入声音无周期性但为浊音的情况下不能给出有效的判断，所以也采用例如语言信号的能量或零交叠的数目做为其它参数。

同时，因为浊音/清音(U/UV)识别传统上是由对每个参数的判定结果进行逻辑运算的判定规则给出，所以对输入参数整体上给出综合的判定是困难的。例如，在下述规则下：“如果帧平均能量大于预定的阀值并且其余项的自相关峰值大于预定的阀值，则此声音即为浊音”，即使帧的平均能量显著地超过阀值而其余项的自相关峰值比阀值小哪怕是一个很小的量，也不能判定此声音为浊音。

另外，特殊的输入语言需要适合于它的规则，从而为了适应所有可能种类的输入语言，需要引用相应大量的规则，从而导致复杂。

另一方面，利用频谱相似性进行的V/UV判断，即基于频带的V/UV判断结果，在用于例如多频带激励编码(MBE)时，其先决条件是正确的音调探测。但实际上正确地进行高精度的音调探测是非常困难的。

因此，本发明目的在于提供一种识别浊音/清音(U/UV)的方法和装置，通过一种简易算法综合判别用于浊音/清音(V/UV)判定的各个输入参数，以实现高精度的V/UV判断。

根据本发明，提供了一种判别输入的语言信号是浊音或清音的方法，它包括，通过一种S形函数g(x)转化用于输入的语言信号的浊音/清音判别的参数x，g(x)函数表示为：

g(x)＝A/(1+exp(-(x-b)/a)) 其中，A，a和b为常数，然后利用通过此函数转化的参数进行浊音/清音判断。

通过此方式，可以综合地判别用于浊音/清音(U/UV)判断的输入参数，从而通过一种简化的算法可实现高精度判断。

参数x可由对S函数g(x)以多条线段近似而获得的函数g′(x)转化，利用转化的参数做出浊音/清音判断。在这种方法中，参数转换可通过一个简单的运算操作实现，无需使用函数表或类似的手段，因此降低了装置的成本并提高了运算速度。

输入的语言信号帧平均能量、归一化的自相关峰值，频谱相似程度，零交叠的数量和音调周期至少有一个可做为浊音/清音判断的参数。

图1是采用根据本发明的语言编码方法的语言信号编码装置的基本结构方框图。

图2是采用根据本发明的语言编码方法的语言信号编码装置基本结构的另一方框图。

图3是与图2所示语言信号编码装置相对应的语言信号译码装置的基本结构方框图。

图4是采用根据本发明的语言编码方法的语言信号编码器更详细的基本结构方框图。

图5是表示关于输入的语言信号帧平均能量Lev与浊音语言声相似度的函数pLev(lev)的一个例曲线。

图6是表示关于归一化自相关峰值ror，与浊音语言的相似度的函数pRor (ror)的一个例曲线。

图7是表示频谱相似性pos与浊音语言的相似度的函数pPos(pos)的一个例曲线。

图8是表示关于零交叠数nZero与浊音语言的相似度的函数pNzero(nzero) 的一个例曲线。

图9是表示关于音调延迟Pch与浊音语言的相似度的函数pPch(pch)的一例曲线。

图10是表示关于归一化自相关峰值ror与浊音语言的相似度的函数pRor′ 的一个例曲线。

以下将参考附图，对本发明的优选实施例做详细地解释。

图1表示根据本发明识别浊音/清音(V/UV)方法的一个实施例。

参见图1，图中有输入端11至15，分别输入语言信号的帧平均能量水平，归一化自相关峰值ror，频谱相似度、零交叠数nZero和音调延迟Pch等用以进行浊音/清音(V/UV)判断的输入参数。帧平均能量Lev可通过从端子 10向帧平均有效值(rms)计算电路21提供输入语言信号而获得。该帧平均能量Lev是每帧的平均有效值或等价值。其它的输入参数将在后面加以解释。

用作V/UV判断的输入参数可作如下推广，如果n个输入参数表示成 x1，x2，…xn，其中n是自然数，这些输入参数xk与浊音(V)的相似度由函数gk(xk)表示，其中k＝1，2，…n，则表示浊音语言的最终外形的函数可如下计算： f(x1，x2，…，xn)＝F(g(1)x(1)，g(2)(x2)，

…g(n)(xn))

以上的函数gk(xk)可以是自由函数，其取值范围从ck至dk，其中，k＝1，2，…n，ck和dk为常数，ck＜dk。

以上的函数gk(xk)，其中k＝1，2，…n，还可以是连续函数，具有不同的斜率，其取值范围以ck至dk。

以上的函数gk(xk)其中k＝1，2，…n，也可以是多条具有不同斜率的线段构成的函数，其取值范围从ck至dk。

以上的函数gk(kx)也可以是如下S形函数，

gk(xk)＝Ak/(1+exp(-(xk-bk)/ak)) 其中，K＝1，2，…n，Ak，ak和bk是不同于输入参数xk的常数；

或者也可以是这些函数的乘法组合。

以上的S形函数gk(xk)或其乘法组合也可以用具有不同斜率的多条线段进行近似。

此输入参数可以为上述的输入语言信号的帧平均能量lev、归一化的自相关峰值ror、相似度pos，零交叠数nZero及音调延迟pch。

如果代表这些输入参数lev、ror、pos、nZerc和pch与最终浊音(V)相似度的函数分别表示为pLev(lev)，pRor(ror)，pPos(pos)，pNZero(nZero)和 pPch(pch)，则代表浊音(V)最终外形的函数可通过下式计算：

f(lev，ror，pos，nZero和pch)＝((αpRor(ror)+βpLev(lev))/(α+β))

xpPpos(pos)×pNZero(nZero)×pPch(pch) 其中，α和β是pRor和pLev的适当权重常数。

参见图1，输入语言信号的帧平均能量lev、归一化自相关峰值ror，相似程度pos，零交叠数nZero和音调延迟pch，作为输入参数，分别由输入端11、 12、13、14和15送至计算单元23，根据输入语言信号的帧平均能量 lev，通过函数计算电路31，对表示与浊音语言(V)相似度的函数进行计算。基于归一化自相关峰值ror的代表浊音(V)的函数pRor(ror)由函数计算电路32计算。基于频谱相似度pos的代表浊音(V)外表的函数pRor(ror)pPos (pos)由函数计算电路33计算。基于零交叠数nZero的代表音(V)外形的函数pNZero(nZero)由函数计算电路34计算，同时，基于音调延迟pch的代表浊音(V)外形的函数pPch(pch)由函数计算电路35计算。由这些函数计算电路33至35进行的所示计算最好采用上述的S形函数，以下将对函数计算电路进行解释。

从函数计算电路31输出的函数pLev(lev)值被常数β、α相乘，其结果在加法器24中相加。加法器的输出和αpRor(ror)+βPlev(lev)送入乘法器 25中。从这些函数计算电路33至35输出的相应函数pPos(pos)，pNZero (nZero)和pPch(pch)被送往乘法器25进行乘法运算，以得出由上述方程表示的代表浊音(V)的最终外形之函数f(lev，ror，pos，nZero，pch)。这些函数被送往V/UV(浊音/清音)判定电路26，与预定阀值进行比较以做出V/ UV判断，在输出端27输出判断结果。

图2是实现采用上述识别浊音/清音的方法的本发明语音编码方法的语言信号编码装置的基本结构图。

图2所示的语言信号编码装置基本原理为，此编码器包括一第一编码单元 110和一第二编码单元120，第一编码单元110找出短期前置余项的余项，如输入语言信号的LPC(线性预编码)余项，以进行正弦分解编码，如谐波编码，而第二编码单元120通过波形传递的波形编码对输入的语言信号进行编码。第一编码单元110，用于对输入语言信号的浊音部分(V)进行编码，而第二编码单元120用于对输入语言信号的清音(UV)部分编码。为进行本装置的浊音/清音(V/UV)判断，采用了根据本发明的上述V/U V判断方法和装置。

对于编码单元110，采用了执行对LPC余项的正弦分解编码如r多频带编码(MBE)的谐波编码的结构。对于第二编码单元120，采用了通过利用分解合成方法，闭环搜索最佳矢量进行矢量量化的激励码线性预置(CE LP)编码的结构。

在图2例中，送至输入端101的语言信号被送往第一编码单元110的 LPC转换滤波器111和LPC分解量化单元113。LPC分解量化单元 113产生的LPC系数或所谓的α参数被送往LPC转换滤波器111，由它获得输入语言信号的线性预置误差(LPC余项)。由LPC分解量化单元 113获取线性频谱对(LSPs)的量化输出，后面将加以解释，并将其送至输出端102。LPC余项的LPC余项被送入正弦分解编码单元114。正弦分解编码单元114进行音调探测或频谱包络的振幅计算，并通过浊音/ 清音(V/UV)判断单元115做出V/UV判定。此V/UV的判断单元 115，采用了图1中所示的上述V/UV判断装置。

由正弦分解编码单元114产生的频谱包络幅值数据送至矢量量化单元 116。从矢量量化单元116得出的码表指数，做为频谱包络的矢量量化输出，通过开关117送往输出端103，而正弦分解编码单元114的输出通过开关118送往输出端105。由V/UV判断单元115产生的V/UV判定输出被送往输出端105，同时也做为开关117，118的控制信号。对于浊音(V)语言，上述指数和音调被选取后由输出端103、104输出。

在本实施例中，图2的第二编码单元120有一个激励码线性预置( CELP)编码结构，其工作原理为，通过一加权合成滤波器122对噪音码本121的输出进行合成，把得到的加权语言信号送入减法器123，获取由送至输入端101的语言信号通过感应加权滤波器125产生的语言误差，将此误差送入距离计算电路124，进行距离计算并通过噪音码本121搜寻最小误差的矢量。也就是说其时域波形通过合成分解，利用闭环搜索得以进行矢量量化。如上所述，该CELP编码用于清音部分编码。码表指数做为从噪音码表中得出的V/UV数据由输出端107经过开关127输出，开关127 当V/UV判断单元115的V/UV判断输出是UV(清音)时接通。

图3是做为图2中装置对应装置的语言信号译码器的基本结构框图。

参见图3，码表指数，做为以图2中输出端102的线性频谱对(LSP S)的量化输出被往输入端202。输入端203，204和205分别输入图2中103、104和105输出端的输出，即作为包络的量化输出的上述指数，音调和V/UV判定输出。做为清音(UV)语言之数据的指数从图2 的输出端107提供给输入端207。

从输入端203做为量化的包络输出的指数提供给反转矢量量化器212。以进行反转的矢量量化。取得LPC余项的频谱包络并送往浊音语言合成单元 211。浊音语言合成单元211通过正弦合成而合成LPC(线性预置编码) 余项，同时还被送入分别从输入端204，205输出的音调和V/UV判定输出。来自浊音语言合成单元211的浊音语言LPC余项被送LPC合成滤波器214。来自输入端207的UV数据指数被送入清音语言合成单元 220，此处必须参考噪音码表以获取清音语言部分的LPC余项。这些LP C余项也被送往LPC合成滤波器214。LPC合成滤波器214对浊音语言部分之余项和浊音语言部分的LPC余项彼此独立地进行LPC合成。此L PC合成也可对浊音语言部分之LPC余项和清音语言部分的LPC余项合在一起进行。来自输入端202的LSPS指数被送入LPC参数再生单元 213，在此LPC的α参数被提取并送往LPC合成滤波器214。通过 LPC合成滤波器214进行LPC合成得到的语言信号在输出端201输出。

参见图4，对图2中所示的语言信号编码装置之更详细结构加以解释。在图4中，相应图2中的那些部分或组件用同样的标号标示。

在图4所示的语言信号编码装置中，提供给输入端101的语言信号由高通滤波器(HPF)109滤除，除去不需要的频带信号，再提供给LPC线性预置编码)分解量化单元113的LPC分解电路132和LPC转换滤波电路111。

LPC分解量化单元113的LPC分解电路132给16次采样长度做为一组的输入信号波形设置一个加重平均窗口，以通过自相关方法找到线性预置系数或所谓的α参数。做为数据输出单位的帧间隔为进行160次取样的时间量级。例如，如果取样频率fs是8KHz，则在160次取样后帧间隔是 20ms。

来自LPC分解量化器132的α参数被送往α-LSP转换电路133，转换成线性频谱对(LSP)参数。由直接型滤波器系数得出的α-参数被转化成，例如为10，即5对LSP参数。这种转换可由例如牛顿-海普逊( Newton-Rhapson)方法完成。因为在插值特性上LSP参数优于α-参数，所以最好转换成LSP参数。

来自α-LSP转换电路133的LSP参数通过LSP量化器134进行矩阵量化或矢量量化。在矢量量化之前首先找出帧与帧的差别，或者在矩阵量化之前将多个帧组合在一起。在本实施例中，20ms做为一帧，并且通过矩阵量化或矢量量化将每隔20ms计算一次的LSP参数之两帧进行量化。

LSP量化器134的量化输出，即LSP量化指数，在102端输出。量化的LSP矢量被送入LSP的插值电路136。

LSP插值电路136对每20ms或40ms量化一次的LSP矢量进行插值以提供八倍速率。也即，对此LSP矢量每2.5ms量化一次。其原因在于如果以谐波编码/译码的方法分解/合成余波，则合成的波形显出非常平滑的包络，以至于，如果LPC系数精确地以每20ms一次变化，则易于产生附加的声音。通过每隔2.5ms逐步改变LPC系数，可避免产生此种附加声音。

为了利用经插值的基于2.5ms的LSP矢量对输入的语言信号进行转换滤波，LSP参数通过LSP-α转换电路137转换成α参数，而α参数是例如10级的直接型滤波的系数，LSP-α转换回路137的输出被送往 LPC转换滤波电路111，在其中利用每2.5ms更新的α-参数进行转换滤波，以产生平滑的输出。LPC转换滤波回路111的输出被送往正弦分解编码114，尤其是送往谐波编码电路114的正交转换电路145，如离散的付里叶变换电路。

来自LPC分解量化单元113的LPC分解电路132的α参数被送往感应加权滤波计算电路139，在那儿获得感应加权的数据。这些权重数据被送往感应加权矢量量化器116(后面将加以解释)和第二编码单元120的感应权重滤波器125以及感应加权合成滤波器122。

谐波编码电路的正弦分解编码单元114通过谐波编码法分解LPC转换滤波电路111的输出。也即，正弦分解编码单元114检测音调，计算每个谐波Am的幅值并识别浊音(V)/清音(UV)，以通过量纲变换提供随音调改变之包络或谐波幅值的常数值。

在图4所示的正弦分解编码单元114特例中，预先假定了一般的谐波编码。特别地，在多波段激励编码(MBE)的情形中，模化建立在相同时刻( 相同的组或帧)的每个频带中，即从一个频带到另一频带，存在浊音部分和清音部分的假设基础上，在其它的谐波编码中，交替地判断同一组或帧中的语言是否为浊音还是清音。在以下的描述中，将以帧计的V/UV信号施加于MB E编码装置上，如果所有频带是UV，则判定给定帧为UV。

来自输入端101的输入语言信号提供给正弦分解编码单元114的开环音调搜索单元141。来自高通滤波器(HPF)109的信号提供给零交叠计数器142。来自LPC转换滤波器111的LPC余项或线性预置余项提供给正弦分解编码单元114的正交变换电路145。开环音调搜索单元14 1接收输入信号的LPC余项和开环的大致音调。提取的大致音高数据送往高精度搜索单元146，利用闭环(精确音调搜索)进行高精度的音调搜索。由开环音调搜索单元141通过对LPC余项的最大自相关值进行归一化而获得的归一化的最大自相关值r(p)与大致音调数据一起输出，并送往V/UV (浊音/清音)判定单元115。

正交变换电路145执行正交变换，如离散付里叶变换，以把时域的LP C余项变换成频域的频谱幅值数据。正交变换电路145的输出被送往高精度音调搜索单元146和频谱计算单元148，以计算谱线的幅值或包络。

由开环音调搜索单元141提取的大致音调数据和由正交变换单元145 进行离散傅里叶变换得到的频域数据被送往高精度(精细的)音调搜索单元1 46。精细音调搜索单元146以上述大致音调数据为中心通过在某一时刻加减0.2至0.5个取样调整音调数据，以获得具有最佳十进制点(浮点)的精细音调数据。此精细音调搜索技术采用所得的合成分解方法选择音调，使得合成的能量谱将最接近原始声音的能量谱。从高精度音调搜索单元146通过闭环获得的音调数据经开关118送到输出端104。

频谱计算单元148根据谱线的幅值以及做为LPC余项的正交变换输出的音调，计算每个谐波的幅值和做为幅度总和的频谱包络，并将计算结果送往高精度音调搜索单元146，V/UV(浊音/清音)判断单元115以及感应加权矢量量化单元116。

V/UV(浊音/清音)判断单元115根据正交变换电路145的输出，来自高精度音调搜索单元146的最佳音调，来自频谱计算单元148的频谱幅值数据，来自开环音调搜索单元141的归一化最大自相关值r(p)和来自零交叠计数器142的零交叠计数值，对给定帧作出V/UV判断。

在MBE情形下，频带之间V/UV判断结果的边界位置也可做为对此帧进行V/UV判断的条件。V/UV判断单元115的判定结果从输出端105 输出。

在频谱计算单元148的输出部分或矢量量化单元116的输入部分设置一个属于采样速率转换单元的数据转换单元。数据数转换单元的作用是根据在频率轴上的频带划分数目乃至数据数目随音调的变化提供包络的幅值数据 |Am|的常数数目。也即是如果有效带宽达3400KHz，则依据音调将有效频带分成8至63个波段，使得从波段到波段获得的幅值数据|Am|的数目mMx+1在8至63的范围内变化。因此，数据数转换单元119将幅值的可变数目mMx+1变成一常数M，例如44。

由设置在频谱计算单元148的输出部分或矢量量化单元116的输入部分的数据数转换单元获得的幅值数据或包络数据的常数数目M，如44，由矢量量化器116会集成组，每组含有预定数目的数据，如44个数据，以形成矢量，然后对其进行加权矢量量化。权数由感应加权滤波计算电路139的输出提供。来自于矢量量化器116的上述包络指数经过开关117在输出端 103输出。在上述的加权矢量量化之前，具有一适当的泄漏系数的帧与帧之间的差别可由预定数量的数据构成的矢量得出。

现在介绍第二编码单元120。第二编码单元120具有所谓的激励码线性预置(CELP)的编码结构，并特别用于输入语言信号的清音部分的编码。在用于清音语言部分的cELP编码结构中，等于清音语言LPC余项的噪音输出，即所谓随机译码本121的代表值输出，通过增益控制电路126送往感应加权的合成滤波器122。然后，感应加权合成滤波器122对输入噪音进行LPC合成，产生一加权的清音语言信号送入减法器123。减法器 123中被送入从输入端101经HPF109提供的并且由感应加权滤波器 125进行感应加权的语言信号，从而将来自合成滤波器122的信号和来自滤波器125的信号之间的差别或误差输出，并送入距离计算电路124，进行距离计算。由噪音译码本121搜索最小化误差的矢量代表值。在这种方式中，通过合成分解，闭环搜索的方法对时域波形进行矢量量化。

做为来自采用CELP编码结构的第二编码单元120的清音(UV)部分的数据，来自噪音编码本121的编码本的外形指数和来自增益电路126 的编码本的增益指数被输出。做为来自噪音编码本121UV数据的外形指数通过开关127s被送往输出端107s，而做为来自增益回路126的UV 数据的增益指数通过开关127g被送往输出端107g。

开关127s，127g和开关117，118由V/UV判断单元11 5的V/UV判断结果进行开/关控制。如果当前传递的帧的语言信号V/UV 判断结果是浊音(V)，则开关117，118开通，而如果当前传递的帧的语言信号V/UV判断结果是清音(UV)，则开关127s，127g开通。

现在介绍图4中语言信号编码装置的V/UV(浊音/清音)判断单元 115的一个示例。

V/UV判断单元115以图1中所示的V/UV判断装置作为基本结构，并根据输入语言信号的帧平均能量lev，归一化自相关峰值ror，频谱相似度pos、零交叠数nZero和音调延迟pch对帧进行V/UV判定。

也就是说，输入语言信号的帧平均能量，即帧平均rms或等价值lev 根据正交变换电路145的输出获得并被提供给图1的输入端11。来自开环音调搜索单元141的归一化自相关峰值ror被送往图1的输入端12。来自零交叠计数器142的零交叠数nZero提供给图1的输入端14。代表决定于采样数目的音调周期的音调延迟pch被提供给图1的输入端15做为来自精细音调搜索单元146的最适当音调。类似MBE的，基于频带的V/ UV判断结果的边界位置也是对帧做V/UV判断的条件，并做为频谱相似度 pos提供给图1的输入端13。

下面解释作为V/UV判断参数的频谱相似度pos，它利用了对MBE 进行基于频带的V/UV判断的结果。

表明MBE的m阶谐波大小的参数或幅值|Am|由下式给出： $| Am | = Σ_{j = a_{m}}^{bm} | s (j) | | E (j) | {/ Σ}_{j = a_{m}}^{b_{m}} | E (j) |^{2}$ 在以上的方程中，|S(j)|是对LPC余项进行离散傅里叶变换(DFT) 所得的谱项，|E(j)|是基频信号的谱项，尤其是对256点加重平均窗进行离散傅里叶变换所得的谱项。为做出基于频带的V/UV判断，利用于噪信比(NSR)。第m阶频带的NSR表示为： $NSR = \frac{Σ_{j = a_{m}}^{bm} {| s (j) | - | Am | | E (j) |}^{2}}{Σ_{j = a_{m}}^{bm} | s (j) |^{2}}$ 如果NSR值大于预定的阀值，如0.3，也就是如果误差较大，可以判定 |Am||E(j)|对|S(j)|的近似性不好，也即是说上述激励信号 |E(j)|不适于作为基频。这种情况下，此频带被判定为清音(UV)。否则，可断定已作出相当满意的近似并因而判定此频带为浊音(V)。

同时，依据声音的音调，被音调基频划分的频带数目(谐波数)在大约8 至63的范围内变化，V/UV标志的数量也因而从频带到频带作类似变化。从而对于由固定频带划分谱项所得的预定数量的频带之每一个，把V/UV判定的结果分组或分解。特别地，包括语言范围的预定频率谱项被分成例如12 个频带，并对其每个做出V/UV判断。至于基于频带的V/UV判断数据，在所有频带中浊音(V)语言区和清音(UV)语言区之间的至多一个分界位置或边界位置做为频谱相似度pos。在这种情况下，频谱相似度的值可取为1 ≤pos≤12。

提供给图1中输入端11至15的输入参数被送往函数计算电路31至 35，用于计算代表与发音(V)语言的相似度的函数值。以下介绍此种函数的特例。

首先，在图1所示的函数计算电路31中，根据输入语言信号的帧平均能量lev值计算函数pLev(lev)的值。函数pLev(lev)可采用例如如下形式， pLev(lev)＝1.0/(1.0+exp(-(lev-400.0)

/(100.0)) 图5表示此函数pLev(lev)的曲线。

接下来，在图1所示的函数计算电路32中，根据归一化自相关峰值 ror信号(0≤ror≤1.0)计算函数pRor(ror)的值。函数 pRor(ror)例如采用：

pRor(ror)＝1.0/(1.0+exp(-(ror-0.3)

/0.06)) 图6表示该数pRor(ror)的曲线。

在图1所示的函数计算电路33中，根据频谱的相似度pos值(0≤ pos≤1.0)计算函数pPos(pos)的值。函数pPos(pos) 例如采用：

pPos(pos)＝1.0/(1.0+exp(-(pos-1.5)

/0.8)) 图7表示该函数pPos(pos)的曲线。

在图1所示的函数计算电路34中，根据零交叠数nZero(1≤ nZero≤160)的值计算函数pNZero(nZero)的值。函数 PNZero(nZero)例如采用：

pNZero(nZero)＝1.0/(1.0+exp((nZero-

70.0)/12.0)) 图8表示该函数pNZero(nZero)的曲线。

在图1所示的函数计算电路35中，根据音调延迟pch的数值(20≤ pch≤147)计算函数pPch(pch)的值。函数pPch(pch )例如采用：

pPch(pch)＝1.0/(1.0+exp(-(pch-12.0)/

2.5))×1.0/(1.0+exp((pch-105.0)/6.0)) 图9表示该函数pPch(pch)的曲线。

利用关于由这些函数pLev(lev)、pRor(ror)、 pNZero(nZero)、和pPch(pch)计算的参数lev、 ror、pos、nZero、pch的与浊音(V)声音的相似度，计算V 的最终外形。在这种情形中，最好考虑以下两点。

首先，如果自相关峰值较小而帧平均能量非常大，则语言应被判定为浊音 (V)。因此，为了使参数表现出很强的互补关系，需采用一加权和。第二，各自独立代表V外形的参数彼此相乘。

因此，具有彼此补偿关系的自相关峰值和帧平均能量以一定的权重相加，而那些不显示此补偿关系的量彼此相乘。代表V最终外形的函数f(lev， ror，pos，nZero，pch)由下式计算：

f(lev，ror，pos，nZero，pch)＝

((1.2pRor(ror)+0.81Lev(lev))/2.0)

×pPos(pos)×PNzero(nZero)×pPch(pch) 在此，权数(α＝1.2，β＝0.8)由经验得出。

在给出浊音/清音(V/UV)的最后判定时，如果函数f不小于0.5和小于0.5，则语言分别被判定为V和UV。

本发明不局限于以上描述的实施例。例如，取代上述获得与归一化自相关峰值ror有关的V外形的函数pRor(ror)，也可采用下述函数： pRor′(ror)＝0.6x，0≤x＜7/34 pRor′(ror)＝4.0(x-0.175)，7/34≤x＜67/170 pRor′(ror)＝0.6x+0.64，67/170≤x＜0.6 pRor′(ror)＝1，0.6≤x≤1.0 作为以上函数pRor(ror)的近似函数pRor′(ror)。近似函数pRor′(ror)的曲线由图10中的实线表示，图中的虚线表示近似直线和原始函数pRor(ror)。

虽然语言分解方面的结构表示成硬件，但它可由一种称做数字信号处理器 (DSP)的软件程序来完成。做为采用了本发明V/UV判定方法的语言编码方法，LPC余项信号可分解成V和UV，以便对其施用不同的编码技术。也就是说，对V部分，可采用由谐波编码对余项进行编码的语言压缩编码或正弦分解编码，而对UV部分，可采用多种不同的编码技术，如CELP编码或应用通过噪音着色的噪音合成进行编码。另外，对LPC余项编码可用于V部分，而实现不同量纲加权矢量量化的语言压缩编码系统可应用于频谱包络。再者，本发明不仅可用于语言压缩编码系统，还可用于多种不同的应用领域，如音调转换，速率转换，利用一定规则的语言合成或噪音抑制。

标题	发布/更新时间	阅读量
用于生成数据库的方法和设备	2022-03-05	1
用于音乐报警的视频序列	2021-12-17	1
一种基于采集音频信号控制闹钟的方法及其移动终端	2021-02-14	6
用于语音处理的方法与系统	2021-03-16	7
具有改进的音调检测的编码语音传输系统和方法	2020-06-05	4
速度可变的语音信号再生方法	2020-10-03	7
机顶盒	2021-05-19	3
在OFDM基多带宽无线系统中增加频谱效率的方法	2021-02-17	1
生日主持器	2020-11-12	5
律动教室	2021-06-03	7

识别浊音/清音的方法和装置及其语音编码方法

本发明涉及一种浊音/清音的判定方法和装置，用于判断输入的语言信号 是清音还是浊音，以及一种应用此浊音/清音识别方法进行语音编码的方法。

该功能需要专业版企业版VIP权限，您可以：

本发明涉及一种浊音/清音的判定方法和装置，用于判断输入的语言信号是清音还是浊音，以及一种应用此浊音/清音识别方法进行语音编码的方法。