首页 / 专利库 / 工艺品 / 音调 / 识别浊音/清音的方法和装置及其语音编码方法

识别浊音/清音的方法和装置及其语音编码方法

阅读:3发布:2020-11-02

专利汇可以提供识别浊音/清音的方法和装置及其语音编码方法专利检索,专利查询,专利分析的服务。并且一种判断输入的语言 信号 是浊音或清音的浊音/清音判定方法和装置。对用于浊音/清音(V/UV)判断的输入参数做综合判断,以通过简单的 算法 进行V/UV的精确判断。做为判断输入的语言信号为浊音或清音的参数,输入语言信号的 帧 平均 能量 lev,归一化自相关峰值ror, 频谱 相似度pos,零交叠数nZero和 音调 延迟等被提供给输入端11至15。如果这些参数用x表示,则这些参数利用S形函数g(x)由函数计算 电路 31至35进行转换。,下面是识别浊音/清音的方法和装置及其语音编码方法专利的具体信息内容。

1、一种判断输入的语言信号为浊音或清音的方法,包括:
利用S形函数g(x)对用于输入语言信号进行浊音/清音判断的参数x 进行变换,并利用此经S形函数变换的参数进行浊音/清音判断,其中,S形 函数g(x)表示为:g(x)=A/(1+exp(-(x-b)/a)), A、a和b是常数。
2、根据权利要求1所述的判断输入的语言信号为浊音或清音的方法,其 特征在于所述参数x通过函数g′(x)转换,而g′(x)通过对S形函数g (x)的多次直线近似获得,并利用转换的参数给出浊音/清音判定。
3、根据权利要求1所述的判断输入的语言信号为浊音或清音的方法,其 特征在于输入的语言信号的平均能量,归一化自相关峰值,频谱相似度、零 交叠数和音调周期中,至少有一个用作上述进行浊音/清音判断的参数。
4、根据权利要求1所述的判断输入的语言信号为浊音或清音的方法,其 特征在于做为浊音/清音判断的所述参数,采用了输入的语言信号的帧平均能 量lev、归一化自相关峰值ror、频谱相似度pos、零交叠数 nZero和音调延迟pch,其特征还在于如果基于这些参数并代表与浊音 语言相似度的函数分别由pLev(lev),pRor(ror)、 pPos(pos)、pNZero(nZero)和pPch(pch)表 示,则利用这些函数代表浊音语言的最终外形的函数f(lev,ror, pos,nZero,pch)由下式计算:
f(lev,ror,pos,nZero,pch)   =((αpRor(ror)+βpLev(lev)/(α+β))   ×pPos(pos)×pNZero(nZero)×pPch(pch) 其中,α和β是常数。
5、一种判断输入的语言信号是浊音还是清音的装置,包括:
函数计算装置,通过S形函数g(x)转换用于对输入的语言信号进行浊 音/清音判断的参数x,产生一个函数输出值,函数g(x)表示为:
g(x)=A/(1+exp(-(x-b)/a)) 其中a、A和b是常数;和
一种利用所述函数计算装置根据S形函数g(x)得到的值进行浊音/清 音判断的装置。
6、一种对输入的语言信号进行编码的方法,其中输入的语言信号在时间 域上以帧为单位进行划分,并在此帧的基础上进行编码,该方法包括:
利用S形函数g(x)将用于输入语言信号的浊音/清音判断的参数x进 行转换,g(x)表示为:
g(x)=A/(1+exp(-(x-b)/a)) 其中A,a和b是常数,并利用由此S形函数转换的参数进行浊音/清音判断; 和
根据浊音/清音的判定结果,对被认为是浊音的输入语言信号部分进行正弦 分解编码。
7、根据权利要求6所述的语言编码方法,其特征在于利用g′(x)函 数转换此参数x,并利用该转换的参数作出浊音/清音判定,其中g′(x)通 过对S形函数g(x)以多条线段近似获得。
8、根据权利要求6所述的语言编码方法,其特征在于被认作清音的输入 语言信号部分,根据浊音/清音的判定结果,通过利用合成分解方法闭环搜索 最佳矢量对其时域波形进行矢量量化。

说明书全文

发明涉及一种浊音/清音的判定方法和装置,用于判断输入的语言信号 是清音还是浊音,以及一种应用此浊音/清音识别方法进行语音编码的方法。

目前已知有各种利用在时域和频域中声频信号的统计特性以及人的机理 特征压缩声频信号的编码方法,其中声频信号包括语音信号和声信号。这些编 码方法可粗略地分为在时域内编码、在频域编码和分解/合成编码。

为了对语言信号编码,要判断输入的语言信号是浊音还是清音,浊音( Voiced sound)就是伴随着声带振带的声音,而清音(Unvoiced sound)就 是没有伴随声带振动的声音。

一般地,浊音(V)和清音(UV)的判断(V/UV判断)通过根据由 例如做为其周期性/非周期性特征的自相关函数的峰值所做的浊音/清音(V/ UV)判断,伴随音高提取的方法进行。但是,因为在输入声音无周期性但为 浊音的情况下不能给出有效的判断,所以也采用例如语言信号的能量或零交叠 的数目做为其它参数。

同时,因为浊音/清音(U/UV)识别传统上是由对每个参数的判定结果 进行逻辑运算的判定规则给出,所以对输入参数整体上给出综合的判定是困难 的。例如,在下述规则下:“如果平均能量大于预定的值并且其余项的自 相关峰值大于预定的阀值,则此声音即为浊音”,即使帧的平均能量显著地超 过阀值而其余项的自相关峰值比阀值小哪怕是一个很小的量,也不能判定此声 音为浊音。

另外,特殊的输入语言需要适合于它的规则,从而为了适应所有可能种类 的输入语言,需要引用相应大量的规则,从而导致复杂。

另一方面,利用频谱相似性进行的V/UV判断,即基于频带的V/UV判 断结果,在用于例如多频带激励编码(MBE)时,其先决条件是正确的音调 探测。但实际上正确地进行高精度的音调探测是非常困难的。

因此,本发明目的在于提供一种识别浊音/清音(U/UV)的方法和装置, 通过一种简易算法综合判别用于浊音/清音(V/UV)判定的各个输入参数, 以实现高精度的V/UV判断。

根据本发明,提供了一种判别输入的语言信号是浊音或清音的方法,它包 括,通过一种S形函数g(x)转化用于输入的语言信号的浊音/清音判别的 参数x,g(x)函数表示为:

g(x)=A/(1+exp(-(x-b)/a)) 其中,A,a和b为常数,然后利用通过此函数转化的参数进行浊音/清音判 断。

通过此方式,可以综合地判别用于浊音/清音(U/UV)判断的输入参数, 从而通过一种简化的算法可实现高精度判断。

参数x可由对S函数g(x)以多条线段近似而获得的函数g′(x)转 化,利用转化的参数做出浊音/清音判断。在这种方法中,参数转换可通过一 个简单的运算操作实现,无需使用函数表或类似的手段,因此降低了装置的成 本并提高了运算速度。

输入的语言信号帧平均能量、归一化的自相关峰值,频谱相似程度,零交 叠的数量和音调周期至少有一个可做为浊音/清音判断的参数。

图1是采用根据本发明的语言编码方法的语言信号编码装置的基本结构方 框图

图2是采用根据本发明的语言编码方法的语言信号编码装置基本结构的另 一方框图。

图3是与图2所示语言信号编码装置相对应的语言信号译码装置的基本结 构方框图。

图4是采用根据本发明的语言编码方法的语言信号编码器更详细的基本结 构方框图。

图5是表示关于输入的语言信号帧平均能量Lev与浊音语言声相似度的函 数pLev(lev)的一个例曲线。

图6是表示关于归一化自相关峰值ror,与浊音语言的相似度的函数pRor (ror)的一个例曲线。

图7是表示频谱相似性pos与浊音语言的相似度的函数pPos(pos)的一个 例曲线。

图8是表示关于零交叠数nZero与浊音语言的相似度的函数pNzero(nzero) 的一个例曲线。

图9是表示关于音调延迟Pch与浊音语言的相似度的函数pPch(pch)的一例 曲线。

图10是表示关于归一化自相关峰值ror与浊音语言的相似度的函数pRor′ 的一个例曲线。

以下将参考附图,对本发明的优选实施例做详细地解释。

图1表示根据本发明识别浊音/清音(V/UV)方法的一个实施例。

参见图1,图中有输入端11至15,分别输入语言信号的帧平均能量 平,归一化自相关峰值ror,频谱相似度、零交叠数nZero和音调延迟Pch等用 以进行浊音/清音(V/UV)判断的输入参数。帧平均能量Lev可通过从端子 10向帧平均有效值(rms)计算电路21提供输入语言信号而获得。该帧平均 能量Lev是每帧的平均有效值或等价值。其它的输入参数将在后面加以解释。

用作V/UV判断的输入参数可作如下推广,如果n个输入参数表示成 x1,x2,…xn,其中n是自然数,这些输入参数xk与浊音(V)的相 似度由函数gk(xk)表示,其中k=1,2,…n,则表示浊音语言的最 终外形的函数可如下计算: f(x1,x2,…,xn)=F(g(1)x(1),g(2)(x2),

               …g(n)(xn))

以上的函数gk(xk)可以是自由函数,其取值范围从ck至dk,其 中,k=1,2,…n,ck和dk为常数,ck<dk。

以上的函数gk(xk),其中k=1,2,…n,还可以是连续函数, 具有不同的斜率,其取值范围以ck至dk。

以上的函数gk(xk)其中k=1,2,…n,也可以是多条具有不同 斜率的线段构成的函数,其取值范围从ck至dk。

以上的函数gk(kx)也可以是如下S形函数,

gk(xk)=Ak/(1+exp(-(xk-bk)/ak)) 其中,K=1,2,…n,Ak,ak和bk是不同于输入参数xk的常数;

或者也可以是这些函数的乘法组合。

以上的S形函数gk(xk)或其乘法组合也可以用具有不同斜率的多条 线段进行近似。

此输入参数可以为上述的输入语言信号的帧平均能量lev、归一化的自相 关峰值ror、相似度pos,零交叠数nZero及音调延迟pch。

如果代表这些输入参数lev、ror、pos、nZerc和pch与最终浊音(V)相似 度的函数分别表示为pLev(lev),pRor(ror),pPos(pos),pNZero(nZero)和 pPch(pch),则代表浊音(V)最终外形的函数可通过下式计算:

f(lev,ror,pos,nZero和pch)=((αpRor(ror)+βpLev(lev))/(α+β))

xpPpos(pos)×pNZero(nZero)×pPch(pch) 其中,α和β是pRor和pLev的适当权重常数。

参见图1,输入语言信号的帧平均能量lev、归一化自相关峰值ror,相似 程度pos,零交叠数nZero和音调延迟pch,作为输入参数,分别由输入端11、 12、13、14和15送至计算单元23,根据输入语言信号的帧平均能量 lev,通过函数计算电路31,对表示与浊音语言(V)相似度的函数进行计 算。基于归一化自相关峰值ror的代表浊音(V)的函数pRor(ror)由函数计算电 路32计算。基于频谱相似度pos的代表浊音(V)外表的函数pRor(ror)pPos (pos)由函数计算电路33计算。基于零交叠数nZero的代表音(V)外形的函 数pNZero(nZero)由函数计算电路34计算,同时,基于音调延迟pch的代表浊 音(V)外形的函数pPch(pch)由函数计算电路35计算。由这些函数计算电 路33至35进行的所示计算最好采用上述的S形函数,以下将对函数计算电 路进行解释。

从函数计算电路31输出的函数pLev(lev)值被常数β、α相乘,其结果 在加法器24中相加。加法器的输出和αpRor(ror)+βPlev(lev)送入乘法器 25中。从这些函数计算电路33至35输出的相应函数pPos(pos),pNZero (nZero)和pPch(pch)被送往乘法器25进行乘法运算,以得出由上述方程表示 的代表浊音(V)的最终外形之函数f(lev,ror,pos,nZero,pch)。这些函数被 送往V/UV(浊音/清音)判定电路26,与预定阀值进行比较以做出V/ UV判断,在输出端27输出判断结果。

图2是实现采用上述识别浊音/清音的方法的本发明语音编码方法的语言 信号编码装置的基本结构图。

图2所示的语言信号编码装置基本原理为,此编码器包括一第一编码单元 110和一第二编码单元120,第一编码单元110找出短期前置余项的余 项,如输入语言信号的LPC(线性预编码)余项,以进行正弦分解编码,如 谐波编码,而第二编码单元120通过波形传递的波形编码对输入的语言信号 进行编码。第一编码单元110,用于对输入语言信号的浊音部分(V)进行 编码,而第二编码单元120用于对输入语言信号的清音(UV)部分编码。 为进行本装置的浊音/清音(V/UV)判断,采用了根据本发明的上述V/U V判断方法和装置。

对于编码单元110,采用了执行对LPC余项的正弦分解编码如r多频 带编码(MBE)的谐波编码的结构。对于第二编码单元120,采用了通过 利用分解合成方法,闭环搜索最佳矢量进行矢量量化的激励码线性预置(CE LP)编码的结构。

在图2例中,送至输入端101的语言信号被送往第一编码单元110的 LPC转换滤波器111和LPC分解量化单元113。LPC分解量化单元 113产生的LPC系数或所谓的α参数被送往LPC转换滤波器111,由它 获得输入语言信号的线性预置误差(LPC余项)。由LPC分解量化单元 113获取线性频谱对(LSPs)的量化输出,后面将加以解释,并将其送 至输出端102。LPC余项的LPC余项被送入正弦分解编码单元114。 正弦分解编码单元114进行音调探测或频谱包络的振幅计算,并通过浊音/ 清音(V/UV)判断单元115做出V/UV判定。此V/UV的判断单元 115,采用了图1中所示的上述V/UV判断装置。

由正弦分解编码单元114产生的频谱包络幅值数据送至矢量量化单元 116。从矢量量化单元116得出的码表指数,做为频谱包络的矢量量化输 出,通过开关117送往输出端103,而正弦分解编码单元114的输出通 过开关118送往输出端105。由V/UV判断单元115产生的V/UV判 定输出被送往输出端105,同时也做为开关117,118的控制信号。对 于浊音(V)语言,上述指数和音调被选取后由输出端103、104输出。

在本实施例中,图2的第二编码单元120有一个激励码线性预置( CELP)编码结构,其工作原理为,通过一加权合成滤波器122对噪音码 本121的输出进行合成,把得到的加权语言信号送入减法器123,获取由 送至输入端101的语言信号通过感应加权滤波器125产生的语言误差,将 此误差送入距离计算电路124,进行距离计算并通过噪音码本121搜寻最 小误差的矢量。也就是说其时域波形通过合成分解,利用闭环搜索得以进行矢 量量化。如上所述,该CELP编码用于清音部分编码。码表指数做为从噪音 码表中得出的V/UV数据由输出端107经过开关127输出,开关127 当V/UV判断单元115的V/UV判断输出是UV(清音)时接通。

图3是做为图2中装置对应装置的语言信号译码器的基本结构框图。

参见图3,码表指数,做为以图2中输出端102的线性频谱对(LSP S)的量化输出被往输入端202。输入端203,204和205分别输入 图2中103、104和105输出端的输出,即作为包络的量化输出的上述 指数,音调和V/UV判定输出。做为清音(UV)语言之数据的指数从图2 的输出端107提供给输入端207。

从输入端203做为量化的包络输出的指数提供给反转矢量量化器212。 以进行反转的矢量量化。取得LPC余项的频谱包络并送往浊音语言合成单元 211。浊音语言合成单元211通过正弦合成而合成LPC(线性预置编码) 余项,同时还被送入分别从输入端204,205输出的音调和V/UV判定 输出。来自浊音语言合成单元211的浊音语言LPC余项被送LPC合成 滤波器214。来自输入端207的UV数据指数被送入清音语言合成单元 220,此处必须参考噪音码表以获取清音语言部分的LPC余项。这些LP C余项也被送往LPC合成滤波器214。LPC合成滤波器214对浊音语 言部分之余项和浊音语言部分的LPC余项彼此独立地进行LPC合成。此L PC合成也可对浊音语言部分之LPC余项和清音语言部分的LPC余项合在 一起进行。来自输入端202的LSPS指数被送入LPC参数再生单元 213,在此LPC的α参数被提取并送往LPC合成滤波器214。通过 LPC合成滤波器214进行LPC合成得到的语言信号在输出端201输出。

参见图4,对图2中所示的语言信号编码装置之更详细结构加以解释。在 图4中,相应图2中的那些部分或组件用同样的标号标示。

在图4所示的语言信号编码装置中,提供给输入端101的语言信号由高 通滤波器(HPF)109滤除,除去不需要的频带信号,再提供给LPC线 性预置编码)分解量化单元113的LPC分解电路132和LPC转换滤波 电路111。

LPC分解量化单元113的LPC分解电路132给16次采样长度做 为一组的输入信号波形设置一个加重平均窗口,以通过自相关方法找到线性预 置系数或所谓的α参数。做为数据输出单位的帧间隔为进行160次取样的时 间量级。例如,如果取样频率fs是8KHz,则在160次取样后帧间隔是 20ms。

来自LPC分解量化器132的α参数被送往α-LSP转换电路133, 转换成线性频谱对(LSP)参数。由直接型滤波器系数得出的α-参数被转 化成,例如为10,即5对LSP参数。这种转换可由例如顿-海普逊( Newton-Rhapson)方法完成。因为在插值特性上LSP参数优于α-参数,所 以最好转换成LSP参数。

来自α-LSP转换电路133的LSP参数通过LSP量化器134进 行矩阵量化或矢量量化。在矢量量化之前首先找出帧与帧的差别,或者在矩阵 量化之前将多个帧组合在一起。在本实施例中,20ms做为一帧,并且通过 矩阵量化或矢量量化将每隔20ms计算一次的LSP参数之两帧进行量化。

LSP量化器134的量化输出,即LSP量化指数,在102端输出。 量化的LSP矢量被送入LSP的插值电路136。

LSP插值电路136对每20ms或40ms量化一次的LSP矢量进 行插值以提供八倍速率。也即,对此LSP矢量每2.5ms量化一次。其原 因在于如果以谐波编码/译码的方法分解/合成余波,则合成的波形显出非常平 滑的包络,以至于,如果LPC系数精确地以每20ms一次变化,则易于产 生附加的声音。通过每隔2.5ms逐步改变LPC系数,可避免产生此种附 加声音。

为了利用经插值的基于2.5ms的LSP矢量对输入的语言信号进行转 换滤波,LSP参数通过LSP-α转换电路137转换成α参数,而α参数 是例如10级的直接型滤波的系数,LSP-α转换回路137的输出被送往 LPC转换滤波电路111,在其中利用每2.5ms更新的α-参数进行转 换滤波,以产生平滑的输出。LPC转换滤波回路111的输出被送往正弦分 解编码114,尤其是送往谐波编码电路114的正交转换电路145,如离 散的付里叶变换电路。

来自LPC分解量化单元113的LPC分解电路132的α参数被送往 感应加权滤波计算电路139,在那儿获得感应加权的数据。这些权重数据被 送往感应加权矢量量化器116(后面将加以解释)和第二编码单元120的 感应权重滤波器125以及感应加权合成滤波器122。

谐波编码电路的正弦分解编码单元114通过谐波编码法分解LPC转换 滤波电路111的输出。也即,正弦分解编码单元114检测音调,计算每个 谐波Am的幅值并识别浊音(V)/清音(UV),以通过量纲变换提供随音 调改变之包络或谐波幅值的常数值。

在图4所示的正弦分解编码单元114特例中,预先假定了一般的谐波编 码。特别地,在多波段激励编码(MBE)的情形中,模化建立在相同时刻( 相同的组或帧)的每个频带中,即从一个频带到另一频带,存在浊音部分和清 音部分的假设基础上,在其它的谐波编码中,交替地判断同一组或帧中的语言 是否为浊音还是清音。在以下的描述中,将以帧计的V/UV信号施加于MB E编码装置上,如果所有频带是UV,则判定给定帧为UV。

来自输入端101的输入语言信号提供给正弦分解编码单元114的开环 音调搜索单元141。来自高通滤波器(HPF)109的信号提供给零交叠 计数器142。来自LPC转换滤波器111的LPC余项或线性预置余项提 供给正弦分解编码单元114的正交变换电路145。开环音调搜索单元14 1接收输入信号的LPC余项和开环的大致音调。提取的大致音高数据送往高 精度搜索单元146,利用闭环(精确音调搜索)进行高精度的音调搜索。由 开环音调搜索单元141通过对LPC余项的最大自相关值进行归一化而获得 的归一化的最大自相关值r(p)与大致音调数据一起输出,并送往V/UV (浊音/清音)判定单元115。

正交变换电路145执行正交变换,如离散付里叶变换,以把时域的LP C余项变换成频域的频谱幅值数据。正交变换电路145的输出被送往高精度 音调搜索单元146和频谱计算单元148,以计算谱线的幅值或包络。

由开环音调搜索单元141提取的大致音调数据和由正交变换单元145 进行离散傅里叶变换得到的频域数据被送往高精度(精细的)音调搜索单元1 46。精细音调搜索单元146以上述大致音调数据为中心通过在某一时刻加 减0.2至0.5个取样调整音调数据,以获得具有最佳十进制点(浮点)的精 细音调数据。此精细音调搜索技术采用所得的合成分解方法选择音调,使得合 成的能量谱将最接近原始声音的能量谱。从高精度音调搜索单元146通过闭 环获得的音调数据经开关118送到输出端104。

频谱计算单元148根据谱线的幅值以及做为LPC余项的正交变换输出 的音调,计算每个谐波的幅值和做为幅度总和的频谱包络,并将计算结果送往 高精度音调搜索单元146,V/UV(浊音/清音)判断单元115以及感应 加权矢量量化单元116。

V/UV(浊音/清音)判断单元115根据正交变换电路145的输出, 来自高精度音调搜索单元146的最佳音调,来自频谱计算单元148的频谱 幅值数据,来自开环音调搜索单元141的归一化最大自相关值r(p)和来 自零交叠计数器142的零交叠计数值,对给定帧作出V/UV判断。

在MBE情形下,频带之间V/UV判断结果的边界位置也可做为对此帧 进行V/UV判断的条件。V/UV判断单元115的判定结果从输出端105 输出。

在频谱计算单元148的输出部分或矢量量化单元116的输入部分设置 一个属于采样速率转换单元的数据转换单元。数据数转换单元的作用是根据在 频率轴上的频带划分数目乃至数据数目随音调的变化提供包络的幅值数据 |Am|的常数数目。也即是如果有效带宽达3400KHz,则依据音调将 有效频带分成8至63个波段,使得从波段到波段获得的幅值数据|Am|的 数目mMx+1在8至63的范围内变化。因此,数据数转换单元119将幅 值的可变数目mMx+1变成一常数M,例如44。

由设置在频谱计算单元148的输出部分或矢量量化单元116的输入部 分的数据数转换单元获得的幅值数据或包络数据的常数数目M,如44,由矢 量量化器116会集成组,每组含有预定数目的数据,如44个数据,以形成 矢量,然后对其进行加权矢量量化。权数由感应加权滤波计算电路139的输 出提供。来自于矢量量化器116的上述包络指数经过开关117在输出端 103输出。在上述的加权矢量量化之前,具有一适当的泄漏系数的帧与帧之 间的差别可由预定数量的数据构成的矢量得出。

现在介绍第二编码单元120。第二编码单元120具有所谓的激励码线 性预置(CELP)的编码结构,并特别用于输入语言信号的清音部分的编码。 在用于清音语言部分的cELP编码结构中,等于清音语言LPC余项的噪音 输出,即所谓随机译码本121的代表值输出,通过增益控制电路126送往 感应加权的合成滤波器122。然后,感应加权合成滤波器122对输入噪音 进行LPC合成,产生一加权的清音语言信号送入减法器123。减法器 123中被送入从输入端101经HPF109提供的并且由感应加权滤波器 125进行感应加权的语言信号,从而将来自合成滤波器122的信号和来自 滤波器125的信号之间的差别或误差输出,并送入距离计算电路124,进 行距离计算。由噪音译码本121搜索最小化误差的矢量代表值。在这种方式 中,通过合成分解,闭环搜索的方法对时域波形进行矢量量化。

做为来自采用CELP编码结构的第二编码单元120的清音(UV)部 分的数据,来自噪音编码本121的编码本的外形指数和来自增益电路126 的编码本的增益指数被输出。做为来自噪音编码本121UV数据的外形指数 通过开关127s被送往输出端107s,而做为来自增益回路126的UV 数据的增益指数通过开关127g被送往输出端107g。

开关127s,127g和开关117,118由V/UV判断单元11 5的V/UV判断结果进行开/关控制。如果当前传递的帧的语言信号V/UV 判断结果是浊音(V),则开关117,118开通,而如果当前传递的帧的 语言信号V/UV判断结果是清音(UV),则开关127s,127g开通。

现在介绍图4中语言信号编码装置的V/UV(浊音/清音)判断单元 115的一个示例。

V/UV判断单元115以图1中所示的V/UV判断装置作为基本结构, 并根据输入语言信号的帧平均能量lev,归一化自相关峰值ror,频谱相 似度pos、零交叠数nZero和音调延迟pch对帧进行V/UV判定。

也就是说,输入语言信号的帧平均能量,即帧平均rms或等价值lev 根据正交变换电路145的输出获得并被提供给图1的输入端11。来自开环 音调搜索单元141的归一化自相关峰值ror被送往图1的输入端12。来 自零交叠计数器142的零交叠数nZero提供给图1的输入端14。代表 决定于采样数目的音调周期的音调延迟pch被提供给图1的输入端15做为 来自精细音调搜索单元146的最适当音调。类似MBE的,基于频带的V/ UV判断结果的边界位置也是对帧做V/UV判断的条件,并做为频谱相似度 pos提供给图1的输入端13。

下面解释作为V/UV判断参数的频谱相似度pos,它利用了对MBE 进行基于频带的V/UV判断的结果。

表明MBE的m阶谐波大小的参数或幅值|Am|由下式给出: | Am | = Σ j = a m bm | s ( j ) | | E ( j ) | / Σ j = a m b m | E ( j ) | 2 在以上的方程中,|S(j)|是对LPC余项进行离散傅里叶变换(DFT) 所得的谱项,|E(j)|是基频信号的谱项,尤其是对256点加重平均窗 进行离散傅里叶变换所得的谱项。为做出基于频带的V/UV判断,利用于噪 信比(NSR)。第m阶频带的NSR表示为: NSR = Σ j = a m bm { | s ( j ) | - | Am | | E ( j ) | } 2 Σ j = a m bm | s ( j ) | 2 如果NSR值大于预定的阀值,如0.3,也就是如果误差较大,可以判定 |Am||E(j)|对|S(j)|的近似性不好,也即是说上述激励信号 |E(j)|不适于作为基频。这种情况下,此频带被判定为清音(UV)。 否则,可断定已作出相当满意的近似并因而判定此频带为浊音(V)。

同时,依据声音的音调,被音调基频划分的频带数目(谐波数)在大约8 至63的范围内变化,V/UV标志的数量也因而从频带到频带作类似变化。 从而对于由固定频带划分谱项所得的预定数量的频带之每一个,把V/UV判 定的结果分组或分解。特别地,包括语言范围的预定频率谱项被分成例如12 个频带,并对其每个做出V/UV判断。至于基于频带的V/UV判断数据,在 所有频带中浊音(V)语言区和清音(UV)语言区之间的至多一个分界位置 或边界位置做为频谱相似度pos。在这种情况下,频谱相似度的值可取为1 ≤pos≤12。

提供给图1中输入端11至15的输入参数被送往函数计算电路31至 35,用于计算代表与发音(V)语言的相似度的函数值。以下介绍此种函数 的特例。

首先,在图1所示的函数计算电路31中,根据输入语言信号的帧平均能 量lev值计算函数pLev(lev)的值。函数pLev(lev)可采 用例如如下形式, pLev(lev)=1.0/(1.0+exp(-(lev-400.0)

       /(100.0)) 图5表示此函数pLev(lev)的曲线。

接下来,在图1所示的函数计算电路32中,根据归一化自相关峰值 ror信号(0≤ror≤1.0)计算函数pRor(ror)的值。函数 pRor(ror)例如采用:

pRor(ror)=1.0/(1.0+exp(-(ror-0.3)

         /0.06)) 图6表示该数pRor(ror)的曲线。

在图1所示的函数计算电路33中,根据频谱的相似度pos值(0≤ pos≤1.0)计算函数pPos(pos)的值。函数pPos(pos) 例如采用:

pPos(pos)=1.0/(1.0+exp(-(pos-1.5)

         /0.8)) 图7表示该函数pPos(pos)的曲线。

在图1所示的函数计算电路34中,根据零交叠数nZero(1≤ nZero≤160)的值计算函数pNZero(nZero)的值。函数 PNZero(nZero)例如采用:

pNZero(nZero)=1.0/(1.0+exp((nZero-

   70.0)/12.0)) 图8表示该函数pNZero(nZero)的曲线。

在图1所示的函数计算电路35中,根据音调延迟pch的数值(20≤ pch≤147)计算函数pPch(pch)的值。函数pPch(pch )例如采用:

pPch(pch)=1.0/(1.0+exp(-(pch-12.0)/

2.5))×1.0/(1.0+exp((pch-105.0)/6.0)) 图9表示该函数pPch(pch)的曲线。

利用关于由这些函数pLev(lev)、pRor(ror)、 pNZero(nZero)、和pPch(pch)计算的参数lev、 ror、pos、nZero、pch的与浊音(V)声音的相似度,计算V 的最终外形。在这种情形中,最好考虑以下两点。

首先,如果自相关峰值较小而帧平均能量非常大,则语言应被判定为浊音 (V)。因此,为了使参数表现出很强的互补关系,需采用一加权和。第二, 各自独立代表V外形的参数彼此相乘。

因此,具有彼此补偿关系的自相关峰值和帧平均能量以一定的权重相加, 而那些不显示此补偿关系的量彼此相乘。代表V最终外形的函数f(lev, ror,pos,nZero,pch)由下式计算:

f(lev,ror,pos,nZero,pch)=

((1.2pRor(ror)+0.81Lev(lev))/2.0)

×pPos(pos)×PNzero(nZero)×pPch(pch) 在此,权数(α=1.2,β=0.8)由经验得出。

在给出浊音/清音(V/UV)的最后判定时,如果函数f不小于0.5和 小于0.5,则语言分别被判定为V和UV。

本发明不局限于以上描述的实施例。例如,取代上述获得与归一化自相关 峰值ror有关的V外形的函数pRor(ror),也可采用下述函数: pRor′(ror)=0.6x,0≤x<7/34 pRor′(ror)=4.0(x-0.175),7/34≤x<67/170 pRor′(ror)=0.6x+0.64,67/170≤x<0.6 pRor′(ror)=1,0.6≤x≤1.0 作为以上函数pRor(ror)的近似函数pRor′(ror)。近似函 数pRor′(ror)的曲线由图10中的实线表示,图中的虚线表示近似 直线和原始函数pRor(ror)。

虽然语言分解方面的结构表示成硬件,但它可由一种称做数字信号处理器 (DSP)的软件程序来完成。做为采用了本发明V/UV判定方法的语言编 码方法,LPC余项信号可分解成V和UV,以便对其施用不同的编码技术。 也就是说,对V部分,可采用由谐波编码对余项进行编码的语言压缩编码或正 弦分解编码,而对UV部分,可采用多种不同的编码技术,如CELP编码或 应用通过噪音着色的噪音合成进行编码。另外,对LPC余项编码可用于V部 分,而实现不同量纲加权矢量量化的语言压缩编码系统可应用于频谱包络。再 者,本发明不仅可用于语言压缩编码系统,还可用于多种不同的应用领域,如 音调转换,速率转换,利用一定规则的语言合成或噪音抑制。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈