从语音信号导出特征值的方法

申请号 CN97111218.5 申请日 1997-04-23 公开(公告)号 CN1120468C 公开(公告)日 2003-09-03
申请人 皇家菲利浦电子有限公司; 发明人 L·威林; H·奈伊;
摘要 在一种经常使用的话音输出的语音合成中,将一个激励 信号 施加于多个 谐振器 ,这些谐振器的 频率 和振幅是根据要产生的声 音调 节的。可以从自然 语音信号 获得用于调节谐振器的参数。这些从自然语音信号获得的参数也可以用于 语音识别 ,其中将这些参数与比较值相比较。根据本 发明 ,这些参数,特别是共振峰频率是利用经过分立频率形成功率 密度 谱而确定的,从功率密度谱可以得到功率密度谱的连续频率分段的自相关系数,反过来又可以从自相关系数获得误差值,同时求出全部分段的误差之和的最小值。
权利要求

1、一种从语音信号导出特征值的方法,包括步骤:
通过语音信号的时间周期的分立频率形成功率密度谱,
对功率密度谱的一个预定第一数K的连续分段形成前三个自相关系数,
从自相关系数形成每个分段的误差值并求出全部分段的误差之和,
反复地形成分段之间的不同边界的自相关系数和误差值并确定误差之和值 具有最小值的最佳边界频率,
从该最佳边界频率的分段的自相关系数导出每个分段的至少一个特征值。
2、如权利要求1所述的方法,其中对于每个时间周期,从最低频率开始 直到后继的较高频率,确定部分功率密度谱的辅助值的数量,并作为表格存储, 其中自相关系数是在动态程序过程中从表格中的值之间的差值确定的。
3、如权利要求1或2所述的方法,其中误差之和的最小值是根据动态程 序方法确定的,其中对相继的分立频率利用一个指示最小误差的动态辅助值连 续地确定最佳划分,以便将一个从一个最低频率至一个实际后继频率的分段划 分为两个分段,和从最低频率与该实际频率之间的不同边界频率确定出这个边 界频率的辅助值与边界频率和实际频率之间的分段的误差之和的最小值,并且 把这个和作为一个新的辅助值使用。

说明书全文

发明一般涉及语音信号处理领域,特别是语音识别和话音输出领域。

在语音输出中,产生出各个独立的短语言分段,它们按时间顺序产生十分 类似自然语言表达的语音信号。为了产生独立的语言分段,最好是使用最少数 量的尽可能精确地模拟一个语言分段的参数。这些参数基于具有带有一般来说 不同带宽的不同共振频率的自然语音声迹,以产生不同的声音。在语音信号中 的共振频率称为共振峰频率,并且它们的示值和它们的带宽足以产生不同的声 音。最好是能够从一个自然语音信号获得这些参数。

但是,从自然语音信号获得的这些参数也可以用于语言识别。在这种情况 下,一个语音信号被分割为多个短的周期,并从每个周期导出特征值并将这些 特征值与对应于给定声音的参考值相比较。通过进一步地处理这些比较的结 果,可以确定最可能发出的语音。例如,特征值可以是相继频率分段中的能量。 但是,当把共振峰频率用作特征值时,也能得到良好的结果。利用这些频率, 可以更好地顾及发出的真实语音与用于识别的参考值之间的大量偏差。

本发明的目的是提供一种方法,利用这种方法可以用一种可靠方式和相对 较少的计算从语音信号确定共振峰频率或指示这些共振峰频率的特征值,因而 能够基本上实现实时处理。

根据本发明,这一目的是通过最初借助于语音信号的连续周期的分立频率 形成功率密度谱而完成的。对于一个预定的第一数量的功率密度谱的连续的分 段,在这些周期的每一个中形成前三个自相关系数。为此目的,必须确定分段 的边界频率,这些分段的边界频率对于具有相应于分段数量的多个共振峰频率 的模型函数近似算法是最优的。为了确定边界频率,从自相关系数形成每个分 段的误差值,再把所有分段的误差值相加,对于分段之间的不同边界频率反复 地生成自相关系数和误差值,直到确定出误差之和的最小值以及相关的最佳边 界频率。最后,从具有最佳边界频率的分段的自相关系数导出每个分段的至少 一个特征值。这些值可以是能够从自相关系数直接确定的预测系数,或者是共 振频率和可以由预测系数再次单值性导出的带宽。

直接形成用于给定功率密度谱的频率分段的自相关系数需要一些计算。根 据本发明的一个实施例,从功率密度谱形成这种自相关系数的一个较为简单的 模式是要从每个周期的功率密度谱确定一组辅助值,这些辅助值代表从最低频 率到一个给定较高频率的自相关系数。这些辅助值存储在一个表格中,并与有 关的较高频率相关联。然后从表格中两个值之间的差确定出一个给定频率分段 的一个自相关系数。后面的处理过程只需要一种简单的计算,而且在每个周期 中以一个有限的计算时间只需一次就可以确定表格。

最佳边界频率——在该频率误差之和最小——基本上是根据动态程序的原 理确定的。为此目的,使用了另一个代表误差的辅助值,以便把频率分段从最 低频率到一个较高频率优化地划分为给定数量的分段。接下来,将各较高频率 再划分为两个频率间隔,用间隔的边界逐级地包容全部频率,并且当这个辅助 值大于在分段的前面边界上获得的辅助值和间隔边界与瞬时较高频率之间的范 围的误差之和时,则将这个和数值设定为新的误差值,并同时存储相关的间隔 边界。当这对直到最高频率的全部较高频率都有效时,那么通过追溯的方法可 以获得绝对的,最佳分段边界。

根据本发明的数学处理过程如下。

起点是LPC(线性预测编码器)预测器多项式 Ak(eiw)=1-αkejw-βke2iw

αk和βk是预测器系数,可以从预测器系数确定共振频率φk如下:

为了确定共振峰频率的K数,必须把频谱划分为K个分段,在分段中 以适当的方式选择各分段的边界频率,使得对应于一个给定短时间功率密度谱 |S(ejw)|2的误差为最小。根据L.Rbiner,R.-W.Schafer所定的“语音信号的 数字处理”(″Digital Processing of Speech Signals″,Prentice Hall, Englewood Cliffs,NJ,1978),该最小误差值引出表达式: α k opt = r k ( 0 ) r k ( 1 ) - r k ( 1 ) r k ( 2 ) r k ( 0 ) 2 - r k ( 1 ) 2 β k opt = r k ( 0 ) r k ( 2 ) - r k ( 1 ) 2 r k ( 0 ) 2 - r k ( 1 ) 2 在这个表达式中,r″″*(n)是分段k的自相关系数,n=0,1,2。这些 自相关系数可以从语音信号的功率密度谱算出。具有边界频率ωk-1和ωk的一 个分段的最小误差值可以用下式表达:

Emin(ωk-1,ωk)=rk(0)-αk0ptrk(1)-βkoptrk(2)

为确定全部分段的最佳边界频率,全部分段误差之和应当是一个最小值。 为了计算这个最小值,必须把自相关系数用于功率密度谱的不同频率分段。为 了简化这种计算,引入一个辅助值T(n,i): T ( n , i ) = Σ I = 0 j S ( 1 ) 2 cos 2 πnl 2 l 其中n=0,1,2并且i=0,1,…,2I是一个分立频率的序列。

因此这个辅助值构成了一组用频率i作为独立值以表格形式存储的值。利 用表格中两个值之间的差可以确定单一分段的自相关系数:

rk(n)=T(n,ik)-T(n,ik-1)

两个表格值的使用和他们的差的形成仅需要很短的时间,因而不会显著地 影响最小误差和值的确定。

最小误差和值基本上是根据动态规划的原理确定的。为此目的,引入了一 个指示误差的辅助值F(k,i),该值用于使频率间隔从1至i最优地划分 为k个分段。由于频率间隔从1至i再划分为从1至j和j+1至i两个频率 分段,并且考虑到辅助值F(k,i)代表一种误差值而且将被最小化,因而 得到了动态程序的递归关系: F ( k , 1 ) = min j [ f ( k - 1 , j ) + E min ( j + 1 ) , i ) ]

这种关系表示,利用将频率间隔从1至j划分为(k-1)个分段的最佳 划分,以便把频率间隔从1至i再划分为k个分段。

附图中显示了利用动态程序确定具有最小误差和值的分段的最佳边界频 率的完整过程。这个过程在从一个预订时间周期的语音信号确定了功率密度谱 之后,和在为确定不同频率分段的自相关系数而计算用于上述表格的值之后开 始,并且最初包括确定在附图指出的边界之内的不同j和i值的各个单独的误 差值Emin(j+1,i)。利用前面指出的关系——在这种关系中αkopt和βkopt是仅由 rk(n)表达的——可以确定最小误差值,并产生一个存储的值的矩阵。在接下来 的通过频率i,分段k和再划分频率j的循环中,当辅助值F(k,i)大于 直到间隔边界j的先行分段的辅助值与间隔的剩余部分的误差的和时,总的受 到替换,同时每次存储一个后向标志B(k,i)。当运行通过直到最高频率 I的全部循环时,通过追溯这些后向标志读出每个分段的最佳边界频率,并且 从这些最佳边界频率的自相关系数同预测系数αk和βk,通过它们可以计算出 各个分段的共振峰频率。

显然必须对每个相继的时间周期重复地进行这个过程,以便从语音信号中 获得共振峰频率的时间序列。

QQ群二维码
意见反馈