从语音信号导出特征值的方法专利检索- 语音识别专利检索查询-专利查询网

从语音信号导出特征值的方法
申请号	CN97111218.5	申请日	1997-04-23	公开(公告)号	CN1120468C	公开(公告)日	2003-09-03
申请人	皇家菲利浦电子有限公司;			发明人	L·威林; H·奈伊;
摘要	在一种经常使用的话音输出的语音合成中，将一个激励信号施加于多个谐振器，这些谐振器的频率和振幅是根据要产生的声音调节的。可以从自然语音信号获得用于调节谐振器的参数。这些从自然语音信号获得的参数也可以用于语音识别，其中将这些参数与比较值相比较。根据本发明，这些参数，特别是共振峰频率是利用经过分立频率形成功率密度谱而确定的，从功率密度谱可以得到功率密度谱的连续频率分段的自相关系数，反过来又可以从自相关系数获得误差值，同时求出全部分段的误差之和的最小值。
权利要求	1、一种从语音信号导出特征值的方法，包括步骤：通过语音信号的时间周期的分立频率形成功率密度谱，对功率密度谱的一个预定第一数K的连续分段形成前三个自相关系数，从自相关系数形成每个分段的误差值并求出全部分段的误差之和，反复地形成分段之间的不同边界的自相关系数和误差值并确定误差之和值具有最小值的最佳边界频率，从该最佳边界频率的分段的自相关系数导出每个分段的至少一个特征值。 2、如权利要求1所述的方法，其中对于每个时间周期，从最低频率开始直到后继的较高频率，确定部分功率密度谱的辅助值的数量，并作为表格存储，其中自相关系数是在动态程序过程中从表格中的值之间的差值确定的。 3、如权利要求1或2所述的方法，其中误差之和的最小值是根据动态程序方法确定的，其中对相继的分立频率利用一个指示最小误差的动态辅助值连续地确定最佳划分，以便将一个从一个最低频率至一个实际后继频率的分段划分为两个分段，和从最低频率与该实际频率之间的不同边界频率确定出这个边界频率的辅助值与边界频率和实际频率之间的分段的误差之和的最小值，并且把这个和作为一个新的辅助值使用。
说明书全文	本发明一般涉及语音信号处理领域，特别是语音识别和话音输出领域。在语音输出中，产生出各个独立的短语言分段，它们按时间顺序产生十分类似自然语言表达的语音信号。为了产生独立的语言分段，最好是使用最少数量的尽可能精确地模拟一个语言分段的参数。这些参数基于具有带有一般来说不同带宽的不同共振频率的自然语音声迹，以产生不同的声音。在语音信号中的共振频率称为共振峰频率，并且它们的示值和它们的带宽足以产生不同的声音。最好是能够从一个自然语音信号获得这些参数。但是，从自然语音信号获得的这些参数也可以用于语言识别。在这种情况下，一个语音信号被分割为多个短的周期，并从每个周期导出特征值并将这些特征值与对应于给定声音的参考值相比较。通过进一步地处理这些比较的结果，可以确定最可能发出的语音。例如，特征值可以是相继频率分段中的能量。但是，当把共振峰频率用作特征值时，也能得到良好的结果。利用这些频率，可以更好地顾及发出的真实语音与用于识别的参考值之间的大量偏差。本发明的目的是提供一种方法，利用这种方法可以用一种可靠方式和相对较少的计算从语音信号确定共振峰频率或指示这些共振峰频率的特征值，因而能够基本上实现实时处理。根据本发明，这一目的是通过最初借助于语音信号的连续周期的分立频率形成功率密度谱而完成的。对于一个预定的第一数量的功率密度谱的连续的分段，在这些周期的每一个中形成前三个自相关系数。为此目的，必须确定分段的边界频率，这些分段的边界频率对于具有相应于分段数量的多个共振峰频率的模型函数近似算法是最优的。为了确定边界频率，从自相关系数形成每个分段的误差值，再把所有分段的误差值相加，对于分段之间的不同边界频率反复地生成自相关系数和误差值，直到确定出误差之和的最小值以及相关的最佳边界频率。最后，从具有最佳边界频率的分段的自相关系数导出每个分段的至少一个特征值。这些值可以是能够从自相关系数直接确定的预测系数，或者是共振频率和可以由预测系数再次单值性导出的带宽。直接形成用于给定功率密度谱的频率分段的自相关系数需要一些计算。根据本发明的一个实施例，从功率密度谱形成这种自相关系数的一个较为简单的模式是要从每个周期的功率密度谱确定一组辅助值，这些辅助值代表从最低频率到一个给定较高频率的自相关系数。这些辅助值存储在一个表格中，并与有关的较高频率相关联。然后从表格中两个值之间的差确定出一个给定频率分段的一个自相关系数。后面的处理过程只需要一种简单的计算，而且在每个周期中以一个有限的计算时间只需一次就可以确定表格。最佳边界频率——在该频率误差之和最小——基本上是根据动态程序的原理确定的。为此目的，使用了另一个代表误差的辅助值，以便把频率分段从最低频率到一个较高频率优化地划分为给定数量的分段。接下来，将各较高频率再划分为两个频率间隔，用间隔的边界逐级地包容全部频率，并且当这个辅助值大于在分段的前面边界上获得的辅助值和间隔边界与瞬时较高频率之间的范围的误差之和时，则将这个和数值设定为新的误差值，并同时存储相关的间隔边界。当这对直到最高频率的全部较高频率都有效时，那么通过追溯的方法可以获得绝对的，最佳分段边界。根据本发明的数学处理过程如下。起点是LPC(线性预测编码器)预测器多项式 Ak(eiw)＝1-αkejw-βke2iw αk和βk是预测器系数，可以从预测器系数确定共振频率φk如下：为了确定共振峰频率的K数，必须把频谱划分为K个分段，在分段中以适当的方式选择各分段的边界频率，使得对应于一个给定短时间功率密度谱 \|S(ejw)\|2的误差为最小。根据L.Rbiner，R.-W.Schafer所定的“语音信号的数字处理”(″Digital Processing of Speech Signals″，Prentice Hall， Englewood Cliffs，NJ，1978)，该最小误差值引出表达式： ${α_{k}}^{opt} = \frac{r_{k} (0) r_{k} (1) - r_{k} (1) r_{k} (2)}{{r_{k} (0)}^{2} - r_{k} {(1)}^{2}}$ ${β_{k}}^{opt} = \frac{r_{k} (0) r_{k} (2) - r_{k} {(1)}^{2}}{{r_{k} (0)}^{2} - r_{k} {(1)}^{2}}$ 在这个表达式中，r″″*(n)是分段k的自相关系数，n＝0，1，2。这些自相关系数可以从语音信号的功率密度谱算出。具有边界频率ωk-1和ωk的一个分段的最小误差值可以用下式表达： Emin(ωk-1，ωk)＝rk(0)-αk0ptrk(1)-βkoptrk(2) 为确定全部分段的最佳边界频率，全部分段误差之和应当是一个最小值。为了计算这个最小值，必须把自相关系数用于功率密度谱的不同频率分段。为了简化这种计算，引入一个辅助值T(n，i)： $T (n, i) = Σ_{I = 0}^{j} {S (1)}^{2} \cos \frac{2 πnl}{2 l}$ 其中n＝0，1，2并且i＝0，1，…，2I是一个分立频率的序列。因此这个辅助值构成了一组用频率i作为独立值以表格形式存储的值。利用表格中两个值之间的差可以确定单一分段的自相关系数： rk(n)＝T(n，ik)-T(n，ik-1) 两个表格值的使用和他们的差的形成仅需要很短的时间，因而不会显著地影响最小误差和值的确定。最小误差和值基本上是根据动态规划的原理确定的。为此目的，引入了一个指示误差的辅助值F(k，i)，该值用于使频率间隔从1至i最优地划分为k个分段。由于频率间隔从1至i再划分为从1至j和j+1至i两个频率分段，并且考虑到辅助值F(k，i)代表一种误差值而且将被最小化，因而得到了动态程序的递归关系： $F (k, 1) = \min_{j} [f (k - 1, j) + E_{\min} (j + 1), i)]$ 这种关系表示，利用将频率间隔从1至j划分为(k-1)个分段的最佳划分，以便把频率间隔从1至i再划分为k个分段。在附图中显示了利用动态程序确定具有最小误差和值的分段的最佳边界频率的完整过程。这个过程在从一个预订时间周期的语音信号确定了功率密度谱之后，和在为确定不同频率分段的自相关系数而计算用于上述表格的值之后开始，并且最初包括确定在附图指出的边界之内的不同j和i值的各个单独的误差值Emin(j+1，i)。利用前面指出的关系——在这种关系中αkopt和βkopt是仅由 rk(n)表达的——可以确定最小误差值，并产生一个存储的值的矩阵。在接下来的通过频率i，分段k和再划分频率j的循环中，当辅助值F(k，i)大于直到间隔边界j的先行分段的辅助值与间隔的剩余部分的误差的和时，总的受到替换，同时每次存储一个后向标志B(k，i)。当运行通过直到最高频率 I的全部循环时，通过追溯这些后向标志读出每个分段的最佳边界频率，并且从这些最佳边界频率的自相关系数同预测系数αk和βk，通过它们可以计算出各个分段的共振峰频率。显然必须对每个相继的时间周期重复地进行这个过程，以便从语音信号中获得共振峰频率的时间序列。

意见反馈