首页 / 专利库 / 视听技术与设备 / 帧间位移误差 / 用于语音编码的码本结构与搜索

用于语音编码的码本结构与搜索

阅读:843发布:2020-11-28

专利汇可以提供用于语音编码的码本结构与搜索专利检索,专利查询,专利分析的服务。并且提供了一种带有特别的固定码本结构和新的搜索例行程序的语音压缩系统,用于语音编码。该系统能够把语音 信号 编码为位流,在此之后对其进行解码以产生合成语音。码本结构使用多个子码本。每一子码本被设计为适配特定的 语音信号 组。对每一子码本计算基准值以便在作为编码系统一部分的最小环中使误差信号最小化。一外部信号设置最大位流速率,用于把编码的语音传送到通信系统中。该语音压缩系统包括全速率编 解码器 、半速率编解码器、四分之一速率编解码器和八分之一编解码器。每一编解码器有选择地被激活以便以不同的位速率对语音信号编码和解码,以便在有限的平均位速率下提高合成语音的整体 质量 。,下面是用于语音编码的码本结构与搜索专利的具体信息内容。

1.一种语音编码系统,包括:
语音处理电路,配置为接收语音波形
其中语音处理电路包括具有多个子码本的码本,至少两个子 码本不同,以及
其中每一子码本包括多个脉冲位置,用于响应语音波形产生 至少一个码向量。
2.根据权利要求1的语音编码系统,其中多个子码本包括至 少一个脉冲状子码本和噪声状子码本。
3.根据权利要求1的语音编码系统,其中至少一个码向量是 脉冲状和噪声状之一。
4.根据权利要求1的语音编码系统,其中多个脉冲位置包括 至少一个轨迹,且其中至少一个码向量包括从至少一个轨迹中选 择的至少一个脉冲。
5.根据权利要求4的语音编码系统,其中至少一个脉冲包括 第一脉冲和第二脉冲,其中至少一个轨迹包括第一轨迹和第二轨 迹,且其中第一脉冲从第一轨迹中选择,且第二脉冲从第二轨迹 中选择。
6.根据权利要求5的语音编码系统,其中其中至少一个脉冲 还包括第三脉冲,其中至少一个轨迹还包括第三轨迹,且其中第 三脉冲是从第三轨迹中选择的。
7.根据权利要求6的语音编码系统,其中第三轨迹的至少一 个脉冲位置不同于第一轨迹和第二轨迹的至少之一的至少一个脉 冲位置。
8.根据权利要求1的语音编码系统,其中多个子码本包括:
第一子码本,提供包括第一脉冲和第二脉冲的第一码向量;
第二子码本,提供包括第三脉冲、第四脉冲和第五脉冲的第 二码向量;以及
第三子码本,提供包括第六脉冲、第七脉冲、第八脉冲、第 九脉冲和第十脉冲的第三码向量。
9.根据权利要求8的语音编码系统,
其中第一子码本包括第一轨迹和第二轨迹,其中第一脉冲从 第一轨迹中选择,且第二脉冲从第二轨迹中选择;
其中第二子码本包括第三轨迹,第四轨迹和第五轨迹,其中 第三脉冲从第三轨迹中选择,第四脉冲从第四轨迹中选择,且第 五脉冲从第五轨迹中选择;以及
其中第三子码本包括第六轨迹、第七轨迹、第八轨迹、第九 轨迹和第十轨迹,其中第六脉冲从第六轨迹中选择,第七脉冲从 第七轨迹中选择,第八脉冲从第八轨迹中选择,第九脉冲从第九 轨迹中选择,且第十脉冲从第十轨迹中选择。
10.根据权利要求9的语音编码系统,
其中第一轨迹包括脉冲位置
0,1,2,3,4,5,6,7,8,9,10,12,14,16,18,20,22,24,26,28,30,32,34, 36,38,40,42,44,46,48,50,52;
其中第二轨迹包括脉冲位置
1,3,5,7,9,11,12,13,14,15,16,17,18,19,20,21,22,23 25,27,29,31, 33,35,37,39,41,43,44,45,47,51;
其中第三轨迹包括脉冲位置
3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48;
其中第四轨迹包括脉冲位置
Pos1-2,Pos1,Pos1+2,Pos1+4;
其中第五轨迹包括脉冲位置
Pos1-3,Pos1-1,Pos1+1,Pos1+3;
其中第六轨迹包括脉冲位置
0,15,30,45;
其中第七轨迹包括脉冲位置
0,5;
其中第八轨迹包括脉冲位置
10,20;
其中第九轨迹包括脉冲位置
25,35;以及
其中第十轨迹包括脉冲位置
40,50,
其中第四和第五轨迹相对于Pos1是动态的,Pos1是第三脉冲 的确定的位置并限制在子内。
11.根据权利要求9的语音编码系统,其中第四轨迹和第五 轨迹的脉冲候选位置分别具有相对于第三脉冲确定的位置的相对 位移。
12.根据权利要求11的语音编码系统,其中相对位移包括2 位以及对于第三脉冲的位置包括4位。
13.根据权利要求12的语音编码系统,其中第三脉冲的位置 包括3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48。
14.根据权利要求1的语音编码系统,其中多个子码本包括:
第一子码本,提供包括第一脉冲、第二脉冲、第三脉冲、第 四脉冲和第五脉冲的第一码向量;
第二子码本,提供包括第六脉冲、第七脉冲、第八脉冲、第 九脉冲和第十脉冲的第二码向量;以及
第三子码本,提供包括第十一脉冲、第十二脉冲、第十三脉 冲、第十四脉冲和第十五脉冲的第三码向量。
15.根据权利要求14的语音编码系统,
其中第一子码本包括第一轨迹、第二轨迹、第三轨迹、第四 轨迹和第五轨迹,其中第一脉冲选自第一轨迹,第二脉冲选自第 二轨迹,第三脉冲选自第三轨迹,第四脉冲选自第四轨迹,并且 第五脉冲选自第五轨迹;
其中第二子码本包括第六轨迹、第七轨迹、第八轨迹、第九 轨迹和第十轨迹,其中第六脉冲选自第六轨迹,第七脉冲选自第 七轨迹,第八脉冲选自第八轨迹,第九脉冲选自第九轨迹,第十 脉冲选自第十轨迹;以及
其中第三子码本包括第十一轨迹、第十二轨迹、第十三轨迹、 第十四轨迹和第十五轨迹,其中第十一脉冲选自第十一轨迹,第 十二脉冲选自第十二轨迹,第十三脉冲选自第十三轨迹,第十四 脉冲选自第十四轨迹,并且第十五脉冲选自第十五轨迹。
16.根据权利要求15的语音编码系统,
其中第一轨迹包括脉冲位置
1,3,6,8,11,13,16,18,21,23,26,28,31,33,36,38;
其中第二轨迹包括脉冲位置
4,9,14,19,24,29,34,39;
其中第三轨迹包括脉冲位置
1,3,6,8,11,13,16,18,21,23,26,28,31,33,36,38;
其中第四轨迹包括脉冲位置
4,9,14,19,24,29,34,39;
其中第五轨迹包括脉冲位置
0,2,5,7,10,12,15,17,20,22,25,27,30,32,35,37;
其中第六轨迹包括脉冲位置
0,1,2,3,4,6,8,10
其中第七轨迹包括脉冲位置
5,9,13,16,19,22,25,27
其中第八轨迹包括脉冲位置
7,11,15,18,21,24,28,32;
其中第九轨迹包括脉冲位置
12,14,17,20,23,26,30,34;
其中第十轨迹包括脉冲位置
29,31,33,35,36,37,38,39;
其中第十一轨迹包括脉冲位置
0,1,2,3,4,5,6,7;
其中第十二轨迹包括脉冲位置
8,9,10,11,12,13,14,15;
其中第十三轨迹包括脉冲位置
16,17,18,19,20,21,22,23;
其中第十四轨迹包括脉冲位置
24,25,26,27,28,29,30,31;以及
其中第十五轨迹包括脉冲位置
32,33,34,35,36,37,38,39。
17.根据权利要求1的语音编码系统,其中多个子码本包括 高斯子码本。
18.根据权利要求17的语音编码系统,其中高斯子码本产生 高斯码向量。
19.根据权利要求17的语音编码系统,其中多个子码本还包 括:
第一子码本,提供包括第一脉冲和第二脉冲的第一码向量; 以及
第二子码本,提供包括第三脉冲、第四脉冲和第五脉冲的第 二码向量。
20.根据权利要求19的语音编码系统,
其中第一子码本包括第一轨迹和第二轨迹,其中第一脉冲选 自第一轨迹且第二脉冲选自第二轨迹;以及
其中第二子码本包括第三轨迹、第四轨迹和一第五轨迹,其 中第三脉冲选自第三轨迹,第四脉冲选自第四轨迹,第五脉冲选 自第五轨迹。
21.根据权利要求20的语音编码系统,
其中第一轨迹包括脉冲位置
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,
43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,
63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79;
其中第二轨迹包括脉冲位置
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,
43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,
63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79;
其中第三轨迹包括脉冲位置
0,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75;
其中第四轨迹包括脉冲位置
Pos1-8,Pos1-6,Pos1-4,Pos1-2,Pos1+2,Pos1+4,Pos1+6,Pos1+8;
其中第五轨迹包括脉冲位置
Pos1-7,Pos1-5,Pos1-3,Pos1-1,Pos1+1,Pos1+3,Pos1+5,Pos1+7,
其中第四和第五轨迹相对于Pos1是动态的,Pos1是第三脉冲确定的位 置并限于子帧内。
22.根据权利要求20的语音编码系统,其中第四轨迹和第五 轨迹的脉冲位置每一个对于第三脉冲确定的位置具有相对位移。
23.根据权利要求22的语音编码系统,其中相对位移包括3 位,且第三脉冲确定的位置包括4位。
24.根据权利要求23的语音编码系统,其中确定的位置包括 0,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75。
25.根据权利要求1的语音编码系统,其中多个子码本包括 具有随机脉冲位置的随机子码本,其中至少20%随机脉冲位置是 非零的。
26.根据权利要求1的语音编码系统,其中语音处理电路使 用基准值选择一个子码本,以提供一个码向量。
27.根据权利要求26的语音编码系统,其中基准值响应于自 适应及加权因子。
28.根据权利要求27的语音编码系统,其中自适应加权因子 从音调相关性、残留锐度、噪声对信号比值及音调滞后中的至少 之一计算。
29.根据权利要求1的语音编码系统,其中语音处理电路包 括编码器解码器中的至少之一。
30.根据权利要求1的语音编码系统,其中语音处理电路包 括至少一个数字信号处理器(DSP)芯片。
31.一种在具有脉冲码本和脉冲子码本中至少之一的语音编 码系统中搜索码向量的方法,码向量响应语音波形并具有至少两 个脉冲,该方法包括:
对于候选码向量进行第一搜索回合;
确定每一脉冲的位置;
响应每一脉冲的位置、符号和量值计算第一基准值;
对于至少一个附加的候选码向量进行至少一个附加的搜索回 合;响应每一脉冲的位置、符号和量值计算至少一个附加的基准 值;以及
响应第一基准值和至少一个附加的基准值选择码向量。
32.根据权利要求31的搜索码向量的方法,其中第一搜索回 合包括:
选择第一脉冲;
对于第一脉冲计算基准值;
选择后继的脉冲;
暂时固定先前的脉冲;以及
在从第一脉冲到最后脉冲的每一脉冲选择期间迭代基准值。
33.根据权利要求31的搜索码向量的方法,其中至少一个附 加的搜索回合还包括:
选择第一脉冲;
暂时固定先前确定的脉冲;
对该脉冲计算基准值;
选择后继的脉冲;
暂时固定后继确定的脉冲;以及
在每一脉冲选择期间迭代计算基准值。
34.根据权利要求31的搜索码向量的方法,还包括:
重复至少一个附加的搜索回合直到最后一个搜索回合,其中 每一后继的搜索回合比先前的搜索回合产生较低的基准值。
35.根据权利要求31的搜索码向量的方法,其中码本包括多 个子码本,至少有两个不同的子码本。
36.根据权利要求35的搜索码向量的方法,其中每一子码本 提供一个候选码向量和用于选择子码本的对应的信号误差,且其 中在选择的子码本内进一步进行搜索。
37.根据权利要求36的搜索码向量的方法,其中从第一搜索 确定对每一脉冲子码本的一候选码向量和对应的信号误差,并其 中在选择的子码本内以附加的搜索进一步进行搜索。
38.根据权利要求36的搜索码向量的方法,还包括:
响应基准值对不同的子码本确定信号误差;
向基准值施加自适应加权因子,其中基准值响应自适应加权 因子;以及
比较基准值以选择子码本。
39.根据权利要求38的搜索码向量的方法,其中从音调相关 性、残留锐度、噪声到信号比值和音调滞后中至少之一计算自适 应加权因子。
40.根据权利要求35的搜索码向量的方法,其中多个子码本 包括脉冲状子码本、噪声状子码本和高斯子码本中的至少一个。
41.根据权利要求40的搜索码向量的方法,其中多个子码本 包括2-脉冲子码本,3-脉冲子码本和5-脉冲子码本中的至少之一 个。
42.一种在语音编码系统中搜索码向量的方法,该系统具有 带有多个码向量的至少一个脉冲码本或脉冲子码本,每一码向量 具有至少三个脉冲,其中每一脉冲具有位置、符号和量值,且其 中脉冲的不同的组合是不同的码向量,该方法包括:
联合选择头两个脉冲(P1,P2)的位置、符号和量值;
联合选择其次两个脉冲(Pi,Pi+1)的位置、符号和量值;直到
联合选择最后两个脉冲(PN-1,PN)的位置、符号和量值;
选择脉冲组合作为候选码向量;以及
在从第一对脉冲到最后一对脉冲的至少两个搜索回合中顺序 搜索,其中下一个搜索回合比先前的搜索回合产生较小的误差信 号。
43.根据权利要求42的搜索码向量的方法,其中多个子码本 包括脉冲状子码本、噪声状子码本和高斯子码本中至少一个。
44.根据权利要求43的搜索码向量的方法,其中多个子码本 包括2-脉冲子码本、3-脉冲子码本和5-脉冲子码本中至少一个。
45.根据权利要求42的搜索码向量的方法,其中第一搜索回 合包括:
响应语音波形联合选择第一对脉冲,其中第一对脉冲具有与 语音波形相关的第一信号误差;
响应语音波形并响应暂时确定的先前的脉冲,联合选择下一 对脉冲,其中从第一脉冲到当前脉冲的脉冲具有与语音波形相关 的下一个信号误差,其中下一个信号误差小于或等于第一信号误 差;
响应语音波形并响应暂时确定的先前的脉冲,联合选择最后 一对脉冲,其中最后一对脉冲具有与语音波形相关信号误差,小 于或等于先前暂时确定的脉冲的信号误差;以及
从搜索回合提供脉冲作为候选码向量。
46.根据权利要求42的搜索码向量的方法,其中下一个搜索 回合包括:
响应语音波形并响应其它暂时从第一和先前回合之一确定的 脉冲,联合选择第一对脉冲,其中的脉冲具有与语音波形相关的 用于下一个搜索回合的第一信号误差;
响应语音波形并响应从先前回合和下一个回合暂时确定的其 它脉冲,联合选择下一对脉冲,其中下一对脉冲具有与用于波形 相关的信号误差,小于或等于先前的信号误差;
响应语音波形并响应从先前回合和下一个回合暂时确定的其 它脉冲,联合选择最后一对脉冲,其中最后一对脉冲具有与语音 波形相关信号误差,小于或等于先前的信号误差;以及
从下一个搜索回合提供脉冲作为候选码向量。
47.根据权利要求46的搜索码向量的方法,其中下一个搜索 回合的脉冲对不同于来自先前搜索回合的脉冲对。
48.根据权利要求46的搜索码向量的方法,其中重复下一个 搜索回合,降低误差信号直到达到最后的回合。
49.根据权利要求42的搜索码向量的方法,其中码本包括多 个子码本,有至少两个不同的子码本。
50.根据权利要求49的搜索码向量的方法,其中每一码本提 供一个候选码向量和用于选择子码本对应的信号误差,以及其中 在选择的子码本中进行进一步的搜索。
51.根据权利要求50的搜索码向量的方法,其中对于每一脉 冲子码本的一个候选码向量和对应的信号误差是由第一搜索中确 定,且其中在选择子码本内以附加的搜索进行进一步的搜索。
52.根据权利要求50的搜索码向量的方法,还包括:
对不同的子码本通过基准值确定信号误差;
向至少一个基准值施加至少一个自适应加权因子;以及
比较基准值以选择子码本。
53.根据权利要求52的搜索码向量的方法,其中至少一个自 适应加权因子包括音调相关性、残留锐度、噪声到信号比值及音 调滞后至少之一。

说明书全文

技术领域

发明涉及语音通信系统,并特别涉及用于数字语音编码的系统和方 法。

背景技术

人类通信的一种流行的方式涉及通信系统的使用。通信系统包括有线 和无线电系统。无线通信系统与陆地线路系统电连接,并使用射频(RF)与 移动通信装置通信。当前,例如在蜂窝式系统中通信可用的射频是大约以 900MHz为中心的频率范围,并在个人通信服务(PCS)频率范围大约以 1900MHz为中心。由于诸如蜂窝式电话等无线通信装置不断地普及引起的 增加的通信量,于是希望能够降低无线系统内的传输带宽。
无线电远程通信中的数字传输,由于其抗噪声性、可靠性、设备的小 型化、以及能够使用数字技术实现复杂的信号处理功能的能,而正在不 断广泛地用于话音和数据两者。语音信号的数字传输涉及这样的步骤:使 用模拟-数字转换器对模拟语音波形采样、语音压缩(编码)、传输、语音解 压缩(解码)、数字到模拟的转换、以及向机或扬声器重放。使用模拟到 数字转换器的模拟语音波形的采样生成数字信号。然而,在数字信号中用 来表示模拟语音波形的位数生成了相当大的带宽。例如,以8000Hz(每 0.125ms一次)速率其中每一采样由16位表示的采样的语音信号,将有每秒 128,000(16×8000)位或128 kbps(千位每秒)的位速率。
语音压缩可降低表示语音信号的位数,这样就降低了传输所需的带宽。 然而,语音压缩可能造成解压缩的语音质量的劣化。一般来说,较高的位 速率会产生较高的质量,而较低的位速率会产生是较低的质量。然而语音 压缩技术,诸如编码技术,能够以相对低的位速率产生相对高质量的解压 缩语音。一般来说,在保留或不保留实际的语音波形下,低位速率编码技 术试图表示语音信号感知上的重要特征。
典型地,对适当感知表示比较困难或比较重要的语音信号部分(诸如浊 音语音,爆破音或浊音启动)使用较高位数编码并传输。对适当感知表示不 很困难或不很重要的语音信号部分(诸如非浊音,或词句之间的寂静)使用 较低位数编码。由此产生的语音信号的平均位速率将相对低于提供类似质 量解压缩语音的固定位速率的情形。
这些语音压缩技术结果降低了用来传输语音信号的带宽量。然而,对 于大量用户的通信系统进一步降低带宽是重要的。因而,需要这样语音编 码系统和方法,它们能够尽量降低语音表示所需的平均位速率,同时提供 高质量解压缩语音。

发明内容

本发明提供了构成有效码本结构的方法及快速搜索方法,其一个例子 用于SMV系统。SMV系统使通信装置中的编码和解码速率变化,所述通 信装置例如是移动电话,蜂窝式电话,便携式无线收发信机或其它无线或 有线通信装置。所公开的实施例描述了这样一种系统,它根据来自外部源, 诸如移动装置与其相互作用的通信系统的信号,来变化速率和相关带宽。 在各实施例中,通信系统使用该系统为通信设备选择一种方式,而且根据 该方式来处理语音。
语音压缩系统的一个实施例包括全速率编解码器、半速率编解码器、 四分之一速率编解码器和八分之一速率编解码器,每一个都能够对语音信 号编码和解码。语音压缩系统基于语音信号逐个进行速率选择,以便选 择编解码器之一。然后语音压缩系统采用带有多个子码本的固定码本结构。 搜索例行程序在编码和解码语音时从码本之中选择最佳代码向量。搜索例 行程序基于迭代方式中使误差函数最小化。
于是,语音编码器能够有选择地激活编解码器,以便使重构的语音信 号整体质量最高,同时保持所希望的平均位速率。在研究了以下的附图和 详细说明时,对于业内专业人员本发明的其它的系统、方法、特征和优点 是显而易见的。应当注意,包含在本说明中的所有附加的系统、方法、特 征和优点是在本发明的范围内,并受到所附权利要求的保护。

附图说明

附图中的组件不一定是按比例的,而重点在于说明本发明的原理。此 外在附图中,在所有不同的图示中相同的标号指示对应的部件。
图1是在一时间周期上语音模式的的图形表示。
图2是语音编码系统一实施例的的框图
图3是图2中所示的语音编码系统展开的框图。
图4是图2中所示的解码系统展开的框图。
图5是表示固定码本的框图。
图6是语音编码系统展开的框图。
图7是用于查找固定子码本过程的流程图
图8是用于查找固定子码本过程的流程图。
图9是语音编码系统展开的框图。
图10是一子码本结构示意图。
图11是一子码本结构示意图。
图12是一子码本结构示意图。
图13是一子码本结构示意图。
图14是一子码本结构示意图。
图15是一子码本结构示意图。
图16是一子码本结构示意图。
图17是一子码本结构示意图。
图18是一子码本结构示意图。
图19是一子码本结构示意图。
图20是图2的解码系统展开的框图。
图21是一语音编码系统的框图。

具体实施方式

语音压缩系统(编解码器)包括编码器和解码器,并可用来降低数字语 音信号的位速率。对于降低数字编码原始语音所需的位数同时力图保持重 构语音质量的语音编解码器,已经研发了许多算法。如在标题为 “Code-Excited Linear Prediction:High-Quality Speech at Very Low Rates,”M.R.Schroeder和B.S.Atal,Proc.ICASSP-85,P937-940的文章中 讨论的代码-激励线性预测(CELP)编码技术,提供了一种有效的语音编码 算法。基于可变速率CELP的语音编码器的一个例子是TIA(远程通信业协 会)IS-127标准,这是为CDMA(码分多址)应用设计的。CELP编码技术采 用几种预测技术从语音信号中去除冗余。CELP编码方法向采样(称作 帧)存储采样的输入语音信号。然后处理数据帧以便生成数字形式的压缩 的语音信号。其它实施例可包括子帧处理以及,或者帧处理。
图1描绘了CELP语音编码中使用的波形。输入的语音信号2具有某 些可预测性或周期性4的度量。CELP编码方法使用两种类型的预测器, 即短期预测器和长期预测器。通常在应用长期预测器之前应用短期预测器。 从短期预测器推导出的预测误差被称为短期残留,而从长期预测器推导出 的预测误差被称为长期残留。使用CELP编码,第一预测误差被称为短 期或LPC残留6。第二预测误差称为音调残留8。
可使用包括多个固定码本项或向量的固定码本对长期残留编码。可选 择一项并乘以固定码本增益来表示长期残留。也可从自适应码本计算滞后 和增益,并用来对语音编码和解码。短期预测器也称为LPC(线性预测编码) 或谱包络表示,并且一般包括10个预测参数。每一滞后参数也可称为音调 滞后,并且每一长期预测器增益参数也可称为自适应码本增益。滞后参数 定义了自适应码本中的一项或向量。
CELP编码器进行LPC分析以确定短期预测器参数。在LPC分析之 后,可确定长期预测参数。此外,发生的是最佳表示长期残留的固定码本 项和固定码本增益的确定。在CELP编码中采用通过综合的分析(ABS), 即反馈。在ABS方法中,来自固定码本、固定码本增益和长期预测器的贡 献,可通过使用反向预测滤波器的合成及施加感知加权度量找出。然后可 对短期(LPC)预测系数、固定码本增益、以及滞后参数和长期增益参数进 行量化。可从编码器向解码器发送量化指标以及固定码本指标。
CELP解码器使用固定码本指标从固定码本抽取向量。向量可乘以固 定码本增益,以便生成固定码本贡献。长期预测器贡献可添加到固定码本 贡献,以生成被称为激励的合成的激励。长期预测器的贡献包括乘以长期 预测器增益的来自过去的激励。另外长期预测器贡献的添加也可看作自适 应码本贡献,或长期(音调)滤波。短期激励可通过使用由编码器量化的短 期(LPC)预测系数的短期反向预测滤波器(LPC),以便产生合成语音。然后 合成语音通过降低感知编码噪声的后置滤波器。
图2是可使用自适应和固定码本的语音压缩系统10的一个实施例的框 图。具体来说,该系统可采用包括多个子码本的固定码本,用于按照由外 部信号所设置的方式及语音的特性以不同位速率进行编码。语音压缩系统 10包括如图所示可被连接的编码系统12、通信介质14及解码系统16。语 音压缩系统10可以是任何能够接收和编码语音信号18并然后将其解码以 生成后处理的合成语音20的编码装置。
语音压缩系统10操作接收语音信号18。由发送器(未示出)发送的语音 信号18例如可以通过话筒俘获并通过模拟到数字转换器(未示出)数字化。 发送器可以是人嗓、乐器或任何其它能够发出模拟信号的装置。
编码系统12操作以便对语音信号18编码。编码系统12把语音信号 18分段为帧以便产生位流。语音压缩系统10的一实施例使用包括160个 采样的帧,这以8000Hz的采样速率对应于每帧20毫秒。由位流表示的帧 可提供给通信介质14。
通信介质14可以是任何传输机制,诸如通信信道、无线电波、有线传 输、光纤传输、或任何能够携带由编码系统12产生的位流的介质。通信介 质14也可以是存储机制,诸如存储器装置,存储介质或其它能够存储和检 索由编码系统12产生的位流的装置。通信介质14操作以便向解码系统16 产生由编码系统12传输的位流。
解码系统16从通信介质14接收位流。解码系统16操作以便对位流解 码并产生数字信号形式的后处理合成语音20。然后由数字到模拟转换器(未 示出)将后处理的合成语音20转换为模拟信号。数字到模拟转换器的模拟 输出可由一接收器(未示出)接收,接收器可以是人耳,磁带录音机,或任 何其它能够接收模拟信号的装置。另外,后处理合成语音20可由数字记录 装置、语音识别装置、或任何其它能够接收数字信号的装置接收。
语音压缩系统10的一个实施例还包括模式线21。模式线21携带指示 位流所希望的平均位速率的模式信号。模式信号可由一控制通信介质的系 统,例如无线远程通信系统,在外部产生。编码系统12可确定多个编解码 器中哪个在编码系统12内是激活的,或如何响应模式信号操作编解码器。
编解码器包括分别位于编码系统12和解码系统16内的编码器部分和 解码器部分。在语音压缩系统10的一个实施例中有四个编解码器,即:全 速率编解码器22、半速率编解码器24、四分之一速率编解码器26、及八 分之一速率编解码器28。每一编解码器22、24、26和28可操作以便产生 位流。由每一编解码器22、24、26和28产生的位流的大小是不同的,因 而通过通信介质14对其进行传输所需的带宽是不同的。
在一个实施例中,全速率编解码器22、半速率编解码器24、四分之一 速率编解码器26、及八分之一速率编解码器28每帧分别产生170位、80 位、40位和16位。每一帧的位流大小对应于位速率,即对于全速率编解 码器22是8.5Kbps,对于半速率编解码器24是4.0Kbps,对于四分之一速 率编解码器26是2.0Kbps,以及对于八分之一速率编解码器28是0.8Kbps。 然而在另外的实施例中,可以有或更多或更少的编解码器以及其它的位速 率。通过以各种编解码器处理语音信号18的帧,实现平均位速率或位流。
编码系统12基于帧的特性,并基于由模式信号所提供的所需的平均位 速率,确定编解码器22、24、26和28哪一个可用来对特定的帧编码。帧 特性是基于包含在特定帧中的语音信号18的部分的。例如,帧可被刻画为 驻定浊音、非驻定浊音、浊音、非浊音,启动,背景噪声,寂静等。
一个实施例中的模式信号线21上的模式信号识别模式0,模式1,和 模式2。三个模式每一个提供不同的所需的平均位速率,用于改变每一编 解码器22、24、26和28的使用百分率。模式0可称为高级模式,其中大 多数帧可使用全速率编解码器22编码;较少的帧可使用半速率编解码器 24编码;包括寂静和背景噪声的帧可使用四分之一速率编解码器26和八 分之一速率编解码器28编码。模式1可称为标准模式,其中带有诸如启动 和某些浊音帧的高级信息内容的帧可使用全速率编解码器22编码。此外, 其它的浊音和非浊音帧可使用半速率编解码器24编码,某些非浊音帧可使 用四分之一速率编解码器26编码,以及寂静和驻定的背景噪声帧可使用八 分之一编解码器28编码。
模式2可称为经济型模式,其中只有少量高级信息内容的帧可使用全 速率编解码器22编码。除去某些可使用四分之一速率编解码器26编码的 非浊音帧之外,模式2中大部分帧可使用半速率编解码器24编码。在模式 2中寂静和驻定背景噪声帧可使用八分之一速率编解码器2编码。因而, 通过改变选择编解码器22、24、26和28,语音压缩系统10可以按所需的 平均位速率提供重构语音,同时力图保持最高可能的质量。附加的模式, 诸如模式3操作在超经济模式或半速率最大模式,其中被激活的最大值编 解码器是半速率编解码器24,这在另外的实施例中是可能的。
语音压缩系统10的进一步的控制也可由半速率信号线30提供。半速 率信号线30提供半速率传信标志。半速率传信标志可通过外部源诸如无线 远程通信系统提供。当被激活时,半速率传信标志指引语音压缩系统10 使用半速率编解码器24作为最大速率。在另一实施例中,半速率传信标志 指引语音压缩系统10使用一个编解码器22、24、26或28代替另一个,或 标识不同的编解码器22、26、28作为最大或最小速率。
在语音压缩系统10的一个实施例中,全和半速率编解码器22和24 可基于eX-CELP(扩展的CELP)方法,以及四分之一速率和八分之一速率 编解码器26和28可基于感知匹配方法。eX-CELP方法扩展了感知匹配与 传统的CELP波形匹配之间的传统的平衡。特别地,eX-CELP方法使用速 率选择及稍后将要说明的类型划分对帧进行分类。在不同的帧类别内,可 采用不同的编码方法,它们具有不同感知匹配、不同波形匹配、和不同位 分配。四分之一速率编解码器26和八分之一速率编解码器28的感知匹配 方法不使用波形匹配,而是在对帧编码时集中于感知方面。
基于包含在特定的帧中语音信号部分,由语音信号每一帧的特性来确 定速率选择。例如,帧可以由数个途径刻画,诸如驻定浊音语音,非驻定 浊音语音,非浊音,背景噪声,寂静等。此外,速率选择受到语音压缩系 统正在使用的模式的影响。编解码器被设计为在语音信号不同的特性内优 化编码。优化的编码平衡了希望提供最高感知质量的合成语音,同时保持 所需的平均位流速率。这允许最大使用可用带宽。在操作期间,语音压缩 系统基于每一帧的模式以及特性有选择地激活编解码器,以便优化语音的 感知质量。
可基于把帧划分为多个子帧,使用eX-CELP方法或感知匹配方法对 每一帧编码。对于每一编解码器22、24、26和28,子帧的大小和数量可 以不同,并可在一个编解码器内变化。在子帧内,对语音参数和波形可使 用几种预测和非预测标量和向量量化技术编码。在标量量化中,语音参数 或元素可由标量的代表性表中最接近的项的指标位置表示。在向量量化中, 几种语音参数可被分组以形成向量。向量可通过向量的代表性表中最接近 的项的指标位置表示。
在预测编码中,可从过去预测元素。元素可以是标量或向量。然后, 可使用标量表(标量量化)或向量表(向量量化)对预测误差量化。类似于传统 的CELP,eX-CELP编码方法使用通过合成分析的(ABS)方案选择对于一 些参数来说是最好的表示。特别地,参数可包含在自适应码本或固定码本 内,或包含在这两者内,并可进而对两者包括增益。ABS方案使用反向预 测滤波器和感知加权度量来选择最好的码本项。
图3是图2中所示的编码系统12更详细的框图。编码系统12的一个 实施例包括如图所示连接的预处理模块34、全速率编码器36、半速率编码 器38、四分之一速率编码器40及八分之一速率编码器42。速率编码器36、 38、40和42包括初始帧处理模块44和激励处理模块54。
由编码系统12接收的语音信号18由预处理模块34在帧等级上处理。 预处理模块34可操作以提供语音信号18的初始处理。初始处理可包括滤 波、信号增强、噪声去除、放大和其它类似的能够为后继编码优化语音信 号18的技术。
全、半、四分之一及八分之一速率编码器36、38、40和42分别是全、 半、四分之一及八分之一速率编解码器22、24、26和28的编码部分。初 始帧处理模块44进行初始帧处理、语音参数提取、并确定由哪一个速率编 码器36、38、40和42对具体的帧编码。初始帧处理模块44可以是如图所 示被子划分为多个初始帧处理模块,即初始全帧处理模块46,初始半帧处 理模块48,初始四分之一帧处理模块50和初始八分之一帧处理模块52。 初始帧处理模块44进行共同的处理,以确定激活速率编码器36、38、40 和42之一的速率选择。
在一个实施例中,速率选择基于语音信号18的帧特性和语音压缩系统 10的模式。速率编码器36、38、40和42之一的激活对应地激活初始帧处 理模块46、48、50和52之一。特定的初始帧处理模块46、48、50或52 被激活,以便对语音信号18对整个帧共同的方面编码。通过初始帧处理模 块44的编码把包含在帧中的语音信号18的参数量化。量化的参数将产生 位流的一部分。该模块还可进行初始分类,按以下所讨论的指出帧是类型 0还是类型1。类型分类和速率选择可用来通过对应于全和半速率编码器 36、38的激励处理模块54的部分优化编码。
激励处理模块54的一个实施例可被子划分为全速率模块56、半速率 模块58、四分之一速率模块60及八分之一速率模块62。模块56、58、60 和62对应于编码器36、38、40和42。一个实施例的全和半速率模块56 和58都包含多个帧处理模块,及多个子帧处理模块,如以下将讨论的它们 提供本质上不同的编码。
对于全速率和半速率编码器36和38的激励处理模块54部分包括类型 选择器模块、第一子帧处理模块、第二子帧处理模块、第一帧处理模块和 第二帧处理模块。更具体来说,全速率模块56包括F类型选择器模块68、 F0子帧处理模块70、F1第一帧处理模块72、F1第二帧处理模块74和F1 第二帧处理模块76。术语“F”指示全速率,“H”指示半速率,以及“0” 和“1”分别表示类型0和类型1。类似地,半速率模块58包括H类型选 择器模块78、H0子帧处理模块80、H1第一帧处理模块82、H1子帧处理 模块84和H1第二帧处理模块86。
F和H类型选择器模块68和78指引语音信号18的处理,以便基于 类型分类进一步优化编码过程。分类为类型1指示帧包含非快速变化的谐 波结构和共振峰结构,诸如驻定浊音语音。所有其它的帧可被分类为类型 0,例如快速变化的谐波结构和共振峰结构,或帧呈现驻定非浊音或噪声状 特性。对于分类为类型0的帧的位分配后来可被调节,以便更好地表示和 说明这一行为。
在全速率模块56中类型0分类激活F0第一子帧处理模块70,以便基 于子帧处理帧。当被处理的帧被分类为类型1时,F1第一帧处理模块72, F1子帧处理模块74,和F1第二帧处理模块76组合产生位流部分。类型1 分类涉及全速率模块56内子帧和帧处理两者。
类似地,对于半速率模块58,当被处理的帧被分类为类型0时,H0 子帧处理模块80基于子帧产生部分位流。进而当被处理的帧被分类为类型 1时,H1第一帧处理模块82,H1子帧处理模块84,和H1第二帧处理模 块86组合产生部分位流。如同在全速率模块56中那样,类型1分类涉及 子帧和帧处理两者。
四分之一和八分之一速率模块60和62分别是四分之一和八分之一速 率编码器40和42的一部分,且不包含类型分类。不包含类型分类是由于 被处理的帧的性质。当被激活时四分之一和八分之一速率模块60和62分 别基于子帧和帧产生部分位流。
速率模块56、58、60和62产生部分位流,该部分位流与由初始帧处 理模块46、48、50和52产生的各部分位流组合,以便生成帧的数字表示。 例如,由初始全速率帧处理模块46和全速率模块56产生的部分位流可被 组合,而形成当全速率编码器36被激活对帧编码时所产生的位流。来自每 一个编码器36、38、40和42的位流可进而组合以形成表示语音信号18 的多个帧的位流。由编码器36、38、40和42产生的位流通过解码系统16 解码。
图4是图2所示的解码系统16展开的框图。解码系统16的一实施例 包括全速率解码器90、半速率解码器92、四分之一速率解码器94、及八 分之一速率解码器96、合成滤波器模块98及后处理模块100。全、半、四 分之一及八分之一速率解码器90、92、94和96、合成滤波器模块98及后 处理模块100是全、半、四分之一、及八分之一速率编解码器22、24、26 和28的解码部分。
解码器90、92、94和96接收位流,并对数字信号解码以便重构语音 信号18不同的参数。解码器90、92、94和96可被激活以便基于速率的选 择对每一帧解码。通过单独的信息传输机制,诸如无线远程通信系统中的 控制信道,可将速率选择从编码系统12提供给解码系统16。另外,速率 选择包含在被编码的语音传输内(由于每一帧被分开编码),或从一外部源 传送。
合成滤波器98和后处理模块100是用于每一解码器90、92、94和96 解码过程的一部分。使用合成滤波器98组合由解码器90、92、94和96 解码的语音信号18的参数,产生非滤波的合成语音。非滤波的合成语音通 过后处理模块100而生成后处理的合成语音20。
全速率解码器90的一实施例包括F类型选择器102和多个激励重构 模块。激励重构模块包括F0激励重构模块104和F1激励重构模块106。 此外,全速率解码器90包括线性预测系数(LPC)重构模块107。LPC重构 模块107包括F0 LPC重构模块108和F1 LPC重构模块110。
类似地,半速率解码器92的一实施例包括H类型选择器112和多个 激励重构模块。激励重构模块包括H0激励重构模块114和H1激励重构模 块116。此外,半速率解码器92包括作为H LPC重构模块118的线性预 测系数(LPC)重构模块。虽然在概念上类似,但全和半速率解码器90和92 设计为分别对来自对应的全和半速率编码器36和38的位流解码。
F和H类型选择器102和112按照类型分类有选择地激活全和半速率 解码器90和92各部分。当类型分类为类型0时,F0或H0激励重构模块 104或114被激活。反之,当类型分类为类型1时,F1或H1激励重构模 块106或116被激活。F0或F1 LPC重构模块108或110分别由类型0和 类型1类型分类激活。H LPC重构模块118只基于速率选择被激活。
四分之一速率解码器94包括激励重构模块120和LPC重构模块122。 类似地,八分之一速率解码器96包括激励重构模块124和LPC重构模块 126。各激励重构模块120或124及各LPC重构模块122或126都只基于 速率选择被激活,但可提供其它激活输入。
每一激励重构模块可操作地在被激活时在短期激励线128上提供短期 激励。类似地,每一LPC重构模块可操作地在短期预测系数线130上产生 短期预测系数。将短期激励和短期预测系数提供给合成滤波器98。此外, 在一实施例中,将短期预测系数提供给如图3所示的后处理模块100。
后处理模块100可包含滤波、信号增强、噪声修改、放大、倾斜校正 和其它能够增加合成语音感知质量的类似的技术。降低可听噪声可通过增 强合成语音的共振峰结构,或通过只抑制感知上对合成语音无关的频率范 围中的噪声来实现。由于可听噪声在较低位速率变得更明显,后处理模块 100的一实施例可被激活,以便按速率选择不同地提供合成语音的后处理。 后处理模块100的另一实施例可操作地基于速率选择对解码器90、92、94 和96不同的组提供不同的后处理。
在操作期间,图3所示的初始帧处理模块44分析语音信号18以便确 定速率选择,并激活编解码器22、24、26和28之一。例如如果全速率编 解码器22被激活以便基于速率选择处理帧,初始全速率帧处理模块46对 于帧确定类型分类,并产生部分位流。全速率模块56基于类型分类,对于 帧产生位流的其余部分。
位流可由全速率解码器90基于速率选择接收并解码。全速率解码器 90使用在编码期间确定的类型分类对位流解码。合成滤波器98和后处理 模块100使用从位流解码的参数产生后处理的合成语音20。由每一编解码 器22、24、26或28产生的位流包含明显不同的位分配以强调帧内语音信 号18不同的参数和/或特征。
固定码本结构
在一实施例中固定码本结构允许对语音的编码和解码有平滑的功能。 正如业内所熟知及上述的说明,编解码器还包括有助于尽量减少短期和长 期残留的自适应和固定码本。根据本发明已经发现一定的码本结构是当编 码和解码时所需要的。这些结构主要涉及固定码本结构,并特别是包含多 个子码本的固定码本。在一实施例中,搜索多个固定子码本以求得最好的 子码本,并然后在选择的子码本内求得码向量。
图5是一实施例中描绘固定码本和子码本结构的框图。对于F0编解 码器的固定码本包括三个(不同的)子码本161、163、165,它们每一个有5 个脉冲。对于F1编解码器的固定码本是单个的8-脉冲子码本162。对于半 速率编解码器,固定码本178包括用于H0的三个子码本、2-脉冲的子码 本192、3-脉冲的子码本194以及带有高斯噪声的第三码本196。在H1编 解码器中,固定码本包括2-脉冲子码本193、3-脉冲的子码本195及5-脉 冲的子码本197。在另一实施例中,H1编解码器只包括2-脉冲的子码本 193和3-脉冲的子码本195。
在选择固定子码本和码向量中的加权因子
低位速率编码使用感知加权的重要概念以确定语音编码。这里我们引 入一种专用的加权因子,它不同于先前在闭环分析中对于感知加权滤波器 所描述的因子。这一专用加权因子是通过采用语音一定的特征产生的,并 在以多个子码本为特色的码本中偏好一特定子码本时作为基准值应用。对 于某些特定的语音信号,诸如噪声状非浊音语音,一个子码本可能比其它 子码本更被看重。用来计算加权因子的特征包括但不限于噪声对信号比 (NSR)、语音的锐度、音调滞后、音调相关性以及其它特征。在定义语音 特征时用于每一语音帧的分类系统也是重要的。
NSR是传统的失真准则,它可作为帧的背景噪声能量的估计与帧能量 之间的比值计算。NSR计算的一实施例通过使用修改的话音活动判断保证 只有真实的背景噪声纳入该比值。此外,也可使用先前计算的参数,例如 它们表示由反射系数表达的频普、音调相关性Rp、NSR、帧能量、先前的 帧能量、残留锐度及加权语音锐度。锐度定义为语音采样的绝对值的平均 与语音采样的绝对值最大值的比值。此外,在固定码本搜索之前,从帧类 决策和其它语音参数获得一种加细的子帧搜索分类决策。
音调相关性
用于时间扭曲的目标信号的一实施例是从由s`w(n)表示的修改的加权 语音及由Lp(n)表示的音调轨迹348推导的当前段的一种合成。根据音调轨 迹348Lp(n),目标信号s`w(n),n=0,...,Ns-1的每一采样值可通过使用21 阶汉明加权Sinc窗口修改的加权语音的内插获得, s w ' ( n ) = Σ l = - 10 10 w s ( f ( L p ( n ) ) , i ) · s w ' ( n - I ( L p ( n ) ) + i ) , (方程式1) for n = 0 , . . . , N s - 1 其中I(Lp(n))和f(Lp(n))分别是音调滞后的整数和分数部分;ws(f,i)是 汉明加权Sinc窗口,且Ns是段的长度。加权目标Sw wt(n)是由 S w wt ( n ) = W e ( n ) . s`w(n)给出的。加权函数we(n)可以是两-件线性函数,它强调音调的复合并 弱化音调复合之间的“噪声”。加权根据分类对于较高周期性段通过增加 对音调复合的强调而适配。
信号扭曲
对于段修改的加权语音可根据由以下给出的映射重构 (方程式2) 以及 (方程式3) 其中τc是定义扭曲函数的参数。一般来说,τc规定音调复合的开始。由方 程式2给出的映射规定了时间扭曲,而由方程式3给出的映射规定了时间 偏移(非扭曲)。两者都可使用汉明加权Sinc窗口函数进行。
音调增益和音调相关性估计
音调增益和音调相关性可基于音调周期估计,并分别由方程式2和3 定义。估计音调增益是为了尽量降低由方程式1定义的目标st w(n)与由方程 式2和3定义的最终修改的信号s`w(n)之间的均方误差,并可由以下给出 g a = Σ n = 0 N s - 1 s w ( n ) · s w t ( n ) Σ n = 0 N s - 1 s w t ( n ) 2 . (方程式4) 音调增益作为非量化的音调增益提供给激励处理模块54。音调相关性可由 以下给出 R a = Σ n = 0 N s - 1 s w ' ( n ) · s w t ( n ) ( Σ n = 0 N s - 1 s w ' ( n ) 2 ) · ( Σ n = 0 N s - 1 s w t ( n ) 2 ) . (方程式5) 两个参数都是基于音调周期可得的并可被线性内插。
对于类型0帧的固定码本编码
图6包括F0和H0子帧处理模块70和80,包含自适应码本部分362、 固定码本部分364及增益量化部分366。自适应码本部分368接收在计算 自适应码本区域中有用的音调轨迹348,以便搜索自适应码本向量va382(滞 后)。自适应码本还进行搜索以便对每一子帧确定并存储最好的滞后向量 va。自适应增益ga384也是在语音系统的这部分中计算。这里的讨论将集 中在固定码本部分,特别是其中包含的固定子码本。图6描绘了固定码本 部分364,包括固定码本390、乘法器392、合成滤波器394、感知加权滤 波器396、减法器398及最小化模块400。对于由固定码本部分364提供的 固定码本的搜索类似于在自适应码本部分362内的搜索。增益量化部分366 可包括2D VQ增益码本412、第一乘法器414及第二乘法器416、加法器 418、合成滤波器420、感知加权滤波器422、减法器424及最小化模块426。 增益量化部分使用在固定码本部分产生的第二重新合成语音406,并且还 产生第三重新合成语音438。
从固定码本390提供表示子帧的长期残留的固定码本向量(vc)402。乘 法器392使固定码本向量(vc)402乘以增益(gc)404。增益(gc)404是非量化的 并且是可如稍后所述计算的固定码本增益的初始值表示。将产生的信号提 供给合成滤波器394。合成滤波器394接收量化的LPC系数Aq(z)342,并 与感知加权滤波器396一同生成重新合成的语音信号406。减法器398从 长期误差信号388中减去重新合成的语音信号406,以产生固定码本误差 信号408。
最小化模块400接收表示由固定码本390量化长期残留中的误差的固 定码本误差信号408。最小化模块400使用固定码本误差信号408,并特别 是被称为加权均方误差(WMSE)的固定码本误差信号408的能量,控制从 固定码本292中选择用于固定码本向量(vc)402的向量,以便降低误差。最 小化模块400还接收可能包括每一帧的最终特性的控制信息356。
包含在控制信息356中最终特性类别控制最小化模块400如何从固定 码本390中选择用于固定码本向量(vc)402的向量。该过程重复,直到由第 二最小化模块400进行的搜索已经对于每一子帧从固定码本390选择固定 码本向量(vc)402的最佳向量。固定码本向量(vc)402的最佳向量使第二重新 合成的语音信号406中的误差对于长期误差信号388最小化。该指标标识 了固定码本向量(vc)402的最佳向量,并如先前的讨论,可用来形成固定码 本组件146a和178a。
全速率编解码器的类型0的固定码本搜索
类型0分类的帧的固定码本组件146a可使用三个不同的5-脉冲子码本 160表示全速率编解码器22的四个子帧的每一个。当搜索启动时,可使用 由以下表示的误差信号388确定在固定码本390中固定码本向量(vc)402的 向量: t ' ( n ) = t ( n ) - g a · ( e ( n - L p opt ) * h ( n ) ) . (方程式6) 其中t`(n)是固定码本搜索的目标,t(n)是初始目标信号,ga是自适应码本 增益,e(n)是过去激励以产生自适应码本贡献,Lp opt是优化的滞后,并 且h(n)是感知加权LPC合成滤波器的脉冲响应。
在搜索期间音调加强可在前向或后向施加到固定码本390内的5-脉冲 子码本161、163、165。搜索是从固定码本求得最佳向量的迭代的、受控 的复杂性搜索。对于由增益(gc)404表示的固定码本增益的初始值可通过该 搜索同时找到。
图7和8示出用来在固定码本中搜索最佳指标的过程。在一实施例中, 固定码本有k个子码本。在其它实施例可以使用更多或更少的子码本。为 了简化迭代搜索过程的说明,以下的例子首先表征包含N个脉冲的信号子 码本。脉冲可能的位置由轨迹上多个位置定义。在第一搜索回合中,编码 器处理电路从第一脉冲633(PN=1)到下一个脉冲635顺序搜索脉冲位置,直 到最后的脉冲637(PN=N)。第一次之后对于每一脉冲,当前脉冲位置的搜 索通过考虑来自先前定位的脉冲的影响进行。影响是希望尽量减小固定子 码本误差信号408的能量。在第二搜索回合中,编码器处理电路考虑所有 其它脉冲的影响,再次是从第一脉冲639到最后脉冲641相继校正每一脉 冲位置。在后继的回合中,重复第二或后继搜索回合的功能,直到达到最 后回合643。如果允许增加复杂性可采用进一步的回合。遵循这一过程直 到k个回合完成645并对子码本计算出值。
图8是图7所描述的方法的流程图,用于搜索包括多个子码本的固定 码本。第一回合由搜索第一子码本653开始651,并以图7所描述的相同 的方式搜索其它子码本655,并保持最佳结果657,直到搜索到最后的子码 本659。如果需要,也可以迭代方式使用第二回合661或后继回合663。在 某些实施例中,为了最小化复杂性和缩短搜索,在结束第一搜索回合之后 一般选择固定码本中的子码本之一。进一步的搜索回合只就选择的子码本 进行。在另外的实施例中,只是在第二搜索回合之后或在此之后可选择子 码本之一,如果这样作处理资源允许。希望有最小复杂性的计算,特别是 因为在添加如这里所述的增强之前,计算多达两次或三次脉冲,而不是一 个脉冲。
在一个示例性实施例中,对固定码本向量(vc)402搜索最佳向量是在三 个5-脉冲码本160的每一个中完成的。在三个5-脉冲码本160每一个内的 搜索过程结束时,标识固定码本向量(vc)402的最佳候选向量。从将被使用 的哪一个5-脉冲码本160选择哪一个候选最佳向量可被确定,它将使对应 的的固定码本误差信号408对三个最佳向量的每一个最小化。为这一决策 之目的,三个候选子码本的每一个的对应的固定码本误差信号408将被称 为第一、第二和第三固定子码本误差信号。
来自第一、第二和第三固定码本误差信号的加权均方误差(WMSE)的 最小化,在数学上与基准值最大化等价,该基准值可通过乘以加权因子首 先被修改,以便最佳选择一个特别的子码本。在用于分类为类型0的帧的 全速率编解码器22中,来自第一、第二和第三固定码本误差信号的基准值 可通过基于子码本的加权度量被加权。可使用残留信号的锐度度量、话音 活动决策模块、噪声对信号比值(NSR)以及规一化的音调相关性估计该加 权因子。其它实施例可使用其它的加权因子度量。基于加权并且基于最大 基准值,可选择三个5-脉冲固定码本160之一,及该子码本中的最佳候选 向量。
然后所选的5-脉冲码本161、163、165可被细搜索对于固定码本向量 (vc)402的最终决策最佳向量。使用所选择的最佳候选向量作为初始启动向 量,在选择的5-脉冲码本160中对向量进行细搜索。标识来自固定码本向 量的最佳向量(最大基准值)的指标在位流中传输给解码器。
在一实施例中,对于4-子帧全速率编码器的固定码本激励由每子帧22 位表示。这些位可表示几种可能的脉冲分布、符号及位置。半速率2-子帧 编码器的固定码本激励,由每帧15位表示,也是表示为脉冲分布、符号、 位置、以及可能的随机激励。这样,对于全速率编码器中的固定激励使用 88位,并对于半速率编码器中的固定激励使用30位。在一实施例中,如 图5中所示的不同子码本的数目包括固定码本。使用搜索例行程序,并只 对进一步的处理从一子码本选择最佳匹配向量。
对于类型0(F0)的帧对全速率编解码器的四个子帧的每一个,以22位 表示固定码本激励。如图5所示,对于类型0的固定码本,全速率码本160 具有三个子码本。第一码本161有5个脉冲和221项。第二码本163也有5 个脉冲和220项,而第三固定子码本165使用5个脉冲并有220项。脉冲位 置的分布在每一子码本中是不同的。一位用来在第一码本或第二或第三码 本之间进行区分,另一位用来在第二和第三码本之间进行区分。
F0编解码器的第一子码本具有21位结构(连同用来区分哪一子码本的 第22位),其中5-脉冲码本对三个轨迹的每一个轨迹使用4位(16个位置), 且对于2轨迹的每一个轨迹使用3位,于是21位表示脉冲的位置(三位用 于符号、3个轨迹×4位+2轨迹×3位=18位)。一个5-脉冲的例子,对于 每一子帧21位固定子码本编码方法如下: 脉冲1:{0,5,10,15,20,25,30,35,2,7,12,17,22,27,32,37} 脉冲2:{1,6,11,16,21,26,31,36,3,8,13,18,23,28,33,38} 脉冲3:{4,9,14,19,24,29,34,39} 脉冲4:{1,6,11,16,21,26,31,36,3,8,13,18,23,28,33,38} 脉冲5:{4,9,14,19,24,29,34,39}, 其中数字表示子帧中的位置。
注意两个轨迹是带有8个非零位置的“3-位”,而其它三个是带有16 个位置的“4-位”。注意第二脉冲的轨迹与第四脉冲的轨迹相同,而第三 脉冲的轨迹与第五脉冲的轨迹相同。然而,第二脉冲的位置不必与第四脉 冲的位置相同,且第三脉冲的位置不必与第五脉冲的位置相同。例如,第 二脉冲可在位置16,而第四脉冲可在位置28。由于对于脉冲1、脉冲2和 脉冲4有16个可能的位置,故每一个由4位表示。由于对于脉冲3和脉冲 5有8个可能的位置,故每一个由3位表示。一位用来表示脉冲1的符号; 1位用来表示脉冲2和脉冲4的组合符号;并且1位用来表示脉冲3和脉 冲5的组合符号。组合符号使用脉冲位置中的信息冗余。例如,在位置11 处放置脉冲2,并且在位置36处放置脉冲4,与在位置36处放置脉冲2 并且在位置11处放置脉冲4是相同的。这一冗余等价于1位,因而传输两 个不同的符号与用于脉冲2和脉冲4以及用于脉冲3和脉冲5的一位。这 一码本的整个位流包括1+1+1+4+4+3+4+3=21位。这一固定子码本结构示 于图10中。
一种用于第二5-脉冲子码本163的结构,该结构带有220个项,可表 示为五个轨迹的一矩阵。20位足够表示5-脉冲子码本,对每一位置需要三 位(每轨迹8个位置),5×3=15位,且5位用于符号。(如以上所指出,每 子帧总共22位,其它2位指示使用三个子码本中哪一个。)
脉冲1:{0,1,2,3,4,6,8,10}
脉冲2:{5,9,13,16,19,22,25,27}
脉冲3:{7,11,15,18,21,24,28,32}
脉冲4:{12,14,17,20,23,26,30,34}
脉冲5:{29,31,33,35,36,37,38,39} 其中数字表示子帧内的位置。由于每一轨迹有八个可能的位置,每一脉冲 的位置使用3位来传输。一位用来指示每一脉冲的符号。因而,这一码本 的整个位流由1+3+1+3+1+3+1+3+1+3=20位组成。这一结构示于图11。
在相同的20位环境中固定码本的第三个5-脉冲子码本165的结构为
脉冲1:{0,1,2,3,4,5,6,7}
脉冲2:{8,9,10,11,12,13,14,15}
脉冲3:{16,17,18,19,20,21,22,23}
脉冲4:{24,25,26,27,28,29,30,31}
脉冲5:{32,33,34,35,36,37,38,39} 其中数字表示子帧内的位置。由于每一轨迹有8个可能的位置,每一脉冲 的位置使用3位来传输。一位用来指示每一脉冲的符号。因而,这一码本 的整个位流由1+3+1+3+1+3+1+3+1+3=20位组成。这一结构示于图12。
在F0编解码器中,每一搜索回合产生来自每一子码本的候选向量, 及对应的的基准值,这是加权的均方误差的函数,结果来自使用所选择的 候选向量。注意,基准值为使得基准值的最大化从而加权均方误差(WMSE) 最小化。首先使用第一回合(然后添加脉冲)及第二回合(脉冲位置的另一加 细)搜索第一子码本。然后仅使用第一回合搜索第二子码本。如果来自第二 子码本的基准值大于来自第一子码本的基准值,则暂时选择第二子码本, 否则,暂时选择第一子码本。然后使用音调相关性、加细的子帧类别决策、 残留锐度及NSR,修改暂时选择的子码本基准值。使用第一回合随后是第 二回合搜索第三子码本。如果来自第三子码本的基准值大于暂时选择的子 码本的修改基准值,则选择第三子码本作为最终子码本,否则,暂时选择 的子码本(第一或第二子码本)是最终子码本。基准值的修改有助于选择第 三子码本(它更适用于噪声的表示),即使第三子码本的基准值稍微小于第 一或第二子码本的基准值。
如果将第一或第三子码本选择为最终子码本,则进而使用第三回合搜 索最终子码本,或者如果将第二子码本选择为最终子码本则使用第二回合, 以便选择最终子码本中最佳脉冲位置。
用于半速率编解码器的类型0固定码本
类型0的半速率编解码器的固定码本激励,使用15位用于半速率编解 码器帧的两个子帧的每一个。码本有三个子码本,其中两个是脉冲码本, 并且第三个是高斯码本。类型0帧使用3个码本用于两个子帧的每一个。 第一码本192有2个脉冲,第二码本194有3个脉冲,而第三码本196包 括随机激励,使用高斯分布(高斯码本)预先确定的。由增益(gc)404表示的 固定码本增益的初始目标可类似于全速率编解码器22来确定。此外,可类 似于全速率编解码器22对在固定码本390内搜索固定码本向量(vc)402加 权。在半速率编解码器24中,加权可施加于来自每一脉冲码本192、194 以及高斯码本196的最佳向量。施加加权以便从感知观点确定最适合的固 定码本向量(vc)402。
此外,在半速率编解码器中加权被加权的均方误差可进一步被增强以 便强调感知的观点。进一步的增强可通过在加权中包含附加的参数实现。 附加的因子可以是闭环音调滞后和规一化自适应码本相关性。其它的特性 可对语音的感知质量提供进一步的增强。
对于80个采样的每一子帧以15位编码所选择的码本、脉冲位置和用 于脉冲码本或高斯码本的高斯激励脉冲符号。位流中的第一位指示使用哪 一个码本。如果第一位设置为‘1’,则使用第一码本,并且如果第一位设置 为‘0’,则使用第二码本或第三码本。如果第一位设置为‘1’,所有其余14 位用来对第一码本描述脉冲位置和符号。如果第一位设置为‘0’,则第二位 指示是使用第二码本还是使用第三码本。如果第二位设置为‘1’,则使用第 二码本,并且如果第二位设置为‘0’,则使用第三码本。其余的13位用来 描述第二码本的脉冲位置和符号,或对于第三码本的高斯激励。
2-脉冲子码本的轨迹具有80个位置,并由以下给出: 脉冲1:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,
32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,
48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,
64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79 脉冲2:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,
32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,
48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,
64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
由于log2(80)=6.322…,小于6.5,两个脉冲的位置可被组合并使用 2×6.5=13位编码。第一个指标乘以80,第二个指标加到结果上。其结果是 小于213=8192的组合的指标数,并且能够由13位表示。在解码器处,第 一个指标是通过组合的指标数除以80取整获得的,第二个指标是通过组合 的指标数除以80的余数获得的。由于两个脉冲的轨迹重叠,故只用1位表 示两个符号。因而,对于这一码本的整个的位流包括1+13=14位。这一结 构示于图13。
对于3-脉冲子码本,每一脉冲的位置限制为特定的轨迹,它们通过三 脉冲组的一般的位置(由开始点定义)和三脉冲每一个对一般位置的各相对 位移的组合产生。一般的位置(称为“相位”)由4位定义,而每一脉冲的 相对位移由每脉冲2位定义。三个附加的位定义三个脉冲的符号。相位(放 置三个脉冲的开始点)和脉冲的相对位置由以下给出:
脉冲1:{0,4,8,12,16,20,24,28,33,38,43,48,53,58,63,68}
脉冲1:0,3,6,9
脉冲2:1,4,7,10
脉冲3:2,5,8,11
以下的例子示出相位如何与相对位置组合。对于相位指标7,相位是 28(第8位置,由于指标从0开始)。然后第一脉冲只能够在位置28、31、 34、或37,第二脉冲只能够在位置29、32、35或38,第三脉冲只能在位 置30、33、36或39。码本的整个位流包括1+2+1+2+1+2+4=13位,按脉 冲1相关符号和位置、脉冲2相关符号和位置、脉冲3相关符号和位置、 相位位置的顺序。这3-脉冲固定子码本结构示于图14。
在另一实施例中,带有3脉冲的第二子码本,类型0的帧每一脉冲的 位置限制在特定的轨迹。第一脉冲的位置以固定轨迹编码,而其余两个脉 冲的位置以相对于第一脉冲选择的位置动态轨迹编码。第一脉冲的固定轨 迹和其它两个轨迹的相对轨迹定义如下:
脉冲1:0,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75.
脉冲2:Pos1-7,Pos1-5,Pos1-3,Pos1-1,Pos1+1,Pos1+3,Pos1+5,Pos1+7.
脉冲3:Pos1-6,Pos1-4,Pos1-3,Pos1,Pos1+2,Pos1+4,Pos1+6,Pos1+8.
当然,动态轨迹必须限制在子码本范围。用于该第二子码本的总位数 是13位=4(脉冲1)+3(脉冲2)+3(脉冲3)+3(符号)。
最后使用基于两个正交基向量的快速搜索例行程序搜索高斯码本。来 自三个码本的加权均方误差(WMSE)在感知上对于码本的最后选择和码本 指标被加权。对于半速率编解码器,类型0,有两个子帧,并且15位用来 刻画每一子帧。高斯码本使用从高斯分布产生的预定随机数的一个表。该 表包含每向量中40个随机数的32个向量。使用两个向量子帧被填充80 个采样,第一个向量填充偶数位置,而第二向量填充奇数位置。每一向量 乘以由1位表示的符号。
从存储的32个向量中产生45个随机向量。前32个向量与存储的32 个向量相同。最后13个随机向量从表中13个首先存储的向量中产生,其 中每一向量循环向左位移。左循环位移是通过向向量中第一位置移动每一 向量中的第二随机数而实现的,第三随机数向第二位置位移等等。为了完 成左循环位移,第一随机数放置在向量的末端。由于log2(45)=5.492…小于 5.5,故两个随机向量的指标可被组合,并使用2×5.5=11位编码。第一指标 乘以45,并加到第二指标上。该结果是小于211=2048的组合指标,并能 够以11位表示。这样高斯码本可产生并使用比码本本身内包含的更多的向 量。
在解码器中,第一指标通过组合指标数除45以取整获得,且第二指标 通过组合指标数除以45的余数获得。两个向量的符号也按顺序被编码。因 而,对于这一码本的整个位流包括1+1+11=13位。该高斯固定子码本的结 构示于图15。
对于H0编解码器,首先使用第一回合(顺序加脉冲)和第二回合(脉冲 位置的另一加细)搜索第一子码本。然后使用音调滞后和音调相关性修改第 一子码本的基准值。然后以两个步骤搜索第二子码本。在第一步骤中,找 到代表可能的中心的位置。然后搜索并确定围绕该中心的三个脉冲位置。 如果来自第二子码本的基准值大于来自第一子码本修改的基准值,则暂时 选择第二子码本,并如果不是,则暂时选择第一子码本。进而使用加细的 子帧类别决策、音调相关性、残留锐度、音调滞后和NSR修改暂时选择的 子码本的基准值。然后搜索高斯子码本。如果来自高斯子码本搜索的基准 值大于暂时选择的子码本的修改的基准值,则选择高斯子码本作为最终子 码本。如果不是,则暂时选择的子码本(第一或第二)是最终子码本。基准 值的修改有助于选择高斯子码本(它更适合于表示噪声),即便高斯子码本 的基准值稍微小于第一子码本的修改的基准值或第二子码本的基准值。使 用在最终子码本中选择的向量,而没有进一步的加细搜索。
在另一实施例中,使用子码本既不是高斯也不是脉冲类型。这一子码 本可通过不同于高斯方法的普通方法构成,其中子码本内至少20%的位置 是非零位置。除了高斯方法之外可使用任何构成方法。
第一类型1帧的固定码本编码
现在参见图9,F1和H1第一帧处理模块72和82包括3D/4D开环VQ 模块454。F1和H1子帧处理模块74和84包含自适应码本368,固定码 本390、第一乘法器456、第二乘法器458、第一合成滤波器460及第二合 成滤波器462。此外,F1和H1子帧处理模块74和84包含第一感知加权 滤波器464、第二感知加权滤波器466、第一减法器468、第二减法器470、 第一最小化模块472和能量调节模块474。F1和H1第二帧处理模块76和 86包括第三乘法器476、第四乘法器478、加法器480、第三合成滤波器 482、第三感知加权滤波器484、第三减法器486、缓冲模块488、第二最 小化模块490和3D/4D VQ增益码本492。
在激励-处理模块54内被分类为类型1的帧的处理提供了基于帧以及 子帧两者的处理。为了简洁的目的,以下的讨论涉及全速率编解码器22 内的模块。除非具体指出,半速率编解码器24中的模块被认为功能类似。 通过F1第一帧处理模块72量化自适应码本增益产生自适应增益成分 148b。F1子帧处理模块74和F1第二帧处理模块76分别如前所述操作, 以确定固定码本向量和对应的固定码本增益。F1子帧处理模块74使用如 前面所讨论的轨迹表,产生如图6所示的固定码本成分146b。
F1第二帧处理模块76量化固定码本增益以产生固定增益成分150b。 在一实施例中,全速率编解码器22使用10位来量化4个固定码本增益, 而半速率编解码器24使用8位来量化3个固定码本增益。量化可以使用移 动平均预测进行。一般来说在进行预测和量化之前,预测状态被转换为适 当的维数。
在全速率编解码器中,通过使用以分贝(dB)为单位的多个固定码本能 量表示固定码本增益,而产生类型1的固定码本增益成分150b。固定码本 能量被量化而产生多个量化的固定码本能量,然后它们被转换而生成多个 量化的固定码本增益。此外,从先前的帧的量化的固定码本能量误差预测 固定码本能量,以产生多个预测的固定码本能量。预测的固定码本能量与 固定码本能量之间的差是多个预测的固定码本能量误差。不同的预测系数 用于每一子帧。第一、第二、第三和第四子帧的预测的固定码本能量,是 分别使用系数集{0.7,0.6,0.4,0.2},{0.4,0.2,0.1,0.05},{0.3,0.2,0.075, 0.025},及{0.2,0.075,0.025,0.0},从先前帧的4个量化的固定码本能量误 差中预测出的。
第一帧处理模块
3D/4D开环VQ模块454从音调预处理模块(未示出)接收非量化音调 增益352。非量化音调增益352表示对于开环音调滞后的自适应码本增益。 3D/4D开环VQ模块454量化非量化音调增益352以产生表示对每一子帧 最佳量化音调增益的量化的音调增益(gk a)496,其中k是子帧数。在一实施 例中,对于全速率编解码器22有四个子帧,并对于半速率编解码器24有 三个子帧,它们分别对应于每一子帧的四个量化增益(g1 a,g2 a,g3 a和g4 a)和 三个量化增益(g1 a,g2 a和g3 a)。在预增益量化表内量化的音调增益(gk a)496 的指标位置表示对于全速率编解码器22的自适应增益成分148b,及对于 半速率编解码器24的自适应增益成分180b。量化的音调增益(gk a)496提供 给F1第二子帧处理模块74或H1第二子帧处理模块84。
子帧处理模块
F1或H1子帧处理模块74或84使用音调轨迹348标识自适应码本向 量(vk a)498。自适应码本向量(vk a)498表示对每一子帧的自适应码本,其中 k是子帧数。在一实施例中,对全速率编解码器22有四个子帧,并对半速 率编解码器24有三个子帧,它们分别对应于用于自适应码本对每一子帧贡 献的四个向量(v1 a,v2 a,v3 a和v4 a)及三个向量(v1 a,v2 a和v3 a)。
自适应码本向量(vk a)498和量化的音调增益 496以第一乘法器456 相乘。第一乘法器456产生由第一重新合成滤波器460和第一感知加权滤 波器模块464处理的信号,以提供第一合成的语音信号500。作为处理的 一部分,第一重新合成滤波器460从LSF量化模块(未示出)接收量化的 LPC系数Aq(z)342。第一减法器468从由音调预处理模块(未示出)提供的 修改的加权语音350减去第一重新合成的语音信号500,以产生长期误差 信号502。
F1或H1子帧处理模块74或84还对固定码本贡献进行搜索,这类似 于先前讨论的由F0和H0子帧处理模块70和80所进行的搜索。表示子帧 长期误差的固定码本向量(vk c)的向量是在搜索期间从固定码本390中选择 的。第二乘法器458使固定码本向量(vk c)504乘以增益(gk c)506,其中k等 于子帧数。增益(gk c)506是非量化的,并表示每一子帧的固定码本增益。所 得的信号由第二合成滤波器462及第二感知加权滤波器466处理,以产生 第二重新合成语音信号508。第二减法器470从长期误差信号502中减去 第二重新合成语音信号508以产生固定码本误差信号510。
固定码本误差信号510与控制信息356一同由第一最小化模块472接 收。第一最小化模块472以先前讨论的图6中所示第二最小化模块400相 同的方式操作。搜索处理重复进行,直到第一最小化模块472已经对于每 一子帧从固定码本390中选择了用于固定码本向量(vk c)504的最佳向量。用 于固定码本向量(vk c)504的最佳向量使固定码本误差信号510的能量最小 化。如先前所讨论,该指标标识用于固定码本向量(vk c)504的最佳向量,并 形成固定码本成分146b和178b。
全速率编解码器的类型1固定码本搜索
在一实施例中,全速率编解码器22将图4中所示的8-脉冲的码本162 用于类型1的帧的四个子帧的每一个。固定码本向量(vk c)504的目标是长期 误差信号502。由t`(n)表示的长期误差信号502是基于由t(n)表示的修改 的加权语音350确定的,根据以下从初始帧处理模块44去除自适应目标贡 献: t′(n)=t(n)-ga·(va(n)*h(n)).              (方程式7) 其中 V a ( n ) = Σ i = - 10 10 w s ( f ( L p ( n ) ) , I ) · e ( n - I ( L p ( n ) ) + I )
以及其中t`(n)是固定码本搜索的目标,t(n)是目标信号,ga是自适应 码本增益,h(n)是感知加权合成滤波器的脉冲响应,e(n)是过去的激励, I(Lp(n))是音调滞后的整数部分,并且f(Lp(n))是音调滞后的分数部分,以 及ws(f,i)是汉明加权Sinc窗口。
带有230项的8脉冲单码本用于类型1的帧由全速率编解码器编码的四 个子帧的每一个。在这一例子中,有6个轨迹对于每一轨迹带有8个可能 的位置(每个3位),并且两个轨迹对于每个轨迹有16个可能的位置(每个4 位)。4位用于符号。对类型-1的全速率编解码器处理的每一子帧提供30 位。在40-采样子帧中每一脉冲能够被放置的位置限于轨迹。8脉冲的轨迹 由以下给出:
脉冲1:{0,5,10,15,20,25,30,35,2,7,12,17,22,27,32,37}
脉冲2:{1,6,11,16,21,26,31,36}
脉冲3:{3,8,13,18,23,28,33,38}
脉冲4:{4,9,14,19,24,29,34,39}
脉冲5:{0,5,10,15,20,25,30,35,2,7,12,17,22,27,32,37}
脉冲6:{1,6,11,16,21,26,31,36}
脉冲7:{3,8,13,18,23,28,33,38}
脉冲8:{4,9,14,19,24,29,34,39}
第1脉冲的轨迹与第5脉冲的轨迹相同,第2脉冲的轨迹与第6脉冲 的轨迹相同,第3脉冲的轨迹与第7脉冲的轨迹相同,第4脉冲的轨迹与 第8脉冲的轨迹相同。类似于对类型0帧第一子码本讨论,选择的脉冲位 置通常是不相同的。由于脉冲1和脉冲5有16个可能的位置,每一个以4 位表示。由于脉冲2到8有8个可能的位置,故每一个以3位表示。一位 用来表示脉冲1和脉冲5的组合符号(脉冲1和脉冲5有相同的绝对量值, 且它们的选择的位置能够被交换)。1位用来表示脉冲2和脉冲6的组合符 号,1位用来表示脉冲3和脉冲7的组合符号,1位用来表示脉冲4和脉 冲8的组合符号。组合符号使用脉冲位置中信息的冗余。因而,这一码本 整个的位流由1+1+1+1+4+3+3+3+4+3+3+3=30位组成。这一子码本结构示 于图16。
半速率编解码器的类型1固定码本搜索
在一实施例中,对半速率编解码器24分类为类型1的帧的三个子帧的 每一个,长期误差信号由13位表示。长期误差信号可按类似于全速率编解 码器22的固定码本搜索方式来确定。类似于对于类型0的帧的半速率编解 码器24的固定码本搜索,将高频噪声注入、通过先前子帧中的高相关性确 定的添加脉冲、及微弱短期谱滤波器引入到第二合成滤波器462的脉冲响 应中。此外,音调增强也可引入到第二合成滤波器462的脉冲响应中。
在半速率类型一编解码器中,自适应和固定码本增益成分180b和182b 也可类似于全速率编解码器22使用多维向量量化器产生。在一实施例中, 将三维预向量量化器(3D预VQ)和三维延迟向量量化器(3D延迟VQ)分别 用于自适应和固定增益成分180b和182b。在一实施例中对于分类为类型 1的帧的每一子帧,每一多维增益表包括3个元素。类似于全速率编解码 器,用于自适应增益成分180b的预向量量化器直接量化自适应增益,并且 类似地用于固定增益成分182b的延迟向量量化器量化固定码本能量预测 误差。使用不同的预测系数来对每一子帧预测固定码本能量。第一、第二 和第三子帧的预测的固定码本能量是分别使用系数集{0,6,0.3,0.1},{0.4, 0.25,0.1}和{0.3,0.15,0.075}从先前帧的3个量化的固定码本能量误差中预 测的。
在一实施例中,H1编解码器使用两个子码本,并在另一实施例中使用 三个子码本。前两个子码本在两个实施例中是相同的。对于半速率编解码 器类型1的帧的三个子帧每一个,固定码本激励以13位表示。第一码本有 2个脉冲、第二码本有3个脉冲、第三码本有5个脉冲。对每一子帧以13 位编码码本、脉冲位置和脉冲符号。前两个子帧的大小是53个采样,最后 子帧的大小是54个采样。位流中的第一位指示是使用第一码本(12位),还 是使用第二或第三子码本(每个11位)。如果第一位设置为‘1’,则使用第一 码本,如果第一位设置为‘0’,则使用第二码本或第三码本。如果第一位设 置为‘1’,所有其余12位用来对第一码本描述脉冲位置和符号。如果第一 位设置为‘0’,第二位指示是使用第二码本还是使用第三码本。如果第二位 设置为‘1’,使用第二码本,并如果第二位设置为‘0’,则使用第三码本。在 两种情形下,其余的11位都用来描述第二码本或第三码本的脉冲位置和符 号。如果没有第三子码本,则第二位总设置为“1”。
对于212项的2-脉冲子码本193(从图5),每一脉冲限制为一个轨迹, 其中5位规定轨迹中的位置,1位规定脉冲符号。对于2脉冲的轨迹由以 下给出
脉冲1:{0,1,2,3,4,5,6,7,8,9,10,12,14,16,18,20,22,24,26,28,30, 32,34,36,38,40,42,44,46,48,50,52}
脉冲2:{1,3,5,7,9,11,12,13,14,15,16,17,18,19,20,21,22,23,25, 27,29,31,33,35,37,39,41,43,45,47,51}
用于位置数是32,可使用5位对每一脉冲编码。两位对每一位定义符 号。因而,这一码本的整个位流由1+5+1+5=12位组成(脉冲1符号、脉冲 1位置、脉冲2符号、脉冲2位置)。这一结构示于图17。
对于第二子码本,212项的3-脉冲子码本195(从图5),对于类型1的帧 的3-脉冲码本中三个脉冲的每一个的位置限制为特定的轨迹。对于三个脉 冲的每一个脉冲和各相对位移的组合产生轨迹。相位由3位定义,每一脉 冲的相对位移由每脉冲2位定义。相位(用于放置3个脉冲的开始点)和脉 冲的相对位置由以下给出:
相位:0,5,11,17,23,29,35,41。
脉冲1:0,3,6,9
脉冲2:1,4,7,10
脉冲3:2,5,8,11
第一子码本被全搜索,随之是第二子码本全搜索。选择其结果是最大 基准值的子码本和向量。该第二码本的整个位流包括3(相位)+2(脉冲 1)+2(脉冲2)+2(脉冲3)+3(符号位)=12位,其中三个脉冲及它们的符号位 领先于4位的相位位置。图18示出这一子码本结构。
在另一实施例中,我们把以上第二码本再划分两个子码本。就是说, 第二子码本和第三子码本分别有211项。现在,对于带有3脉冲的第二子码 本,类型1的帧的每一脉冲的位置限制为特定的轨迹。第一脉冲的位置以 固定轨迹编码,且其余两个脉冲的位置以动态轨迹编码,它们与选择的第 一脉冲的位置相关。第一脉冲的固定轨迹和其它两个轨迹的相关轨迹定义 如下:
脉冲1:3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48.
脉冲2:Pos1-3,Pos1-1,Pos1+1,Pos1+3
脉冲3:Pos1-2,Pos1,Pos1+2,Pos1+4 当然,动态轨迹必须限制在子帧范围。
第三子码本包括5个脉冲,每一个被限制在一固定轨迹,且每一脉冲 具有唯一的符号。这5个脉冲的轨迹为:
脉冲1:0,15,30,45
脉冲2:0,5
脉冲3:10,20
脉冲4:25,35
脉冲5:40,50
该第三子码本的整个位流包括11位=2(脉冲1)+1(脉冲2)+1(脉冲3) +1(脉冲4)+1(脉冲5)+5(符号)。这一结构示于图19。
在一实施例中,如图5所示全搜索对2-脉冲子码本193、3-脉冲子码 本195及5-脉冲子码本197进行。在另一实施例中,也可使用先前描述的 快速搜索方法。选择脉冲码本和对于使固定码本误差510最小化的固定码 本向量(vk c)504的最佳向量,以便对每一子帧表示长期残留。此外,由增益 (gk c)506表示的初始固定码本增益可在类似于全速率编解码器22的搜索期 间确定。这些指标标识固定码本向量(vk c)504的最佳向量,并形成固定码本 成分178b。
解码系统
现在参见图20,一功能框图表示图3的全和半速率解码器90和92。 全和半速率解码器90和92包括激励重构模块104、106、114和116,及 线性预测系数(LPC)重构模块107和118。激励重构模块104、106、114和 116的一个实施例包括自适应码本368、固定码本390、2D VQ增益码本 412、3D/4D开环VQ码本454及3D/4D VQ增益码本492。激励重构模块 104、106、114和116还包括第一乘法器530、第二乘法器532和加法器 534。在一实施例中,LPC重构模块107和118包括LSF解码模块536和 LSF转换模块538。此外,半速率编解码器24包括预测开关模块336,并 且全速率编解码器22包括内插模块338。
解码器90、92、94和96接收如图4的位流,并且把信号解码以便重 构用于信号18的不同的参数。解码器按速率选择和分类函数对每一帧解 码。由无线远程通信系统控制信道中的外部信号将速率选择从编码系统提 供给解码系统16。
图20中还示出合成滤波器模块98和后处理模块100。在一实施例中, 后处理模块100包括短期滤波器模块540、长期滤波器模块542、倾斜补偿 滤波器模块544和自适应增益控制模块546。根据速率选择,位流可被解 码以产生后处理的合成语音20。解码器90和92进行位流成分向算法参数 的逆映射。逆映射可跟随与全和半速率编解码器22和24内合成相关的类 型分类。
四分之一速率编解码器26和八分之一速率编解码器28的解码类似于 全和半速率编解码器22和24。然而,四分之一和八分之一速率编解码器 26和28如前所述,使用类似的但是随机数和能量增益向量,而不是自适 应和固定码本368和390及相关增益。随机数和能量增益可用来重构表示 帧短期激励的激励能量。除了预测器开关模块336和内插模块338之外, LPC重构模块122和126也类似于全和半速率编解码器22和24。
在全和半速率解码器90和92内,激励重构模块104、106、114和116 的操作极大地依赖于由类型成分142和174提供的类型分类。自适应码本 368接收音调轨迹348。音调轨迹348通过解码系统16从位流中由编码系 统12提供的自适应码本成分144和176重构。取决于由类型成分142和 174提供的类型分类,自适应码本368向乘法器530提供量化的自适应码 本向量(vk a)550。乘法器530使量化的自适应码本向量(vk a)550乘以增益向 量(gk a)552。增益向量(gk a)552的选择也依靠由类型成分142和174提供的 类型分类。
在一示例性实施例中,如果帧被分类为全速率编解码器22中的类型0, 则2D VQ增益码本412向乘法器530提供自适应码本增益(gk a)552。自适 应码本增益(gk a)552是从自适应和固定码本增益成分148a和150a中确定 的。自适应码本增益(gk a)552与由先前所讨论的F0子帧处理模块70的增 益和量化部分366确定的量化增益向量 433的部分最佳向量相同。量 化的自适应码本向量(vk a)550从闭环自适应码本成分144b中确定。类似地, 量化的自适应码本向量(vk a)550与由子帧处理模块70确定的自适应码本向 量(va)382的最佳向量相同。
2D VQ增益码本412是二维的,并向乘法器530提供自适应码本增益 (gk a)552,以及向乘法器532提供固定码本增益(guc)554。固定码本增益 (gk c)554类似地从自适应和固定码本增益成分148a和150a中确定,并且是 量化增益向量 433的部分最佳向量。还是基于类型分类,固定码本390 向乘法器532提供量化的固定码本向量(vk c)556。量化的固定码本向量 (vk c)556从由固定码本成分146a提供的码本标识、脉冲位置及脉冲符号, 或半速率编解码器的高斯码本重构。量化的固定码本向量(vk c)556与先前讨 论的F0子帧处理模块70确定的固定码本向量(vc)402的最佳向量相同。乘 法器532使量化的固定码本向量(vk c)556乘以固定码本增益(gk c)554。
如果帧的类型分类是类型0,多维向量量化器向乘法器530提供自适 应码本增益(ga k)552。其中多维向量量化器的维数依赖于子帧数。在一实施 例中,多维向量量化器可以是3D/4D开环VQ454。类似地,多维向量量化 器向乘法器532提供固定码本增益(gk c)554。自适应码本增益(gk a)552和固 定码本增益(gk c)554由增益成分147和179提供,并且分别与量化的音调增 益 496及量化的固定码本增益 513相同。
在被分类为类型0或类型1的帧中,来自第一乘法器530的输出由加 法器534接收,并加到第二乘法器532的输出上。乘法器534的输出是短 期激励。将该短期激励提供给短期激励线128上的合成滤波器模块98。
解码器90和92中短期(LPC)预测系数的产生类似于编码系统12中的 处理。LSF解码模块536从LFS成分140和172重构量化的LSFs。LFS 解码模块536使用由编码系统12使用的相同的量化表和LFS预测器系数 表。对于半速率编解码器24,预测器开关模块336选择预测器系数集合之 一,以便计算预测的由LSF成分140和172指示的LSF。使用与在编码系 统12中使用的相同的线性内插路径来进行量化的LSF的内插。对于被分 类为类型0帧的全速率编解码器22,内插模块338选择在编码系统12中 由LSF成分140和172指示的相同的内插路径之一。量化的LSF的加权 之后是在LSF转换模块538内转换为量化的LPC系数Aq(z)342。量化的 LPC系数Aq(z)342是提供给在短期预测系数线130上的合成滤波器98的 短期预测系数。
量化的LPC系数Aq(z)342可由合成滤波器98使用,以便对短期预测 系数滤波。合成滤波器98是短期逆向预测滤波器,它产生不被后处理的合 成语音。然后非后处理的合成语音可通过后处理模块100。还将短期预测 系数提供给后处理模块100。
长期滤波器模块542对于合成语音中的音调周期进行细调节搜索。在 一实施例中,细调节搜索使用音调相关性和速率相关增益控制的谐波滤波 器进行。谐波滤波对于四分之一速率编解码器26及八分之一速率编解码器 28是不可用的。后滤波以自适应增益控制模块546结束。自适应增益控制 模块546把已经在后处理模块100内处理的合成语音的能级带到非滤波合 成语音的平。在自适应增益控制模块546内还可进行某些级别的平滑和 适应。后处理模块100滤波的结果是合成语音20。
实施例
语音压缩系统10的实施例的一种实现可以是在数字信号处理(DSP)芯 片中。DSP芯片可以用源代码编程。可首先将源代码转换到固定点,然后 转换为DSP专用的编程语言。然后转换的源代码下载到DSP并在这里运 行。
图21是根据使用音调增益、固定子码本及至少一个用于编码的附加的 因子的实施例的语音编码系统100的框图。语音编码系统100包括通过通 信介质110操作连接到第二通信装置115的第一通信装置105。语音编码 系统100可以是任何蜂窝式电话、射频或其它能够对语音信号145编码并 解码编码的信号以生成合成语音150的远程通信系统。通信装置105、115 可以是蜂窝式电话、便携式无线收发信机等。
通信介质110可包括使用任何传输机制的系统,包括无线电波、红外 线、陆地波、光纤和任何其它能够传输数字信号(有线或电缆)的介质,或 任何它们的组合。通信介质110还可以包括存储介质,包括存储器装置、 存储介质或任何其它能够存储并检索数字信号的装置。在使用中,通信介 质110在第一和第二通信装置105、115之间传输数字位流。
第一通信装置105包括如图所示连接的模拟到数字转换器120、预处 理器125及编码器130。第一通信装置105可具有天线或其它通信介质接 口(未示出),用于与通信装置110发送和接收数字信号。第一通信装置105 还可有其它业内已知的用于通信装置的组件,诸如解码器或数字到模拟转 换器。
第二通信装置115包括如图所示连接的解码器135和数字到模拟转换 器140。虽然未示出,但第二通信装置115可具有一个或多个合成滤波器、 后处理器及其它组件。第二通信装置115还可具有一天线或其它通信介质 接口(未示出)用于与通信介质发送和接收数字信号。预处理器125、编码器 130、及解码器135包括处理器、数字信号处理器(DSPs)应用专用集成电路, 或其它数字装置,用于实现这里所讨论的编码和算法。预处理器125和编 码器130可包括分开的组件或同一组件。
在使用中,模拟到数字转换器120从话筒(未示出)或其它信号输入装 置接收语音信号145。语音信号可以是话音语音、音乐、或其它模拟信号。 模拟到数字转换器120数字化语音信号,向预处理器125提供数字化的语 音信号。预处理器125使数字化的信号通过高通滤波器(未示出),其截止 频率最好大约为60-80Hz。预处理器125可进行其它处理诸如噪声抑制, 以改进用于编码的数字化信号。编码器130使用音调滞后、固定码本、固 定码本增益、LPC参数、及其它参数对语音编码。代码在通信介质110中 传输。
解码器135从通信介质110接收位流。解码器操作以便对位流解码并 以数字信号的形式产生合成语音信号150。合成语音信号150由数字到模 拟转换器140转换为模拟信号。编码器130和解码器135使用通常称为编 解码器的语音压缩系统,降低噪声抑制数字化语音信号的位速率。例如, 代码激励线性预测(CELP)编码技术采样几种预测技术,以便从语音信号中 去除冗余。
虽然本发明的实施例包括如上所述的特定模式,但本发明不限于这一 实施例。这样,可从多于三个模式和少于三个模式之中选择一个模式。例 如,另一实施例可从五个模式中:模式0、模式1、模式2、以及模式3以 及半速率最大模式中进行选择。本发明的又另一实施例,当传输电路正被 全容量使用时,可包括非传输模式。虽然最好在G.729标准环境中实现, 但本发明可包括其它的实施例和实现方式。
虽然已经描述了本发明的各种实施例,但对业内专业人员明显的是, 在本发明的范围内可有更多的实施例和实现方式。于是,本发明除了所附 权利要求及其等价物之外不受限制。
与相关申请的交叉参考
本申请是在1998年9月18日提交的、申请号为No.09/156,814、标题 为“用于语音编码器的完整的固定的码本”、并转让给本发明的受让人的 申请的部分继续申请,该申请的公开被结合作为参考。以下的申请被整体 结合以作为参考并构成本申请的一部分:
美国临时申请No.60/097,569(代理人文档号No.98RSS325),标题为 “自适应性速率语音编/解码”,1998年8月24日提交;
美国专利申请No.09/154,675(代理人文档号No.97RSS383),标题为 “在长期预处理中使用连续扭曲的语音编码器”,1998年9月18日提交;
美国专利申请No.09/156,649(代理人文档号No.95EO20),标题为“组 合码本结构”,1998年9月18日提交;
美国专利申请No.09/156,648(代理人文档号No.98RSS228),标题为 “低复杂性的随机码本结构”,1998年9月18日提交;
美国专利申请No.09/156,650(代理人文档号No.98RSS343),标题为 “使用组合开环和闭环增益的增益规一化的语音编码器”,1998年9月18 日提交;
美国专利申请No.09/156,832(代理人文档号No.97RSS039),标题为 “使用话音活动检测编码噪声的语音编码器”,1998年9月18日提交;
美国专利申请No.09/154,654(代理人文档号No.98RSS344),标题为 “使用语音分类和现有音调估计的音调确定”,1998年9月18日提交;
美国专利申请No.09/154,657(代理人文档号No.98RSS328),标题为 “使用平滑噪声编码的分类器的语音编码器”,1998年9月18日提交;
美国专利申请No.09/156,826(代理人文档号No.98RSS382),标题为 “用于合成语音残留的自适应性倾斜补偿”,1998年9月18日提交;
美国专利申请No.09/154,662(代理人文档号No.98RSS383),标题为 “码本搜索中使用的语音分类和参数加权”,1998年9月18日提交;
美国专利申请No.09/154,653(代理人文档号No.98RSS406),标题为 “使用语音参数的合成编码器-解码器帧隐蔽”,1998年9月18日提交;
美国专利申请No.09/154,663(代理人文档号No.98RSS345),标题为 “自适应性降低增益以产生固定的码本目标信号”,1998年9月18日提 交;
美国专利申请No.09/154,660(代理人文档号No.98RSS384),标题为 “自适应性应用音调长期预测和带有连续扭曲的音调预处理的语音编码 器”,1998年9月18日提交。
以下共同未决的共同转让的美国专利申请已经在本申请同一天提交。 所有这些申请与本申请中公开的实施例相关并进一步描述了其它方面,并 一并结合以资参考。
美国专利申请号____,“向用于低位速率CELP的脉冲激励注入高 频噪声”,代理人参考号:00CXT0065D(10508.5),2000年9月15日提交, 且现在是美国专利号____。
美国专利申请号____,“CELP语音编码中的短期增强”,代理人 参考号:00CXT0666N(10508.6),2000年9月15日提交,且现在是美国专 利号____。
美国专利申请号____,“用于语音编码中的脉冲样激励的动态脉冲 位置跟踪系统”,代理人参考号:00CXT0537N(10508.7),2000年9月15 日提交,且现在是美国专利号____。
美国专利申请号____,“带有时域噪声衰减的语音编码系统”,代理 人参考号:00CXT0554N(10508.8),2000年9月15日提交,且现在是美国 专利号____。
美国专利申请号____,“用于自适应性激励语音编码模式的系统” 代理人参考号:98RSS366(10508.9),2000年9月15日提交,且现在是美国 专利号____。
美国专利申请号____,“使用带有不同分辩级别的自适应性码本编 码语音信息的系统”,代理人参考号:00CXT0670N(10508.13),2000年9 月15日提交,且现在是美国专利号____。
美国专利申请号____,“用于编码和解码的码本表”,代理人参考 号:00CXT0669N(10508.14),2000年9月15日提交,且现在是美国专利号 ____。
美国专利申请号____,“用于传输编码的语音信号的比特流协议”, 代理人参考号:00CXT0668N(10508.15),2000年9月15日提交,且现在是 美国专利号____。
美国专利申请号____,“用于过滤语音编码信号的内容的系统”, 代理人参考号:00CXT0667N(10508.16),2000年9月15日提交,且现在是 美国专利号____。
美国专利申请号____,“对语音信号进行编码和解码的系统”,代 理人参考号:00CXT0665N(10508.17),2000年9月15日提交,且现在是美 国专利号____。
美国专利申请号____,“具有自适应性帧结构的编码系统”,代理 人参考号:00CXT0384CIP(10508.18),2000年9月15日提交,且现在是美 国专利号____。
美国专利申请号____,“改进使用带有子码本的音调增强的系统” 代理人参考号:00CXT0569N(10508.19),2000年9月15日提交,且现在是 美国专利号____。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈