用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法

申请号 CN201280018282.7 申请日 2012-02-14 公开(公告)号 CN103503062B 公开(公告)日 2016-08-10
申请人 弗劳恩霍夫应用研究促进协会; 发明人 埃曼努埃尔·拉维利; 拉尔夫·盖尔; 马库斯·施内尔; 纪尧姆·福奇斯; 韦莎·罗皮拉; 汤姆·贝克斯特伦; 伯恩哈德·格里; 克里斯蒂安·赫尔姆里希;
摘要 一种用于编码具有音频样本流(100)的音频 信号 的装置,包括:窗口器(102),用于对音频样本流应用预测编码分析窗口(200)以获得用于 预测分析 的窗口化数据,以及用于对音频样本流应用转换编码分析窗口(204)以获得用于转换分析的窗口化数据,其中,转换编码分析窗口与音频样本的当前 帧 内的音频样本以及与作为转换编码前瞻部分(206)的音频样本的未来帧的预定部分的音频样本相关联,其中,预测编码分析窗口与当前帧的音频样本的至少一部分以及与作为预测编码前瞻部分(208)的未来帧的预定部分的音频样本相关联,其中,转换编码前瞻部分(206)和预测编码前瞻部分(208)彼此相同或者彼此不同之处小于20%的预测编码前瞻部分(208)或小于20%的转换编码前瞻部分(206);以及编码处理器(104),用于使用用于预测分析的窗口化数据来产生用于当前帧的预测编码数据,或者用于使用用于转换分析的窗口化数据来产生用于当前帧的转换编码数据。
权利要求

1.一种用于编码具有音频样本流(100)的音频信号的装置,包括:
窗口器(102),用于对所述音频样本流应用预测编码分析窗口(200)以获得用于预测分析的窗口化数据,以及用于对所述音频样本流应用转换编码分析窗口(204)以获得用于转换分析的窗口化数据,
其中,所述转换编码分析窗口与音频样本的当前内的音频样本以及与作为转换编码前瞻部分(206)的音频样本的未来帧的预定部分的音频样本相关联,
其中,所述预测编码分析窗口与所述当前帧的所述音频样本的至少一部分以及与作为预测编码前瞻部分(208)的所述未来帧的预定部分的音频样本相关联,
其中,所述转换编码前瞻部分(206)和所述预测编码前瞻部分(208)彼此相同或者彼此不同之处小于20%的所述预测编码前瞻部分(208)或小于20%的所述转换编码前瞻部分(206);以及
编码处理器(104),用于使用用于所述预测分析的所述窗口化数据来产生用于所述当前帧的预测编码数据,或者用于使用用于所述转换分析的所述窗口化数据来产生用于所述当前帧的转换编码数据;
其中,另一预测编码分析窗口(202)在所述未来帧中没有前瞻部分,且与所述当前帧的样本相关联,或者
输出接口(106),用于输出用于所述当前帧的编码信号;以及编码模式选择器(112),用于控制所述编码处理器(104)以输出用于所述当前帧的预测编码数据或转换编码数据,其中,所述窗口器(102)被配置成使用位于所述当前帧的中在所述预测编码分析窗口之前的另一预测编码分析窗口,并且其中,所述编码模式选择器(112)被配置成控制所述编码处理器(104),以便在所述转换编码数据被输出至所述输出接口时仅转发从所述预测编码分析窗口导出的预测编码分析数据,且不转发从所述另一预测编码分析窗口导出的预测编码分析数据,以及其中,所述编码模式选择器(112)被配置成控制所述编码处理器(104)以转发从所述预测编码分析窗口导出的预测编码分析数据,并在所述预测编码数据被输出至所述输出接口时,转发从所述另一预测编码分析窗口导出的所述预测编码分析数据,或者其中,所述当前帧包括多个子帧,其中,预测编码分析窗口(200)以子帧的中心为中心,且其中,所述转换编码分析窗口以两个子帧之间的边界为中心,其中,所述预测编码分析窗口(200)以所述当前帧的最后子帧的中心为中心,其中,另一预测编码分析窗口(202)以所述当前帧的第二子帧的中心为中心,且其中,所述转换编码分析窗口以所述当前帧的第三子帧与第四子帧之间的边界为中心,其中,所述当前帧被细分为四个子帧,或者其中,所述转换编码分析窗口另外包括在所述转换编码分析窗口的起点之前的零部分以及在所述转换编码分析窗口的末端之后的零部分,使得所述转换编码分析窗口的全部时间长度是所述当前帧的时间长度的两倍。
2.根据权利要求1所述的装置,其中,所述转换编码分析窗口(204)包括在所述转换编码前瞻部分(206)中延伸的非重迭部分。
3.根据权利要求1所述的装置,其中,所述转换编码分析窗口(204)包括在所述当前帧的起点开始且在非重迭部分(208)的起点结束的另一重迭部分(210)。
4.根据权利要求1所述的装置,其中,所述窗口器(102)被配置成仅使用起始窗口(220,
222)来用于从一帧到下一帧由预测编码到转换编码的转变,其中,所述起始窗口未被用于从一帧到下一帧由转换编码到预测编码的转变。
5.根据权利要求1所述的装置,进一步包括:
所述输出接口(106),用于输出用于所述当前帧的编码信号;以及
所述编码模式选择器(112),用于控制所述编码处理器(104)以输出用于所述当前帧的预测编码数据或转换编码数据,
其中,所述编码模式选择器(112)被配置成对于整个帧仅在预测编码或转换编码之间切换,使得用于所述整个帧的编码信号包括预测编码数据或转换编码数据。
6.根据权利要求1所述的装置,
其中,所述窗口器(102)除了使用所述预测编码分析窗口之外,还使用与被置于所述当前帧的起点的音频样本相关联的另一预测编码分析窗口(202),且其中,所述预测编码分析窗口(200)不与被置于所述当前帧的起点的音频样本相关联。
7.根据权利要求1所述的装置,其中,对于从一帧到下一帧由预测编码模式到转换编码模式的转变,转变窗口被所述窗口器(102)使用,
其中,所述转变窗口包括在所述当前帧的起点开始的第一非重迭部分以及在所述非重迭部分的末端开始并延伸到所述未来帧中的重迭部分,
其中,延伸到所述未来帧中的所述重迭部分具有与所述转换编码分析窗口的所述转换编码前瞻部分的长度相同的长度。
8.根据权利要求1所述的装置,其中,所述转换编码分析窗口的时间长度大于所述预测编码分析窗口(200,202)的时间长度。
9.根据权利要求1所述的装置,其中,所述编码处理器(104)包括:
预测编码分析器(302),用于从用于预测分析的所述窗口化数据(100a)导出用于所述当前帧的预测编码数据;
预测编码分支,包括:
滤波器级(304),用于使用所述预测编码数据从用于所述当前帧的所述音频样本计算滤波器数据;以及
预测编码器参数计算器(306),用于计算用于所述当前帧的预测编码参数;以及转换编码分支,包括:
时间-频谱转换器(310),用于将用于转换编码算法的窗口化数据转换成频谱表示;
频谱加权器(312),用于使用从所述预测编码数据导出的加权的加权数据来加权频谱数据以获得加权频谱数据;以及
频谱数据处理器(314),用于处理所述加权频谱数据以获得用于所述当前帧的转换编码数据。
10.一种编码具有音频样本流(100)的音频信号的方法,包括:
对所述音频样本流应用(102)预测编码分析窗口(200)以获得用于预测分析的窗口化数据,以及对所述音频样本流应用转换编码分析窗口(204)以获得用于转换分析的窗口化数据,
其中,所述转换编码分析窗口与音频样本的当前帧内的音频样本以及与作为转换编码前瞻部分(206)的音频样本的未来帧的预定部分的音频样本相关联,
其中,所述预测编码分析窗口与所述当前帧的所述音频样本的至少一部分以及与作为预测编码前瞻部分(208)的所述未来帧的预定部分的音频样本相关联,
其中,所述转换编码前瞻部分(206)和所述预测编码前瞻部分(208)彼此相同或者彼此不同之处小于20%的所述预测编码前瞻部分(208)或小于20%的所述转换编码前瞻部分(206);以及
使用用于所述预测分析的所述窗口化数据来产生(104)用于所述当前帧的预测编码数据,或者使用用于所述转换分析的所述窗口化数据来产生用于所述当前帧的转换编码数据;
其中,另一预测编码分析窗口(202)在所述未来帧中没有前瞻部分,且与所述当前帧的样本相关联,或者
通过输出接口输出(106)用于所述当前帧的编码信号;以及控制(112)所述产生(104)以输出用于所述当前帧的预测编码数据或转换编码数据,其中,应用(102)预测编码分析窗口使用位于所述当前帧的中在所述预测编码分析窗口之前的另一预测编码分析窗口,并且其中,所述控制(112)用于控制所述产生(104),以便在所述转换编码数据被输出至所述输出接口时仅转发从所述预测编码分析窗口导出的预测编码分析数据,且不转发从所述另一预测编码分析窗口导出的预测编码分析数据,以及其中,所述控制(112)用于控制所述产生以转发从所述预测编码分析窗口导出的预测编码分析数据,并在所述预测编码数据被输出至所述输出接口时,转发从所述另一预测编码分析窗口导出的所述预测编码分析数据,或者
其中,所述当前帧包括多个子帧,其中,所述预测编码分析窗口(200)以子帧的中心为中心,且其中,所述转换编码分析窗口以两个子帧之间的边界为中心,其中,所述预测编码分析窗口(200)以所述当前帧的最后子帧的中心为中心,其中,所述另一预测编码分析窗口(202)以所述当前帧的第二子帧的中心为中心,且其中,所述转换编码分析窗口以所述当前帧的第三子帧与第四子帧之间的边界为中心,其中,所述当前帧被细分为四个子帧,或者其中,所述转换编码分析窗口另外包括在所述转换编码分析窗口的起点之前的零部分以及在所述转换编码分析窗口的末端之后的零部分,使得所述转换编码分析窗口的全部时间长度是所述当前帧的时间长度的两倍。
11.一种用于解码编码音频信号的音频解码器,包括:
预测参数解码器(180),用于执行对来自所述编码音频信号的用于预测编码帧的数据的解码;
转换参数解码器(183),用于执行对来自所述编码音频信号的用于转换编码帧的数据的解码,
其中,所述转换参数解码器(183)被配置成用于执行频谱-时间转换和用于对转换数据应用合成窗口以获得用于当前帧和未来帧的数据,所述合成窗口具有第一重迭部分、相邻的第二非重迭部分以及相邻的第三重迭部分(206),所述第三重迭部分与用于所述未来帧的音频样本相关联,且非重迭部分(208)与所述当前帧的数据相关联;以及重迭相加器(184),用于将与用于所述当前帧的合成窗口的所述第三重迭部分相关联的合成窗口化样本和与用于所述未来帧的合成窗口的所述第一重迭部分相关联的合成窗口化样本重迭并相加,以获得用于所述未来帧的音频样本的第一部分,其中,当所述当前帧和所述未来帧包括转换编码数据时,用于所述未来帧的其余的所述音频样本是与没有重迭相加而获得的用于所述未来帧的所述合成窗口的所述第二非重迭部分相关联的合成窗口化样本,
其中,所述编码音频信号的所述当前帧包括转换编码数据,且所述未来帧包括预测编码数据,其中,所述转换参数解码器(183)被配置成使用用于所述当前帧的所述合成窗口来执行合成窗口化,以获得与所述合成窗口的所述非重迭部分(208)相关联的窗口化音频样本,其中,与用于所述当前帧的所述合成窗口的所述第三重迭部分相关联的合成窗口化音频样本被去除,并且其中,用于所述未来帧的音频样本由所述预测参数解码器(180)来提供,而没有来自所述转换参数解码器(183)的数据,或者
其中,所述当前帧包括预测编码数据,且所述未来帧包括转换编码数据,其中,所述转换参数解码器(183)被配置成使用不同于所述合成窗口的转变窗口,其中,所述转变窗口(220,222)包括在所述未来帧的起点处的第一非重迭部分(220)以及在所述未来帧的末端开始并延伸到时间上在所述未来帧之后的帧中的重迭部分(222),并且其中,用于所述未来帧的所述音频样本在无重迭下产生,且与用于所述未来帧的转变窗口的第二重迭部分(222)相关联的音频数据由所述重迭相加器(184)使用用于在所述未来帧之后的所述帧的所述合成窗口的所述第一重迭部分来计算,或者
其中,所述合成窗口被配置成具有小于50ms且大于25ms的总时间长度,其中,所述第一重迭部分和所述第三重迭部分具有相同的长度,且其中,所述第三重迭部分具有小于15ms的长度,或者
其中,所述合成窗口具有无零填充部分的30ms的长度,所述第一重迭部分和所述第三重迭部分各自具有10ms的长度,且所述非重迭部分具有10ms的长度,或者其中,所述转换参数解码器(183)被配置成对于所述频谱-时间转换,应用具有对应于帧长度的样本数目的DCT转换(183d)和用于产生是所述DCT之前的时间值数目的两倍的时间值数目的去折迭操作(183e),以及对所述去折迭操作的结果应用(183e)所述合成窗口,其中,所述合成窗口包括,在所述第一重迭部分之前且在所述第三重迭部分之后具有所述第一重迭部分和所述第三重迭部分的长度的一半的长度的零部分。
12.根据权利要求11所述的音频解码器,
其中,转换参数解码器(183)包括:
频谱加权器(183b),用于使用预测编码数据来加权用于所述当前帧的解码转换频谱数据;以及
预测编码加权数据计算器(183c),用于通过组合从过去帧导出的预测编码数据与从所述当前帧导出的预测编码数据的加权总和来计算所述预测编码数据,以获得内插预测编码数据。
13.根据权利要求12所述的音频解码器,
其中,所述预测编码加权数据计算器(183c)被配置成将所述预测编码数据转换成具有用于每一频带的加权值的频谱表示,并且
其中,所述频谱加权器(183b)被配置成通过用于频带的同一加权值加权该频带中的所有频谱值。
14.一种解码编码音频信号的方法,包括:
执行(180)对来自所述编码音频信号的用于预测编码帧的数据的解码;
执行(183)对来自所述编码音频信号的用于转换帧的数据的解码,
其中,执行(183)对用于转换编码帧的数据的解码的步骤包括执行频谱-时间转换和对转换数据应用合成窗口以获得用于当前帧和未来帧的数据,所述合成窗口具有第一重迭部分、相邻的第二非重迭部分以及相邻的第三重迭部分(206),所述第三重迭部分与用于所述未来帧的音频样本相关联,且所述非重迭部分(208)与所述当前帧的数据相关联;以及将与用于所述当前帧的合成窗口的所述第三重迭部分相关联的合成窗口化样本和与用于所述未来帧的合成窗口的所述第一重迭部分相关联的合成窗口化样本重迭并相加(184),以获得用于所述未来帧的音频样本的第一部分,其中,当所述当前帧和所述未来帧包括转换编码数据时,用于所述未来帧的其余的所述音频样本是与没有重迭相加而获得的用于所述未来帧的所述合成窗口的所述第二非重迭部分相关联的合成窗口化样本,其中,所述编码音频信号的所述当前帧包括转换编码数据,且所述未来帧包括预测编码数据,其中,执行(183)对用于转换帧的数据的解码使用用于所述当前帧的所述合成窗口来执行合成窗口化,以获得与所述合成窗口的所述非重迭部分(208)相关联的窗口化音频样本,其中,与用于所述当前帧的所述合成窗口的所述第三重迭部分相关联的合成窗口化音频样本被去除,并且其中,用于所述未来帧的音频样本由执行(180)对用于预测编码帧的数据的解码来提供,而没有来自执行(183)对用于转换帧的数据的解码的数据,或者其中,所述当前帧包括预测编码数据,且所述未来帧包括转换编码数据,其中,执行(183)对用于转换帧的数据的解码使用不同于所述合成窗口的转变窗口,其中,所述转变窗口(220,222)包括在所述未来帧的起点处的第一非重迭部分(220)以及在所述未来帧的末端开始并延伸到时间上在所述未来帧之后的帧中的重迭部分(222),并且其中,用于所述未来帧的所述音频样本在无重迭下产生,且与用于所述未来帧的转变窗口的第二重迭部分(222)相关联的音频数据由所述重迭并相加(184)使用用于在所述未来帧之后的所述帧的所述合成窗口的所述第一重迭部分来计算,或者
其中,所述合成窗口被配置成具有小于50ms且大于25ms的总时间长度,其中,所述第一重迭部分和所述第三重迭部分具有相同的长度,且其中,所述第三重迭部分具有小于15ms的长度,或者
其中,所述合成窗口具有无零填充部分的30ms的长度,所述第一重迭部分和所述第三重迭部分各自具有10ms的长度,且所述非重迭部分具有10ms的长度,或者其中,执行(183)对用于转换帧的数据的解码对于所述频谱-时间转换,应用具有对应于帧长度的样本数目的DCT转换(183d)和用于产生是所述DCT之前的时间值数目的两倍的时间值数目的去折迭操作(183e),以及对所述去折迭操作的结果应用(183e)所述合成窗口,其中,所述合成窗口包括,在所述第一重迭部分之前且在所述第三重迭部分之后具有所述第一重迭部分和所述第三重迭部分的长度的一半的长度的零部分。

说明书全文

用于使用对齐的前瞻部分将音频信号编码及解码的装置与

方法

技术领域

[0001] 本发明涉及音频编码,且特别地,涉及依赖于切换音频编码器及相应控制音频解码器,尤其适用于低延迟应用的音频编码。

背景技术

[0002] 依赖于切换编解码器的若干音频编码概念是已知的。一个众所周知的音频编码概念是所谓的延伸型调适性多位率宽带(AMR-WB+)编解码器,如3GPP TS 26.290B10.0.0(2011-03)中所述。AMR-WB+音频编解码器包括所有AMR-WB语音编解码器模式1至9及AMR-WB VAD以及DTX。AMR-WB+通过增加TCX、带宽扩展及立体声来扩展AMR-WB编解码器。
[0003] AMR-WB+音频编解码器以内部采样频率FS处理等同于2048个样本的输入。内部采样频率被局限于12800到38400Hz的范围。2048个样本帧被分成两个临界采样的等频带。这产生对应于低频(LF)及高频(HF)带的两个1024样本的超级帧。每一超级帧被划分成四个
256-样本帧。通过使用重新采样输入信号的可变采样转换方案而获得内部采样率处的采样。
[0004] LF及HF信号随后使用两种不同的方法而被编码:LF使用“核心”编码器/解码器基于切换ACELP及变换编码激励(TCX)而被编码及解码。在ACELP模式中,标准的AMR-WB编解码器被使用。HF信号是使用带宽扩展(BWE)方法以相对较少位(16位/帧)而被编码的。从编码器传送至解码器的参数是模式选择位、LF参数及HF参数。用于每一1024样本超级帧的参数被分解成相同大小的四个数据包。当输入信号为立体声时,左右信道被组合成一单个信号以供ACELP/TXC编码,而立体声编码接收这两个输入信道。在解码器端,LF及HF带被单独解码,在此之后, 它们在合成滤波器组中被合成。若输出仅限于单声道,则立体声参数被忽略且解码器以单声道模式运作。当编码LF信号时,AMR-WB+编解码器对ACELP及TCX模式应用LP分析。LP系数被线性地内插于每一64-样本子帧。LP分析窗口是长度为384样本的半余弦。为了编码核心单声道信号,ACELP或TCX编码被用于每一帧。编码模式是基于闭合回路合成分析法而选择的。仅256-样本帧被考虑用于ACELP帧,而256、512或1024样本帧可能是TCX模式的。AMR-WB+中的LPC分析所使用的窗口被示出于图5b中。具有20ms前瞻的对称LPC分析窗口被使用。前瞻意指,如图5b中所示,以500示出的当前帧的LPC分析窗口不仅在图5b中以502示出的0到20ms之间所指示的当前帧内延伸,而且延伸到20到40ms之间的未来帧中。这意味着,通过使用此LPC分析窗口,另外的20ms延迟,即整个未来帧,是必需的。因此,在图5b中以504指示的前瞻部分促成与AMR-WB+编码器相关联的系统延迟。换言之,未来帧必须完全可用以便使当前帧502的LPC分析系数可被算出。
[0005] 图5a示出了另一编码器,所谓的AMR-WB编码器,且具体地,是用于计算当前帧的分析系数的LPC分析窗口。当前帧再一次在0到20ms之间延伸且未来帧在20到40ms之间延伸。对照于图5b,506所指示的AMR-WB的LPC分析窗口具有仅5ms的前瞻部分508,即20ms到25ms之间的时间距离。因此,LPC分析所引入的延迟相对于图5a大幅减小。然而,另一方面,已发现用于确定LPC系数的较大的前瞻部分,即LPC分析窗口的较大的前瞻部分导致较好的LPC系数,且因此,残余信号中有较小的能量,且因此,较低的位率,这是因为LPC预测更好地符合原始信号。
[0006] 虽然图5a及图5b涉及仅具有用于确定一个帧的LPC系数的单一分析窗口的编码器,图5c示出了用于G.718语音编码器的情况。G718(06-2008)规范涉及传输系统及媒体数字系统和网络,且特别是,描述数字终端设备,且特别地,用于该设备的语音及音频信号的编码。特别地,该标准涉及建议书ITU-T G718所定义的从8-32kb/s起的语音及音频的强健的窄带及宽带嵌入式可变位率编码。输入信号是使用20ms的帧来处理的。编解码器 延迟视输入及输出的采样率而定。对于宽带输入及宽带输出,该编码的总算法延迟是42.875ms。其由一个20-ms帧、输入及输出重新采样滤波器的1.875ms延迟,供编码器前瞻使用的10ms、后滤波延迟的1ms及解码器处的10ms组成,以允许较高层转换编码的重迭相加操作。对于窄带输入和窄带输出,较高层并未被使用,但10ms解码器延迟被用于改善在存在帧去除的情况及对于音乐信号的编码性能。若输出被限于层2,则编解码器延迟可减少10ms。编码器的说明如下。下部的两层被应用于在12.8kHz采样的预先加强信号,且上面的三层在16kHz采样的输入信号域中运作。核心层是基于码激励线性预测(CELP)技术的,其中,语音信号通过穿过表示频谱包络的线性预测(LP)合成滤波器的激励信号而被模型化。LP滤波器使用切换预测方法及多阶向量量化在导抗频谱频率(ISF)域中被量化。开回路音高分析通过音高追踪算法来执行,以确保平滑的音高轮廓。两个共存的音高演进轮廓被比较且产生较平滑轮廓的轨道被选择,以使音高估计更强健。帧层级预处理包括高通滤波,每秒12800个样本的采样转换,预先加强,频谱分析,窄带输入的检测,语音活动检测,噪声估计,噪声降低,线性预测分析,LP至ISF转换以及内插,加权语音信号的计算,开回路音高分析,背景噪声更新,对于编码模式选择及帧去除隐藏的信号分类。使用选择的编码类型的层1编码包括清音编码模式、浊音编码模式、变换编码模式、通用编码模式以及不连续传输和舒适噪声生成(DTX/CNG)。
[0007] 使用自相关法的长期预测或线性预测(LP)分析决定CELP模型的合成滤波器的系数。然而,在CELP中,长期预测通常是“适应性码簿”,且因此不同于线性预测。因此,线性预测可更多被视为短期预测。窗口化语音的自相关使用列文逊-杜宾(Levinson-Durbin)算法被转换成LP系数。接着,LPC系数被转换成导抗谱对(ISP),且因此为了量化及内插目的而转换成导抗频谱频率(ISF)。内插的量化及非量化系数被转换回LP域以构建对于每一子帧的合成及加权滤波器。若编码主动信号帧,则使用在图5c中以510及512所指示的两个LPC分析窗口,两组LP系数在每一帧中被估计。窗口512被称作“中帧LPC窗口”,且窗口510被称作“结束帧 LPC窗口”。10ms的前瞻部分514被用于帧末端自相关计算。帧结构被示出于图5c中。帧被划分为四个子帧,每一子帧具有对应于采样率12.8kHz的64个样本的5ms长度。用于帧末端分析及用于中帧分析的窗口分别以第四子帧及第二子帧为中心,如图5c中所示。长度为320个样本的汉明窗口用于窗口化。该系数在G.718,6.4.1节中被定义。自相关计算被记载于6.4.2节中。列文逊-杜宾算法被记载于第6.4.3节中,LP至ISP转换被记载于6.4.4节中,且ISP至LP转换被记载于6.4.5节中。
[0008] 语音编码参数,诸如适应性码簿延迟及增益,代数码簿索引及增益通过最小化感知加权域中的输入信号与合成信号之间的误差而被搜寻。感知加权是通过经由由LP滤波器系数所导出的感知加权滤波器来对信号滤波而执行。感知加权信号也用在开回路音高分析中。
[0009] G.718编码器是仅具有单一语音编码模式的纯语音编码器。因此,G.718编码器并非切换编码器,且因此,该编码器的缺点在于其仅在核心层内提供单一的语音编码模式。因此,当这一编码器被应用于语音信号以外的其他信号,即应用于CELP编码后的模型并不适当的一般音频信号时,质量问题将出现。
[0010] 另外的切换编解码器是所谓的USAC编解码器,即定义于日期为2010年9月24日的ISO/IEC CD 23003-3中的统一语音及音频编解码器。该切换编解码器所用的LPC分析窗口在图5d中以516来指示。再一次假定当前帧在0到20ms之间延伸,且因此,此编解码器的前瞻部分618似乎为20ms,即明显高于G.718的前瞻部分。因此,虽然USAC编码器由于其切换性质而提供良好的音频质量,但因为图5d中的LPC分析窗口前瞻部分518,延迟是相当大的。USAC的一般结构如下。首先,有一共同预/后处理,其由处理立体声或多信道处理的MPEG环绕(MPEGS)功能单元及处理输入信号中的较高音频频率的参数表示的增强SBR(eSBR)单元所组成。接着,有两个分支,一个分支由修改的进阶音频编码(AAC)工具路径组成且另一分支由以线性预测编码(LP或LPC域)为基础的路径组成,以线性预测编码(LP或LPC域)为基础的路径转而具有LPC残余的频域表示或时域表示的特征。用于AAC及LPC的所有传输频谱在量 化及算术编码之后被表示在MDCT域中。时域表示使用ACELP激励编码方案。ACELP工具通过组合长期预测器(适应性码字)与脉冲型序列(创新码字)来提供一种有效地表示时域激励信号的方式。重建的激励通过LP合成滤波器来发送以形成时域信号。ACELP工具的输入包括适应性及创新码簿索引,适应性及创新码增益值,其他控制数据及去量化和内插LPC滤波器系数。ACELP工具的输出是时域重建音频信号。
[0011] MDCT基TCX解码工具被使用来将加权LP残余表示从MDCT域变回时域信号并输出包括加权LP合成滤波的加权时域信号。IMDCT可被配置成支持256、512或1024个频谱系数。向TCX工具的输入包括(去量化)MDCT谱,以及去量化和内插LPC滤波器系数。TCX工具的输出是时域重建音频信号。
[0012] 图6示出了USAC中的一种情况,其中,用于当前帧的LPC分析窗口516及用于过去或最后帧的LPC分析窗口520被绘出,且除此之外,其中,TCX窗口522被示出。TCX窗口522以在0到20ms之间延伸的当前帧的中心为中心,且延伸10ms到过去帧中以及延伸10ms到在20到40ms之间延伸的未来帧中。因此,LPC分析窗口516要求LPC前瞻部分在20到40ms之间,即
20ms,而TCX分析窗口另外具有在20到30ms之间延伸进入到未来帧中的前瞻部分。这意味着USAC分析窗口516所引入的延迟为20ms,而由TCX窗口引入到编码器中的延迟为10ms。因此,清楚的是,两种窗口的前瞻部分并未彼此对齐。因此,即使TCX窗口522仅引入10ms的延迟,由于LPC分析窗口516,编码器的整个延迟仍为20ms。因此,即使TCX窗口有相当小的前瞻部分,这并未减少编码器的总算法延迟,这是因为总延迟由最高贡献决定,即等于20ms,因为LPC分析窗口516有20ms延伸到未来帧中,即不仅涵盖当前帧而且还涵盖未来帧。

发明内容

[0013] 本发明的目的在于提供一种用于音频编码或解码的改善的编码概念,一方面,这提供良好的音频质量,且另一方面,这使得延迟缩短。
[0014] 该目的是通过一种用于编码音频信号的装置,编码音频信号的方法,音频解码器,音频解码方法或计算机程序来实现。
[0015] 根据本发明,具有转换编码分支及预测编码分支的切换音频编解码器方案被应用。重要地是,这两种窗口,即一方面,预测编码分析窗口,以及另一方面,转换编码分析窗口关于它们的前瞻部分是对齐的,使得转换编码前瞻部分及预测编码前瞻部分彼此是完全相同的,或彼此不同之处小于20%的预测编码前瞻部分或小于20%的转换编码前瞻部分。应指出的是,预测分析窗口不仅用在预测编码分支中,而且实际上用在两个分支中。LPC分析也用于为转换域中的噪声整形。因此,换言之,前瞻部分彼此是完全相同的或彼此相当接近。这确保最佳折衷被实现且无音频质量或延迟特征被设定成次佳方式。因此,对于分析窗口中的预测编码,已发现前瞻越高,LPC分析越好,但另一方面,延迟随着较高的前瞻部分而增大。另一方面,TCX窗口同样如此。TCX窗口的前瞻部分越高,TCX位率可越好地减少,这是因为一般而言,较长的TCX窗口导致较低的位率。因此,根据本发明,前瞻部分彼此是完全相同的或彼此相当接近,且具体地,彼此不同之处小于20%。因此,另一方面,由于延迟原因而不希望有的前瞻部分最佳地是由编码/解码分支两者使用。
[0016] 鉴于此,本发明一方面提供当两个分析窗口的前瞻部分被设定为低时具有低延迟的改善的编码概念,且另一方面提供具有良好特性的编码/解码概念,该良好特性归因于因音频质量原因或位率原因而必需被引入的延迟任何情况下最佳地由两个编码分支使用而非仅由单一编码分支使用这一事实。
[0017] 一种用于编码具有音频样本流的音频信号的装置包括:窗口器,用于对所述音频样本流应用预测编码分析窗口以获得用于预测分析的窗口化数据,以及用于对所述音频样本流应用转换编码分析窗口以获得用于转换分析的窗口化数据。所述转换编码分析窗口与作为转换编码前瞻部分的音频样本的未来帧的预定前瞻部分的音频样本的当前帧的音频样本相关联。
[0018] 此外,所述预测编码分析窗口与所述当前帧的所述音频样本的至少一部分以及与作为预测编码前瞻部分的所述未来帧的预定部分的音频样本相关联。
[0019] 所述转换编码前瞻部分和所述预测编码前瞻部分彼此相同或者彼此不同之处小于20%的所述预测编码前瞻部分或小于20%的所述转换编码前瞻部分,且因此彼此非常接近。该装置还包括编码处理器,用于使用用于所述预测分析的所述窗口化数据来产生用于所述当前帧的预测编码数据,或者用于使用用于所述转换分析的所述窗口化数据来产生用于所述当前帧的转换编码数据。
[0020] 一种用于解码编码音频信号的音频解码器包括:预测参数解码器,用于执行对来自编码音频信号的用于预测编码帧的数据的解码,以及对于第二分支,所述音频解码器包括转换参数解码器,用于执行对来自编码音频信号的用于转换编码帧的数据的解码。
[0021] 转换参数解码器被配置成用于执行频谱-时间转换,该频谱-时间转换优选是混迭影响转换,诸如MDCT或MDST或任一其他此类转换;以及用于对转换数据应用合成窗口以获得用于当前帧和未来帧的数据。由音频解码器所应用的合成窗口具有第一重迭部分、相邻的第二非重迭部分以及相邻的第三重迭部分,其中,第三重迭部分与用于未来帧的音频样本相关联且非重迭部分与当前帧的数据相关联。此外,为了使解码器端具有良好的音频质量,重迭相加器被应用以将与当前帧的合成窗口的第三重迭部分相关联的合成窗口化样本和与未来帧的合成窗口的第一重迭部分相关联的合成窗口化样本重迭并相加,以获得用于未来帧的第一部分的音频样本,其中,当所述当前帧和未来帧包括转换编码数据时,未来帧的其余音频样本是与未重迭相加时所获得的未来帧的合成窗口的第二非重迭部分相关联的合成窗口化样本。
[0022] 本发明的优选实施方式具有以下特征:用于转换编码分支(诸如TCX分支)和预测编码分支(诸如ACELP分支)的同一前瞻彼此是完全相同的,使得在延迟限制下,两种编码模式具有最大可用前瞻。此外,优选 TCX窗口重迭被限于前瞻部分,使得从一帧到下一帧由转换编码模式到预测编码模式的切换可以是容易的,而没有任何混迭处理问题。
[0023] 将重迭局限于前瞻的另一原因是为了不在解码器端引入延迟。若有具有10ms前瞻以及例如20ms重迭的TCX窗口,将会在解码器中多引入10ms的延迟。当有具有10ms前瞻以及10ms重迭的TCX窗口时,在解码器端并不会有额外的延迟。其有利的结果是较容易切换。
[0024] 因此,优选分析窗口的第二非重迭部分以及当然的合成窗口延伸至当前帧末端,且第三重迭部分仅起始于未来帧。此外,TCX或转换编码分析/合成窗口的非零部分与帧的起点对齐,因此再一次可得到从一种模式到另一模式的容易且低效的切换。
[0025] 此外,优选由多个子帧(诸如四个子帧)组成的完整帧可在转换编码模式(诸如TCX模式)中被完全编码或在预测编码模式(诸如ACELP模式)中被完全编码。
[0026] 此外,优选不是仅使用单一LPC分析窗口而是两种不同的LPC分析窗口,其中,一种LPC分析窗口与第四子帧的中心对齐且是结束帧分析窗口,而另一分析窗口与第二子帧的中心对齐且是中帧分析窗口。若编码器被切换成转换编码,然而,则优选只发送仅基于结束帧LPC分析窗口而由LPC分析所导出的单一LPC系数数据集。此外,在解码器端,优选不直接对转换编码合成使用该LPC数据,且特别是TCX系数的频谱加权。代之,优选以由来自过去帧(即,时间恰在当前帧之前的帧)的结束帧LPC分析窗口所获得的数据内插由当前帧的结束帧LPC分析窗口所获得的TCX数据。相较于发送两个LPC系数数据集供中帧分析和结束帧分析,通过在TCX模式中仅发送关于完整帧的单一LPC系数集可获得进一步的位率减少。然而,当编码器被切换成ACELP模式时,两个LPC系数集均由编码器发送至解码器。
[0027] 此外,优选中帧LPC分析窗口恰在当前帧的较后帧边界上结束,且此外,还延伸到过去帧中。这并未引入任何延迟,这是因为过去帧已经可利用且可无需任何延迟地被使用。
[0028] 另一方面,优选结束帧分析窗口从当前帧内的某处而非当前帧的起点开始。然而,这是没问题的,因为对于形成TCX加权,使用过去帧的结束帧LPC数据集与当前帧的结束帧LPC数据集的平均,使得从某种意义上来说,最后所有数据都被用于计算LPC系数。因此,结束帧分析窗口的开始优选在过去帧的结束帧分析窗口的前瞻部分内。
[0029] 在解码器端,由一种模式切换至另一模式获得显著减小的开销。原因在于合成窗口的非重迭部分,优选在其自身内是对称的,并不与当前帧的样本相关联而是与未来帧的样本相关联,且因此仅在前瞻部分内,即仅在未来帧中延伸。因此,合成窗口是使得仅有优选起始于当前帧正开始处的第一重迭部分在当前帧内,且第二非重迭部分从第一重迭部分末端延伸至当前帧末端,且因此,第二重迭部分与前瞻部分重合。因此,当有从TCX到ACELP的转变时,由于合成窗口的重迭部分所获得的数据简单地被去除且由从ACELP分支外的未来帧刚开始处可用的预测编码数据所取代。
[0030] 另一方面,当有从ACELP到TCX的切换时,特定转变窗口被应用,该窗口恰起始于当前帧(即,刚转换后的帧)的起点,具有非重迭部分,使得任何数据都不必重建以发现重迭“伙伴”。代之,合成窗口的非重迭部分提供正确数据,而无需解码器中所需要的任何重迭及重迭相加程序。仅对于重迭部分,即,用于当前帧的窗口的第三部分以及用于下一帧的窗口的第一部分,重迭相加程序是有用的且被执行以如同在直接MDCT中一样具有从一个到另一块的连续的淡入/淡出,以便最终获得良好的音频质量,由于在本领域也已知的术语“时域混迭消除(TDAC)”下的MDCT临界采样性质而不必增加位率。
[0031] 此外,解码器有用之处还在于,对于ACELP编码模式,由编码器中的中帧窗口及结束帧窗口所导出的LPC数据被发送,而对于TCX编码模式,仅由结束帧窗口所导出的单一LPC数据集被使用。然而,对于频谱加权TCX解码数据,发送的LPC数据并未以其原状态被使用,而是所述数据与来自对于过去帧所获得的结束帧LPC分析窗口的相应数据求平均。附图说明
[0032] 后续参照附图来描述本发明的优选实施方式,其中:
[0033] 图1a示出了切换音频编码器的框图
[0034] 图1b示出了相应的切换解码器的框图;
[0035] 图1c示出了关于图1b中所示的转换参数解码器的更多细节;
[0036] 图1d示出了关于图1a的解码器的转换编码模式的更多细节;
[0037] 图2a示出了关于应用在编码器中的窗口器的优选实施方式,该窗口器一方面供LPC分析使用,且另一方面供转换编码分析使用,并且是图1b的转换编码解码器中所使用的合成窗口的表示;
[0038] 图2b示出了多于两帧的时间间隔内的对齐LPC分析窗口及TCX窗口的窗口序列;
[0039] 图2c示出了用于从TCX转变成ACELP的情况以及用于从ACELP转变成TCX的转变窗口;
[0040] 图3a示出了图1a的编码器的更多细节;
[0041] 图3b示出了用于决定一帧的编码模式的合成分析程序;
[0042] 图3c示出了用于决定每一帧的模式的另一实施方式;
[0043] 图4a示出了通过利用两个不同的LPC分析窗口为当前帧导出的LPC数据的计算和使用;
[0044] 图4b示出了通过对编码器的TCX分支使用LPC分析窗口来窗口化而获得的LPC数据的使用;
[0045] 图5a示出了用于AMR-WB的LPC分析窗口;
[0046] 图5b示出了为LPC分析的目的而用于AMR-WB+的对称窗口;
[0047] 图5c示出了用于G.718编码器的LPC分析窗口;
[0048] 图5d示出了USAC中所使用的LPC分析窗口;以及
[0049] 图6示出了相对于当前帧的LPC分析窗口的当前帧的TCX窗口。

具体实施方式

[0050] 图1a示出了用于编码具有音频样本流的音频信号的装置。该音频样本或音频数据在100处进入编码器。音频数据被引入窗口器102,以用于对音频样本流应用预测编码分析窗口来获得供预测分析用的窗口化数据。窗口器102还被配置成用于对音频样本流应用转换编码分析窗口以获得供转换分析用的窗口化数据。根据实施方式,LPC窗口并未被直接应用于原 始信号,而是应用于“预先加强”信号(像在AMR-WB、AMR-WB+、G718和USAC中)。另一方面,TCX窗口被直接应用于原始信号(像在USAC中)。然而,这两个窗口也可被应用于相同的信号,或者TCX窗口也可被应用于从原始信号导出(诸如通过用来增强质量或压缩效率的预先加强或任何其他加权)的处理后音频信号。
[0051] 转换编码分析窗口与当前音频样本帧中的音频样本相关联,且与作为转换编码前瞻部分的未来音频样本帧的预定义部分的音频样本相关联。
[0052] 此外,预测编码分析窗口与当前帧的音频样本的至少一部分相关联,且与作为预测编码前瞻部分的未来帧的预定义部分的音频样本相关联。
[0053] 如框102中所概述,转换编码前瞻部分与预测编码前瞻部分彼此对齐,这意味着这些部分是完全相同的或彼此相当接近,诸如彼此不同之处小于20%的预测编码前瞻部分或小于20%的转换编码前瞻部分。优选地,前瞻部分彼此是完全相同的或彼此不同之处甚至小于5%的预测编码前瞻部分或小于5%的转换编码前瞻部分。
[0054] 编码器额外包括编码处理器104,以用于使用供预测分析用的窗口化数据来产生用于当前帧的预测编码数据,或者用于使用供转换分析用的窗口化数据来产生用于当前帧的转换编码数据。
[0055] 此外,编码器优选包括输出接口106,该输出接口106用于通过线108b来接收当前帧,且实际上接收每一帧的LPC数据108a和转换编码数据(诸如TCX数据)或预测编码数据(ACELP数据)。编码处理器104提供这两种数据并接收110a所指示的供预测分析用的窗口化数据以及110b所指示的供转换分析用的窗口化数据作为输入。此外,该用于编码的装置还包括编码模式选择器或控制器112,其接收音频数据100作为输入,且经由控制线114a向编码处理器104提供控制数据或经由控制线114b向输出接口106提供控制数据作为输出。
[0056] 图3a提供了关于编码处理器104和窗口器102的额外细节。窗口器102优选包括,作为第一模块的LPC或预测编码分析窗口器102a以及作为第二组件或模块的转换编码窗口器(诸如TCX窗口器)102b。如箭头300所指示,LPC分析窗口与TCX窗口彼此对齐,使得这两个窗口的前 瞻部分彼此是完全相同的,这意味着这两个前瞻部分延伸至相同的时刻进入未来帧。图3a中从LPC窗口器102a向前到右侧的上部分支是包括LPC分析器及内插器302、感知加权滤波器或加权块304以及预测编码参数计算器306(诸如ACELP参数计算器)的预测编码分支。音频数据100被提供给LPC窗口器102a和感知加权块304。此外,音频数据被提供给TCX窗口器,且从TCX窗口器的输出向右的下部分支构成转换编码分支。该转换编码分支包括时间-频率转换块310、频谱加权块312以及处理/量化编码块314。时频转换块310优选被实施为混迭引入转换,诸如MDCT、MDST或具有大于输出值数目的输入值数目的任一其他转换。时频转换使由TCX或一般而言,转换编码窗口器102b输出的窗口化数据作为输入。
[0057] 尽管图3a指出,对于预测编码分支,LPC处理利用ACELP编码算法,但本领域已知的其他预测编码器(诸如CELP或任一其他时域编码器)也可被应用,但一方面由于其质量且另一方面由于其效率,ACELP算法是优选的。
[0058] 此外,对于转换编码分支,MDCT处理特别是在时间-频率转换块310中是优选的,但任何其他频谱域转换也可被执行。
[0059] 此外,图3a示出了频谱加权312,以用于将块310所输出的频谱值转换到LPC域。该频谱加权312在预测编码分支中使用由块302产生的从LPC分析数据导出的加权数据来执行。然而,可选择地,从时域转换到LPC域也可在时域中执行。在该情况下,LPC分析滤波器将被置于TCX窗口器102b之前以计算预测残余时域数据。然而,已发现从时域转换到LPC域优选是在频谱域中通过使用在频谱域(诸如MDCT域)中从LPC数据转换成相应的加权因子的LPC分析数据来频谱加权转换编码数据而被执行的。
[0060] 图3b示出了用于说明对于每一帧的编码模式的合成分析或“闭合回路”决定的一般概览。为此,图3c中所示的编码器包括完整的转换编码编码器和转换编码解码器,如104b所示,且另外包括完整的预测编码编码器和相应的解码器,如图3c中的104a所指示。两个块104a、104b均接收音频数据作为输入且执行完整的编码/解码操作。接着,用于两个编码 分支104a、104b的编码/解码操作的结果与原始信号相比较,并确定质量测量值以找出哪一编码模式产生更好的质量。该质量测量值可以是分段SNR值或平均分段SNR,举例而言,诸如在
3GPP TS 26.290的5.2.3节中所记载。然而,任何其他质量测量值也可被应用,这通常依赖于编码/解码结果与原始信号的比较。
[0061] 基于从每一分支104a、104b提供给确定器112的质量测量值,该确定器确定当前检验的帧是否将使用ACELP或TCX来编码。继该确定之后,有几种方式来执行编码模式选择。一种方式是确定器112控制相应的编码器/解码器块104a、104b,以简单地向输出接口106输出当前帧的编码结果,使得确保对于某一帧,仅单一的编码结果在输出编码信号107中被发送。
[0062] 可选择地,两个装置104a、104b可将它们准备的编码结果转发至输出接口106,且两个结果被存储在输出接口106中,直到确定器经由线105控制输出接口以从块104b或从块104a输出该结果。
[0063] 图3b示出了关于图3c的概念的更多细节。具体地,块104a包括完整的ACELP编码器和完整的ACELP解码器以及比较器112a。比较器112a向比较器112c提供质量测量值。比较器112b也是如此,其具有由于TCX编码和再次解码信号与原始音频信号的比较的质量测量值。
随后,两个比较器112a、112b向最终比较器112c提供它们的质量测量值。根据哪一质量测量值较好,比较器决定CELP或TCX决策。该决策可通过将额外因素引入决策而被改进。
[0064] 可选择地,用于基于对于当前帧的音频信号的信号分析来确定当前帧的编码模式的开回路模式可被执行。在该情况下,图3c的确定器112将执行当前帧的音频数据的信号分析,且接着将控制ACELP编码器或TCX编码器以实际编码当前音频帧。在该情况下,编码器将不需要完整的解码器,而是单独在编码器内实施编码步骤即足够。开回路信号分类和信号决策例如也在AMR-WB+(3GPP TS 26.290)中记载。
[0065] 图2a示出了窗口器102且特别是由窗口器供给的窗口的优选实施。
[0066] 优选地,当前帧的预测编码分析窗口以第四子帧的中心为中心,且该窗口以200来指示。此外,优选使用另外的LPC分析窗口,即202所指示的且以当前帧的第二子帧的中心为中心的中帧LPC分析窗口。此外,转换编码窗口,举例而言,诸如MDCT窗口204相对于两个LPC分析窗口200、202而被安置,如图所示。具体地,分析窗口的前瞻部分206与预测编码分析窗口的前瞻部分208在时间长度上是相同的。两个前瞻部分延伸10ms到未来帧中。此外,优选转换编码分析窗口不仅具有重迭部分206,而且具有在10与20ms之间的非重迭部分208和第一重迭部分210。重迭部分206和210使得解码器中的重迭相加器在重迭部分中执行重迭相加处理,但重迭相加程序对非重迭部分是不需要的。
[0067] 优选地,第一重迭部分210从帧起点(即,0ms)开始并延伸至帧中心(即,10ms)为止。此外,非重迭部分从帧210的第一部分末端延伸至20ms处的帧末端,使得第二重迭部分206与前瞻部分完全重合。因为从一种模式切换成另一模式,这具有优势。从TCX性能观点来看,较好的是使用具有完全重迭(20ms重迭,如在USAC中)的正弦窗口。然而,对于在TCX与ACELP之间转变,这将需要一种技术,如正向混迭消除。正向混迭消除在USAC中使用,以消除由缺失的下一TCX帧所引入的混迭(被ACELP取代)。正向混迭消除需要大量的位,且因此,并不适于恒定的位率,且特别是低位率编解码器,如所述编解码器的优选实施方式。因此,根据本发明的实施方式,不使用FAC,TCX窗口重迭被减少且窗口向未来移动,使得完全重迭部分206位于未来帧中。此外,当下一帧是ACELP时,图2a中所示的用于转换编码的窗口仍然具有最大重迭,以在当前帧中接收完美重建,且无需使用正向混迭消除。该最大重迭优选被设定成10ms,它是可用的前瞻时间(即,10ms),从图2a中可清楚地看出。
[0068] 虽然图2a已针对编码器而被描述,其中,用于转换编码的窗口204是分析窗口,但应指出的是,窗口204也表示用于转换解码的合成窗口。在优选实施方式中,分析窗口等同于合成窗口,且两个窗口本身是对称的。这意味着两个窗口相对于(平)中心线是对称的。然而,在其他应用中,非对称窗口可被使用,其中,分析窗口与合成窗口在形状上是不同的。
[0069] 图2b示出了过去帧的一部分、后续紧接的当前帧、后续紧接当前帧的未来帧以及后续紧接该未来帧的下一未来帧的窗口序列。
[0070] 清楚的是,250所示的通过重迭相加处理器所处理的重迭相加部分从每一帧的起点延伸至每一帧的中间,即20到30ms之间,以用于计算未来帧数据,以及40到50ms之间以用于计算下一未来帧的TCX数据,或0到10ms之间以用于计算关于当前帧的数据。然而,对于计算每一帧的第二半部中的数据,无重迭相加,且因此,正向混迭消除技术不是必需的。这是因为合成窗口在每一帧的第二半部中具有非重迭部分这一事实。
[0071] 典型地,MDCT窗口的长度是帧长度的2倍。本发明中也是这种情况。然而,当图2a被再度考虑时,变得清楚的是,分析/合成窗口仅从零延伸到30ms,但窗口的完整长度是40ms。该完整长度对提供输入数据以用于MDCT计算的相应的折迭或展开操作是重要的。为了将窗口延伸到14ms的完整长度,5ms的零值被添加到-5到0ms之间,且5秒的MDCT零值也被添加到
30到35ms之间的帧末端。然而,就延迟考虑而言,仅具有零的该添加部分并不起任何作用,因为对编码器或解码器已知的是窗口的最后5ms和窗口最早的5ms是零,因此该数据已经存在且无任何延迟。
[0072] 图2c示出了两个可能的转变。然而,对于从TCX至ACELP的转变,无需特别关注,这是因为当参照图2a假定未来帧是ACELP帧时,则通过TCX解码前瞻部分206的最后帧所获得的数据可简单地被删除,这是因为ACELP帧恰在未来帧的起点开始,且因此,不存在数据孔。ACELP数据是自相一致的,且因此,解码器当从TCX切换成ACELP时使用从TCX对于当前帧所算出的数据,丢弃对于未来帧的由TCX处理所获得的数据,且代之以使用来自ACELP分支的未来帧数据。
[0073] 然而,当从ACELP至TCX的转变被执行时,如图2c中所示的特定转变窗口被使用。该窗口由从0到1的帧的起点开始,具有非重迭部分220且末端具有222所指示的重迭部分,该重迭部分与直接MDCT窗口的重迭部分206完全一样。
[0074] 此外,该窗口在窗口的起点于-12.5ms到0之间且在窗口的末端于30到35.5ms之间(即,前瞻部分222之后)用零填充。这导致增加的转换长度。长度为50ms,但直接分析/合成窗口的长度仅为40ms。然而,这并未降低效率或增加位率,且该较长的转换在发生从ACELP切换成TCX时是必要的。相应的解码器中所使用的转变窗口与图2c中所示的窗口完全相同。
[0075] 随后,解码器被更加详细地讨论。图1b示出了用于解码编码音频信号的音频解码器。该音频解码器包括预测参数解码器180,其中,该预测参数解码器被配置成用于执行来自在181处接收并被输入至接口182的编码音频信号的预测编码帧的数据的解码。解码器另外包括转换参数解码器183,以用于执行来自线181上的编码音频信号的转换编码帧的数据的解码。该转换参数解码器被配置成优选用于执行混迭影响的频谱-时间转换,且用于对转换数据应用合成窗口以获得当前帧及未来帧的数据。合成窗口具有第一重迭部分、相邻的第二非重迭部分以及相邻的第三重迭部分,如图2a中所示,其中,第三重迭部分仅与未来帧的音频样本相关联,且非重迭部分仅与当前帧的数据相关联。此外,重迭相加器184被提供用于将与用于当前帧的合成窗口的第三重迭部分相关联的合成窗口样本和与用于未来帧的合成窗口的第一重迭部分相关联的样本的合成窗口重迭及相加,以获得未来帧的第一部分的音频样本。其余用于未来帧的音频样本是与未来帧的合成窗口的第二非重迭部分相关联的合成窗口化样本,在当前帧及未来帧包括转换编码数据时该合成窗口化样本是在无重迭相加下获得的。然而,当发生从一帧切换成下一帧时,组合器185是有帮助的,它必须照顾从一种编码模式到另一编码模式的良好转换,以最终在组合器185的输出处获得解码音频数据。
[0076] 图1c示出了关于转换参数解码器183的结构的更多细节。
[0077] 该解码器包括解码器处理级183a,其被配置成用于执行解码编码频谱数据所必需的所有处理,诸如算术解码或霍夫曼解码或一般而言,熵解码和后续的解量化、噪声填充等,以在块183的输出处获得解码频谱值。这些频谱值被输入到频谱加权器183b中。频谱加权器183b从LPC加权数 据计算器183c接收频谱加权数据,LPC加权数据计算器183c被馈送从由预测分析块在编码器端所产生的且经由输入接口182在解码器处接收的LPC数据。随后,反频谱转换被执行,其优选地包括DCT-IV反转换183d作为第一级以及后续的在用于未来帧的数据例如被提供给重迭相加器184之前的去折迭和合成窗口化处理183e。当用于下一未来帧的数据可用时,该重迭相加器可执行重迭相加操作。块183d和183e一起构成频谱/时间转换,或在图1c中的实施方式中,优选MDCT反转换(MDCT–1)。
[0078] 具体地,块183d接收20ms帧的数据,且在块183e的去折迭步骤中增加数据容量为40ms的数据,即之前数据量的两倍,且随后,具有40ms长度(当窗口起点及结束的零部分加在一起时)的合成窗口被应用于这些40ms的数据。接着,在块183e的输出处,用于当前块的数据和用于未来块的前瞻部分内的数据是可用的。
[0079] 图1d示出了相应的编码器端处理。在图1d背景下讨论的特征在编码处理器104中被实施或通过图3a中的相应块来实施。图3a中的时间-频率转换310优选被实施为MDCT且包括窗口化、折迭级310a,其中,块310a中的窗口化操作通过TCX窗口器103d来实施。因此,图3a中的块310中的实际第一操作是折迭操作,以使40ms的输入数据恢复成20ms的帧数据。接着,利用现在具有已接收的混迭贡献的折迭数据执行DCT-IV,如块310d中所示。块302(LPC分析)向(LPC至MDCT)块302b提供使用结束帧LPC窗口从分析导出的LPC数据,且块302d通过频谱加权器312产生用于执行频谱加权的加权因子。优选地,TCX编码模式中的用于一个
20ms帧的16个LPC系数优选通过使用oDFT(奇数离散傅里叶转换)被转换成16个MDCT-域加权因子。对于其他模式,诸如具有8kHz采样率的NB模式,LPC系数的数目可以较少,诸如10。
对于具有较高采样率的其他模式,也可以有多于16个的LPC系数。该oDFT的结果是16个加权值,且每一加权值与由块310b获得的频谱数据的频带相关联。频谱加权通过将一个频带的所有MDCT频谱值除以与该频带相关联的同一加权值来进行,以便非常高效地在块312中执行该频谱加权操作。因此,16个频带的MDCT值各自除以相应的加权因子以输出频谱加权的频谱值, 该频谱加权的频谱值接着如本领域所熟知地进一步由块314处理,即例如通过量化和熵编码进一步处理。
[0080] 另一方面,在解码器端,对应于图1d中的块312的频谱加权将是由图1c中所示的频谱加权器183b执行的乘法运算。
[0081] 随后,图4a和图4b被讨论,以概述图2中所示由LPC分析窗口产生或由两个LPC分析窗口产生的LPC数据如何在ACELP模式或在TCX/MDCT模式中被使用。
[0082] 继应用LPC分析窗口之后,自相关计算利用LPC窗口化数据来执行。接着,列文逊-杜宾算法被应用在自相关函数上。随后,用于每一LP分析的16个LP系数,即用于中帧窗口的16个系数和用于结束帧窗口的16个系数,被转换成ISP值。因此,从自相关计算到ISP转换的步骤例如在图4a的块400中被执行。随后,该计算在编码器端通过ISP系数的量化来继续。接着,ISP系数再次被去量化并转换回LP系数域。因此,LPC数据或换句话说,16个与块400中所导出的LPC系数稍有不同(由于量化和去量化)的LPC系数被获得,它们可随后直接被用于第四子帧,如步骤401中所指示。然而,对于其他子帧,优选执行若干内插,例如,如Rec.ITU-T G.718(06/2008)的6.8.3节中所概述。用于第三子帧的LPC数据通过内插结束帧和中帧LPC数据而被算出,如块402所示。优选的内插是每一相应的数据被除以2并加在一起,即结束帧与中帧LPC数据的平均。为计算第二子帧的LPC数据,如块403中所示,内插额外被执行。具体地,最后帧的结束帧LPC数据值的10%,当前帧的中帧LPC数据的80%以及当前帧的结束帧的LPC数据值的10%被使用,以最终计算第二子帧的LPC数据。
[0083] 最终,通过形成最后帧的结束帧LPC数据与当前帧的中帧LPC数据之间的平均值,第一子帧的LPC数据被算出,如块404中所指示。
[0084] 为执行ACELP编码,量化的LPC参数集(即,来自中帧分析)和结束帧分析被发送至解码器。
[0085] 基于通过块401至404所算出的各个子帧的结果,ACELP计算被执行,如块405中所指示,以获得要被发送至解码器的ACELP数据。
[0086] 随后,图4b被描述。在块400中,中帧和结束帧LPC数据再次被算出。然而,由于有TCX编码模式,所以仅结束帧LPC数据被发送至解码器且中帧LPC数据并未被发送至解码器。具体地,并未将LPC系数本身发送至解码器,而是发送ISP转换及量化后所获得的值。因此,优选地,如LPC数据一样,由结束帧LPC数据系数所导出的量化ISP值被发送至解码器。
[0087] 然而,在编码器中,步骤406至408中的程序仍然被执行,以获得用于加权当前帧的MDCT频谱数据的加权因子。为此,当前帧的结束帧LPC数据和过去帧的结束帧LPC数据被内插。然而,优选并不内插由LPC分析直接导出的LPC数据系数本身。而是优选内插由相应的LPC系数所导出的量化和再去量化的ISP值。因此,块406中所用的LPC数据以及块401至404中的其他计算所用的LPC数据始终是优选由每一LPC分析窗口的原始16个LPC系数所导出的量化和再去量化的ISP数据。
[0088] 块406中的内插优选是纯平均化,即相应的值被相加并除以2。接着,在块407中,当前帧的MDCT频谱数据使用内插LPC数据来加权,且在块408中,加权频谱数据的进一步处理被执行,以最终获得要从编码器发送至解码器的编码频谱数据。因此,步骤407中所执行的程序对应于块312,且图4b中的块408中所执行的程序对应于图3a中的块314。相应的操作实际上在解码器端被执行。因此,在解码器端需要相同的内插以便一方面计算频谱加权因子或另一方面通过内插来计算各个子帧的LPC系数。因此,图4a和图4b相对于块401至404或图4b的406中的程序而言同等地适用于解码器端。
[0089] 本发明对低延迟编解码器实施尤其有用。这意指此类编解码器被设计成算法或系统延迟优选低于45ms,且在某些情况下,甚至等于或低于35ms。然而,LPC分析和TCX分析的前瞻部分对获得良好的音频质量是必要的。因此,在两个矛盾要求之间的良好折衷是必要的。已发现一方面延迟与另一方面质量之间的良好折衷可通过具有20ms帧长度的切换音频编码器或解码器来获得,但也发现,15到30ms之间的帧长度值也提供了可接受的结果。另一方面,已发现当就延迟问题而论时,10ms的前瞻部分 是可接受的,但视相应的应用而定,5ms到20ms之间的值也是有用的。此外,已发现当值为0.5时,前瞻部分与帧长度之间的关系是有用的,但0.4到0.6之间的其他值也是有用的。此外,尽管本发明已一方面就ACELP且另一方面就MDCT-TCX而被描述,但在时域中操作的其他算法(诸如CELP或任何其他预测或波形算法)也是有用的。至于TCX/MDCT,其他转换域编码算法(诸如MDST)或任何其他基于转换的算法也可被应用。
[0090] 对LPC分析和LPC计算的特定实施也是如此。优选依赖于之前所述的程序,但用于计算/内插和分析的其他程序也可被使用,只要那些程序依赖于LPC分析窗口。
[0091] 尽管已在装置背景下描述了一些方面,但明确的是,这些方面还表示对相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤背景下描述的方面还表示对相应设备的相应块或项目或者特征的描述。
[0092] 根据具体实施要求,本发明的实施方式可以硬件软件来实施。可使用其上存储有电可读控制信号且该信号与可编程计算机系统协作(或能够协作)的数字存储介质(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行该实施,从而执行相应方法。
[0093] 根据本发明的某些实施方式包括非临时性数据载体,该数据载体具有能与可编程计算机系统协作从而执行本文所述方法中的一种的电可读控制信号。
[0094] 一般地,本发明的实施方式可被实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作地用于执行所述方法中的一种。该程序代码例如可存储在机器可读载体上。
[0095] 其他实施方式包括用于执行本文所述方法之一的计算机程序,所述计算机程序存储在机器可读载体上。
[0096] 因此,换句话说,本发明方法的一种实施方式是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所述的方法之一。
[0097] 因此,本发明方法的另一实施方式是包括记录其中的用于执行本文所述方法之一的计算机程序的数据载体(或数字存储介质,或者计算机可读介质)。
[0098] 因此,本发明方法的另一实施方式是表示用于执行本文所述方法之一的计算机程序的数据流或一系列信号。该数据流或一系列信号例如可被配置为经由数据通信连接(例如,经由互联网)传送。
[0099] 另一实施方式包括处理装置(例如,计算机或可编程逻辑器件),该处理装置被配置为或适用于执行本文所述方法之一。
[0100] 另一实施方式包括计算机,该计算机上安装有用于执行本文所述方法之一的计算机程序。
[0101] 在某些实施方式中,可编程逻辑器件(例如,现场可编程阵列)可被用于执行本文所述的方法的某些或所有功能。在某些实施方式中,现场可编程门阵列可与微处理器协作,以执行本文所述方法之一。一般地,该方法优选由任何硬件设备执行。
[0102] 上述实施方式仅说明了本发明的原理。应理解,本文所述的配置和细节的修改和变更对于本领域其他技术人员而言将是显而易见的。因此,本发明意在仅由所附专利权利要求的范围来限定,而非由本文中通过实施方式的描述和说明给出的具体细节来限定。
QQ群二维码
意见反馈