首页 / 专利库 / 信号处理 / 信号 / 音频信号 / 音频信号解码器中改进的频带扩展

音频信号解码器中改进的频带扩展

阅读:319发布:2020-05-08

专利汇可以提供音频信号解码器中改进的频带扩展专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种用于在解码过程中或改进过程中扩展音频 信号 的频带的方法,该方法包括获得在被称为低频带的第一频带中解码的信号的步骤。该方法为使得其包括以下步骤:从来自该低频带信号的信号中提取(E402) 音调 分量和环境信号;使用多个 能量 水 平控制因子通过自适应混合对这些音调分量和该环境信号进行组合(E403)以获得被称为组合信号的 音频信号 ;在高于该第一频带的至少一个第二频带上在该提取步骤之前对该低频带解码信号或在该组合步骤之后对该组合信号进行扩展(E401a)。本发明还涉及一种实现所描述的方法的频带扩展装置,并且涉及一种包括这种类型的装置的 解码器 。,下面是音频信号解码器中改进的频带扩展专利的具体信息内容。

1.一种用于在解码过程或改进过程中扩展音频信号的频带的方法,该方法包括获得在被称为低频带的第一频带中解码的信号的步骤,该方法的特征在于其包括以下步骤:
- 从由该经解码的低频带信号产生的信号中提取(E402)音调分量和环境信号;
- 使用多个能量平控制因子通过自适应混合对这些音调分量和该环境信号进行组合(E403)以获得被称为组合信号的音频信号
- 在高于该第一频带的至少一个第二频带上在该提取步骤之前对该低频带解码信号或在该组合步骤之后对该组合信号进行扩展(E401a),
所述对这些音调分量和该环境信号的提取是根据以下步骤执行的:
- 通过计算该经解码的或经解码且经扩展的低频带信号的频谱的平均值获得该环境信号;
- 通过从该经解码的或经解码且经扩展的低频带信号中减去所计算的环境信号来获得这些音调分量。
2.如权利要求1所述的方法,其特征在于,该经解码的低频带信号是低频带解码激励信号
3.如权利要求1或2之一所述的方法,其特征在于,所述对这些音调分量和该环境信号的提取是根据以下步骤执行的:
- 在频域中检测该经解码的或经解码且经扩展的低频带信号的主音调分量;
- 通过提取这些主音调分量计算残差信号以获得该环境信号。
4.如权利要求1所述的方法,其特征在于,根据该经解码的或经解码且经扩展的低频带信号与这些音调分量的总能量计算用于该自适应混合的能量水平控制因子。
5.如权利要求3所述的方法,其特征在于,该经解码的低频带信号经历变换步骤或基于滤波器组的子频带分解步骤,该提取步骤和该组合步骤然后在该频域或子频带域中执行。
6.如权利要求1或2之一所述的方法,其特征在于,所述扩展该经解码的低频带信号的步骤是根据以下方程执行的:
其中,k是样本的索引,U(k)是在变换步骤之后获得的该经解码的低频带信号的频谱,UHB(1 k)是该经扩展的信号的频谱,且start_band是预定义的变量。
7.一种用于扩展音频信号的频带的装置,该信号已经在被称为低频带的第一频带中被解码,该装置的特征在于其包括:
用于基于由该经解码的低频带信号产生的信号来提取音调分量和环境信号的模(512);
用于使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合以获得被称为组合信号的音频信号的模块(513);
用于扩展到高于该第一频带的至少一个第二频带上、并且在该提取模块之前在该低频带解码信号上或在该组合模块之后在该组合信号上实现的模块(511),其中,提取音调分量和环境信号的模块被配置用于:
- 通过计算该经解码的或经解码且经扩展的低频带信号的频谱的平均值获得该环境信号;
- 通过从该经解码的或经解码且经扩展的低频带信号中减去所计算的环境信号来获得这些音调分量。
8.一种音频信号解码器,其特征在于,该音频信号解码器包括如权利要求7所述的频带扩展装置。
9.一种能够由频带扩展装置读取的存储介质,在该存储介质上存储有包括多条代码指令的计算机程序,这些代码指令用于执行如权利要求1至6之一所述的频带扩展方法的步骤。

说明书全文

音频信号解码器中改进的频带扩展

技术领域

[0001] 本发明涉及为了对音频信号(如语音、音乐或其他此类信号)进行传输或存储而对其进行编码/解码和处理的领域。
[0002] 更具体地,本发明涉及一种在解码器或处理器中产生音频信号增强的频带扩展方法和装置。

背景技术

[0003] 存在许多技术用于压缩(有损耗)音频信号(如语音或音乐)。
[0004] 通常将用于对话式应用的常规编码方法分类为:波形编码(“脉冲编码调制”PCM、“自适应差分脉冲编码调制”ADPCM、变换编码等);参数编码(“线性预测编码” LPC、正弦编码等);以及通过“合分量析(analysis by synthesis)”对参数进行量化的参数混合编码,其中,CELP(“码激励线性预测”)编码是最著名的示例。
[0005] 对于非对话式应用,(单)音频信号编码的现有技术由通过变换或以子频带进行的感知编码与通过频带复制(光谱频带复制SBR)进行的对高频的参数编码所组成。
[0006] 可以在以下这些著作中找到对常规语音和音频编码方法的回顾:W.B.克莱因(W.B.Kleijn)和K.K.帕利埃尔(K.K.Paliwal)(编辑),《语音编码与合成》(Speech Coding and  Synthesis),爱思唯尔出版社,1995;M.博瑟(M.Bosi)、R.E.高德博格 (R.E.Goldberg),《数字音频编码和标准介绍》(Introduction to Digital Audio Coding and Standards),斯普林格出版社,2002;J.贝尼斯提(J.Benesty)、M.M.松迪(M.M. Sondhi)、Y.黄(Y.Huang)(编辑)《,语音处理手册》(Handbook of Speech Processing),斯普林格出版社,2008。
[0007] 在此,更具体地关注3GPP标准化AMR-WB(“宽带自适应多速率”)编解码器 (编码器和解码器),该编解码器在16kHz的输入/输出频率上进行操作并且其中信号被分成两个子频带:低频带(0kHz-6.4kHz)和高频带(6.4kHz-7kHz),该低频带以12.8kHz进行采样并且由CELP模型进行编码,而该高频带取决于当前的模式在有附加信息或者没有附加信息的情况下通过“频带扩展”(或者“带宽扩展”BWE) 参数化地进行重建。在此,可以注意到的是,在7kHz上对AMR-WB编解码器的编码频带的限制实质上与以下事实相关联:根据在标准ITU-T P.341中所定义的频率掩模并且更具体地通过使用在标准ITU-T G.191中所定义的截断
7kHz以上的频率的所谓“P341”滤波器(此滤波器遵循在P.341中所定义的掩模)在进行标准化(ETSI/3GPP,然后ITU-T)时近似估算在宽带终端的传输过程中的频率响应。然而,理论上,众所周知的是,以16kHz采样的信号可以具有所限定的从0Hz到8000Hz的音频频带;因此,AMR-WB编解码器通过与8kHz的理论带宽进行比较来引入对高频带的限制。
[0008] 在2001年,主要针对关于GSM(2G)和UMTS(3G)的电路模式(CS)电话技术应用对3GPP AMR-WB语音编解码器进行了标准化。还在2003年由ITU-T以建议G.722.2“使用自适应多速率宽带(AMR-WB)以大约16kbit/s进行宽带编码语音”的形式对这种相同的编解码器进行了标准化。
[0009] 它包括从6.6kbit/s到23.85kbit/s的九种比特率(称为模式),并且包括多种连续传输机制(DTX,“不连续传输”)以及多种丢失帧校正机制(“帧擦除隐藏”FEC,有时也称为“包丢失隐藏”PLC),这些连续传输机制具有语音活动检测(VAD)以及来自静音描述帧(SID,“静音插入描述符”)的舒适噪音生成(CNG)。
[0010] 在此不再重复AMR-WB编码和解码算法的细节。可以在以下文献中找到对这种编解码的详细说明:3GPP规范(TS 26.190、26.191、26.192、26.193、26.194、26.204); ITU-T-G.722.2(以及相应的附件和附录);B.贝塞特(B.Bessette)等人的题为《自适应多速率宽带语音编解码器(AMR-WB)》(“The adaptive multirate wideband speech codec(AMR-WB)”)的文章,IEEE语音和音频处理会刊,第10卷,第8期,2002 年,620-636页;以及相关联的3GPP标准和ITU-T标准的源代码。
[0011] AMR-WB编解码器中的频带扩展原理是相当基础的。实际上,高频带(6.4kHz-7 kHz)是通过时间(以每子帧增益的形式应用的)和频率(通过应用线性预测合成滤波器或“线性预测编码”LPC)包络对白噪声进行整形而生成的。在图1中展示了这种频带扩展技术。
[0012] 由线性同余生成器针对每5ms子帧以16kHz生成白噪声uHB1(n),n=0,…,79(框 100)。通过对每个子帧应用增益而及时地形成此噪声uHB1(n);此操作被分解为两个处理步骤(框102、106或109):
[0013] ·计算第一因子(框101)以将白噪声uHB1(n)设置(框102)在与在低频带中以12.8kHz解码的激励u(n),n=0,…,63,的电平类似的电平处:
[0014]
[0015] 在此可以注意到的是,在不对多个采样频率(12.8kHz或16kHz)的差异进行补偿的情况下,通过对具有不同尺寸的(针对u(n)为64并且针对uHB1(n)为80)进行比较来完成对能量的归一化。
[0016] ·然后,获得高频带中的激励(框106或109),形式如下:
[0017]
[0018] 其中,增益 是根据比特率以不同的方式获得的。如果当前帧的比特率<23.85 kbit/s,那么增益 被估算为“盲式(blind)”(也就是说,没有附加信息);在这种情况下,框103通过具有400Hz的截止频率的高通滤波器对在低频带中所解码的信号进行滤波来获得信号 ——此高通滤波器消除了非常低频率的可以使在框104中所作出的估算发生偏移的影响——然后,通过归一化的自相关(框104) 来计算信号 的被表示为etilt的“倾斜度(tilt)”(频谱斜率指示符):
[0019]
[0020] 并且最终,用以下形式来计算
[0021]
[0022] 其中,gSP=1-etilt是应用于有效语音(SP)帧的增益,gBG=1.25gSP是应用于与背景(BG)噪声相关联的无效语音帧的增益,并且wSP是取决于语音活动检测(VAD) 的加权函数。应理解的是,对倾斜度(etilt)的估算使得有可能根据信号的频谱性质对高频带的电平进行适配;当CELP解码信号的频谱斜率为使得在频率增加时平均能量减少时(语音信号的情况,其中,etilt接近于1,因此,gSP=1-etilt被由此减小),这种估算尤其重要。还应注意的是,AMR-WB解码中的因子 是有界的,在区间[0.1, 1.0]内取值。实际上,对于其频谱在高频率下具有更多能量的信号(etilt接近于-1,gSP接近于2),增益 通常被低估。
[0023] 以23.85kbit/s,校正信息项由AMR-WB编码器所传输并且被解码(框107、框 108)以便改进针对每个子帧所估算的增益(每5毫秒4比特或0.8kbit/s)。
[0024] 然后,通过具有传递函数1/AHB(z)并且以16kHz的采样频率进行操作的LPC合成滤波器来对人工激励uHB(n)进行滤波(框111)。这种滤波器的构造取决于当前帧的比特率:
[0025] ·以6.6kbit/s,通过按照因子γ=0.9对阶数为20的LPC滤波器 进行加权来获得滤波器1/AHB(z),这对在低频带中(以12.8kHz)所解码的阶数为16的 LPC滤波器进行“外插”——在标准G.722.2第6.3.2.1节中描述了在ISF(导抗频谱频率)参数领域中进行的外插的细节。在这种情况下,
[0026]
[0027] ·以比特率>6.6kbit/s,滤波器1/AHB(z)的阶数为16,并且简单对应于:
[0028]
[0029] 其中,γ=0.6。应注意的是,在这种情况下,在16kHz上使用滤波器 这导致此滤波器的频率响应从[0kHz,6.4kHz]扩展(通过比例变换)至[0kHz,8kHz]。
[0030] 结果sHB(n)最终由FIR(“有限脉冲响应”)类型的带通滤波器(框112)处理以仅保留6kHz-7kHz的频带;以23.85kbit/s,同样为FIR类型的低通滤波器(框113) 被添加到处理过程中以进一步衰减7kH以上的频率。高频(HF)合成最终被添加(框 130)到通过框120至框
123所获得的低频(LF)合成中并且被以16kHz进行重采样 (框123)。从而,即使在AMR-WB编解码器中高频带理论上从6.4kHz扩展至7kHz, HF合成在与LF合成相加之前而是被包含在
6kHz-7kHz频带中。
[0031] 可以对AMR-WB编解码器的频带扩展技术的许多缺点进行标识:
[0032] ·高频带中的信号是成形的白噪声(针对每子帧通过时间增益、通过1/AHB(z) 滤波和带通滤波形成),这不是在6.4-7kHz频带中的信号的良好的一般模型。例如,存在非常谐调的音乐信号,针对这些音乐信号,6.4-7kHz频带包含正弦分量(或音调)并且没有噪声(或极少噪声);针对这些信号,AMR-WB编解码器的频带扩展大大降低了质量
[0033] ·在7kHz上的低通滤波器(框113)在低频带与高频带之间引入了几乎1ms 的偏移,这可能会通过以23.85kbit/s对这两个频带稍微进行去同步而降低某些信号的质量——这种去同步还会在将比特率从23.85kbit/s切换至其他模式时带来多种问题。
[0034] ·对每个子帧的增益(框101、框103至框105)的估算不是最佳的。部分地,它是基于对不同频率上的信号之间的每子帧“绝对”能量所进行的均衡(框101): 16kHz上的人工激励(白噪声)以及12.8kHz上的信号(经解码的ACELP激励)。具体地,可注意到的是,这种方法隐含地引起了对高频带激励的衰减(按照比例12.8/16 =0.8进行);实际上,还将注意的是,在AMR-WB编解码器中未对高频带进行去加重,这隐含地引起了相对接近于0.6的放大(这对应于1/(1-0.68z-1)在6400Hz处的频率响应的值)。实际上,因子1/0.8与0.6得到了近似补偿。
[0035] ·关于语音,记录于3GPP报告TR 26.976中的3GPP AMR-WB编解码器特征化测试已经示出以23.85kbit/s的模式具有与在23.05kbit/s上的模式相比不是很好的质量,其质量实际上类似于以15.85kbit/s的模式的质量。这具体地示出了必须非常谨慎地控制人工HF信号的电平,因为质量在23.85kbit/s上降低,而每帧4比特被认为是有可能使得最接近于原始高频的能量。
[0036] ·将经编码的频带限制到7kHz是应用声学终端的传输响应的严格模型(ITU- T G.191标准中的滤波器P.341)引起的。现在,针对16kHz的采样频率,在7-8kHz 频带中的频率(特别是针对音乐信号)保持为重要的以确保良好的品质平。
[0037] AMR-WB解码算法已经随着在2008年标准化的可扩展ITU-TG.718编解码器的发展被部分地改进。
[0038] ITU-T G.718标准包括所谓的可互操作模式,针对该可互操作模式,核心编码在 12.65kbit/s与G.722.2(AMR-WB)编码是可兼容的;此外,G.718解码器具有能够以 AMR-WB编解码器的所有可能的比特率(从6.6kbit/s至23.85kbit/s)解码 AMR-WB/G.722.2比特流的具体特征。
[0039] 图2展示了在低延迟模式(G.718-LD)下的G.718可互操作解码器。以下是由在 G.718解码器中的AMR-WB比特流解码功能提供的改进项列表,当需要时参照图1:
[0040] 频带扩展(例如在建议G.718的第7.13.1条中描述的,框206)与AMR-WB解码器的频带扩展完全相同,除了6-7kHz带通滤波器与1/AHB(z)合成滤波器(框111 和框112)的顺序相反。此外,在23.85kbit/s下,由AMR-WB编码器每子帧传输的 4比特未用在可互操作的G.718解码器中;以23.85kbit/s的高频(HF)合成因此完全等同于23.05kbit/s,这避免了在23.85kbit/s下的AMR-WB解码品质的已知问题。更不用说,不使用7kHz低频带滤波器(框
113),并且23.85kbit/s模式的特定解码被省略(框107至框109)。
[0041] 通过框208中的“噪声”(通过降低电平来“增强”静音的品质)、高通滤波(框 209)、框210的使在低频下的交叉谐波噪声衰减的低频后置滤波器(称作“低音后置滤波器”)以及在框211中利用饱和控制(利用增益控制或AGC)转换成16位整数在G.718中实现以
16kHz对合成进行后处理(参见G.718第7.14条)。
[0042] 然而,在AMR-WB和/或G.718(可互操作模式)编解码器中的频带扩展仍然受限于多个方面。
[0043] 具体地,通过成形的白噪声高频合成(通过LPC源-滤波器类型的时间方法)是在高于6.4kHz的频带中的信号的非常有限的模型。
[0044] 仅6.4-7kHz频带是人工重新合成的,而实际上更宽的频带(高达8kHz)理论上有可能处于16kHz的采样频率,这使得如果信号不被在ITU-T的软件工具库(标准 G.191)中定义的P.341类型(50-7000Hz)的滤波器预先处理则可以潜在地增强信号的品质。
[0045] 因此,需要改进在AMR-WB型编解码器或此编码器的可互操作版本中的频带扩展或者更一般地改进音频信号的频带扩展,具体地以便改进频带扩展的频率含量。

发明内容

[0046] 本发明改善了这种状况。
[0047] 本发明针对此目的提出一种用于在解码过程中或改进过程中扩展音频信号的频带的方法,该方法包括获得在被称为低频带的第一频带中解码的信号的步骤。该方法如此使得其包括以下步骤:
[0048] -从由该经解码的低频带信号产生的信号中提取音调分量和环境信号;
[0049] -使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合以获得被称为组合信号的音频信号;
[0050] -在高于该第一频带的至少一个第二频带上,在该提取步骤之前对该低频带解码信号或在该组合步骤之后对该组合信号进行扩展。
[0051] 应注意的是,“频带扩展”随后将在广泛意义上被采用并且将不仅包括在高频率下扩展子频带的情况而且包括替代被设置为零的子频带的情况(在变换编码中的“噪声填充”类型)。
[0052] 因此,在同一时间通过将从由低频带的解码产生的信号中提取的音调分量和环境信号考虑在内,相比于使用人工噪声,有可能利用适合于信号的性质的信号模型执行频带扩展。频带扩展的品质因此被改进并且特别是针对某些类型的信号(如音乐信号)。
[0053] 实际上,在低频带中解码的信号包括与声音环境对应的部分,该部分可以用这种方式被转位成高频,使得将谐波分量与现有的环境进行混合使有可能确保一致的重建高频带。
[0054] 将注意的是,即使本发明是以在可互操作AMR-WB编码的背景下提高频带扩展的品质为动机,但不同的实施例适用于音频信号的频带扩展的更一般的情况,特别是在增强装置对音频信号执行分析以提取频带扩展所需的参数时。
[0055] 以下提及的不同的具体实施例可以被单独地或彼此组合地添加至以上所定义的扩展方法的步骤中。
[0056] 在一个实施例中,频带扩展是在激励域中执行的并且经解码的低频带信号是低频带解码激励信号
[0057] 这个实施例的优点是在激励域中,不加窗(或等效地具有帧长度的隐式矩形窗) 的变换是有可能的。在这种情况下,然后没有伪像(块效应)可被听到。
[0058] 在第一实施例中,所述对这些音调分量和该环境信号的提取是根据以下步骤执行的:
[0059] -在频域中检测该经解码的或经解码且经扩展的低频带信号的主音调分量;
[0060] -通过提取这些主音调分量计算残差信号以获得该环境信号。
[0061] 此实施例允许精确地检测这些音调分量。
[0062] 在具有低复杂度的第二实施例中,所述对这些音调分量和该环境信号的提取是根据以下步骤执行的:
[0063] -通过计算该经解码的或经解码且经扩展的低频带信号的频谱的平均值获得该环境信号;
[0064] -通过从该经解码的或经解码且经扩展的低频带信号中减去所计算的环境信号来获得这些音调分量。
[0065] 在组合步骤的一个实施例中,根据该经解码的或经解码且经扩展的低频带信号与这些音调分量的总能量计算用于该自适应混合的能量水平控制因子。
[0066] 此控制因子的应用允许组合步骤来适配信号的特点以优化环境信号在该混合物中的相对比例。能量水平因此受到控制从而避免可听伪像。
[0067] 在优选实施例中,该经解码的低频带信号经历变换步骤或基于滤波器组的子频带分解步骤,该提取步骤和该组合步骤然后在该频率或子频带域中执行。
[0068] 在频域中实现频带扩展使得有可能获得使用时间方法不可获得的频率分析的细度,并且使得有可能还使频率分辨率足以检测这些音调分量。
[0069] 在详细的实施例中,经解码且经扩展的低频带信号是根据以下方程获得的:
[0070]
[0071] 其中,k是样本索引,U(k)是在变换步骤之后获得的信号的频谱,UHB1(k)是该经扩展的信号的频谱,且start_band是预定义的变量。
[0072] 因此,此函数包括通过将样本添加到此信号的频谱中对信号进行重采样。然而,扩展信号的其他方式是可能的,例如通过子频带处理的平移。
[0073] 本发明还设想了一种用于扩展音频信号的频带的装置,该信号已经在被称为低频带的第一频带中被解码。该装置如此使得其包括:
[0074] -用于基于由该经解码的低频带信号产生的信号提取音调分量和环境信号的模块;
[0075] -用于使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合以获得被称为组合信号的音频信号的模块;
[0076] -用于扩展到高于该第一频带的至少一个第二频带上、并且在该提取模块之前在该低频带解码信号上或在该组合模块之后在该组合信号上实现的模块。
[0077] 这种装置展现了与其所实现的前述方法相同的优点。
[0078] 本发明的目标在于一种包括所述装置的解码器。
[0079] 本发明的目标在于一种包括代码指令的计算机程序,当由处理器执行这些指令时,这些代码指令用于实现所述的频带扩展方法的步骤。
[0080] 最后,本发明涉及一种存储介质,该存储介质可由处理器读取、合并或不合并在频带扩展装置中、可能是可移除的、存储用于实现先前所描述的频带扩展方法的计算机程序。附图说明
[0081] 通过阅读以下仅作为非限制性示例给出并且参照这些附图所作出的描述,本发明的其他特征和优点将变得更清晰明显,其中:
[0082] -图1展示了实现现有技术的频带扩展步骤并且如之前所述的AMR-WB类型的解码器的一部分;
[0083] -图2展示了根据现有技术并且如先前所描述的一种16kHz G.718-LD可互操作类型的解码器;
[0084] -图3展示了根据本发明的实施例的一种可与AMR-WB编码互操作的、合并频带扩展装置的解码器;
[0085] -图4以流程图的形式展示了根据本发明的实施例的频带扩展方法的主要步骤;
[0086] -图5展示了根据本发明的整合到解码器中的频带扩展装置在频域中的实施例;并且
[0087] -图6展示了根据本发明的频带扩展装置的硬件实现。

具体实施方式

[0088] 图3展示了可与AMR-WB/G.722.2标准相容的示例性解码器,在该标准中,存在与在G.718中介绍的并且参照图2描述的后处理类似的后处理以及根据本发明的扩展方法的、由框309所展示的频带扩展装置实现的改进的频带扩展。
[0089] 不像以16kHz输出采样频率进行操作的AMR-WB解码和以8kHz或16kHz操作的G.718解码器,在此考虑可以通过使用fs=8kHz、16kHz、32kHz或48kHz的频率的输出(合成)信号进行操作的解码器。注意到,在此假设的是,已经根据 AMR-WB算法执行编码,其中,12.8kHz的内部频率用于低频带CELP编码,并且在23.85kbit/s下,子帧增益编码的频率为16kHz,但是AMR-WB编码器的可互操作的变体也是可能的;虽然本发明在此是在解码层级上进行描述的,但在此假设的是,编码还可以用fs=8kHz、16kHz、32kHz或48kHz频率的输入信号进行操作,并且根据fs的值对编码实现超出本发明内容的合适的重采样操作。可以注意到,当在解码器fs=8kHz时,在与AMR-WB相容的解码的情况下,不需要扩展0kHz-6.4kHz低频带,因为以频率fs重建的音频带被限制于0Hz-4000Hz。
[0090] 在图3中,CELP解码(低频LF)如在AMR-WB和G.718中那样仍然以12.8kHz 的内部频率进行操作,而作为本发明主题的频带扩展(高频HF)以16kHz的频率进行操作,并且在合适的重采样(框307和框311)之后以频率fs将LF合成与HF合成进行组合(框312)。在本发明的变体中,可以在已经对从12.8kHz到16kHz的低频带进行重采样之后、以频率fs对组合信号进行重采样之前以16kHz将低频带与高频带进行组合。
[0091] 根据图3的解码取决于与所接收到的当前帧相关联的AMR-WB模式(或比特率)。作为指示并且在不影响框309的情况下,在低频带中对CELP部分进行解码包括以下步骤:
[0092] ·在正确接收到帧的情况下(bfi=0,其中,bfi是“坏帧指示符”,对于所接收到的帧的值为0并且对于丢失帧的值为1),对这些编码的参数进行解复用(框300);
[0093] ·如在标准G.722.2的条款6.1中所描述的,通过内插以及转换成LPC系数对 ISF参数进行解码(框301);
[0094] ·通过用于以12.8kHz在每个长度为64的子帧中重建激励(exc或u'(n))的自适应和固定部分对CELP激励进行解码(框302):
[0095]
[0096] 通过遵循G.718第7.1.2.1条的符号,就CELP解码而言,其中,v(n)和c(n)分别是自适应词典和固定词典的码字,并且 和 是相关联的解码增益。在下一个子帧的自适应词典中使用此激励u'(n);然后,对该激励进行后处理,并且,按照G.718,将激励u'(n)(也被表示为exc)与其经修改的后处理版本u(n)(也被表示为exc2)区别开来,该后处理版本充当在框303中的合成滤波器 的输入。在可实现用于本发明的变体中,在不影响根据本发明的频带扩展方法的性质的情况下,可以对应用于激励的后处理操作进行修改(例如,可以增强相分散),或者可以对这些后处理操作进行扩展(例如,可以实现交叉谐波噪声的降低);
[0097] ·通过 进行合成滤波(框303),其中,解码的LPC滤波器 具有为 16的阶数;
[0098] ·如果fs=8kHz,则根据G.718的条款7.3进行窄带后处理(框304);
[0099] ·通过滤波器1/(1-0.68z-1)来进行去加重(框305);
[0100] ·如在G.718第7.14.1.1条中所描述的对低频率进行后处理(框306)。这种处理引入了延迟,在对高频带(>6.4kHz)的解码过程中将该延迟考虑在内;
[0101] ·以输出频率fs对12.8kHz的内部频率进行重采样(框307)。许多实施例是可能的。在不失一般性的情况下,通过示例的方式在此考虑:如果fs=8kHz或16kHz,则在此重复G.718第7.6条中所描述的重采样,并且如果fs=32kHz或48kHz,则使用多个附加有限脉冲响应(FIR)滤波器;
[0102] ·如在G.718第7.14.3条中所描述的优先执行的“噪声门”参数计算(框308)。
[0103] 在可实现用于本发明的变体中,在不影响频带扩展的性质的情况下,可以对应用于激励的后处理操作进行修改(例如,可以增强相分散),或者可以对这些后处理操作进行扩展(例如,可以实现对交叉谐波噪声的降低)。当在3GPP AMR-WB标准中提供信息的当前帧丢失(bfi=1)时,我们在此不描述低频带解码的情况;一般地,无论处理AMR-WB解码器还是依赖于源-滤波器模型的通用解码器,其通常涉及最佳估算LPC激励和LPC合成滤波器的系数以重构丢失的信号同时保持源-滤波器模型。当bfi=1时,在此考虑频带扩展(框309)可以像在bfi=0且比特率<23.85kbit/s的情况一样操作;因此,在不失一般性的情况下,本发明的描述随后将假定bfi=0。
[0104] 可以注意的是,对框306、框308、框314的使用是可选的。
[0105] 还将注意的是,上述对低频带的解码采取具有在6.6kbit/s与23.85kbit/s之间的比特率的所谓“有效”当前帧。实际上,当激活DTX模式时,某些帧可以被编码成“无效的”,并且在这种情况下,有可能传输静止描述符(在35个比特上)或者什么都不传输。具体而言,回想起,AMR-WB编码器的SID帧描述了若干参数:在8个帧上取平均的多个ISF参数、在8个帧上的平均能量、非平稳噪声的重建的“抖动标记”。在所有情况下,对于针对当前帧进行激励或LPC滤波器的重建,在解码器中存在与针对有效帧相同的解码模式,这使得有可能将本发明甚至应用到无效帧中。同样的情况适用于对“丢失帧”的解码(或FEC、PLC),其中,LPC模型被应用。
[0106] 此示例性解码器在激励域内操作并且因此包括解码低频带激励信号的步骤。在本发明含义内的频带扩展装置和频带扩展方法还在与激励域不同的域内操作并且具体地使用低频带解码直接信号或由感知滤波器加权的信号操作。
[0107] 不像AMR-WB或G.718解码,所描述的解码器使得有可能将经解码的低频带(50 Hz-6400Hz,将解码器上的50Hz高通滤波考虑在内,一般情况下为0Hz-6400Hz) 扩展至经扩展的频带,该经扩展的频带的宽度根据在当前帧中所实现的模式大致从 50Hz-6900Hz至
50Hz-7700Hz范围内变化。从而,其有可能指0Hz至6400Hz的第一频带以及6400Hz至8000Hz的第二频带。实际上,在有利实施例中,针对高频率并且在从5000Hz至8000Hz的频带中的频域内生成的激励允许宽度为6000Hz至 6900Hz或至7700Hz的带通滤波,其斜率在被拒的上频带中不是太陡。
[0108] 在表示根据本发明的并且在一个实施例中在图5中详细描述的频带扩展装置的框309中产生高频带合成部分。
[0109] 为了对准经解码的低频带和高频带,引入延迟(框310)以使框306和框309的输出同步并且从16kHz到频率fs(框311的输出)对以16kHz合成的高频带进行重采样。将必须根据所实现的处理操作针对其他情况(fs=32,48kHz)对延迟T的值进行适配。将回想起,当fs=8kHz时,不必应用框309至框311,因为在解码器的输出端处的信号的频带被限制于0Hz-4000Hz。
[0110] 将注意,根据第一实施例在框309中实现的本发明的扩展方法相对于以12.8kHz 重建的低频带优选地不引入任何附加的延迟;然而,在本发明的变体中(例如,通过重叠的时间/频率变换),将能够引入延迟。从而,通常,将需要根据具体的实现方式必须调整框310中的T值。例如,在低频后处理(框306)不被使用的情况中,针对 fs=16kHz有待引入的延迟可以固定为T=15。
[0111] 然后,在框312中对低频带和高频带进行组合(相加),并且所获得的合成由2 阶的(IIR类型的)50Hz高通滤波进行后处理,该滤波的系数取决于频率fs(框313),并且以类似于G.718的方式通过可选地应用“噪声门”来进行输出后处理(框314)。
[0112] 由根据图5的解码器的实施例的框309展示的根据本发明的频带扩展装置实现了现在参照图4描述的频带扩展方法(在广泛的含义上)。
[0113] 此扩展装置还可以独立于解码器,并且可以实现在图4中描述的、用于通过分析音频信号以从其中提取例如激励和LPC滤波器来对存储至或传输至该装置的现有音频信号进行频带扩展的方法。
[0114] 此装置接收在被称为低频带u(n)的第一频带中解码的信号作为输入,这可以是在激励域或在那个信号的域中。在此处描述的实施例中,通过时间频率变换或滤波器组实现的子频带分解步骤(E401b)应用于低频带解码信号以获得低频带解码信号的频谱U(k)从而在频域中实现。
[0115] 在高于第一频带的第二频带中扩展低频带解码信号以获得经扩展的低频带解码信号UHB1(k)的步骤E401a可以在分析步骤(分解成子频带)之前或之后在此低频带解码信号上执行。此扩展步骤可以包括在同一个时间的重采样步骤和扩展步骤或者根据在输入端获得信号仅包括频率平移或换位步骤。将注意的是,在变体中,将能够在图 4中描述的处理结束时(也就是说,在组合信号上)执行步骤E401a,然后在扩展之前主要在低频带信号上执行此处理,结果是等效的。
[0116] 随后在参照图5的实施例中详细描述这个步骤。
[0117] 所述提取环境信号(UHBA(k))和音调分量(y(k))的步骤E402是基于经解码的低频带信号(U(k))或经解码且经扩展的低频带信号(UHB1(k))执行的。环境在此被定义为残差信号,该残差信号是通过从现有信号中删除主要的(或主)谐波(或音调分量)获得的。
[0118] 在大多数宽带信号中(以16kHz采样),高频带(>6kHz)包含环境信息,该环境信息通常类似于存在于低频带中的环境信息。
[0119] 所述提取音调分量和环境信号的步骤例如包括以下步骤:
[0120] -在频域中检测该经解码的(或经解码且经扩展的)低频带信号的主音调分量;并且
[0121] -通过提取这些主音调分量计算残差信号以获得该环境信号。
[0122] 这个步骤还可以是通过以下各项获得的:
[0123] -通过计算该经解码的(或经解码且经扩展的)低频带信号的平均值获得该环境信号;并且
[0124] -通过从该经解码的或经解码且经扩展的低频带信号中减去所计算的环境信号获得这些音调分量。
[0125] 然后,在步骤E403中在能量水平控制因子的帮助下以自适应的方式对音调分量和环境信号进行组合以获得所谓的组合信号(UHB2(k))。如果还未在经解码的低频带信号上执行扩展步骤E401a,则然后可以实现该步骤。
[0126] 因此,组合这两种类型的信号使得有可能获得组合信号,该组合信号具有更适合于某些类型的信号(如音乐信号以及在频率内容中和在对应于包括第一频带和第二频带的整个频带的经扩展的频带中更丰富的信号)的特点。
[0127] 根据该方法的频带扩展相对于在AMR-WB标准中描述的扩展改善了这种类型的信号的品质。
[0128] 使用环境信号与音调分量的组合使得有可能丰富此扩展信号以便对其进行渲染从而更接近真实信号而非人工信号的特点。
[0129] 随后将参照图5详细地描述这个组合步骤。
[0130] 在E404b执行对应于在401b的分析的合成步骤从而将信号恢复至时域。
[0131] 以可选的方式,在合成步骤之前和/或之后通过应用增益和/或通过适当的滤波可以在E404a执行高频带信号的能量水平调整步骤。将在图5描述的实施例中针对框 501至框507更详细地解释这个步骤。
[0132] 在示例性实施例中,现在参照图5描述频带扩展装置500,该图在同一时间展示了此装置还有适合于利用AMR-WB编码在可互操作类型的解码器中实现的处理模块。此装置500实现了先前参照图4描述的频带扩展方法。
[0133] 因此,处理框510接收经解码的低频带信号(u(n))。在具体实施例中,频带扩展使用12.8kHz的解码激励(exc2或u(n))作为图3的框302的输出。
[0134] 此信号被子频带分解模块510(该子频带分解模块实现图4的步骤E401b)分解成频率子频带,该子频带分解模块通常执行变换或应用滤波器组以获得分解成信号 u(n)的子频带U(k)。
[0135] 在具体实施例中,DCT-IV(“离散余弦变换”——IV型)(框510)型变换应用于20ms(256个样本)的当前帧(未加窗),这相当于根据以下公式直接变换u(n),其中,n=0,…,255:
[0136]
[0137] 其中,N=256且k=0,…,255。
[0138] 当在激励域而非信号域中执行处理时,一种无加窗(或等效地具有帧长度的隐式矩形窗)的变换是有可能的。在这种情况下,没有伪像(块效应)是可听见的,由此构成本发明的这个实施例的显著优点。
[0139] 在本实施例中,DCT-IV变换是根据在D.M.张(D.M.Zhang)、H.T.李(H.T.Li) 的文章《低复杂性变换——演进型DCT》(A Low Complexity Transform–Evolved DCT),IEEE第14届计算科学与工程(CSE)国际会议,2011年8月,144-149页中所描述的所谓“演进型DCT(EDCT)”算法通过FFT实现的,并且是在标准ITU-T G.718 附件B和G.729.1附件E中实现的。
[0140] 在本发明的变体中,并且不失一般性地,将能够以具有相同长度且在激励域或在信号域中的其他短期时间频率变换来替代DCT-IV变换,如FFT(“快速傅里叶变换”) 或者DCT-II(“离散余弦变换”——类型II)。可替代地,将有可能以具有重叠相加并且具有比当前帧的长度更长的长度的窗口的变换来替代帧上的DCT-IV,例如,通过使用MDCT(“经修改的离散余弦变换”)。在这种情况下,将必须根据由于通过此变换进行的分析/合成所导致的附加延迟来适当地调整(减小)在图3的框310中的延迟T。
[0141] 在另一个实施例中,通过应用例如PQMF(伪QMF)型实数或复数滤波器组执行子频带分解。针对某些滤波器组,在给定帧中针对每个子频带,获得的不是频谱值而是与子频带相关联的一系列时间值;在这种情况下,可以通过执行例如每个子频带的变换并且通过在绝对值域中计算环境信号来应用本发明中有利的实施例,音调分量仍然是通过信号(以绝对值计)与环境信号之间的差异获得的。在复数滤波器组的情况下,样本的复数模量将取代绝对值。
[0142] 在其他实施例中,本发明将被应用于使用两个子频带的系统,低频带通过变换或通过滤波器组被分析。
[0143] 在DCT的情况中,覆盖频带0Hz-6400Hz的256个样本(以12.8kHz)的DCT 频谱U(k)然后被扩展(框511)成覆盖频带0Hz-8000Hz的320个样本(以16kHz) 的频谱,形式如下:
[0144]
[0145] 其中,优先取start_band=160。
[0146] 框511实现图4的步骤E401a,也就是说,实现低频带解码信号的扩展。此步骤还可以包括通过向频谱添加1/4的样本(k=240,…,319)来在频域中执行从12.8kHz到 16kHz的重采样,16与12.8的比值为5/4。
[0147] 在对应于范围从索引200至239的样本的频带中,原始频谱被保留,以能够在此频带中向其应用高通滤波器的渐进式衰减响应并且还不向将低频合成添加至高频合成的步骤中引入可听缺陷
[0148] 将注意的是,在此实施例中,生成过采样的或经扩展的频谱是在从5kHz至8kHz 范围上的频带(因此包括高于第一频带(0kHz-6.4kHz)的第二频带(6.4kHz-8kHz)) 中执行的。
[0149] 从而,至少在第二频带上而且还在第一频带的一部分上执行经解码的低频带信号的扩展。
[0150] 显然,定义这些频带的值可以根据本发明所应用于其中的解码器或处理装置而不同。
[0151] 此外,因为UHB1(k)的前200个样本被设为零,框511在0Hz-5000Hz频带中执行隐式高通滤波。如稍后所解释的,还可以通过在5000Hz-6400Hz频带中索引为 k=200,…,255的频谱值的渐进式衰减的一部分来补足此高通滤波;这种渐进式衰减是在框501中实现的,但可以在框501外部被单独地执行。等效地,并且在本发明的变体中,将因此能够在单个步骤中执行实现在索引为k=0,…,199的系数被设为零的多个框中进行的高通滤波、衰减在变换域中的系数k=200,…,255。
[0152] 在本示例性实施例中并且根据UHB1(k)的定义,将注意的是,UHB1(k)的5000 Hz-6000Hz频带(其对应于索引k=200,…,239)是从U(k)的5000Hz-6000Hz频带复制过来的。这种方式使得有可能在对HF合成与LF合成进行相加时将原始频谱保持在此频带中并且避免在5000Hz-6000Hz频带中引入失真——具体地,在此频带中信号的相(隐含地表示在DCT-IV域中)被保留。
[0153] 在此,因为start_band的值被优先设置为160,所以通过复制U(k)的4000Hz-6000 Hz频带来定义UHB1(k)的6000Hz-8000Hz频带。
[0154] 在实施例的变体中,在不改变本发明的性质的情况下,将能够使start_band的值围绕值160为自适应的。在此不对start_band值的自适应细节进行描述,因为它们超出了本发明的框架但是不改变其范围。
[0155] 在大多数宽带信号中(以16kHz采样的),高频带(>6kHz)包含环境信息,该环境信息本质上类似于存在于低频带中的环境信息。环境在此被定义为残差信号,该残差信号是通过从现有信号中删除主要的(或主)谐波获得的。在6000Hz-8000Hz 频带中的调谐性水平通常与低频带的调谐性水平相关联。
[0156] 这种经解码且经扩展的低频带信号被提供作为扩展装置500的输入并且具体地作为模块512的输入。因此,用于提取音调分量和环境信号的框512在频域中实现了图4的步骤E402。因此针对第二频带(所谓的高频)获得环境信号(UHBA(k),其中, k=240,…,319)(80个样本),以便随后在组合框513中以自适应的方式将其与所提取的音调分量y(k)进行组合。
[0157] 在具体实施例中,提取这些音调分量和该环境信号(在6000-8000Hz频带中) 是根据以下操作执行的:
[0158] ·计算经扩展的解码低频带信号的总能量enerHB:
[0159]
[0160] 其中,ε=0.1(此值可以是不同的,举例来讲,其在此是固定的)。
[0161] ·(逐频谱线地)计算在此对应于频谱的平均水平lev(i)的环境(以绝对值计) 并且(在高频频谱中)计算主音调分量的能量enertonal
[0162] 其中,i=0...L-1,此平均值是通过以下等式获得的:
[0163]
[0164] 这对应于平均水平(以绝对值)并因此代表了频谱包络的类别。在此实施例中, L=80且表示频谱的长度并且从0至L-1的索引i对应于从240至319的索引j+240,即,从6kHz至8kHz的频谱。
[0165] 通常,fb(i)=i-7且fn(i)=i+7,然而,前7个索引和后7个索引(i=0,…,6和 i=L-7,…,L-1)需要特殊的处理并且不失一般性地我们然后定义:
[0166] fb(i)=0且fn(i)=i+7,其中,i=0,…,6
[0167] fb(i)=i-7且fn(i)=L-1,其中,i=L-7,…,L-1
[0168] 在本发明的变体中,平均值|UHB1(j+240)|,j=fb(i),...,fn(i)可以由在相同值集上的中间值替换,即,
[0169] lev(i)=medianj=fb(i),...,fn(i)(|UHB1(j+240)|)此变体具有比滑动平均值更复杂(在计算量方面)的缺点。在其他变体中,非均匀加权可以应用于这些平均项,或者中值滤波可以例如用“层叠滤波器”类型的其他非线性滤波器替换。
[0170] 还计算残差信号:
[0171] y(i)=|UHB1(i+240)|-lev(i),i=0,...,L-1
[0172] 如果值y(i)在给定的频谱线i处为正(y(i)>0),则该残差信号(大致)对应于音调分量。
[0173] 此计算因此涉及隐式检测音调分量。在代表自适应阈值的中间项y(i)的帮助下,这些音调分量因此被隐式检测到。检测条件为y(i)>0。在本发明的变体中,可以例如通过根据信号的局部包络定义自适应阈值或以形式y(i)>lev(i)+xdB,其中,x具有预定义的值(例如,x=10dB)来改变此条件。
[0174] 主音调分量的能量是由以下方程式定义的:
[0175]
[0176] 当然可以设想用于提取环境信号的其他方案。例如,此环境信号可以是从低频率信号或可选地另一个频带(或若干频带)中提取的。
[0177] 音调尖峰或音调分量的检测可以以不同方式完成。
[0178] 还可以在经解码的但未经扩展的激励上(也就是说,在频谱扩展或平移步骤之前,也就是说,例如在低频率信号的一部分上而不是直接在高频率信号上)完成此环境信号的提取。
[0179] 在变体实施例,提取这些音调分量和该环境信号是按不同的顺序并且根据以下步骤执行的:
[0180] -在频域中检测该经解码的或经解码且经扩展的低频带信号的主音调分量;
[0181] -通过提取这些主音调分量计算残差信号以获得该环境信号。
[0182] 此变体可以例如以如下方式执行:尖峰(或音调分量)在幅度为|UHB1(i+240)|的频谱中在索引为i的频谱线处被检测到,前提是满足以下标准:
[0183] |UHB1(i+240)|>|UHB1(i+240-1)|且|UHB1(i+240)|>|UHB1(i+240+1)|,[0184] 其中,i=0,...,L-1。一旦在索引为i的频谱线处检测到尖峰,就应用正弦模型来估算与此尖峰相关联的音调分量的幅度、频率以及可选地相位参数。在此不介绍此估算的细节,但是频率估算通常可以要求在3个点上的抛物线插值以便定位抛物线逼近 3个幅度点|UHB1(i+240)|(表示为dB)的最大值,幅度估算是通过这种相同的插值法获得的。因为在此使用的变换域(DCT-IV)并未使得有可能直接获得相位,所以在一个实施例中将有可能忽略此项,但是在变体中将有可能应用DST型正交变换来估算相位项。y(i)的初始值被设置为零,其中,i=0,...,L-1。估算每个音调分量的正弦参数(频率、幅度以及可选地相位),然后根据估算的正弦参数将项y(i)计算为被转换到DCT-IV域(或者在使用某个其他子频带分解时的其他域)中的纯正弦曲线的预定义的原型(频谱)之和。最后,绝对值应用于项y(i)以将幅值谱域表达为绝对值。
[0185] 用于确定音调分量的其他方案是有可能的,例如,还将有可能通过|UHB1(i+240)|的局部最大值(检测到的尖峰)的样条插值计算信号的包络env(i),以将此包络降低某个dB级别以便检测作为超过此包络的尖峰并将y(i)定义为
[0186] y(i)=max(|UHB1(i+240)|-env(i),0)
[0187] 在这个变体中,环境因此是通过下方程获得的:
[0188] lev(i)=|UHB1(i+240)|-y(i),i=0,...,L-1
[0189] 在本发明的其他变体中,在不改变本发明的原理的情况下,频谱值的绝对值将例如被频谱的平方值替换;在这种情况下,为了返回至信号域,平方根将是必要的,这执行起来会更复杂。
[0190] 组合模块513通过环境信号与音调分量的自适应混合执行组合步骤。因此,环境水平控制因子Γ是由以下方程定义的:
[0191]
[0192] β是因子,在下文给出了其示例性计算。
[0193] 为了获得经扩展的信号,我们首先获得绝对值形式的组合信号,其中,i=0...L-1:
[0194]
[0195] 针对其应用符号UHB1(k):
[0196] y”(i)=sgn(UHB1(i+240)).y'(i)
[0197] 其中,函数sgn(.)给出符号:
[0198]
[0199] 根据定义,因子Γ>1。音调分量、由频谱线根据条件y(i)>0检测的频谱线被减小因子Γ;平均水平被放大因子1/Γ倍。
[0200] 在自适应混合框513中,根据经解码的(或经解码且经扩展的)低频带信号与音调分量的总能量计算能量水平控制因子。
[0201] 在自适应混合的优选实施例中,按以下方式执行能量调整:
[0202] UHB2(k)=fac.y”(k-240),k=240,…,319
[0203] UHB2(k)是频带扩展组合信号。
[0204] 调整因子是由以下方程定义的:
[0205]
[0206] 其中,γ使得有可能避免过高估算能量。在示例性实施例中,计算β以便在信号的连续频带中相对于音调分量的能量保持相同水平的环境信号。计算以下三个频带中的音调分量的能量:2000-4000Hz、4000-6000Hz和6000-8000Hz,其中,
[0207]
[0208]
[0209]
[0210] 其中,
[0211]
[0212] 并且其中,Ν(k1,k2)是索引k的集合,针对该集合,索引k的系数被分类为与音调分量相关联。此集合可以例如是通过检查U'(k)中的满足|U'(k)|>lev(k)的局部尖峰而获得的,或者lev(k)逐频谱线地被计算为频谱的平均水平。
[0213] 可以注意的是,用于计算音调分量的能量的其他方案是有可能的,例如通过在所考虑的频带上取频谱的中值。
[0214] 我们以这种方式固定β,从而使得在4kHz-6kHz频带与6kHz-8kHz频带中的音调分量能量之比与在2kHz-4kHz频带与4kHz-6kHz频带中的音调分量能量之比相同:
[0215]
[0216] 其中
[0217]
[0218] 并且max(.,.)是给出两个参数的最大值的函数。
[0219] 在本发明的变体中,计算β可以由其他方案替代。例如,在一个变体中,将有可能提取(计算)表征低频带信号的不同参数(或“特征”),包括与在AMR-WB编解码器中所计算的参数相类似的“倾斜度”参数,并且将通过将其值限制在0与1之间基于这些不同的参数根据线性回归来估算因子β。例如,将能够通过在学习的基础中得出原始高频带来估算因子β从而以监督的方式来估算线性回归。将注意的是,计算β的方式并不限制本发明的性质。
[0220] 然后,可以通过考虑以下事实使用参数β来计算γ:信号与环境信号一起被添加至给定的频带中通常被感知为强于在同一频带中具有相同能量的谐波信号。如果将α定义为添加至谐波信号中的环境信号的量:
[0221]
[0222] 将有可能将γ计算为α的减函数,例如, b=1.1、a=1.2和γ被限制为从0.3到1。再次,在本发明的框架内,α和γ的其他定义是有可能的。
[0223] 在频带扩展装置500的输出处,框501在具体实施例中以可选的方式在频域中执行应用带通滤波器频率响应和去加重(或解加重)滤波的双操作。
[0224] 在本发明的变体中,在框502之后(甚至在框510之前),将能够在时域中执行去加重滤波。然而,在这种情况下,在框501中所执行的带通滤波可以留下某些非常低电平的低频分量,这些低频分量通过去加重而被放大,这可以以一种轻微可感知的方式来修改经解码的低频带。出于这种原因,在此优选在频域中执行去加重。在优选实施例中,索引为k=0,…,199的这些系数被设为零,因此,去加重被限制在更高阶的系数中。
[0225] 根据以下方程,首先对激励进行去加重:
[0226]
[0227] 其中,Gdeemph(k)是滤波器1/(1-0.68z-1)在受限的离散频带之上的频率响应。通过将DCT-IV的离散(奇数)频率考虑在内,Gdeemph(k)在此被定义为:
[0228]
[0229] 其中,
[0230]
[0231] 在使用除了DCT-IV之外的变换的情况下,将能够对θk的定义进行调整(例如,针对偶数频率)。
[0232] 应注意的是,去加重被应用于两个阶段中:针对对应于5000Hz-6400Hz频带的 k=200,…,255,其中,如在12.8kHz上那样应用响应1/(1-0.68z-1);以及针对对应于 6400Hz-
8000Hz频带的k=256,…,319,其中,该响应从这里的16kHz扩展至在6.4 kHz-8kHz频带中的常数值。
[0233] 可以注意的是,在AMR-WB编解码器中,未对HF合成进行去加重。
[0234] 在这里所呈现的实施例中,相反地,对高频信号进行去加重以便在退出图3的框 305之后将其恢复至与低频信号(0kHz-6.4kHz)相一致的域中。这对于对HF合成的能量进行估算以及调整来说是很重要的。
[0235] 在本实施例的一个变体中,为了减小复杂度,将有可能通过取例如Gdeemph(k)=0.6 来将Gdeemph(k)设为与k无关的常数值,该常数值近似地对应于在以上所描述的实施例的条件中Gdeemph(k)对于k=200,…,319的平均值。
[0236] 在解码器的实施例的另一个变体中,在逆DCT之后将能够在时域中以一种等效的方式执行去加重。
[0237] 除了去加重,带通滤波与两个单独的部分一起被应用:其一,固定的高通部分;其二,自适应的(比特率的函数)低通部分。
[0238] 这种滤波是在频域中执行的。
[0239] 在优选实施例中,在频域中按照下式计算低通滤波器部分响应:
[0240]
[0241] 其中,Nlp=60(在6.6kbit/s上)、40(在8.85kbit/s上)和20(在比特率>8.85 bit/s上)。
[0242] 然后,以以下形式应用带通滤波器:
[0243]
[0244] 例如,在以下的表1中给出对Ghp(k),k=0,…,55的定义。
[0245]
[0246]
[0247] 表1
[0248] 将注意的是,在本发明的变体中,将能够在保持渐进式衰减的同时修改Ghp(k)的值。类似地,在不改变此滤波步骤的原理的情况下,将能够用不同的值或者频率支持来对具有可变带宽的低通滤波器Glp(k)进行调整。
[0249] 还将注意的是,将能够通过定义组合了高通滤波与低通滤波的单个滤波步骤来适配带通滤波。
[0250] 在另一个实施例中,在逆DCT步骤之后,将能够根据比特率用不同的滤波系数在时域中以等效的方式执行带通滤波(如在图1的框112中那样)。然而,将注意的是,有利的是在频域中直接执行此步骤,因为该滤波是在LPC激励域中执行的,并且因此在此域中循环卷积和边缘效应的问题是非常有限的。
[0251] 逆变换框502对320个样本执行逆DCT以找到以16kHz采样的高频信号。除了变换长度是320而不是256,该逆变换框的实现方式与框510完全一样(因为DCT-IV 是归一化正交的),并且得到下式:
[0252]
[0253] 其中,N16k=320且k=0,…,319。
[0254] 在框510不是DCT而是某个其他变换或变为子频带的分解的情况下,框502执行与在框510中执行的分析相对应的合成。
[0255] 然后,以可选的方式按照80个样本的每子帧定义的增益对以16kHz采样的信号进行缩放(框504)。
[0256] 在优选实施例中,首先通过子帧的能量比来计算每子帧增益gHB1(m)(框503),从而使得在当前帧的索引m=0、1、2或3的每子帧中:
[0257]
[0258] 其中,
[0259]
[0260]
[0261]
[0262] 其中,ε=0.01。每子帧增益gHB1(m)可以写成以下形式:
[0263]
[0264] 该等式表明,确保在信号uHB中的每子帧能量与每帧能量之比与在信号u(n)中的比值相同。
[0265] 框504根据以下方程执行对组合信号的缩放(包括在图4的步骤E404a中):
[0266] uHB'(n)=gHB1(m)uHB(n),n=80m,…,80(m+1)-1
[0267] 将注意的是,对框503的实现不同于对图1的框101的实现,因为除了子帧的能量水平还将当前帧的能量水平考虑在内。这使得有可能得到每个子帧能量关于每帧能量之比。因此,对低频带与高频带之间的能量比(或相对能量)而不是绝对能量进行比较。
[0268] 从而,此缩放步骤使得有可能通过与在低频带中相同的方式在高频带中保持子帧与帧之间的能量比。
[0269] 在一种可选的方式,框506然后根据以下方程执行对信号的缩放(包括在图4的步骤E404a中):
[0270] uHB”(n)=gHB2(m)uHB'(n),n=80m,…,80(m+1)-1
[0271] 其中,增益gHB2(m)是通过执行AMR-WB编解码器的框103、104和105从框505 中获得的(框103的输入是在低频带中解码的激励u(n))。框505和框506对于在此根据信号的倾斜度调整LPC合成滤波器的水平(框507)是有用的。在不改变本发明的性质的情况下,用于计算增益gHB2(m)的其他方案是有可能的。
[0272] 最后,通过滤波模块507对信号uHB'(n)或uHB”(n)进行滤波,在此可以通过看作传递函数 (其中,在6.6kbit/s下γ=0.9,并且在其他比特率下γ=0.6)来进行,由此将滤波器的阶数限制为16阶。
[0273] 在一个变体中,将能够以与针对AMR-WB解码器的图1的框111所描述相同的方式来执行此滤波,但是滤波器的阶数在6.6比特率上变为20阶,这不会显著地改变合成信号的质量。在另一个变体中,在已经计算了在框507中所实现的滤波器的频率响应之后,将有可能在频域中执行LPC合成滤波。
[0274] 在本发明的变体实施例中,对低频带(0kHz-6.4kHz)的编码将能够由CELP编码器而不是在AMR-WB中所使用的编码器替代,如,例如,在G.718中在8kbit/s 处的CELP编码器。不失一般性地,可以使用其他宽带编码器或在16kHz以上的频率上进行操作的编码器,其中,对低频带的编码以在12.8kHz上的内部频率进行操作。此外,当低频编码器以低于原始信号或重建信号的采样频率进行操作时,本发明可以显著地适应于除12.8kHz之外的采样频率。当低频带解码不使用线性预测时,不存在有待扩展的激励信号,在这种情况下,将有可能对在当前帧中重建的信号进行LPC 分析,并且将计算LPC激励以便能够应用本发明。
[0275] 最终,在本发明的另一个变体中,在对长度320进行变换(例如,DCT-IV)之前,例如通过在从12.8kHz至16kHz上进行线性内插或三次“样条”插值来对激励或低频带信号(u(n))进行重采样。此变体具有更复杂的缺陷,因为随后在更长的长度上计算激励或信号的变换(DCT-IV)并且该重采样不是在变换域中执行的。
[0276] 此外,在本发明的变体中,估算增益(GHBN、gHB1(m)、gHB2(m)、gHBN、...)所必需的所有计算都将能够在对数域中执行。
[0277] 图6表示根据本发明的频带扩展装置600的示例性物理实施例。后者可以形成音频信号解码器的集成部分或者接收经解码或未经解码的音频信号的设备项的集成部分。
[0278] 这种类型的装置包括与存储器框BM协同操作的处理器PROC,该储存框包括存储设备和/或工作存储器MEM。
[0279] 这种装置包括输入模块E,该输入模块能够接收在被称为低频带的第一频带中的被恢复至频域(U(k))的经解码的或所提取的音频信号。这种装置包括输出模块S,该输出模块能够将在第二频带(UHB2(k))中的扩展信号传输至例如图5的滤波模块 501。
[0280] 存储器框可以有利地包括计算机程序,该计算机程序包括用于实现在本发明含义内的频带扩展方法的步骤的多条代码指令,当这些代码指令由处理器PROC执行时,并且具体地实现以下步骤:从由经解码的低频带信号产生的信号(U(k))中提取 (E402)音调分量和环境信号、使用能量水平控制因子通过自适应混合对音调分量 (y(k))和环境信号(UHBA(k))进行组合(E403)以获得被称为组合信号的音频信号 (UHB2(k))、在高于第一频带的至少一个第二频带上在提取步骤之前对低频带解码信号或在组合步骤之后对组合信号进行扩展(E401a)。
[0281] 通常,图4的描述重复了这种计算机程序的算法的这些步骤。计算机程序还可以被存储在存储介质上,其可以由装置的读取器进行读取或者可以被下载到其存储空间中。
[0282] 通常,存储器MEM存储实现该方法所必需的所有数据。
[0283] 在一个可能的实施例中,因此描述的装置还可以包括除了根据本发明的频带扩展功能之外的低频带解码功能以及例如在图5和图3中描述的其他处理功能。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈