首页 / 专利库 / 信号处理 / 停止频率 / 音频编码装置及其方法

音频编码装置及其方法

阅读:606发布:2020-11-10

专利汇可以提供音频编码装置及其方法专利检索,专利查询,专利分析的服务。并且一种用于编码音频 信号 的 编码器 ,其中该编码器被配置用于:确定 音频信号 的至少一个特性;将音频信号至少划分为低频部分和高频部分;以及根据音频信号的至少一个特性从高频部分生成多个高频频带信号。该编码器进一步针对多个高频频带信号的每一个,确定能够代表该高频频带信号的低频部分的至少一部分。,下面是音频编码装置及其方法专利的具体信息内容。

1.一种用于编码音频信号编码器,其中所述编码器被配置用于:
确定所述音频信号的至少一个特性;
将所述音频信号至少划分为低频部分和高频部分;
根据所述音频信号的至少一个特性,从所述高频部分生成多个高频频带信号;以及
针对所述多个高频频带信号的每一个,确定能够代表所述高频频带信号的所述低频部分的至少一部分。
2.根据权利要求1所述的编码器,进一步被配置用于:
至少存储多个频带分配;以及
根据所述音频信号的至少一个特性,选择所述多个频带分配之一,其中
所述编码器被配置用于:通过将所述选择的频带分配应用于所述音频信号的高频部分,生成所述多个高频频带信号。
3.根据权利要求1所述的编码器,进一步被配置用于:
根据所述音频信号的至少一个特性,生成频带分配;其中
所述编码器被配置用于:通过将所述生成的频带分配应用于所述音频信号的高频部分,生成所述多个高频频带信号。
4.根据权利要求2和3所述的编码器,其中每个频带分配包括多个频带。
5.根据权利要求4所述的编码器,其中每个频带包括以下至少一个:
定位频率和带宽;以及
开始频率和停止频率
6.根据权利要求4和5所述的编码器,其中所述多个频带中的至少一个频带与所述多个频带中的至少一个其他频带至少部分地重叠。
7.根据权利要求1到6所述的编码器,进一步被配置用于:根据所述生成的多个高频频带信号,生成频带分配信号。
8.根据权利要求7所述的编码器,进一步被配置用于:
根据所述音频信号的低频部分,生成低频已编码信号
根据所述确定的能够代表所述高频频带信号的所述低频部分的至少一部分,生成高频已编码信号;以及
输出包括所述低频已编码信号、所述高频已编码信号和所述频带分配信号的已编码信号。
9.根据权利要求1到8所述的编码器,其中所述音频信号的至少一个特性包括仅根据所述音频信号的高频部分而确定的特性。
10.根据权利要求1到9所述的编码器,其中所述音频信号的至少一个特性包括:
所述音频信号的分量的能量
所述音频信号的分量的峰谷比;以及
所述音频信号的带宽。
11.一种用于编码音频信号的方法,包括:
确定所述音频信号的至少一个特性;
将所述音频信号至少划分为低频部分和高频部分;
根据所述音频信号的至少一个特性,从所述高频部分生成多个高频频带信号;以及
针对所述多个高频频带信号的每一个,确定能够代表所述高频频带信号的所述低频部分的至少一部分。
12.根据权利要求11所述的用于编码音频信号的方法,进一步包括:
至少存储多个频带分配;以及
根据所述音频信号的至少一个特性,选择所述多个频带分配之一,其中
生成所述多个高频频带信号包括:将所述选择的频带分配应用于所述音频信号的高频部分。
13.根据权利要求11所述的用于编码音频信号的方法,进一步包括:
根据所述音频信号的至少一个特性,生成频带分配;其中
生成所述多个高频频带信号包括:将所述生成的频带分配应用于所述音频信号的高频部分。
14.根据权利要求12和13所述的用于编码音频信号的方法,其中每个频带分配包括多个频带。
15.根据权利要求14所述的用于编码音频信号的方法,其中每个频带包括以下至少一个:
定位频率和带宽;以及
开始频率和停止频率。
16.根据权利要求14和15所述的用于编码音频信号的方法,其中所述多个频带中的至少一个频带与所述多个频带中的至少一个其他频带至少部分地重叠。
17.根据权利要求11到16所述的用于编码音频信号的方法,进一步包括:根据所述生成的多个高频频带信号,生成频带分配信号。
18.根据权利要求17所述的用于编码音频信号的方法,进一步包括:
根据所述音频信号的低频部分,生成低频已编码信号;
根据所述确定的能够代表所述高频频带信号的所述低频部分的至少一部分,生成高频已编码信号;以及
输出包括所述低频已编码信号、所述高频已编码信号和所述频带分配信号的已编码信号。
19.根据权利要求11到18所述的用于编码音频信号的方法,其中所述音频信号的至少一个特性包括仅根据所述音频信号的高频部分而确定的特性。
20.根据权利要求11到19所述的用于编码音频信号的方法,其中所述音频信号的至少一个特性包括:
所述音频信号的分量的能量;
所述音频信号的分量的峰谷比;以及
所述音频信号的带宽。
21.一种用于解码音频信号的解码器,其中所述解码器被配置用于:
接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;
解码所述低频已编码信号以产生合成低频信号;
生成合成高频信号,其中取决于所述频带分配信号的所述合成高频信号的至少一部分根据取决于所述高频信号的至少一部分的所述合成低频信号的至少一部分而生成。
22.根据权利要求21所述的解码器,进一步被配置用于:合并所述合成低频信号与所述合成高频信号,以生成解码的音频信号。
23.根据权利要求21和22所述的解码器,进一步被配置用于:
至少存储多个频带分配;以及
根据所述频带分配信号,选择所述多个频带分配之一。
24.根据权利要求21和22所述的解码器,进一步被配置用于:
根据所述频带分配信号,生成频带分配。
25.根据权利要求23和24所述的解码器,其中每个频带分配包括多个频带。
26.根据权利要求25所述的解码器,其中每个频带包括以下至少一个:
定位频率和带宽;以及
开始频率和停止频率。
27.一种用于解码音频信号的方法,包括:
接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;
解码所述低频已编码信号以产生合成低频信号;
生成合成高频信号,其中取决于所述频带分配信号的所述合成高频信号的至少一部分根据取决于所述高频信号的至少一部分的所述合成低频信号的至少一部分而生成。
28.根据权利要求27所述的用于解码的方法,进一步包括:
合并所述合成低频信号与所述合成高频信号,以生成解码的音频信号。
29.根据权利要求27和28所述的用于解码的方法,进一步包括:
至少存储多个频带分配;以及、
根据所述频带分配信号,选择所述多个频带分配之一。
30.根据权利要求27和28所述的用于解码的方法,进一步包括:
根据所述频带分配信号,生成频带分配。
31.根据权利要求29和30所述的用于解码的方法,其中每个频带分配包括多个频带。
32.根据权利要求31所述的用于解码的方法,其中每个频带包括以下至少一个:
定位频率和带宽;以及
开始频率和停止频率。
33.一种装置,包括根据权利要求1到10所述的编码器。
34.一种装置,包括根据权利要求21到26所述的解码器。
35.一种电子设备,包括根据权利要求1到10所述的编码器。
36.一种电子设备,包括根据权利要求21到26所述的解码器。
37.一种计算机程序产品,被配置用于执行用以编码音频信号的方法,所述方法包括:
确定所述音频信号的至少一个特性;
将所述音频信号至少划分为低频部分和高频部分;
根据所述音频信号的至少一个特性,从所述高频部分生成多个高频频带信号;以及
针对所述多个高频频带信号的每一个,确定能够代表所述高频频带信号的所述低频部分的至少一部分。
38.一种计算机程序产品,被配置用于执行用以解码音频信号的方法,所述方法包括:
接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;
解码所述低频已编码信号以产生合成低频信号;
生成合成高频信号,其中取决于所述频带分配信号的所述合成高频信号的至少一部分根据取决于所述高频信号的至少一部分的所述合成低频信号的至少一部分而生成。
39.一种用于编码音频信号的编码器,包括:
确定装置,用于确定所述音频信号的至少一个特性;
滤波装置,用于将所述音频信号至少划分为低频部分和高频部分;
处理装置,用于根据所述音频信号的至少一个特性,从所述高频部分生成多个高频频带信号;以及
另一确定装置,用于针对所述多个高频频带信号的每一个,确定能够代表所述高频频带信号的所述低频部分的至少一部分。
40.一种用于解码音频信号的解码器,包括:
接收装置,用于接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;
决策装置,用于解码所述低频已编码信号以产生合成低频信号;
处理装置,用于生成合成高频信号,其中取决于所述频带分配信号的所述合成高频信号的至少一部分根据取决于所述高频信号的至少一部分的所述合成低频信号的至少一部分而生成。

说明书全文

技术领域

发明涉及编码,并且具体但非排他地,涉及语音或者音频编码。

背景技术

语音或音乐之类的音频信号被编码,例如以支持该音频信号的有效传输或存储。
音频编码器解码器用来表示基于音频的信号,诸如音乐和背景噪声。这些类型的编码器通常没有将语音模型用于编码过程,而是使用用于表示所有类型的音频信号(包括语音)的过程。
通常针对语音信号而优化语音编码器和解码器(编解码器),并且可以按照固定比特率或者可变比特率进行操作。
音频编解码器还可以被配置用于利用变化的比特率来操作。在较低比特率处,这种音频编解码器可以按照与纯语音编解码器等效的编码速率对语音信号进行操作。在较高比特率处,音频编解码器可以以较高的质量和性能来对任何信号进行编码,包括音乐、背景噪声和语音。
在某些音频编解码器中,输入信号被划分为有限数目的频带。每个频带信号可以被量化。根据心理声学的(psychoacoustic)理论可以知晓频谱中的最高频率在感官上没有低频重要。这在某些音频编解码器中通过比特分配来反映,其中为高频信号分配的比特少于低频信号。
此外,在某些编解码器中,使用音频信号的低频与高频频带或区域之间的相关来改进编解码器的编码效率。
由于频谱的较高频频带通常非常类似于较低频频带,因此某些编解码器可以仅对较低频带进行编码,并且将较高频频带再现为经过缩放的较低频频带的副本。由此,通过仅使用少量的附加控制信息,可以实现对编解码器总比特率的相当可观的节省。
用于对较高频区域进行编码的一个此类编解码器公知为高频区域(HFR)编码。高频区域编码的一种形式是频带复制(SBR),其已经由Coding Technologies开发。在SBR中,诸如移动图像专家组MPEG-4高级音频编码(AAC)或者MPEG-1Layer III(MP3)编码器之类的已知音频编码器对低频区域进行编码。使用经过编码的低频区域来独立地生成高频区域。
在HFR编码中,通过将低频区域调换(transpose)为较高频率来获得高频区域。调换以具有32个频带的正交镜像滤波器(QMF)为基础,并且被执行从而预定义根据哪些频带样本来构造每个高频频带样本。这独立于输入信号的特性而完成。
基于附加信息对较高频频带进行滤波。进行滤波以使得经过合成的高频区域的特定特征与原始特征更为相似。向高频区域添加诸如正弦波或者噪声的附加分量,以提高与原始高频区域的相似度。最后,调节包络以跟随原始高频频谱的包络。
在PCT公开的申请WO 2007/052088中,提出了另一种HFR编解码器,其将高频频带划分为多个频带,继而从已编码的低频频带中选择类似于每个高频频带的频带。
特别地,在修正的离散余弦变换(MDCT)域中操作的WO2007/052088将原始信号的高频区域划分为Nb个频带,并且将来自已编码低频区域的最佳拟合(fit)用于调换。
对于Nb个频带中的每一个,搜索最为相似的频带并且传输其索引(或者开始频率),以允许将所述低频频带用于在解码器中生成高频频带。在该过程中,继而分两个步骤对选定的低频频带进行缩放,以便与原始信号的高振幅峰值相匹配以及与其总体能量相匹配。
尽管与将低频区域简单地调换为高频区域的先前方法相比,较低频率的搜索通常提供与原始信号的高频区域的改进匹配,但是当频谱属性显著不同于高频区域时,匹配仍然可能是次优的。继而为来自低频区域中的频带找到优良拟合可能变得困难。

发明内容

本发明的出发点基于以下考虑,即目前提出的编解码器关于能够从较低频范围中选择适当频带方面缺乏灵活性。
本发明的实施方式旨在解决上述问题。
按照本发明的第一方面,提供一种用于编码音频信号的编码器,其中该编码器被配置用于:确定音频信号的至少一个特性;将音频信号至少划分为低频部分和高频部分;根据音频信号的至少一个特性从高频部分生成多个高频频带信号;以及针对多个高频频带信号的每一个,确定能够代表该高频频带信号的低频部分的至少一部分。
该编码器可以进一步被配置用于:至少存储多个频带分配;以及根据音频信号的至少一个特性来选择多个频带分配之一,其中该编码器被配置用于:通过将选择的频带分配应用于音频信号的高频部分,生成多个高频频带信号。
该编码器可以进一步被配置用于:根据音频信号的至少一个特性来生成频带分配;其中该编码器被配置用于:通过将生成的频带分配应用于音频信号的高频部分,生成多个高频频带信号。
每个频带分配可以包括多个频带。
每个频带可以包括以下至少一个:定位频率和带宽;以及开始频率和停止频率
多个频带中的至少一个频带可以与多个频带中的至少一个其他频带至少部分地重叠。
该编码器可以进一步被配置用于根据生成的多个高频频带信号来生成频带分配信号。
该编码器可以进一步被配置用于:根据音频信号的低频部分来生成低频已编码信号;根据确定的能够代表高频频带信号的低频部分的至少一部分,生成高频已编码信号;以及输出包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号。
音频信号的至少一个特性可以包括仅根据音频信号的高频部分而确定的特性。
音频信号的至少一个特性可以包括:音频信号的分量的能量;音频信号的分量的峰谷比;以及音频信号的带宽。
按照本发明的第二方面,提供一种用于编码音频信号的方法,包括:确定音频信号的至少一个特性;将音频信号至少划分为低频部分和高频部分;根据音频信号的至少一个特性从高频部分生成多个高频频带信号;以及针对多个高频频带信号的每一个,确定能够代表该高频频带信号的低频部分的至少一部分。
该方法可以进一步包括:至少存储多个频带分配;以及根据音频信号的至少一个特性来选择多个频带分配之一,其中生成多个高频频带信号可以包括将选择的频带分配应用于音频信号的高频部分。
该方法可以进一步包括:根据音频信号的至少一个特性来生成频带分配;其中生成多个高频频带信号可以包括:将生成的频带分配应用于音频信号的高频部分。
每个频带分配优选地包括多个频带。
每个频带优选地包括以下至少一个:定位频率和带宽;以及开始频率和停止频率。
多个频带中的至少一个频带优选地与多个频带中的至少一个其他频带至少部分地重叠。
该方法可以进一步包括:根据生成的多个高频频带信号来生成频带分配信号。
该方法可以进一步包括:根据音频信号的低频部分来生成低频已编码信号;根据确定的能够代表高频频带信号的低频部分的至少一部分,生成高频已编码信号;以及输出包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号。
音频信号的至少一个特性优选地包括仅根据音频信号的高频部分而确定的特性。
音频信号的至少一个特性优选地包括:音频信号的分量的能量;音频信号的分量的峰谷比;以及音频信号的带宽。
按照本发明的第三方面,提供一种用于解码音频信号的解码器,其中该解码器被配置用于:接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;以及解码低频已编码信号以产生合成低频信号;生成合成高频信号,其中取决于频带分配信号的合成高频信号的至少一部分根据取决于高频信号的至少一部分的合成低频信号的至少一部分而生成。
该解码器可以进一步被配置用于:合并合成低频信号与合成高频信号,以生成解码的音频信号。
该解码器可以进一步被配置用于:至少存储多个频带分配;以及根据频带分配信号来选择多个频带分配之一。
该解码器可以进一步被配置用于:根据频带分配信号来生成频带分配。
每个频带分配可以包括多个频带。
每个频带可以包括以下至少一个:定位频率和带宽;以及开始频率和停止频率。
按照本发明的第四方面,提供一种用于解码音频信号的方法,包括:接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;以及解码低频已编码信号以产生合成低频信号;生成合成高频信号,其中取决于频带分配信号的合成高频信号的至少一部分根据取决于高频信号的至少一部分的合成低频信号的至少一部分而生成。
该方法可以进一步包括:合并合成低频信号与合成高频信号,以生成解码的音频信号。
该方法可以进一步包括:至少存储多个频带分配;以及根据频带分配信号来选择多个频带分配之一。
该方法可以进一步包括:根据频带分配信号来生成频带分配。
每个频带分配可以包括多个频带。
每个频带优选地可以包括以下至少一个:定位频率和带宽;以及开始频率和停止频率。
按照本发明的第五方面,提供一种装置,包括如上所述的编码器。
按照本发明的第六方面,提供一种装置,包括如上所述的解码器。
按照本发明的第七方面,提供一种电子设备,包括如上所述的编码器。
按照本发明的第八方面,提供一种电子设备,包括如上所述的解码器。
按照本发明的第九方面,提供一种计算机程序产品,被配置用于执行用于编码音频信号的方法,该方法包括:确定音频信号的至少一个特性;将音频信号至少划分为低频部分和高频部分;根据音频信号的至少一个特性从高频部分生成多个高频频带信号;以及针对多个高频频带信号的每一个,确定能够代表该高频频带信号的低频部分的至少一部分。
按照本发明的第十方面,提供一种计算机程序产品,被配置用于执行用于解码音频信号的方法,该方法包括:接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;以及解码低频已编码信号以产生合成低频信号;生成合成高频信号,其中取决于频带分配信号的合成高频信号的至少一部分根据取决于高频信号的至少一部分的合成低频信号的至少一部分而生成。
按照本发明的第十一方面,提供一种用于编码音频信号的编码器,包括:确定装置,用于确定音频信号的至少一个特性;滤波装置,用于将音频信号至少划分为低频部分和高频部分;以及处理装置,用于根据音频信号的至少一个特性从高频部分生成多个高频频带信号;以及又一确定装置,用于针对多个高频频带信号的每一个来确定能够代表该高频频带信号的低频部分的至少一部分。
按照本发明的第十二方面,提供一种用于解码音频信号的解码器,包括:接收装置,用于接收包括低频已编码信号、高频已编码信号和频带分配信号的已编码信号;以及决策装置,用于解码低频已编码信号以产生合成低频信号;处理装置,用于生成合成高频信号,其中取决于频带分配信号的合成高频信号的至少一部分根据取决于高频信号的至少一部分的合成低频信号的至少一部分而生成。
附图说明
为了更好地理解本发明,现在将以示例的方式参考附图,其中:
图1示意性地示出了采用本发明实施方式的电子设备;
图2示意性地示出了采用本发明实施方式的音频编解码器系统;
图3示意性地示出了图2中所示的音频编解码器系统的编码器部分;
图4示意性地示出了图2中所示的音频编解码器系统的解码器部分;
图5示出了音频信号频谱的示例;
图6示出了图5的音频信号频谱的部分,其具有本发明的实施方式中所采用的频带的示例;
图7示出了说明按照本发明的、如图3中所示的音频编码器的一个实施方式的操作的流程图;以及
图8示出了说明按照本发明的、如图3中所示的音频解码器的一个实施方式的操作的流程图。

具体实施方式

下面较为详细地描述用于提供分层式或者可伸缩可变码率音频编解码器的可行编解码器机制。在此方面,首先参考图1,其是可以包含按照本发明实施方式的编解码器的示例性电子设备10的示意框图
电子设备10例如可以是无线通信系统的移动终端或者用户设备。
电子设备10包括麦克11,其经由模数转换器14链接至处理器21。处理器21进一步经由数模转换器32链接至扬声器33。处理器21进一步链接至收发机(TX/RX)13、用户接口(UI)15以及存储器22。
处理器21可以被配置用于执行各种程序代码。实现的程序代码包括音频编码代码,用于对音频信号的较低频频带和音频信号的较高频频带进行编码。实现的程序代码23还包括音频解码代码。实现的程序代码23例如可以存储在存储器22中,以供处理器21在需要时随时取回。存储器22还可以提供部分24以用于存储数据,例如已经按照本发明进行编码的数据。
在本发明的实施方式中,对代码进行编码和解码可以通过硬件固件来实现。
用户接口15使用户能够例如经由小键盘来向电子设备10输入命令,和/或例如经由显示器来从电子设备10获得信息。收发机13允许例如经由无线通信网络来与其他电子设备进行通信。
将会再次理解,电子设备10的结构可以按照多种方式来补充和变化。
电子设备10的用户可以使用麦克风11来输入语音,该语音将被传输至某些其他电子设备,或者将被存储在存储器22的数据部分24中。为此,用户已经经由用户接口15激活了相应的应用。该应用可以由处理器21来运行,其致使处理器21执行存储器22中所存储的编码代码。
模数转换器14将输入模拟音频信号转换为数字音频信号,并且向处理器21提供该数据音频信号。
处理器21继而可以按照与参考图2和图3描述的相同方式来处理数字音频信号。
得到的比特流被提供给收发机13,以便向另一电子设备传输。备选地,编码的数据可以存储在存储器22的数据部分24中,例如以供稍后传输或者稍后由同一电子设备10来呈现。
电子设备10还可以经由其收发机13从另一电子设备接收具有相应已编码数据的比特流。在这种情况下,处理器21可以执行存储器22中所存储的解码程序代码。处理器21对接收的数据进行解码,并且将解码的数据提供给数模转换器32。数模转换器32将数字解码的数据转换为模拟音频数据,并且经由扬声器33将其输出。解码程序代码的执行同样可以由已由用户经由用户接口15调用的应用来触发。
接收的已编码数据也可以存储在存储器22的数据部分24中而不是经由扬声器33立即呈现,以便例如允许稍后呈现或者向又一电子设备转发。
将会理解,图2到图4中描述的示意性结构以及图7和图8中的方法步骤只代表被示例性示出为在图1中所示的电子设备中实现的完整音频编解码器的部分操作。
图2中示出了本发明的实施方式所采用的音频编解码器的一般性操作。如图2中示意性示出的,一般性的音频编码/解码系统包括编码器和解码器。示出了一个系统102,其具有编码器104、存储或者媒体信道106以及解码器108。
编码器104对输入音频信号110进行压缩以产生比特流112,其被存储或者通过媒体信道106进行传输。比特流112可以在解码器108中被接收。解码器108对比特流112进行解压缩并且产生输出音频信号114。比特流112的比特率以及输出音频信号114关于输入信号110的质量是主要的特征,其定义了编码系统102的性能。
图3示意性地示出了按照本发明一个实施方式的编码器104。编码器104包括输入203,其被布置用于接收音频信号。输入203连接至低通滤波器230、高频区域(HFR)处理器232以及信号能量估计器201。低通滤波器230还向低频编码器(或者称为核心编解码器)231输出信号。低频编码器231和信号能量估计器进一步被配置用于向HFR处理器232输出信号。低频编码器231、信号能量估计器201以及HFR处理器232被配置用于向比特流格式化器234(其在本发明的某些实施方式中也称为比特流多路复用器)输出信号。比特流格式化器234被配置用于经由输出205对输出比特流112进行输出。
这些组件的操作将参考示出编码器104操作的流程图加以详述。
音频信号由编码器104接收。在本发明的第一实施方式中,音频信号是数字采样的信号。在本发明的其他实施方式中,音频输入可以是例如来自麦克风6的模拟音频信号,其被进行模数(A/D)转换。在本发明的又一些实施方式中,将音频输入从脉冲编码调制数字信号转换为幅度调制数字信号。音频信号的接收在图7中由步骤601示出。
低通滤波器230接收音频信号,并且定义将输入信号110滤波至的截止频率。接收的截止频率36之下的音频信号频率通过滤波器,并被传递至低频编码器231。在本发明的某些实施方式中,可选地对信号进行下采样,以便进一步改进低频编码器231的编码效率。该滤波在图7中示出。
低频编码器231接收低频(并且可选地经过下采样的)音频信号,并且对该信号应用适当的低频编码。在本发明的第一实施方式中,低频编码器231应用量化和具有32个低频子带的霍夫曼(Huffman)编码。使用分析滤波器组结构将输入信号110划分为若干子带。可以使用心理声学模型提供的信息对每个子带进行量化和编码。量化设置以及编码方案可以由所应用的心理声学模型来指示。将经过量化、编码的信息发送至比特流格式化器234,以用于创建比特流12。
此外,低频编码器231还使用正交镜像滤波器(QMF)组来转换低频内容,以产生每个子带的频域实现。这些频域实现被传递至HFR处理器232。
该低频编码在图7中由步骤606示出。
在本发明的其他实施方式中,可以采用其他低频编解码器,以便生成向比特流格式化器234输出的核心编码输出。这些其他实施方式的低频编解码器的示例包括但不限于:高级音频编码(AAC)、MPEG Layer 3(MP3)、ITU-T嵌入式可变速率(EV-VBR)语音编码基线编解码器以及ITU-T G.729.1。
在低频编码器没有有效地输出作为比特流输出一部分的频域子带输出的情况下,低频编码器231可以进一步包括低频解码器和频域转换器(图3中未示出)以生成低频信号的合成再现,并且该低频信号的合成再现继而被转换到频域中,并且在需要的情况下被分割为向HFR处理器232发送的一系列低频子带。
这允许从很多可行编码器/解码器中选择低频编码器,由此本发明不限于产生频域信息作为输出的一部分的特定低频或者核心编码器算法
音频信号还由能量估计器201接收。在本发明的第一实施方式中,能量估计器201包括高通滤波器(未示出),其通过在低通滤波器605中未通过的频率分量。
继而将高频音频信号转换到频域中。而且,可以将高频音频信号(信号的高频区域)划分为短子带。这些子带为500-800Hz量级的宽度。在一个优选实施方式中,子带带宽为750Hz。在本发明的其他实施方式中,子带带宽取决于所使用的带宽分配。在本发明的第一实施方式中,子带带宽是固定的宽度,换言之,每个子带具有相同的宽度。在本发明的其他实施方式中,子带带宽不是常量,而是每个子带可以具有不同的带宽。在本发明的某些实施方式中,该可变子带带宽分配可以基于音频信号的心理声学建模来确定。而且,在本发明的各实施方式中,这些子带可以是连续的(换言之,一个接一个,并且产生连续谱实现)或者是部分重叠的。
能量估计器201继而确定每个子带的子带能量。
在本发明的某些实施方式中,确定高频区域的不同属性或者附加属性。其他属性包括但不限于:每个子带的峰谷能量比以及信号带宽。
高频区域的这些属性继而在能量估计器201中进一步使用。
对音频信号的这一分析在图7中由步骤603示出。
在本发明的某些实施方式中,在能量估计器中对音频信号的分析包括对已编码低频区域的分析以及对原始高频区域的分析。因此,在本发明的又一些实施方式中,能量估计器通过接收已编码低频信号并将其划分为有待分析的短子带来确定实际上完整频谱的属性,以便例如确定每个“完整”频谱子带的能量和/或每个“完整”频谱子带的峰谷能量比。
在本发明的又一些实施方式中,能量估计器还接收已编码低频信号,并且(在需要的情况下)将其划分为待分析的短子带。继而,按照与对高频域信号相同的方式对从编码器输出的低频域信号进行分析,例如以便确定每个低频域子带的能量和/或每个低频域子带的峰谷能量比。
能量估计器201可以使用对高频区域的已确定属性进行检查的决策逻辑,将高频区域分割为特定频带。由此,基于短子带能量估计,可以选择频带的数目和长度。由此,例如,能量估计器决策逻辑201可以定位短而突出的能量峰值,并且选择频带长度使得所定位的能量峰值包含在单个频带中。在本发明的实施方式中,频带分配(频带的数目、频带长度、用于量化的比特分配)是预定义的。
在本发明的实施方式中,选择子带,使得其边界中的某些与实际频带的相同。继而,例如可以通过计算子带与子带的能量比,观察每个区域中的能量表现如何。而且,按照本发明的实施方式,可以选择具有最高能量的子带,以确定(可能)最重要的区域。由此,本发明的实施方式选择反映频带边界中的这些改变(位置和宽度)的频带并且分配足够的比特以用于量化的频带。
例如,当特定的子带或者较大区域具有非常小的能量时,本发明的实施方式可以选择这样的一个分配:该分配例如在该区域中使用宽频带并且具有用于量化的低比特分配。
例如,在本发明的一个实施方式中,如果频带分配是:
1)7-8kHz,8-10kHz,10-12kHz,12-14kHz以及
2)7-8.5kHz,8.5-10kHz,10-12kHz,12-14kHz并且子带具有500Hz的带宽以及50%的重叠,由此,例如,前三个子带可以是7-7.5kHz、7.25-7.75kHz和7.5-8kHz。
在此示例中,子带在7-9kHz区域中具有相对能量100、90、70、95、85、80、70,其中某些较低能量超过9kHz。从7kHz到约7.75    kHz,该信号能量降低,然后从7.75kHz到约8.25kHz上升,(同时再次从约8.25kHz向上降低)。
在本发明的实施方式中,使用该信息,决策逻辑可以确定在7.75-8.25kHz之间可能存在重要的能量峰值(以及在7-7.5KHz之间的甚至更大的能量峰值)。在示例实施方式中,如果为了简化决策逻辑,频带分配1)和2)二者都具有相同的比特分配,则决策逻辑被配置用于确定:通过使用频带分配2)允许稍后的HFR处理器将7.75-8.25kHz之间的峰值保持在相同频带中,这因而不会在任何两个频带之间的高能量峰值/区域期间强迫不连续点。
而且,在某些实施方式中,可以选择不重叠子带的数目,以评估较大区域的重要性,例如用以确定针对原始信号带宽的估计。
在某些实施方式中,能量估计器决策逻辑201使用短子带之间或者子带群组之间的能量比来选择频带的数目以及每个频带长度。
能量估计器决策逻辑201在选择频带的数目和长度方面的灵活性还取决于分配给频带选择的比特率以及分配给能量估计器决策逻辑201的处理功率的量。
另一示例参照图5和图6示出,其中决策逻辑为音频信号的每个选择四个候选频带选择之一。
对于图5,其示出了用于音频信号的单个帧的典型音频信号的频域表示401的示例。在此示例中,信号的整个频谱表示为从0到14kHz的对数修正的离散余弦变换值。本领域的技术人员将会理解,频域表示还可以通过除在此描述的MDCT值之外的其他频率系数值来确定。对于该特定示例,低频区域表示从0到7kHz的频率分量,并且高频区域表示从7kHz到14kHz的频率分量。
关于图6,其将图5的高频区域示为绝对MDCT值501以及四个可能的频带选择503、505、507、509。
第一候选频带选择503具有四个频带,频带1表示从7kHz到8kHz的频率分量,频带2表示从8kHz到约9.75kHz的频率分量,频带3表示从约9.75kHz到11.5kHz的频率分量,以及频带4表示从11.5kHz到14kHz的频率分量。
第二候选频带选择505具有四个频带,频带1表示从7kHz到8kHz的频率分量,频带2表示从8kHz到约10kHz的频率分量,频带3表示从约10kHz到12kHz的频率分量,以及频带4表示从12kHz到14kHz的频率分量。
第三候选频带选择507具有四个频带,频带1表示从7kHz到8kHz的频率分量,频带2表示从8kHz到9.5kHz的频率分量,频带3表示从9.5kHz到11kHz的频率分量,以及频带4表示从11kHz到14kHz的频率分量。
第四候选频带选择509具有五个频带,频带1表示从7kHz到8kHz的频率分量,频带2表示从8kHz到9kHz的频率分量,频带3表示从9kHz到10kHz的频率分量,频带4表示从10kHz到11.5kHz的频率分量,以及频带5表示从11.5kHz到14kHz的频率分量。
关于此示例,能量估计器检测逻辑201可以检测到:在表示从8kHz到9.5kHz的频率分量的子带中存在显著活动,而在表示从7kHz到8kHz以及从9.5kHz到11kHz的频率分量的子带中存在较不显著的活动。能量估计器检测逻辑继而可以选择第三频带选择候选507,因为其具有表示显著活动区域的特定频带2。
该实施方式仅需要每帧2比特来对从4个候选频带分配中选择了哪个进行编码。
当关于信号带宽的信息已知时,预定义列表可以包括用于将高频区域划分为反映已知的或者确定的有利频带/比特分配的频带的已定义频带分配。
换言之,一个或多个频带分配还可以包括用于量化的不同比特分配,并且可用比特继而可以主要用于在例如10或12kHz以上的能量不是很多时对高频区域的较低部分进行量化。然而,当能量在整个高频区域中均匀散布或者在高频中大于低频时,所选择的候选通常具有相等的带宽长度,并且用于量化的可用比特率在频带之间较为均匀地分配。
尽管上述示例示出了能量估计器选择逻辑能够从四个可能候选中选择一个的情况,但是在本发明的其他实施方式中,能量估计器选择逻辑201可以能够从任意数目的“固定”或者预定义频带分配候选中选择频带分配。这些预定义频带分配候选可以组织为列表。此外,尽管上述示例示出了每个频带分配候选仅四个或者五个频带,但是将会理解,每个候选可以具有任意数目的频带,并且将不限于仅有四个或者五个频带。
在本发明的某些实施方式中,这些预定义频带分配候选可以是持久性分配候选,换言之,列表存储在某些持久性或者半持久性存储器存储中,例如存储在只读存储器中。
在本发明的某些实施方式中,这些分配候选可以由中央更新过程来更新,例如,操作者向运行按照本发明的音频编解码器的通信设备指示更新过程。在其他实施方式中,运行按照本发明的音频编解码器的设备可以自行发起对候选频带分配列表的更新。这些可更新的候选频带分配可以存储在可重写存储器存储中,例如存储在电可编程存储器中。
此外,在本发明的某些实施方式中,能量估计器决策逻辑201可以被配置用于根据确定的频谱特性来生成频带分配(而不是从多个候选频带分配中选择一个)。
在一个实施方式中,决策逻辑可以根据原始信号的带宽和/或原始高频区域的较低频率和较高频率中的能量平之间的差异,生成频带分配以及比特分配。
在实践中,通常优选的是在4到16个不同组合之间的选择,其反映了每帧2到4比特的选择比特分配。使用3和4比特选择分配可以提供更大的自由度来选择可被精确放置在高频区域的较低部分中的非常短的频带。例如,在4比特选择分配情况中,针对图5和图6中所示示例而指示的那些候选频带之外的12个附加候选频带可以用来将例如300Hz频带放置在7和9.5kHz之间的区域中的12个预定重叠位置(例如,具有200Hz步长)之一中,以便覆盖语音信号中在感觉上更为重要也更为典型的频率。
因此,300Hz频带可以是额外频带,或者可以简单地调整其他频带的长度以促进该较短的频带。
能量估计器决策逻辑201对频带的选择在图7中由步骤607示出。
能量估计器决策逻辑201继而向HFR处理器232发送信息,从而使这些被选择或者生成的频带分配能够在编码器104中使用。
对频带选择的这一指示有效地执行了用于其余高频区域编码过程的控制操作,其在图7中由步骤609示出。
在本发明的一个实施方式中,HFR处理器232可以执行HFR编码,以选择低频频谱值,所述低频频谱值可以被调换和缩放以形成高频频谱值的可接受副本。由此,通过上述过程选择将在诸如WO2007/052088中详述的方法中使用的频带的数目和宽度。然而,将会理解,本发明可以适用于涉及频带选择的其他高频区域编码过程。在本发明的某些实施方式中,HFR处理器232还可以执行包络处理,这可以辅助信号的重建。
HFR处理器232由此被配置用于生成比特流输出,其被输出至比特流格式化器234,其支持适当的HFR解码器根据低频编码器输出来重建由上述方法选择的高频频带的副本。
产生比特流以实现复制过程的高频区域编码过程在图7中由步骤611示出。
此外,向比特流格式化器234传递能量估计器决策逻辑输出。这在图7中由步骤613示出。
比特流格式化器234接收低频编码器231输出、高频区域处理器232输出以及来自能量估计器决策逻辑201的选择输出,并且对比特流进行格式化以产生比特流输出。在本发明的某些实施方式中,比特流格式化器234可以对接收的输入进行交织,并且可以生成将被插入到比特流输出112中的检错和纠错代码。
在本发明的某些实施方式中,HFR处理器232从低频编码器231接收原始低频域信号而不是合成的低频域信号。在这些实施方式中可以简化编码器装置,因为低频编码器231不一定必须被配置为对低频域信号进行编码并继而解码以生成用于HFR处理器232的合成低频域信号。
此外,在某些实施方式中,能量估计器决策逻辑接收原始低频域信号,并且被配置用于使用从该信号收集的信息来执行分析。
采用本发明的实施方式的一个优点在于:其通过分配这样的频带长度(其将重要的区域(例如,高能量区域)尽可能保持在一个频带中),而进一步改进了所选低频频带与高频频带之间的匹配。
而且,使用与用于频带长度选择相同的标准,本发明的实施方式支持自适应比特分配以用于例如具有频带受限特性的信号。由此,本发明的实施方式可以为对感知质量具有影响的频带分配较多的比特。
本发明实施方式的另一优点在于:这一改进在基于先前高频区域编码的过程之外只需要非常低的附加比特率,这将不会显著影响应用的性能。
为了进一步帮助理解本发明,将参照图4中示意性示出的解码器以及图8中示出的解码器操作的流程图,示出关于本发明实施方式的解码器108的操作。
解码器包括输入313,可以从该输入313接收已编码比特流112。输入313连接至比特流解包器301。
比特流解包器将已编码比特流112进行解多路复用、分割或者解包为三个独立的比特流。低频已编码比特流被传递至低频解码器303,频谱带副本比特流被传递至高频重建器307(也称为高频区域解码器),而频带选择比特流被传递至频带选择器305。
该解包过程在图8中由步骤701示出。
低频解码器303接收低频已编码数据,并且通过执行低频编码器231中所执行过程的逆过程来构建合成低频信号。将该合成低频信号向高频重建器307和重建处理器309传递。
该低频解码过程在图8中由步骤707示出。
频带选择器305接收频带选择比特,并且按照频带选择比特来从候选分配列表中选择频带分配或者重新生成频带。向高频重建器307传递每个频带的频带分配值、数目、位置以及宽度。在本发明的某些实施方式中,频带选择器305可以是高频重建器307的一部分。
基于频带选择比特流的频带选择在图8中由步骤703示出。
在接收到合成低频信号、频带选择以及高频重建比特流之后,高频重建器307通过针对频带选择信息所指示的频带、如高频重建比特流所指示的那样对来自合成低频信号的低频分量进行复制和缩放,构建复制高频分量。向重建处理器309传递重建的高频分量比特流。
该高频复制构建或高频重建在图8中由步骤705示出。
重建处理器309接收已解码低频比特流和重建的高频比特流,以形成表示原始信号的比特流,并且在解码器输出315上对输出音频信号114进行输出。
该信号重建在图8中由步骤709示出。
本发明的上述实施方式针对分离的编码器104和解码器108装置对编解码器进行了描述,以便帮助对所涉及过程的理解。然而,将会理解,装置、结构和操作可以实现为单个编码器-解码器装置/结构/操作。此外,在本发明的某些实施方式中,编码器和解码器可以共享某些或者全部公共元件。
尽管以上示例描述了在电子设备610中的编解码器内操作的本发明的实施方式,但是将会理解,下面描述的本发明可以实现为任何可变速率/自适应速率音频(或者语音)编解码器的一部分。由此,例如,本发明的实施方式可以实现在如下音频编解码器中,该音频编解码器可以在固定的或者有线的通信路径上实现音频编码。
由此,用户设备可以包括诸如在本发明上述实施方式中描述的那些音频编解码器之类的音频编解码器。
应当理解,术语“用户设备”意在涵盖任何适当类型的无线用户设备,诸如移动电话、便携式数据处理设备或者便携式web浏览器。
此外,公共陆地移动网络(PLMN)的元件也可以包括如上所述的音频编解码器。
一般地,本发明的各种实施方式可以通过硬件或专用电路软件、逻辑或者其任意组合来实现。例如,某些方面可以通过硬件实现,而其他方面可以通过可由控制器微处理器或者其他计算设备执行的软件或者固件来实现,当然,本发明不限于此。尽管本发明的各方面可以作为框图、流程图或者使用某些其他图形化表示来进行说明和描述,但是将会理解,作为非限制性示例,在此描述的这些框、装置、系统、技术或者方法可以通过硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或者其某些组合来实现。
本发明的实施方式可以由移动设备的数据处理器可执行的计算机软件来实现,例如实现在处理器实体中,或由硬件实现,或由软件和硬件的结合来实现。此外,在此方面,应当注意,附图中逻辑流的任何框可以表示程序步骤,或者互连的逻辑电路、框和功能,或者程序步骤和逻辑电路、框和功能的结合。
存储器可以是适合本地技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如基于半导体的存储器器件、磁性存储器器件和系统、光学存储器器件和系统、固定存储器以及可拆卸存储器。数据处理器可以是适合本地技术环境的任何类型,并且可以包括以下一个或多个:通用计算机、专用计算机、微处理器、数字信号处理器(DSP)以及基于多核处理器架构的处理器,这些是作为非限制性示例。
本发明的实施方式可以通过诸如集成电路模的各种组件来实践。集成电路的设计基本上是高度自动化过程。复杂而强大的软件工具可用于将逻辑级设计转换成准备好将要在半导体衬底上蚀刻和形成的半导体电路设计。
例如加利福尼亚州芒廷维尤市Synopsys公司和加利福尼亚州圣何塞市Cadence Design公司所提供的程序之类的程序使用建立好的设计规则以及预存设计模块库在半导体芯片上自动地对导体进行布线和对部件进行定位。一旦已经完成半导体电路的设计,可以将标准化电子格式(例如Opus、GDSII等)的所得设计发送到半导体制造工厂或者“加工厂”进行制造。
上文描述已经通过示例性且非限制性示例的方式提供了对本发明示例性实施方式的全面、有益的描述。然而,通过结合附图和所附权利要求书阅读上文描述,各种修改和调整对于相关领域技术人员而言将变得易见。然而,对本发明教导的所有这种或者类似的修改仍将落入由所附权利要求书限定的本发明范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈