首页 / 专利库 / 电脑零配件 / 微指令翻译器 / 分支预测器 / 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置

用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置

阅读:469发布:2020-05-11

专利汇可以提供用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置专利检索,专利查询,专利分析的服务。并且一种用于对已编码的多声道 信号 进行解码的装置,包括: 基础 声道 解码器 (700),用于对已编码的基础声道进行解码以获得已解码的基础声道;去相关 滤波器 (800),用于对已解码的基础声道的至少一部分进行滤波以获得填充信号;以及多声道处理器(900),用于使用已解码的基础声道的 频谱 表示和填充信号的频谱表示来执行多声道处理,其中去相关滤波器(800)是宽频带滤波器,且多声道处理器(900)被配置为将窄频带处理施加到已解码的基础声道的频谱表示和填充信号的频谱表示。,下面是用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置专利的具体信息内容。

1.一种用于对已编码的多声道信号进行解码的装置,包括:
基础声道解码器(700),用于对已编码的基础声道进行解码以获得已解码的基础声道;
去相关滤波器(800),用于对所述已解码的基础声道的至少一部分进行滤波以获得填充信号;以及
多声道处理器(900),用于使用所述已解码的基础声道的频谱表示和所述填充信号的频谱表示来执行多声道处理,
其中,所述去相关滤波器(800)是宽频带滤波器,且所述多声道处理器(900)被配置为将窄频带处理施加到所述已解码的基础声道的频谱表示和所述填充信号的频谱表示。
2.根据权利要求1所述的装置,
其中,所述去相关滤波器(800)的滤波器特性被选择为使得所述滤波器特性的恒定幅度的区域大于所述已解码的基础声道的频谱表示的频谱粒度和所述填充信号的频谱表示的频谱粒度。
3.根据权利要求1或2所述的装置,其中,所述去相关滤波器包括:
滤波器级(802),用于对所述已解码的基础声道进行滤波以获得宽频带或时域填充信号;以及
频谱转换器(804),用于将所述宽频带或时域填充信号转换为所述填充信号的频谱表示。
4.根据前述权利要求中任一项所述的装置,
还包括基础声道频谱转换器(902),用于将所述已解码的基础声道转换为所述已解码的基础声道的频谱表示。
5.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)包括全通时域滤波器(802)或至少一个施罗德全通滤波器(802)。
6.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)包括至少一个施罗德全通滤波器,所述至少一个施罗德全通滤波器具有第一加法器(411)、延迟级(423)、第二加法器(416)、具有前向增益的前向馈送(443)和具有反向增益的反向馈送(433)。
7.根据权利要求5或6所述的装置,
其中,所述全通滤波器(802)包括至少一个全通滤波器单元,所述至少一个全通滤波器单元包括嵌套至第三施罗德全通滤波器(403)中的两个施罗德全通滤波器(401、402),或者其中,所述全通滤波器包括至少一个全通滤波器单元(403),所述至少一个全通滤波器单元包括两个级联的施罗德全通滤波器(401、402),其中,到第一级联的施罗德全通滤波器中的输入与来自级联的第二施罗德全通滤波器的输出在信号流的方向上在所述第三施罗德全通滤波器的延迟级(423)之前被连接。
8.根据权利要求5至7中任一项所述的装置,其中,所述全通滤波器包括:
第一加法器(411)、第二加法器(412)、第三加法器(413)、第四加法器(414)、第五加法器(415)和第六加法器(416);
第一延迟级(421)、第二延迟级(422)和第三延迟级(423);
具有第一前向增益的第一前向馈送(431)、具有第一反向增益的第一反向馈送(441),具有第二前向增益的第二前向馈送(442)和具有第二反向增益的第二反向馈送(432);
以及
具有第三前向增益的第三前向馈送(443)和具有第三反向增益的第三反向馈送(433)。
9.根据权利要求8所述的装置,
其中,到所述第一加法器(411)中的输入表示到所述全通滤波器(802)中的输入,其中,到所述第一加法器(411)中的第二输入被连接到所述第三延迟级(423)的输出,且包括具有第三反向增益的所述第三反向馈送(433),
其中,所述第一加法器(411)的输出被连接到至所述第二加法器(412)中的输入且经由具有所述第三前向增益的所述第三前向馈送被连接到所述第六加法器的输入,其中,到所述第二加法器(412)中的另一输入经由具有所述第一反向增益的第一反向馈送(441)被连接到所述第一延迟级(421),
其中,所述第二加法器(412)的输出被连接到所述第一延迟级(421)的输入且经由具有所述第一前向增益的所述第一前向馈送(431)被连接到所述第三加法器(413)的输入,其中,所述第一延迟级(421)的输出被连接到所述第三加法器(413)的另一输入,其中,所述第三加法器(413)的输出被连接到所述第四加法器(414)的输入,其中,到所述第四加法器(414)中的另一输入经由具有所述第二反向增益的所述第二反向馈送(432)被连接到所述第二延迟级(422)的输出,
其中,所述第四加法器(414)的输出被连接到至所述第二延迟级(422)中的输入且经由具有所述第二前向增益的所述第二前向馈送(442)被连接到至所述第五加法器(415)中的输入,
其中,所述第二延迟级(421)的输出被连接到至所述第五加法器(415)中的另一输入,其中,所述第五加法器(415)的输出被连接到所述第三延迟级(423)的输入,其中,所述第三延迟级(423)的输出被连接到至所述第六加法器(416)中的输入,其中,到所述第六加法器(416)中的另一输入经由具有所述第三前向增益的所述第三前向馈送(443)被连接到所述第一加法器(411)的输出,并且
其中,所述第六加法器(416)的输出表示所述全通滤波器(802)的输出。
10.根据权利要求7至9中任一项所述的装置,
其中,所述全通滤波器(802)包括两个或更多个全通滤波器单元(401、402、403、502、
504、506、508、510),其中,所述全通滤波器单元的延迟的延迟值是互质的。
11.根据权利要求5至10中任一项所述的装置,
其中,施罗德全通滤波器的前向增益和反向增益相等或彼此相差小于所述前向增益和所述反向增益中的较大增益值的10%。
12.根据权利要求5至11中任一项所述的装置,
其中,所述去相关滤波器(800)包括两个或更多个全通滤波器单元,
其中,所述全通滤波器单元中的一个全通滤波器单元具有两个正增益和一个负增益,且所述全通滤波器单元中的另一个全通滤波器单元具有一个正增益和两个负增益。
13.根据权利要求5至12中任一项所述的装置,
其中,第一延迟级(421)的延迟值低于第二延迟级(422)的延迟值,并且其中,所述第二延迟级(422)的延迟值低于包括三个施罗德全通滤波器的全通滤波器单元的第三延迟级(423)的延迟值,或者
其中,第一延迟级(421)的延迟值和第二延迟级(422)的延迟值的总和小于包括三个施罗德全通滤波器的全通滤波器单元(502、504、506、508、510)的所述第三延迟级(423)的延迟值。
14.根据权利要求5至13中任一项所述的装置,
其中,所述全通滤波器(802)包括处于级联中的至少两个全通滤波器单元(502、504、
506、508、510),其中,在所述级联中较靠后的全通滤波器的最小延迟值小于在所述级联中较靠前的全通滤波器单元的最高延迟值或次高延迟值。
15.根据权利要求5至14中任一项所述的装置,
其中,所述全通滤波器包括处于级联中的至少两个全通滤波器单元(502、504、506、
508、510),
其中,每个全通滤波器单元(502、504、506、508、510)具有第一前向增益或第一反向增益、第二前向增益或第二反向增益和第三前向增益或第三反向增益、第一延迟级、第二延迟级和第三延迟级,
其中,所述增益和所述延迟的值被设定在下表中指示的值的±20%的容差范围内:
其中,B1(z)是所述级联中的第一全通滤波器单元(502),
其中,B2(z)是所述级联中的第二全通滤波器单元(504),
其中,B3(z)是所述级联中的第三全通滤波器单元(506),
其中,B4(z)是所述级联中的第四全通滤波器单元(508),并且
其中,B5(z)是所述级联中的第五全通滤波器单元(510),
其中,所述级联仅包括由B1至B5组成的全通滤波器单元组中的所述第一全通滤波器单元B1和所述第二全通滤波器单元B2或任何其他两个全通滤波器单元,或者其中,所述级联包括从五个全通滤波器单元B1至B5的组中选择的三个全通滤波器单元,或者
其中,所述级联包括从由B1至B5组成的全通滤波器单元的组中选择的四个全通滤波器单元,或者
其中,所述级联包括所有五个全通滤波器单元B1至B5,
其中,g1表示所述全通滤波器单元的所述第一前向增益或所述第一反向增益,其中,g2表示所述全通滤波器单元的第二反向增益或第二前向增益,并且其中,g3表示所述全通滤波器单元的所述第三前向增益或所述第三反向增益,其中,d1表示所述全通滤波器单元的所述第一延迟级的延迟,其中,d2表示所述全通滤波器单元的所述第二延迟级的延迟,并且其中,d3表示所述全通滤波器单元的第三延迟级的延迟,或者
其中,g1表示所述全通滤波器单元的所述第二前向增益或所述第二反向增益,其中,g2表示所述全通滤波器单元的第一反向增益或第一前向增益,并且其中,g3表示所述全通滤波器单元的所述第三前向增益或所述第三反向增益,其中,d1表示所述全通滤波器单元的所述第二延迟级的延迟,其中,d2表示所述全通滤波器单元的所述第一延迟级的延迟,并且其中,d3表示所述全通滤波器单元的第三延迟级的延迟。
16.根据前述权利要求中任一项所述的装置,
其中,所述多声道处理器(900)被配置为使用所述已解码的基础声道的频谱带和所述填充信号的对应频谱带的不同加权组合来确定(946)第一升混声道和第二升混声道,所述不同加权组合取决于使用所述已解码的基础声道的频谱带和所述填充信号的对应频谱带计算的预测因子和/或增益因子和/或包络或能量归一化因子。
17.根据权利要求16所述的装置,
其中,所述多声道处理器被配置为对所述能量归一化因子进行压缩(945)并使用已压缩能量归一化因子来计算所述不同加权组合。
18.根据权利要求17所述的装置,其中,所述能量归一化因子使用以下操作来压缩:
计算(921)所述能量归一化因子的对数;
对所述对数应用(922)非线性函数;以及
计算(923)所述非线性函数的结果的取幂结果。
19.根据权利要求18所述的装置,
其中,所述非线性函数基于 定义,
其中,所述函数c基于0≤c(t)≤1,
其中,t是实数,并且其中,τ是积分变量。
20.根据权利要求16或18所述的装置,
其中,所述多声道处理器(900、924、925)被配置为对所述能量归一化因子进行压缩(921)并且使用已压缩能量归一化因子并使用非线性函数来计算所述不同加权组合,其中,所述非线性函数基于f(t)=t-max{min{a,t},-α}定义,
其中,α是预定边界值,并且其中,t是介于-α与+α之间的值。
21.根据前述权利要求中任一项所述的装置,
其中,所述多声道处理器(900)被配置为计算(904)低频带第一升混声道和低频带第二升混声道,并且
其中,所述装置还包括用于扩展所述低频带第一升混声道和所述低频带第二升混声道或低频带基础声道的时域带宽扩展器(960),
其中,所述多声道处理器(904)被配置为使用所述已解码的基础声道的频谱带和所述填充信号的对应频谱带的不同加权组合来确定(946)第一升混声道和第二升混声道,所述不同加权组合取决于使用所述已解码的基础声道的频谱带和所述填充信号的频谱带的能量所计算(945)的能量归一化因子,
其中,所述能量归一化因子是使用根据加窗高频带信号的能量导出(961)的能量估计来计算的。
22.根据权利要求21所述的装置,
其中,所述时域带宽扩展器(960)被配置为在没有用于计算所述能量归一化因子的所述加窗运算的情况下使用所述高频带信号。
23.根据前述权利要求中任一项所述的装置,
其中,所述基础声道解码器(700、705)被配置为提供已解码的主级基础声道和已解码的次级基础声道,
其中,所述去相关滤波器(800)被配置用于对所述已解码的主级基础声道进行滤波以获得所述填充信号,
其中,所述多声道处理器(900)被配置用于通过使用所述填充信号在多声道处理中合成一个或多个残差部分来执行多声道处理,或者
其中,整形滤波器(930)被应用于所述填充信号。
24.根据权利要求23所述的装置,
其中,所述主级基础声道和所述次级基础声道是原始输入声道的变换的结果,所述变换是例如中间/边带变换或卡忽南-拉维(KL)变换,并且其中,所述已解码的次级基础声道被限于较小带宽,
其中,所述多声道处理器被配置用于对所述填充信号进行高通滤波(930)并且用于使用高通滤波的填充信号作为不包括在所述带宽受限已解码的次级基础声道中的带宽的次级声道。
25.根据前述权利要求中任一项所述的装置,
其中,所述多声道处理器(900)被配置用于执行不同立体声处理方法(904a、904b、
904c),并且
其中,所述多声道处理器(900)还被配置为同时,例如按带宽分离,或排他性地,例如频域相对于时域处理且连接到切换决策,执行所述不同多声道处理方法,并且其中,所述多声道处理器(900)被配置为在所有多声道处理方法(904a、904b、904c)中使用相同填充信号。
26.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)包括时域滤波器(802),所述时域滤波器具有介于20ms与40ms之间的时域滤波器脉冲响应的最佳峰值区域。
27.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)被配置用于将所述已解码的基础声道再采样(811、812)至预定义或输入相关的目标采样率,
其中,所述去相关滤波器(800)被配置为使用去相关滤波器(802)级对再采样的已解码的基础声道进行滤波,并且
其中,所述多声道处理器(900)被配置为将用于其他时间部分的已解码的基础声道转换(710)至相同采样率,使得所述多声道处理器(900)使用基于相同采样率的所述已解码的基础声道和所述填充信号的频谱表示进行操作,而不管所述已解码的基础声道针对不同时间部分的不同采样率,或者
其中,所述装置被配置为在转换(804、702)至频域之前或在转换(804、702)至频域时或在转换(804、702)至频域之后执行再采样。
28.根据前述权利要求中任一项所述的装置,
还包括用于发现所述已编码的基础声道或所述已解码的基础声道中的瞬变的瞬变检测器,
其中,所述去相关滤波器(800)被配置用于在所述瞬变检测器已发现瞬变信号样本的时间部分中以噪声或零值(816)馈送去相关滤波器级(802),其中,所述去相关滤波器(800)被配置用于在所述瞬变检测器尚未发现所述已编码的基础声道或所述已解码的基础声道中的瞬变的其他时间部分中以所述已解码的基础声道的样本馈送所述去相关滤波器级(802)。
29.根据前述权利要求中任一项所述的装置,
其中,所述基础声道解码器(700)包括:
第一解码分支,包括低频带解码器(721)和带宽扩展解码器(720)以生成所述已解码的声道的第一部分;
第二解码分支(722),具有全频带解码器以生成所述已解码的基础声道的第二部分;以及
控制器(713),用于根据控制信号将所述已编码的基础声道的部分馈送到所述第一解码分支或所述第二解码分支中。
30.根据前述权利要求中任一项所述的装置,其中,所述去相关滤波器(800)包括:
第一再采样器(810、811),用于将第一部分再采样至预定采样率;
第二再采样器(812),用于将第二部分再采样至所述预定采样率;以及
全通滤波器单元(802),用于对全通滤波器输入信号进行全通滤波以获得所述填充信号;以及
控制器(815),用于将再采样的第一部分或再采样的第二部分馈送到所述全通滤波器单元(802)中。
31.根据权利要求30所述的装置,
其中,所述控制器(815)被配置为响应于所述控制信号而将再采样的第一部分或再采样的第二部分或零数据(816)馈送到所述全通滤波器单元中。
32.根据前述权利要求中任一项所述的装置,其中所述去相关滤波器(800)包括:
时间频谱转换器(804),用于将所述填充信号转换为包括具有第一频谱分辨率的频谱线的频谱表示,
其中,所述多声道处理器(900)包括时间频谱转换器(902),所述时间频谱转换器(902)用于将所述已解码的基础声道转换为使用具有所述第一频谱分辨率的频谱线的频谱表示,其中,所述多声道处理器(904)被配置为针对特定频谱线使用所述填充信号的频谱线、所述已解码的基础声道的频谱线和一个或多个参数生成用于第一升混声道或第二升混声道的频谱线,所述频谱线具有所述第一频谱分辨率,
其中,所述一个或多个参数具有与其相关联的低于所述第一频谱分辨率的第二频谱分辨率,并且
其中,所述一个或多个参数用于生成频谱线组,所述频谱线组包括所述特定频谱线和至少一个频率相邻的频谱线。
33.根据前述权利要求中任一项所述的装置,其中,所述多声道处理器被配置为使用以下以下项来生成用于所述第一升混声道或所述第二升混声道的频谱线:
取决于一个或多个所传输参数的相位旋转因子(941a、941b);
所述已解码的基础声道的频谱线;
所述已解码的基础声道的所述频谱线的第一权重(942a、942b),所述第一权重取决于所传输参数;
所述填充信号的频谱线;
所述填充信号的所述频谱线的第二权重(943a、943b),所述第二权重取决于所传输参数;以及
能量归一化因子(945)。
34.根据权利要求33所述的装置,
其中,为了计算所述第二升混声道,所述第二权重的符号不同于计算所述第一升混声道时使用的所述第二权重的符号,或者
其中,为了计算所述第二升混声道,所述相位旋转因子不同于计算所述第一升混声道时使用的相位旋转因子,或者
其中,为了计算所述第二升混声道,所述第一权重不同于计算所述第一升混声道时使用的所述第一权重。
35.根据前述权利要求中任一项所述的装置,其中,所述基础声道解码器被配置为获得具有第一带宽的所述已解码的基础声道,
其中,所述多声道处理器(900)被配置为生成第一升混声道和第二升混声道的频谱表示,所述频谱表示具有所述第一带宽以及包括在频率方面高于所述第一带宽的频带的附加第二带宽,
其中,所述第一带宽是使用所述已解码的基础声道和所述填充信号生成的,其中,所述第二带宽是使用所述填充信号而不使用所述已解码的基础声道生成的,其中,所述多声道处理器被配置为将所述第一升混声道或所述第二升混声道转换为时域表示,
其中,所述多声道处理器还包括时域带宽扩展处理器(960),所述时域带宽扩展处理器用于生成用于所述第一升混信号或所述第二升混信号或所述基础声道的时域扩展信号,所述时域扩展信号包括所述第二带宽;以及
组合器(994a、994b),用于对所述时域扩展信号和所述第一升混声道或所述第二升混声道或所述基础声道的时间表示进行组合以获得宽频带升混声道。
36.根据权利要求35的装置,其中,所述多声道处理器(900)被配置为通过以下方式来计算(945)用于计算所述第二带宽中的所述第一升混声道或所述第二升混声道的能量归一化因子:
使用所述第一带宽中的所述已解码的基础声道的能量,
使用针对所述第一声道或所述第二声道或针对带宽扩展降混信号的时间扩展信号的加窗版本的能量,以及
使用所述第二带宽中的所述填充信号的能量。
37.一种用于对已编码的多声道信号进行解码的方法,包括:
对已编码的基础声道进行解码(700)以获得已解码的基础声道;
对所述已解码的基础声道的至少一部分进行去相关滤波(800)以获得填充信号;以及使用所述已解码的基础声道的频谱表示和所述填充信号的频谱表示来执行(900)多声道处理,
其中,所述去相关滤波(800)是宽频带滤波,且所述多声道处理(900)包括将窄频带处理施加到所述已解码的基础声道的频谱表示和所述填充信号的频谱表示。
38.一种计算机程序,用于当在计算机或处理器上运行时执行根据权利要求37所述的方法。
39.一种用于对音频输入信号进行去相关以获得去相关信号的音频信号去相关器(800),包括:
全通滤波器(802),包括至少一个全通滤波器单元,全通滤波器单元包括嵌套至第三施罗德全通滤波器(403)中的两个施罗德全通滤波器(401、402),或者
其中,所述全通滤波器包括至少一个全通滤波器单元,全通滤波器单元包括两个级联的施罗德全通滤波器(401、402),其中,到第一级联的施罗德全通滤波器中的输入与来自级联的第二施罗德全通滤波器的输出在信号流的方向上在所述第三施罗德全通滤波器(403)的延迟级(423)之前被连接。
40.根据权利要求39所述的装置,
其中,所述至少一个施罗德全通滤波器具有第一加法器(411)、延迟级、第二加法器(412)、具有前向增益的前向馈送和具有反向增益的反向馈送。
41.根据权利要求39至40中任一项所述的装置,其中,所述全通滤波器包括:
第一加法器(411)、第二加法器(412)、第三加法器(413)、第四加法器(414)、第五加法器(415)和第六加法器(416);
第一延迟级(421)、第二延迟级(422)和第三延迟级(423);
具有第一前向增益的第一前向馈送(431)、具有第一反向增益的第一反向馈送(441),具有第二前向增益的第二前向馈送(442)和具有第二反向增益的第二反向馈送(432);
以及
具有第三前向增益的第三前向馈送(443)和具有第三反向增益的第三反向馈送(433)。
42.根据权利要求41所述的装置,
其中,到所述第一加法器(411)中的输入表示到所述全通滤波器中的输入,其中,到所述第一加法器(411)中的第二输入被连接到所述第三延迟级(423)的输出且包括具有第三反向增益的所述第三反向馈送(433),
其中,所述第一加法器(411)的输出被连接到至所述第二加法器(412)中的输入且经由具有所述第三前向增益(433)的所述第三前向馈送(443)被连接到所述第六加法器(416)的输入,
其中,到所述第二加法器(412)中的另一输入经由具有所述第一反向增益的第一反向馈送(441)被连接到所述第一延迟级(421),
其中,所述第二加法器(412)的输出被连接到所述第一延迟级(421)的输入且经由具有所述第一前向增益的所述第一前向馈送(431)被连接到所述第三加法器(413)的输入,其中,所述第一延迟级(421)的输出被连接到所述第三加法器(413)的另一输入,其中,所述第三加法器(413)的输出被连接到所述第四加法器(414)的输入,其中,到所述第四加法器(414)中的另一输入经由具有所述第二反向增益的所述第二反向馈送(432)被连接到所述第二延迟级(422)的输出,
其中,所述第四加法器(414)的输出被连接到至所述第二延迟级(422)中的输入且经由具有所述第二前向增益的所述第二前向馈送被连接到至所述第五加法器(415)中的输入,其中,所述第二延迟级(422)的输出被连接到至所述第五加法器(415)中的另一输入,其中,所述第五加法器(415)的输出被连接到所述第三延迟级(423)的输入,其中,所述第三延迟级(423)的输出被连接到至所述第六加法器(416)中的输入,其中,到所述第六加法器(416)中的另一输入经由具有所述第三前向增益的所述第三前向馈送(443)被连接到所述第一加法器(411)的输出,并且
其中,所述第六加法器(416)的输出表示所述全通滤波器(802)的输出。
43.根据权利要求39至42中任一项所述的装置,
其中,所述全通滤波器(802)包括两个或更多个全通滤波器单元,其中,所述全通滤波器单元的延迟的延迟值是互质的。
44.根据权利要求39至43中任一项所述的装置,
其中,施罗德全通滤波器的前向增益和反向增益相等或彼此相差小于所述前向增益和所述反向增益中的较大增益值的10%。
45.根据权利要求39至44中任一项所述的装置,
其中,所述去相关滤波器包括两个或更多个全通滤波器单元,
其中,所述全通滤波器单元中的一个全通滤波器单元具有两个正增益和一个负增益,且所述全通滤波器单元中的另一个全通滤波器单元具有一个正增益和两个负增益。
46.根据权利要求39至45中任一项所述的装置,
其中,第一延迟级(421)的延迟值低于第二延迟级(422)的延迟值,并且其中,所述第二延迟级(422)的延迟值低于包括三个施罗德全通滤波器的全通滤波器单元的第三延迟级(423)的延迟值,或者
其中,第一延迟级(421)的延迟值和第二延迟级(422)的延迟值的总和小于包括三个施罗德全通滤波器(401、402、403)的全通滤波器单元的所述第三延迟级(423)的延迟值。
47.根据权利要求39至46中任一项所述的装置,
其中,所述全通滤波器(802)包括处于级联中的至少两个全通滤波器单元,其中,在所述级联中较靠后的全通滤波器(802)的最小延迟值小于在所述级联中较靠前的全通滤波器单元的最高延迟值或次高延迟值。
48.根据权利要求39至47中任一项所述的装置,
其中,所述全通滤波器(802)包括处于级联中的至少两个全通滤波器单元,其中,每个全通滤波器单元(802)具有第一前向增益或第一反向增益、第二前向增益或第二反向增益和第三前向增益或第三反向增益、第一延迟级(421)、第二延迟级(422)和第三延迟级(423),
其中,所述增益和所述延迟的值被设定在下表中指示的值的±20%的容差范围内:
其中,B1(z)是所述级联中的第一全通滤波器单元,
其中,B2(z)是所述级联中的第二全通滤波器单元,
其中,B3(z)是所述级联中的第三全通滤波器单元,
其中,B4(z)是所述级联中的第四全通滤波器单元,并且
其中,B5(z)是所述级联中的第五全通滤波器单元,
其中,所述级联仅包括由B1至B5组成的全通滤波器单元组中的所述第一全通滤波器单元B1和所述第二全通滤波器单元B2或任何其他两个全通滤波器单元,或者其中,所述级联包括从五个全通滤波器单元B1至B5的组中选择的三个全通滤波器单元,或者
其中,所述级联包括从由B1至B5组成的全通滤波器单元的组中选择的四个全通滤波器单元,或者
其中,所述级联包括所有五个全通滤波器单元B1至B5,
其中,g1表示所述全通滤波器单元的所述第一前向增益或所述第一反向增益,其中,g2表示所述全通滤波器单元的第二反向增益或第二前向增益,并且其中,g3表示所述全通滤波器单元的所述第三前向增益或所述第三反向增益,其中,d1表示所述全通滤波器单元的所述第一延迟级(421)的延迟,其中,d2表示所述全通滤波器单元的所述第二延迟级(422)的延迟,并且其中,d3表示所述全通滤波器单元的第三延迟级(423)的延迟,或者其中,g1表示所述全通滤波器单元的所述第二前向增益或所述第二反向增益,其中,g2表示所述全通滤波器单元的第一反向增益或第一前向增益,并且其中,g3表示所述全通滤波器单元的所述第三前向增益或所述第三反向增益,其中,d1表示所述全通滤波器单元的所述第二延迟级(422)的延迟,其中,d2表示所述全通滤波器单元的所述第一延迟级(421)的延迟,并且其中,d3表示所述全通滤波器单元的第三延迟级(423)的延迟。
49.一种对音频输入信号进行去相关以获得去相关信号的方法,包括:
使用至少一个全通滤波器单元进行全通滤波,所述至少一个全通滤波器单元包括嵌套在第三施罗德全通滤波器中的两个施罗德全通滤波器,或者
使用至少一个全通滤波器单元,所述至少一个全通滤波器单元包括两个级联的施罗德全通滤波器,其中,到第一级联的施罗德全通滤波器中的输入和来自级联的第二施罗德全通滤波器的输出在信号流的方向上在所述第三施罗德全通滤波器的延迟级之前被连接。
50.一种计算机程序,用于当在计算机或处理器上运行时执行根据权利要求49所述的方法。

说明书全文

用于使用宽频带滤波器生成的填充信号对已编码的多声道信

号进行编码或解码的装置

技术领域

[0001] 本发明涉及音频处理,具体而言,涉及在用于对已编码的多声道信号进行解码的装置或方法内的多声道音频处理。

背景技术

[0002] 用于以低比特率对立体声信号进行参数化编译(coding)的现有技术的编解码器为MPEG编解码器xHE-AAC。其特征在于基于在子频带中估计的单声道降混和立体声参数声道间电平差(ILD)和声道间干扰(ICC)的完全参数化立体声编译模式。输出通过在每个子频带中使子频带降混信号和该子频带降混信号的去相关版本(其是通过在QMF滤波器组内应用子频带滤波器而获得的)矩阵化而由单声道降混合成。
[0003] 存在与用于编译语音项目的xHE-AAC相关的一些缺陷。生成了合成第二信号的滤波器产生输入信号的极大混响形式,这需要避免。因此,处理随时间推移会严重破坏输入信号的频谱形状。这对于许多信号类型效果良好,但对于频谱包络快速改变的语音信号,造成不自然的音调变化和听觉伪声,诸如双重通话或重音(ghost voice)。另外,滤波器取决于基础QMF滤波器组的时间分辨率,其随采样率而改变。因此,输出信号对于不同采样率并不一致。
[0004] 除此之外,3GPP编解码器AMR-WB+的特征在于支持7至48kbit/s的比特率的半参数化立体声模式。其是基于左输入声道与右输入声道的中间/边带变换。在低频率范围中,通过中间信号m预测边带信号s以获得平衡增益,且m和预测残差两者均被编码且连同预测系数一起被传输给解码器。在中间频率范围中,仅对降混信号m进行编译,且使用低阶FIR滤波器根据m预测缺失信号s,缺失信号s是在编码器处进行计算的。这与两个声道的带宽扩展相组合。对于语音,编解码器通常生成比xHE-AAC更自然的声音,但面临若干问题。如果输入声道仅弱相关,如同例如回音语音信号或双重通话的情况,则通过低阶FIR滤波器由m预测s的过程效果并不非常好。而且,编解码器不能处理异相信号,这可能导致质量的大量损失,且可观察到,已解码的输出的立体声图像通常高度压缩。另外,该方法并非完全参数化的,且因此在比特率方面并不高效。
[0005] 通常,完全参数化方法可能会由于以下事实而导致音频质量恶化:由于参数化编码并不在解码器侧被重构,而导致任何信号部分损失。
[0006] 一方面,诸如中间/边带编译等的波形保持过程并不允许如可从参数化多声道编译器获得的实质性比特率节省。

发明内容

[0007] 本发明的目标在于提供用于对已编码的多声道信号进行解码的改善构思。
[0008] 此目标通过用于对已编码的多声道信号进行解码的装置、根据权利要求37的对已编码的多声道信号进行解码的方法、根据权利要求38的计算机程序和根据权利要求39的音频信号去相关器、根据权利要求49的对音频输入信号进行去相关的方法或根据权利要求50的计算机程序来实现。
[0009] 本发明基于以下发现:混合方法对于对已编码的多声道信号进行解码是有用的。此混合方法依赖于使用通过去相关滤波器生成的填充信号,且此填充信号然后由诸如参数化之类的多声道处理器或其他多声道处理器用于生成已解码的多声道信号。具体而言,该去相关滤波器是宽频带滤波器,且该多声道处理器被配置为将窄频带处理应用于频谱表示。因此,填充信号优选地通过例如全通滤波器过程在时域中生成,且多声道处理使用已解码的基础声道的频谱表示且额外地使用从在时域中计算的填充信号生成的填充信号的频谱表示在谱域中进行。
[0010] 因此,频域多声道处理(一方面)和时域去相关(另一方面)的优点以有用的方式被组合以获得具有高音频质量的已解码的多声道信号。尽管如此,由于已编码的多声道信号通常并非波形保持的编码格式但例如是参数化多声道编译格式的事实,用于传输已编码的多声道信号的比特率保持尽可能低。因此,为了生成填充信号,仅使用诸如已解码的基础声道之类的解码器可用数据,且在某些实施例中,使用本领域已知的附加立体声参数,诸如增益参数或预测参数或者替代地ILD、ICC或任何其他立体声参数。
[0011] 随后,论述若干优选实施例。对立体声信号进行编译的最高效的方式是使用诸如双线索编译或参数化立体声之类的参数化方法。其旨在通过恢复子频带中的若干空间线索来根据单声道降混重构空间印象,且由此是基于心理声学的。存在考虑参数化方法的另一种方式:简单地尝试以参数化方式逐声道模型化,尝试利用声道间冗余。以此方式,可以从主级声道恢复次级声道的部分,但通常留有残差分量。忽略此分量通常导致已解码的输出的不稳定立体声图像。因此,有必要填充这种残差分量的合适替换。因为这种替换是盲目的,因此最安全的是从与降混信号具有类似时间和频谱属性的第二信号取得这样的部分。
[0012] 因此,本发明的实施例特别适用于参数化音频编译器,具体而言参数化音频解码器的上下文,其中缺失残差部分的替换是从由解码器侧的去相关滤波器生成的人工信号提取的。
[0013] 其他实施例涉及用于生成人工信号的过程。实施例涉及生成从中提取缺失残差部分的替换的人工第二声道的方法及其在被称为增强型立体声填充的全参数化立体声编译器中的使用。该信号比xHE-AAC信号更适合于编译语音信号,这是因为其频谱形状在时间上更接近输入信号。其是通过应用特殊滤波器结构而在时域中生成的,因此独立于执行立体声升混的滤波器组。其因此可用于不同的升混过程中。例如,其可用于xHE-AAC中以在变换到QMF域之后替换人工信号,此将改善语音的性能,以及可用于AMR-WB+的中频段中以替代中间/边带预测中的残差,这将改善弱相关输入声道的性能且改善立体声图像。这尤其可用于特征在于不同立体声模式(诸如,时域和频域立体声处理)的编解码器。
[0014] 在优选实施例中,去相关滤波器包括至少一个全通滤波器单元,该至少一个全通滤波器单元包括嵌套至第三施罗德全通滤波器中的两个施罗德全通滤波器单元,和/或该全通滤波器包括至少一个全通滤波器单元,该全通滤波器单元包括两个级联的施罗德全通滤波器,其中到第一级联的施罗德全通滤波器的输入和来自级联的第二施罗德全通滤波器的输出在信号流的方向上在第三施罗德全通滤波器的延迟级之前被连接。
[0015] 在又一实施例中,包括三个嵌套的施罗德全通滤波器的若干这种全通滤波器单元被级联以便获得用于立体声或多声道解码目的的具有良好脉冲响应的特别有用的全通滤波器。
[0016] 此处应强调,尽管关于根据单声道基础声道、左升混声道和右升混声道的立体声解码生成论述了本发明的若干方面,但本发明也适用于多声道解码,其中使用两个基础声道对例如四个声道的信号进行编码,其中前两个升混声道是从第一基础声道生成的,第三升混声道和第四升混声道是从第二基础声道生成的。在其他替代方案中,本发明亦适用于始终优选地使用相同的填充信号从单个基础声道生成三个或更多个升混声道。然而,在所有这种过程中,以宽频带方式,即优选地在时域中,生成填充信号,且在频域中进行用于从已解码的基础声道生成两个或更多个升混声道的多声道处理。
[0017] 去相关滤波器优选地完全在时域中操作。然而,其他混合方法也适用,其中例如通过(一方面)对低频带部分和(另一方面)高频带部分进行去相关来执行去相关,同时例如以高得多的频谱分辨率执行多声道处理。因此,示例性地,多声道处理的频谱分辨率可以例如与个别地处理每个DFT或FFT线一样高,且对于若干频带给出参数化数据,其中每个频带例如包括两个、三个或更多个DFT/FFT/MDCT线,且像宽频带那样进行对已解码的基础声道进行滤波以获得填充信号,即在时域中进行,或像半宽频带那样进行,例如在低频带和高频带内或可能在三个不同频带内进行。因此,在任何情况下,通常对个别线或子频带信号执行的立体声处理的频谱分辨率是最高频谱分辨率。通常,在编码器中生成且由优选解码器传输和使用的立体声参数具有中等频谱分辨率。因此,针对若干频带给出参数,该频带可具有变化的带宽,但每个频带至少包括由多声道处理器生成和使用的两个或更多个线或子频带信号。而且,去相关滤波的频谱分辨率非常低,且在时域滤波的情况下极低,或在对于不同频带生成不同去相关信号的情况下,是中等的,但该中等频谱分辨率仍然低于给定用于参数化处理的参数时的分辨率。
[0018] 在优选实施例中,去相关滤波器的滤波器特性是全通滤波器在整个所关注的频谱范围上具有恒定幅度区域。然而,并不具有此理想全通滤波器表现的其他去相关滤波器也是有用的,只要在优选实施例中,滤波器特性的恒定幅度区域大于已解码的基础声道的频谱表示的频谱粒度和填充信号的频谱表示的频谱粒度即可。
[0019] 因此,确保了执行了多声道处理的已解码的基础声道或填充信号的频谱粒度不影响去相关滤波,以使得生成高质量填充信号,优选地使用能量归一化因子进行调整且然后用于生成两个或更多个升混声道。
[0020] 另外,应注意,诸如关于随后论述的图4、图5或图6所描述的去相关信号的生成可用于多声道解码器的上下文中,但也可用于其中去相关信号适用于例如任何音频信号显现、任何混响操作等中的任何其他应用中。附图说明
[0021] 接下来,针对附图论述优选实施例,在附图中:
[0022] 图1a示出在与EVS核心编译器一起使用时的人工信号生成;
[0023] 图1b示出根据不同实施例的在与EVS核心编译器一起使用时的人工信号生成;
[0024] 图2a示出到包括时域带宽扩展升混的DFT立体声处理中的集成;
[0025] 图2b示出根据不同实施例的到包括时域带宽扩展升混的DFT立体声处理中的集成;
[0026] 图3示出到特征在于多个立体声处理单元的系统中的集成;
[0027] 图4示出基本全通单元;
[0028] 图5示出全通滤波器单元;
[0029] 图6示出优选全通滤波器的脉冲响应;
[0030] 图7a示出用于对已编码的多声道信号进行解码的装置;
[0031] 图7b示出去相关滤波器的优选实施方式;
[0032] 图7c示出基础声道解码器与频谱转换器的组合;
[0033] 图8示出多声道处理器的优选实施方式;
[0034] 图9a示出用于使用带宽扩展处理对已编码的多声道信号进行解码的装置的另一实施方式;
[0035] 图9b示出用于生成已压缩能量归一化因子的优选实施例;
[0036] 图10示出根据另一实施例的用于对已编码的多声道信号进行解码的装置,该装置使用基础声道解码器中的声道变换进行操作;
[0037] 图11示出用于基础声道解码器的再采样器与其后连接的去相关滤波器之间的协作;
[0038] 图12示出与根据本发明的用于解码的装置一起使用的示例性参数化多声道编码器;
[0039] 图13示出用于对已编码的多声道信号进行解码的装置的优选实施方式;以及[0040] 图14示出多声道处理器的另一优选实施方式。

具体实施方式

[0041] 图7a示出用于对已编码的多声道信号进行解码的装置的优选实施例。该已编码的多声道信号包括输入到用于对已编码的基础声道进行解码以获得已解码的基础声道的基础声道解码器700中的已编码的基础声道。
[0042] 另外,已解码的基础声道被输入到用于对已解码的基础声道的至少一部分进行滤波以获得填充信号的去相关滤波器800中。
[0043] 已解码的基础声道和填充信号两者均输入到多声道处理器900中,该多声道处理器900用于使用已解码的基础声道的频谱表示和(额外地)填充信号的频谱表示来执行多声道处理。多声道处理器输出已解码的多声道信号,该已解码的多声道信号例如在立体声处理的上下文中包括左升混声道和右升混声道,或在涵盖多于两个输出声道的多声道处理的情况下包括三个或更多个升混声道。
[0044] 去相关滤波器800配置为宽频带滤波器,且多声道处理器900被配置为将窄频带处理应用于已解码的基础声道的频谱表示和填充信号的频谱表示。重要地,在要滤波的信号是从较高采样率被下采样(例如从诸如22kHz或低一些的较高采样率下采样至16kHz或12.8kHz)时,宽频带滤波也已经完成。
[0045] 因此,多声道处理器以显著高于生成填充信号的频谱粒度的频谱粒度操作。换言之,选择了去相关滤波器的滤波器特性以使得滤波器特性的恒定幅度区大于已解码的基础声道的频谱表示的频谱粒度和填充信号的频谱表示的频谱粒度。
[0046] 因此,例如,在多声道处理器的频谱粒度使得对于例如1024线DFT频谱的每个频谱线执行升混处理时,则去相关滤波器以如下方式定义:去相关滤波器的滤波器特性的恒定幅度区具有的频率宽度高于DFT频谱的两个或更多个频谱线。通常,去相关滤波器在时域中操作,且所使用的频谱带例如从20Hz至20kHz。这种滤波器称为全通滤波器,且此处应注意,全通滤波器通常无法获得幅度完全恒定的完全恒定幅度范围,但发现从恒定幅度改变平均值的+/-10%也可用于全通滤波器,且因此也表示“滤波器特性的恒定幅度”。
[0047] 图7b示出去相关滤波器800的实施方式,其具有时域滤波器级802和随后连接的生成填充信号的频谱表示的频谱转换器804。频谱转换器804通常实施为FFT或DFT处理器,但其他时域-频域转化算法也适用。
[0048] 图7c示出基础声道解码器700与基础声道频谱转换器902之间的协作的优选实施方式。通常,基础声道解码器被配置为作为生成时域基础声道信号的时域基础声道解码器操作,而多声道处理器900在频谱域中操作。因此,图7a的多声道处理器900具有图7c的基础声道频谱转换器902作为输入级,且基础声道频谱转换器902的频谱表示然后被转发给例如图8、图13、图14、图9a或图10中所示的多声道处理器处理元件。在此上下文中,将概述,大体而言,以“7”开始的附图标记表示优选属于图7a的基础声道解码器700的元件。具有以“8”开始的附图标记的元件优选属于图7a的去相关滤波器800,且具有以“9”开始的附图标记的元件优选属于图7a的多声道处理器900。然而,此处应注意,各个元件之间的分离仅用于描述本发明,但任何实际实施方式可具有不同、通常为硬件或替代地为软件或混合硬件/软件处理,其以与图7a和其他图中所示的逻辑分离不同的方式分离。
[0049] 图4示出被指示为802'的滤波器级802的优选实施方式。具体而言,图4示出可单独地或与例如图5中所示的更多这种级联的全通单元一起包括在去相关滤波器中的基本全通单元。图5示出具有示例性地五个级联的基本全通单元502、504、506、508、510的去相关滤波器802,而基本全通单元中的每个可如图4中概述的进行实施。然而,替代地,去相关滤波器可包括图4的单个基本全通单元403,且因此表示去相关滤波器级802'的替代实施方式。
[0050] 优选地,每个基本全通单元包括嵌套至第三施罗德(Schroeder)全通滤波器403中的两个施罗德全通滤波器401、402。在此实施方式中,全通滤波器单元(cell)403连接到两个级联的施罗德全通滤波器401、402,其中到第一级联的施罗德全通滤波器401的输入与来自级联的第二施罗德全通滤波器402的输出在信号流的方向上在该第三施罗德全通滤波器的延迟级423之前连接。
[0051] 具体而言,图4中所示的全通滤波器包括:第一加法器411、第二加法器412、第三加法器413、第四加法器414、第五加法器415和第六加法器416;第一延迟级421、第二延迟级422和第三延迟级423;具有第一前向增益的第一前向馈送431、具有第一反向增益的第一反向馈送441、具有第二前向增益的第二前向馈送442和具有第二反向增益的第二反向馈送
432;以及具有第三前向增益的第三前向馈送443和具有第三反向增益的第三反向馈送433。
[0052] 图4中所示的连接如下:至第一加法器411中的输入表示至全通滤波器802中的输入,其中至第一加法器411中的第二输入连接到第三滤波器延迟级423的输出,且包括具有第三反向增益的第三反向馈送433。第一加法器411的输出连接到至第二加法器412中的输入,且经由具有第三前向增益的第三前向馈送443连接到第六加法器416的输入。至第二加法器412中的输入经由具有第一反向增益的第一反向馈送441连接到第一延迟级421。第二加法器412的输出连接到第一延迟级421的输入,且经由具有第一前向增益的第一前向馈送431连接到第三加法器413的输入。第一延迟级421的输出连接到第三加法器413的另一输入。第三加法器413的输出连接到第四加法器414的输入。至第四加法器414中的另一输入经由具有第二反向增益的第二反向馈送432连接到第二延迟级422的输出。第四加法器414的输出连接到至第二延迟级422中的输入,且经由具有第二前向增益的第二前向馈送442连接到至第五加法器415中的输入。第二延迟级421的输出连接到至第五加法器415中的另一输入。第五加法器415的输出连接到第三延迟级423的输入。第三延迟级423的输出连接到至第六加法器416中的输入。至第六加法器416中的该另一输入经由具有第三前向增益的第三前向馈送443连接到第一加法器411的输出。第六加法器416的输出表示全通滤波器802的输出。
[0053] 优选地,如图8中所示,多声道处理器900被配置为使用已解码的基础声道的频谱带与填充信号的对应频谱带的不同加权组合来确定第一升混声道和第二升混声道。具体而言,不同加权组合取决于从包括在已编码的多声道信号内的已编码的参数化信息导出的预测因子和/或增益因子。另外,加权组合优选取决于包络归一化因子,或优选取决于使用已解码的基础声道的频谱带和填充信号的对应频谱带计算出的能量归一化因子。因此,图8的处理器904接收已解码的基础声道的频谱表示和填充信号的频谱表示,且优选在时域中输出第一升混声道和第二升混声道,且预测因子、增益因子和能量归一化因子以每个频带方式输入,以及这些因子然后用于频带内的所有频谱线,但针对不同频带改变,其中此数据是从已编码的信号获取的或在解码器中本地确定的。
[0054] 具体而言,预测因子和增益因子通常表示在解码器侧上解码且然后用于参数化立体声升混的已编码的参数。与之相比,能量归一化因子是在解码器侧上通常使用已解码的基础声道的频谱带和填充信号的频谱带加以计算的。包络归一化因子同样如此。优选地,包络归一化对应于每个频带的能量归一化。
[0055] 尽管利用12图中所示的特定的参考编码器和图13或图14中所示的特定解码器来论述本发明,然而,应注意,生成宽频带填充信号和在窄频带谱域中操作的多声道立体声解码中应用宽频带填充信号也可应用于本领域已知的任何其他参数化立体声编码技术。这些是根据HE-AAC标准或根据MPEG环绕标准或根据双耳线索编译(BCC编译)或任何其他立体声编码/解码工具或任何其他多声道编码/解码工具已知的参数化立体声编码。
[0056] 图9a示出多声道解码器的另一优选实施例,其包括生成第一升混声道和第二升混声道的多声道处理器级904以及随后连接的时域带宽扩展元件908、910,该时域带宽扩展元件以引导或未引导方式对第一升混声道和第二升混声道分别地执行时域带宽扩展。通常,提供加窗器(windower)和能量归一化因子计算器912以计算待由多声道处理器904使用的能量归一化因子。然而,在针对图1a或图1b和图2a或图2b论述的替代实施例中,用单声道或已解码的核心信号执行带宽扩展,且仅图2a或图2b的单个立体声处理元件960被提供用于从高频带单声道信号生成高频带左声道信号和高频带右声道信号,然后通过使用加法器994a和994b将该高频带左声道信号和高频带右声道信号加到低频带左声道信号和低频带右声道信号。
[0057] 例如,可在时域中执行图2a或图2b中所示的相加。然后,块960生成时域信号。这是优选实施方式。然而,替代地,图2a或图2b中的立体声处理904和来自块960的左声道和右声道信号可在频谱域中生成,且例如通过合成滤波器组实施加法器994a和994b,以使得来自块904的低频带数据被输入到合成滤波器组的低频带输入中,且块960的高频带输出被输入到合成滤波器组的高频带输入中,且合成滤波器组的输出是对应的左声道时域信号或右声道时域信号。
[0058] 优选地,图9a中的加窗器和因子计算器912例如也在如图1a或图1b中的961处所示生成并且计算高频带信号的能量值,且将此能量估计用于生成高频带第一升混声道和第二升混声道,如随后将在优选实施例中针对方程式28至31所论述的。
[0059] 优选地,用于计算加权组合的处理器904接收每个频带能量归一化因子作为输入。然而,在优选实施例中,执行能量归一化因子的压缩,且使用已压缩能量归一化因子计算不同加权组合。因此,针对图8,处理器904接收已压缩能量归一化因子而非未压缩能量归一化因子。关于不同实施例在图9b中示出此过程。块920接收每个时间/频率区间(frequency bin)的残差或填充信号的能量和每个时间和频率区间的已解码的基础声道的能量,然后计算包括若干这种时间/频率区间的频带的绝对能量归一化因子。然后,在块921中,执行对能量归一化因子的压缩,且此压缩可例如用于对数函数,如例如随后针对方程式22所论述的。
[0060] 基于通过块921生成的已压缩能量归一化因子,给出用于生成已压缩能量归一化因子的不同过程。在第一替代方案中,将函数应用于如922中所示的已压缩因子,且此函数优选地是非线性函数。然后,在块923中,扩展评估的因子以获得特定已压缩能量归一化因子。因此,块922可例如实施为随后将给出的方程式(22)中的函数表达式,且块923通过方程式(22)内的“幂”函数来执行。然而,在块924与925中给出得出类似已压缩能量归一化因子的不同替代方案。在块924中,确定评估因子,且在块925中,将评估因子应用于从块920获得的能量归一化因子。因此,可例如通过随后说明的方程式27实施如在块912中概述的因子到能量归一化因子的应用。
[0061] 因此,如例如随后在方程式27中所说明,确定评估因子,且此因子仅仅是可乘以如通过块920所确定的能量归一化因子gnorm而无需实际上执行特殊函数评估的因子。因此,也可免去块925的计算,即,一旦原始未压缩能量归一化因子以及评估因子和诸如填充信号的频谱值之类的在乘法内的又一运算数一起相乘以获得归一化填充信号频谱线,则无需对已压缩能量归一化因子的特定计算。
[0062] 图10示出另一实施方式,其中已编码的多声道信号并不简单地是单声道信号,而包括例如已编码的中间信号和已编码的边带信号。在这种情况下,基础声道解码器700不仅对已编码的中间信号和已编码的边带信号或一般地已编码的第一信号和已编码的第二信号进行解码,而且额外执行例如中间/边带变换和中间/边带逆变换形式的声道变换705,以计算诸如L的主级声道和诸如R的次级声道,或变换是卡忽南-拉维(Karhunen Loeve)变换。
[0063] 然而,声道变换的结果和具体地解码操作的结果是:主级声道是宽频带声道,而次级声道是窄频带声道。然后,宽频带声道输入到去相关滤波器800中,且在块930中执行高通滤波以生成去相关高通信号,且此去相关高通信号然后在频带组合器934中被加到窄频带次级声道以获得宽频带次级声道,使得最终输出宽频带主级声道和宽频带次级声道。
[0064] 图11示出另一实施方式,其中通过基础声道解码器700以与已编码的基础声道相关联的特定采样率获得的已解码的基础声道被输入到再采样器710中,以便获得再采样的基础声道,该再采样的基础声道然后用于对再采样的声道进行操作的多声道处理器中。
[0065] 图12示出参考立体声编码的优选实施方式。在块1200中,针对诸如L之类的第一声道和诸如R之类的第二声道计算声道间相位差IPD。此IPD值然后通常被量化且在每个时间中针对每个频带作为编码器输出数据1206被输出。此外,IPD值用于计算立体声信号的参数化数据,诸如每个时间帧t中每个频带b的预测参数gt,b和每个时间帧t中每个频带b的增益参数rt,b。
[0066] 另外,第一声道和第二声道两者也用于中间/边带处理器1203中以针对每个频带计算中间信号和边带信号。
[0067] 取决于实施方式,可仅将中间信号M转发给编码器1204,且不将边带信号转发给编码器1204,以使得输出数据1206仅包括已编码的基础声道、通过块1202生成的参数化数据和通过块1200生成的IPD信息。
[0068] 随后,关于参考编码器论述优选实施例,但应注意,也可使用如之前论述的任何其他立体声编码器。
[0069] 参考立体声编码器
[0070] 指定基于DFT的立体声编码器以进行参考。照例,通过同时应用离散傅立叶变换(DFT)跟随的分析窗来生成左声道和右声道的时间频率向量Lt和Rt。DFT区间于是被分别分组为子频带(Lt,k)k∈Ib,(Rt,k)k∈Ib,其中Ib表示子频带索引集合。
[0071] IPD的计算和降混。对于降混,将逐频带声道间相位差(IPD)计算为
[0072] (1)
[0073] 其中z*表示z的复共轭。其用于生成逐频带中间和边带信号
[0074] (2)
[0075] 且
[0076] (3)
[0077] 对于k∈Ib,其中β为例如由下式给出的绝对相位旋转参数
[0078] (4)
[0079] 参数的计算。除了逐频带IPD之外,还提取两个其他立体声参数。用于通过Mt,b预测St,b的最佳系数,即数gt,b,使得剩余部分的能量
[0080] (5) pt,k=St,k-gt,bMt,k
[0081] 最小,且相关增益因子rt,b(如果应用于中间信号Mt)等于每个频带中pt和Mt的能量,即
[0082] (6)
[0083] 可以根据子频带中的能量
[0084] (7) 且
[0085] 以及Lt与Rt的内积的绝对值
[0086] (8)
[0087] 将最佳预测系数计算为
[0088] (9)
[0089] 根据此,可得出,gt,b在[-1,1]中。可类似地根据能量和内积将残差增益计算为[0090] (10)
[0091] 这暗示了
[0092] (11)
[0093] 图13示出解码器侧的优选实施方式。在表示图7a的基础声道解码器的块700中,对已编码的基础声道M进行解码。
[0094] 然后,在块940a中,计算诸如L之类的主级升混声道。另外,在块940b中,计算次级升混声道,其例如是声道R。
[0095] 块940a和940b两者均连接到填充信号生成器800,且接收通过图12中的块1200或图12的1202生成的参数化数据。
[0096] 优选地,在具有第二频谱分辨率的频带中给出参数化数据,且块940a、940b以高频谱分辨率粒度操作且生成具有高于第二频谱分辨率的第一频谱分辨率的频谱线。
[0097] 块940a、940b的输出例如被输入到频率-时间转换器961、962中。这些转换器可以是DFT或任何其他变换,且通常也包括随后的合成加窗处理和进一步的重叠相加操作。
[0098] 另外,填充信号生成器接收能量归一化因子,且优选地,接收已压缩能量归一化因子,且使用此因子来生成用于块940a和940b的正确地调平/加权的填充信号频谱线。
[0099] 随后,给出块940a、940b的优选实施方式。两个块均包括计算相位旋转因子941a,计算已解码的基础声道的频谱线的第一权重,如由942a和942b所指示的。另外,两个块均包括用于计算填充信号的频谱线的第二权重的计算943a和943b。
[0100] 另外,填充信号生成器800接收通过块945生成的能量归一化因子。此块945接收每个频带填充信号和每个频带基础声道信号,且然后计算用于频带中的所有线的相同能量归一化因子。
[0101] 最后,此数据被转发给处理器946以用于计算用于第一升混声道和第二升混声道的频谱线。为此目的,处理器946接收来自块941a、941b、942a、942b、943a、943b的数据以及用于已解码的基础声道的频谱线和用于填充信号的频谱线。于是块946的输出是用于第一升混声道和第二升混声道的对应频谱线。
[0102] 随后,给出解码器的优选实施方式。
[0103] 参考解码器
[0104] 指定用于参考的基于DFT的解码器,其对应于上文所描述的编码器。根据编码器两者的时间-频率变换被应用于已解码的降混,从而生成时间-频率向量 使用解量化值和 将左声道和右声道计算为
[0105] (12)
[0106] 和
[0107] (13)
[0108] 对于k∈Ib,其中 是来自编码器的缺失残差pt,k的替代,且gnorm是能量归一化因子
[0109] (14)
[0110] 其将相对残差预测增益rt,b转变为绝对值。对 的简单选择将是
[0111] (15)
[0112] 其中db>表示逐频带帧延迟,但这具有一些缺点,即
[0113] · 与 可能具有差异极大的频谱和时间形状,
[0114] ·甚至在频谱和时间包络匹配的情况下,在(12)和(13)中使用(15)也会导致依赖于频率的ILD和IPD,这在低至中间频率范围中仅缓慢地改变。这造成例如音调项的问题,[0115] ·对于语音信号,延迟应被选择为较小以便保持低于回音阈值,但这会由于梳状滤波而造成强烈的音调变化(strong coloration)。
[0116] 因此,优选使用在下文描述的人工信号的时间-频率区间。
[0117] 再次将相位旋转因子β计算为
[0118] (16)
[0119] 合成信号生成
[0120] 为了替换立体声升混中的缺失残差部分,从时域输入信号 生成第二信号,从而输出第二信号 此滤波器的设计约束是具有短而密集的脉冲响应。这通过应用通过将两个施罗德全通滤波器嵌套至第三施罗德滤波器中而获得的基本全通滤波器的若干级来实现,即
[0121] (17)
[0122] 其中
[0123] (18)
[0124] 且
[0125] (19)
[0126] 这些基本的全通滤波器
[0127] (20)
[0128] 已由施罗德在人工混响生成的上下文中提出,应用这些滤波器具有大增益和大延迟。因为在此上下文中具有混响输出信号不是期望的,因此增益和延迟被选择为相当小。类似于混响情况,最好通过选择对于所有全通滤波器是成对互质数的延迟di来获得密集而类随机的脉冲响应。
[0129] 滤波器以固定采样率执行,而不考虑通过核心编译器递送的信号的带宽或采样率。在与EVS编译器一起使用时,这是必需的,因为带宽可能在操作期间被带宽检测器改变,且固定采样率保证一致的输出。用于全通滤波器的优选采样率是32kHz,即原生超宽频带采样率,因为在16kHz以上的残差部分的不存在通常不再是可听的。在与EVS编译器一起使用时,信号直接构造自核心,该核心组合有若干再采样例程,如在图1中所显示的。
[0130] 被发现在32kHz采样率下效果良好的滤波器为
[0131] (21)
[0132] 其中Bi是具有表1中显示的增益和延迟的基本全通滤波器。此滤波器的脉冲相应被描绘于图6中。出于复杂度原因,也可以较低采样率应用这种滤波器和/或减少基本全通滤波器单元的数量。
[0133] 全通滤波器单元也提供用零覆写输入信号的部分的功能性,其受编码器控制。这可以例如用来删除来自滤波器输入的攻击。
[0134] gnorm因子的压缩
[0135] 为了获得较平滑的输出,已发现将朝向一值进行压缩的压缩器应用于能量调整增益gnorm是有益的。这也由于以下事实而进行一些补偿:环绕感的部分通常会在以较低比特率对降混进行编译之后损失。
[0136] 可通过取下式来构造这种压缩器
[0137] (22)
[0138] 其中,
[0139] (23)
[0140] 且函数c满足
[0141] (24) 0≤c(t)≤1。
[0142] t周围的值c于是指定此区域的压缩强度,其中值0对应于无压缩,且值1对应于全压缩。此外,如果c是偶数,则压缩方案是对称的,即c(t)=c(-t)。一个示例为[0143] (25)
[0144] 其得出
[0145] (26)f(t)=t-max{min{α,t},-α}。
[0146] 在此情况下,(22)可简化为
[0147] (27)
[0148]
[0149] 且可以保存特殊函数评估。
[0150] 对于ACELP帧与带宽扩展的时域立体声升混组合使用
[0151] 当与EVS编解码器(用于通信场景的低延迟音频编解码器)一起使用时,期望在时域中执行带宽扩展的立体声升混,至由时域带宽扩展(TBE)引发的安全延迟。立体声带宽升混旨在恢复带宽扩展范围中的正确平移(panning),但不添加缺失残差的替代项。因此,期望在频域立体声处理中添加替代项,如图2中所描绘的。
[0152] 使用以下记法:解码器处的输入信号为 滤波输入信号为 用于 的时间-频率区间为 且用于 的时间-频率区间为
[0153] 于是面临以下问题: 在带宽扩展范围内是未知的,因此如果索引k∈Ib中的一些位于带宽扩展范围中,则能量归一化因子
[0154] (28)
[0155] 无法直接计算。这个问题如下解决:令IHB和ILB分别表示频率区间的高频带索引和低频带索引。然后,通过在时域中计算加窗的高频带信号的能量来获得 的估计 现在,如果Ib,LB和Ib,HB表示Ib(频带b的索引)中的低频带和高频带索引,则可得出
[0156] (29)
[0157] 现在,右手侧上的第二总和中的被加数是未知的,但由于 是通过全通滤波器从获得的,因此可假定 和 的能量类似地分布,且因此将得出
[0158] (30)
[0159] 因此,(29)的右手侧的第二总和可估计为
[0160] (31)
[0161] 与对主级和次级声道进行编译的编译器一起使用
[0162] 人工信号也适用于对主级和次级声道进行编译的立体声编译器。在此情况下,主级声道充当全通滤波器单元的输入。滤波输出然后可以用于替代立体声处理中的残差部分,可能在将整形滤波器应用于滤波输出之后。在最简单的设定中,主级声道和次级声道可以是输入声道的变换,如中间/边带或KL变换,且次级声道可限于较小带宽。次级声道的缺失部分然后可以在应用高通滤波器之后被经滤波主级声道替换。
[0163] 与能够在立体声模式之间切换的解码器一起使用
[0164] 人工信号特别受关注的情况是当解码器特征在于如图3中所描绘的不同立体声处理方法时。该方法可同时(例如,通过带宽分离)或排他性地(例如,频域与时域处理)应用,且连接到切换决策。在切换情况和同时情况两者中,在所有立体声处理方法中使用相同人工信号使不连续性平滑化。
[0165] 优选实施例的益处和优点
[0166] 新方法具有优于如例如在xHE-AAC中应用的现有技术平方法的许多益处和优点。
[0167] 时域处理允许比应用于参数化立体声中的子频带处理高得多的时间分辨率,这使得有可能设计脉冲响应既密集且又快速衰减的滤波器。这导致输入信号频谱包络随时间推移被破坏较少,或输出信号的音调变化较少,且因此发声更自然。
[0168] 对语音的较佳适合性,其中滤波器的脉冲响应的最佳峰值区域应处于20ms与40ms之间。
[0169] 滤波器单元特征在于以不同采样率针对输入信号的再采样功能性。这允许以固定采样率操作滤波器,这是有益的,因为其保证在不同采样率下的类似输出;或在采样率不同的信号之间切换时使不连续平滑化。出于复杂度原因,应将内部采样率选择为使得滤波信号仅涵盖感知相关频率范围。
[0170] 因为信号是在解码器的输入处生成且不连接到滤波器组,因此其可用于不同立体声处理单元中。这有助于在不同单元之间切换时或针对信号的不同部分操作不同单元时使不连续平滑化。
[0171] 这还减小了复杂度,因为在单元之间切换时不需要重新初始化。
[0172] 增益压缩方案有助于补偿由核心编译造成的周围环境上的损失。
[0173] 与ACELP帧的带宽扩展相关的方法缓解缺少基于水平移动的时域带宽扩展升混中残差分量的缺失,这在DFT域和时域中处理高频带之间切换时增加稳定性
[0174] 输入可以在非常精细的时间标度上用零替换,这对于处理攻击是有益的。
[0175] 随后,论述关于图1a或图1b、图2a或图2b和图3的额外细节。
[0176] 图1a或图1b将基础声道解码器700示出为包括第一解码分支以生成已解码的基础声道的第一部分,该第一解码分支具有低频带解码器721和带宽扩展解码器720。另外,基础声道解码器700包括第二解码分支722以生成已解码的基础声道的第二部分,该第二解码分支722具有全频带解码器。
[0177] 两个元件之间的切换通过控制器713进行,该控制器被示为通过包括在已编码的多声道信号中的控制参数来控制的用于将已编码的基础声道的部分馈送至包括块720、721的第一解码分支或至第二解码分支722中的开关。低频带解码器721例如实施为代数码激励线性预测编译器ACELP,且第二全频带解码器实施为变换码激励(TCX)/高质量(HQ)核心解码器。
[0178] 来自块722的已解码的降混或来自块721的已解码的核心信号以及(额外地)来自块720的带宽扩展信号被取得并转发给图2a或图2b中的过程。此外,随后连接的去相关滤波器包括再采样器810、811、812,且在必要时且在适当的情况下包括延迟补偿元件813、814。加法器将来自块720的时域带宽扩展信号与来自块721的核心信号组合,且将其转发给通过已编码的多声道数据控制的呈开关控制器形式的开关815,以便取决于哪个信号可用而在第一编译分支或第二编译分支之间切换。
[0179] 另外,切换决策817被配置为例如实施为瞬变检测器。然而,瞬变检测器不必是用于通过信号分析来检测瞬变的实际检测器,但瞬变检测器也可被配置为确定指示基础声道中的瞬变的已编码的多声道信号中的边带信息或特定控制参数。
[0180] 切换决策817设定开关以便将从开关815输出的信号馈送给全通滤波器单元802中,或馈送零输入,其导致对于某些非常特定可选的时间区实际停用多声道处理器中的填充信号相加,因为在图1a或图1b中的1000处指示的EVS全通信号生成器(APSG)完全在时域中操作。因此,可逐样本地选择零输入而无需对任何窗口长度的任何参考,从而根据频谱域处理的需要减小频谱分辨率。
[0181] 图1a中所示的设备与图1b中所示的设备的不同之处在于,在图1b中省略了再采样器和延迟级,即在图1b设备中并不需要元件810、811、812、813、814。因此,在图1b实施例中,全通滤波器单元以16kHz而非如图1a中以32kHz操作。
[0182] 图2a或图2b示出全通信号生成器1000至包括时域带宽扩展升混的DFT立体声处理中的集成。块1000将通过块720生成的带宽扩展信号输出到高频带升混器960(TBE升混-(时域)带宽扩展升混),以从通过块720生成的单声道带宽扩展信号生成高频带左信号和高频带右信号。另外,再采样器821被提供为在804处指示的用于填充信号的DFT之前被连接。此外,提供了用于已解码的基础声道的DFT 922,该已解码的基础声道是(全频带)已解码的降混或(低频带)已解码的核心信号。
[0183] 取决于实施方式,当来自全频带解码器722的已解码的降混信号可用时,则停用块960,且立体声处理块904已经输出全频带升混信号,诸如全频带左声道和右声道。
[0184] 然而,当已解码的核心信号被输入到DFT块922中时,则块960被激活,且通过加法器994a和994b将左声道信号与右声道信号相加。然而,仍然在通过块904指示的谱域中根据例如在优选实施例内论述的过程基于方程式28至31来执行填充信号的相加。因此,在这种情况下,由DFT块902输出的对应于低频带中间信号的信号不具有任何高频带数据。然而,由块804输出的信号,即填充信号,具有低频带数据和高频带数据。
[0185] 在立体声处理块中,通过已解码的基础声道和填充信号生成由块904输出的低频带数据,但由块904输出的高频带数据仅由填充信号组成且不具有来自已解码的基础声道的任何高频带信息,这是因为已解码的基础声道是频带受限的。来自已解码的基础声道的高频带信息是由带宽扩展块720生成,通过块960升混至左高频带声道和右高频带声道中,然后通过加法器994a、994b相加。
[0186] 图2a中所示的设备与图2b中所示的设备的不同的处在于,在图2b中省略再采样器,即图2b设备中不需要元件821。
[0187] 图3示出具有如之前针对在立体声模式之间切换所论述的多个立体声处理单元904a至904b、904c的系统的优选实施方式。每个立体声处理块接收边带信息和(额外地)特定主级信号以及完全相同的填充信号,而不管输入信号的特定时间部分是使用立体声处理算法904a、立体声处理算法904b还是另一立体声处理算法904c被处理。
[0188] 尽管已经在装置的上下文中描述一些方面,但显然,这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中所描述的方面也表示对应装置的对应块或项目或特征的描述。可由(或使用)硬件装置(如微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中,可由这种装置执行最重要的方法步骤中的一个或多个。
[0189] 本发明的已编码的音频信号可储存在数字存储介质上或可在诸如无线传输介质之类的传输介质或诸如因特网之类的有线传输介质上传输。
[0190] 取决于某些实施要求,本发明的实施例可在硬件或软件中实施。可使用非暂时性存储介质或数字存储介质来执行实施方式,这些介质例如是软盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存,在其上储存有电子可读控制信号,该信号与可编程计算机系统协作(或能够与其协作)使得执行相应方法。因此,数字存储介质可以是计算机可读的。
[0191] 根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该控制信号能够与可编程计算机系统协作,使得执行本文中所描述的方法中的一个。
[0192] 大体而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行该方法中的一个。程序代码可以例如储存在机器可读载体上。
[0193] 其他实施例包括储存在机器可读载体上,用于执行本文中所描述的方法中的一个的计算机程序。
[0194] 换言之,本发明方法的实施例因此是计算机程序,其具有用于当计算机程序在计算机上运行时执行本文中所描述的方法中的一个的程序代码。
[0195] 因此,本发明方法的又一实施例是数据载体(或数字存储介质,或计算机可读介质),其包括记录在其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或所记录介质通常是有形的和/或非暂时性的。
[0196] 因此,本发明的方法的又一实施例是表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由因特网)来传送。
[0197] 又一实施例包括处理装置,例如被配置为或适于执行本文中所描述的方法中的一个的计算机或可编程逻辑器件
[0198] 又一实施例包括上面安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。
[0199] 根据本发明的又一实施例包括被配置为向接收器(例如,电子地或光学地)传送用于执行本文中所描述的方法中的一个的计算机程序的装置或系统。接收器可以例如是计算机、移动设备、存储器设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器
[0200] 在一些实施例中,可编程逻辑器件(例如,现场可编程阵列)可用于执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文中所描述的方法中的一个。通常,该方法优选地由任何硬件设备来执行。
[0201] 本文中所描述的装置可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来实施。
[0202] 本文中所描述的装置或本文中所描述的装置的任何组件可至少部分地以硬件和/或以软件来实施。
[0203] 本文中所描述的方法可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来执行。
[0204] 本文中所描述的方法或本文中所描述的装置的任何组件可至少部分地由硬件和/或由软件来执行。
[0205] 上述实施例仅说明本发明的原理。应理解,对本文中所描述的布置和细节的修改和变化对本领域技术人员是显而易见的。因此,旨在仅受所附权利要求的范围的限制,而不受通过对本文中的实施例的描述和解释的方式呈现的具体细节的限制。
[0206] 在前述描述中,可见出于精简本发明的目的,各种特征在实施例中被分组在一起。不应将本公开的此方法解释为反映以下意图:所要求保护的实施例要求比每个权利要求中明确记载的更多的特征。实际上,如所附权利要求所反映的,本发明主题可以在少于单个公开的实施例的全部特征的特征中。因此,所附权利要求由此并入具体实施方式中,其中每个权利要求可以本身是单独实施例。尽管每个权利要求可以本身是单独实施例,但应注意,尽管从属权利要求可能在权利要求中提及与一个或多个其他权利要求的特定组合,但其他实施例也可以包括该从属权利要求与每个其他从属权利要求的主题的组合或每个特征与其他从属或独立权利要求的组合。除非陈述并不希望特定组合,否则在本文中提出了这种组合。此外,旨在也包括权利要求对于任何其他独立权利要求的特征,即使该权利要求并不直接从属于该独立权利要求。
[0207] 还应注意,本说明书或权利要求中所公开的方法可通过具有用于执行这些方法的相应步骤中的每个的装置的设备来实施。
[0208] 此外,在一些实施例中,单个步骤可以包括或可以分成多个子步骤。除非明确地排除,否则这种子步骤可以包括在该单个步骤的公开中且是其部分。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈