首页 / 专利库 / 广播 / 音频流 / 用于音频设备的组合动态范围压缩和引导截断防止的构思

用于音频设备的组合动态范围压缩和引导截断防止的构思

阅读:543发布:2020-05-11

专利汇可以提供用于音频设备的组合动态范围压缩和引导截断防止的构思专利检索,专利查询,专利分析的服务。并且一种用于音频设备的组合动态范围压缩和引导截断防止的构思。本 发明 提供了一种用于音频设备的组合动态范围压缩和引导截断防止的构思。一种用于根据该构思对音频比特流和与该音频比特流相关的元数据比特流进行解码的音频 解码器 包括:音频处理链,被配置为接收根据该音频比特流得到的经解码的音频 信号 并且调整该 音频信号 的特性以产生音频 输出信号 ,该音频调整链包括多个调整级,该多个调整级包括用于调整音频输出信号的动态范围的动态范围控制级和用于防止音频输出信号的截断的引导截断防止级;以及元数据解码器,被配置为接收该元数据比特流并且从该元数据比特流提取动态范围控制增益序列和引导截断防止增益序列。,下面是用于音频设备的组合动态范围压缩和引导截断防止的构思专利的具体信息内容。

1.一种用于产生包括一个或多个音频通道AC和/或一个或多个音频对象AO的音频比特流的音频编码器,所述音频编码器(1)包括用于产生元数据比特流MBS的元数据编码器(2),所述音频编码器被配置为:
接收针对音频的至少一个动态范围控制增益序列DS,所述至少一个动态范围控制增益序列DS包括针对音频解码器(3)的动态范围控制级(5)的一个或多个动态范围控制增益;
接收针对所述音频帧的至少一个引导截断防止增益序列GS,所述至少一个引导截断防止增益序列GS包括针对所述音频解码器(3)的引导截断防止级(6)的一个或多个引导截断防止增益;以及
将所述动态范围控制增益序列DS中的至少一个和所述引导截断防止增益序列GS中的至少一个包括到所述元数据比特流MBS中。
2.根据权利要求1所述的音频编码器,其中,所述元数据编码器(2)被配置为接收针对相同音频帧的包括不同动态范围控制增益的至少两个动态范围控制增益序列DS,并且将包括不同动态范围控制增益的所述至少两个动态范围控制增益序列DS包括到所述元数据比特流MBS中。
3.根据权利要求1所述的音频编码器,其中,所述元数据编码器(2)被配置为接收包括与不同音频通道和/或与不同音频对象相关的至少两个动态范围控制增益的动态范围控制增益序列DS,并且将包括与不同音频通道和/或与不同音频对象相关的至少两个动态范围控制增益的所述动态范围控制增益序列DS包括到所述元数据比特流MBS中。
4.根据权利要求1所述的音频编码器,其中,所述元数据编码器(2)被配置为接收包括与所述音频解码器的不同频带相关的至少两个动态范围控制增益的动态范围控制增益序列DS,并且将包括与所述解码器的不同频带相关的至少两个动态范围控制增益的所述动态范围控制增益序列DS包括到所述元数据比特流MBS中。
5.根据权利要求1所述的音频编码器,其中,所述元数据编码器(2)被配置为接收包括不同引导截断防止增益的至少两个引导截断防止增益序列GS,并且将包括所述不同引导截断防止增益的所述至少两个引导截断防止增益序列GS包括到所述元数据比特流MBS中。
6.根据权利要求1所述的音频编码器,其中,每一个动态范围控制序列DS与所述引导截断防止增益序列GS中的一个相关,其中所述元数据编码器(2)被配置为将所述动态范围控制序列DS与所述引导截断防止增益序列GS之间的关系包括到所述元数据比特流MBS中。
7.根据权利要求1所述的音频编码器,其中,所述元数据编码器(2)被配置为接收包括与不同音频通道和/或与不同音频对象相关的至少两个引导截断防止增益的引导截断防止增益序列GS,并且将包括与不同音频通道和/或与不同音频对象相关的至少两个引导截断防止增益的所述引导截断防止增益序列GS包括到所述元数据比特流MBS中。
8.一种用于操作音频编码器(1)的方法,所述音频编码器(1)用于产生包括一个或多个音频通道和/或一个或多个音频对象的音频比特流,所述音频编码器(1)包括用于产生元数据比特流MBS的元数据编码器(2),所述方法包括以下步骤:
在所述元数据编码器(2)的一部分上接收至少一个动态范围控制增益序列DS,所述至少一个动态范围控制增益序列DS包括针对音频解码器(3)的动态范围控制级(5)的一个或多个动态范围控制增益;
在所述元数据编码器(2)的一部分上接收至少一个引导截断防止增益序列GS,所述至少一个引导截断防止增益序列GS包括针对所述音频解码器(3)的引导截断防止级(6)的一个或多个引导截断防止增益;以及
在所述元数据编码器(2)的一部分上将所述动态范围控制增益序列DS中的至少一个和所述引导截断防止增益序列GS中的至少一个包括到所述元数据比特流MBS中。
9.一种计算机程序,用于当在计算机或处理器上运行时执行根据权利要求8所述的方法。
10.一种用于对音频比特流和与所述音频比特流相关的元数据比特流MBS进行解码的音频解码器,所述音频比特流和所述元数据比特流MBS具体地是由根据权利要求1所述的音频编码器(1)产生的,所述音频解码器包括:
音频处理链(4),被配置为接收根据所述音频比特流得到的经解码的音频信号DAS并且调整所述音频处理链(4)的音频输出信号AOS的特性,所述音频处理链(4)包括多个调整级(5、6、10、11、12、13、14),所述多个调整级(5、6、10、11、12、13、14)包括用于调整所述音频输出信号AOS的动态范围的动态范围控制级(5)和用于防止所述音频输出信号AOS的截断的引导截断防止级(6);以及
元数据解码器(7),被配置为接收所述元数据比特流MBS并且从所述元数据比特流MBS提取动态范围控制增益序列DS和引导截断防止增益序列GS,所述动态范围控制增益序列DS的至少一部分被提供至所述动态范围控制级(5),并且所述引导截断防止增益序列GS的至少一部分被提供至所述引导截断防止级(6)。
11.根据权利要求10所述的音频解码器,其中,所述元数据解码器(7)被配置为从所述元数据比特流MBS提取针对相同音频帧的包括不同动态范围控制增益的至少两个动态范围控制增益序列DS。
12.根据权利要求10所述的音频解码器,其中,所述元数据解码器(7)被配置为从所述元数据比特流MBS提取包括与不同音频通道和/或与不同音频对象相关的至少两个动态范围控制增益的动态范围控制增益序列DS。
13.根据权利要求10所述的音频解码器,其中,所述元数据解码器(7)被配置为从所述元数据比特流MBS提取包括与所述音频解码器(3)的不同频带相关的至少两个动态范围控制增益的动态范围控制增益序列DS。
14.根据权利要求10所述的音频解码器,其中,所述元数据解码器(7)被配置为从所述元数据比特流MBS提取包括不同的引导截断防止增益的至少两个引导截断防止增益序列GS。
15.根据权利要求10所述的音频解码器,其中,所述元数据解码器(7)被配置为从所述元数据比特流MBS提取包括与不同音频通道和/或与不同音频对象相关的至少两个引导截断防止增益的引导截断防止增益序列GS。
16.根据权利要求10所述的音频解码器,所述音频解码器(3)还包括元数据和参数控制级(8),所述元数据和参数控制级(8)被配置为基于从配置提供级(9)接收的配置信息CI将元数据和参数(DS、GS、CLA、DI、DTL、PRL、IS、OMD、ICT)提供至所述调整级(5、6、10、11、12、
13、14)中的至少一个。
17.根据权利要求10所述的音频解码器,其中,所述元数据和参数控制级(8)被配置为在接收到多个动态范围控制增益序列DS的情况下选择将所述多个动态范围控制增益序列DS中的哪一个提供至所述动态范围控制级(5)。
18.根据权利要求10所述的音频解码器,其中,所述元数据和参数控制级(8)被配置为在接收到多个引导截断防止增益序列GS的情况下选择将所述多个引导截断防止增益序列GS中的哪一个提供至所述引导截断防止级(6)。
19.根据权利要求10所述的音频解码器,其中,在信号流的方向上的所述动态范围控制级(5)是所述音频处理链(4)的第一调整级。
20.根据权利要求10所述的音频解码器,其中所述音频处理链(4)包括被配置为调整所述音频输出信号AOS的通道配置的格式转换器级(10)。
21.根据权利要求10所述的音频解码器,其中,所述音频处理链(4)包括被配置为对所述音频输出信号AOS的响度进行归一化的响度归一化级(11)。
22.根据权利要求10所述的音频解码器,其中,所述音频处理链(4)包括被配置为在阈值被超过的情况下限制所述音频输出AOS的峰值的峰值限制器级(12)。
23.根据权利要求10所述的音频解码器,其中,所述音频处理链(4)包括被配置为将音频对象混频至所述音频输出信号AOS的通道中的对象呈现器级(13)。
24.根据权利要求10所述的音频解码器,其中,所述音频处理链(4)包括被配置为调整所述音频输出信号AOS的特性以适应用于再现所述音频输出信号AOS的换能器系统的换能器适配级(14)。
25.根据权利要求22所述的音频解码器,其中,在所述信号流的方向上的所述峰值限制器级(12)是所述音频处理链(4)的最后一个调整级。
26.一种用于操作音频解码器(3)的方法,被应用于根据权利要求10至25之一所述的音频解码器(3),所述音频解码器(3)用于对音频比特流和与所述音频比特流相关的元数据比特流MBS进行解码,所述音频比特流和所述元数据比特流MBS是具体地由根据权利要求1至8之一所述的音频编码器(1)产生的,所述方法包括以下步骤:
根据所述音频比特流得到经解码的音频信号DAS;
使用具有多个调整级的音频处理链(4)来调整所述音频处理链(4)的音频输出信号AOS的特性,包括通过作为所述音频处理链(4)的调整级(5、6、10、11、12、13、14)的动态范围控制级(5)调整所述音频输出信号AOS的动态范围,并且通过作为所述音频处理链(4)的调整级(5、6、10、11、12、13、14)的引导截断防止级(6)防止所述音频输出信号AOS的截断;
在元数据解码器(7)的一部分上接收所述元数据比特流MBS并且从所述元数据比特流MBS提取动态范围控制增益序列DS和引导截断防止增益序列GS;
将所述动态范围控制增益序列DS的至少一部分提供至所述动态范围控制级(5);以及将所述引导截断防止增益序列GS的至少一部分提供至所述引导截断防止级(6)。
27.一种计算机程序,用于当在计算机或处理器上运行时执行根据权利要求26所述的方法。

说明书全文

用于音频设备的组合动态范围压缩和引导截断防止的构思

技术领域

[0001] 本发明涉及用于音频设备的组合动态范围压缩和引导截断防止的构思。具体地,本发明涉及音频编码器、用于操作音频编码器的方法、用于执行用于操作音频编码器的方法的计算机程序、音频解码器、用于操作音频解码器的方法、和用于执行用于操作音频解码器的方法的计算机程序。

发明内容

[0002] 本发明提供了一种用于产生包括一个或多个音频通道和/或一个或多个音频对象的音频比特流的音频编码器,该音频编码器包括用于产生元数据比特流的元数据编码器,该音频编码器被配置为:
[0003] 接收针对音频的至少一个动态范围控制增益序列,该动态范围控制增益序列包括针对音频解码器的动态范围控制级的一个或多个动态范围控制增益;
[0004] 接收针对该音频帧的至少一个引导截断防止增益序列,该引导截断防止增益序列包括针对音频解码器的引导截断防止级的一个或多个引导截断防止增益;以及
[0005] 将所述动态范围控制增益序列中的至少一个和所述引导截断防止增益序列中的至少一个包括到元数据比特流中。
[0006] 本发明构思基于如果多个处理的组合,所述处理块一起提供了用于动态范围压缩(DRC)和引导截断防止(gCP)的联合解决方案的所需功能性。
[0007] 本发明构思尤其适合于例如在[M30100、M30101]中所定义的相关配置信息已经在编码器和解码器处可用的音频系统。该信息可以例如包括在用于基于文件的传输的首部中或统一的话音和音频编码(USAC)配置扩展中。配置信息可以包括通道布局、下混音指令(例如,下混音系数)、动态范围控制指令(例如,所应用的动态范围控制特性、用于音轨的动态范围控制增益序列的数目)、和响度信息(例如,程序响度、锚定响度、真实峰值)。更多细节可以在[M30100、M30101]中找到。相同情况适用于相应的引导截断防止指令,所述指令可以用与动态范围控制指令盒的信息相同的方式来处理。
[0008] 根据本发明的音频编码器能够产生包括针对音频解码器的动态范围控制级的动态范围控制增益序列以及针对音频解码器的引导截断防止级的引导截断防止增益序列的元数据比特流,其中动态范围控制增益序列可以与引导截断防止增益序列分开传输。
[0009] 元数据编码器使用例如通过由内容提供商所操作的外部工具在外部提供的动态范围控制增益序列作为输入。
[0010] 动态范围控制增益的可能时间分辨率可以在几个样本的范围内。动态范围控制增益值通常可以用高达0.125dB的足够分辨率来表示。
[0011] 另外,元数据编码器采用引导截断防止增益序列作为输入。
[0012] 经压缩的动态范围控制增益序列和引导截断防止增益序列可以作为包括于统一的话音和音频编码扩展有效负载中的补充信息传输至接收机。
[0013] 应注意,动态范围控制增益序列应仅包括动态范围控制增益以执行动态范围压缩,而用于截断防止的引导截断防止增益是由引导截断防止增益序列来容纳的。
[0014] 引导截断防止增益的时间分辨率可以与动态范围控制增益的时间分辨率相同。
[0015] 在解码器侧处的信号截断可能例如由于响度归一化、下混音、参数编码工具等而发生。
[0016] 根据现有技术,截断防止可以通过将峰值限制器放置于解码器处理链的最末端处来实现。峰值限制器检测输入信号中超过定义的最大值的音频样本,并且将平降低应用至相应信号部分以使得输出信号的样本始终保持在定义的最大值以下。为了防止可听失真,必须逐渐地执行水平降低,即,应用于信号的增益因子可以仅随时间缓慢地改变,这是通过增益平滑滤波器来确保的。在应用增益因子之前输入信号的预见延迟也被使用以允许在突然信号峰值之前已经开始的增益的平滑减小。因为解码器侧的峰值限制器通常不是由编码器侧控制的(内容创建者对峰值限制器处理没有影响),所以其产生直接应用至音频信号的非引导截断防止增益序列。解码器侧的峰值限制器始终在解码器侧引起附加的预见延迟(约5ms或更大)和计算复杂性。
[0017] 与此相比,根据本发明所使用的引导截断防止增益序列允许在编码器侧处完全控制截断防止增益的产生(如果需要,则内容创建者可对增益特性具有影响)。在产生之后,截断防止增益序列被传输至解码器侧。如果针对当前解码器配置的合适的引导截断防止增益序列在元数据比特流中可用,则可以在大多数情况下避免解码器侧的峰值限制器。因此,可以避免解码器侧处的附加的预见延迟和计算复杂性。
[0018] 可以针对各种解码器配置,例如针对特定目标响度水平或针对特定下混音配置来传输引导截断防止增益序列。如果解码器配置匹配,则合适的引导截断防止增益序列可以应用至解码器的输出信号。在许多情况下,引导截断防止增益序列可以可选地被缩放以匹配非匹配目标响度水平(尽可能地使用信号余量)。
[0019] 引导截断防止增益序列用以确保针对特定目标水平和下混音/格式转换器配置在音频解码器的输出处不发生样本截断。每一个引导截断防止增益序列可以针对特定下混音/格式转换器配置、特定目标水平、和针对通道的特定动态范围控制增益序列连同针对对象的特定动态范围控制增益序列的组合来优化。关于哪一个引导截断防止增益序列与哪一个动态范围控制增益序列相关联的信息可以包括在包含于统一的话音和音频编码配置扩展的文件首部中的引导截断防止指令中。其还可以包括与已经在编码器处针对其确定了引导截断防止增益的目标水平相关的信息。
[0020] 上文所述的用于动态范围处理的本发明构思表示对整个处理链的编码器侧控制的方法。用于动态范围控制和引导截断防止的元数据的分离允许对增益中的每一个的单独修改(缩放或映射),所述修改取决于解码器配置和回放场景。
[0021] 利用本发明构思,如果动态范围控制增益与引导截断防止增益分开传输,则可以将动态范围控制增益序列的基础动态范围控制特性从重压缩改变为轻压缩。这可以通过对动态范围控制增益序列的值的适当缩放或映射来实现。
[0022] 本发明构思向内容提供商提供了对音频解码器的最终输出的完全控制,以便满足给定的质量要求。在该情况下,可以针对被视为最重要的特定解码器配置包括动态范围控制增益序列和引导截断防止增益序列两者。在许多情况下,可能由于对动态范围控制增益序列和引导截断防止增益序列的组合使用而丢弃峰值限制器。必须注意,在音频解码器侧处的引导截断防止(其是通过简单地应用引导截断防止增益而实现的)与使用峰值限制器相比在计算上更有效率。
[0023] 根据本发明的优选实施例,元数据编码器被配置为接收针对相同音频帧的包括不同动态范围控制增益的至少两个动态范围控制增益序列,且将包括不同动态范围控制增益的至少两个动态范围控制增益序列包括到元数据比特流中。
[0024] 关于哪些动态范围控制特性与不同的动态范围控制增益序列 相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0025] 通过这些特征,可以针对音频音轨的通道提供多个动态范围控制增益序列,以便实现解码器处的具有不同压缩特性的输出信号。
[0026] 根据本发明的优选实施例,元数据编码器被配置为接收包括与不同音频通道和/或与不同音频对象相关的至少两个动态范围控制增益的动态范围控制增益序列,元数据编码器被配置为将与不同音频通道和/或与不同音频对象相关的至少两个动态范围控制增益和可选地动态范围控制增益与音频通道和/或音频对象的关系包括到元数据比特流中。
[0027] 在每一个动态范围控制序列内,可以针对不同通道或通道的群组定义不同动态范围控制增益的集合,其中每一个通道通常与正好一个通道群组相关联。例如,在多通道电影声音中,常常期望将特定动态范围控制增益应用至对话通道。可以通过使用不同动态范围控制增益来处理诸如左前、右前、左后、右后的剩余通道。
[0028] 根据通道情况类推,可以支持与音频对象或对象的群组相关联的多个动态范围控制序列。这些对象相关动态范围控制序列也可以被视为与动态范围控制增益的通道相关集合内的特定通道群组相关联。本文中的术语“音频对象”涉及诸如铃的单源声音。
[0029] 关于哪些动态范围控制特性与不同的动态范围控制增益序列相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0030] 根据本发明的优选实施例,元数据编码器被配置为接收包括与音频解码器的不同频带相关的至少两个动态范围控制增益的动态范围控制增益序列,元数据编码器被配置为将与解码器的不同频带相关的至少两个动态范围控制增益和可选地动态范围控制增益与解码器的频带的关系包括到元数据比特流中。
[0031] 在支持多频带动态范围控制的可选扩展中,元数据编码器可以扩展以还接受针对不同频带具有不同动态范围控制增益的动态范围控制增益序列作为输入。
[0032] 关于哪些动态范围控制特性与不同的动态范围控制增益序列相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0033] 根据本发明的优选实施例,元数据编码器被配置为接收包括不同引导截断防止增益的至少两个引导截断防止增益序列,并且将包括不同引导截断防止增益的至少两个引导截断防止增益序列包括到元数据比特流中。
[0034] 根据本发明的优选实施例,每一个动态范围控制序列与引导截断防止增益序列中的一个相关,元数据编码器被配置为将动态范围控制序列与引导截断防止增益序列之间的关系包括到元数据比特流中。
[0035] 根据本发明的优选实施例,元数据编码器被配置为接收包括与不同音频通道和/或与不同音频对象相关的至少两个引导截断防止增益的引导截断防止增益序列,元数据编码器被配置为将包括与不同音频通道和/或与不同音频对象相关的至少两个引导截断防止增益的引导截断防止序列和可选地引导截断防止增益与音频通道和/或音频对象的关系包括到元数据比特流中。
[0036] 如同动态范围控制增益,可以在每一个引导截断防止序列内针对不同通道或通道的群组定义不同引导截断防止增益的集合,其中每一个通道通常与正好一个通道群组相关联。在典型的操作模式中,将相同的引导截断防止增益应用至所有通道。
[0037] 针对对象的引导截断防止增益序列的定义与动态范围控制情况相似。
[0038] 在另一方面,本发明提供了一种用于操作音频编码器的方法,音频编码器用于产生包括一个或多个音频通道和/或一个或多个音频对象的音频比特流,该音频编码器包括用于产生元数据比特流的元数据编码器,该方法包括以下步骤:
[0039] 在元数据编码器的一部分上接收至少一个动态范围控制增益序列,动态范围控制增益序列包括针对音频解码器的动态范围控制级的一个或多个动态范围控制增益;
[0040] 在元数据编码器的一部分上接收至少一个引导截断防止增益序列,引导截断防止增益序列包括针对音频解码器的引导截断防止级的一个或多个引导截断防止增益;以及[0041] 在元数据编码器的一部分上将所述动态范围控制增益序列中的至少一个和所述引导截断防止增益序列中的至少一个包括到元数据比特流中。
[0042] 在又一方面,本发明提供了一种计算机程序,该计算机程序用于当在计算机或处理器上运行时执行前述方法。
[0043] 在又一方面,本发明提供了用于对音频比特流和与该音频比特流相关的元数据比特流进行解码的音频解码器,所述音频比特流和元数据比特流具体地是由根据本发明的音频编码器产生的,音频解码器包括:
[0044] 音频处理链,被配置为接收根据该音频比特流得到的经解码的音频信号且调整音频处理链的音频输出信号的特性,音频处理链包括多个调整级,该多个调整级包括用于调整音频输出信号的动态范围的动态范围控制级和用于防止音频输出信号的截断的引导截断防止级;以及
[0045] 元数据解码器,被配置为接收元数据比特流且从元数据比特流提取动态范围控制增益序列和引导截断防止增益序列,动态范围控制增益序列的至少一部分被提供至动态范围控制级,且引导截断防止增益序列的至少一部分被提供至引导截断防止级。
[0046] 元数据解码器例如从统一的话音和音频编码解码器接收包含压缩的动态范围控制增益序列和引导截断防止增益序列的元数据比特流。
[0047] 元数据解码器根据压缩的元数据比特流产生所需要的动态范围控制增益序列。另外,可以应用对由此产生的动态范围控制增益的缩放或映射。
[0048] 元数据解码器另外根据包含压缩的引导截断防止元数据的比特流产生所需要的引导截断防止增益序列。可以应用对引导截断防止增益的缩放或映射。如果音频解码器目标水平低于已用于在音频编码器处确定引导截断防止增益序列的目标水平,则这是特别有用的。然后,引导截断防止增益的映射是可能的,这最佳地恢复信号余量同时仍确保在音频解码器输出信号处不发生截断。
[0049] 动态范围控制级直接或间接地从元数据解码器接收针对每一个音频帧的未经压缩且可选地经缩放或映射的动态范围控制增益序列。元数据解码器还可以确保以与音频样本的时间分辨率相对应的时间分辨率对最终时域动态范围控制增益值进行插值。这些最终动态范围控制增益然后可以应用至经解码的音频信号,其中遵守某一动态范围控制序列至正确通道或对象组的指派。
[0050] 引导截断防止级直接或间接地从元数据解码器接收针对每一个音频帧的未经压缩且可选地经缩放或映射的引导截断防止增益序列。元数据解码器还可以确保以与音频样本的时间分辨率相对应的时间分辨率对最终时域引导截断防止增益值进行插值。这些最终引导截断防止增益然后应用至经解码的音频信号,其中遵守某一引导截断防止序列至正确通道组的指派。
[0051] 本发明在音频解码器侧处提供了灵活性,而将对整个处理链的控制留给编码器侧。用于动态范围控制和引导截断防止的元数据的分离允许对增益中的每一个的单独修改(缩放或映射),所述修改取决于音频解码器配置和回放场景。
[0052] 如果动态范围控制增益与引导截断防止增益分开传输,则本发明允许将动态范围控制增益序列的基础动态范围控制特性自重压缩改变为轻压缩。这可以通过对动态范围控制增益序列的值的适当缩放或映射来实现。
[0053] 在解码器目标水平低于用于在编码器处计算针对引导截断防止的增益的目标水平的情况下,可以通过适当地缩放引导截断防止增益而在解码器处允许减小信号峰值的衰减。然后,与以未修改方式应用引导截断防止增益的情况相比,可以维持或至少增加强信号峰值的水平,这意味着可以保持可用的余量。
[0054] 根据本发明的优选实施例,元数据解码器被配置为从元数据比特流提取针对相同音频帧的包括不同动态范围控制增益的至少两个动态范围控制增益序列。
[0055] 关于哪些动态范围控制特性与不同的动态范围控制增益序列相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0056] 通过这些特征,可以针对音频音轨的通道提供多个动态范围控制增益序列,以便实现在解码器处的具有不同的压缩特性的输出信号。
[0057] 根据本发明的优选实施例,元数据解码器被配置为从元数据比特流提取包括与不同的音频通道和/或与不同的音频对象相关的至少两个动态范围控制增益的动态范围控制增益序列。
[0058] 在每一个动态范围控制序列内,可以针对不同通道或通道的群组定义不同动态范围控制增益的集合,每一个通道通常与正好一个通道群组相关联。举例而言,在多通道电影声音中,常常需要将特定动态范围控制增益应用至对话通道。可以通过使用不同动态范围控制增益来处理诸如左前、右前、左后、右后的剩余通道。
[0059] 根据通道情况类推,可以支持与音频对象或对象的群组相关联的多个动态范围控制序列。这些对象相关动态范围控制序列也可以被视为与动态范围控制增益的通道相关集合内的特定通道群组相关联。本文的术语“音频对象”涉及诸如门铃的单源声音。
[0060] 根据本发明的优选实施例,元数据解码器被配置为从元数据比特流提取包括与音频解码器的不同频带相关的至少两个动态范围控制增益的动态范围控制增益序列。
[0061] 在支持多频带动态范围控制的可选扩展中,元数据解码器可以扩展以还接受针对不同频带具有不同动态范围控制增益的动态范围控制增益序列作为输入。
[0062] 在多频带动态范围控制扩展的情况下,时域音频信号必须在应用多频带动态范围控制增益之前变换为适当的频域表示。
[0063] 关于哪些动态范围控制特性与不同的动态范围控制增益序列相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0064] 根据本发明的优选实施例,元数据解码器被配置为从元数据比特流提取包括不同的引导截断防止增益的至少两个引导截断防止增益序列。
[0065] 通过这些特征,可以针对音频音轨提供多个引导截断防止增益序列,以便匹配相应的动态范围控制增益序列。
[0066] 根据本发明的优选实施例,元数据解码器被配置为从元数据比特流提取包括与不同音频通道和/或与不同音频对象相关的至少两个引导截断防止增益的引导截断防止增益序列。
[0067] 如同动态范围控制增益,可以在每一个引导截断防止序列内针对不同通道或通道的群组定义不同引导截断防止增益的集合,其中每一个通道通常与正好一个通道群组相关联。在典型的操作模式中,相同的引导截断防止增益被应用至所有通道。
[0068] 针对对象的引导截断防止增益序列的定义与动态范围控制情况相似。
[0069] 根据本发明的优选实施例,音频解码器还包括元数据和参数控制级,元数据和参数控制级被配置为基于从配置提供级所接收的配置信息将元数据和参数提供至调整级中的至少一个。
[0070] 音频解码器处的元数据和参数控制级可以根据所要的动态范围控制增益序列选择元数据比特流的正确部分。缩放和映射信息也可以是解码器配置信息的一部分或根据解码器配置信息得到。
[0071] 以此类推,音频解码器处的元数据和参数控制级根据所要的引导截断防止增益序列选择比特流的正确部分。
[0072] 根据本发明的优选实施例,元数据和参数控制级被配置为在接收到多个动态范围控制增益序列的情况下选择将该多个动态范围控制增益序列中的哪一个提供至动态范围控制级。在元数据和参数控制级的一部分上对动态范围控制序列的选择可以基于诸如通道布局、下混音指令、对象元数据、动态范围控制指令、响度信息和解码器目标水平的解码器配置信息。
[0073] 根据本发明的优选实施例,元数据和参数控制级被配置为在接收到多个引导截断防止增益序列的情况下选择将该多个引导截断防止增益序列中的哪一个提供至引导截断防止级。
[0074] 在元数据和参数控制块的一部分上对引导截断防止增益序列的选择通常基于上文所述的音频解码器配置信息。
[0075] 根据本发明的优选实施例,在信号流的方向上的动态范围控制级是音频调整链的第一调整级。
[0076] 针对通道的动态范围控制处理可以在经解码的音频通道的可能的下混音或格式转换之前执行,以便针对通道群组实现不同增益。因此,动态范围控制增益在呈现之前被应用至对象。在通道和对象两者存在的情况下,动态范围控制处理的位置保持相同:通道相关动态范围控制应紧接在格式转换器级之前执行,而对象相关动态范围控制在对象呈现器之前执行。
[0077] 根据本发明的优选实施例,音频调整链包括被配置为调整音频输出信号的通道配置的格式转换器级。也被称为下混音器(DMX)的格式转换器级被配置为使音频输出信号的通道配置适配用于回放的换能器。举例而言,格式转换器级可以将5.1环绕信号转换为立体声信号。
[0078] 根据本发明的优选实施例,音频调整链包括被配置为对音频输出信号的响度进行归一化的响度归一化级。
[0079] 响度归一化级可以缩放其音频输入信号,使得输出信号具有正确的目标响度水平。缩放因子是根据程序参考水平(PRL)与解码器目标水平(DTL)之差得到的并且由解码器的元数据和参数控制提供至响度归一化块。程序参考水平可以根据包括在例如文件首部中的响度信息获得,而解码器目标水平是解码器配置参数。可以在响度信息内提供多个程序参考水平值,其中每一个程序参考水平值对应于所应用的动态范围控制序列和/或所应用的下混音的特定配置。在该情况下,元数据和参数控制级在考虑给定音频解码器配置的同时挑选正确的程序参考水平值。响度处理步骤的位置取决于音频解码器的实际输出配置。一般而言,如果适用,则应例如在混频器之后或在格式转换之后对音频解码器的输出通道执行响度归一化。
[0080] 根据本发明的优选实施例,音频调整链包括峰值限制器级,峰值限制器级被配置为在阈值被超过的情况下限制音频输出信号的峰值。
[0081] 根据本发明的优选实施例,在信号流的方向上的峰值限制器级是音频调整链的最后一个调整级。
[0082] 在典型的音频解码器的音频处理链中存在不可避免的样本截断的多个可能源,包括:
[0083] ●参数编码工具
[0084] ●双声道处理
[0085] ●下混音、格式转换、呈现
[0086] ●响度归一化(尤其针对高目标水平)
[0087] ●解码器输出端处的量化
[0088] 因此,峰值限制器级被放置在音频解码器的处理链的最末端处以例如恰好在时域输出信号从浮点转换为定点脉冲编码调制(PCM格式)之前防止音频样本的任何不合需要的截断。这也意味着在先前章节中所述的任何动态范围控制级和响度归一化级位于峰值限制器级之前。在MPEG-H 3D音频[M30324]的上下文中,峰值限制器级接收不同的信号作为输入,这取决于实际回放配置。在双声道呈现的情况下,机的两个输出通道可以通过峰值限制器级处理。如果混频器的输出通道被直接回放,则峰值限制器级可以处理相应的扬声器通道。相同情形适用于混频器输出通道首先由格式转换器转换为不同扬声器配置(例如,下混音)的情况。
[0089] 峰值限制器级可以检测时域信号中超过限制阈值的音频样本,并且将水平降低应用至相应信号部分使得音频输出信号的样本始终保持在限制阈值以下。为了防止可听失真,水平降低应逐渐地执行,即,应用于信号的增益因子可以仅随时间缓慢地改变,这是通过增益平滑滤波器确保的。在应用限制器增益因子之前峰值限制器级的输入信号的预见延迟也被使用以允许在急剧信号峰值之前已开始的增益的平滑减小。延迟可以被调整至给定要求,实际选择为5ms。在多通道音频的情况下,可以将共同增益因子应用至所有音频通道以降低计算复杂性。
[0090] 如果解码器配置暗示在音频处理链中不会发生截断,则可以利用可以包括在文件首部的响度信息中的关于音频信号的最大峰值的信息以丢弃峰值限制器级。例如如果音频解码器以浮点精度输出音频样本并且在回放装置的音频链中在稍后执行截断防止,则峰值限制器级也可以被丢弃。明显地,如果针对给定回放场景的解码器配置允许应用正确的引导截断防止增益,则也可以在不发生附加编解码器截断的情况下丢弃峰值限制器级。
[0091] 实际上,峰值限制器可被视为必需组件。在解码器的音频处理链内存在众多的截断源。可以通过提供引导截断防止增益序列来涵盖特殊配置。然而,为了解码器的灵活操作,可以提供峰值限制器以确保不会发生截断。
[0092] 根据本发明的优选实施例,音频调整链包括被配置为将音频对象混频至音频输出信号的通道中的对象呈现器级。
[0093] 根据本发明的优选实施例,音频调整链包括被配置为调整音频输出信号的特性以用于再现音频输出信号的换能器系统的换能器适配级。
[0094] 为了降低峰值限制器级的所要求的限制强度,例如由均衡滤波器执行的频率相关换能器适配处理可以包括在处理链中。
[0095] 换能器适配级接收音频输入信号和关于用于再现的换能器(扬声器或耳机)的特性的信息。
[0096] 尤其当换能器具有有限的频率范围且由此将限制音频输出信号的频率范围时,换能器适配级的任务是使音频输出信号适配换能器特性。通过在峰值限制级之前使用模仿换能器的传递函数的适当滤波器来限制频率范围,峰值限制器级的输入信号的水平降低。因此,超过限制阈值的信号峰值的水平降低。因此,峰值限制级的效果不那么剧烈。这是有利的,其原因在于:
[0097] -峰值限制可以可听地改变信号,而换能器适配并不将可听改变引入信号中,以及[0098] -当信号被修改为使得最大峰值水平在限制阈值以下时,峰值限制器将引入较小的计算负荷。
[0099] 除了滤波之外,换能器适配级还可以包括信号自适应性处理,使得换能器的频带限制得到补偿。尤其地,极小的换能器不能再现低频信号。
[0100] 这可以例如通过人工地产生低频音调的谐波并将其添加至信号以增加换能器的感知的低音响应而补偿。
[0101] 在又一方面,本发明提供了一种用于操作音频解码器,特别是根据本发明的音频解码器的方法,音频解码器用于对音频比特流和与该音频比特流相关的元数据比特流进行解码,所述音频比特流和元数据比特流具体地是由根据权利要求1至9之一所述的音频编码器产生的,该方法包括以下步骤:
[0102] 根据该音频比特流得到经解码的音频信号;
[0103] 使用具有多个调整级的音频处理链来调整音频处理链的音频输出信号的特性,所述调整包括通过作为调整链的调整级的动态范围控制级调整音频输出信号的动态范围,以及通过作为调整链的调整级的引导截断防止级防止音频输出信号的截断;
[0104] 在元数据解码器一部分上接收元数据比特流并且从元数据比特流提取动态范围控制增益序列和引导截断防止增益序列;
[0105] 将动态范围控制增益序列的至少一部分提供至动态范围控制级;以及
[0106] 将引导截断防止增益序列的至少一部分提供至引导截断防止级。
[0107] 在又一方面,本发明提供了一种计算机程序,该计算机程序用于当在计算机或处理器上运行时执行前述方法。附图说明
[0108] 接下来将关于附图讨论本发明的优选实施例,在附图中:
[0109] 图1以示意图示出了根据本发明的音频编码器的实施例;
[0110] 图2以示意图示出了根据本发明的音频解码器的第一实施例;
[0111] 图3以示意图示出了根据本发明的音频解码器的第二实施例;
[0112] 图4以示意图示出了根据本发明的音频解码器的第三实施例;以及
[0113] 图5以示意图示出了根据本发明的音频解码器的第四实施例。

具体实施方式

[0114] 图1以示意图示出了根据本发明的音频编码器1的实施例。图1示出了动态范围控制增益序列和引导截断防止增益序列的编码。
[0115] 音频编码器1被配置为产生包括一个或多个音频通道AC和/或一个或多个音频对象AO的音频比特流,音频编码器1包括用于产生元数据比特流MBS的元数据编码器2,音频编码器1被配置为:
[0116] 接收针对音频帧的至少一个动态范围控制增益序列DS,该动态范围控制增益序列DS包括针对音频解码器3(参见图2)的动态范围控制级5(参见图2)的一个或多个动态范围控制增益;
[0117] 接收针对该音频帧的至少一个引导截断防止增益序列GS,所述引导截断防止增益序列GS包括针对音频解码器3的引导截断防止级6(参见图2)的一个或多个引导截断防止增益;以及
[0118] 将所述动态范围控制增益序列DS中的至少一个和所述引导截断防止增益序列GS中的至少一个包括到元数据比特流MBS中。
[0119] 本发明构思基于如果多个处理块的组合,所述处理块一起提供了用于动态范围压缩(DRC)和引导截断防止(gCP)的联合解决方案的所需功能性。
[0120] 本发明构思尤其适合于例如在[M30100、M30101]中所定义的相关配置信息已经在音频编码器1处和音频解码器3处可用的音频系统。该信息可以例如包括在用于基于文件的传输的首部中或统一的话音和音频编码(USAC)配置扩展中。配置信息可以包括通道布局、下混音指令(例如,下混音系数)、动态范围控制指令(例如,所应用的动态范围控制特性、用于音轨的动态范围控制增益序列的数目)、和响度信息(例如,程序响度、锚定响度、真实峰值)。更多细节可以在[M30100、M30101]中找到。相同情况适用于相应的引导截断防止指令,所述指令可以用与动态范围控制指令盒的信息相同的方式来处理。
[0121] 根据本发明的音频编码器1能够产生包括针对音频解码器3的动态范围控制级5的动态范围控制增益序列DS以及针对音频解码器3的引导截断防止级6的引导截断防止增益序列GS的元数据比特流MBS,其中动态范围控制增益序列DS可以与引导截断防止增益序列GS分开传输。
[0122] 元数据编码器使用例如通过由内容提供商所操作的外部工具在外部提供的动态范围控制增益序列DS作为输入。
[0123] 动态范围控制增益的可能时间分辨率可以在几个样本的范围内。动态范围控制增益值通常可以用高达0.125dB的足够分辨率来表示。
[0124] 另外,元数据编码器采用引导截断防止增益序列GS作为输入。
[0125] 经压缩的动态范围控制增益序列DS和引导截断防止增益序列GS可以作为包括于统一的话音和音频编码扩展有效负载中的补充信息传输至接收机。
[0126] 应注意,动态范围控制增益序列DS应仅包括动态范围控制增益以执行动态范围压缩,而用于截断防止的引导截断防止增益是由引导截断防止增益序列GS来容纳的。
[0127] 引导截断防止增益的时间分辨率可以与动态范围控制增益的时间分辨率相同。
[0128] 引导截断防止增益序列GS用以确保针对特定目标水平和下混音/格式转换器配置在音频解码器3的音频输出信号AOS(参见图2)处不发生样本截断。每一个引导截断防止增益序列GS可以针对特定下混音/格式转换器配置、特定目标水平、和针对通道的特定动态范围控制增益序列连同针对对象的特定动态范围控制增益序列的组合来优化。关于哪一个引导截断防止增益序列GS与哪一个动态范围控制增益序列DS相关联的信息可以包括在包含于统一的话音和音频编码配置扩展的文件首部中的引导截断防止指令中。其还可以包括与已经在音频编码器1处针对其确定了引导截断防止增益的目标水平相关的信息。
[0129] 上文所述的用于动态范围处理的本发明构思表示对整个音频处理链4(参见图2)的音频编码器侧控制的方法。用于动态范围控制和引导截断防止的元数据的分离允许对增益中的每一个的单独修改(缩放或映射),所述修改取决于音频解码器配置和回放场景。
[0130] 利用本发明构思,如果动态范围控制增益与引导截断防止增益GS分开传输,则可以将动态范围控制增益序列DS的基础动态范围控制特性从重压缩改变为轻压缩。这可以通过对动态范围控制增益序列DS的值的适当缩放或映射来实现。
[0131] 本发明构思向内容提供商提供了对音频解码器3的最终音频输出信号AOS的完全控制,以便满足给定的质量要求。在该情况下,可以针对被视为最重要的特定音频解码器配置包括动态范围控制增益序列DS和引导截断防止增益序列GS两者。在许多情况下,可能由于对动态范围控制增益序列DS和引导截断防止增益序列GS的组合使用而丢弃峰值限制器级12。必须注意,在音频解码器侧处的引导截断防止(其是通过简单地应用引导截断防止增益而实现的)与使用峰值限制器12相比在计算上更有效率。
[0132] 根据本发明的优选实施例,元数据编码器2被配置为接收针对相同音频帧的包括不同动态范围控制增益的至少两个动态范围控制增益序列DS,且将包括不同动态范围控制增益的至少两个动态范围控制增益序列DS包括到元数据比特流MBS中。
[0133] 关于哪些动态范围控制特性与不同的动态范围控制增益序列DS相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0134] 通过这些特征,可以针对音频音轨的通道提供多个动态范围控制增益序列DS,以便实现音频解码器3处的具有不同压缩特性的输出信号。
[0135] 根据本发明的优选实施例,元数据编码器被配置为接收包括与不同音频通道AC和/或与不同音频对象AO相关的至少两个动态范围控制增益的动态范围控制增益序列DS,元数据编码器2被配置为将与不同音频通道AC和/或与不同音频对象AO相关的至少两个动态范围控制增益DS和可选地动态范围控制增益与音频通道AC和/或音频对象AO的关系包括到元数据比特流MBS中。
[0136] 在每一个动态范围控制序列DS内,可以针对不同音频通道AC或音频通道AC的群组定义不同动态范围控制增益的集合,其中每一个音频通道AC通常与正好一个通道群组相关联。例如,在多通道电影声音中,常常期望将特定动态范围控制增益应用至对话通道。可以通过使用不同动态范围控制增益来处理诸如左前、右前、左后、右后的剩余通道。
[0137] 根据通道情况类推,可以支持与音频对象AO或对象AO的群组相关联的多个动态范围控制序列DS。这些对象相关动态范围控制序列DS也可以被视为与动态范围控制增益的通道相关集合内的特定通道群组相关联。本文中的术语“音频对象”涉及诸如门铃的单源声音。
[0138] 关于哪些动态范围控制特性与不同的动态范围控制增益序列DS相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0139] 根据本发明的优选实施例,元数据编码器2被配置为接收包括与音频解码器的不同频带相关的至少两个动态范围控制增益的动态范围控制增益序列DS,元数据编码器2被配置为将与音频解码器3的不同频带相关的至少两个动态范围控制增益DS和可选地动态范围控制增益与音频解码器3的频带的关系包括到元数据比特流MBS中。
[0140] 在支持多频带动态范围控制的可选扩展中,元数据编码器2可以扩展以还接受针对不同频带具有不同动态范围控制增益的动态范围控制增益序列DS作为输入。
[0141] 关于哪些动态范围控制特性与不同的动态范围控制增益序列DS相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0142] 根据本发明的优选实施例,元数据编码器被配置为接收包括不同引导截断防止增益的至少两个引导截断防止增益序列GS,并且将包括不同引导截断防止增益的至少两个引导截断防止增益序列GS包括到元数据比特流MBS中。
[0143] 根据本发明的优选实施例,每一个动态范围控制序列DS与引导截断防止增益序列GS中的一个相关,元数据编码器2被配置为将动态范围控制序列DS与引导截断防止增益序列GS之间的关系包括到元数据比特流MBS中。
[0144] 根据本发明的优选实施例,元数据编码器被配置为接收包括与不同音频通道AC和/或与不同音频对象AO相关的至少两个引导截断防止增益的引导截断防止增益序列GS,元数据编码器2被配置为将包括与不同音频通道AC和/或与不同音频对象AO相关的至少两个引导截断防止增益的引导截断防止序列GS和可选地引导截断防止增益与音频通道AC和/或音频对象AO的关系包括到元数据比特流MBS中。
[0145] 如同动态范围控制增益,可以在每一个引导截断防止序列GS内针对不同音频通道AC或音频通道AC的群组定义不同引导截断防止增益的集合,其中每一个音频通道AC通常与正好一个音频通道群组相关联。在典型的操作模式中,将相同的引导截断防止增益应用至所有音频通道AC。
[0146] 针对音频对象AO的引导截断防止增益序列的定义与动态范围控制情况相似。
[0147] 在另一方面,本发明提供了一种用于操作音频编码器1的方法,音频编码器1用于产生包括一个或多个音频通道和/或一个或多个音频对象的音频比特流,该音频编码器包括用于产生元数据比特流MBS的元数据编码器2,该方法包括以下步骤:
[0148] 在元数据编码器2的一部分上接收至少一个动态范围控制增益序列DS,动态范围控制增益序列DS包括针对音频解码器3的动态范围控制级5的一个或多个动态范围控制增益;
[0149] 在元数据编码器2的一部分上接收至少一个引导截断防止增益序列GS,引导截断防止增益序列GS包括针对音频解码器3的引导截断防止级6的一个或多个引导截断防止增益;以及
[0150] 在元数据编码器2的一部分上将所述动态范围控制增益序列DS中的至少一个和所述引导截断防止增益序列GS中的至少一个包括到元数据比特流MBS中。
[0151] 在又一方面,本发明提供了一种计算机程序,该计算机程序用于当在计算机或处理器上运行时执行前述方法。
[0152] 用于解码器侧处理的以下附图基于如[M30324]中提出的针对3D音频编码方法的提议。
[0153] 图2以示意图示出了根据本发明的音频解码器3的第一实施例。
[0154] 用于对音频比特流和与该音频比特流相关的元数据比特流MBS进行解码的音频解码器3,所述音频比特流和元数据比特流MBS具体地是由根据本发明的音频编码器1产生的,音频解码器3包括:
[0155] 音频处理链4,被配置为接收根据该音频比特流得到的经解码的音频信号DAS且被配置为调整音频处理链4的音频输出信号AOS的特性,音频处理链4包括多个调整级5、6、10、11、12、13、14(也参见图3、图4、图5),该多个调整级包括用于调整音频输出信号AOS的动态范围的动态范围控制级5和用于防止音频输出信号AOS的截断的引导截断防止级6;以及[0156] 元数据解码器7,被配置为接收元数据比特流MBS且被配置为从元数据比特流MBS提取动态范围控制增益序列DS和引导截断防止增益序列GS,动态范围控制增益序列DS的至少一部分被提供至动态范围控制级5,且引导截断防止增益序列GS的至少一部分被提供至引导截断防止级6。
[0157] 元数据解码器7例如从统一的话音和音频编码解码器接收包含压缩的动态范围控制增益序列DS和引导截断防止增益序列GS的元数据比特流MBS。
[0158] 元数据解码器7根据压缩的元数据比特流MBS产生未经压缩的动态范围控制增益序列DS。另外,可以应用对由此产生的动态范围控制增益的缩放或映射。
[0159] 元数据解码器7另外根据包含压缩的引导截断防止元数据的比特流MBS产生未经压缩的引导截断防止增益序列GS。可以应用对引导截断防止增益的缩放或映射。如果音频解码器目标水平低于已用于在音频编码器1处确定引导截断防止增益序列GS的目标水平,则这是特别有用的。然后,引导截断防止增益的映射是可能的,这最佳地恢复信号余量同时仍确保在音频解码器输出信号AOS处不发生截断。
[0160] 动态范围控制级5直接或间接地从元数据解码器7接收针对每一个音频帧的未经压缩且可选地经缩放或映射的动态范围控制增益序列DS。元数据解码器7还可以确保以与音频样本的时间分辨率相对应的时间分辨率对最终时域动态范围控制增益值进行插值。这些最终动态范围控制增益然后可以应用至经解码的音频信号DAS,其中遵守某一动态范围控制序列至通道和/或对象的指派。
[0161] 引导截断防止级6直接或间接地从元数据解码器7接收针对每一个音频帧的未经压缩且可选地经缩放或映射的引导截断防止增益序列GS。元数据解码器7还可以确保以与音频样本的时间分辨率相对应的时间分辨率对最终时域引导截断防止增益值进行插值。这些最终引导截断防止增益然后可以应用至经解码的音频信号或根据经解码的音频信号DAS得到的信号ISG(或图3、图4和图5中的IGS),其中遵守某一引导截断防止序列至通道和/或对象的指派。
[0162] 本发明在音频解码器侧处提供了灵活性,而将对整个处理链的控制留给编码器侧。用于动态范围控制和引导截断防止的元数据的分离允许对增益中的每一个的单独修改(缩放或映射),所述修改取决于音频解码器配置和回放场景。
[0163] 如果动态范围控制增益与引导截断防止增益分开传输,则本发明允许将动态范围控制增益序列DS的基础动态范围控制特性自重压缩改变为轻压缩。这可以通过对动态范围控制增益序列DS的值的适当缩放或映射来实现。
[0164] 在解码器目标水平低于用于在音频编码器1处计算针对引导截断防止的增益的目标水平的情况下,可以通过适当地缩放引导截断防止增益而在音频解码器3处允许减小信号峰值的衰减。然后,与以未修改方式应用引导截断防止增益的情况相比,可以维持或至少增加强信号峰值的水平,这意味着可以保持可用的余量。
[0165] 根据本发明的优选实施例,元数据解码器7被配置为从元数据比特流MBS提取针对相同音频帧的包括不同动态范围控制增益的至少两个动态范围控制增益序列DS。
[0166] 关于哪些动态范围控制特性与不同的动态范围控制增益序列DS相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0167] 通过这些特征,可以针对音频音轨的通道提供多个动态范围控制增益序列DS,以便实现在解码器1处的具有不同的压缩特性的音频输出信号AOS。
[0168] 根据本发明的优选实施例,元数据解码器7被配置为从元数据比特流MBS提取包括与音频解码器3的不同频带相关的至少两个动态范围控制增益的动态范围控制增益序列DS。
[0169] 在支持多频带动态范围控制的可选扩展中,元数据解码器7可以扩展以还接受针对不同频带具有不同动态范围控制增益的动态范围控制增益序列DS作为输入。
[0170] 在多频带动态范围控制扩展的情况下,时域音频信号必须在应用多频带动态范围控制增益之前变换为适当的频域表示。
[0171] 关于哪些动态范围控制特性与不同的动态范围控制增益序列DS相关联的信息可以包括于包含在文件首部中(在基于文件的传送的情况下)或统一的话音和音频编码配置扩展中的动态范围控制指令中。
[0172] 根据本发明的优选实施例,元数据解码器7被配置为从元数据比特流MBS提取包括不同的引导截断防止增益的至少两个引导截断防止增益序列GS。
[0173] 通过这些特征,可以针对音频音轨提供多个引导截断防止增益序列GS,以便匹配相应的动态范围控制增益序列DS。
[0174] 在又一方面,本发明提供了一种用于操作音频解码器3,特别是根据本发明的音频解码器3的方法,音频解码器3用于对音频比特流和与该音频比特流相关的元数据比特流MBS进行解码,所述音频比特流和元数据比特流MBS具体地是由根据本发明的音频编码器产生的,该方法包括以下步骤:
[0175] 根据该音频比特流得到经解码的音频信号DAS;
[0176] 使用具有多个调整级5、6、10、11、12、13、14的音频处理链来调整音频处理链4的音频输出信号AOS的特性,所述调整包括通过作为调整链4的调整级5的动态范围控制级5调整音频输出信号AOS的动态范围,以及通过作为调整链4的调整级6的引导截断防止级6防止音频输出信号AOS的截断;
[0177] 在元数据解码器7一部分上接收元数据比特流MBS并且从元数据比特流MBS提取动态范围控制增益序列DS和引导截断防止增益序列GS:
[0178] 将动态范围控制增益序列DS的至少一部分提供至动态范围控制级5;以及
[0179] 将引导截断防止增益序列GS的至少一部分提供至引导截断防止级6。
[0180] 在又一方面,本发明提供了一种计算机程序,该计算机程序用于当在计算机或处理器上运行时执行前述方法。
[0181] 图3以示意图示出了根据本发明的音频解码器3的第二实施例。
[0182] 根据本发明的优选实施例,元数据解码器7被配置为从元数据比特流MBS提取包括与不同音频通道相关的至少两个动态范围控制增益的动态范围控制增益序列DS。
[0183] 在每一个动态范围控制序列DS内,可以针对不同通道或通道的群组定义不同动态范围控制增益的集合,每一个通道通常与正好一个通道群组相关联。例如,在多通道电影声音中,常常期望将特定动态范围控制增益应用至对话通道。诸如左前、右前、左后、右后的剩余通道例如可以通过使用不同动态范围控制增益来处理。
[0184] 根据本发明的优选实施例,元数据解码器7被配置为从元数据比特流MBS提取包括与不同的音频通道相关的至少两个引导截断防止增益的引导截断防止增益序列GS。
[0185] 如同动态范围控制增益,可以在每一个引导截断防止序列内针对不同通道或通道的群组定义不同引导截断防止增益的集合,其中每一个通道通常与正好一个通道群组相关联。在典型的操作模式中,相同的引导截断防止增益被应用至所有通道。
[0186] 根据本发明的优选实施例,音频解码器3还包括元数据和参数控制级8,元数据和参数控制级8被配置为基于从配置提供级9(也参见图4和图5)所接收的配置信息将元数据和参数DS、GS、CLA、DI、DTL、PRL、IS、OMD、ICT提供至调整级5、6、10、11、12、13、14中的至少一个。
[0187] 音频解码器处的元数据和参数控制级8可以通过将增益序列选择信号GSS发送至元数据解码器7而根据所要的动态范围控制增益序列DS选择元数据比特流MBS的正确部分。缩放和映射信息也可以是解码器配置信息CI的一部分或根据解码器配置信息CI得到。
[0188] 以此类推,音频解码器3处的元数据和参数控制级8根据所要的引导截断防止增益序列GS选择比特流MBS的正确部分。
[0189] 根据本发明的优选实施例,元数据和参数控制级8被配置为在接收到多个动态范围控制增益序列DS的情况下选择将该多个动态范围控制增益序列DS中的哪一个提供至动态范围控制级5。在元数据和参数控制级8的一部分上对动态范围控制序列DS的选择可以基于诸如通道布局CLA、下混音指令DI、对象元数据OMD(参见图4)、动态范围控制指令、响度信息PRL和解码器目标水平DTL的解码器配置信息CI,并且可以通过将增益序列选择信号GSS发送至元数据解码器7来执行。
[0190] 根据本发明的优选实施例,元数据和参数控制级8被配置为在接收到多个引导截断防止增益序列GS的情况下选择将该多个引导截断防止增益序列GS中的哪一个提供至引导截断防止级6。
[0191] 在元数据和参数控制块8的一部分上对引导截断防止增益序列GS的选择通常基于上文所述的音频解码器配置信息CI。
[0192] 根据本发明的优选实施例,在信号流的方向上的动态范围控制级5是音频调整链4的第一调整级。
[0193] 针对通道的动态范围控制处理可以在经解码的音频通道AC的可能的下混音或格式转换之前执行,以便针对通道群组实现不同增益。因此,动态范围控制增益在呈现之前被应用至对象AO(参见图4)。在通道AC和对象AO两者存在的情况下,动态范围控制处理的位置保持相同:通道相关动态范围控制应紧接在格式转换器级10之前执行(参见图4),而对象相关动态范围控制在对象呈现器13之前执行(参见图4)。
[0194] 根据本发明的优选实施例,音频调整链4包括被配置为调整音频输出信号AOS的通道配置的格式转换器级10。也被称为下混音器(DMX)的格式转换器级10被配置为使音频输出信号AOS的通道配置适配用于回放的换能器。举例而言,格式转换器级可以将5.1环绕信号转换为立体声信号。
[0195] 根据本发明的优选实施例,音频调整链4包括被配置为对音频输出信号AOS的响度进行归一化的响度归一化级11。
[0196] 响度归一化级11可以缩放其音频输入信号OCF,使得输出信号IGS具有正确的目标响度水平。缩放因子是根据程序参考水平PRL与解码器目标水平DTL之差得到的并且由解码器的元数据和参数控制级8提供至响度归一化级11。程序参考水平PRL可以根据包括在例如文件首部中的响度信息获得,而解码器目标水平是解码器配置参数。可以在响度信息内提供多个程序参考水平PRL值,其中每一个程序参考水平PRL值对应于所应用的动态范围控制序列DS和/或所应用的下混音的特定配置。在该情况下,元数据和参数控制级8在考虑给定音频解码器配置的同时挑选正确的程序参考水平值PRL。响度处理步骤的位置取决于音频解码器3的实际输出配置。一般而言,如果适用,则应例如在混频器之后或在格式转换级10之后对音频解码器3的输出通道执行响度归一化。
[0197] 根据本发明的优选实施例,音频调整链4包括峰值限制器级12,峰值限制器级12被配置为在阈值被超过的情况下限制音频输出信号AOS的峰值。
[0198] 根据本发明的优选实施例,在信号流的方向上的峰值限制器级12是音频调整链4的最后一个调整级。
[0199] 在典型的音频解码器的音频处理链4中存在不可避免的样本截断的多个可能源,包括:
[0200] ●参数编码工具
[0201] ●双声道处理
[0202] ●下混音、格式转换、呈现
[0203] ●响度归一化(尤其针对高目标水平)
[0204] ●解码器输出端处的量化
[0205] 因此,峰值限制器级12被放置在音频解码器3的处理链4的最末端处以例如恰好在时域输出信号从浮点转换为定点脉冲编码调制(PCM格式)之前防止音频样本的任何不合需要的截断。这也意味着在先前章节中所述的任何动态范围控制级5和响度归一化级11位于峰值限制器级12之前。在MPEG-H 3D音频[M30324]的上下文中,峰值限制器级接收不同的信号IPL作为输入,这取决于实际回放配置。在双声道呈现的情况下,耳机的两个输出通道可以通过峰值限制器级12处理。如果混频器的输出通道被直接回放,则峰值限制器级12可以处理相应的扬声器通道。相同情形适用于混频器输出通道首先由格式转换器10转换为不同扬声器配置(例如,下混音)的情况。
[0206] 峰值限制器级12可以检测时域信号中超过限制阈值的音频样本,并且将水平降低应用至相应信号部分使得音频输出信号AOS的样本始终保持在限制阈值以下。为了防止可听失真,水平降低应逐渐地执行,即,应用于信号的增益因子可以仅随时间缓慢地改变,这是通过增益平滑滤波器确保的。在应用限制器增益因子之前峰值限制器级的输入信号的预见延迟也被使用以允许在急剧信号峰值之前已开始的增益的平滑减小。延迟可以被调整至给定要求,实际选择为5ms。在多通道音频的情况下,可以将共同增益因子应用至所有音频通道以降低计算复杂性。
[0207] 如果解码器配置暗示在音频处理链中不会发生截断,则可以利用可以包括在文件首部的响度信息中的关于音频信号DAS的最大峰值IS的信息以丢弃峰值限制器级12。例如如果音频解码器3以浮点精度输出音频样本并且在回放装置的音频链中在稍后执行截断防止,则峰值限制器级12也可以被丢弃。明显地,如果针对给定回放场景的解码器配置允许应用正确的引导截断防止增益,则也可以在不发生附加编解码器截断的情况下丢弃峰值限制器级。
[0208] 实践中,峰值限制器12可被视为必需组件。在音频解码器3的音频处理链内存在众多的截断源。可以通过提供引导截断防止增益序列来涵盖特殊配置。然而,为了解码器的灵活操作,可以提供峰值限制器以确保不会发生截断。
[0209] 如图3中所示,引导截断防止处理可以在音频通道的格式转换和响度归一化之后执行。如果不应用格式转换,则可以将引导截断防止增益直接应用至动态范围控制级5的输出ISG。
[0210] 图4以示意图示出了根据本发明的音频解码器的第三实施例。图4描绘了针对音频对象AO的动态范围控制处理的配置。动态范围控制处理是在呈现之前对音频对象信号执行的。响度归一化和截断防止是在对通道的对象呈现之后执行的。
[0211] 根据本发明的优选实施例,音频调整链4包括被配置为将音频对象AO混频至音频输出信号AOS的通道中的对象呈现器级13。
[0212] 根据本发明的优选实施例,元数据解码器7被配置为从元数据比特流MBS提取包括与不同音频对象AO相关的至少两个动态范围控制增益的动态范围控制增益序列DS。
[0213] 根据通道情况类推,可以支持与音频对象或对象的群组相关联的多个动态范围控制序列DS。这些对象相关动态范围控制序列也可以被视为与动态范围控制增益的通道相关集合内的特定通道群组相关联。本文中的术语“音频对象AO”涉及诸如门铃的单源声音。
[0214] 根据本发明的优选实施例,元数据解码器7被配置为从元数据比特流MBS提取包括与不同音频对象相关的至少两个引导截断防止增益的引导截断防止增益序列GS。
[0215] 如同动态范围控制增益,可以在每一个引导截断防止序列内针对不同音频对象或音频对象的群组定义不同引导截断防止增益的集合,其中每一个通道通常与正好一个音频对象相关联。在典型的操作模式中,相同的引导截断防止增益被应用至所有音频对象。
[0216] 针对对象的引导截断防止增益序列的定义与动态范围控制情况相似。
[0217] 图5以示意图示出了根据本发明的音频解码器的第四实施例。
[0218] 在图5中示出了该构思的另一实现,其中附加换能器适配块14被包括在峰值限制器12之前。格式转换器级10涉及下混音处理步骤或在不同输入/输出通道配置之间的格式转换。以此类推,换能器适配块可以被包括在根据图4的对象相关处理链中。
[0219] 根据本发明的优选实施例,音频调整链4包括被配置为调整音频输出信号AOS的特性以用于再现音频输出信号的换能器系统的换能器适配级14。
[0220] 为了降低峰值限制器级12的所要求的限制强度,例如由均衡滤波器执行的频率相关换能器适配处理可以包括在处理链4中。
[0221] 换能器适配级14接收音频输入信号ITA和关于用于再现的换能器(扬声器或耳机)的特性的信息ICT。
[0222] 尤其当换能器具有有限的频率范围且由此将限制音频输出信号的频率范围时,换能器适配级14的任务是使音频输出信号AOS适配换能器特性。通过在峰值限制级12之前使用模仿换能豁的传递函数的适当滤波器来限制频率范围,峰值限制器级的输入信号IPL的水平降低。因此,超过限制阈值的信号峰值的水平降低。因此,峰值限制级12的效果不那么剧烈。这是有利的,其原因在于:
[0223] -峰值限制可以可听地改变信号,而换能器适配并不将可听改变引入信号中,以及[0224] -当信号被修改为使得最大峰值水平在限制阈值以下时,峰值限制器将引入较小的计算负荷。
[0225] 除了滤波之外,换能器适配级14还可以包括信号自适应性处理,使得换能器的频带限制得到补偿。尤其地,极小的换能器不能再现低频信号。
[0226] 这可以例如通过人工地产生低频音调的谐波并将其添加至信号以增加换能器的感知的低音响应而补偿。
[0227] 关于所描述的实施例的解码器、编码器和方法,以下应被注意:
[0228] 尽管已经在装置的上下文中描述一些方面,但是应当清楚的是,这些方面也表示相应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。相似地,在方法步骤的上下文中所述的方面也表示相应装置的相应块或项目或特征的描述。
[0229] 根据特定实现要求,本发明的实施例可以用硬件软件来实现。该实现可以使用存储有电子可读控制信号的数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,所述电子可读控制信号与可编程计算机系统协作(或能够协作)使得执行相应方法。
[0230] 根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述电子可读控制信号能够与可编程计算机系统协作使得执行本文所述的方法中的一个。
[0231] 一般而言,本发明的实施例可以实现为具有程序代码的计算机程序产品,该程序代码在计算机程序产品在计算机上运行时可操作以执行方法中的一个。程序代码可以例如存储在机器可读载体上。
[0232] 其他实施例包括用于执行本文所述的方法中的一个的计算机程序,该计算机程序存储在机豁可读载体或非暂时性存储介质上。
[0233] 换言之,本发明方法的实施例因此是计算机程序,该计算机程序具有当该计算机程序在计算机上运行时用于执行本文所述的方法中的一个的程序代码。
[0234] 本发明方法的又一实施例因此是记录有用于执行本文所述的方法中的一个的计算机程序的数据载体(或数字存储介质,或计算机可读介质)。
[0235] 本发明方法的又一实施例因此是表示用于执行本文所述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可以被配置为例如经由数据通信连接(例如,经由因特网)而传送。
[0236] 又一实施例包括被配置或适配以执行本文所述的方法中的一个的处理装置,例如计算机或可编程逻辑设备。
[0237] 又一实施例包括安装有用于执行本文所述的方法中的一个的计算机程序的计算机。
[0238] 在一些实施例中,可编程逻辑设备(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能性中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法中的一个。一般而言,有利地通过任何硬件装置执行方法。
[0239] 尽管已经围绕多个实施例对本发明进行了描述,但是存在落入本发明的范围内的改变、置换和等同物。还应当注意的是,存在实现本发明的方法和组成物的许多替代方式。因此,旨在将以下所附权利要求解释为包括落入本发明的真实精神和范围内的所有这些改变、置换和等同物。
[0240] 附图标记:
[0241] 1   音频编码器
[0242] 2   元数据编码器
[0243] 3   音频解码器
[0244] 4   音频处理链
[0245] 5   动态范围控制级
[0246] 6   引导截断防止级
[0247] 7   元数据解码器
[0248] 8   元数据和参数控制级
[0249] 9   配置提供级
[0250] 10  格式转换器级
[0251] 11  响度归一化级
[0252] 12  峰值限制器级
[0253] 13  对象呈现器级
[0254] 14  换能器适配级
[0255] MBS 元数据比特流
[0256] DS  动态范围控制增益序列
[0257] GS  引导截断防止增益序列
[0258] DAS 经解码的音频信号
[0259] AOS 音频输出信号
[0260] ISG 根据经解码的音频信号得到的信号
[0261] CI  配置信息
[0262] AC  音频通道
[0263] AO  音频对象
[0264] IPL 峰值限制器级的输入信号
[0265] ITA 换能器适配级的输入信号
[0266] ICT 关于换能器的特性的信息
[0267] IGS 响度归一化级的输出信号
[0268] OCF 格式转换器级或对象呈现器级的输出
[0269] GSS 增益序列选择信号
[0270] CLA 通道布局
[0271] DI  下混音指令
[0272] PRL 程序参考水平
[0273] IS  针对峰值限制器级的最大峰值
[0274] DTL 解码器目标水平
[0275] OMD 对象元数据
[0276] 参考文献:
[0277] [M30100]ISO/IEC JTC1/SC29/WG11 M30100,″Proposed Revision of Audio aspects of WD:Addition of Sample aspect ratio and further audio code-points″,July 2013,Vienna
[0278] [M30101]ISO/IEC JTC1/SC29/WG11M30101,″Editors draft of 14496-12 PDAM 3-Enhanced audio and other improvements″,July 2013,Vienna
[0279] [M30324]ISO/IEC JTC1/SC29/WG11M30324,″Description of the Fraunhofer IIS Submission for the 3D-Audio CfP″,July 2013,Vienna
[0280] [M28901]ISO/IEC JTC1/SC29/WG11M28901,″Enhanced Metadata for Dynamic Range Compression″,April 2013,Incheon,Korea
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈