首页 / 专利分类库 / 基本电子电路 / 放大的控制 / 用于音频数据的基于元数据的动态处理的方法和装置

用于音频数据的基于元数据的动态处理的方法和装置

申请号 CN202280058028.3 申请日 2022-08-24 公开(公告)号 CN117882133A 公开(公告)日 2024-04-12
申请人 杜比实验室特许公司; 杜比国际公司; 发明人 C·费尔奇; S·G·诺克罗斯;
摘要 本文描述了一种用于回放的音频数据的基于元数据的动态处理方法,该方法包括:由 解码器 接收包括音频数据和用于动态响度调整的元数据的比特流;由解码器解码音频数据和元数据以获得解码的音频数据和元数据;由解码器从元数据中基于回放条件确定用于动态响度调整的一个或多个处理参数;将所确定的一个或多个处理参数应用于经解码的音频数据以获得经处理的音频数据;以及输出经处理的音频数据以供回放。还描述了一种将音频数据和用于动态响度调整的元数据编码到比特流中的方法。此外,描述了相应的解码器和 编码器 、相应的系统和 计算机程序 产品。
权利要求

1.一种用于回放的音频数据的基于元数据的动态处理方法,该方法包括:
通过解码器接收包括音频数据和用于动态响度调整的元数据的比特流,其中用于动态响度调整的元数据包括多个元数据组,其中每个元数据组对应于相应的回放条件;
通过解码器解码音频数据和元数据以获得解码的音频数据和元数据;
响应于提供给解码器的回放条件信息,选择对应于特定回放条件的元数据组,并从所选择的元数据组中提取用于动态响度调整的一个或多个处理参数;
将所提取的一个或多个处理参数应用于解码的音频数据以获得经处理的音频数据;以及
输出经处理的音频数据以供回放。
2.根据权利要求1所述的方法,其中所述提取一个或多个处理参数还包括提取用于动态范围压缩DRC的一个或多个处理参数。
3.根据权利要求1或2所述的方法,其中回放条件信息指示特定扬声器设置。
4.根据权利要求1至3中任一项所述的方法,其中,所选择的元数据组包括一组DRC序列DRCSet。
5.根据权利要求1至4中任一项所述的方法,其中选择元数据组包括识别对应于特定下混的元数据组。
6.根据权利要求1至5中任一项所述的方法,其中,每个元数据组均包括与平均响度值相关的一个或多个处理参数,并且可选地包括与动态范围压缩特性相关的一个或多个处理参数。
7.根据权利要求1至6中任一项所述的方法,其中,所述比特流还包括用于要应用于解码的音频数据的静态响度调整的附加元数据。
8.根据权利要求1至7中任一项所述的方法,其中所述比特流是MPEG‑D DRC比特流,并且基于MPEG‑D DRC比特流语法用信号通知元数据的存在。
9.根据权利要求8所述的方法,其中,loudnessInfoSetExtension()元素用于携带元数据作为有效载荷
10.根据权利要求1至9中任一项所述的方法,其中所述元数据包括一个或多个元数据有效载荷,其中每个元数据有效载荷包括多组参数和标识符,每一组包括各自的下混标识符downmixId以及与该组中的下混标识符相关的一个或多个处理参数。
11.一种用于回放的音频数据的基于元数据的动态处理的解码器,其中所述解码器包括一个或多个处理器和非暂态存储器,所述非暂态存储器被配置为执行一种方法,所述方法包括:
通过解码器接收包括音频数据和用于动态响度调整的元数据的比特流,其中用于动态响度调整的元数据包括多个元数据组,其中每个元数据组对应于相应的回放条件;
通过解码器解码音频数据和元数据以获得解码的音频数据和元数据;
响应于提供给解码器的回放条件,选择对应于特定回放条件的元数据组,并从所选择的元数据组中提取用于动态响度调整的一个或多个处理参数;
将所提取的一个或多个处理参数应用于解码的音频数据以获得经处理的音频数据;以及
输出经处理的音频数据以供回放。
12.一种将音频数据和用于动态响度调整的元数据编码到比特流中的方法,该方法包括:
将原始音频数据输入响度调平器进行响度处理,以获得经响度处理的音频数据作为响度调平器的输出;
基于经响度处理的音频数据和原始音频数据生成用于动态响度调整的元数据;和将原始音频数据和元数据编码到比特流中。
13.根据权利要求12所述的方法,其中,所述方法还包括生成要由解码器使用的用于静态响度调整的附加元数据。
14.根据权利要求12或13所述的方法,其中所述生成元数据包括将经响度处理的音频数据与原始音频数据进行比较,并且其中元数据是基于所述比较的结果生成的。
15.根据权利要求14所述的方法,其中所述生成元数据还包括在一个或多个预定义时间段内测量响度,并且其中所述元数据还基于所测量的响度来生成。
16.根据权利要求15所述的方法,其中所述测量包括测量音频数据的整体响度。
17.根据权利要求15所述的方法,其中所述测量包括测量音频数据中对话的响度。
18.根据权利要求12至17中任一项所述的方法,其中所述比特流是MPEG‑D DRC比特流,并且基于MPEG‑D DRC比特流语法用信号通知元数据的存在。
19.根据权利要求18所述的方法,其中,loudnessInfoSetExtension()元素用于携带元数据作为有效载荷。
20.根据权利要求12至19中任一项所述的方法,其中所述元数据包括多个元数据组,其中每个元数据组对应于相应的回放条件。
21.根据权利要求12至20中任一项所述的方法,其中元数据包括一个或多个元数据有效载荷,其中每个元数据有效载荷包括多组参数和标识符,每一组包括各自的下混标识符downmixId以及与该组中的下混标识符相关的一个或多个处理参数,并且其中所述一个或多个处理参数是用于解码器进行的动态响度调整的参数。
22.一种用于将原始音频数据和用于动态响度调整的元数据编码到比特流中的编码器,其中所述编码器包括一个或多个处理器和非暂态存储器,所述非暂态存储器被配置为执行一种方法,所述方法包括:
将原始音频数据输入响度调平器进行响度处理,以获得经响度处理的音频数据作为响度调平器的输出;
基于经响度处理的音频数据和原始音频数据生成用于动态响度调整的元数据;和将原始音频数据和元数据编码到比特流中。
23.一种系统,包括根据权利要求22所述的用于将原始音频数据和用于动态响度调整的元数据编码到比特流中的编码器和根据权利要求11所述的用于回放的音频数据的基于元数据的动态处理的解码器。
24.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令在由具有处理能的设备执行时适于使该设备执行根据权利要求1至10或12至21中任一项所述的方法。
25.一种计算机可读存储介质,其存储根据权利要求24所述的计算机程序产品。

说明书全文

用于音频数据的基于元数据的动态处理的方法和装置

[0001] 相关申请的交叉引用
[0002] 本申请要求2021年8月26日提交的欧洲专利申请第21193209.0号、2021年8月26日提交的美国临时申请第63/237,231号和2021年10月1日提交的第63/251,307号的优先权,所有这些申请通过引用整体并入本文。

技术领域

[0003] 本公开总体上涉及用于回放的音频数据的基于元数据的动态处理方法,并且特别地,涉及确定一个或多个处理参数并将其应用于音频数据以进行动态响度调整和/或动态范围压缩。本公开还涉及一种将用于动态响度调整和/或动态范围压缩的元数据和音频数据编码到比特流中的方法。本公开还涉及相应的解码器编码器以及相应的系统和计算机程序产品。
[0004] 虽然文中将特别参考公开内容来描述一些实施例,但是应当理解的是,本公开不限于这样的使用领域,并且可应用于更广泛的情境中。

背景技术

[0005] 在整个公开中对背景技术的任何讨论都不应被认为是承认这些技术是公知的或构成本领域公知常识的一部分。
[0006] 在播放音频内容时,响度是声压的个体体验。在电影或电视内容中,已经发现节目中对话的响度是决定收听者对节目响度的感知的最关键参数。
[0007] 为了确定节目(无论是完整节目还是仅对话)的平均响度,都必须对整个节目进行分析。平均响度通常是响度合规(例如,美国的CALM法案)所必需的,也用于校准动态范围控制(DRC)参数。一个节目的动态范围是它最安静的声音和最响亮的声音之间的差异。节目的动态范围取决于其内容,例如,动作电影的动态范围可能与纪录片不同且更宽,并且反映了创作者的意图。然而,设备在原始动态范围内回放音频内容的能差异很大。因此,除了响度管理之外,动态范围控制也是提供最佳收听体验的另一个关键因素。
[0008] 为了执行响度管理和动态范围控制,必须分析整个音频节目或音频节目片段,并且可以将所得的响度和DRC参数与音频数据或编码音频数据一起传送,以应用于解码器或回放设备。
[0009] 当在编码之前对整个音频节目或音频节目片段的分析不可用时,例如在实时(动态)编码中,响度处理或调平被用于确保响度合规,以及(如果适用的话)取决于回放要求的潜在动态范围约束。这种方法提供了针对单个回放环境被“优化”的经处理的音频。
[0010] 因此,存在对基于元数据的处理的需求,该处理传递带有伴随元数据的“原始”未处理音频,允许播放设备使用元数据根据设备约束或用户要求来动态修改音频。发明内容
[0011] 根据本公开的第一方面,提供了一种用于回放的音频数据的基于元数据的动态处理方法。该方法可包括通过解码器接收包括音频数据和用于动态响度的元数据的比特流。该方法还可包括通过解码器解码音频数据和元数据以获得解码的音频数据和元数据。该方法还可包括通过解码器基于回放条件从元数据确定用于动态响度调整的一个或多个处理参数。该方法还可包括将所确定的一个或多个处理参数应用于解码的音频数据以获得经处理的音频数据。并且该方法还可包括输出经处理的音频数据以供回放。
[0012] 用于动态响度调整的元数据可以包括多组元数据,每组对应于相应的(例如不同的)回放条件。然后,基于(特定的)回放条件从元数据确定用于动态响度调整的一个或多个处理参数可以包括响应于提供给解码器的回放条件信息,选择与该(特定的)回放条件相对应的元数据组,并且从所选择的该元数据组中提取用于动态响度调整的一个或多个处理参数。其中,回放条件信息可以指示该(特定的)回放条件或由其得出的信息。
[0013] 在一些实施例中,元数据可以指示针对多个回放条件的用于动态响度调整的处理参数。
[0014] 在一些实施例中,所述确定一个或多个处理参数可以进一步包括基于回放条件确定用于动态范围压缩DRC的一个或多个处理参数。
[0015] 在一些实施例中,回放条件信息可以指示特定的扬声器设置。通常,回放条件可以包括解码器的设备类型、回放设备的特性、扬声器的特性、扬声器设置、背景噪声的特性、环境噪声的特性和声学环境的特性中的一者或多者。
[0016] 在一些实施例中,所选择的元数据组可以包括DRC序列组DRCSet。此外,每个元数据组可以包括相应的DRC序列组DRCSet。一般而言,所述确定一个或多个处理参数可以说进一步包括通过解码器选择对应于回放条件的DRC序列组DRCSet、均衡器参数集EQSet和下混中的至少一者。
[0017] 在一些实施例中,所述确定一个或多个处理参数可以进一步包括识别指示所选的DRCSet、EQSet和下混中的至少一者的元数据标识符,以从元数据确定一个或多个处理参数。具体而言,选择该元数据组可以包括识别对应于特定下混的一组元数据。该特定下混可以基于扬声器设置被确定。
[0018] 在一些实施例中,元数据可以包括与平均响度值相关的一个或多个处理参数,并且可选地包括与动态范围压缩特性相关的一个或多个处理参数。具体而言,每组元数据可以包括这样的与平均响度值相关的一个或多个处理参数,并且可选的与动态范围压缩特性相关的一个或多个处理参数。
[0019] 在一些实施例中,比特流还可以包括用于将被应用于解码的音频数据的静态响度调整的附加元数据。
[0020] 在一些实施例中,比特流可以是MPEG‑D DRC比特流,并且可以基于MPEG‑D DRC比特流语法用信号通知元数据的存在。
[0021] 在一些实施例中,loudnessInfoSetExtension()元素可用于携带元数据作为有效载荷
[0022] 在一些实施例中,元数据可以包括一个或多个元数据有效载荷,其中每个元数据有效载荷可以包括多组参数和标识符,每组包括DRCSet标识符drcSetId、EQSet标识符eqSetId和下混标识符downmixId中的至少一者,并结合与该组中的标识符相关的一个或多个处理参数。
[0023] 在一些实施例中,所述确定一个或多个处理参数可以包括基于由解码器选择的DRCSet、EQSet和下混中的至少一者在有效载荷中的多个组中选择一个组,其中由解码器确定的一个或多个处理参数可以是与所选组中的标识符相关的一个或多个处理参数。
[0024] 根据本公开的第二方面,提供了一种用于回放的音频数据的基于元数据的动态处理的解码器。该解码器可包括一个或多个处理器和非暂态存储器,所述非暂态存储器被配置为执行一种方法,所述方法包括通过解码器接收包括音频数据和用于动态响度的元数据的比特流;通过解码器解码音频数据和元数据以获得解码的音频数据和元数据;通过解码器基于回放条件从元数据确定用于动态响度调整的一个或多个处理参数;将所确定的一个或多个处理参数应用于解码的音频数据以获得经处理的音频数据;并且输出经处理的音频数据以供回放。
[0025] 用于动态响度调整的元数据可以包括多组元数据,每组对应于相应的(例如不同的)回放条件。然后,基于(特定的)回放条件从元数据确定用于动态响度调整的一个或多个处理参数可以包括响应于提供给解码器的回放条件信息,选择与该(特定的)回放条件相对应的元数据组,并且从所选择的该元数据组中提取用于动态响度调整的一个或多个处理参数。其中,回放条件信息可以指示该(特定的)回放条件或由其得出的信息。
[0026] 根据本公开的第三方面,提供了一种将音频数据和用于动态响度调整的元数据编码到比特流中的方法。该方法可包括将原始音频数据输入响度调平器进行响度处理,以获得经响度处理的音频数据作为响度调平器的输出。该方法还可包括基于经响度处理的音频数据和原始音频数据生成用于动态响度调整的元数据。并且该方法可包括将原始音频数据和元数据编码到比特流中。
[0027] 在一些实施例中,元数据可以包括多组元数据。每组元数据可对应于相应的(例如不同的)回放条件。
[0028] 在一些实施例中,该方法还可以包括生成将由解码器使用的用于静态响度调整的附加元数据。
[0029] 在一些实施例中,所述生成元数据可以包括将经响度处理的音频数据与原始音频数据进行比较,其中可以基于所述比较的结果生成元数据。
[0030] 在一些实施例中,所述生成元数据可以进一步包括在一个或多个预定义的时间段内测量响度,其中元数据可以进一步基于所测量的响度来生成。
[0031] 在一些实施例中,测量可以包括测量音频数据的整体响度。
[0032] 在一些实施例中,测量可以包括测量音频数据中对话的响度。
[0033] 在一些实施例中,比特流可以是MPEG‑D DRC比特流,并且可以基于MPEG‑D DRC比特流语法用信号通知元数据的存在。
[0034] 在一些实施例中,loudnessInfoSetExtension()元素可用于携带元数据作为有效载荷。
[0035] 在一些实施例中,元数据可以包括一个或多个元数据有效载荷,其中每个元数据有效载荷可以包括多组参数和标识符,每组包括DRCSet标识符drcSetId、EQSet标识符eqSetId和下混标识符downmixId中的至少一者,并结合与该组中的标识符相关的一个或多个处理参数,并且其中该一个或多个处理参数可以是用于解码器进行动态响度调整的参数。
[0036] 在一些实施例中,drcSetId、eqSetId和downmixId中的至少一者可能与要由解码器选择的一组DRC序列DRCSet、一组量化器参数EQSset和下混中的至少一者有关。
[0037] 根据本公开的第四方面,提供了一种编码器,用于将原始音频数据和用于动态响度调整的元数据编码到比特流中。编码器可以包括一个或多个处理器和非暂态存储器,其被配置为执行一种方法,该方法包括:将原始音频数据输入到响度调平器中进行响度处理,以获得经响度处理的音频数据作为响度调平器的输出;基于经响度处理的音频数据和原始音频数据生成用于动态响度调整的元数据;并将原始音频数据和元数据编码到比特流中。
[0038] 根据本公开的第五方面,提供了一种系统,该系统包括编码器和解码器,编码器将原始音频数据和用于动态响度调整的元数据编码到比特流中,解码器用于对音频数据进行基于元数据的动态处理以供回放。
[0039] 根据本公开的第六方面,提供了一种计算机程序产品,包括具有指令的计算机可读存储介质,当由具有处理能力的设备执行时,所述指令适于使设备执行用于回放的音频数据的基于元数据的动态处理的方法或者将音频数据和用于动态响度调整的元数据编码到比特流中的方法。
[0040] 根据本公开的第七方面,提供了一种存储这里描述的计算机程序产品的计算机可读存储介质。附图说明
[0041] 现在将参考附图仅以示例的方式描述本公开的示例实施例,其中:
[0042] 图1示出了用于回放的音频数据的基于元数据的动态处理的解码器的示例。
[0043] 图2示出了用于回放的音频数据的基于元数据的动态处理方法的示例。
[0044] 图3示出了用于在比特流中编码原始音频数据和用于动态响度调整的元数据的编码器的示例。
[0045] 图4示出了将音频数据和用于动态响度调整的元数据编码到比特流中的方法的示例。
[0046] 图5示出了包括一个或多个处理器和非暂态存储器的设备的示例,该设备被配置为执行本文描述的方法。

具体实施方式

[0047] 概观
[0048] 节目或对话的平均响度是用于广播或流媒体节目响度合规的主要参数或值。平均响度通常设定为‑24或‑23LKFS。通过支持响度元数据的音频编解码器,表示整个节目响度的单个响度值被携带在比特流中。在解码过程中使用该值允许进行增益调整,从而产生可预测的回放电平,以便节目以已知的一致电平回放。因此,正确、准确地设定该响度值非常重要。由于平均响度取决于在编码之前对整个节目的测量,因此对于诸如具有未知响度和动态范围变化的动态编码之类的实时情况,这是不可能的。
[0049] 当无法在编码前测量整个文件的响度时,通常使用动态响度调平器在编码前修改或调整音频数据,使其符合所需的响度。这种类型的响度管理通常被视为满足合规性的次等方法,因为它通常会改变音频内容中的动态范围互相关,从而可能会改变创作意图。当希望为所有回放设备分发一个音频资产时(这是元数据驱动的编解码器和传送系统的好处之一)尤其如此。
[0050] 在一些方法中,音频内容与所需的目标响度混合,并且相应的响度元数据被设置为该值。在这些情况下,响度调平器可能仍会使用,因为它将用于帮助引导音频内容达到目标响度,但它不会那么“活跃”,而仅在音频内容开始偏离所需的目标响度时使用。
[0051] 鉴于以上所述,本文描述的方法和装置旨在使实时处理情况(也称为动态处理情况)也是元数据驱动的。元数据允许实时情况下动态响度调整和动态范围压缩。所描述的方法和装置有利地实现了:
[0052] ·在MPEG‑D DRC语法中使用实时响度调整和DRC;
[0053] ·实时响度调节和DRC与downmixId结合使用;
[0054] ·实时响度调节和DRC与drcSetId结合使用;
[0055] ·实时响度调节和DRC结合eqSetId使用。
[0056] 也就是说,取决于解码器设置(例如,DRCSet、EQSet和下混),解码器可以通过将前述设置与标识符匹配来基于语法搜索给定的有效载荷以寻找适当的参数和标识符集合,该集合中包括的其标识符与设置最匹配的参数然后可以被选择作为动态响度调整的处理参数,该动态响度调整将被应用于接收到的原始音频数据以进行校正。
[0057] 此外,可以传输用于动态处理的多组参数(dynLoudCompValue的多个实例)。
[0058] 元数据驱动的动态响度补偿除了校正整体响度外,还可用于“集中”DRC增益计算和应用。这种集中可以是经由动态响度补偿以及DRC通常是如何计算和应用来校正内容响度的结果。在这个意义上,可以说用于动态响度补偿的元数据用于对齐DRC参数。
[0059] 音频数据的基于元数据的动态处理
[0060] 参考图1的例子,描述了用于回放的音频数据的基于元数据的动态处理的解码器100。解码器100可以包括一个或多个处理器和非暂态存储器,其被配置为执行包括如图2的示例中通过步骤S101至S105示出的过程的方法。
[0061] 解码器100可以接收包括音频数据和元数据的比特流,并且根据需求,能够输出未处理的(原始的)音频数据、在应用了根据元数据确定的动态处理参数和/或元数据本身之后的经处理的音频数据。
[0062] 参考图2的例子,在步骤S101中,解码器100可以接收包括音频数据、以及用于动态响度调整和可选的动态范围压缩(DRC)的元数据的比特流。音频数据可以是编码的音频数据,音频数据还可以是未处理的。也就是说,音频数据可以说是原始音频数据。元数据可以包括多组元数据。例如,元数据的每个有效载荷可以包括这样的多组元数据。这些不同的元数据组可以涉及相应的回放条件(例如,不同的回放条件)。
[0063] 虽然比特流的格式不受限制,但是在一个实施例中,比特流可以是MPEG‑D DRC比特流。然后,可以基于MPEG‑D DRC比特流语法用信号通知用于音频数据动态处理的元数据的存在。在一个实施例中,loudnessInfoSetExtension()元素可用于携带元数据作为有效载荷,如下面进一步详细描述的。
[0064] 在步骤S102中,音频数据和元数据然后可以由解码器解码,以获得解码的音频数据和元数据。在一个实施例中,元数据可以包括与平均响度值相关的一个或多个处理参数,并且可选地包括与动态范围压缩特性相关的一个或多个处理参数。应当理解,每组元数据可以包括相应的处理参数。
[0065] 元数据允许应用动态或实时校正。例如,当对现场实时播放进行编码和解码时,希望应用“实时”或动态音量元数据来确保现场播放音频得到适当的音量管理。
[0066] 在步骤S103中,解码器然后基于回放条件从元数据确定用于动态响度调整的一个或多个处理参数。这可以通过使用回放条件或从回放条件得出的信息(例如,回放条件信息)来在多组元数据中识别适当的一组元数据来完成。
[0067] 在一个实施例中,回放条件可以包括解码器的设备类型、回放设备的特性、扬声器的特性、扬声器设置、背景噪声的特性、环境噪声的特性和声学环境的特性中的一者或多者。优选地,回放条件信息可以指示特定的扬声器设置。回放条件的考虑允许解码器针对设备和环境约束有针对性地选择用于动态响度调整的处理参数。
[0068] 在一个实施例中,在步骤S103中确定一个或多个处理参数的过程可以进一步包括由解码器选择对应于回放条件的一组DRC序列DRCSet、一组均衡器参数EQSet和下混中的至少一者。因此,DRCSet、EQSet和下混中的至少一者关联于或者指示由于回放条件导致的个体设备和环境约束。
[0069] 优选地,步骤S103包括选择一组DRC序列DRCSet。换句话说,所选的元数据组可以包括这样的一组DRC序列。
[0070] 在一个实施例中,步骤S103中的确定过程可以进一步包括识别指示至少一个所选DRCSet、EQSet和DownmixSet的元数据标识符,以根据元数据确定一个或多个处理参数。因此,元数据标识符使得能够将元数据与相应的所选DRCSet、EQSet和/或下混相连接,从而与相应的回放条件相连接。
[0071] 在一个实施例中,特定扬声器设置可以用于确定下混,该下混继而可以用于在多组元数据中识别和选择适当的一组。在这种情况下,特定扬声器设置和/或下混可以由前述回放条件信息来指示。
[0072] 在一个实施例中,元数据可以包括一个或多个元数据有效载荷(例如,dynLoudComp()有效载荷,如下表5中所示),其中每个元数据有效载荷可以包括多组参数(例如,参数dynLoudCompValue)和标识符,每组包括DRCSet标识符drcSetId、EQSet标识符eqSetId和下混标识符downmixId中的至少一者、以及与该组中的标识符相关的一个或多个处理参数。也就是说,每个有效载荷可以包括条目阵列,每个条目包括处理参数和标识符(例如,drcSetId、eqSetId、downmixId)。条目阵列可以对应于上述多组元数据。优选地,每个条目包括下混标识符。
[0073] 在另一实施例中,步骤S103中的确定因此可以包括基于解码器选择的下混(或者可替换地,基于该至少一个DRCSet、EQSet和下混)在有效载荷中的多个组中选择一个组,其中在步骤S103中确定的一个或多个处理参数可以是与所选组中的标识符相关的一个或多个处理参数。也就是说,取决于解码器中存在的设置(例如,DRCSet、EQSet和下混),通过将前述设置与标识符匹配,解码器可以在给定有效载荷中搜索一组适当的参数和标识符。然后,可以选择该组中包括的其标识符与设置最匹配的参数作为用于动态响度调整的处理参数。
[0074] 在步骤S104中,然后通过解码器可以将所确定的一个或多个处理参数应用于解码的音频数据,以获得经处理的音频数据。因此,经处理的音频数据(例如现场实时音频数据)得到了适当的响度管理。
[0075] 在步骤S105中,然后可以输出经处理的音频数据以供回放。
[0076] 在一个实施例中,比特流可以进一步包括附加元数据,用于将被应用于解码的音频数据的静态响度调整。与实时情况的动态处理相反,静态响度调整指的是为一般响度归一化而执行的处理。
[0077] 将用于动态处理的元数据与用于一般响度归一化的附加元数据分开携带允许不应用“实时”校正。
[0078] 例如,当对现场实时播放进行编码和解码时,希望应用动态处理来确保现场播放音频得到适当的音量管理。但是对于非实时播放或者不希望或不需要动态校正的代码转换,不必应用从元数据确定的动态处理参数。
[0079] 通过进一步将用于动态处理的(动态/实时)元数据与附加元数据分开,如果需要的话,可以保留原始未处理的内容。原始音频与元数据一起被编码。这允许回放设备选择性地应用动态处理,并进一步允许在能够回放原始音频的高端设备上回放原始音频内容。
[0080] 保持动态响度元数据不同于长期响度测量/信息(例如如上所述的内容响度(countLoudness)(以ISO/IEC 23003‑4为单位))具有一些优点。如果组合的话,内容的响度(或者在应用动态响度元数据之后应该是什么样的响度)将不会指示内容的实际响度,这是因为可用的元数据将是合成值。除了消除内容响度(或节目或主播响度)是什么的模糊性之外,在某些情况下这将特别有益:
[0081] 将用于动态处理的元数据保持分开允许解码器或回放设备关闭动态处理的应用,并且改为应用已实现的实时响度调平器来避免级联调平。这种情况例如可在如下场合出现:如果设备自己的实时调平方案优于音频编解码器使用的方案,或者如果设备自己的实时调平方案无法禁用并因此将始终处于激活状态,进一步处理中的分辨率会导致播放体验受损。
[0082] 将用于动态处理的元数据保持分开还允许转码为如下编解码器,该编解码器不支持动态响度处理,并且希望在重新编码之前应用自身的响度处理。
[0083] 另一个例子是对于实时递送进行单一编码的现场直播。对于存档或点播服务,动态处理元数据可被使用或被存储。因此,对于存档或点播服务,可以基于整个节目进行更准确或符合要求的响度测量,并重置适当的元数据。
[0084] 对于在整个工作流程中使用固定目标响度的用例,例如在R128兼容情况下建议使用‑23LKFS,这也是有益的。在这种情况下,添加动态处理元数据是一种“安全”措施,其中内容是假定的并且接近所需的目标,添加动态处理元数据是一种辅助检查。因此,有能力关闭它是可取的。
[0085] 编码音频数据和用于动态响度调整的元数据
[0086] 参考图3和图4的示例,描述了一种编码器,其用于在比特流中编码原始音频数据和用于动态响度调整以及可选的动态范围压缩DRC的元数据,该编码器可以包括一个或多个处理器和非暂态存储器,该非暂态存储器被配置为执行包括如图4的示例中的步骤所示的过程的方法。
[0087] 在步骤S201中,原始音频数据可以被输入到响度调平器(leveler)201中进行响度处理,以获得经响度处理的音频数据作为响度调平器201的输出。
[0088] 在步骤S202中,然后可以基于经响度处理的音频数据和原始音频数据来生成用于动态响度调整的元数据。可以使用适当的平滑和时间来减少伪像。
[0089] 在一个实施例中,步骤S202可以包括由分析器202将经响度处理的音频数据与原始音频数据进行比较,其中可以基于所述比较的结果生成元数据。这样生成的元数据可以模拟解码器处的调平器的效果。元数据可以包括:
[0090] ‑增益(宽带和/或多频带)处理参数,使得当应用于原始音频时将产生用于回放的响度合规音频;
[0091] ‑描述音频动态的处理参数,例如
[0092] ο峰值–样本和真实峰值
[0093] ο短期响度值
[0094] ο短期响度值的变化。
[0095] 在一个实施例中,步骤S202可以进一步包括由分析器202在一个或多个预定义时间段内测量响度,其中元数据可以进一步基于所测量的响度来生成。在一个实施例中,测量可以包括测量音频数据的整体响度。替代地或附加地,在实施例中,测量可以包括测量音频数据中对话的响度。
[0096] 在步骤S203中,原始音频数据和元数据然后可以被编码到比特流中。虽然比特流的格式不受限制,但是在一个实施例中,比特流可以是MPEG‑D DRC比特流,并且元数据的存在可以基于MPEG‑D DRC比特流语法来用信号通知。在这种情况下,在一个实施例中,loudnessInfoSetExtension()元素可用于携带元数据作为有效载荷,如下面进一步详细描述的。
[0097] 在一个实施例中,元数据可以包括一个或多个元数据有效载荷,其中每个元数据有效载荷可以包括多组参数和标识符,每组包括DRCSet标识符drcSetId、EQSet标识符eqSetId和下混标识符downmixId中的至少一者,以及与该组中的标识符相关的一个或多个处理参数,并且其中该一个或多个处理参数可以是用于由解码器进行动态响度调整的参数。在这种情况下,在一个实施例中,drcSetId、eqSetId和downmixId中的至少一者可以与将由解码器选择的一组DRC序列DRCSet、一组均衡器参数EQSet和下混中的至少一者相关。通常,可以说元数据包括多组元数据,每组对应于相应的回放条件(例如,不同的回放条件)。
[0098] 在一个实施例中,该方法可以进一步包括生成将由解码器使用的用于静态响度调整的附加元数据。如上所述,将用于动态响度处理的元数据和附加元数据在比特流中保持分离并进一步将原始音频数据编码到比特流中具有若干优点。
[0099] 本文描述的方法可以分别在解码器或编码器上实现,其中解码器和编码器可以包括一个或多个处理器和非暂态存储器,被配置为执行所述方法。具有这种处理能力的设备的示例在图5的示例中示出,图5示出了所述设备300,包括两个处理器301和非暂态存储器302。
[0100] 注意,这里描述的方法还可以在包括编码器和解码器的系统上实现,所述编码器用于将原始音频数据和用于动态响度调整以及可选的动态范围压缩DRC的元数据编码到比特流中,所述解码器用于对音频数据进行基于元数据的动态处理以便回放,如文本中所述。
[0101] 该方法还可以被实现为包括计算机可读存储介质的计算机程序产品,该计算机可读存储介质具有指令,该指令在由具有处理能力的设备执行时适于使该设备执行所述方法。计算机程序产品可以存储在计算机可读存储介质上。
[0102] MPEG‑D DRC修改的比特流语法
[0103] 在下文中,将描述如何根据文中描述的实施例修改如在ISO/IEC 23003‑4中描述的MPEG‑D DRC比特流语法。
[0104] M P E G ‑ D  D R C语 法 可 以 被 扩 展 ,例 如 下 面 的 表 2 中 所 示 的loudnessInfoSetExtension()元素,以便还携带动态处理元数据作为基于帧的dynLoudComp更新。
[0105] 例如,可以在loudnessInfoSetExtension()元素中添加另一个切换实例UNIDRCLOUDEXT_DYNLOUDCOMP,如表1。UNIDRCLOUDEXT_DYNLOUDCOMP的切换实例可用于识别如表5中所示的新元素dynLoudComp()。loudnessInfoSetExtension()元素可以是如表2中所示的loudnessInfoSet()元素的扩展。此外,loudnessInfoSet()元素可能是如表3中所示的uniDRC()元素的一部分。
[0106]
[0107] 表1:loudnessInfoSetExtension()元素的语法
[0108]
[0109] 表2:loudnessInfoSet()元素的语法
[0110]
[0111] 表3:uniDRC()元素的语法
[0112] 符号 loudnessInfoSetExtType的值 用途UNIDRCLOUDEXT_TERM 0×0 终止标记
UNIDRCLOUDEXT_EQ 0×1 用于均衡化的扩展
UNIDRCLOUDEXT_DYNLOUDCOMP 0×2 用于动态处理的扩展
(保留) (所有剩余值) 用于未来用途
[0113] 表4:loudnessInfoSet扩展类型
[0114] 新dynLoudComp():
[0115]
[0116] 表5:dynLoudComp()元素的语法
[0117] ·drcSetId使得dynLoudComp(与元数据相关)能够应用于每个DRC集。
[0118] ·eqSetId使得dynLoudComp能够与均衡工具的不同设置相结合地被应用。
[0119] ·downmixid使得dynLoudComp能够应用于每个DownmixID。
[0120] 在一些情况下,除了上述参数之外,dynLoudComp()元素还包括指定用于得出动态节目响度元数据(例如,锚响度、节目响度、短期响度、瞬时响度等)的响度测量方法的methodDefinition参数(由例如4比特指定),和/或指定用于测量动态节目响度元数据(例如,EBU R.128、有或没有预处理的ITU‑R BS‑1770、ITU‑R BS‑1771等)的响度测量系统的measurementSystem参数(由例如4比特指定)。例如,这些参数可以例如包括在downmixId和dynLoudCompValue参数之间的dynLoudComp()元素中。
[0121] 可替代语法1
[0122]
[0123] 表6:loudnessInfoSetExtension()元素的语法
[0124] 符号 loudnessInfoSetExtType的值 用途UNIDRCLOUDEXT_TERM 0×0 终止标记
UNIDRCLOUDEXT_EQ 0×1 用于均衡化的扩展
UNIDRCLOUDEXT_DYNLOUDCOMP 0×2 用于动态处理的扩展
(保留) (所有剩余值) 用于未来用途
[0125] 表7:loudnessInfoSet扩展类型
[0126]
[0127] 表8:loudnessInfoV2()有效载荷的语法
[0128] 在某些情况下,可能有益的是修改上面表8中所示的语法,以使得dynLoudCompPresent和(如果dynLoudCompPresent==1)dynLoudCompValue参数将在loudnessInfoV2()有效载荷的measurementCount循环内在reliability参数之后,而不是在measurementCount循环之外。此外,在dynLoudCompPresent为0的情况下将
dynLoudCompValue设置为0也可能是有益的。
[0129] 可替代语法2
[0130] 作为替代,dynLoudComp()元素可以被放置在uniDrcGainExtension()元素中。
[0131]
[0132] 表9:uniDrcGain()元素的语法
[0133]
[0134] 表10:uniDrcGainExtension()元素的语法
[0135]符号 uniDrcGainExtType的值 用途
UNIDRCGAINEXT_TERM 0x0 终止标记
UNIDRCGAINEXT_DYNLOUDCOMP 0×1 用于动态处理的扩展
(保留) (所有剩余值) 用于未来用途
[0136] 表11:UniDrc增益扩展类型
[0137] 语义
[0138] dynLoudCompValue该字段包含dynLoudCompDb的值。该值根据下表进行编码。默认值为0dB。
[0139]
[0140] 表12 dynLoudCompValue字段的编码
[0141] 更新后的MPEG‑D DRC响度归一化处理
[0142]
[0143] 表13:响度归一化处理
[0144] 用于dynLoudComp选择和处理的伪代码
[0145]
[0146]
[0147]
[0148]
[0149]
[0150] 在一些情况下,除了以上伪代码中所示的选择过程之外(例如,考虑drcSetId、eqSetID和downmixId来选择dynLoudCompValue参数),选择过程还考虑methodDefinition参数和/或measurementSystem参数来选择dynLoudCompValue参数可能是有益的。
[0151] 可替代的更新后的MPEG‑D DRC响度归一化处理
[0152] 表14可替代的响度归一化处理
[0153] 在使用上表14的替代响度归一化处理的情况下,上述响度归一化化处理伪码可以由以下替代响度归一化处理伪码代替。应指出,可以假设dynLoudCompDb的默认值(例如,0dB)以确保即使对于动态响度处理元数据不存在于比特流中的情况,仍定义了
dynLoudCompDb的值。
[0154]
[0155] 可替代语法3
[0156] 在某些情况下,将上文表1‑表5中描述的语法与上文表6‑表8中描述的可替代语法1相结合可能是有益的,如下表所示,以允许增加动态响度处理值传输的灵活性。
[0157]
[0158] 表15:loudnessInfoSetExtension()元素的可替代语法3
[0159] 符号 loudnessInfoSetExtType的值 用途UNIDRCLOUDEXT_TERM 0×0 终止标记
UNIDRCLOUDEXT_EQ 0×1 用于均衡化的扩展
UNIDRCLOUDEXT_DYNLOUDCOMP 0×2 用于动态处理的扩展
UNIDRCLOUDEXT_DYNLOUDCOMP2 0×3 用于动态处理的扩展
(保留) (所有剩余值) 用于未来用途
[0160] 表16:loudnessInfoSet扩展类型的可替代语法3
[0161]
[0162] 表17:loudnessInfoV2()有效载荷的可替代语法3dynLoudComp()的可替代语法3[0163]
[0164] 表18 dynLoudComp()元素的可替代语法3
[0165] 接口扩展语法
[0166] 在一些情况下,即使在接收到的比特流中存在动态响度处理信息时,仍允许例如由最终用户控制是否执行动态响度处理可能是有益的。这种控制可以通过更新MPEG‑D DRC接口语法以包括附加接口扩展(例如,UNIDRCINTERFACEEXT_DYNLOUD)来提供,该附加接口扩展包含修订的响度归一化控制接口有效载荷(例如,loudnessNormalizationControlInterfaceV1()),如下表所示。
[0167]
[0168]
[0169] 表19 uniDRCInterfaceExtension()有效载荷的语法
[0170]
[0171] 表20 loudnessNormalizationControlInterfaceV1()有效载荷的语法
[0172]符号 uniDRCInterfaceExtType的值 用途
UNIDRCINTERFACEEXT_TERM 0×0 终止标记
UNIDRCINTERFACEEXT_EQ 0×1 均衡控制
UNIDRCINTERFACEEXT_DYNLOUD 0×2 动态响度控制
(保留) (所有剩余值) 用于未来用途
[0173] 表21 UniDRC接口扩展类型接口扩展语义
[0174]
[0175]
[0176] 表22 targetLoudness字段的编码
[0177]
[0178] 解释
[0179] 除非特别声明,否则从以下讨论中显而易见的是,在整个公开讨论中使用诸如“处理”、“计算”、“确定”、“分析”等术语是指计算机或计算系统或类似电子计算设备的动作和/或过程,其对表示为物理量(例如电子量)的数据进行操纵和/或转换成类似地表示为物理量的其他数据。
[0180] 以类似的方式,术语“处理器”可以指处理例如来自寄存器和/或存储器的电子数据以将该电子数据转换成例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
[0181] 在一个示例实施例中,本文描述的方法可由接受包含一组指令的计算机可读(也称为机器可读)代码的一个或多个处理器执行,当由一个或多个处理器执行时,所述一组指令执行本文描述的方法中的至少一种。包括能够(顺序地或以其它方式)执行指定要采取的动作的一组指令的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一者或多者。该处理系统还可以包括存储器子系统,该子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统用于组件之间的通信。该处理系统还可以是具有通过网络耦合的处理器的分布式处理系统。如果处理系统需要显示器,可以包括这样的显示器,例如液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动数据输入,处理系统还包括输入设备,例如诸如键盘的字母数字输入单元、诸如鼠标的指点控制设备等中的一者或多者。处理系统还可以包括存储系统,例如磁盘驱动单元。在一些配置中,处理系统可以包括声音输出设备和网络接口设备。
因此,存储器子系统包括承载计算机可读代码(例如,软件)的计算机可读载体介质,该计算机可读代码包括一组指令,当由一个或多个处理器执行时,该组指令导致执行这里描述的一个或多个方法。应指出,当该方法包括数个要素,例如数个步骤时,除非特别说明,否则不暗示这些要素的顺序。软件可以驻留在硬盘中,或者在由计算机系统执行期间也可以完全或至少部分地驻留在RAM和/或处理器中。因此,存储器和处理器也构成承载计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成,或被包括在计算机程序产品中。
[0182] 在替代示例实施例中,一个或多个处理器作为独立设备操作,或者可以在联网部署中连接(例如,联网)到其他处理器,一个或多个处理器可以在服务器‑用户网络环境中以服务器或用户机器的身份操作,或者在对等或分布式网络环境中作为对等机器操作。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、网络设备、网络路由器、交换机或网桥,或者能够执行指定该机器要采取的动作的一组指令(顺序或以其他方式)的任何机器。
[0183] 应指出,术语“机器”还应被理解为包括单独或联合执行一组(或多组)指令以执行这里讨论的方法中的任何一种或多种的机器的任何集合。
[0184] 因此,这里描述的每个方法的一个示例实施例是承载一组指令(例如用于在一个或多个处理器上执行的计算机程序)的计算机可读载体介质的形式,所述一个或多个处理器例如是作为网络服务器装置的一部分的一个或多个处理器。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、诸如专用装置的装置、诸如数据处理系统的装置、或计算机可读载体介质,例如计算机程序产品。计算机可读载体介质承载包括一组指令的计算机可读代码,当在一个或多个处理器上执行时,这些指令使得一个或多个处理器实现一种方法。因此,本公开的各方面可以采取方法、完全硬件示例实施例、完全软件示例实施例、或结合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,其承载在介质中体现的计算机可读程序代码。
[0185] 该软件还可以通过网络接口设备在网络上发送或接收。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应当被理解为包括存储一组或多组指令的单个介质或多个介质(例如集中式或分布式数据库、和/或相关联的缓存和服务器)。术语“载体介质”还应被理解为包括能够存储、编码或承载由一个或多个处理器执行的一组指令并使得一个或多个处理器执行本公开的任何一种或多种方法的任何介质。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘和磁光盘。易失性介质包括动态存储器,例如主存储器。传输介质包括同轴电缆线和光纤,包括构成总线子系统的电线。传输介质也可以采用声波或光波的形式,例如在无线电波和红外数据通信期间产生的声波或光波。例如,术语“载体介质”应相应地包括但不限于固态存储器,一种包含在光和磁介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测并表示在被执行时实现一种方法的一组指令的传播信号的介质;以及网络中的传输介质,该传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示指令集的传播信号。
[0186] 应当理解,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储器中的指令(计算机可读代码)的处理(例如计算机)系统的适当一个处理器(或多个处理器)来执行。还将理解,本公开不限于任何特定的实现或编程技术,并且本公开可以使用用于实现这里描述的功能的任何合适的技术来实现。本公开不限于任何特定的编程语言或操作系统
[0187] 在本公开全文中对“一个实施例”、“一些实施例”或“示例实施例”的引用意味着结合该实施例描述的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,短语“在一个实施例中”、“在一些实施例中”或“在示例实施例中”在本公开中各处的出现不一定都指同一示例实施例。此外,特定特征、结构或特性可以以任何合适的方式在一个或多个示例实施例中组合,这对于本领域普通技术人员而言从本公开中是显而易见的。
[0188] 如本文所用,除非另有说明,使用顺序形容词“第一”、“第二”、“第三”等来描述共同的对象仅仅表示引用相同对象的不同实例,而不意味着如此描述的对象必须在时间上、空间上、排序上或以任何其他方式具有给定的顺序。
[0189] 在下面的权利要求书和说明书中,术语“包括”是开放式术语,意味着至少包括在后的元件/特征,但不排除其他元件/特征。因此,当在权利要求中使用时,术语“包括”不应被解释为限于其后列出的手段或元件或步骤。例如,表述“包括A和B的装置”的范围不应限于仅由元件A和B组成的装置。这里使用的术语“包含”也是开放式术语,也意味着至少包含该术语后面的元件/特征,但不排除其他元件/特征。因此,“包括”与“包含”同义。
[0190] 应当理解,在本公开的示例性实施例的上述描述中,为了简化本公开并帮助理解各种发明方面中的一者或多者,本公开的各种特征有时被组合在单个示例性实施例、附图或其描述中。然而,这种公开方法不应被解释为反映了权利要求需要比每个权利要求中明确记载的特征更多的特征的意图。相反,如以下权利要求所反映的,创造性方面在于少于单个前述公开的示例实施例的所有特征。因此,说明书后的权利要求由此明确地结合到本说明书中,每个权利要求本身作为本公开的单独示例实施例。
[0191] 此外,尽管本文描述的一些示例性实施例包括一些但不包括其他示例性实施例中包括的其他特征,但是不同示例性实施例的特征的组合也在本公开的范围内,并且形成不同的示例性实施例,如本领域技术人员将理解的。例如,在以下权利要求中,任何要求保护的示例性实施例可被以任何组合使用。
[0192] 在本文提供的描述中,阐述了许多具体细节。然而,应当理解,本公开的示例实施例可以在没有这些具体细节的情况下实施。在其他情况下,没有详细示出众所周知的方法、结构和技术,以免模糊对本说明书的理解。
[0193] 因此,尽管已经描述了被认为是本公开的最佳模式,但是本领域技术人员将认识到,在不脱离本公开的精神的情况下,可以对其进行其他和进一步的修改,并且旨在要求所有这些改变和修改都落入本公开的范围内。例如,上面给出的任何公式仅仅是可以使用的程序的代表。功能可以从框图中添加或删除,并且操作可以在功能之间互换。在本公开的范围内,可以向所描述的方法添加或删除步骤。
[0194] 在下文中,列举的示例实施例(EEE)描述了本文公开的示例实施例的一些方面的一些结构、特征和功能。
[0195] EEE1.一种用于回放的音频数据的基于元数据的动态处理方法,该方法包括以下过程:
[0196] (a)通过解码器接收包括音频数据和用于动态响度调整的元数据的比特流;
[0197] (b)通过解码器解码音频数据和元数据以获得解码的音频数据和元数据;
[0198] (c)通过解码器基于回放条件从元数据确定用于动态响度调整的一个或多个处理参数;
[0199] (d)将所确定的一个或多个处理参数应用于解码的音频数据以获得经处理的音频数据;以及
[0200] (e)输出经处理的音频数据以供回放。
[0201] EEE2.根据EEE1所述的方法,其中所述元数据指示用于多个回放条件的动态响度调整的处理参数。
[0202] EEE3.根据EEE1或EEE2所述的方法,其中所述确定一个或多个处理参数还包括基于回放条件确定用于动态范围压缩DRC的一个或多个处理参数。
[0203] EEE4.根据EEE1至EEE3中任一项所述的方法,其中回放条件包括解码器的设备类型、回放设备的特性、扬声器的特性、扬声器设置、背景噪声的特性、环境噪声的特性和声学环境的特性中的一者或多者。
[0204] EEE5.根据EEE1至EEE4中任一项所述的方法,其中过程(c)还包括通过解码器选择对应于回放条件的DRC序列组DRCSet、均衡器参数集EQSet和下混中的至少一者。
[0205] EEE6.根据EEE5所述的方法,其中过程(c)还包括识别指示所选的DRCSet、EQSet和下混中的至少一者的元数据标识符,以从元数据确定一个或多个处理参数。
[0206] EEE7.根据EEE1至EEE6中任一项所述的方法,其中所述元数据包括与平均响度值相关的一个或多个处理参数,并且可选的与动态范围压缩特性相关的一个或多个处理参数。
[0207] EEE8.根据EEE1至EEE7中任一项所述的方法,其中所述比特流还包括用于将被应用于解码后的音频数据的静态响度调整的附加元数据。
[0208] EEE9.根据EEE1至EEE8中任一项所述的方法,其中所述比特流是MPEG‑D DRC比特流,并且基于MPEG‑D DRC比特流语法用信号通知元数据的存在。
[0209] EEE10.根据EEE9所述的方法,其中loudnessInfoSetExtension()元素用于携带元数据作为有效载荷。
[0210] EEE11.根据EEE1至EEE10中任一项所述的方法,其中所述元数据包括一个或多个元数据有效载荷,其中每个元数据有效载荷包括多组参数和标识符,每组包括DRCSet标识符drcSetId、EQSet标识符eqSetId和下混标识符downmixId中的至少一者,结合与该组中的标识符相关的一个或多个处理参数。
[0211] EEE12.根据依赖EEE5的EEE11所述的方法,其中过程(c)包括基于由解码器选择的DRCSet、EQSet和下混中的至少一者在有效载荷中的多个组中选择一个组,并且其中,在过程(c)中确定的一个或多个处理参数可以是与所选组中的标识符相关的一个或多个处理参数。
[0212] EEE13.一种用于回放的音频数据的基于元数据的动态处理的解码器,其中该解码器包括一个或多个处理器和非暂态存储器,该非暂态存储器被配置成执行包括以下过程的方法:
[0213] (a)通过解码器接收包括音频数据和用于动态响度调整的元数据的比特流;
[0214] (b)通过解码器解码音频数据和元数据以获得解码的音频数据和元数据;
[0215] (c)通过解码器基于回放条件从元数据确定用于动态响度调整的一个或多个处理参数;
[0216] (d)将所确定的一个或多个处理参数应用于解码的音频数据以获得经处理的音频数据;以及
[0217] (e)输出经处理的音频数据以供回放。
[0218] EEE14.一种将音频数据和用于动态响度调整的元数据编码到比特流中的方法,该方法包括以下过程:
[0219] (a)将原始音频数据输入响度调平器进行响度处理,以获得经响度处理的音频数据作为响度调平器的输出;
[0220] (b)基于经响度处理的音频数据和原始音频数据生成用于动态响度调整的元数据;以及
[0221] (c)将原始音频数据和元数据编码到比特流中。
[0222] EEE15.根据EEE14所述的方法,其中,所述方法还包括生成将由解码器使用的用于静态响度调整的附加元数据。
[0223] EEE16.根据EEE14或EEE15所述的方法,其中过程(b)包括将经响度处理的音频数据与原始音频数据进行比较,并且其中基于所述比较的结果生成元数据。
[0224] EEE17.根据EEE16所述的方法,其中过程(b)还包括在一个或多个预定义的时间段内测量响度,并且其中元数据进一步基于所测量的响度来生成。
[0225] EEE18.根据EEE17所述的方法,其中所述测量包括测量音频数据的整体响度。
[0226] EEE19.根据EEE17所述的方法,其中所述测量包括测量音频数据中对话的响度。
[0227] EEE20.根据EEE14至EEE19中任一项所述的方法,其中所述比特流是MPEG‑D DRC比特流,并且基于MPEG‑D DRC比特流语法用信号通知元数据的存在。
[0228] EEE21.根据EEE20所述的方法,其中loudnessInfoSetExtension()元素用于携带元数据作为有效载荷。
[0229] EEE22.根据EEE14至EEE21中任一项所述的方法,其中所述元数据包括一个或多个元数据有效载荷,其中每个元数据有效载荷可以包括多组参数和标识符,每组包括DRCSet标识符drcSetId、EQSet标识符eqSetId和下混标识符downmixId中的至少一者,结合与该组中的标识符相关的一个或多个处理参数,并且其中该一个或多个处理参数可以是用于解码器进行动态响度调整的参数。
[0230] EEE23.根据EEE22所述的方法,其中drcSetId、eqSetId和downmixId中的至少一者可能与要由解码器选择的一组DRC序列DRCSet、一组量化器参数EQSset和下混中的至少一者有关。
[0231] EEE24。一种编码器,用于将原始音频数据和用于动态响度调整的元数据编码到比特流中,其中编码器可以包括一个或多个处理器和非暂态存储器,其被配置为执行包括以下过程的方法:
[0232] (a)将原始音频数据输入到响度调平器中进行响度处理,以获得经响度处理的音频数据作为响度调平器的输出;
[0233] (b)基于经响度处理的音频数据和原始音频数据生成用于动态响度调整的元数据;以及
[0234] (c)将原始音频数据和元数据编码到比特流中。
[0235] EEE25.一种包括根据EEE24所述的用于将原始音频数据和用于动态响度调整和/或动态范围压缩DRC的元数据编码到比特流中的编码器和根据EEE13所述的用于回放的音频数据的基于元数据的动态处理的解码器的系统。
[0236] EEE26.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令在由具有处理能力的设备执行时适于使设备执行根据EEE1至EEE12或EEE14至EEE23中任一项所述的方法。
[0237] EEE27.一种存储根据EEE26所述的计算机程序产品的计算机可读存储介质。
[0238] EEE28.根据EEE 1至EEE12中任一项所述的方法,还包括由解码器通过接口接收是否执行用于回放的音频数据的基于元数据的动态处理的指示,并且当解码器接收到不执行用于回放的音频数据的基于元数据的动态处理的指示时,至少绕过将所确定的一个或多个处理参数应用于解码的音频数据的步骤。
[0239] EEE29.根据EEE28所述的方法,其中直到解码器通过接口接收到是否执行用于回放的音频数据的基于元数据的动态处理的指示之前,解码器至少绕过将所确定的一个或多个处理参数应用于解码的音频数据的步骤。
[0240] EEE30.根据EEE 1至EEE12、EEE28或EEE29中任一项所述的方法,其中所述元数据指示用于多个回放条件的动态响度调整的处理参数,并且所述元数据还包括指定用于得出所述多个处理参数中的处理参数的响度测量方法的参数。
[0241] EEE31.根据EEE1至EEE12或EEE28至EEE30中任一项所述的方法,其中所述元数据指示用于多个回放条件的动态响度调整的处理参数,并且所述元数据还包括指定用于测量所述多个处理参数中的处理参数的响度测量系统的参数。
QQ群二维码
意见反馈