首页 / 专利库 / 工艺品 / 音调 / 具有多个媒体处理节点的自适应处理

具有多个媒体处理节点的自适应处理

阅读:428发布:2022-11-25

专利汇可以提供具有多个媒体处理节点的自适应处理专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于 指定 媒体数据的状态的单独的数据,来自适应处理媒体数据的技术。媒体处理链中的装置可以确定是否已经对媒体数据的输入版本执行一种类型的媒体处理。如果是,则该装置可以调整其对媒体数据的处理以禁止执行该类型的媒体处理。如果否,则该装置执行该类型的媒体处理。该装置可以创建指定媒体处理的类型的媒体数据的状态。出于支持接收装置对媒体数据的自适应处理的目的,该装置可以将媒体数据的状态和媒体数据的输出版本传送至媒体处理链中的接受装置。,下面是具有多个媒体处理节点的自适应处理专利的具体信息内容。

1.一种方法,包括:
媒体处理链中的第一装置确定是否已经对媒体数据的输出版本执行一种类型的媒体处理;
响应于确定已经对所述媒体数据的所述输出版本执行所述类型的媒体处理,所述第一装置执行以下步骤:
通过所述第一装置创建所述媒体数据的状态,所述状态说明对所述媒体数据的所述输出版本执行的所述类型的媒体处理;
将所述媒体数据的所述输出版本和所述媒体数据的所述状态从所述第一装置传送至在所述媒体处理链下游的第二装置。
2.根据权利要求1所述的方法,其中,所述媒体数据包括如下媒体内容中的一个或多个:仅音频内容、仅视频内容或音频内容和视频内容两者。
3.根据权利要求1所述的方法,还包括:向所述第二装置提供所述媒体数据的所述状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;
(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
4.根据权利要求1所述的方法,还包括:在媒体处理数据库处存储媒体处理数据,其中,所述媒体处理数据块包括媒体处理元数据,并且其中,基于与所述媒体处理数据块相关联的一个或多个媒体指纹能够获取所述媒体处理数据块。
5.根据权利要求1所述的方法,其中,所述媒体数据的所述状态包括用凭据信息加密的加密哈希值,并且其中,所述加密哈希值要由接受装置认证。
6.根据权利要求1所述的方法,其中,所述媒体数据的所述状态的至少一部分包括隐藏在所述媒体数据中的一个或多个安全通信信道,并且其中,所述一个或多个安全通信信道要由接受装置认证。
7.根据权利要求6所述的方法,其中,所述一个或多个安全通信通道包括至少一个扩频安全通信信道。
8.根据权利要求6所述的方法,其中,所述一个或多个安全通信信道包括至少一个频移键控安全通信信道。
9.根据权利要求1所述的方法,其中,在输出媒体比特流中所述媒体数据的所述状态携带有所述媒体数据的所述输出版本。
10.根据权利要求1所述的方法,其中,所述媒体数据的所述状态被携带在与携带所述媒体数据的所述输出版本的单独媒体比特流相关联的辅助元数据比特流中。
11.根据权利要求1所述的方法,其中,所述媒体数据的所述状态包括与所述类型的媒体处理有关的一个或多个参数集。
12.根据权利要求1所述的方法,其中,所述第一装置或所述第二装置中的至少一个包括预处理单元、编码器、媒体处理子单元、转码器、解码器、后处理单元或媒体内容呈现子单元中的一个或多个。
13.根据权利要求1所述的方法,其中,所述第一装置是编码器,并且其中,所述第二装置是解码器。
14.根据权利要求1所述的方法,还包括:通过所述第一装置来执行所述类型的媒体处理。
15.根据权利要求1所述的方法,其中,通过所述媒体处理链中相对于所述第一装置的上游装置执行所述类型的媒体处理;并且所述方法还包括:
所述第一装置接收所述媒体数据的输入版本,其中所述媒体数据的所述输入版本包括表示所述类型的媒体处理的所述媒体数据的任意状态;以及
分析所述媒体数据的所述输入版本以确定已经对所述媒体数据的所述输入版本执行所述类型的媒体处理。
16.根据权利要求1所述的方法,还包括:对所述媒体数据的所述状态中的响度值和动态范围值进行编码。
17.根据权利要求1所述的方法,其中,之前通过所述媒体处理链中相对于所述第一装置的上游装置执行所述类型的媒体处理;并且所述方法还包括:
所述第一装置接收对之前执行的所述类型的媒体处理进行覆盖的命令;
所述第一装置执行所述类型的媒体处理;
将所述媒体数据的输出版本和所述媒体数据的状态从所述第一装置传送至在所述媒体处理链下游的第二装置,所述媒体数据的所述状态表示已经在所述媒体数据的所述输出版本中执行所述类型的媒体处理。
18.根据权利要求17所述的方法,还包括:从(a)用户输入、(b)所述第一装置的系统配置、(c)来自所述第一装置外部的装置的信令或(d)来自所述第一装置内的子单元的信令中之一接收所述命令。
19.根据权利要求1所述的方法,还包括:将独立于所述媒体数据的所述状态的一种或多种类型的元数据从所述第一装置传送至在所述媒体处理链下游的所述第二装置。
20.根据权利要求1所述的方法,其中,所述媒体数据的所述状态包括隐藏在一个或多个安全通信信道中的状态元数据的至少一部分。
21.根据权利要求1所述的方法,还包括:更改所述媒体数据中的多个字节以存储所述媒体数据的所述状态的至少一部分。
22.根据权利要求1所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括先进电视系统委员会ATSC编解码器、运动图像专家组MPEG编解码器、音频编解码器
3AC-3编解码器以及增强型AC-3编解码器中的一个或多个。
23.根据权利要求1所述的方法,其中,所述媒体处理链包括:
预处理单元,所述预处理单元被配置成接受包括媒体内容的时域样本作为输入并且输出经处理的时域样本;
编码器,所述编码器被配置成基于所述经处理的时域样本来输出所述媒体内容的经压缩的媒体比特流;
信号分析和元数据校正单元,所述信号分析和元数据校正单元被配置成对所述经压缩的媒体比特流中的处理状态元数据进行验证;
转码器,所述转码器被配置成修改所述经压缩的媒体比特流;
解码器,所述解码器被配置成基于所述经压缩的媒体比特流来输出经解码的时域样本;以及
后处理单元,所述后处理单元被配置成执行所述经解码的时域样本中的所述媒体内容的后处理。
24.根据权利要求23所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的一个或多个。
25.根据权利要求23所述的方法,其中,所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的至少一个基于从上游装置接收的处理元数据来执行所述媒体内容的自适应处理。
26.根据权利要求1所述的方法,还包括:
根据所述媒体数据确定一个或多个媒体特征;以及
将所述一个或多个媒体特征的描述包括在所述媒体数据的所述状态中。
27.根据权利要求26所述的方法,其中,所述一个或多个媒体特征包括根据、秒、分钟、用户定义的时间间隔、场景、歌曲、音乐片段和录音中的一个或多个所确定的至少一个媒体特征。
28.根据权利要求26所述的方法,所述一个或多个媒体特征包括所述媒体数据的语义描述。
29.根据权利要求26所述的方法,所述一个或多个媒体特征包括结构性质、具有和声和旋律的音调、音色、节奏、响度、立体声混音、所述媒体数据的声源的量、声音的存在或不存在、重复特性、旋律、和声、歌词、音色、感知特征、数字媒体特征、立体声参数、语音内容的一个或多个部分中的一个或多个。
30.根据权利要求26所述的方法,还包括:使用所述一个或多个媒体特征将所述媒体数据分类为在多个媒体数据类中的一个或多个媒体数据类。
31.根据权利要求30所述的方法,其中,所述一个或多个媒体数据类包括以下类中的一个或多个:针对整片媒体的单个总体/主导媒体数据类;或表示比所述整片媒体较小的时间段的单个类。
32.根据权利要求31所述的方法,其中,所述较小的时间段表示单个媒体帧、单个媒体数据块、多个媒体数据帧、多个媒体数据块、几分之一秒、一秒或多秒中的一个或多个。
33.根据权利要求30所述的方法,其中,对表示所述一个或多个媒体数据类的一个或多个媒体数据类标签进行计算并将其插入到比特流中。
34.根据权利要求30所述的方法,其中,对表示所述一个或多个媒体数据类的一个或多个媒体数据类标签进行计算,并将其作为嵌入在所述媒体数据内的隐藏数据发信号到接受媒体处理节点
35.根据权利要求30所述的方法,其中,对表示所述一个或多个媒体数据类的一个或多个媒体数据类标签进行计算,并在位于所述媒体数据的块之间的单独源数据结构中将其发信号到接受媒体处理节点。
36.根据权利要求31所述的方法,其中,所述单个总体/主导媒体数据类表示单个类类型或混合类类型中的一个或多个,所述单个类类型例如为音乐、语音、噪音、沉默、掌声,所述混合类类型例如为覆于音乐之上的语音、覆于噪音之上的交谈或媒体数据类型的其他混合物。
37.根据权利要求30所述的方法,还包括:将一个或多个可能性或概率值与所述一个或多个媒体数据类标签相关联,其中,可能性或概率值表示相对于与所计算的媒体类标签相关联的媒体段/块,所述所计算的媒体类标签具有的置信平。
38.根据权利要求37所述的方法,其中,由所述媒体处理链中的接受媒体处理节点使用所述可能性或概率值,从而以改进例如上混、编码、解码、转码或机虚拟化等的一个或多个操作的方式调整处理。
39.根据权利要求38所述的方法,其中,所述一个或多个操作中的至少一个操作因为避免了通过所述接受媒体处理节点对所述媒体数据进行分类的复杂分析操作,所以消除对预设处理参数的需求、减小贯穿所述媒体链的处理单元的复杂度或者增加电池寿命。
40.一种方法,包括:
媒体处理链中的第一装置确定是否已经对媒体数据的输入版本执行一种类型的媒体处理;
响应于确定已经对所述媒体数据的所述输入版本执行所述类型的媒体处理,所述第一装置执行所述媒体数据的自适应处理以禁止在所述第一装置中执行所述类型的媒体处理;
其中所述方法由一个或多个计算处理器执行。
41.根据权利要求40所述的方法,还包括:将所述媒体数据的输出版本和所述媒体数据的状态从所述第一装置传送至在所述媒体处理链下游的第二装置,所述媒体数据的所述状态表示已经在所述媒体数据的所述输出版本中执行所述类型的媒体处理。
42.根据权利要求41所述的方法,还包括:对所述媒体数据的所述状态中的响度值和动态范围值进行编码。
43.根据权利要求40所述的方法,还包括:
所述第一装置对所述媒体数据执行第二类型的媒体处理,所述第二类型的媒体处理不同于所述类型的媒体处理;
将所述媒体数据的输出版本和所述媒体数据的状态从所述第一装置传送至在所述媒体处理链下游的第二装置,所述媒体数据的所述状态表示已经在所述媒体数据的所述输出版本中执行所述类型的媒体处理和所述第二类型的媒体处理。
44.根据权利要求40所述的方法,还包括:至少部分地基于之前是否已经对所述媒体数据的所述输入版本执行所述类型的媒体处理,自动地执行自适应校正响度或动态音频处理中的一个或多个。
45.根据权利要求40所述的方法,还包括:从所述媒体数据中对媒体内容进行编码的数据单元提取所述媒体数据的输入状态,其中,所述媒体数据的所述输入状态被隐藏在所述数据单元中的一个或多个中。
46.根据权利要求45所述的方法,还包括:恢复不包括所述媒体数据的所述输入状态的所述数据单元的版本,并且基于已经恢复的所述数据单元的所述版本来呈现所述媒体内容。
47.根据权利要求46所述的方法,还包括:获取与所述媒体数据的所述输入版本相关联的所述媒体数据的输入状态。
48.根据权利要求47所述的方法,还包括:通过验证与所述媒体数据的所述输入状态相关联的加密哈希值来认证所述媒体数据的所述输入状态。
49.根据权利要求47所述的方法,还包括:通过验证与所述媒体数据的所述输入状态相关联的一个或多个指纹来认证所述媒体数据的所述输入状态,其中,所述一个或多个指纹中的至少一个基于所述媒体数据的至少一部分而生成。
50.根据权利要求47所述的方法,还包括:通过验证与所述媒体数据的所述输入状态相关联的一个或多个指纹来验证所述媒体数据,其中,所述一个或多个指纹中的至少一个基于所述媒体数据的至少一部分而生成。
51.根据权利要求47所述的方法,其中,在输入媒体比特流中用所述媒体数据的所述输入版本来携带所述媒体数据的所述输入状态。
52.根据权利要求47所述的方法,还包括:基于所述媒体数据的所述输入状态关掉一种或多种类型的媒体处理。
53.根据权利要求47所述的方法,其中,用处理状态元数据描述所述媒体数据的所述输入状态;并且所述方法还包括:
至少部分地基于所述处理状态元数据来创建媒体处理信令,其中,所述媒体处理信令表示所述媒体数据的所述输入状态;
将所述媒体处理信令传输至所述媒体处理链中在所述第一装置下游的媒体处理装置。
54.根据权利要求53所述的方法,其中,所述媒体处理信令被隐藏在所述媒体数据的输出版本中的一个或多个数据单元中。
55.根据权利要求54所述的方法,其中,使用可逆数据隐藏技术执行所述媒体处理信令使得能够通过接受装置去除所述媒体数据的一个或多个修改。
56.根据权利要求54所述的方法,其中,使用不可逆数据隐藏技术执行所述媒体处理信令使得不能够通过接受装置去除所述媒体数据的一个或多个修改中的至少一个。
57.根据权利要求46所述的方法,还包括:从所述媒体处理链中的上游装置接收独立于对所述媒体数据执行的任意之前媒体处理的一种或多种类型的元数据。
58.根据权利要求47所述的方法,其中,所述媒体数据的所述状态包括隐藏在一个或多个安全通信信道中的状态元数据的至少一部分。
59.根据权利要求46所述的方法,还包括:更改所述媒体数据中的多个字节以存储所述媒体数据的状态的至少一部分。
60.根据权利要求46所述的方法,其中,所述第一装置包括先进电视系统委员会ATSC编解码器、运动图像专家组MPEG编解码器、音频编解码器3AC-3编解码器以及增强型AC-3编解码器中的一个或多个。
61.根据权利要求46所述的方法,其中,所述媒体处理链包括:
预处理单元,所述预处理单元被配置成接受包括媒体内容的时域样本作为输入并且输出经处理的时域样本;
编码器,所述编码器被配置成基于所述经处理的时域样本来输出所述媒体内容的经压缩的媒体比特流;
信号分析和元数据校正单元,所述信号分析和元数据校正单元被配置成对所述经压缩的媒体比特流中的处理状态元数据进行验证;
转码器,所述转码器被配置成修改所述经压缩的媒体比特流;
解码器,所述解码器被配置成基于所述经压缩的媒体比特流来输出经解码的时域样本;以及
后处理单元,所述后处理单元被配置成执行在所述经解码的时域样本中的所述媒体内容的后处理。
62.根据权利要求61所述的方法,其中,所述第一装置包括所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的一个或多个。
63.根据权利要求61所述的方法,其中,所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的至少一个基于从上游装置接收的处理元数据来执行所述媒体内容的自适应处理。
64.根据权利要求47所述的方法,还包括:基于所述媒体数据的所述状态中的一个或多个媒体特征的描述来确定所述一个或多个媒体特征。
65.根据权利要求64所述的方法,其中,所述一个或多个媒体特征包括根据帧、秒、分钟、用户定义的时间间隔、场景、歌曲、音乐片段和录音中的一个或多个所确定的至少一个媒体特征。
66.根据权利要求64所述的方法,所述一个或多个媒体特征包括所述媒体数据的语义描述。
67.根据权利要求64所述的方法,还包括:响应于确定所述一个或多个媒体特征,执行一个或多个特定操作。
68.根据权利要求43所述的方法,还包括:向所述媒体处理链中的所述第二装置提供所述媒体数据的所述状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;
或者(f)媒体处理信令。
69.一种方法,包括:
用媒体处理链中的第一装置计算媒体数据的源帧的一个或多个数据速率降低表示;以及
在所述媒体数据的状态自身内将所述一个或多个数据速率降低表示同时且安全地携带至所述媒体处理链中的第二装置;
其中,所述方法由一个或多个计算装置执行。
70.根据权利要求69所述的方法,其中,所述一个或多个数据速率降低表示被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
71.根据权利要求69所述的方法,其中,所述一个或多个数据速率降低表示包括用于将在所述媒体数据内递送的音频和视频同步的同步数据。
72.根据权利要求69所述的方法,其中,所述一个或多个数据速率降低表示包括(a)由媒体处理单元生成以及(b)被嵌入在所述媒体数据中的媒体指纹,以用于质量监视、媒体评级、媒体追踪或内容搜索中的一个或多个。
73.根据权利要求69所述的方法,其中,所述一个或多个数据速率降低表示中的至少一个包括隐藏在一个或多个安全通信信道中的状态元数据的至少一部分。
74.根据权利要求69所述的方法,还包括:更改所述媒体数据中的多个字节以存储所述一个或多个数据速率降低表示中的一个的至少一部分。
75.根据权利要求69所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括先进电视系统委员会ATSC编解码器、运动图像专家组MPEG编解码器、音频编解码器
3AC-3编解码器以及增强型AC-3编解码器中的一个或多个。
76.根据权利要求69所述的方法,其中,所述媒体处理链包括:
预处理单元,所述预处理单元被配置成接受包括媒体内容的时域样本作为输入并且输出经处理的时域样本;
编码器,所述编码器被配置成基于所述经处理的时域样本来输出所述媒体内容的经压缩的媒体比特流;
信号分析和元数据校正单元,所述信号分析和元数据校正单元被配置成对所述经压缩的媒体比特流中的处理状态元数据进行验证;
转码器,所述转码器被配置成修改所述经压缩的媒体比特流;
解码器,所述解码器被配置成基于所述经压缩的媒体比特流来输出经解码的时域样本;以及
后处理单元,所述后处理单元被配置成执行所述经解码的时域样本中的所述媒体内容的后处理。
77.根据权利要求76所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的一个或多个。
78.根据权利要求76所述的方法,其中,所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的至少一个基于从上游装置接收的处理元数据来执行所述媒体内容的自适应处理。
79.根据权利要求69所述的方法,还包括:向所述第二装置提供所述媒体数据的所述状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
80.一种方法,所述方法包括:
基于由媒体数据的状态表示的通过一个或多个上游媒体处理单元对所述媒体数据进行的响度处理的过去历史,用媒体处理链中的一个或多个计算装置自适应地处理所述媒体数据的输入版本,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个;
在所述媒体处理链的端部将所述媒体数据的输出版本的响度和/或动态范围标准化为一致的响度值和/或动态范围值。
81.根据权利要求80所述的方法,其中,所述一致的响度值包括如下响度值:(1)由用户控制或选择;或者(2)由所述媒体数据的所述输入版本中的状态自适应地发信号。
82.根据权利要求80所述的方法,其中,所述响度值是关于所述媒体数据的对话(语音)部分计算的。
83.根据权利要求80所述的方法,其中,所述响度值是关于所述媒体数据的绝对、相对和/或非选通部分计算的。
84.根据权利要求80所述的方法,其中,所述一致的动态范围值包括以下动态范围值:
(1)由用户控制或选择;或者(2)由所述媒体数据的所述输入版本中的状态自适应地发信号。
85.根据权利要求84所述的方法,其中,所述动态范围值是关于所述媒体数据的对话(语音)部分计算的。
86.根据权利要求84所述的方法,其中,所述动态范围值是关于所述媒体数据的绝对、相对和/或非选通部分计算的。
87.根据权利要求80所述的方法,还包括:
计算一个或多个响度值和/或动态范围增益控制值,以用于将所述媒体数据的所述输出版本标准化为一致的响度值和一致的动态范围;
在所述媒体处理链的所述端部同时将所述一个或多个响度值和/或动态范围增益控制值携带在所述媒体数据的所述输出版本的状态内,其中,所述一个或多个响度值和/或动态范围增益控制值能够由另一装置使用以反向地应用所述一个或多个响度值和/或动态范围增益控制值,来恢复所述媒体数据的所述输入版本中的原始响度值和原始动态范围。
88.根据权利要求87所述的方法,其中,表示所述媒体数据的所述输出版本的所述状态的所述一个或多个响度值和/或动态范围控制值被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
89.根据权利要求80所述的方法,还包括:基于在携带所述媒体数据的一个或多个经编码的比特流内的所述媒体数据和/或所述媒体数据的所述状态,通过所述媒体处理链中的一个或多个计算装置中的至少一个对加密哈希值进行计算和传输。
90.根据权利要求89所述的方法,还包括:
通过接受装置认证所述加密哈希值;
通过所述接受装置将所述媒体数据的所述状态是否有效的确定发信号至一个或多个下游媒体处理单元;以及
响应于确定所述媒体数据的所述状态有效,通过所述接受装置将所述媒体数据的所述状态发信号至所述一个或多个下游媒体处理单元。
91.根据权利要求89所述的方法,其中,表示所述媒体数据和/或所述媒体的所述状态的所述加密哈希值被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
92.根据权利要求80所述的方法,其中,所述媒体数据的所述状态包括以下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;
(f)加密哈希值;或者(f)媒体处理信令。
93.一种方法,所述方法包括:通过媒体处理链中的一个或多个计算装置来执行在一个或多个经编码的比特流内的有关和无关媒体数据位置和/或有关和无关媒体数据位置的状态的插入、提取或编辑中的一个,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
94.根据权利要求93所述的方法,其中,在一个或多个经编码的比特流内的所述有关和无关媒体数据位置和/或所述有关和无关媒体数据位置的状态被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
95.一种方法,所述方法包括:通过媒体处理链中的一个或多个计算装置来执行在一个或多个经编码的比特流内的有关和无关媒体数据和/或有关和无关媒体数据的状态的插入、提取或编辑中的一个或多个,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
96.根据权利要求95所述的方法,其中,在一个或多个经编码的比特流内的所述有关和无关媒体数据和/或所述有关和无关媒体数据的状态被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
97.根据权利要求93所述的方法,还包括:从上游媒体处理装置向下游媒体处理装置提供所述媒体数据的状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;
或者(f)媒体处理信令。
98.一种媒体处理系统,所述媒体处理系统被配置成通过媒体处理链中的一个或多个计算装置基于在一个或多个经编码的比特流内的媒体数据和/或所述媒体数据的状态来计算并携带加密哈希值,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
99.根据权利要求98所述的媒体处理系统,其中,所述媒体数据的所述状态包括以下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
100.一种媒体处理系统,所述媒体处理系统被配置成基于从一个或多个安全通信信道接收的媒体数据的状态来自适应地处理所述媒体数据。
101.根据权利要求100所述的媒体处理系统,其中,所述媒体处理系统包括一个或多个处理节点,并且其中,所述处理节点包括媒体递送系统、媒体分发系统和媒体呈现系统。
102.根据权利要求101所述的媒体处理系统,其中,所述一个或多个安全通信信道包括横跨两个或更多个经压缩/经编码的比特流和脉冲编码调制处理节点的至少一个安全通信信道。
103.根据权利要求101所述的媒体处理系统,其中,所述一个或多个安全通信信道包括横跨两个单独媒体处理装置的至少一个安全通信信道。
104.根据权利要求101所述的媒体处理系统,其中,所述一个或多个安全通信信道包括横跨单个媒体处理装置中的两个媒体处理节点的至少一个安全通信信道。
105.根据权利要求100所述的媒体处理系统,其中,所述媒体处理系统被配置成独立于在媒体处理链中如何命令媒体处理系统而执行自治媒体处理操作,所述媒体处理系统是所述媒体处理链的一部分。
106.根据权利要求100所述的媒体处理系统,其中,所述媒体处理数据的所述状态包括以下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;
(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
107.一种媒体处理系统,所述媒体处理系统被配置成执行在权利要求1至99中所述的方法中的任一种方法。
108.一种包括处理器的装置,所述装置被配置成执行在权利要求1至99中所述的方法中的任一种方法。
109.一种包括软件指令的计算机可读存储介质,所述软件指令在被一个或多个处理器执行时,使得执行在权利要求1至99中所述的方法中的任一种方法。

说明书全文

具有多个媒体处理节点的自适应处理

[0001] 相关申请的交叉引用和优先权声明
[0002] 本申请要求于2010年12月3日提交的美国临时申请No.61/419,747和于2011年11月10日提交的美国临时申请No.61/558,286的优先权,两者的全部内容出于所有目的通过引用并入本文。

技术领域

[0003] 本发明一般地涉及媒体处理系统,具体地涉及基于媒体数据的媒体处理状态来自适应地处理媒体数据。

背景技术

[0004] 媒体处理单元通常以盲方式进行操作,并且不关注在接收媒体数据之前该媒体数据的处理历史。这可以在如下媒体处理框架中工作:在该媒体处理框架中,单一实体针对各种目标媒体呈现装置进行所有的媒体处理和编码,同时目标媒体呈现装置进行经编码的媒体数据的所有解码和呈现。然而,在多个媒体处理单元跨多元化网络分散或以串联(即链)的方式进行安置并且被期望为最优地执行其各自类型的媒体处理的情况下,这种盲处理不能很好地(或根本不能)工作。例如,某一媒体数据可以针对高性能媒体系统进行编码,并且可能必须被转换为适于沿着媒体处理链的移动装置的简化形式。相应地,媒体处理单元可以不必对媒体数据执行已经执行过的处理类型。例如,音量调节单元对输入音频剪辑执行处理,而无论之前是否已经对该输入音频剪辑执行过音量调节。因此,音量调节单元甚至在不必要时执行调节。该不必要的处理还可能在呈现媒体数据中的媒体内容时引起特定特征的劣化和/或去除。
[0005] 在本部分中描述的方法是可以推行的方法,但不一定是之前已经构思或推行的方法。因此,除非另外说明,否则不应当假定在本部分中描述的方法中的任意方法由于被包括在本部分中而仅仅作为现有技术。类似地,除非另有说明,否则在本部分的基础上关于一个或多个方法所确认的问题不应当被假定为已经在任何现有技术中进行确认。附图说明
[0006] 在附图的图中作为示例而不是作为限制来示出本发明,并且在附图中相似的附图标记表示相似的元素,其中:
[0007] 图1示出根据本发明的一些可能实施例的示例性媒体处理链;
[0008] 图2示出根据本发明的一些可能实施例的示例性增强型媒体处理链;
[0009] 图3示出根据本发明的一些可能实施例的示例性编码器/转码器;
[0010] 图4示出根据本发明的一些可能实施例的示例性解码器
[0011] 图5示出根据本发明的一些可能实施例的示例性后处理单元;
[0012] 图6示出根据本发明的一些可能实施例的编码器/转码器的示例性实现;
[0013] 图7示出根据本发明的一些可能实施例的、基于处理状态元数据中的和/或与处理状态元数据相关联的响度元数据的有效性来控制音量调节单元的操作模式的示例性演变解码器;
[0014] 图8示出根据本发明的一些可能实施例的使用数据隐藏来传递媒体处理信息的示例性配置;
[0015] 图9A和图9B示出根据本发明的可能实施例的示例性处理流程;
[0016] 图10示出根据本发明的可能实施例的可以在其上实现如本文中所描述的计算机或计算装置的示例性硬件平台;
[0017] 图11示出根据示例性实施例的媒体框架,使用该媒体框架可以传输与媒体框架中的媒体数据相关联的处理状态元数据;以及
[0018] 图12A至图12L示出根据本发明的一些可能实施例的一些示例性媒体处理节点/装置的框图

具体实施方式

[0019] 在本文中描述与基于媒体数据的媒体处理状态来自适应处理媒体数据有关的示例性可能实施例。在以下的描述中,出于解释的目的,阐明许多具体细节以提供对本发明的彻底理解。然而,将明显的是,本发明可以在不具有这些具体细节的情况下实践。在其他情况下,不再以详尽的细节来描述已知的结构和装置,以避免不必要地包藏、模糊或混淆本发明。
[0020] 在本文中根据以下提纲描述示例性实施例:
[0021] 1.总体概述
[0022] 2.媒体处理链
[0023] 3.媒体处理装置或单元
[0024] 4.媒体数据的示例性自适应处理
[0025] 5.数据隐藏
[0026] 6.示例性处理流程
[0027] 7.实现机构——硬件概述
[0028] 8.列举的示例性实施例
[0029] 9.等同物、扩展、替换及其他
[0030] 1.总体概述
[0031] 此概述呈现本发明的可能实施例的一些方面的基本描述。应当注意,此概述并非可能实施例的各方面的广泛或详尽总结。此外,应当注意,此概述并非意在被理解为对可能实施例的任何特别重要的方面或元素进行识别,也不被理解为刻画可能实施例尤其是本发明在大体上的任何范围。此概述仅以紧缩和简化的格式示出与示例性可能实施例有关的一些概念,并且应当仅被理解为以下示例性可能实施例的更详细描述的概念性前奏。
[0032] 描述用于基于媒体数据的媒体处理状态来自适应处理媒体数据的技术。在一些可能的实施例中,在增强型媒体处理链中的媒体处理单元被自动启用,以恢复并验证媒体处理信令和/或处理状态元数据、基于媒体处理信令和/或处理状态元数据来确定媒体数据的状态、基于媒体数据的状态来调整它们各自的处理。在增强型媒体处理链中的媒体处理单元可以包括但不限于编码器、转码器、解码器、预处理单元、后处理单元、比特流处理工具、先进电视系统委员会(ATSC)编解码器、运动图像专家组(MPEG)编解码器等。媒体处理单元可以为媒体处理系统或媒体处理系统的一部分。
[0033] 如本文中所使用的,术语“处理状态元数据”是指来自媒体数据的单独且不同的数据,而媒体数据(例如,视频感知编码的音频帧或包含媒体内容的脉冲编码调制(PCM)音频样本)是指表示媒体内容并且被用于将媒体内容呈现为音频或视频输出的媒体样本数据。处理状态元数据与媒体数据相关联,并且说明已经对媒体数据执行的为何种类型处理。处理状态元数据与媒体数据的这种关联为时间同步。因而,目前的处理状态元数据表示目前的媒体数据同时包括所指明类型的媒体处理的结果和/或媒体数据中媒体特征的描述。
在一些可能的实施例中,处理状态元数据也可以包括处理历史,以及/或者在所表明类型的媒体处理中使用的和/或从所表明类型的媒体处理得到的参数中的一些或全部。另外地和/或可选地,处理状态元数据可以包括从媒体数据所计算/提取的一种或更多种类型的媒体特征。本文中所描述的媒体特征提供媒体数据的语义描述,并且可以包括结构性质、具有和声和旋律的音调、音色、节奏、参考响度、立体声混音、或媒体数据的声源的量、声音的存在或不存在、重复特性、旋律、和声、歌词、音色、感知特征、数字媒体特征、立体声参数、声音识别(例如,说话者正在说什么)等中的一个或多个。处理状态元数据还可以包括与媒体数据的任何处理无关或从媒体数据的任何处理得到的其他元数据。例如,可以通过特定媒体处理单元添加第三方数据、追踪信息、标识符、专有或标准信息、用户注释数据、用户参考数据等以将其传递至其他媒体处理单元。这些独立类型的元数据可以由媒体处理链中的媒体处理部件进行来回分发、验证和使用。术语“媒体处理信令”是指媒体比特流中在媒体处理单元之间进行通信的相对轻量级的控制或状况数据(其可以为相对于处理状态元数据的数据量的小数据量)。媒体处理信令可以包括处理状态元数据的子集或总结。
[0034] 媒体处理信令和/或处理状态元数据可以被嵌入在一个或多个保留字段中(例如,其可以是但不限于当前未使用的)、被携带在媒体比特流的子流中、被隐藏在媒体数据中或者用单独的媒体处理数据库提供。在一些可能的实施例中,媒体处理信令和/或处理状态元数据的数据量可以足够小以被携带(例如,在保留字段中、或使用可逆数据隐藏技术被隐藏在媒体样本中、或将详细的处理状态信息存储在外部数据库中同时根据媒体数据计算媒体指纹或从媒体数据中检索媒体指纹等)而不会影响被分配为携带媒体数据的比特率。当贯穿媒体处理链(或内容生命周期)需要两个或更多个媒体处理单元彼此串联以进行工作时,在增强型媒体处理链中对媒体处理信令和/或处理状态元数据进行通信特别有用。例如,当在链中使用两个或更多个音频编解码器并且在媒体内容的行程期间不止一次将单端音量调节施加于媒体消费装置(或媒体数据中的媒体内容的呈现点)时,若没有媒体处理信令和/或处理状态元数据,则可能会发生严重的媒体处理问题,如质量平以及空间劣化。
[0035] 与此相反,本文中的技术提高增强型媒体处理链(内容生命周期)中的媒体处理单元中的任一个或全部的智能。在本文的技术下,这些媒体处理单元中的任意单元不仅可以“收听并调整”而且可以将媒体数据的状态“通知”至下游媒体处理单元。因而,在本文的技术下,下游媒体处理单元基于获知通过一个或多个上游媒体处理单元对媒体数据执行的之前处理来优化其对该媒体数据的处理。在本文的技术下,通过作为整体的媒体处理链对媒体数据进行媒体处理变得比其他方式更有效、更具自适应性且更可预见。因此,显著提高了媒体数据中的媒体内容的总体呈现和处理。
[0036] 重要地,在本文的技术下,通过媒体处理信令和/或处理状态元数据所表示的媒体数据的状态的存在不会负面影响传统媒体处理单元,该传统媒体处理单元可以存在于增强型媒体处理链中并且它们自身可以不主动使用媒体数据的状态来自适应地处理媒体数据。此外,即使媒体处理链中的传统媒体处理单元可以具有篡改其他上游媒体处理装置的处理结果的倾向,本文中所描述的处理状态元数据也可以通过利用加密值、密码、认证和数据隐藏的安全通信方法被安全且可靠地传递至下游媒体处理装置。数据隐藏的示例包括可逆数据隐藏和不可逆数据隐藏两者。
[0037] 在一些可能的实施例中,为了将媒体数据的状态运送至下游媒体处理单元,本文中的技术以软件、硬件或软件和硬件两者的形式将一个或多个处理子单元包和/或嵌入到媒体处理单元中,以使媒体处理单元能够读、写、和/或验证用媒体数据递送的处理状态元数据。
[0038] 在一些可能的实施例中,媒体处理单元(例如,编码器、解码器、校平器等)可以接收之前已经对其执行过一种或更多种类型的媒体处理的媒体数据:1)不存在处理状态元数据来表示这些类型的之前执行的媒体处理;和/或2)处理状态元数据不正确或不完整。之前执行的这些类型的媒体处理包括可以更改媒体样本的操作(例如,音量调节),以及可以不更改媒体样本的操作(例如,基于媒体样本的指纹提取和/或特征提取)。媒体处理单元可以被配置成自动地创建反映媒体数据的“真实”状态的“正确”处理状态元数据,并且通过将所创建的处理状态元数据传送至一个或多个下游媒体处理单元来将媒体数据的该状态与媒体数据相关联。另外,媒体数据与处理状态元数据的关联可以以导致媒体比特流与传统媒体处理单元(如传统解码器)向后兼容的方式进行。因此,不实现本文中的技术的传统解码器仍然能够如传统解码器被预期设计的一样正确地对媒体数据进行解码,而忽略表示媒体数据的状态的相关联处理状态元数据。在一些可能的实施例中,本文中的媒体处理单元可以被并存地配置有经由一个或多个嵌入哈希值(例如,签名)的取证分析和/或验证来验证(源)媒体数据的处理状态元数据的能
[0039] 在本文所描述的技术下,可以在媒体处理链中的不同点处执行基于由所接收的处理状态元数据表示的媒体数据的当时状态对媒体数据进行的自适应处理。例如,如果处理状态元数据中的响度元数据有效,那么可以通过解码器将媒体处理信令和/或处理状态元数据通知给解码器之后的音量调节单元,使得音量调节单元可以传递媒体数据如未改变的音频。
[0040] 在一些实施例中,处理状态元数据包括从基础媒体样本提取的媒体特征。媒体特征可以提供媒体样本的语义描述,并且可以被设置为处理状态元数据的一部分以表示例如:媒体样本是否包括语音、音乐;某人正在安静条件还是嘈杂条件下唱歌;歌唱是否覆于说话的人群之上;是否正发生对话;语音是否覆于嘈杂的背景之上;两个或更多个前述状况的组合等。可以基于包含在处理状态元数据中的媒体特征的描述而在媒体处理链中的不同点处执行媒体数据的自适应处理。
[0041] 在本文所描述的技术下,可以认证并验证嵌入在具有媒体数据的媒体比特流中的处理状态元数据。例如,本文的技术可以对响度调整实体有用,以检验特定程序的响度已经在指定范围内并且检验媒体数据自身尚未被修改(从而确保符合规定)。代替再次计算响度值,可以读出包括在具有处理状态元数据的数据中的响度值以检验这一点。
[0042] 在本文所描述的技术下,具有处理状态元数据的数据块可以包括用于安全地携带第三方元数据的另外的保留字节。该特征可以用于使能各种应用。例如,出于计算评级、收视率或收听率统计的目的,评级机构(例如,尼尔森媒体研究)可以选择包括内容识别标签,然后该内容识别标签可以被用于识别正被观看或收听的特定节目。
[0043] 显著地,本文中所描述的技术以及本文中所描述的技术的变型可以确保贯穿从内容创建到内容消费的媒体处理链均能保留与媒体数据相关联的处理状态元数据。
[0044] 在一些可能的实施例中,如本文中所描述的机构形成媒体处理系统的一部分,包括但不限于手持装置、游戏机、电视、便携式计算机、上网计算机、蜂窝无线电话、电子书阅读器、销售点终端、台式计算机、计算机工作站、计算机服务台(kiosk)以及各种其他种类的终端和媒体处理单元。
[0045] 优选实施例的各种修改以及本文中描述的一般原理和特征对于本领域中的普通技术人员将容易是显然易见的。因此,本公开内容并非意在受限于示出的实施例,而是符合与本文中所描述的原理和特征相一致的最宽范围。
[0046] 2.媒体处理链
[0047] 图1示出根据本发明的一些可能实施例的示例性媒体处理链。媒体处理链可以包括但不限于编码器、解码器、预/后处理器、转码器以及信号分析和元数据校正单元。媒体处理链中的这些单元可以被包括在同一系统或不同系统中。在媒体处理链跨越多个不同系统的实施例中,这些系统可以位于同一地点或在地理上分布。
[0048] 在一些可能的实施例中,图1的预处理单元可以接受包括媒体内容的PCM(时域)样本作为输入,并且输出经处理的PCM样本。编码器可以接受PCM样本作为输入,并且输出媒体内容的经编码(例如,经压缩)的媒体比特流。
[0049] 如本文中所使用的,包括媒体内容的数据(例如,被携带在比特流的主流中)被称为媒体数据,而来自媒体数据的表示在媒体处理链中的任意给定点处对媒体数据所执行的处理类型的单独数据被称为处理状态元数据。
[0050] 信号分析和元数据校正单元可以接受一个或多个经编码的媒体比特流作为输入,并且通过执行信号分析来校证在经编码的媒体比特流中所包括的处理状态元数据是否正确。如果信号分析和元数据校正单元发现所包括的元数据无效,那么信号分析和元数据校正单元用从信号分析获得的正确值替换不正确的值。
[0051] 转码器可以接受媒体比特流作为输入,并且输出经修改的媒体比特流。解码器可以接受经压缩的媒体比特流作为输入,并且输出一连串经解码的PCM样本。后处理单元可以接受一连串经解码的PCM样本,执行任意的后处理如在经解码的PCM样本中的媒体内容的音量调节,并且将经解码的PCM样本中的媒体内容呈现到一个或多个扬声器和/或显示板上。所有的媒体处理单元可以不能够使用处理状态元数据来调整它们的要施加至媒体数据的处理。
[0052] 如本文所提供的技术提供如下增强型媒体处理链:在该增强型媒体处理链中,媒体处理单元(如编码器、解码器、转码器、预处理单元和后处理单元等)根据媒体数据的同时期状态(正如分别由这些媒体处理单元所接收的媒体处理信令和/或处理状态元数据所表示的)来调整它们各自的要施加到媒体数据上的处理。
[0053] 图2示出根据本发明的一些可能实施例的包括编码器、解码器、预/后处理器、转码器以及信号分析和元数据校正单元的示例性增强型媒体处理链。为了基于媒体数据的状态来调整对媒体数据的处理,可以修改图2的单元中的一些或全部单元。在一些可能的实施例中,在示例性增强型媒体处理链中的媒体处理单元中的每个媒体处理单元被配置成协作工作以执行非冗余的媒体处理并且避免已经由上游单元执行过的处理的不必要且错误的重复。在一些可能的实施例中,在从内容创建到内容消费的增强型媒体处理链的任意点处的媒体数据的状态由在增强型媒体处理链的该点处的当前媒体处理单元理解。
[0054] 3.媒体处理装置或单元
[0055] 图3示出根据本发明的一些可能实施例的示例性(修改的)编码器/转码器。不同于图1的编码器,图3的编码器/转码器可以被配置成接收与输入媒体数据相关联的处理状态元数据,并且确定由相对于编码器/转码器的一个或多个上游单元对修改的编码器/转码器逻辑地从上游单元(例如,已经对输入音频执行其处理的最后上游单元)所接收的输入媒体数据(例如,输入音频)执行的之前(预/后)处理。
[0056] 如本文中所使用的,术语“逻辑地接收”可以意味着在将输入媒体数据从上游单元(例如,最后的上游单元)传送至接受单元的过程中可以包括或可以不包括中间单元,如在本示例中的编码器/转码器单元。
[0057] 在示例中,对输入媒体数据执行预/后处理的上游单元可以处于与其中接受单元作为一部分的系统相比为不同的系统中。输入媒体数据可以是由上游单位输出且通过中间传输单元(如网络连接、USB(通用串行总线)、广域网连接、无线连接、光学连接等)进行通信的媒体比特流。
[0058] 在另一示例中,对输入媒体数据执行预/后处理的上游单元可以处于其中接受单元作为一部分的同一系统中。输入媒体数据可以由上游单元输出,并且经由系统的一个或多个内部单元通过内部连接进行通信。例如,数据可以通过内部总线、纵横连接、串行连接等进行物理递送。无论如何,在本文的技术下,接受单元可以从上游单元逻辑地接收输入媒体数据。
[0059] 在一些可能的实施例中,编码器/转码器被配置成创建或修改与媒体数据相关联的处理状态元数据,其可以是输入媒体数据的修订。由编码器/转码器所创建或修改的新的或修改的处理状态元数据可以自动且准确地捕获要由编码器/转码器进一步沿着媒体处理链输出的媒体数据的状态。例如,处理状态元数据可以包括是否对媒体数据执行某一处理(例如,来自杜比实验室的可商用的杜比音量、上混)。另外地和/或任选地,处理状态元数据可以包括在某一处理或处理的任意组成操作中所使用的参数,和/或根据某一处理或处理的任意组成操作所得到的参数。另外地和/或任选地,处理状态元数据可以包括从媒体数据计算/提取的一个或多个指纹。另外地和/或任选地,处理状态元数据可以包括从媒体数据计算/提取的一种或多种不同类型的媒体特征。本文中所描述的媒体特征提供媒体数据的语义描述,并且可以包括结构性质、具有和声和旋律的音调、音色、节奏、参考响度、立体声混音、或所述媒体数据的声源的量、声音的存在或不存在、重复特性、旋律、和声、歌词、音色、感知特征、数字媒体特征、立体声参数、声音识别(例如,说话者正在说什么)等中的一个或多个。在一些实施例中,所提取的媒体特征被用于将基础媒体数据分类为多个媒体数据类中的一个或多个。一个或多个媒体数据类可以包括但不限于针对整片媒体的单一总体/主导“类”(例如,类类型)或表示较小的时间周期(如单一媒体帧、单一媒体数据块、多个媒体帧、多个媒体数据块、几分之一秒、秒或多秒等)的单一类(例如,针对整片的子集/子间隔的类子类型)中的任意类。例如,针对比特流可以每32毫秒计算一次类标签并将其插入到比特流中和/或将其隐藏(经由可逆或不可逆数据隐藏技术)。类标签可以用于表示一个或多个类类型和/或一个或多个类子类型。在媒体数据帧中,类标签可以被插入到领先或可替代地跟随与类标签相关联的媒体数据块的元数据结构中,如图11中所示。媒体类可以包括但不限于单一类类型(如音乐、语音、噪音、沉默、掌声)中的任一种。如本文中所描述的媒体处理装置还可以被配置成对包括媒体类类型的混合物(如,覆于音乐之上的语音等)的媒体数据进行分类。另外地、可替代地以及任选地,如本文中所描述的媒体处理装置可以被配置成携带针对由所计算的媒体类标签表示的媒体类类型或子类型的独立“可能性”或概率值。一个或多个这样的可能性或概率值可以用在同一元数据结构中的媒体数据标签进行传输。可能性或概率值表示相对于由所计算的媒体类标签来表示媒体类类型或子类型的媒体段/块,所计算的媒体类标签具有的“置信”水平。一个或多个可能性或概率值与相关联的媒体类标签的结合可以由接受媒体处理装置利用,来以改进贯穿整个媒体处理链的多种操作(例如,上混、编码、解码、转码、机虚拟化等)中的任意操作的方式调整媒体处理。处理状态元数据可以包括但不限于媒体类类型或子类型、可能性或概率值中的任一种。另外地、可替代地以及任选地,代替在媒体(音频)数据块之间所插入的元数据结构中传递媒体类类型/子类型和可能性/概率值,媒体类类型/子类型和可能性/概率值中的一些或全部可以作为隐藏元数据被嵌入在媒体数据(或样本)中并被传递到接受媒体处理节点/装置。在一些实施例中,包括在处理装态元数据中的媒体数据的内容分析的结果可以包括关于是在否在媒体数据的任意时间段中说出某些用户定义或系统定义的关键字的一个或多个指示。一个或多个应用可以使用这样的指示以触发有关操作的执行(例如,呈现关于关键字的产品或服务的上下文广告)。
[0060] 在一些实施例中,在用第一处理器处理媒体数据时,本文中所描述的装置可以并行地运行第二处理器以对媒体数据的媒体特征进行分类/提取。媒体特征可以从持续一段时间(一帧、多个帧、一秒、多秒、一分钟、多分钟、用户定义的时间段等)的段,或者可替代地针对场景(基于可检测的信号特性改变)进行提取。由处理状态元数据描述的媒体特征可以贯穿整个媒体处理链使用。下游装置可以基于媒体特征中的一个或多个来调整其自己对媒体数据的媒体处理。可替代地,下游装置可以选择忽略在媒体状态元数据中描述的媒体特征中的任意或全部媒体特征的存在。
[0061] 在媒体处理链中的装置上的应用可以以各种方式中的一种或多种方式利用媒体特征。例如,这样的应用可以使用媒体特征来索引基础媒体数据。对于可能想转到其中评判员正在谈论性能的部分的用户,应用可以跳过其他的之前部分。在处理状态元数据中所描述的媒体特征向下游装置提供媒体数据的上下文信息作为媒体数据的内在部分。
[0062] 在媒体处理链中的不止一个装置可以执行分析以从媒体数据的内容提取媒体特征。这允许下游装置不必分析媒体数据的内容。
[0063] 在一些可能的实施例中,所生成或修改的处理状态元数据可以作为媒体比特流(例如,具有关于音频状态的元数据的音频比特流)的一部分进行传输,并且传输速率的量在3kbps至10kbps量级。在一些实施例中,处理状态元数据可以基于数据隐藏在媒体数据(例如,PCM媒体样本)内部进行传输。可以可逆地或不可逆地更改媒体数据的各种数据隐藏技术可以用于在媒体样本中隐藏处理状态元数据(包括但不仅限于认证相关的数据)的一部分或全部。数据隐藏可以用可感知或不可感知的安全通信信道实现。数据隐藏通过更改/操控/调制在基础媒体样本中的信号的信号特性(频域或时域中的相位和/或幅值)而完成。数据隐藏可以基于频移键控(FSK)、扩频或其他可用的方法来实现。
[0064] 在一些可能的实施例中,预/后处理单元可以以与编码器/转码器协作的方式执行媒体数据的处理。由协作的预/后处理单元执行的处理还可以在被传送(例如,经由音频比特流)至下游媒体处理单元的处理状态元数据中指定。
[0065] 在一些可能的实施例中,一旦得到一条处理状态元数据(其可以包括媒体指纹和在一种或多种类型的媒体处理中使用的或从一种或多种类型的媒体处理得到的任意参数),该处理状态元数据可以由媒体处理链中的媒体处理单元保存,并且被传送至所有的下游单元。因而,在一些可能的实施例中,一条处理状态元数据可以在媒体处理链(整个生命周期)中由第一媒体处理单元创建,并且作为媒体比特流/子流内的嵌入数据或作为能够从外部数据源或媒体处理数据库得到的数据被传递至最后的媒体处理单元。
[0066] 图4示出根据本发明的一些可能实施例的示例性解码器(例如,实现本文中的技术的演变解码器)。在本发明的可能实施例中的解码器可以被配置成:(1)解析并验证与进来的媒体数据相关联的处理状态元数据(例如,处理历史、媒体特征的描述等)和已经进入的其他元数据(例如,独立于媒体数据的任何处理,如第三方数据、追踪信息、标识符、专有或标准信息、用户注释数据、用户偏好数据等);以及(2)基于所验证的处理状态元数据来确定媒体数据的媒体处理状态。例如,通过解析并验证在携带输入媒体数据和处理状态元数据的媒体比特流(例如,具有关于音频状态的元数据的音频比特流)中的处理状态元数据,解码器可以确定响度元数据(或媒体特征元数据)是有效且可靠的,并且该响度数据是由实现本文中所描述的技术的增强型内容提供者子单元中的一个(例如,来自杜比实验室的可商用的杜比媒体生成器(DMG))创建。在一些可能的实施例中,响应于确定所接收的处理状态元数据是有效且可靠的,然后解码器可以被配置成至少部分地基于所接收的处理状态元数据、使用可逆或不可逆数据隐藏技术来生成关于媒体数据的状态的媒体处理信令。解码器可以被配置成向媒体处理链中下游媒体处理单元(例如,后处理单元)提供媒体处理信令。该类型的信令可以在例如当解码器与下游媒体处理单元之间不存在专用的(和同步)元数据路径时使用。此情况可以在如下的一些可能实施例中出现:其中解码器和下游媒体处理单元作为单独实体存在于消费电子装置(例如,PC、移动电话、机顶盒、音频和视频录像机等)中,或者存在于其中解码器与后继处理单元之间的同步控制或数据路径不可用的不同子系统或不同系统中。在一些可能的实施例中,本文中的数据隐藏技术下的媒体处理信令可以作为媒体比特流的一部分进行传输,并且传输速率的量为16bps量级。可以可逆地或不可逆地更改媒体数据的各种数据隐藏技术可以用于在媒体样本中隐藏处理状态元数据的一部分或全部,包括但不限于可感知或不可感知的安全通信信道、基础媒体样本中的一个或多个信号的窄带或扩频信号特性(频域或时域中的相位和/或幅值)的替换/操控/调制或其它可用的方法中的任意方法。
[0067] 在一些可能的实施例中,编码器可以不试图传递所有的所接收的处理状态元数据;相反地,编码器可以仅嵌入足够的信息(例如,在数据隐藏容量的限制内)以基于媒体数据的状态来改变下游媒体处理单元的操作模式。
[0068] 在一些可能的实施例中,媒体数据中的音频或视频信号的冗余可以被开发为携带媒体数据的状态。在一些可能的实施例中,在不引起任意可听或可视伪像(artifact)的情况下,媒体处理信令和/或处理状态元数据中的一些或全部可以被隐藏在媒体数据的多个字节的最低有效位(LSB)中或被隐藏在携带在媒体数据内的安全通信信道中。可以基于一个或多个因素或准则(包括在通过传统媒体处理单元呈现具有隐藏数据的媒体样本时LSB是否可能引起可感知或可视的伪像)来选择多个字节。可以可逆地或不可逆地更改媒体数据的其他数据隐藏技术(例如,可感知或不可感知的安全通信信道、基于FSK的数据隐藏技术等)可以用于在媒体样本中隐藏处理状态元数据的一部分或全部。
[0069] 在一些可能的实施例中,数据隐藏技术可以是可选的,并且例如如果下游媒体处理单元被实现为解码器的一部分,则可以不需要数据隐藏技术。例如,两个或更多个媒体处理单元可以共享允许元数据作为带外信号从一个媒体处理单元传递到另一媒体处理单元而不用在媒体样本中隐藏数据的总线和其他通信机构。
[0070] 图5示出根据本发明的一些可能实施例的示例性后处理单元(例如,杜比演变后处理单元)。后处理单元可以被配置成首先提取隐藏在媒体数据(例如,具有嵌入信息的PCM音频样本)中的媒体处理信令,以确定由媒体处理信令所表示的媒体数据的状态。这可以例如用附属处理单元(例如,在其中媒体数据包括音频的可能实施例中的信息提取和音频恢复子单元)实现。在利用可逆数据隐藏技术隐藏媒体处理信令的实施例中,可以撤销由数据隐藏技术(例如,解码器)对媒体数据执行的用以嵌入媒体处理信令的之前修改。在利用不可逆数据隐藏技术隐藏媒体处理信令的实施例中,不可以完全撤销由数据隐藏技术(例如,解码器)对媒体数据执行的用以嵌入媒体处理信令的之前修改,但却可以最小化对媒体呈现的质量的反作用(例如,最小的音频或视觉伪像)。随后,基于由媒体处理信令所表示的媒体数据的状态,后处理单元可以被配置成调整其要施加到媒体数据上的处理。在一个示例中,响应于确定(根据媒体处理信令)响度元数据有效并且由上游单元执行音量处理,可以关掉音量处理。在另一示例中,上下文广告或消息可以由声音识别关键字表示或触发。
[0071] 在一些可能的实施例中,本文中所描述的媒体处理系统中的信号分析和元数据校正单元可以被配置成接受经编码的媒体比特流作为输入,并且通过执行信号分析来验证媒体比特流中的嵌入元数据是否正确。在媒体比特流内验证嵌入元数据是否有效之后,在需要的基础上施加校正。在一些可能的实施例中,信号分析和元数据校正单元可以被配置成以时域和/或一个或多个频域对编码在输入媒体比特流中的媒体数据或样本执行分析,以确定媒体数据的媒体特征。在确定媒体特征之后,可以生成相应的处理状态元数据(例如,一个或多个媒体特征的描述),并且将其提供至相对于信号分析和元数据校正单元的下游装置。在一些可能的实施例中,信号分析和元数据校正单元可以与一个或多个其他媒体处理单元一起被集成到一个或多个媒体处理系统中。另外地和/或任选地,信号分析和元数据校正单元可以被配置成在媒体数据中隐藏媒体处理信令,并且将媒体数据中的嵌入元数据是有效的并且已经被成功检验发信号至下游单元(编码器/转码器/解码器)。在一些可能的实施例中,可以生成与媒体数据相关联的信令数据和/或处理状态元数据并且将其插入到携带媒体数据的经压缩的媒体比特流中。
[0072] 因此,如本文中所描述的技术确保在增强型媒体处理链中的不同处理块或媒体处理单元(例如,编码器、转码器、解码器、预/后处理单元等)能够确定媒体数据的状态。因此,媒体处理单元中的每一个可以根据由上游单元所表示的媒体数据的状态来调整其处理。此外,一个或多个可逆或不可逆数据隐藏技术可以用于确保关于媒体数据的状态的信号信息可以以有效方式被提供至下游媒体处理单元,该有效方式具有将信号信息传输至下游媒体处理单元的最小量必需比特率。这对于以下情况特别有用:在上游单元(如解码器)与下游单元(如后处理单元)之间不存在元数据路径的情况,例如,后处理单元不是解码器的一部分的情况。
[0073] 在一些可能的实施例中,编码器可以被增强有或可以包括预处理和元数据验证子单元。在一些可能的实施例中,预处理和元数据验证子单元可以被配置成确保编码器基于由媒体处理信令和/或处理状态元数据表示的媒体数据的状态来执行媒体数据的自适应处理。在一些可能的实施例中,通过预处理和元数据验证子单元,编码器可以被配置成验证与媒体数据相关联(例如,包括在媒体比特流中)的处理状态元数据。例如,如果元数据被验证为可靠,则可以再使用来自所执行的媒体处理类型的结果,并且可以避免该类型的媒体处理的新的执行。另一方面,如果发现元数据被篡改,则可以由编码器重复据称是之前执行过的媒体处理类型。在一些可能的实施例中,一旦发现处理状态元数据(包括所获取的媒体处理信令和基于指纹的元数据)不可靠,可以由编码器对元数据执行另外类型的媒体处理。
[0074] 如果处理状态元数据被确定为有效(例如,基于所提取的密码值和参考密码值的匹配),则编码器还可以被配置成将处理状态元数据(例如,存在于媒体比特流中)有效发信号至在增强型媒体处理链下游的其他媒体处理单元。各种途径中的任一种、一些或全部可以由编码器实现。
[0075] 在第一途径下,编码器可以在经编码的媒体比特流中插入标志(例如,“演变标志”)以表示已经对该经编码的媒体比特流执行处理状态元数据的验证。可以以如下方式插入标志:该方式为标志的存在并不影响未被配置成处理并利用如本文中所描述的处理状态元数据的“传统”媒体处理单元如解码器。在一个示例性实施例中,音频压缩3(AC-3)编码器可以被增强有预处理和元数据验证子单元,以在AC-3媒体比特流的xbsi2字段(如在ATSC标准(如ATSC A/52b)中指定的)中设置“演变标志”。该“位”可以存在于携带在AC-3媒体比特流中的每个编码帧中,并且可以被再使用。在一些可能的实施例中,该标志在xbsi2字段中的存在不影响未被配置成处理并利用如本文中所描述的处理状态元数据的已部署的“传统”解码器。
[0076] 在第一途径下,认证xbsi2字段中的信息可能存在问题。例如,(例如,恶意的)上游单元可能能够在不实际验证处理状态元数据的情况下“打开”xbsi2字段,并且可以错误地将处理状态元数据有效发信号至其他下游单元。
[0077] 为了解决该问题,本发明的一些实施例可以使用第二途径。安全数据隐藏方法(包括但不限于在媒体数据自身内创建安全通信信道的许多数据隐藏方法中的任意方法,如基于扩频的方法、基于FSK的方法以及其他基于安全通信信道的方法等)可以用于嵌入“演变标志”。该安全方法被配置成防止“演变标志”被以明文的方式进行传递并且因而容易由单元或入侵者有意或无意地攻击。或者,在该第二途径下,下游单元可以以加密形式获取隐藏数据。通过解密并认证子过程,下游单元可以检验隐藏数据的正确性,并且信任隐藏数据中的“演变标志”。因此,下游单元可以确定媒体比特流中的处理状态元数据之前已经被成功验证。在各种实施例中,处理状态元数据的任意部分(如“演变标志”)可以以一种或多种加密方法中的任意方法(基于HMAC、或基于非HMAC)由上游装置递送至下游装置。
[0078] 在一些可能的实施例中,媒体数据最初可以仅为传统媒体比特流,例如包括PCM样本。然而,一旦媒体数据由本文中所描述的一个或多个媒体处理单元处理,那么由一个或多个媒体处理单元生成的处理状态元数据包括媒体数据的状态以及可以用于对该媒体数据进行解码的相当详细的信息(包括但不限于根据媒体数据所确定一个或多个媒体特征中的任意特征)。在一些可能的实施例中,所生成的处理状态元数据可以包括媒体指纹,如视频指纹、响度元数据、动态范围元数据、一个或多个基于哈希的消息认证码(HMAC)、一个或多个对话信道、音频指纹、枚举的处理历史、音频响度、对话响度、真正的峰值、样本峰值、和/或任何用户(第三方)指定的元数据。处理状态元数据可以包括“演变的数据块”。
[0079] 如本文所使用的,术语“增强”是指在本文中所描述的技术下的媒体处理单元以如下方式与在本文中所描述的技术下的其他媒体处理单元或其他媒体处理系统一起工作的能力:该方式可以基于由上游单元所设置的媒体数据的状态来执行自适应处理。术语“演变”是指在本文中所描述的技术下的媒体处理单元以兼容方式与传统媒体处理单元或传统媒体处理系统一起工作的能力,以及在本文中所描述的技术下的媒体处理单元以如下方式与在本文中所描述的技术下的其他媒体处理单元或其他媒体处理系统一起工作的能力:该方式可以基于由上游单元所设置的媒体数据的状态来执行自适应处理。
[0080] 在一些可能的实施例中,本文中所描述的媒体处理单元可以接收已经对其执行一种或多种类型的媒体处理的媒体数据,但是与媒体数据相关联的以表示一种或多种类型的媒体处理的元数据可能不存在或不充足。在一些可能的实施例中,这样的媒体处理单元可以被配置成创建表示已经由相对于媒体处理单元的其他上游单元执行过一种或多种类型的媒体处理的处理状态元数据。还可以执行尚未由上游装置进行的特征提取,并且将其携带在转向下游装置的处理状态元数据中。在一些可能的实施例中,媒体处理单元(例如,演变编码器/转码器)可以包括媒体取证分析子单元。媒体取证子单元(如音频取证子单元)可以被配置成确定(不具有任何接收的元数据)是否已经对一条媒体内容或对媒体数据执行某一类型的媒体处理。分析子单元可以被配置成查找由某一类型的媒体处理所引入或留下的特定信号处理伪像/痕迹。媒体取证子单元还可以被配置成确定是否已经对一条媒体内容或对媒体数据执行某一类型的特征提取。分析子单元可以被配置成查找基于特征的元数据的具体存在。出于本发明的目的,如本文中所描述的媒体取证分析子单元可以由媒体处理链中的任意媒体处理单元实现。此外,由媒体处理单元经由媒体取证分析子单元所创建的处理状态元数据可以被递送至本文中的媒体处理链的下游单元。
[0081] 在一些可能的实施例中,如本文中所描述的处理状态元数据可以包括用于支持第三方应用的另外的保留字节。另外的保留字节可以通过分配单独的加密密钥以对要携带在保留字节的一个或多个字段中的任意明文进行加扰而被确保为安全。本发明的实施例支持包括内容识别和追踪的新颖应用。在一个示例中,具有尼尔森(Nielsen)收视率的媒体可以携带用于(媒体)媒体比特流中的节目的唯一标识符。然后,尼尔森收视率可以利用该唯一标识符来针对节目计算收视率或收听率的统计。在另一示例中,本文中的保留字节可以携带用于搜索引擎如谷歌的关键字。然后,谷歌可以基于包括在携带关键字的保留字节的一个或多个字段中的关键字来关联广告。出于本发明的目的,在如本文所讨论的应用中,本文中的技术可以被用于确保保留字节是安全的,并且不会被除被设计为使用保留字节中的一个或多个字段的第三方以外的任何人进行解密。
[0082] 如本文中所描述的处理状态元数据可以以许多不同方式中的任意方式与媒体数据相关联。在一些可能的实施例中,处理状态元数据可以被插入到携带媒体数据的输出的压缩媒体比特流中。在一些实施例中,以与未被配置为基于本文中的处理状态元数据来执行自适应处理的传统解码器保持向后兼容的方式插入元数据。
[0083] 4.媒体数据的示例性自适应处理
[0084] 图6示出根据本发明的一些可能实施例的编码器/转码器的示例性实现。所描绘的部件中的任意部件可以以硬件、软件、或硬件和软件组合的形式被实现为一个或多个处理和/或一个或多个IC电路(包括专用集成电路(ASIC)、现场可编程阵列(FPGA)等)。编码器/转码器可以包括许多传统子单元,如前端解码(FED)、不基于是否已经进行动态范围控制/对话规范(DRC/Dialnorm)处理来选择执行这样的处理的后端解码(全模式)、DRC生成器(DRCGen)、后端编码(BEE)、填充器、CRC(循环冗余校验码)再生单元等。使用这些传统子单元,编码器/转码器能够将比特流(其例如可以是但并不限于AC-3)转换为包括一种或多种类型的媒体处理(其例如可以是但并不限于具有自适应和自动响度处理的E AC-3)的结果的另一比特流。然而,无论之前是否已经执行响度处理和/或输入比特流中的媒体数据是否包括这种之前的响度处理的结果和/或处理状态元数据是否是存在于输入比特流中,均可以执行媒体处理(例如,响度处理)。因而,具有传统子单元的编码器/转码器可能独自执行错误或不必要的媒体处理。
[0085] 在本文所描述的技术下,在一些可能的实施例中,如图6所示,编码器/转码器可以包括多个新子单元中的任意子单元,如媒体数据解析器/验证器(其例如可以是但不限于AC-3标志解析器和验证器)、附属媒体处理(例如,自适应变换域实时响度和动态范围控制器、信号分析、特征提取等)、媒体指纹生成(例如,音频指纹生成)、元数据生成器(例如,演变数据生成器和/或其他元数据生成器)、媒体处理信令插入(例如,“add_bsi”插入或辅助数据字段的插入)、HMAC生成器(其可以数字签名一个或多个直至所有帧,以防止由恶意或传统实体进行篡改)、其他类型的加密处理单元中的一个或多个、基于处理状态信令和/或处理状态元数据(例如,从标志解析器和验证器接收的响度标志“状态”、或用于媒体特征的标志)进行操作的一个或多个交换机等。另外,用户输入(例如,用户的目标响度/对话规范)和/或其他输入(例如,来自视频指纹处理)和/或其他元数据输入(例如,一种或多种类型的第三方数据、追踪信息、标识符、专有或标准信息、用户注释数据、用户偏好数据等)可以由编码器/转码器接收。如图所示,所测量的对话、选通和非选通响度与动态范围值也可以被插入到演变数据生成器中。其他媒体特征相关信息也可以被加进如本文所描述的处理单元中以生成一部分处理状态元数据。
[0086] 在一些可能的实施例中的一个或多个中,如本文所描述的处理状态元数据被携带在根据ATSC A/52b在增强型AC-3(E AC-3)语法中指定的“add_bsi”字段中,或被携带在如本文所描述的媒体比特流的一个或多个辅助数据字段中。在一些可能的实施例中,在这些字段中携带处理状态元数据不对经压缩的媒体比特流帧大小和/或比特率产生负面影响。
[0087] 在一些可能的实施例中,处理状态元数据可以被包括在与主节目媒体比特流相关联的独立或从属子流中。这种途径的优点在于不影响对媒体数据(由主节目媒体比特流携带)进行编码所分配的比特率。如果处理状态元数据被携带为经编码的帧的一部分,那么可以减少对音频信息进行编码所分配的比特,使得可以不改变经压缩的媒体比特流帧大小和/或比特率。例如,处理状态元数据可以包括降低的数据速率表示,并占用10kbps量级的低数据速率以在媒体处理单元之间进行传输。因此,媒体数据如音频样本可以以较低的10kbps的速率进行编码,以适应处理状态元数据。
[0088] 在一些可能的实施例中,可以经由可逆或不可逆的数据隐藏技术将处理状态元数据的至少一部分嵌入媒体数据(或样品)。该途径的优点在于媒体样本和元数据可以在同一比特流中由下游装置接收。
[0089] 在一些可能的实施例中,处理状态元数据可以被存储在与指纹关联的媒体处理数据库中。相对于上游单元的下游媒体处理单元(如创建处理状态元数据的编码器/转码器)可以根据所接收的媒体数据创建指纹,然后使用该指纹作为查询媒体处理数据库的密钥。在定位数据库中的处理状态元数据之后,可以从媒体处理数据库中获取包括与所接收的媒体数据相关联(或用于所接收的媒体数据)的处理状态元数据的数据块,并将其提供给下游媒体处理单元。如本文中所使用的,指纹可以包括但不限于为表示媒体特征所生成的一个或多个媒体指纹中的任意指纹。
[0090] 在一些可能的实施例中,包括有处理状态元数据的数据块包括用于处理状态元数据和/或基础媒体数据的加密哈希值(HMAC)。由于在这些实施例中假设数据块被数字签名,所以下游媒体处理单元可以相对容易地认证并验证处理状态元数据。其他加密方法(包括但不限于一个或多个非HMAC加密方法中的任意方法)可以用于处理状态元数据和/或基础媒体数据的安全传输和接收。
[0091] 如前面所述,如本文中所描述的媒体处理单元(如编码器/转码器)可以被配置为接受“传统”媒体比特流和PCM样本。如果输入媒体比特流是传统媒体比特流,则媒体处理单元可以通过包括如前所述的预处理和元数据验证逻辑的增强型“传统”编码器中的一个来检查可能处于媒体比特流中或可能被隐藏在媒体数据中的演变标志。在不存在“演变标志”的情况下,编码器被配置成在输出媒体比特流中或在包括处理状态元数据的数据块中执行自适应处理,并且适当地生成处理状态元数据。例如,如图6所示,如果在输入媒体数据或源媒体比特流中缺少“演变标志”,则示例单元(如“变换域实时响度和动态范围控制器”)可以自适应地处理该单元所接收的输入媒体数据中的音频内容并且自动调整响度和动态范围。另外地、任选地或可替代地,另一单元可以利用基于特征的元数据来执行自适应处理。
[0092] 在如图6所示的示例性实施例中,编码器可以知道已经执行一种类型的媒体处理(例如,响度域处理)的后/预处理单元,并且因此可以在数据块中创建包括用在响度域处理中和/或从响度域处理得到的特定参数的处理状态元数据。在一些可能的实施例中,编码器可以创建反映关于媒体数据中的内容的处理历史的处理状态元数据,只要编码器知道已经对媒体数据中的该内容执行的处理类型(例如,响度域处理)即可。另外地、任选地或可替代地,编码器可以基于由处理状态元数据所描述的一个或多个媒体特征来执行自适应处理。另外地、任选地或可替代地,编码器可以执行媒体数据的分析,以生成媒体特征的描述作为要被提供至其他处理单元中的任意处理单元的处理状态元数据的一部分。
[0093] 在一些可能的实施例中,使用本文中的技术的解码器能够在下列场景中获知媒体数据的状态。
[0094] 在第一场景下,如果解码器接收到具有被设置为表示媒体比特流中的处理状态元数据的有效性的“演变标志”的媒体比特流,那么解码器可以解析和/或获取处理状态元数据并且发信号至下游媒体处理单元如适当的后处理单元。另一方面,如果不存在“演变标志”,则解码器可以将仍然应当执行音量调节处理发信号至下游媒体处理单元,这是因为响度元数据——例如,其在一些可能的实施例中可能已经被包括在处理状态元数据中,并且已经执行音量调节处理——要么不存在要么不能被信任为有效。
[0095] 在第二场景下,如果解码器接收到由上游媒体处理单元(如演变编码器)生成并编码的具有加密哈希值的媒体比特流,则解码器可以解析和获取来自包括处理状态元数据的数据块的加密哈希值,并且使用该加密哈希值来验证所接收的媒体比特流和相关联的元数据。例如,如果解码器基于在参考加密哈希值与从数据块获取的加密哈希值之间的匹配而发现相关联的元数据(例如,在处理状态元数据中的响度元数据)有效,那么解码器可以发信号至下游媒体处理单元(如音量调节单元)以传递媒体数据如未改变的音频。另外地、任选地或可替代地,代替基于加密哈希值的方法,可以使用其他类型的加密技术。另外地、任选地或可替代地,基于如在处理状态元数据中所描述的媒体数据的一个或多个媒体特征,还可以执行除音量调节以外的其他操作。
[0096] 在第三场景下,如果解码器接收到由上游媒体处理单元(如演变编码器)所产生的媒体比特流,但包括处理状态元数据的数据块未被包括在媒体比特流中,而该数据块被存储在媒体处理数据库中。解码器被配置为创建媒体比特流(如音频)中的媒体数据的指纹,然后使用该指纹来查询媒体处理数据库。媒体处理数据库可以基于指纹匹配来返回与所接收的媒体数据相关联的适当数据块。在一些可能的实施例中,经编码的媒体比特流包含简单的统一资源定位符(URL),以用于指示解码器将如先前讨论的基于指纹的查询发送至媒体处理数据库。
[0097] 在所有这些场景中,解码器被配置成获知媒体的状态并且发信号至下游媒体处理单元,以相应地调整下游媒体处理单元对媒体数据的处理。在一些可能的实施例中,本文中的媒体数据可以在被解码后进行重新编码。在一些可能的实施例中,包括与重新编码相对应的同时处理状态信息的数据块可以被传递到继解码器之后的下游媒体处理单元如编码器/转换器。例如,数据块可以在来自解码器的输出媒体比特流中被包括为相关联的元数据。
[0098] 图7示出根据本发明的一些可能的实施例的基于处理状态元数据中的和/或与处理状态元数据相关联的响度元数据的有效性来控制音量调节单元的操作模式的示例性演变解码器。还可以处理其他操作如基于特征的处理。所描绘的部件中的任意部件可以以硬件、软件、或硬件和软件组合的形式被实现为一个或多个处理和/或一个或多个IC电路(包括ASIC、FPGA等)。解码器可以包括许多传统子单元,如帧信息模块(例如,在AC-3、MPEG AAC、MPEG HE AAC、E AC-3等中的帧信息模块)、前端解码(例如,在AC-3、MPEG AAC、MPEG HE AAC、E AC-3等中的FED)、同步和转换(例如,在AC-3、MPEG AAC、MPEG HE AAC、E AC-3等中的同步和转换模块)、帧设置缓冲器、后端解码(例如,在AC-3、MPEG AAC、MPEG HE AAC、E AC-3等中的BED)、后端编码(例如,在AC-3、MPEG AAC、MPEG HE AAC、E AC-3等中的BEE)、CRC再生、媒体呈现(例如,杜比智能音量技术)等。使用这些传统子单元,解码器能够将媒体数据中的媒体内容输送到下游媒体处理单元,和/或呈现媒体内容。然而,解码器将不能够传送媒体数据的状态,或不能够在输出比特流中提供媒体处理信令和/或处理状态元数据。
[0099] 在本文的技术下,在一些可能的实施例中,如图7所示,解码器可以包括多个新子单元中的任意子单元,如元数据处理(演变数据和/或包括第三方数据、追踪信息、标识符、专有的或标准的信息、用户注释数据、用户偏好数据、特征提取、特征处理等中的一种或多种类型的其他元数据输入)、用于处理状态信息的安全(例如,防篡改)通信(HMAC生成器和签名验证器、其他加密技术)、媒体指纹提取(例如,音频和视频指纹提取)、附属媒体处理(例如,一个或多个话音信道/响度信息、其他类型的媒体特征)、数据隐藏(例如,PCM数据隐藏,其可以是破坏性/不可逆的或可逆的)、媒体处理信令插入、HMAC生成器(其可以例如包括“add_bsi”插入或到一个或多个辅助数据字段中的插入)、其他加密技术、隐藏数据的恢复和验证(例如,隐藏PCM数据的恢复和验证)、“撤消”数据隐藏、基于处理状态信令和/或处理状态元数据(例如,来自HMAC生成器和签名验证器的演变数据“有效”和数据隐藏插入控制)进行操作的一个或多个交换机等。如图所示,由HMAC生成器和签名验证器以及音频和视频指纹提取所提取的信息可以被输出到或用于音频和视频同步校正、收视率、媒体权利、质量控制、媒体定位处理、基于特征的处理等。
[0100] 在一些可能的实施例中,在媒体处理链中的后/预处理单元不独立进行操作。相反地,后/预处理单元可以与媒体处理链中的编码器或解码器进行交互。在与编码器进行交互的情况下,后/预处理单元可以帮助创建关于数据块中的媒体数据的状态的处理状态元数据的至少一部分。在与解码器进行交互的情况下,后/预处理单元被配置成确定媒体数据的状态,并相应地调整其对媒体数据的处理。在一个示例中,在图7中,示例性后/预处理单元(如音量调节单元)可以获取由上游解码器发送的PCM样本中的隐藏数据,并且基于该隐藏数据来确定响度元数据是否是有效。如果响度元数据有效,则输入媒体数据(如音频)可以在不改变的情况下通过音量调节单元进行传递。在另一示例中,示例性后/预处理单元可以获取由上游解码器发送的PCM样本中的隐藏数据,并且基于该隐藏数据来确定之前根据媒体样本的内容所确定的一种或多种类型的媒体特征。如果表示有声音识别关键字,则后处理的单元可以执行与声音识别关键字有关的一个或多个特定操作。
[0101] 5.数据隐藏
[0102] 图8示出根据本发明的一些可能实施例的使用数据隐藏来传递媒体处理信息的示例性配置。在一些可能的实施例中,当上游媒体处理单元和下游媒体处理单元之间不存在元数据路径时,数据隐藏可以用于使得能够在上游媒体处理单元如演变编码器或解码器(例如,音频处理#1)与下游媒体处理单元如后/预处理单元(例如,音频处理#2)之间发信号。
[0103] 在一些可能的实施例中,可逆媒体数据隐藏(例如,可逆音频数据隐藏)可以被用于将媒体数据中的媒体数据样本(例如,X)修改为经修改的媒体数据样本(例如,X'),该经修改的媒体数据样本在两个媒体处理单元之间携带媒体处理信令和/或处理状态元数据。在一些可能的实施例中,本文中所描述的对媒体数据样本的修改可以以无感知劣化作为修改的结果的方式进行。因而,即使继媒体处理单元1之后可能不存在另一媒体处理单元,使用经修改的媒体数据样本可能不会感知到可听或可视的伪像。换言之,以感知透明的方式隐藏媒体处理信令和/或处理状态元数据将不会在呈现经修改的媒体数据样本中的音频和视频时引起任何可听或可视的伪像。
[0104] 在一些可能的实施例中,媒体处理单元(例如,图8的音频处理单元#2)从经修改的媒体数据样本获取所嵌入的媒体处理信令和/或处理状态元数据,并且通过撤消修改将经修改的媒体数据样本恢复为原始的媒体数据样本。这可以例如通过子单元(例如,信息提取和音频恢复)来进行。然后,所获取的嵌入信息可以用作两个媒体处理单元(例如,图8的音频处理单元#1和#2)之间的信令机构。本文中的数据隐藏技术的鲁棒性可以依赖于可以由媒体处理单元执行的何种类型的处理。媒体处理单元#1的示例可以为机顶盒中的数字解码器,而媒体处理单元#2的示例可以为同一机顶盒中的音量调节单元。如果解码器确定响度元数据有效,则解码器可以使用可逆数据隐藏技术以将不施加调节发信号至后续音量调节单元。
[0105] 在一些可能的实施例中,不可逆媒体数据隐藏(例如,基于不可逆安全通信信道的数据隐藏技术)可以被用于将媒体数据中的媒体数据样本(例如,X)修改为经修改的媒体数据样本(例如,X'),该经修改的媒体数据样本在两个媒体处理单元之间携带媒体处理信令和/或处理状态元数据。在一些可能的实施例中,本文中所描述的对媒体数据样本的修改可以以最小的感知劣化作为修改的结果的方式进行。因而,用经修改的媒体数据样本可以感知最小的可听或可视伪像。换言之,以感知透明的方式隐藏媒体处理信令和/或处理状态元数据将会在呈现经修改的媒体数据样本中的音频和视频时引起最小的可听或可视伪像。
[0106] 在一些可能的实施例中,通过不可逆数据隐藏的在经修改的媒体数据样本中的修改不可以被撤消来恢复原始媒体数据样本。
[0107] 6.示例性处理流程
[0108] 图9A和图9B示出根据本发明的可能实施例的示例性处理流程。在一些可能的实施例中,媒体处理系统的中一个或多个计算装置或单元可以执行此处理流程。
[0109] 在图9A的框910中,媒体处理链(例如,如本文中所描述的增强型媒体处理链)中的第一装置确定是否已经对媒体数据的输出版本执行一种类型的媒体处理。第一装置可以是媒体处理单元的一部分或整体。在框920中,响应于确定已经对媒体数据的输出版本执行该类型的媒体处理,第一装置可以创建媒体数据的状态。在一些可能的实施例中,媒体数据的状态可以说明媒体处理的类型,其结果被包含在媒体数据的输出版本中。第一装置可以在例如输出媒体比特流中或在与携带媒体数据的输出版本的单独媒体比特流相关联的辅助元数据比特流中将媒体数据的输出版本和媒体数据的状态传送至媒体处理链下游的第二装置。
[0110] 在一些可能的实施例中,媒体数据包括如下媒体内容中的一个或多个:仅音频内容、仅视频内容或音频内容和视频内容两者。
[0111] 在一些可能的实施例中,第一装置可以向第二装置提供媒体数据的状态,如以下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;或(c)媒体处理信令。
[0112] 在一些可能的实施例中,第一装置可以在媒体处理数据库处存储媒体处理数据块。媒体处理数据块可以包括媒体处理元数据,并且其中能够基于与媒体处理数据块相关联的一个或多个媒体指纹来获取媒体处理数据块。
[0113] 在一些可能的实施例中,媒体数据的状态包括用凭据信息加密的加密哈希值。加密哈希值可以由接受装置认证。
[0114] 在一些实施例中,媒体数据的状态的至少一部分包括隐藏在媒体数据中的一个或多个安全通信信道,并且其中一个或多个安全通信信道由接受装置认证。在示例性实施例中,一个或多个安全通信信道可以包括至少一个扩频安全通信信道。在示例性实施例中,一个或多个安全通信信道包括至少一个频移键控安全通信信道。
[0115] 在一些可能的实施例中,媒体数据的状态包括在该类型的媒体处理中使用的和/或从该类型的媒体处理得到的一个或多个参数集。
[0116] 在一些可能的实施例中,第一装置或第二装置中的至少一个包括预处理单元、编码器、媒体处理子单元、转码器、解码器、后处理单元或媒体内容呈现子单元中的一个或多个。在示例性实施例中,第一装置是编码器(例如,AVC编码器),而第二个装置是解码器(例如,AVC解码器)。
[0117] 在一些可能的实施例中,由第一装置执行该类型的处理,而在一些其他的可能实施例中,替代地由媒体处理链中相对于第一装置的上游装置执行该类型的处理。
[0118] 在一些可能的实施例中,第一装置可以接收媒体数据的输入版本。媒体数据的输入版本包括表示该类型媒体处理的媒体数据的任意状态。在这些实施例中,第一装置可以分析媒体数据的输入版本以确定已经对媒体数据的输入版本执行该类型的媒体处理。
[0119] 在一些可能的实施例中,第一装置对媒体数据的状态中的响度和动态范围进行编码。
[0120] 在一些可能的实施例中,第一装置可以自适应地避免执行已经由上游装置执行的媒体处理类型。然而,即使当已经执行过该类型的媒体处理时,第一装置也可以接收对由上游装置执行过的该类型媒体处理进行覆盖的命令。替代地,第一装置可以被命令为仍然用例如相同或不同的参数执行该类型媒体处理。在媒体处理链中从第一装置向第二装置通信的媒体数据的状态可以包括:包含由第一装置在命令下执行的该类型媒体处理的结果的媒体数据的输出版本;以及表示已经在媒体数据的输出版本中执行过该类型媒体处理的媒体数据的状态。在各种可能的实施例中,第一装置可以从以下中的一个接收命令:(a)用户输入;(b)第一装置的系统配置;(c)来自第一装置外部的装置的信令;或(d)来自第一装置内部的子单元的信令。
[0121] 在一些实施例中,媒体数据的状态包括隐藏在一个或多个安全通信信道中的状态元数据的至少一部分。
[0122] 在一些实施例中,第一装置更改媒体数据中的多个字节以存储媒体数据的状态的至少一部分。
[0123] 在一些实施例中,第一装置和第二装置中的至少一个包括先进电视系统委员会(ATSC)编解码器、移动图像专家组(MPEG)编解码器、音频编解码器3(AC-3)编解码器以及增强型AC-3解码器中的一个或多个。
[0124] 在一些实施例中,媒体处理链包括:预处理单元,其被配置成接受包含媒体内容的时域样本作为输入,并且输出经处理的时域样本;编码器,其被配置成基于经处理的时域样本输出媒体内容的经压缩的媒体比特流;信号分析和元数据校正单元,其被配置成验证在经压缩的媒体比特流中的处理状态元数据;转码器,其被配置成修改经压缩的媒体比特流;解码器,其被配置成基于经压缩的媒体比特流输出经解码的时域样本;以及后处理单元,其被配置成执行在经解码的时域样本中的媒体内容的后处理。在一些实施例中,第一装置和第二装置中的至少一个包括预处理单元、信号分析和元数据校正单元、转码器、解码器和后处理单元中的一个或多个。在一些实施例中,预处理单元、信号分析和元数据校正单元、转码器、解码器和后处理单元中的至少一个基于从上游装置接收的处理元数据来执行媒体内容的自适应处理。
[0125] 在一些实施例中,第一装置根据媒体数据确定一个或多个媒体特征,并且将一个或多个媒体特征的描述包括在媒体数据的状态中。一个或多个媒体特征可以包括根据帧、秒、分钟、用户定义的时间间隔、场景、歌曲、音乐片段和录音中的一个或多个所确定的至少一个媒体特征。一个或多个媒体特征包括媒体数据的语义描述。在各种实施例中,一个或多个媒体特征包括结构性质、具有和声和旋律的音调、音色、节奏、响度、立体声混音、媒体数据的声源的量、声音的存在或不存在、重复特性、旋律、和声、歌词、音色、感知特征、数字媒体特征、立体声参数、语音内容中的一个或多个部分中的一个或多个。
[0126] 在图9B的框950中,媒体处理链(例如,如本文中所描述的增强型媒体处理链)中的第一装置确定是否已经对媒体数据的输入版本执行一种类型的媒体处理。
[0127] 在框960中,响应于确定已经对媒体数据的输入版本执行该类型的媒体处理,第一装置调整媒体数据的处理,以禁止在第一装置中执行该类型的媒体处理。在一些可能的实施例中,第一装置可以基于媒体数据的输入状态来关掉一种或多种类型的媒体处理。
[0128] 在一些可能的实施例中,第一装置在媒体处理链中向第二装置传送媒体数据的输出版本以及表示已经在媒体数据的输出版本中执行该类型媒体处理的媒体数据的状态。
[0129] 在一些可能的实施例中,第一装置可以对媒体数据的状态中的响度和动态范围进行编码。在一些可能的实施例中,第一装置可以至少部分地基于是否已经对媒体数据的输入版本执行该类型处理来自动地执行自适应校正响度或动态音频处理中的一个或多个。
[0130] 在一些可能的实施例中,第一装置可以对媒体数据执行第二不同类型的媒体处理。第一装置可以在媒体处理链中向第二装置传送媒体数据的输出版本以及表示已经在媒体数据的输出版本中执行该类型的媒体处理和该第二不同类型的媒体处理的媒体数据状态。
[0131] 在一些可能的实施例中,第一装置可以获取与媒体数据的输入版本相关联的媒体数据的输入状态。在一些可能的实施例中,在输入媒体比特流中用媒体数据的输入版本来携带媒体数据的输入状态。在一些可能的实施例中,第一装置可以从在媒体数据中对媒体内容进行编码的数据单元提取媒体数据的输入状态。媒体数据的输入状态可以被隐藏在数据单元中的一个或多个。
[0132] 在一些可能的实施例中,第一装置可以恢复不包括媒体数据的输入状态的数据单元的版本,并且基于已经恢复的数据单元的版本来呈现媒体内容。
[0133] 在一些可能的实施例中,第一装置可以通过验证与媒体数据的输入状态相关联的加密哈希值来认证媒体数据的输入状态。
[0134] 在一些实施例中,第一装置通过验证与媒体数据的输入状态相关联的一个或多个指纹来认证媒体数据的输入状态,其中一个或多个指纹中的至少一个基于媒体数据的至少一部分而生成。
[0135] 在一些实施例中,第一装置通过验证与媒体数据的输入状态相关联的一个或多个指纹来验证媒体数据,其中一个或多个指纹中的至少一个基于媒体数据的至少一部分而生成。
[0136] 在一些可能的实施例中,第一装置可以接收如用处理状态元数据所描述的媒体数据的输入状态。第一装置可以至少部分地基于处理状态元数据来创建媒体处理信令。媒体处理信令可以表示媒体数据的输入状态,即使媒体处理信令可以是较小的数据量和/或要求与处理状态元数据的比特率相比为低的比特率也如此。第一装置可以将媒体处理信令传输至媒体处理链中在第一装置下游的媒体处理装置。在一些可能的实施例中,使用可逆数据隐藏技术将媒体处理信令隐藏在媒体数据的输出版本中的一个或多个数据单元中,使得能够由接受装置去除媒体数据的一个或多个修改。在一些实施例中,使用不可逆数据隐藏技术将媒体处理信令隐藏在媒体数据的输出版本中的一个或多个数据单元中,使得不能够由接受装置去除媒体数据的一个或多个修改中的至少一个。
[0137] 在一些实施例中,第一装置基于媒体数据的状态中的一个或多个媒体特征的描述来确定一个或多个媒体特征。一个或多个媒体特征可以包括根据帧、秒、分钟、用户定义的时间间隔、场景、歌曲、音乐片段和录音中的一个或多个所确定的至少一个媒体特征。一个或多个媒体特征包括媒体数据的语义描述。在一些实施例中,响应于确定一个或多个媒体特征,第一装置执行一个或多个特定操作。
[0138] 在一些可能的实施例中,提供了一种方法,包括:用媒体处理链中的第一装置计算媒体数据的源帧一个或多个数据速率降低表示;以及在媒体数据自身内同时且安全地将一个或多个数据速率降低表示携带至媒体处理链中的第二装置;其中该方法由一个或多个计算装置执行。
[0139] 在一些可能的实施例中,一个或多个数据速率降低表示被携带在子流、一个或多个保留字段、add_bsi字段、一个或多个辅助数据字段或一个或多个变换系数中的至少一个中。
[0140] 在一些可能的实施例中,一个或多个数据速率降低表示包括用于对在媒体数据内递送的音频和视频进行同步的同步数据。
[0141] 在一些可能的实施例中,一个或多个数据速率降低表示包括(a)由媒体处理单元产生以及(b)被嵌入在媒体数据内的媒体指纹,以用于质量监测、媒体评级、媒体追踪或内容搜索中的一个或多个。
[0142] 在一些可能的实施例中,该方法还包括:基于在携带媒体数据的一个或多个经编码的比特流内的媒体数据和/或媒体数据的状态,由媒体处理链中的一个或多个计算装置中的至少一个来计算并传输加密哈希值。
[0143] 在一些可能的实施例中,该方法还包括:由接受装置认证加密哈希值;由接受装置将媒体数据的状态是否是有效的确定发信号至一个或多个下游媒体处理单元;以及响应于确定媒体数据的状态有效,由接受装置将媒体数据的状态发信号至一个或多个下游媒体处理单元。
[0144] 在一些可能的实施例中,表示媒体的状态和/或媒体数据的加密哈希值被携带在子流、一个或多个保留字段、add_bsi字段、一个或多个辅助数据字段或一个或多个变换系数中至少一个中。
[0145] 在一些可能的实施例中,提供了一种方法,包括:基于由媒体数据的状态所表示的由一个或多个上游媒体处理单元对媒体数据所执行的响度处理的过去历史、用媒体处理链中的一个或多个计算装置来自适应处理媒体数据的输入版本,该媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个;在媒体处理链的端部将媒体数据的输出版本的响度和/或动态范围归一化为一致的响度值和/或动态范围值。
[0146] 在一些可能的实施例中,一致的响度值包括如下响度值:(1)由用户控制或选择;或(2)由媒体数据的输入版本中的状态自适应地发信号。
[0147] 在一些可能的实施例中,关于媒体数据的对话(语音)部分计算响度值。
[0148] 在一些可能的实施例中,关于媒体数据的绝对、相对和/或非选通部分计算响度值。
[0149] 在一些可能的实施例中,一致的动态范围值包括如下动态范围值:(1)由用户控制或选择;或(2)由媒体数据的输入版本中的状态自适应地发信号。
[0150] 在一些可能的实施例中,关于媒体数据的对话(语音)部分计算动态范围值。
[0151] 在一些可能的实施例中,关于媒体数据的绝对、相对和/或非选通部分计算动态范围值。
[0152] 在一些可能的实施例中,该方法还包括:计算一个或多个响度值和/或动态范围增益控制值以用于将媒体数据的输出版本标准化为一致的响度值和一致的动态范围;在媒体处理链的端部处在媒体数据的输出版本的状态内同时携带一个或多个响度值和/或动态范围增益控制值,其中一个或多个响度值和/或动态范围增益控制值能够由另一装置使用以反向应用一个或多个响度值和/或动态范围增益控制值,来恢复媒体数据的输入版本中的原始响度值和原始动态范围。
[0153] 在一些可能的实施例中,表示媒体数据的输出版本的状态的一个或多个响度值和/或动态范围控制值被携带在子流、一个或多个保留字段、add_bsi字段、一个或多个辅助数据字段或一个或多个变换系数中的至少一个中。
[0154] 在一些可能的实施例,提供了一种方法,包括:由媒体处理链中的一个或多个计算装置对在一个或多个经编码的比特流中的有关和无关的媒体数据位置和/或有关和无关的媒体数据位置的状态执行插入、提取或编辑中的一个,该媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
[0155] 在一些可能的实施例中,在经编码的比特流内的一个或多个有关和无关的媒体数据位置和/或有关和无关的媒体数据位置的状态被携带在子流、一个或多个保留字段、add_bsi字段、一个或多个辅助数据字段或一个或多个变换系数中的至少一个中。
[0156] 在一些可能的实施例,提供了一种方法,包括:由媒体处理链中的一个或多个计算装置对在一个或多个经编码的比特流中的有关和无关的媒体数据和/或有关和无关的媒体数据的状态执行插入、提取或编辑中的一个或多个,该媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
[0157] 在一些可能的实施例中,在经编码的比特流内的一个或多个有关和无关的媒体数据和/或有关和无关的媒体数据的状态被携带在子流、一个或多个保留字段、add_bsi字段、一个或多个辅助数据字段或一个或多个变换系数中的至少一个中。
[0158] 在一些可能的实施例中,媒体处理系统被配置为由媒体处理链中的一个或多个计算装置基于一个或多个经编码的比特流内的媒体数据和/或媒体数据的状态来计算并携带加密哈希值,该媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
[0159] 如本文中所使用的,术语“有关和无关的媒体数据位置”可以指可以包括媒体资源定位符的信息(如表示有关媒体(例如,不同比特流格式的媒体的副本)的位置的绝对路径、相对路径和/或URL或者表示无关媒体的位置的绝对路径、相对路径和/或URL)以及与在其中发现媒体数据位置的要素(essence)或比特流无直接关系的其他类型信息(例如,一条新媒体(如商业、广告、网页等)的位置)。
[0160] 如本文中所使用的,术语“有关和无关的媒体数据位置的状态”可以指有关和无关的媒体数据位置的有效性(因为它们可以在携带它们的比特流的整个生命周期内被编辑/更新)。
[0161] 如本文中所使用的,“有关媒体数据”可以指与比特流表示的主媒体高度相关的二次媒体数据比特流形式的有关媒体数据的携带。(例如,二次(独立)比特流格式的媒体数据副本的携带。)在无关媒体数据上下文中,此信息可以指独立于主媒体数据的二次媒体数据比特流的携带。
[0162] 如本文中所使用的,用于有关媒体数据的“状态”可以指任何信令信息(处理历史、更新的目标响度等)和/或元数据以及有关媒体数据的有效性。用于无关媒体数据的“状态”可以指独立信令信息,和/或包括可以与“有关”媒体数据的状态隔开(独立)携带的有效性信息的元数据。无关媒体数据的状态表示媒体数据与在其中发现该信息的媒体数据比特流“无关”。(因为该信息可以在携带它们的比特流的整个生命周期内被独立地编辑/更新)。
[0163] 如本文中所使用的,术语“媒体数据的绝对、相对和/或非选通部分”与对媒体数据所执行的响度和/或电平测量的门限(gating)有关。门限是指特定的电平或响度阈值,其中超过该阈值的计算值被包含在最终测量中。(例如,在最终测量值中忽略低于-60dBFS的短期响度值)。关于绝对值的门限是指固定的电平或响度,其中关于相对值的门限是指依赖于当前的“非选通”测量值的值。
[0164] 图12A至图12L进一步示出根据本发明的一些实施例的一些示例性媒体处理节点/装置的框图。
[0165] 如图12A所示,信号处理器(其可以是N个节点中的节点1)被配置成接收可以包括音频PCM样本的输入信号。音频PCM样本可以或可以不包含隐藏在音频PCM样本中的处理状态元数据(或媒体状态元数据)。图12A的信号处理器可以包括被配置成对来自音频PCM样本(如由在图12A的信号处理器之前的一个或多个媒体处理单元所提供的)的处理状态元数据进行解码、提取和/或解释的媒体状态元数据提取器。处理状态元数据的至少一部分可以被提供到图12A的信号处理器中的音频编码器,以调整用于音频编码器的处理参数。并行地,在图12A的信号处理器中的音频分析单元可以分析在输入信号中传递的媒体内容。特征提取、媒体分类、响度估计、指纹生成等可以被实现为由音频分析单元执行的分析的一部分。该分析的结果的至少一部分可以被提供到图12A的信号处理器中的音频编码器,以调整用于音频编码器的处理参数。音频编码器基于处理参数将输入信号中的音频PCM样本编码为输出信号中的经编码的比特流。图12A的信号处理器中的经编码的比特流分析单元可以被配置成确定要在图12A的信号处理器的输出信号中进行传输的经编码的比特流中的媒体数据或样品是否具有存储处理状态元数据的至少一部分的空间。要由图12A的信号处理器传输的新处理状态元数据包括由媒体状态元数据提取器提取的处理状态元数据、由图12A的信号处理器的音频分析单元和媒体状态元数据生成器生成的处理状态元数据和/或任何第三方数据中的一些或全部。如果确定在经编码的比特流中的媒体数据或样品具有存储处理状态元数据的至少一部分的空间,则新处理状态元数据的一部分或全部可以在输出信号的媒体数据或样本中被存储为隐藏数据。另外地、任选地或可替代地,新处理状态元数据的一部分或全部可以在输出信号中被存储在除媒体数据和样本之外的单独元数据结构中。因而,输出信号可以包括包含通过安全隐藏或非隐藏通信信道携带在媒体样本(要素)内和/或之中的新处理状态(或“媒体状态”)元数据的经编码的比特流。
[0166] 如图12B所示,信号处理器(其可以是N个节点中的节点1)被配置成接收可以包括音频PCM样本的输入信号。音频PCM样本可以或可以不包含隐藏在音频PCM样本中的处理状态元数据(或媒体状态元数据)。图12B的信号处理器可以包括被配置成对来自音频PCM样本(如由在图12B的信号处理器之前的一个或多个媒体处理单元所提供的)的处理状态元数据进行解码、提取和/或解释的媒体状态元数据提取器。处理状态元数据的至少一部分可以被提供到图12B的信号处理器中的PCM音频样本处理器,以调整用于PCM音频样本处理器的处理参数。并行地,在图12B的信号处理器中的音频分析单元可以分析在输入信号中传递的媒体内容。特征提取、媒体分类、响度估计、指纹生成等可以被实现为由音频分析单元执行的分析的一部分。该分析的结果的至少一部分可以被提供到图12B的信号处理器中的音频编码器,以调整用于PCM音频样本处理器的处理参数。PCM音频样本处理器基于处理参数将输入信号中的音频PCM样本处理为输出信号中的PCM音频(样本)比特流。图12B的信号处理器中的PCM音频分析单元可以被配置成确定要在图12B的信号处理器的输出信号中进行传输的PCM音频比特流中的媒体数据或样品是否具有存储处理状态元数据的至少一部分的空间。要由图12B的信号处理器传输的新处理状态元数据包括由媒体状态元数据提取器提取的处理状态元数据、由图12B的信号处理器的音频分析单元和媒体状态元数据生成器生成的处理状态元数据和/或任何第三方数据中的一些或全部。如果确定在PCM音频比特流中的媒体数据或样品具有存储处理状态元数据的至少一部分的空间,则新处理状态元数据的一部分或全部可以在输出信号的媒体数据或样本中被存储为隐藏数据。另外地、任选地或可替代地,新处理状态元数据的一部分或全部可以在输出信号中被存储在除媒体数据和样本之外的单独元数据结构中。因而,输出信号可以包括包含经由安全隐藏或非隐藏通信信道携带在媒体样本(要素)内和/或之中的新处理状态(或“媒体状态”)元数据的PCM音频比特流。
[0167] 如图12C所示,信号处理器(其可以是N个节点中的节点1)被配置成接收可以包括PCM音频(样本)比特流的输入信号。PCM音频比特流可以包含经由安全隐藏或非隐藏通信信道携带在PCM音频比特流中的媒体样本(要素)内和/或之中的处理状态元数据(或媒体状态元数据)。图12C的信号处理器可以包括被配置成对来自PCM音频比特流的处理状态元数据进行解码、提取和/或解释的媒体状态元数据提取器。处理状态元数据的至少一部分可以被提供到图12C的信号处理器中的PCM音频样本处理器,以调整用于PCM音频样本处理器的处理参数。处理状态元数据可以包括媒体特征、媒体类类型或子类型或可能性/概率值的描述,如由在图12C的信号处理器之前的一个或多个媒体处理单元所确定的,其中图12C的信号处理器可以被配置为在不执行其自己的媒体内容分析的情况下使用。另外地、任选地或可替代地,媒体状态元数据提取器可以被配置成从输入信号提取第三方数据并且将该第三方数据传输到下游处理节点/实体/装置。在一个实施例中,基于在由在图12C的信号处理器之前的一个或多个媒体处理单元提供的处理状态元数据的基础上所设置的处理参数,PCM音频样本处理器将PCM音频比特流处理成输出信号上的音频PCM样本。
[0168] 如图12D所示,信号处理器(其可以是N个节点中的节点1)被配置成接收输入信号,其可以包括包含经由安全隐藏或非隐藏通信信道携带在媒体样本内和/或隐藏在媒体样本中的处理状态元数据(或媒体状态元数据)的经编码的音频比特流。图12D的信号处理器可以包括被配置成对来自经编码的比特流(如由在图12D的信号处理器之前的一个或多个媒体处理单元所提供的)的处理状态元数据进行解码、提取和/或解释的媒体状态元数据提取器。处理状态元数据的至少一部分可以被提供到图12D的信号处理器中的音频解码器,以调整用于音频解码器的处理参数。并行地,在图12D的信号处理器中的音频分析单元可以分析在输入信号中传递的媒体内容。特征提取、媒体分类、响度估计、指纹生成等可以被实现为由音频分析单元执行的分析的一部分。该分析的结果的至少一部分可以被提供到图12D的信号处理器中的音频解码器,以调整用于音频解码器的处理参数。音频解码器基于处理参数将输入信号中的经编码的音频比特流转换为输出信号中的PCM音频比特流。图12D的信号处理器中的PCM音频分析单元可以被配置成确定在PCM音频比特流中的媒体数据或样品是否具有存储处理状态元数据的至少一部分的空间。要由图12D的信号处理器传输的新处理状态元数据包括由媒体状态元数据提取器提取的处理状态元数据、由图12D的信号处理器的音频分析单元和媒体状态元数据生成器生成的处理状态元数据和/或任何第三方数据中的一些或全部。如果确定在PCM音频比特流中的媒体数据或样品具有存储处理状态元数据的至少一部分的空间,则新处理状态元数据的一部分或全部可以在输出信号的媒体数据或样本中被存储为隐藏数据。另外地、任选地或可替代地,新处理状态元数据的一部分或全部可以在输出信号中被存储在除媒体数据和样本之外的单独元数据结构中。因而,输出信号可以包括包含经由安全隐藏或非隐藏通信信道携带在媒体数据/样本(要素)内和/或之中的处理状态(或“媒体状态”)元数据的PCM音频(样本)比特流。
[0169] 如图12E所示,信号处理器(其可以是N个节点中的节点1)被配置成接收可以包括经编码的音频比特流的输入信号。经编码的音频比特流可以包含经由安全隐藏或非隐藏通信信道携带在经编码的音频比特流中的媒体样本(要素)内和/或之中的处理状态元数据(或媒体状态元数据)。图12E的信号处理器可以包括被配置成对来自经编码的音频比特流的处理状态元数据进行解码、提取和/或解释的媒体状态元数据提取器。处理状态元数据的至少一部分可以被提供到图12E的信号处理器中的音频解码器,以调整用于音频解码器的处理参数。处理状态元数据可以包括媒体特征、媒体类类型或子类型或者可能性/概率值的描述,如由在图12E的信号处理器之前的一个或多个媒体处理单元所确定的,其中图12E的信号处理器可以被配置为在不执行其自己的媒体内容分析的情况下使用。另外地、任选地或可替代地,媒体状态元数据提取器可以被配置成从输入信号提取第三方数据并且将该第三方数据传输到下游处理节点/实体/装置。在一个实施例中,基于在由在图12E的信号处理器之前的一个或多个媒体处理单元提供的处理状态元数据的基础上所设置的处理参数,音频解码器将经编码的音频比特流处理成输出信号中的音频PCM样本。
[0170] 如12F图所示,信号处理器(其可以是N个节点中的节点1)被配置为接收输入信号,其可以包括包含经由安全隐藏或非隐藏通信信道携带在媒体样本内和/或隐藏在媒体样本中的处理状态元数据(或媒体状态元数据)的经编码的音频比特流。图12F的信号处理器可以包括被配置成对来自经编码的比特流(如由在图12F的信号处理器之前的一个或多个媒体处理单元所提供的)的处理状态元数据进行解码、提取和/或解释的媒体状态元数据提取器。处理状态元数据的至少一部分可以被提供至图12F的信号处理器中的比特流转码器(或经编码的音频比特流处理器),以调整用于比特流转码器的处理参数。并行地,图12F的信号处理器中的音频分析单元可以分析在输入信号中传递的媒体内容。特征提取、媒体分类、响度估计、指纹生成等可以被实现为由音频分析单元执行的分析的一部分。该分析的结果的至少一部分可以被提供到图12F的信号处理器中的比特流转码器,以调整用于比特流转码器的处理参数。比特流转码器基于处理参数将输入信号中的经编码的音频比特流转换成输出信号中的经编码的音频比特流。在图12F的信号处理器中的经编码比特流分析单元可以被配置成确定在经编码的音频比特流中的媒体数据或样品是否具有存储处理状态元数据的至少一部分的空间。要由图12F的信号处理器传输的新处理状态元数据包括由媒体状态元数据提取器提取的处理状态元数据、由图12F的信号处理器的音频分析单元和媒体状态元数据生成器生成的处理状态元数据和/或任何第三方数据中的一些或全部。如果确定在经编码的音频比特流中的媒体数据或样品具有存储处理状态元数据的至少一部分的空间,则新处理状态元数据的一部分或全部可以在输出信号的媒体数据或样本中被存储为隐藏数据。另外地、任选地或可替代地,新处理状态元数据的一部分或全部可以在输出信号中被存储在除媒体数据之外的单独元数据结构中。因而,输出信号可以包括包含经由安全隐藏或非隐藏通信信道携带在媒体数据/样本(要素)内和/或之中的处理状态(或“媒体状态”)元数据的经编码的音频比特流。
[0171] 图12G示出部分地类似于图12A的配置的示例性配置。另外地、任选地或可替代地,图12G的信号处理器可以包括被配置为查询本地和/或外部媒体状态元数据数据库的媒体状态元数据提取器,该本地和/或外部媒体状态元数据数据库可以通过内联网和/或互联网可操作地链接到图12G的信号处理器。由图12G的信号处理器向数据库发送的查询可以包括与媒体数据相关联的一个或多个指纹、与媒体数据相关联的一个或多个名称(例如,歌曲标题、电影标题)或与媒体数据相关联的任何其他类型识别信息。基于查询中的信息,存储在数据库中的匹配媒体状态元数据可以被定位并且被提供至图12G的信号处理器。媒体状态元数据可以被包括在由媒体状态元数据提取器向下游处理节点/实体(如音频编码器)所提供的处理状态元数据中。另外地、任选地或可替代地,图12G的信号处理器可以包括媒体状态元数据生成器,其被配置将任何所生成的媒体状态元数据和/或相关联的识别信息(如指纹、名称和/或其他类型的识别信息)提供至本地和/或外部媒体状态元数据数据库,如图12G所示。另外地、任选地或可替代地,存储在数据库中的媒体状态元数据中的一个或多个部分可以被提供到图12G的信号处理器,以经由安全隐藏或非隐藏通信信道在媒体样本(要素)内和/或之中被传送至下游媒体处理节点/装置。
[0172] 图12H示出部分地类似于图12B的配置的示例性配置。另外地、任选地或可替代地,图12H的信号处理器可以包括被配置成查询本地和/或外部媒体状态元数据数据库的媒体状态元数据提取器,该本地和/或外部媒体状态元数据数据库可以通过内联网和/或互联网可操作地链接到图12H的信号处理器。由图12H的信号处理器向数据库发送的查询可以包括与媒体数据相关联的一个或多个指纹、与媒体数据相关联的一个或多个名称(例如,歌曲标题、电影标题)或与媒体数据相关联的任何其他类型识别信息。基于查询中的信息,存储在数据库中的匹配媒体状态元数据可以被定位并且被提供至图12H的信号处理器。媒体状态元数据可以被包含在由媒体状态元数据提取器向下游处理节点/实体(如PCM音频样本处理器)所提供的处理状态元数据中。另外地、任选地或可替代地,图12H的信号处理器可以包括媒体状态元数据生成器,其被配置将任何所生成的媒体状态元数据和/或相关联的识别信息(如指纹、名称和/或其他类型的识别信息)提供至本地和/或外部媒体状态元数据数据库,如图12H所示。另外地、任选地或可替代地,存储在数据库中的媒体状态元数据中的一个或多个部分可以被提供到图12H的信号处理器,以经由安全隐藏或非隐藏通信信道在媒体样本(要素)内和/或之中被传送至下游媒体处理节点/装置。
[0173] 图12I示出部分地类似于图12C的配置的示例性配置。另外地、任选地或可替代地,图12I的信号处理器可以包括被配置成查询本地和/或外部媒体状态元数据数据库的媒体状态元数据提取器,该本地和/或外部媒体状态元数据数据库可以通过内联网和/或互联网可操作地链接到图12I的信号处理器。由图12I的信号处理器向数据库发送的查询可以包括与媒体数据相关联的一个或多个指纹、与媒体数据相关联的一个或多个名称(例如,歌曲标题、电影标题)或与媒体数据相关联的任何其他类型识别信息。基于查询中的信息,存储在数据库中的匹配媒体状态元数据可以被定位并且被提供至图12I的信号处理器。媒体状态元数据可以被提供至下游处理节点/实体如PCM音频样本处理器。
[0174] 图12J示出部分地类似于图12D的配置的示例性配置。另外地、任选地或可替代地,图12J的信号处理器可以包括被配置成查询本地和/或外部媒体状态元数据数据库的媒体状态元数据提取器,该本地和/或外部媒体状态元数据数据库可以通过内联网和/或互联网可操作地链接到图12J的信号处理器。由图12J的信号处理器向数据库发送的查询可以包括与媒体数据相关联的一个或多个指纹、与媒体数据相关联的一个或多个名称(例如,歌曲标题、电影标题)或与媒体数据相关联的任何其他类型识别信息。基于查询中的信息,存储在数据库中的匹配媒体状态元数据可以被定位并且被提供至图12J的信号处理器。来自数据库的媒体状态元数据可以被包括在提供至下游处理节点/实体(如音频编码器)的处理状态元数据中。另外地、任选地或可替代地,图12J的信号处理器可以包括音频分析单元,其被配置将任何所生成的媒体状态元数据和/或相关联的识别信息(如指纹、名称和/或其他类型的识别信息)提供至本地和/或外部媒体状态元数据数据库,如图12J所示。另外地、任选地或可替代地,存储在数据库中的媒体状态元数据中的一个或多个部分可以被提供到图12J的信号处理器,以经由安全隐藏或非隐藏通信信道在媒体样本(要素)内和/或之中被传送信至下游媒体处理节点/装置。
[0175] 图12K示出部分地类似于图12F的配置的示例性配置。另外地、任选地或可替代地,图12K的信号处理器可以包括被配置成查询本地和/或外部媒体状态元数据数据库的媒体状态元数据提取器,该本地和/或外部媒体状态元数据数据库可以通过内联网和/或互联网可操作地链接到图12K的信号处理器。由图12K的信号处理器向数据库发送的查询可以包括与媒体数据相关联的一个或多个指纹、与媒体数据相关联的一个或多个名称(例如,歌曲标题、电影标题)或与媒体数据相关联的任何其他类型识别信息。基于查询中的信息,存储在数据库中的匹配媒体状态元数据可以被定位并且被提供至图12K的信号处理器。来自数据库的媒体状态元数据可以被包括在提供至下游处理节点/实体(如比特流转码器或经编码的音频比特流处理器)的处理状态元数据中。另外地、任选地或可替代地,存储在数据库中的媒体状态元数据中的一个或多个部分可以被提供到图12K的信号处理器,以经由安全隐藏或非隐藏通信信道在媒体样本(要素)内和/或中被传送至下游媒体处理节点/装置。
[0176] 图12L示出根据示例性实施例的信号处理器节点1和信号处理器节点2。信号处理器节点1和信号处理器节点2可以是全部媒体处理链的一部分。在一些实施例中,信号处理器节点1基于由信号处理器节点2接收的处理状态元数据来调整媒体处理,而信号处理器节点2基于由信号处理器节点2接收的处理状态元数据来调整媒体处理。由信号处理器节点2接收的处理状态元数据可以包括在信号处理器节点1分析媒体数据的内容之后由信号处理器节点1添加的处理状态元数据和/或由媒体状态元数据;因此,信号处理器节点2可以在媒体处理中直接使用由信号处理器节点1提供的元数据,而不用重复之前由信号处理器节点1执行的分析中的一些或全部。
[0177] 7.实现机构——硬件概述
[0178] 根据一个实施例,本文中所描述的技术由一个或多个专用计算装置来实现。专用计算装置可以是硬连接的以执行技术,或者可以包括数字电子装置(如一个或多个专用集成电路(ASIC)或被持续编程为执行技术的现场可编程门阵列(FPGA)),或者可以包括被编程为根据在固件、内存、其他存储器或它们的组合中的程序指令来执行技术的一个或多个通用硬件处理器。这种专用计算装置还可以将定制硬连接逻辑、ASIC或FPGA与定制编程技术组合以实现该技术。专用计算装置可以是台式计算机系统、便携式计算机系统、手持装置、网络装置或结合有硬连接和/或编程逻辑以实现技术的任何其他装置。
[0179] 例如,图10是示出在其上可以实现本发明的实施例的计算机系统1000的框图。计算机系统1000包括用于传送信息的总线1002或其他通信机构,以及与总线1002耦接以用于处理信息的硬件处理器1004。硬件处理器1004可以是例如通用微处理器
[0180] 计算机系统1000还包括耦接至总线1002以用于存储信息和要由处理器1004执行的指令的主存储器1006(如随机存取存储器(RAM))或其他动态存储装置。主存储器1006也可以用于在执行要由处理器1004执行的指令期间存储临时变量或其他中间信息。这样的指令在被存储在处理器1004可访问的非暂态存储器介质中时将计算机系统1000呈现为被定制成执行在指令中指定的操作的专用机器。
[0181] 计算机系统1000还包括耦接至总线1002以用于存储用于处理器1004的静态信息和指令的只读存储器(ROM)1008或其他静态存储装置。存储装置1010(如磁盘或光盘)被提供并耦接至总线1002以用于存储信息和指令。
[0182] 计算机系统1000可以经由总线1002被耦接至显示器1012(如阴极射线管(CRT))以用于向计算机用户显示信息。包括字母数字和其他键的输入装置1014被耦接至总线1002以用于将信息和命令选择传送至处理器1004。另一种类型的用户输入装置是光标控制1016(如鼠标轨迹球或光标方向键),以用于将方向信息和命令选择传送至处理器1004并且用于在显示器1012上控制光标移动。该输入装置通常在两个轴——第一轴(例如,x)和第二轴(例如,y)——上具有两个自由度,使得允许装置在平面内指定位置。
[0183] 使用定制硬连接逻辑、一个或多个ASIC或FPGA以及以与计算机系统结合的方式使计算机系统1000成为或将计算机系统1000编程成为专用机器的固件和/或编程逻辑,计算机系统1000可以实现本文中所描述的技术。根据一个实施例,响应于处理器1004执行包含在主存储器1006中的一个或多个指令的一个或多个序列,由计算机系统1000执行本文中的技术。这样的指令可以从另一存储介质(如存储装置1010)读到主存储器1006中。包含在主存储器1006中的指令序列的执行使处理器1004能够执行本文所描述的处理步骤。在可替代的实施例中,硬连接电路可以用于代替软件指令或与软件指令结合。
[0184] 如本文中所使用的术语“存储媒体”是指对使机器能够以特定方式进行操作的数据和/或指令进行存储的任何非暂态介质。这样的存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,如存储装置1010。易失性介质包括动态存储器,如主存储器1006。存储介质的常见形式包括例如软盘、软磁盘、硬盘、固态驱动器、磁带、或任何其他磁性数据存储介质、CD-ROM、任何其他光数据存储介质、具有孔图案的任何物理介质、RAM、可编程只读存储器(PROM)、可擦可编程只读存储器(EPROM)、快闪存储器(FLASH-EPROM)、非易失性存储器(NVRAM)、任何其他存储器芯片或编码磁带。
[0185] 存储媒体与传输介质不同,但可以结合传输介质进行使用。传输介质参与在存储介质之间的信息传送。例如,传输介质包括同轴线缆、线和光纤,包括含总线1002的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间所产生的那些。
[0186] 在将一个或多个指令的一个或多个序列携带至处理器1004以用于执行的过程中可以涉及各种形式的介质。例如,指令最初可以被携带在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载到其动态存储器中,并使用调制解调器通过电话线路来发送指令。计算机系统1000的本地调制解调器可以在电话线路上接收数据,并使用红外发射器将该数据转换为红外线信号。红外线检测器可以接收在红外线信号中携带的数据,并且适当的电路可以将该数据置于总线1002上。总线1002将数据携带至处理器1004从其获取并执行指令的主存储器1006。由主存储器1006接收的指令可以任选地在由处理器1004执行之前或之后被存储在存储装置1010上。
[0187] 计算机系统1000还包括耦接至总线1002的通信接口1018。通信接口1018提供耦接至网络链路1020的双向数据通信,该网络链路1020连接至本地网络1022。例如,通信接口1018可以是综合业务数字网(ISDN)卡、线缆调制解调器、卫星调制解调器或者提供到相应类型电话线路的数据通信连接的调制解调器。作为另一示例,通信接口1018可以是提供到兼容局域网(LAN)的数据通信连接的LAN卡。还可以实现无线链接。在任何这样的实现中,通信接口1018对携带表示各种类型信息的数字数据流的电、电磁或光信号进行发送和接收。
[0188] 网络链路1020通常通过一个或多个网络将数据通信提供至其他数据装置。例如,网络链路1020可以通过本地网络1022将连接提供至主机1024或由互联网服务提供商(ISP)1026操作的数据装备。ISP1026进而通过现在通常被称为“因特网”1028的全球分组数据通信网络来提供数据通信服务。本地网络1022和因特网1028两者均使用携带数字数据流的电、电磁或光信号。向计算机系统1000并且从计算机系统1000携带数字数据的通过各种网络的信号、在网络链路1020上并且通过通信接口1018的信号均是传输介质的示例性形式。
[0189] 计算机系统1000可以通过一个或多个网络、网络链路1020和通信接口1018来发送消息和接收数据(包括程序代码)。在因特网示例中,服务器1030可以通过因特网1028、ISP1026、本地网络1022和通信接口1018发送用于应用程序的请求代码。
[0190] 所接收的代码可以在其被接收时由处理器1004执行,和/或被存储在存储装置1010或其他非易失性存储器中以用于后续执行。
[0191] 8.列举的示例性实施例
[0192] 因而,本发明的实施例可以涉及下面列举的示例性实施例中的一个或多个,其中列举的示例性实施例中的每一个均为示例,并且正如以上所提供的任何其他有关讨论,这些示例不应当被解释为限制所进一步提供的如当前的或后来修正、替换或添加的任意一项或更多项权利要求。类似地,这些示例不应被视为限制任何有关专利和/或专利申请(包括任何外国或国际同类的申请和/或专利、分案、继续申请、再发证等)的中的任意一项或更多项权利要求。
[0193] 列举的示例性实施例1是一种方法,包括:媒体处理链中的第一装置来确定是否已经对媒体数据的输出版本执行一种类型的媒体处理;响应于确定已经对所述媒体数据的所述输出版本执行所述类型的媒体处理,所述第一装置执行以下步骤:(a)通过所述第一装置创建所述媒体数据的状态,所述状态说明对所述媒体数据的所述输出版本执行的所述类型的媒体处理;以及(b)将所述媒体数据的所述输出版本和所述媒体数据的所述状态从所述第一装置传送至在所述媒体处理链下游的第二装置。
[0194] 列举的示例性实施例2是根据列举的示例性实施例1所述的方法,其中,所述媒体数据包括如下媒体内容中的一个或多个:仅音频内容、仅视频内容或音频内容和视频内容两者。
[0195] 列举的示例性实施例3是根据列举的示例性实施例1所述的方法,还包括:向所述第二装置提供所述媒体数据的所述状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
[0196] 列举的示例性实施例4是根据列举的示例性实施例1所述的方法,还包括:在媒体处理数据库处存储媒体处理数据块,其中,所述媒体处理数据块包括媒体处理元数据,并且其中,基于与所述媒体处理数据块相关联的一个或多个媒体指纹能够获取所述媒体处理数据块。
[0197] 列举的示例性实施例5是根据列举的示例性实施例1所述的方法,其中,所述媒体数据的状态包括用凭据信息加密的加密哈希值,并且其中,所述加密哈希值要由接受装置认证。
[0198] 列举的示例性实施例6是根据列举的示例性实施例1所述的方法,其中,所述媒体数据的所述状态的至少一部分包括隐藏在所述媒体数据中的一个或多个安全通信信道,并且其中,所述一个或多个安全通信信道要由接受装置认证。
[0199] 列举的示例性实施例7是根据列举的示例性实施例6所述的方法,其中,所述一个或多个安全通信通道包括至少一个扩频安全通信信道。
[0200] 列举的示例性实施例8是根据列举的示例性实施例6所述的方法,其中,所述一个或多个安全通信信道包括至少一个频移键控安全通信信道。
[0201] 列举的示例性实施例9是根据列举的示例性实施例1所述的方法,其中,在输出媒体比特流中所述媒体数据的所述状态携带有所述输出媒体数据的所述输出版本。
[0202] 列举的示例性实施例10是根据列举的示例性实施例1所述的方法,其中,所述媒体数据的所述状态被携带在与携带所述媒体数据的所述输出版本的单独媒体比特流相关联的辅助元数据比特流中。
[0203] 列举的示例性实施例11是根据列举的示例性实施例1所述的方法,其中,所述媒体数据的所述状态包括与所述类型的媒体处理有关的一个或多个参数集。
[0204] 列举的示例性实施例12是根据列举的示例性实施例1所述的方法,其中,所述第一装置或所述第二装置中的至少一个包括预处理单元、编码器、媒体处理子单元、转码器、解码器、后处理单元或媒体内容呈现子单元中的一个或多个。
[0205] 列举的示例性实施例13是根据列举的示例性实施例1所述的方法,其中,所述第一装置是编码器,并且其中,所述第二装置是解码器。
[0206] 列举的示例性实施例14是根据列举的示例性实施例1所述的方法,还包括:通过所述第一装置来执行所述类型的媒体处理。
[0207] 列举的示例性实施例15是根据列举的示例性实施例1所述的方法,其中,通过所述媒体处理链中相对于所述第一装置的上游装置执行所述类型的媒体处理;并且所述方法还包括:所述第一装置接收所述媒体数据的输入版本,其中所述媒体数据的所述输入版本包括表示所述类型的媒体处理的所述媒体数据的任意状态;以及分析所述媒体数据的所述输入版本以确定已经对所述媒体数据的所述输入版本执行所述类型的媒体处理。
[0208] 列举的示例性实施例16是根据列举的示例性实施例1所述的方法,还包括:对所述媒体数据的所述状态中的响度值和动态范围值进行编码。
[0209] 列举的示例性实施例17是根据列举的示例性实施例1所述的方法,其中,之前通过所述媒体处理链中相对于所述第一装置的上游装置执行所述类型的媒体处理;并且所述方法还包括:通过所述第一装置接收对之前执行的所述类型的媒体处理进行覆盖的命令;通过所述第一装置执行所述类型的媒体处理;将所述媒体数据的输出版本和所述媒体数据的状态从所述第一装置传送至在所述媒体处理链下游的第二装置,所述媒体数据的状态表示已经在所述媒体数据的所述输出版本中执行所述类型的媒体处理。
[0210] 列举的示例性实施例18是根据列举的示例性实施例17所述的方法,还包括:从(a)用户输入、(b)所述第一装置的系统配置、(c)来自所述第一装置外部的装置的信令或(d)来自所述第一装置内的子单元的信令中之一接收所述命令。
[0211] 列举的示例性实施例19是根据列举的示例性实施例1所述的方法,还包括:将独立于所述媒体数据的所述状态的一种或更多种类型的元数据从所述第一装置传送至在所述媒体处理链下游的所述第二装置。
[0212] 列举的示例性实施例20是根据列举的示例性实施例1所述的方法,其中,所述媒体数据的所述状态包括隐藏在一个或多个安全通信信道中的状态元数据的至少一部分。
[0213] 列举的示例性实施例21是根据列举的示例性实施例1所述的方法,还包括:更改所述媒体数据中的多个字节以存储所述媒体数据的所述状态的至少一部分。
[0214] 列举的示例性实施例22是根据列举的示例性实施例1所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括先进电视系统委员会(ATSC)编解码器、运动图像专家组(MPEG)编解码器、音频编解码器3(AC-3)编解码器以及增强型AC-3编解码器中的一个或多个。
[0215] 列举的示例性实施例23是根据列举的示例性实施例1所述的方法,其中,所述媒体处理链包括:预处理单元,所述预处理单元被配置成接受包括媒体内容的时域样本作为输入并且输出经处理的时域样本;编码器,所述编码器被配置成基于所述经处理的时域样本来输出所述媒体内容的经压缩的媒体比特流;信号分析和元数据校正单元,所述信号分析和元数据校正单元被配置成对所述经压缩的媒体比特流中的处理状态元数据进行验证;转码器,所述转码器被配置成修改所述经压缩的媒体比特流;解码器,所述解码器被配置成基于所述经压缩的媒体比特流来输出经解码的时域样本;以及后处理单元,所述后处理单元被配置成执行所述经解码的时域样本中的所述媒体内容的后处理。
[0216] 列举的示例性实施例24是根据列举的示例性实施例23所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的一个或多个。
[0217] 列举的示例性实施例25是根据列举的示例性实施例23所述的方法,其中,所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的至少一个基于从上游装置接收的处理元数据来执行所述媒体内容的自适应处理。
[0218] 列举的示例性实施例26是根据列举的示例性实施例1所述的方法,还包括:根据所述媒体数据确定一个或多个媒体特征;以及将所述一个或多个媒体特征的描述包括在所述媒体数据的状态中。
[0219] 列举的示例性实施例27是根据列举的示例性实施例26所述的方法,其中,所述一个或多个媒体特征包括根据帧、秒、分钟、用户定义的时间间隔、场景、歌曲、音乐片段和录音中的一个或多个所确定的至少一个媒体特征。
[0220] 列举的示例性实施例28是根据列举的示例性实施例26所述的方法,所述一个或多个媒体特征包括所述媒体数据的语义描述。
[0221] 列举的示例性实施例29是根据列举的示例性实施例26所述的方法,所述一个或多个媒体特征包括结构性质、具有和声和旋律的音调、音色、节奏、响度、立体声混音、所述媒体数据的声源的量、声音的存在或不存在、重复特性、旋律、和声、歌词、音色、感知特征、数字媒体特征、立体声参数、语音内容的一个或多个部分中的一个或多个。
[0222] 列举的示例性实施例30是根据列举的示例性实施例26所述的方法,还包括:使用所述一个或多个媒体特征将所述媒体数据分类为在多个媒体数据类中的一个或多个媒体数据类。
[0223] 列举的示例性实施例31是根据列举的示例性实施例30所述的方法,其中,所述一个或多个媒体数据类包括以下类中的一个或多个:针对整片媒体的单个总体/主导媒体数据类;或表示比所述整片媒体较小的时间段的单一类。
[0224] 列举的示例性实施例32是根据列举的示例性实施例31所述的方法,其中,所述较小的时间周期表示单个媒体帧、单个媒体数据块、多个媒体数据帧、多个媒体数据块、几分之一秒、一秒或多秒中的一个或多个。
[0225] 列举的示例性实施例33是根据列举的示例性实施例30所述的方法,其中,对表示所述一个或多个媒体数据类的一个或多个媒体数据类标签进行计算并将其插入到比特流中。
[0226] 列举的示例性实施例34是根据列举的示例性实施例30所述的方法,其中,对表示所述一个或多个媒体数据类的一个或多个媒体数据类标签进行计算并,将其作为嵌入在所述媒体数据内的隐藏数据发信号到接受媒体处理节点。
[0227] 列举的示例性实施例35是根据列举的示例性实施例30所述的方法,其中,对表示所述一个或多个媒体数据类的一个或多个媒体数据类标签进行计算,并在位于所述媒体数据的块之间的单独源数据结构中将其发信号到接受媒体处理节点。
[0228] 列举的示例性实施例36是根据列举的示例性实施例31所述的方法,其中,所述单个总体/主导媒体数据类表示单个类类型或混合类类型中的一个或多个,所述单个类类型例如为音乐、语音、噪音、沉默、掌声,所述混合类类型例如为覆于音乐之上的语音、覆于噪音之上的交谈或媒体数据类型的其他混合物。
[0229] 列举的示例性实施例37是根据列举的示例性实施例30所述的方法,还包括:将一个或多个可能性或概率值与所述一个或多个媒体数据类标签相关联,其中,可能性或概率值表示相对于与所计算的媒体类标签相关联的媒体段/块,所述所计算的媒体类标签具有的置信水平。
[0230] 列举的示例性实施例38是根据列举的示例性实施例37所述的方法,其中,由所述媒体处理链中的接受媒体处理节点使用所述可能性或概率值,从而以改进例如上混、编码、解码、转码或耳机虚拟化等的一个或多个操作的方式调整处理。
[0231] 列举的示例性实施例39是根据列举的示例性实施例38所述的方法,其中,所述一个或多个操作中的至少一个操作因为避免了通过所述接受媒体处理节点对所述媒体数据进行分类的复杂分析操作,所以消除对预设处理参数的需求、减小贯穿所述媒体链的处理单元的复杂度或者增加电池寿命。
[0232] 列举的示例性实施例40是一种方法,包括:通过媒体处理链中的第一装置来确定是否已经对媒体数据的输入版本执行一种类型的媒体处理;响应于确定已经对所述媒体数据的所述输入版本执行所述类型的媒体处理,所述第一装置执行所述媒体数据的自适应处理以禁止在所述第一装置中执行所述类型的媒体处理;其中所述方法通过一个或多个计算处理器执行。
[0233] 列举的示例性实施例41是根据列举的示例性实施例40所述的方法,还包括:将所述媒体数据的输出版本和所述媒体数据的状态从所述第一装置传送至在所述媒体处理链下游的第二装置,所述媒体数据的所述状态表示已经在所述媒体数据的所述输出版本中执行所述类型的媒体处理。
[0234] 列举的示例性实施例42是根据列举的示例性实施例41所述的方法,还包括:对所述媒体数据的所述状态中的响度值和动态范围值进行编码。
[0235] 列举的示例性实施例43是根据列举的示例性实施例40所述的方法,还包括:通过所述第一装置对所述媒体数据执行第二类型的媒体处理,所述第二类型的媒体处理不同于所述类型的媒体处理;将所述媒体数据的输出版本和所述媒体数据的状态从所述第一装置传送至在所述媒体处理链下游的第二装置,所述媒体数据的所述状态表示执行在所述媒体数据的所述输出版本中已经所述类型的媒体处理和所述第二类型的媒体处理。
[0236] 列举的示例性实施例44是根据列举的示例性实施例40所述的方法,还包括:至少部分地基于之前是否已经对所述媒体数据的所述输入版本执行所述类型的媒体处理,自动地执行自适应校正响度或动态音频处理中的一个或多个。
[0237] 列举的示例性实施例45是根据列举的示例性实施例40所述的方法,还包括:从所述媒体数据中对媒体内容进行编码的数据单元提取所述媒体数据的输入状态,其中,所述媒体数据的所述输入状态被隐藏在所述数据单元中的一个或多个中。
[0238] 列举的示例性实施例46是根据列举的示例性实施例45所述的方法,还包括:恢复不包括所述媒体数据的所述输入状态的所述数据单元的版本,并且基于已经恢复的所述数据单元的所述版本来呈现所述媒体内容。
[0239] 列举的示例性实施例47是根据列举的示例性实施例46所述的方法,还包括:获取与所述媒体数据的所述输入版本相关联的所述媒体数据的输入状态。
[0240] 列举的示例性实施例48是根据列举的示例性实施例47所述的方法,还包括:通过验证与所述媒体数据的所述输入状态相关联的加密哈希值来认证所述媒体数据的所述输入状态。
[0241] 列举的示例性实施例49是根据列举的示例性实施例47所述的方法,还包括:通过验证与所述媒体数据的所述输入状态相关联的一个或多个指纹来认证所述媒体数据的所述输入状态,其中,所述一个或多个指纹中的至少一个基于所述媒体数据的至少一部分而生成。
[0242] 列举的示例性实施例50是根据列举的示例性实施例47所述的方法,还包括:通过验证与所述媒体数据的所述输入状态相关联的一个或多个指纹来验证所述媒体数据,其中,所述一个或多个指纹中的至少一个基于所述媒体数据的至少一部分而生成。
[0243] 列举的示例性实施例51是根据列举的示例性实施例47所述的方法,其中,在输入媒体比特流中用所述媒体数据的所述输入版本来携带所述媒体数据的所述输入状态。
[0244] 列举的示例性实施例52是根据列举的示例性实施例47所述的方法,还包括:基于所述媒体数据的所述输入状态关掉一种或多种类型的媒体处理。
[0245] 列举的示例性实施例53是根据列举的示例性实施例47所述的方法,其中,用处理状态元数据描述所述媒体数据的所述输入状态;并且所述方法还包括:至少部分地基于所述处理状态元数据来创建媒体处理信令,其中,所述媒体处理信令表示所述媒体数据的所述输入状态;将所述媒体处理信令传输至所述媒体处理链中在所述第一装置下游的媒体处理装置。
[0246] 列举的示例性实施例54是根据列举的示例性实施例53所述的方法,其中,所述媒体处理信令被隐藏在所述媒体数据的输出版本中的一个或多个数据单元中。
[0247] 列举的示例性实施例55是根据列举的示例性实施例54所述的方法,其中,使用可逆数据隐藏技术执行所述媒体处理信令使得能够通过接受装置去除所述媒体数据的一个或多个修改。
[0248] 列举的示例性实施例56是根据列举的示例性实施例54所述的方法,其中,使用不可逆数据隐藏技术执行所述媒体处理信令使得不能够通过接受装置去除所述媒体数据的一个或多个修改中的至少一个。
[0249] 列举的示例性实施例57是根据列举的示例性实施例46所述的方法,还包括:从所述媒体处理链中的上游装置接收独立于对所述媒体数据执行的任意之前媒体处理的一种或多种类型的元数据。
[0250] 列举的示例性实施例58是根据列举的示例性实施例47所述的方法,其中,所述媒体数据的所述状态包括隐藏在一个或多个安全通信信道中的状态元数据的至少一部分。
[0251] 列举的示例性实施例59是根据列举的示例性实施例46所述的方法,还包括:更改所述媒体数据中的多个字节以存储所述媒体数据的状态的至少一部分。
[0252] 列举的示例性实施例60是根据列举的示例性实施例46所述的方法,其中,所述第一装置包括先进电视系统委员会(ATSC)编解码器、运动图像专家组(MPEG)编解码器、音频编解码器3(AC-3)编解码器以及增强型AC-3编解码器中的一个或多个。
[0253] 列举的示例性实施例61是根据列举的示例性实施例46所述的方法,其中,所述媒体处理链包括:预处理单元,所述预处理单元被配置成接受包括媒体内容的时域样本作为输入并且输出经处理的时域样本;编码器,所述编码器被配置成基于所述经处理的时域样本来输出所述媒体内容的经压缩的媒体比特流;信号分析和元数据校正单元,所述信号分析和元数据校正单元被配置成对所述经压缩的媒体比特流中的处理状态元数据进行验证;转码器,所述转码器被配置成修改所述经压缩的媒体比特流;解码器,所述解码其被配置成基于所述经压缩的媒体比特流来输出经解码的时域样本;以及后处理单元,所述后处理单元被配置成执行在所述经解码的时域样本中的所述媒体内容的后处理。
[0254] 列举的示例性实施例62是根据列举的示例性实施例61所述的方法,其中,所述第一装置包括所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的一个或多个。
[0255] 列举的示例性实施例63是根据列举的示例性实施例61所述的方法,其中,所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的至少一个基于从上游装置接收的处理元数据来执行所述媒体内容的自适应处理。
[0256] 列举的示例性实施例64是根据列举的示例性实施例47所述的方法,还包括:基于所述媒体数据的所述状态中的一个或多个媒体特征的描述来确定所述一个或多个媒体特征。
[0257] 列举的示例性实施例65是根据列举的示例性实施例64所述的方法,其中,所述一个或多个媒体特征包括根据帧、秒、分钟、用户定义的时间间隔、场景、歌曲、音乐片段和录音中的一个或多个所确定的至少一个媒体特征。
[0258] 列举的示例性实施例66是根据列举的示例性实施例64所述的方法,所述一个或多个媒体特征包括所述媒体数据的语义描述。
[0259] 列举的示例性实施例67是根据列举的示例性实施例64所述的方法,还包括:响应于确定所述一个或多个媒体特征,执行一个或多个特定操作。
[0260] 列举的示例性实施例68是根据列举的示例性实施例43所述的方法,还包括:向所述媒体处理链中的所述第二装置提供所述媒体数据的所述状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
[0261] 列举的示例性实施例69是一种方法,包括:用媒体处理链中的第一装置计算媒体数据的源帧的一个或多个数据速率降低表示;以及在所述媒体数据的状态自身内将所述一个或多个数据速率降低表示同时且安全地携带至所述媒体处理链中的第二装置;其中,所述方法由一个或多个计算装置执行。
[0262] 列举的示例性实施例70是根据列举的示例性实施例69所述的方法,其中,所述一个或多个数据速率降低表示被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
[0263] 列举的示例性实施例71是根据列举的示例性实施例69所述的方法,其中,所述一个或多个数据速率降低表示包括用于将在所述媒体数据内递送的音频和视频同步的同步数据。
[0264] 列举的示例性实施例72是根据列举的示例性实施例69所述的方法,其中,所述一个或多个数据速率降低表示包括(a)由媒体处理单元生成以及(b)被嵌入在所述媒体数据中的媒体指纹,以用于质量监视、媒体评级、媒体追踪或内容搜索中的一个或多个。
[0265] 列举的示例性实施例73是根据列举的示例性实施例69所述的方法,其中,所述一个或多个数据速率降低表示中的至少一个包括隐藏在一个或多个安全通信信道中的状态元数据的至少一部分。
[0266] 列举的示例性实施例74是根据列举的示例性实施例69所述的方法,还包括:更改所述媒体数据中的多个字节以存储所述一个或多个数据速率降低表示中的一个的至少一部分。
[0267] 列举的示例性实施例75是根据列举的示例性实施例69所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括先进电视系统委员会(ATSC)编解码器、运动图像专家组(MPEG)编解码器、音频编解码器3(AC-3)编解码器以及增强型AC-3编解码器中的一个或多个。
[0268] 列举的示例性实施例76是根据列举的示例性实施例69所述的方法,其中,所述媒体处理链包括:预处理单元,所述预处理单元被配置成接受包括媒体内容的时域样本作为输入并且输出经处理的时域样本;编码器,所述编码器被配置成基于所述经处理的时域样本来输出所述媒体内容的经压缩的媒体比特流;信号分析和元数据校正单元,所述信号分析和元数据校正单元被配置成对所述经压缩的媒体比特流中的处理状态元数据进行验证;转码器,所述转码器被配置成修改所述经压缩的媒体比特流;解码器,所述解码器被配置成基于所述经压缩的媒体比特流来输出经解码的时域样本;以及后处理单元,所述后处理单元被配置成执行所述经解码的时域样本中的所述媒体内容的后处理。
[0269] 列举的示例性实施例77是根据列举的示例性实施例76所述的方法,其中,所述第一装置和所述第二装置中的至少一个包括所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的一个或多个。
[0270] 列举的示例性实施例78是根据列举的示例性实施例76所述的方法,其中,所述预处理单元、所述信号分析和元数据校正单元、所述转码器、所述解码器以及所述后处理单元中的至少一个基于从上游装置接收的处理元数据来执行所述媒体内容的自适应处理。
[0271] 列举的示例性实施例79是根据列举的示例性实施例69所述的方法,还包括:向所述第二装置提供所述媒体数据的所述状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
[0272] 列举的示例性实施例80是一种方法,所述方法包括:基于由媒体数据的状态所表示的通过一个或多个上游媒体处理单元对所述媒体数据进行的响度处理的过去历史,用媒体处理链中的一个或多个计算装置自适应地处理所述媒体数据的输入版本,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个;在所述媒体处理链的端部将所述媒体数据的输出版本的响度和/或动态范围标准化为一致的响度值和/或动态范围值。
[0273] 列举的示例性实施例81是根据列举的示例性实施例80所述的方法,其中,所述一致的响度值包括如下响度值:(1)由用户控制或选择;或者(2)由所述媒体数据的所述输入版本中的状态进行自适应地发信号。
[0274] 列举的示例性实施例82是根据列举的示例性实施例80所述的方法,其中,关于所述媒体数据的对话(语音)部分计算所述响度值。
[0275] 列举的示例性实施例83是根据列举的示例性实施例80所述的方法,其中,关于所述媒体数据的绝对、相对和/或非选通部分计算所述响度值。
[0276] 列举的示例性实施例84是根据列举的示例性实施例80所述的方法,其中,所述一致的动态范围值包括以下动态范围值:(1)由用户控制或选择;或者(2)由所述媒体数据的所述输入版本中的状态自适应地发信号。
[0277] 列举的示例性实施例85是根据列举的示例性实施例84所述的方法,其中,关于所述媒体数据的对话(语音)部分计算所述动态范围值。
[0278] 列举的示例性实施例86是根据列举的示例性实施例84所述的方法,其中,关于所述媒体数据的绝对、相对和/或非选通部分计算所述动态范围值。
[0279] 列举的示例性实施例87是根据列举的示例性实施例80所述的方法,还包括:计算一个或多个响度值和/或动态范围增益控制值,以用于将所述媒体数据的所述输出版本归一化为一致的响度值和一致的动态范围;在所述媒体处理链的所述端部同时将所述一个或多个响度值和/或动态范围增益控制值携带在所述媒体数据的所述输出版本的状态内,其中,所述一个或多个响度值和/或动态范围增益控制值能够由另一装置使用以反向地应用所述一个或多个响度值和/或动态范围增益控制值,来恢复所述媒体数据的所述输入版本中的原始响度值和原始动态范围。
[0280] 列举的示例性实施例88是根据列举的示例性实施例87所述的方法,其中,表示所述媒体数据的所述输出版本的所述状态的所述一个或多个响度值和/或动态范围控制值被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
[0281] 列举的示例性实施例89是根据列举的示例性实施例80所述的方法,还包括:基于在携带所述媒体数据的一个或多个经编码的比特流内的所述媒体数据和/或所述媒体数据的所述状态,通过所述媒体处理链中的一个或多个计算装置中的至少一个对加密哈希值进行计算和传输。
[0282] 列举的示例性实施例90是根据列举的示例性实施例89所述的方法,还包括:通过接受装置认证所述加密哈希值;通过所述接受装置将所述媒体数据的所述状态是否有效的确定发信号至一个或多个下游媒体处理单元;以及响应于确定所述媒体数据的所述状态有效,通过所述接受装置将所述媒体数据的所述状态发信号至所述一个或多个下游媒体处理单元。
[0283] 列举的示例性实施例91是根据列举的示例性实施例89所述的方法,其中,表示所述媒体数据和/或所述媒体的所述状态的所述加密哈希值被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
[0284] 列举的示例性实施例92是根据列举的示例性实施例80所述的方法,其中,所述媒体数据的所述状态包括以下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
[0285] 列举的示例性实施例93是一种方法,所述方法包括:通过媒体处理链中的一个或多个计算装置来执行在一个或多个经编码的比特流内的有关和无关媒体数据位置和/或有关和无关媒体数据位置的状态的插入、提取或编辑中的一个,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
[0286] 列举的示例性实施例94是根据列举的示例性实施例93所述的方法,其中,在经编码的比特流内的所述一个或多个有关和无关媒体数据位置和/或有关和无关媒体数据位置的所述状态被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
[0287] 列举的示例性实施例95是一种方法,所述方法包括:通过媒体处理链中的一个或多个计算装置来执行在一个或多个经编码的比特流内的有关和无关媒体数据和/或有关和无关媒体数据的状态的插入、提取或编辑中的一个或多个,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
[0288] 列举的示例性实施例96是根据列举的示例性实施例95所述的方法,其中,在经编码的比特流内的所述一个或多个有关和无关媒体数据和/或有关和无关媒体数据的所述状态被携带在子流、一个或多个保留字段、add-bsi字段、一个或多个辅助数据字段或者一个或多个变换系数中的至少一个中。
[0289] 列举的示例性实施例97是根据列举的示例性实施例93所述的方法,还包括:从上游媒体处理装置向下游媒体处理装置提供所述媒体数据的状态,所述媒体数据的所述状态为如下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
[0290] 列举的示例性实施例98是一种媒体处理系统,所述媒体处理系统被配置成通过媒体处理链中的一个或多个计算装置基于在一个或多个经编码的比特流内的媒体数据和/或所述媒体数据的状态来计算并携带加密哈希值,所述媒体处理链包括心理声学单元、变换、波形/空间音频编码单元、编码器、解码器、转码器或流处理器中的一个或多个。
[0291] 列举的示例性实施例99是根据列举的示例性实施例98所述的媒体处理系统,其中,所述媒体数据的所述状态包括以下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
[0292] 列举的示例性实施例100是一种媒体处理系统,所述媒体处理系统被配置成基于从一个或多个安全通信信道接收的媒体数据的状态来自适应地处理所述媒体数据。
[0293] 列举的示例性实施例101是根据列举的示例性实施例100所述的媒体处理系统,其中,所述媒体处理系统包括处理节点中的一个或多个,并且其中,所述处理节点包括媒体递送系统、媒体分发系统和媒体呈现系统。
[0294] 列举的示例性实施例102是根据列举的示例性实施例101所述的媒体处理系统,其中,所述一个或多个安全通信信道包括横跨两个或更多个经压缩/经编码的比特流和PCM处理节点的至少一个安全通信信道。
[0295] 列举的示例性实施例103是根据列举的示例性实施例101所述的媒体处理系统,其中,所述一个或多个安全通信信道包括横跨两个单独媒体处理装置的至少一个安全通信信道。
[0296] 列举的示例性实施例104是根据列举的示例性实施例101所述的媒体处理系统,其中,所述一个或多个安全通信信道包括横跨单个媒体处理装置中的两个媒体处理节点的至少一个安全通信信道。
[0297] 列举的示例性实施例105是根据列举的示例性实施例100所述的媒体处理系统,其中,所述媒体处理系统被配置成独立于在媒体处理链中如何命令媒体处理系统而执行自治媒体处理操作,所述媒体处理系统是所述媒体处理链的一部分。
[0298] 列举的示例性实施例106是根据列举的示例性实施例100所述的媒体处理系统,其中,所述媒体处理数据的所述状态包括以下中的一个或多个:(a)媒体指纹;(b)处理状态元数据;(c)所提取的媒体特征值;(d)一个或多个媒体类类型或子类型描述和/或媒体类类型或子类型值;(e)媒体特征类和/或子类概率值;(f)加密哈希值;或者(f)媒体处理信令。
[0299] 列举的示例性实施例107是一种媒体处理系统,所述媒体处理系统被配置成执行在列举的示例性实施例1至99中所述的方法中的任一种方法。
[0300] 列举的示例性实施例108是一种包括处理器的装置,所述装置被配置成执行在列举的示例性实施例1至99中所述的方法中的任一种方法。
[0301] 列举的示例性实施例107是一种包括软件指令的计算机可读存储介质,所述软件指令在被一个或多个处理器执行时,使得执行在列举的示例性实施例1至99中所述的方法中的任一种方法。
[0302] 9.等同物、扩展、替换及其他
[0303] 在上述说明书中,本发明的可能实施例已经参照可能随着实现的不同而改变的许多具体细节进行描述。因此,本发明是什么以及申请人意图使本发明是什么的唯一和排他性指标是源自本申请的权利要求的集合,其处于这样的权利要求发布的具体形式(包括任何后续校正)。针对在这样的权利要求中包含的术语而在文中明确阐明的定义将主导在权利要求中所使用的这样的术语的含义。因此,未在权利要求中明确记载的限制、元素、性质、特征、优势或属性不应当以任何方式限制这样的权利要求的范围。因此,说明书和附图应被视为说明性而非限制性的意义。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈