首页 / 专利库 / 信号处理 / 双音多频 / 多声道音频信号的双耳演示

多声道音频信号的双演示

阅读:490发布:2020-05-11

专利汇可以提供多声道音频信号的双演示专利检索,专利查询,专利分析的服务。并且描述了将多声道音频 信号 双 耳 演示为双耳 输出信号 (24)。该多声道 音频信号 包含多个音频信号(141-14N)被降混的立体声降混信号(18)及侧信息,且该侧信息包含对于每一音频信号指示出各自音频信号已分别混合至立体声降混信号(18)的第一声道及一第二声道中的程度的降混信息(DMG,DCLD),该侧信息还包含音频信号的目标位准信息及目标内互相关信息,该目标内互相关信息描述在多个音频信号的音频信号对之间的相似性。基于第一演示指示,从立体声降混信号(18)的第一及第二声道来运算初步双耳信号(54)。产生去相关信号作为对该立体声降混信号(18)的第一及第二声道的单降混(58)的 感知 等效物,且然而与该单降混(58)去相关。根据第二演示指示从去相关信号(62)运算校正双耳信号(64),且初步双耳信号(54)与校正双耳信号(64)相混合,以获得该双耳输出信号(24)。,下面是多声道音频信号的双演示专利的具体信息内容。

1.一种用于将多声道音频信号(21)双演示为双耳输出信号(24)的设备,所述多声道音频信号(21)包含多个音频信号(141-14N)被降混的立体声降混信号(18),且包含侧信息(20),所述侧信息(20)包含对于每一音频信号指示出各自音频信号已分别混合至立体声降混信号(18)的第一声道(L0)及第二声道(R0)中的程度的降混信息(DMG,DCLD),所述侧信息(20)还包含多个音频信号的目标位准信息(OLD)及目标内互相关信息(IOC),所述目标内互相关信息(IOC)描述在所述多个音频信号的音频信号对之间的类似性,所述设备包括:
l,m
演示单元(47),所述演示单元(47)配置成基于第一演示指示(G )从所述立体声降混信号(18)的第一及第二声道来运算初步双耳信号(54),所述第一演示指示根据目标内互相关信息、目标位准信息、降混信息、使每一音频信号相关于虚拟扬声器位置的演示信息及HRTF参数而定;
去相关信号产生器(50),所述去相关信号产生器(50)配置成产生去相关信号 ,所述去相关信号 作为对所述立体声降混信号(18)的第一及第二声道的单降混(58)的感知等效物,且然而与所述单降混(58)去相关;
l,m
湿式演示单元(52),所述湿式演示单元(52)配置成根据第二演示指示(P2 )从所述去l,m
相关信号(62)运算校正双耳信号(64),所述第二演示指示(P2 )依据所述目标内互相关信息、所述目标位准信息、所述降混信息、所述演示信息及所述HRTF参数而定;及混合阶段(53),所述混合阶段(53)配置成将初步双耳信号(54)与校正双耳信号(64)相混合,以获得该双耳输出信号(24)。
2.根据权利要求1所述的设备,其中所述去相关信号产生器(50)进一步配置成:在产生去相关信号 时,将立体声降混信号(18)的第一及第二声道求和,并且对所述和去相关以获得所述去相关信号(62)。
3.根据权利要求1所述的设备,进一步配置成:
评估(80)初步双耳信号(54)的实际双耳声道内相干性值;
确定(82)目标双耳声道内相干性值;及
基于实际双耳声道内相干性值及目标双耳声道内相干性值,设定(84)混合率,所述混合率确定由初步双耳信号(54)的运算(47)处理的立体声降混信号(18)的第一及第二声道以及由去相关信号的产生(50)以及由校正双耳信号(64)的运算(52)处理的立体声降混信号(18)的第一及第二声道分别影响双耳输出信号(24)的程度。
4.根据权利要求3所述的设备,其中所述设备进一步配置成在设定所述混合率时,基l,m
于实际双耳声道内相干性值及目标双耳声道内相干性值,通过设定第一演示指示(G )及l,m
第二演示指示(P2 )来设定所述混合率。
5.根据权利要求3所述的设备,其中所述设备进一步配置成在确定目标双耳声道内相干性值时,基于目标协方差矩阵F=A E A*的分量来执行所述确定,其中“*”表示共轭转置,A是使音频信号分别与双耳输出信号的第一及第二声道相关的目标双耳演示矩阵且由演示信息及HRTF参数来唯一决定,且E是由目标内互相关信息及目标位准信息唯一决定的矩阵。
6.根据权利要求5所述的设备,其中所述演示单元(47)进一步配置成在运算初步双耳信号(54)时使得
其中X是2x1的向量,所述X的分量对应于立体声降混信号(18)的第一及第二声道,是2x1的向量,所述 的分量对应于初步双耳信号(54)的第一及第二声道,G是表示第一演示指示且具有2x2的大小的第一演示矩阵,即
其中,x∈{1,2},
x x x *
其中 、 及 是大小为2x2的子目标协方差矩阵F 的系数,即F=A E A,所述第一条件依据所述实际双耳声道内相干性值与所述目标双耳声道内相干性值的其中之一是否与相干性临界值具有预定的关系而定,
x
其中 是NxN矩阵E 的系数,N是音频信号的数目,eij是大小为
NxN的矩阵E的系数,且 由降混信息唯一地决定,其中 指示音频信号i已混合至立体声降混信号(18)的第一声道中的程度,且 定义音频信号i已混合至立体声输出信号(18)的第二声道中的程度,
x x x x * x x
其中V 是标量,即V=DE(D)+ε,且D 是1xN的矩阵,D 的系数是 ,
其中所述设备进一步配置成在运算校正双耳输出信号(64)时使得
其中Xd是去相关信号, 是2x1的向量,所述 的分量对应于所述校正双耳信号(64)的第一及第二声道,且P2是表示第二演示指示且具有2x2大小的第二演示矩阵,即其中增益PL及PR定义为
其中c11及c22是该初步双耳信号(54)的2x2协方差矩阵C的系数,即
*
其中V是标量,即V=WEW+ε,W是大小为1xN的单降混矩阵,其系数由 来唯一决定,且 为
其中所述设备进一步配置成在评估该实际双耳声道内相干性值时确定实际双耳声道内相干性值为
其中所述设备进一步配置成在确定目标双耳声道内相干性值时确定目标双耳声道内相干性值为

其中所述设备进一步配置成在设定混合率时根据下式确定旋转α及β,
其中ε表示用于避免分别被0除的较小常数。
7.根据权利要求1所述的设备,其中所述演示单元(47)进一步配置成在运算初步双耳信号(54)时使得
其中X是2x1的向量,所述X的分量对应于立体声降混信号(18)的第一及第二声道,是2x1向量,所述 的分量对应于初步双耳信号(54)的该第一及第二声道,G是表示第一演示指示且具有2x2大小的第一演示矩阵,即
* * -1
G=AED(DED) ,
其中E是由目标内互相关信息及目标位准信息来唯一决定的矩阵;
D是2xN的矩阵,其系数dij由降混信息唯一决定,其中d1j指示音频信号j已混合至立体声降混信号(18)的第一声道中的程度,且d2j定义音频信号j已混合至立体声输出信号(18)的第二声道中的程度;
A是使音频信号分别与双耳输出信号的第一及第二声道相关的目标双耳演示矩阵,且由演示信息及HRTF参数来唯一确定,
其中所述设备进一步配置成在运算校正双耳输出信号(64)时执行使得
其中Xd是去相关信号, 是2x1的向量, 的分量对应于校正双耳信号(64)的第一及第二声道,且P是表示第二演示指示且具有2x2大小的第二演示矩阵,且被确定以使得* * * *
PP=ΔR,其中ΔR=AEA-G0DEDG0,而G0=G。
8.根据权利要求1所述的设备,其中所述演示单元(47)进一步配置成在运算初步双耳信号(54)时使得
其中X是2x1的向量,X的分量对应于立体声降混信号(18)的第一及第二声道, 是
2x1的向量, 的分量对应于初步双耳信号(54)的第一及第二声道,G是表示该第一演示指示且具有2x2大小的第一演示矩阵,即
* * -1 * * * * * 1/2 * * -1
G=(G0DEDG0) (G0DEDG0AEAG0DEDG0) (G0DEDG0) G0
* -1
其中G0=AED(DED*)
其中E是由目标内互相关信息及目标位准信息来唯一决定的矩阵;
D是2xN的矩阵,D的系数dij由降混信息来唯一决定,其中d1j指示音频信号j已混合至立体声降混信号(18)的第一声道中的该程度,且d2j定义音频信号j已混合至立体声输出信号(18)的第二声道中的程度;
A是使音频信号分别与双耳输出信号的第一及第二声道相关的目标双耳演示矩阵,且由演示信息及HRTF参数来唯一确定,
其中所述设备进一步配置成在运算校正双耳输出信号(64)时使得
其中Xd是去相关信号, 是2x1的向量,所述 的分量对应于所述校正双耳信号(64)的第一及第二声道,且P是表示第二演示指示且具有2x2大小的第二演示矩阵,并且被确定* * * *
使得PP=(AEA-GDEDG)/V,其中V是标量。
9.根据权利要求1所述的设备,其中所述降混信息(DMG,DCLD)是时间相关的,且目标位准信息(OLD)及目标内互相关信息(IOC)是时间及频率相关的。
10.一种用于将多声道音频信号(21)双耳演示为双耳输出信号(24)的方法,所述多声道音频信号(21)包含多个音频信号(141-14N)被降混的立体声降混信号(18),且包含侧信息(20),所述侧信息(20)包含对于每一音频信号指示出各自音频信号已分别混合至立体声降混信号(18)的第一声道(L0)及第二声道(R0)中的程度的降混信息(DMG,DCLD),所述侧信息(20)还包含多个音频信号的目标位准信息(OLD)及目标内互相关信息(IOC),所述目标内互相关信息(IOC)描述在所述多个音频信号的音频信号对之间的类似性,所述方法包括:
l,m
基于第一演示指示(G )从所述立体声降混信号(18)的第一及第二声道来运算初步双耳信号(54),所述第一演示指示根据目标内互相关信息、目标位准信息、降混信息、使每一音频信号相关于虚拟扬声器位置的演示信息及HRTF参数而定;
产生去相关信号 所述去相关信号 作为对所述立体声降混信号(18)
的第一及第二声道的单降混(58)的感知等效物,且然而与所述单降混(58)去相关;
根据第二演示指示 从所述去相关信号(62)运算校正双耳信号(64),所述第二演示指示 依据所述目标内互相关信息、所述目标位准信息、所述降混信息、所述演示信息及所述HRTF参数而定;及
将初步双耳信号(54)与校正双耳信号(64)相混合,以获得该双耳输出信号(24)。

说明书全文

多声道音频信号的双演示

技术领域

[0001] 本申请涉及多声道音频信号的双耳演示(rendering)。

背景技术

[0002] 已经提出许多音频编码算法,以有效地编码或压缩一个声道的音频数据,即单音频信号。使用心理声学,适当地调节音频样本、将其量化或甚至设为零,以将不相关性从例如PCM编码音频信号中移除。也执行冗余的移除。
[0003] 更进一步地,已经使用在立体声音频信号的左声道与右声道之间的类似性,以有效地编码/压缩立体声音频信号。
[0004] 然而,即将的应用引起对音频编码算法的进一步需求。例如,在电话会议、计算机游戏、音乐性能等中,必须并行地发送部分地或甚至完全不相关联的多个音频信号。为了保持用以对这些音频信号进行编码所需要的位率足够低,以与低位率的发送应用兼容,近来已提出将多个输入音频信号降混为降混信号(诸如一立体声或甚至单降混信号)的音频编译码器。例如,MPEG环绕标准以该标准所指示的方式将输入声道降混为降混信号。通过使-1 -1 -1 -1用所谓的OTT 及TTT 方的来执行该降混,OTT 及TTT 方块分别用以将二个信号降混为一个信号且将三个信号降混为二个信号。为了降混多于三个的信号,使用这些方块的分-1
层结构。除了输出单降混信号,每一OTT 方块输出在二个输入声道之间的声道位准差、及表示在二个输入声道之间的相干性或互相关性的声道内相干性参数/互相关性参数。参数-1
与MPEG环绕数据流中的MPEG环绕编码器的降混信号一起输出。类似地,每一TTT 方块发送能够从产生的立体声降混信号中恢复三个输入声道的声道预测系数。声道预测系数也作为MPEG环绕数据流中的侧信息被发送。该MPEG环绕译码器通过使用发送的侧信息升混该降混信号,且恢复输入至该MPEG环绕编码器中的原始声道。
[0005] 然而,不幸的是,MPEG环绕不能满足许多应用的所有需要。例如,该MPEG环绕译码器专用于升混该MPEG环绕编码器的降混信号,使得MPEG环绕编码器的输入声道恢复成原先的样子。换句话说,该MPEG环绕数据流专用于通过使用已用以编码的扬声器配置或由例如立体声的典型配置来播放。
[0006] 然而,根据一些应用,如果扬声器的配置可在译码器端自由地改变,将是有利的。
[0007] 为了处理后者的需要,当前设计了空间音频目标编码(SAOC)标准。每一声道作为单个的目标来对待,且将所有的目标降混为降混信号。也就是说,将目标作为彼此独立而不依附于任何特定的扬声器配置,但能够任意地将(虚拟的)扬声器定位于译码器端的音频信号来处理。单个的目标可包含单个的声源,例如乐器或声道。不同于MPEG环绕译码器,SAOC译码器可自由地单个地升混该降混信号,以在任何扬声器配置上回放单个的目标。为了使SAOC译码器能够恢复已编码于SAOC数据流中的单个目标,目标位准差和对于一起形成立体声(或多声道)信号的目标的目标内互相关参数作为SAOC比特流中的侧信息被发送。除此之外,SAOC译码器/转码器提供具有揭示如何将单个目标降混为降混信号的信息。因而,在译码器端,可能通过使用用户控制的演示信息来恢复单个SAOC声道,且在任何扬声器配置上演示该信号。
[0008] 然而,虽然上述的编译码器(即MPEG环绕及SAOC)能够在具有多于二个扬声器的扬声器配置上发送及演示多声道音频内容,但是以耳机作为音频再生系统的需求日益增加,使得这些编译码器也必须能够在耳机上演示音频内容。对比于扬声器的回放,在头部里感知在耳机中再现的立体声音频内容。在某些物理位置处,不存在从声源至耳膜的声学路径的影响,致使由于确定声音源的所感知的方位、高度及距离的线索实质上缺失了或极其不准确,而使得空间图像听起来不自然。因而,为了解决在耳机上由于不准确或缺少声源定位线索所导致的不自然的声音阶段,已经提出各种技术来模拟虚拟的扬声器装备。思想是将声源定位的线索添加至每一扬声器信号上。如果空间声学特性包括在这些测量数据中,那么通过使用所谓的头部相关转换函数(HRTF)或双耳空间脉冲响应(BRIR)来过滤音频信号而实现该添加。然而,由上述的函数来过滤每一扬声器信号将使得需要在译码器/再生端具有显著较高量的运算能。特别的是,必须首先执行在“虚拟”扬声器位置上演示多声道音频信号,其中,接着通过各自的转换函数或脉冲响应来过滤所获得的每一扬声器信号,以获得双耳输出信号的左声道及右声道。更糟糕的是:由于为了实现虚拟扬声器信号,相当大量的合成去相关信号将必须混合至这些升混信号中,以补偿在原始不相关音频输入信号之间的相关性(该相关性由将多个音频输入信号降混为降混信号而产生),所获得的双耳输出信号从而将具有差的音频质量
[0009] 在目前的SAOC编译码器版本中,侧信息内的SAOC参数允许使用原则上包括耳机的任何播放装备,来进行音频目标的用户交互空间演示。对耳机的双耳演示允许使用头部相关转换函数(HRTF)参数来在3D空间中对虚拟的目标位置进行空间控制。例如,可通过将这种情况限制为单降混的SAOC情况(其中将输入信号均等地混合至单声道中),而实现在SAOC中的双耳演示。不幸的是,单降混使得所有音频信号必须混合为共同的单降混信号,使得最大程度地失去在原始音频信号之间的原始相关性特性,因而双耳演示输出信号的演示质量不是最佳的。
[0010] 因而,本发明的目的是提供用以双耳演示多声道音频信号的方案,使得双耳演示的结果获得改良,同时避免对由原始音频信号组成降混信号的自由度的限制。
[0011] 此目的由根据权利要求1所述的装置及根据权利要求10所述的方法来实现。

发明内容

[0012] 本发明的基本思想之一是,与从单降混音频信号开始双耳演示多声道音频信号相比,从立体声降混信号开始双耳演示多声道音频信号更加有利,原因是:由于极少的目标存在于立体声降混信号中的事实,在单个音频信号之间的去相关量被更佳地保存;且因为在编码器端在立体声降混信号的二个声道之间选择的可能性,使不同降混声道中的音频信号之间的相关性特性能够被部分地保存。换句话说,由于编码器的降混,目标内相干性被退化,这在译码端必须考虑,其中在译码端双耳输出信号的声道内相干性对于虚拟声源宽度的感知是重要的测量,而使用立体声降混代替单降混降低了退化量,使得通过双耳演示立体声降混信号来恢复/生成适当量的声道内相干性,能实现更佳的质量。
[0013] 本申请案的另一主要思想是,前述ICC(ICC=声道内相干性)控制可通过去相关信号来实现,该去相关信号形成对立体声降混信号之降混声道的单降混的感知等效物,然而是与该单降混去相关。因而,立体声降混信号代替单降混信号的使用保存了多个音频信号的一些相关性特性,而这些特性在使用单降混信号时会失去,双耳演示可基于表示第一及第二降混声道二者的去相关信号,从而与单独地去相关每个立体声降混声道相比,减少了去相关或合成信号处理量。附图说明
[0014] 参照附图,更详细地描述本申请的优选实施例,其中:
[0015] 图1示出可实施本发明实施例的SOAC编码器/译码器安排的方块图;
[0016] 图2示出单音频信号的频谱表示的示意及说明图;
[0017] 图3示出根据本发明实施例的能够双耳演示的音频译码器的方块图;
[0018] 图4示出根据本发明实施例的第3图的降混预处理方块的方块图;
[0019] 图5示出根据第一替代方式,由第3图的SAOC参数处理单元42所执行的步骤的流程图;以及
[0020] 图6示出说明收听测试结果的图形。

具体实施方式

[0021] 在以下更详细地描述本发明之实施例前,先说明SAOC编译码器及SAOC比特流中所发送的SAOC参数,以使能够更容易理解下面所更详细描述的特定实施例。
[0022] 图1示出SAOC编码器10及SAOC译码器12的大致安排。该SAOC编码器10接收作为输入的N个目标,即音频信号141至14N。特别的是,编码器10包含降混器16,该降混器16接收降混信号141至14N且将它们降混为降混信号18。在第1图中,该降混信号示例地示出为立体声降混信号。然而,该编码器10及译码器12也可能以单模式来操作,在这种情况下,该降混信号将是单降混信号。然而,下面的描述专注于立体声降混的情况。立体声降混信号18的声道被表示为LO及RO。
[0023] 为了使SAOC译码器12能够恢复单个目标141至14N,降混器16向SAOC译码器12提供包括SAOC参数的侧信息,SAOC参数包括目标位准差(OLD)、目标内互相关参数(IOC)、降混增益值(DMG)及降混声道位准差(DCLD)。包括SAOC参数的侧信息20与该降混信号18一起形成由SAOC译码器12所接收的SAOC输出数据流21。
[0024] 该SAOC译码器12包含接收降混信号18及侧信息20的升混器22,以通过输入至SAOC译码器12的演示信息26及HRTF参数27所指示的演示,来在任何使用者所选定的声道组241至24M’上恢复及演示音频信号141及14N,其意思在下面予以更详细地描述。下面的描述专注于双耳演示,其中M’=2,且输出信号特别地专用于耳机的再现,尽管译码12也能够根据使用者输入26中的指令而在其它(非双耳)扬声器配置上演示。
[0025] 音频信号141至14N可以任何编码域(例如以时域或频谱域)输入至降混器16中。在实例中,音频信号141至14N以时域(诸如PCM编码)输入至降混器16中,降混器16使用诸如混合QMF组的滤波器组(例如具有对于最低频带尼奎斯特滤波器扩展以增加其频率分辨率的一组复指数调变滤波器),以将信号转换至频谱域中,其中音频信号在特定的滤波器组分辨率下,表示在与不同频谱部分相关联的多个子带中。如果音频信号141至14N已在降混器16所期望的表示中,那么同样地不必执行频谱分解。
[0026] 图2示出在上述的频谱域中的音频信号。如所见的,音频信号表示为多个子带信号。每一子带信号301至30P由一序列的子带值组成,该序列子带值由小方框32指出。如所见的,子带信号301至30P的子带值32在时间上互相同步,使得对于每一个连续滤波器组的时隙34,每一子带301至30P恰好包含一个子带值32。如频率轴35所说明,子带信号301至30P与不同的频率区域相关联,且如时间轴37所说明,滤波器组的时隙34在时间中连续布置。
[0027] 如上所述,降混器16运算来自输入音频信号141至14N的SAOC参数。降混器16以时间/频率分辨率来执行此运算,该时间/频率分辨率可相对于由滤波器组的时隙34及子带分解所确定的原始的时间/频率分辨率而降低特定量,其中该特定量可通过各自的语法元素bsFrameLength及bsFreqRes,在侧信息20中被通过信号发送至译码器侧。例如,连续滤波器组的时隙34的群组可分别形成36。换句话说,音频信号可分割为例如在时间中交迭或在时间中相邻的帧。在这种情况下,bsFrameLength可定义每个帧的时隙38参数的数目,即供诸如OLD及IOC之SAOC参数在SAOC帧36中被运算的时间单元,且bsFreqRes可定义SAOC参数被运算的处理频带的数目,即频域被细分割且SAOC参数被确定及发送的频带的数目。通过此方式,每一帧分割为在图2中由虚线所示例表示的时间/频率瓦片39。
[0028] 该降混器16根据下面的公式计算SAOC参数。特别的是,降混器16对每一目标i运算目标位准差,为
[0029]
[0030] 其中和及指数n及k分别贯穿所有滤波器组的时隙34及属于特定时间/频率瓦片39的所有滤波器组的子带30。因而,音频信号或目标i的所有子带值xi的能量被相加,且被归一化(normalize)为所有目标或音频信号中的瓦片最高能量值。
[0031] 而且,SAOC降混器16能够运算不同输入目标141至14N对的相对应时间/频率瓦片的相似性测量。虽然SAOC降混器16可运算在所有的输入目标141至14N对之间的相似性测量,但是降混器16也可抑制相似性测量的发信或限制相似性测量的运算为形成共同立体声声道的左声道或右声道的音频目标141至14N。在任何情况下,该相似性测量被称为目标内互相关参数IOCi,j。该运算如下
[0032]
[0033] 其中增益指数n及k贯穿属于特定时间/频率瓦片39的所有子带值,且i及j表示音频目标141至14N的特定对。
[0034] 降混器16通过使用用于每一目标141至14N的增益因素,降混目标141至14N。
[0035] 在立体降混信号的情况(此情况在第1图中予以示例地表示)下,增益因素D1,i用于目标i,且接着对所有被增益放大的目标计算总和,以获得左降混声道L0,且增益因素D2,i用于目标i,且接着对被增益放大的目标计算总和,以获得右降混声道R0。因而,因子D1,i及D2,i形成大小为2xN的降混矩阵D,其中
[0036]
[0037] 盖降混指示通过降混增益DMGi发信至译码器侧,且在立体声降混信号的情况下,通过降混声道位准差DCLDi而发信至译码器侧。
[0038] 根据下式计算降混增益:
[0039]-9
[0040] 其中ε是低于最大信号输入的诸如10 或96dB的小数目。
[0041] 对于DCLDs使用下面的公式:
[0042]
[0043] 降混器16根据下式产生立体声降混信号:
[0044]
[0045] 因而,在上述的公式中,参数OLD及IOC是音频信号的函数,且参数DMG及DCLD是D的函数。同时,应注意的是D可随时间变化。
[0046] 在双耳演示(在此所描述的译码器操作模式)的情况下,输出信号自然地包含两个声道,即M’=2。然而,上述的演示信息26指示的是如何将输入信号141至14N分布至虚拟的扬声器位置1至M上,其中M可高于2。因而,该演示信息可包含指示如何将输入目标obji分布至虚拟的扬声器位置j上,以获得虚拟扬声器信号vsj的演示矩阵M,其中j在1与M之间,且i在1与N之间,其中
[0047]
[0048] 该演示信息可以任何方式由使用者提供或输入。更有可能的是,演示信息26包含在SAOC流21自身的侧信息中。当然,可允许该演示信息随时间变化。例如,时间分辨率可等于帧分辨率,即可为每帧36来定义M。即使频率上的M变化也是可能的。例如,可为每一瓦片39来定义M。下面,例如 将用于表示M,其中m表示频带且1表示参数时间片段38。
[0049] 最后,在下面中,将提及HRTF 27。此等HRTF描述如何将虚拟扬声器信号j分别在左耳及右耳上演示,使得双耳线索获得保存。换句话说,对于每一虚拟扬声器位置j,存在两个HRTF,即一个对应于左耳,且另一个对应于右耳。如下面更详细的描述,可能的是,译码器提供具有HRTF参数27,HRTF参数27包含对于每一虚拟扬声器位置j,描述在由双耳所接收的信号之间且来自于同一声源j的相移偏移量Φj,及分别对应于右耳及左耳,描述由于收听者的头部而产生双耳衰减的两个振幅放大/衰减Pi,R及Pi,L。该HRTF参数27可是关于时间的常数,但是在可能等于该SAOC参数分辨率的特定频率分辨率(即每个频带)下来定义。在下面中,HRTF参数以 及 所给定,其中m表示频带。
[0050] 图3更详细地示出第1图中的SAOC译码器12。如图所示,译码器12包含降混预处理单元40及SAOC参数处理单元42。该降混预处理单元40配置用以接收该立体声降混信号18,且将其转换为双耳输出信号24。该降混预处理单元40以被SAOC参数处理单元42所控制的方式来执行此转换。特别的是,该SAOC参数处理单元42向降混预处理单元40提供演示指示信息44,该演示指示信息44是由该SAOC参数处理单元42从SAOC侧信息20及演示信息26推导出的。
[0051] 图4更详细地示出根据本发明的实施例的降混预处理单元40。特别的是,根据图4,该降混预处理单元40包含并行连接于输入(此处接收立体声降混信号18,即Xn,k)与单元40的输出(此处输出双耳输出信号 )之间的两个路径,即称为干式路径46(供干式演示单元串行连接)的路径及湿式路径48(供去相关信号产生器50及湿式演示单元52串行连接),其中混合阶段53将两个路径46及48的输出相混合以获得最终的结果,即双耳输出信号24。
[0052] 如下面将更详细的描述,该干式演示单元47配置成从立体声降混信号18运算初步双耳输出信号54,其中该初步双耳输出信号54表示该干式演示路径46的输出。该干式演示单元47基于由该SAOC参数处理单元42所提供的干式演示指示来执行其运算。在下n,k面所描述的特定实施例中,该演示指示由干式演示矩阵G 来定义。上述的提供在图4中通过虚线箭头来说明。
[0053] 该去相关信号产生器50配置成通过降混由该立体声降混信号18产生去相关信号使得其对该立体声降混信号18的右及左声道的单降混是感知等效的,然而对单降混是去相关的。如图4所示,该去相关产生器50可包含相加器56,其用以在例如比率1∶1下或在例如特定其它的固定比率下,对该立体声降混信号18的左及右声道求和,以获得各自的单降混58,该相加器56之后是去相关器60,用以产生前述的去相关信号 该去相关器60可例如包含一个或多个延迟级,以从被延迟版本或该单降混58的被延迟版本的加权和或甚至关于该单降混58与单降混的一个(多个)被延迟版本的加权和,形成该去相关信号 当然,对于去相关器60存在许多的替代方式。实际上,分别由去相关器60及去相关信号产生器50所执行的去相关趋于在通过上述对应于目标内互相关的公式测量时,降低该去相关信号62与该单降混58之间的声道内相干性,以在通过对于目标位准差的上述公式来测量时实质上维持其目标位准差。
[0054] 该湿式演示单元52配置成从该去相关信号62运算校正双耳输出信号64,从而所获得的校正的双耳输出信号64表示该湿式演示路径48的输出。该湿式演示单元52使其运算基于湿式演示指示,该湿式演示指示依据由干式演示单元47所使用的干式演示指示n,k而定,如下所述。因此,在图4中表示为P2 的湿式演示指示从SAOC参数处理单元42中获得,如图4中由虚线箭头所指出的。
[0055] 该混合阶段53将干式及湿式演示路径46及48的双耳输出信号54及64二者相混合,以获得最终的双耳输出信号24。如图4所示,该混合阶段53配置成将双耳输出信号54及56的左及右声道单个地相混合,且因此可分别包含用以对其左声道求和的相加器66,及用以对其右声道求和的相加器68。
[0056] 在描述完SAOC译码器12的结构及降混预处理单元40的内部结构之后,下面来描述其的功能。特别的是,下面所描述的详细实施例对于SAOC参数处理单元42呈现出不同的替代方式,来推导出演示指示信息44,从而控制双耳输出信号24的声道内相干性。换句话说,该SAOC参数处理单元42不仅运算该演示指示信息44,还同时控制混合率,通过该混合率,将初步及校正双耳信号55及64混合为最终的双耳输出信号24。
[0057] 根据第一替代方式,该SAOC参数处理单元42配置成控制上述的混合率,如图5所示。特别的是,在步骤80中,该初步双耳输出信号54的实际双耳声道内的相干性值由单元42来确定或评估。在步骤82中,SAOC参数处理单元42确定目标双耳声道内相干性值。从而基于确定的声道内相干性值,在步骤84中,该SAOC参数处理单元42设定上述的混合率。
特别的是,步骤84可包含,该SAOC参数处理单元42基于分别在步骤80及82中所确定出的声道内相干性值,分别适当地运算由干式演示单元42所使用的干式演示指示,及由湿式演示单元52所使用的湿式演示指示。
[0058] 下面,将在数学的基础上来描述上述的替代方式。在SAOC参数处理单元42确定演示指示信息44方面,替代方式相互不同,该演示指示信息44包括固有地控制干式与湿式演示路径46与48之间之混合率的干式演示指示及湿式演示指示。根据图5所述的第一替代方式,该SAOC参数处理单元42确定目标双耳声道内的相干性值。如下面将更详细的描* *述,单元42可基于目标相干性矩阵F=A·E·A 的分量来执行此确定,其中“”表示共轭转置,A是目标双耳演示矩阵,该目标双耳演示矩阵使目标/音频信号1…N分别相关于双耳输出信号24及初步双耳输出信号54的右声道及左声道,且由演示信息26及HRTF参数
27推导出,且E是矩阵,该矩阵的系数由IOCijl,m及目标位准差 推导出。该运算可执行于SAOC参数的空间/时间分辨率中,即对于每一(l,m)。然而,更可能的是,在各自的结果之间内插的较低的分辨率中执行该运算。后者的陈述对于下面提出的后续运算也是适合的。
[0059] 因为目标双耳演示矩阵A使输入目标1…N分别相关于该双耳输出信号24及初步双耳输出信号54的左声道与右声道,所以其大小为2xN,即
[0060]
[0061] 上述矩阵E的大小为NxN,其中其系数定义为
[0062]
[0063] 因而,该矩阵E为
[0064] 具有沿着其对线的目标位准差,即
[0065] eii=OLDi
[0066] 因为对于i=j,IOCij=1,而矩阵E具有在其对角线外的矩阵系数,矩阵系数表示分别由目标内互相关测量IOCij加权(否则假设IOCij大于0而系数设为0)的目标i及j的目标位准差的几何平均值。
[0067] 与此进行比较,下面所描述的第二及第三替代方式通过找出方程式的最小平方意义上的最佳匹配,以求获得演示矩阵,该方程式通过干式演示矩阵G将立体声降混信号18映像于初步双耳输出信号54上,以使目标演示方程式经由矩阵A将输入目标映像于该“目标”双耳输出信号24上,其中该第二及第三替代方式在最佳匹配形成方面及湿式演示矩阵选择方面相互不同。
[0068] 为了能够更容易地理解下面的替代,在数学上重新描述上述的图3及图4的描述。n,k
如上所述,立体声降混信号18X 与SAOC参数20及用户所定义的演示信息26一起到达SAOC译码器12。而且,SAOC译码器12及SAOC参数处理单元42分别如箭头所指示,对HRTF数据库27进行存取。发送的SAOC参数包含对于所有N个目标i、j的目标位准差目标内互相关值 降混增益 及降混声道的位准差 其中“l,m”表
示各自的时间/频谱瓦片39,其中l表示时间且m表示频率。对于所有的虚拟扬声器位置或虚空间声源位置q,对于左(L)及右(R)双耳声道及对于所有的频带m,HRTF参数27示例地假设以 及 给定。
[0069] 降混预处理单元40配置成运算双耳输出 如从立体声降混Xn,k及去相关单降混信号 来运算,为
[0070]
[0071] 该去相关信号 感知地等效于该立体声降混信号18的左及右降混声道的和58,但根据下式对其进行最大地去相关,
[0072]
[0073] 参照图4,该去相关信号产生器50执行上述公式的decorrFunction函数。
[0074] 而且,还如上所述,该降混预处理单元40包含两个并行的路径46及48。因此,上l,m述的方程式基于两个依赖于时间/频率的矩阵,即对于干式路径的G 及对于湿式路径的[0075] 如图4所示,在湿式路径上的去相关可通过左及右降混声道的和来实施,该和传送至产生信号62的去相关器60中,该信号62感知地等效于其输入58,但对该输入58进行最大地去相关。
[0076] 通过SAOC预处理单元42来运算上述矩阵的元素。还如上所述,可在SAOC参数的时间/频率分辨率下(即对于每一时隙l及每一处理频带m)运算上述矩阵的元素。从而所获得的矩阵元素可在频率上扩展且在时间上被内插,产生对应于所有滤波器组的时隙nn,k及频率子带k而定义的矩阵E 及 然而,如上,也有一些替代方式。例如,可去除内插,使得在上面的方程式中,指数n,k可有效地由“l,m”替代。而且,上述矩阵的元素的运算甚至可在内插于分辨率l,m或n,k上而在降低的时间/频率分辨率下执行。因而,同样,虽然在下面中,指数l,m指示,对于每一瓦片39执行矩阵计算来,该计算可在某一较低的分辨率下执行,其中,当由降混预处理单元40应用各自矩阵时,可将演示矩阵内插直至最终的分辨率,诸如下至单个子带值32的QMF时间/频率分辨率。
[0077] 根据上述的第一替代方式,分别地对应于左及右降混声道而运算干式演示矩阵Gl,m,使得
[0078]l,m,x
[0079] 相对应的增益 及相位差φ 定义为
[0080]
[0081]
[0082] 其中const1可是例如11,且const2可是0.6。该指数x表示左或右降混声道,且因此假设为1或2。
[0083] 大体上来说,上面的条件在较高频谱范围与较低频谱范围间有区别,且特别地仅(可能)满足于较低的频谱范围。此外或可选择地,该条件依据该实际双耳声道内相干性值与目标双耳声道内相干性值的其中之一是否与相干性临界值具有预定的关系而定,即仅在该相干性超过该临界值时,(可能)满足该情况。如上所述的单个子条件可通过和运算来结合。
[0084] 标量Vl,m,x运算为
[0085] Vl,m,x=Dl,m,xEl,m(Dl,m,x)+ε。
[0086] 应注意的是ε可与上述定义降混增益的ε相同或不同。该矩阵E在上面已经介l,m,绍过。指数(l,m)仅表示上面已提及的矩阵运算的时间/频率的相依性。而且,矩阵Dx l,m,1
也已在上面针对于降混增益及降混声道的位准差的定义而提及,使得D 对应于上述之l,m,2
D1,且D 对应于上述之D2。
[0087] 然而,为了更容易理解SAOC参数处理单元42如何从所接收的SAOC参数推导出干l,m l,m,x式产生矩阵G ,再次表示声道降混矩阵D 与降混指示之间的对应性,但是以相反方向,该降混指示包含降混增益Dl,m,及 特别的是,大小为1xN的声道降混矩阵Dl,m,x的元素 即 给出为
[0088]
[0089] 其中元素 定义为
[0090]
[0091] 在上面Gl,m的方程式中,增益 与 及相位差φl,m,x依据声道-x单个的目标l,m,x l,m,x协方差矩阵F 的系数fuv而定,该声道-x单个的目标协方差矩阵F (接下来将如更l,m,x l,m,x
详细地描述)依据大小为NxN的矩阵E 而定,该矩阵E 的元素 被运算为
[0092]
[0093] 如 上 所 述,大 小 为 N×N 的 矩 阵 El,m 的 元 素 给 定 为[0094] 具有元素 大小为2×2的上述目标协方差矩阵Fl,m,x相似于上面所指出的协方差矩阵F,其给出为l,m,x l,m l,m,x l,m *
[0095] F =A E (A ),*
[0096] 其中“”对应于共轭转置。
[0097] 目标双耳演示矩阵Al,m由所有NHRTF虚拟扬声器位置q的HRTF参数 与及演示矩阵 推导出,且其大小为2×N。其元素 将在所有目标i与双耳输出信号之间所期望的关系定义为
[0098]
[0099] 具有元素 的演示矩阵 使每一音频目标i相关于由HRTF所表示的虚拟扬声l,m器q。基于矩阵G 来计算湿式升混矩阵 为
[0100]
[0101] 增益 及 定义为
[0102]
[0103] 干式双耳信号54的具有元素 的2x2的协方差矩阵Cl,m被评估为
[0104]
[0105] 其中l,m
[0106] 计算标量V ,为l,m l,m l,m l,m *
[0107] V =W E (W )+ε。l,m
[0108] 给出大小为1xN的湿式单降混矩阵W 的元素 为
[0109]
[0110] 给出大小为2xN的立体声降混矩阵Dl,m的元素 为
[0111]l,m l,m l,m
[0112] 在上述的G 方程式中,α 及β 表示专用于ICC控制的旋转角。特别的是,l,m旋转角α 控制干式及湿式双耳信号的混合,以将双耳输出24的ICC调整至双耳目标的ICC。在设定旋转角时,应考虑干式双耳信号54的ICC,该干式双耳信号54的ICC依据音频内容及立体声降混矩阵D而定,典型地小于1.0且大于目标ICC。这与基于单降混的双耳演示形成对比,其中该干式双耳信号的ICC总是等于1.0。
[0113] 旋转角αl,m及βl,m控制干式及湿式双耳信号的混合。该干式双耳演示的立体声降混54的ICC 在步骤80中被评估为
[0114]
[0115] 整体的双耳目标ICC 在步骤82中被评估为或确定为
[0116]l,m l,m
[0117] 用以使湿式信号的能量最小化的旋转角α 及β 在步骤84中被设定为[0118]
[0119]
[0120] 因而,根据上述对用以产生双耳输出信号24的SAOC译码器12的功能性的数学描述,该SAOC参数处理单元42在确定实际双耳ICC中,通过使用上述 的方程式及上述辅助方程式来计算 类似地,SAOC参数处理单元42在步骤82中确定目标双耳ICC时,通过上面所示方程式及辅助方程式来运算 在此基础上,SAOC参数处理单元42在步骤84中确定旋转角,从而设定在干式与湿式演示路径之间的混合率。根据这些旋转角,SAOC参数l,m处理单元42建立干式及湿式演示矩阵或升混参数G 及 其接下来在分辨率n,k下由降混预处理单元40使用,以从立体声降混18推导出双耳输出信号24。
[0121] 应注意的是上述的第一替代方式可在某些方面上变化。例如,上述声道内相位差的方程式可改变至使得第二子条件可将该干式双耳演示的立体声降混的实际ICC与l,m,xconst2(而不是由声道的单个协方差矩阵F 所确定的ICC)进行比较的程度,使得在此方程式中, 部分将由项目 替代。
[0122] 而且,应注意的是,根据所选择的符号,在上面的一些方程式中,当诸如ε的标量常量加至矩阵使得此常数加至各自矩阵的每一系数中时,可省略全为1的矩阵。
[0123] 具有较高目标提取可能的干式演示矩阵的另一产生方式是基于左及右降混声道的联合处理。为了简明,省略该子带指数对,原理的目的在于最小平方意义上的最佳匹配[0124]
[0125] 到目标演示
[0126] Y=AS。
[0127] 这产生目标协方差矩阵:
[0128] YY*=ASS*A*
[0129] 其中复数值的目标双耳演示矩阵A在先前的公式中给出,且矩阵S包含作为列的原始目标的子带信号。
[0130] 该最小平方的匹配由二阶信息来运算,该二阶信息由经传达的目标及降混数据推导出。也就是,执行下面的替代
[0131]
[0132]
[0133]
[0134] 为了进行替代,回想到SAOC目标参数典型地载有目标功率信息(OLD)及(选定的)目标内互相关(IOC)。从这些参数,推导出NxN的目标协方差矩阵E,该目标协方差矩* * * *阵E表示SS 的近似值,即E≈SS,从而产生YY =AEA。
[0135] 而且,X=DS并且降混协方差矩阵变成:
[0136] XX*=DSS*D*,
[0137] 其可再次通过XX*=DED*从E中推导出。
[0138] 通过解出最小平方的问题而获得干式演示矩阵G,
[0139] min{norm{Y-X}}。
[0140] G=G0=YX*(XX*)-1
[0141] 其中YX*被运算为YX*=AED*。
[0142] 因而,干式演示单元42通过使用2x2的升混矩阵G,通过 来从降混信号X确定双耳输出信号 且该SAOC参数处理单元通过使用上面公式将G确定为
[0143] G=AED*(DED*)-1,
[0144] 给出复数值的干式演示矩阵,通过考虑遗漏的协方差误差矩阵而在该SAOC参数处理单元42中运算复数值湿式演示矩阵P(以前表示为P2)
[0145] ΔR=YY*-G0XX*G0*。
[0146] 可示出的是,此矩阵是正的,且通过选择与的最大特征值λΔR对应的单元规范特征向量u及根据 调节该单元规范特征向量u,从而给出P的优选选择,其中,如上*来运算标量V,即V=WE(W)+ε。
[0147] 换句话说,因为湿式路径被安置,以校正所获得的干式解的相关性,ΔR=AEA*-G0DED*G0*表示遗漏的协方差误差矩阵,即分别地 或*
且因而该SAOC参数处理单元42保留P,使得PP =ΔR,通过选择上述的
单元规范特征向量u而给出对此的一解。
[0148] 用以产生干式及湿式演示矩阵的第三方法表示出基于线索约束的复数预测对演示参数的评估,且将恢复正确的复数协方差结构的优点与对于改良目标提取的降混声道的联合处理的利益相结合。由此方法所提供的附加机会是,在许多情况下能够完全地省略湿式升混,从而为具有较低运算复杂性的双耳演示版本作好准备。如依据该第二替代方式,下面所呈现的第三替代方式基于左及右降混声道的联合处理。
[0149] 本原理的目的在于最小平方意义上的最佳匹配
[0150]
[0151] 到正确复数协方差的约束下的目标演示Y=AS
[0152]
[0153] 因而,它的目的在于找出G及P的解,使得
[0154] 1) (是对2)中公式的约束);及
[0155] 2) 如其在第二替代方式中所要求的一样。
[0156] 由于拉格朗日乘数的理论,由此推断出存在自伴随矩阵M=M*,使得[0157] MP=0,且
[0158] MGXX*=YX*。
[0159] 在一般的情况下,其中YX*及XX*二者是非奇异的,从第二方程式得出M为非奇异-1的,且因而P=0是对第一方程式的唯一解。这是不具湿式演示的解。设定K=M ,可看出的是,相对应的干式升混由下式给出
[0160] G=KG0
[0161] 其中G0是上面关于第二替代方式所推导出的预测解,且该自伴随矩阵K解决[0162] KG0XX*G0*K*=YY*。
[0163] 如果唯一为正且因此矩阵G0XX*G0*的自伴随矩阵的平方根由Q表示,那么该解可写为
[0164] K=Q-1(QYY*Q)1/2Q-1。
[0165] 因而,SAOC参数处理单元42确定G为KG0=Q-1(QYY*Q)1/2Q-1 G0=(G0DED*G0*)-1(G* * * * * 1/2 * * -1 * * -10DEDG0AEAG0DEDG0) (G0DEDG0) G0,其中G0=AED(DED) 。
[0166] 对于内部平方根,通常有四个自伴随解,且选择导致 至Y的最佳匹配的解。
[0167] 实际上,必须例如通过对所有干式演示矩阵系数的绝对平方值的和限制条件,将干式演示矩阵G=KG0限制为最大大小,这可表示为
[0168] trace(GG*)≤gmax。
[0169] 如果解违背了此限制条件,那么将替代使用取决于界限的解。这通过将约束条件[0170] trace(GG*)=gmax
[0171] 加至先前的约束条件中及重新推导出拉格朗日方程式来实现。其结果是,先前的方程式
[0172] MGXX*=YX*
[0173] 必须由
[0174] MGXX*+μI=YX*
[0175] 来替代。其中μ是附加的中间复数参数,且I是2x2的单位矩阵。可产生具有非* * * * * * *零湿式演示P的解。特别的是,可通过PP =(YY-GXXG)/V=(AEA-GDEDG)/V来找出湿式升混矩阵的解,其中P的选择优选地基于上述关于第二替代方式的特征值的考虑,且V是*
WEW+ε。P稍后的确定也通过SAOC参数处理单元42来完成。
[0176] 因而确定出的矩阵G及P接着由湿式及干式演示单元使用,如先前所述。
[0177] 如果需要低复杂性的版本,那么下一步骤是代替,即使此解是不具有湿式演示的解。实现此的优选方法是,将复数协方差的要求减少为仅在对角上匹配,使得正确的信号功率仍能在右及左声道中实现,但互协方差处于未知的状态。
[0178] 关于第一替代方式,在声学隔离的收听室中进行对象收听测试,该收听室被设计为允许进行高质量的收听。该结果在下面予以描述。
[0179] 使用耳机(具有Lake-People式数字/模拟转换器的STAX SR Lambda Pro耳机及STAX SRM监测器)进行回放。该测试方法符合在空间音频验证测试中使用的标准程序,基于对于中等质量音频的主观估计的“隐藏参考和基准的多刺激”(MUSHRA)方法。
[0180] 总共5位收听者参与了所执行的每一项测试。所有个体可被认为是有经验的收听者。根据MUSHRA方法学,收听者被指令去相对于参考比较所有的测试条件。对于每一测试项目及每一收听者,测试条件自动地随机化。通过基于计算机的MUSHRA程序,按从0至100的刻度范围来记录主观的响应。允许在待测项目之间瞬间转换。已经进行MUSHRA测试,以评估该MPEG SAOC系统的所述立体声至双耳处理的感知性能。
[0181] 为了评估所述系统相较于单声道至双耳性能的感知质量增益,由该单声道至双耳系统处理的项目也包括于该测试中。在每声道每秒80kbit下对相对应的单声道及立体声降混信号进行AAC编码。
[0182] 使用“KEMAR_MIT_COMPACT”作为HRTF数据。通过考虑所期望的演示的适当加权的HRTF脉冲响应,由双耳过滤目标而产生参考条件。该基准条件是低通过滤参考条件(在3.5kHz)。
[0183] 表格1包含测试的音频项目的列表。
[0184] 表格1-收听测试的音频项目
[0185]
[0186] 已经测试了五个不同的场景,其是从3个不同目标声源库演示(单声道或立体声)目标的结果。三个不同的降混矩阵已用于SAOC编码器中,参见表格2。
[0187] 表格2-降混类型
[0188]
[0189] 如表格3所列出的已经定义了升混表示质量评估测试。
[0190] 表格3-收听测试条件
[0191]测试条件 降混类型 核心编码器
x-1-b 单声道 AAC@80kbps
x-2-b 立体声 AAC@160kbps
x-2-b_Dual/Mono 双重单声道 AAC@160kbps
5222 立体声 AAC@160kbps
5222_Dual/Mono 双重单声道 AAC@160kbps
[0192] 该“5522”系统使用立体声降混预处理器,如于2008年7月在德国汉诺威举行的第85届运动图像专家组(MPEG)会议中提出的“ISO/IEC CD 23003-2:200x Spatial Audio Object Coding(SAOC)”,文件号第N10045号的ISO/IEC JTC 1/SC 29/WG 11(MPEG)中所描l,m述,该立体声降混预处理器具有复数值的双耳目标演示矩阵A 作为输入。也就是说,不执l,m
行ICC控制。非正式的收听测试已经示出,通过对于上频带采用A 的振幅,而不是使所有频带为复数值,改良了性能。改良的“5522”系统已经用于测试中。
[0193] 在图6中可找到证明所获得的收听测试结果的图形的简短概览。这些描绘示出,关于所有收听者每一项目的平均MUSHRA分级,及关于所有评估的项目与相关的95%可信区间的统计平均值。应注意的是,在MUSHRA描绘中省略了用于隐藏参考的数据,因为所有的个体已经正确地识别出该数据。
[0194] 下面的观察可基于收听测试的结果作出:
[0195] ●“x-2-b_DualMono”的表现与“5522”可比较。
[0196] ●“x-2-b_DualMono”的表现明显优于“5222_DualMono”。
[0197] ●“x-2-b_DualMono”的表现与“x-1-b”可比较。
[0198] ●根据上面第一替代方式所实施的“x-2-b”与所有其它条件相比,具有稍微较佳的表现。
[0199] ●项目“disco1”在结果中没有示出出太多变化,因此可能不是适当的。
[0200] 因而,在SAOC中立体声降混信号的双耳演示的概念(满足不同降混矩阵的需要)已在上面进行描述。特别的是,双重单似降混的质量与真实单降混相同,此已在收听测试中验证。从与单降混进行比较的立体声降混所能够获得的质量改良,也可从该收听测试中看出。上述实施例的基本处理方块是立体声降混的干式双耳演示,及与去相关湿式双耳信号相混合(以二者方块的适当组合)。
[0201] ●特别的是,使用具有单降混输入的去相关器来运算湿式双耳信号,使得左及右功率及IPD与在该干式双耳信号中相同。
[0202] ●通过目标ICC及干式双耳信号的ICC来控制湿式及干式双耳信号的混合,使得其典型地与基于单降混的双耳演示相比需要较少的去相关,从而产生较高的总的声音质量。
[0203] ●而且,对于单声道/立体声降混输入与单声道/立体声/双耳输出的任何组合,可以稳定的方式对上面的实施例进行方便的修改
[0204] 换句话说,上面描述了提供用于由声道内相干性控制来译码及双耳演示基于立体声降混的SAOC比特流的信号处理架构和方法的实施例。单或立体声降混输入与单、立体声或双耳输出的所有组合可作为基于所描述的立体声降混的概念的特殊情况来处理。与基于单降混的概念相比,基于立体声降混的概念的质量更佳,其在上述的MUSHRA收听测试中获验证。
[0205] 在2008年7月,德国汉诺威举行的第85届MPEG会议中提出的“ISO/IEC CD23003-2:200x Spatial Audio Object Coding(SAOC)”,档号第N10045号,空间音频目标编码(SAOC)ISO/IEC JTC 1/SC 29/WG 11(MPEG)中,多个音频目标被降混为单声道或立体声信号。此信号被编码,且与侧信息(SAOC参数)一起发送至SAOC译码器。上面的实施例,使双耳输出信号的声道内相干性(ICC)(几乎)被完全地校正,其中ICC是感知虚拟声源宽度的重要测量并且由于编码器降混而被质量降低或甚至损坏。
[0206] 对系统的输入是立体声降混、SAOC参数、空间演示信息及HRTF数据库。输出是双耳信号。输入及输出二者典型地通过诸如MPEG环绕混合QMF滤波器组(ISO/IEC 23003-1:2007,信息技术-MPEG音频技术-第一部分:具有充分低的带内混迭的MPEG环绕)的过抽样复数调变分析滤波器组,在译码器转换域中给出。该双耳输出信号通过该合成滤波器组,转换回PCM时间域。换句话说,该系统从而是基于可能的单降混的双耳演示朝向立体声降混信号的扩展。对于双重单降混信号,系统的输出与基于单降混的系统是相同的。因而,该系统可通过以稳定的方式设定演示参数,而来处理单/立体声降混输入与单/立体声/双耳输出的任何组合。
[0207] 再换句话说,上面的实施例由ICC控制来执行基于立体声降混的SAOC比特流的双耳演示及译码。与基于单降混的双耳演示进行比较,实施例可在两个方面利用该立体声降混的优势:
[0208] -在不同降混声道中的目标之间的相关特性被部分地保存
[0209] -因为在一个降混声道中存在较少的目标,改进目标的提取
[0210] 因而,在SAOC中立体声降混信号的双耳演示的概念(满足不同降混矩阵的需要)已在上面进行描述。特别的是,双重单似降混的质量与真实单降混相同,此已在收听测试中获验证。从与单降混进行比较的立体声降混所能够获得的质量改良,也可从收听测试中看出。上述实施例的基本处理方块是立体声降混的干式双耳演示,及与去相关湿式双耳信号相混合(以二者方块的适当组合)。特别的是,使用有单降混输入的去相关器来运算湿式双耳信号,使得左及右功率及IPD与干式双耳信号中相同。通过目标ICC及基于单降混的双耳演示来控制湿式及干式双耳信号的混合,从而产生较高的总的声音质量。而且,对于单/立体声降混输入与单/立体声/双耳输出的任何组合,可以稳定的方式对上面的实施例进n,k行方便的修改。根据实施例,该立体声降混信号X 与SAOC参数、使用者所定义的演示信l,m
息及HRTF数据库一起作为输入。发送的SAOC参数是所有N个目标i,j的OLDi (目标位l,m l,m l,m
准差)、IOCij (目标内互相关)、DMGi (降混增益)及DCLDi (降混声道位准差)。对于所有的HRTF数据库索引q,HRTF参数被给定作为 及,该索引q与特定空间声源的位置相关联。
[0211] 最后,应注意的是,虽然在上面的描述中,术语“声道内相干性”及“目标内互相关”被不同地解读,因为在一个术语中使用了“相干性”而在另一个术语中使用了“互相关”,但是后面的术语可交换性地分别用作对于声道与目标的类似性的测量。
[0212] 根据实际的实施,发明的双耳演示概念可实施于硬件软件中。因而,本发明也涉及计算机程序,该计算机程序可储存在诸如CD、磁盘、DVD、内存条、内存卡或内存芯片的计算机可读介质中。本发明因而也是具有程序代码的计算机程序,该程序代码在计算机上执行时,执行结合上面附图所述的编码、转换或译码的发明方法。
[0213] 尽管已经根据多个优选实施例描述了此发明,在本发明的范围内存在变更、置换及等效物。还应注意的是,具有许多可选择的方式来实施本发明的方法及组成。因而所附权利要求应当被解读为包括属于本发明的真正精神及范围内的所有变更、置换及等效物。
[0214] 另外,应注意的是,在流程图中所指示的所有步骤通过分别在译码器中的各自装置来实施,实施的装置可包含执行在CPU上、ASIC的电路部分等上运行的子程序。相似的描述对于在方块图中的方块功能是真实的。
[0215] 换句话说,根据实施例,提供了一种用于将多声道音频信号(21)双耳演示为双耳输出信号(24)的设备,多声道音频信号(21)包含多个音频信号(141-14N)被降混的立体声降混信号(18),且包含侧信息(20),侧信息(20)包含对于每一音频信号指示出各自音频信号已分别混合至立体声降混信号(18)的第一声道(L0)及第二声道(R0)中的程度的降混信息(DMG,DCLD),侧信息(20)还包含多个音频信号的目标位准信息(OLD)及目标内互相关信息(IOC),目标内互相关信息(IOC)描述在多个音频信号的音频信号对之间的类似性,l,m设备包括:基于第一演示指示(G )从立体声降混信号(18)的第一及第二声道来运算初步双耳信号(54)的装置(47),第一演示指示根据目标内互相关信息、目标位准信息、降混信息、使每一音频信号相关于虚拟扬声器位置的演示信息及HRTF参数而定;产生去相关信号的装置(50),去相关信号 作为对立体声降混信号(18)的第一及第二声道的单降混(58)的感知等效物,且然而与单降混(58)去相关;根据第二演示指示 从去相关信号(62)运算校正双耳信号(64)的装置(52),第二演示指示 依据目标内互相关信息、目标位准信息、降混信息、演示信息及HRTF参数而定;及将初步双耳信号(54)与校正双耳信号(64)相混合以获得该双耳输出信号(24)的装置(53)。
[0216] 参考
[0217] “ISO/IEC CD 23003-2:200x Spatial Audio Object Coding(SAOC)”,文 件N10045的ISO/IEC JTC 1/SC 29/WG 11(MPEG),第85届运动图像专家组(MPEG)会议,2008年7月,德国汉诺威
[0218] EBU技术 建 议:“MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality”,文件B/AIM022,1999年10月
[0219] ISO/IEC 23003-1:2007,Information technology-MPEG audio technologies-Part 1:MPEG Surround
[0220] ISO/IEC JTC1/SC29/WG11(MPEG),文件N9099:“Final Spatial Audio Object Coding Evaluation Procedures and Criterion”,2007年4月,美国San Jose[0221] Jeroen,Breebaart,Christof Faller:Spatial Audio Processing.MPEG Surround and Other Applications.Wiley & Sons,2007
[0222] Jeroen,Breebaart et al.:Multi-Channel goes Mobile:MPEG Surround Binaural Rendering,AES第29届国际会议,韩国首尔,2006。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈