[0067] 至目前为止所述部分响度的等式也适用于ESIG+ENOISE<1010时。同理也适用于图1010
的等式(17)的推导,针对ENOISE≥ETHRN及ESIG+ENOISE>10 的情况可导出如上对图10的等式
6 0.5
19的所列出的等式。C2=C/(1.04x10) 。同理,通过应用如对图10的等式(18)的推导所
10
使用的相同论理,针对ESIG10 的情况可导出如图10的等式20所列出的等式。
[0068] 注意以下各点。这种先前技术模型针对本发明施用,在第一阶段(run)中,SIG相对应于例如直接信号作为“刺激”,Noise相对应于例如混响信号或混合信号作为“噪声”。第二阶段中,如图2c中第一实施方式背景的讨论,那么,SIG相对应于混响信号作为“刺激”,“噪声”相对应于直接信号。而后,获得两个响度度量,然后通过组合器组合,优选通过形成差值组合。
[0069] 为了评估所述响度模型用于预测晚期混响的感知水平工作的适合性,以从收听者反应所产生的背景真值的本源被优选。为了达成该目的,来自若干收听测试主题的研究[13]的数据被用于本案,简短摘述如下。由多个图形用户
接口(GUI)所组成的收听测试筛选哪个显示出不同直接信号的具有不同人工混响状况的混合信号。要求收听者将感知的混响量以0分至100分的分数评级。此外,两个锚定(anchor)信号出现在10分及90分。要求收听者将感知的混响量以0分至100分的分数评级。此外,两个锚定信号出现在10分及90分。该等锚定信号从相同直接信号具有不同人工混响状况产生。
[0070] 用来产生测试项的直接信号为长度各约4秒的语音、个别
乐器、及不同
风格的音乐的单声录音。使用大部分源自于无回声录音项目,但也有含小量原先混响的商业录音。
[0071] RIR表示晚期混响并通过使用指数衰减的白噪声以
频率依赖性衰减率而产生。衰减率被选择为使得混响时间从低频减至高频,始于基本混响时间T60。本研究工作中早期反射忽略不计。混响信号r[k]及直接信号x[k]经定标和相加,使得其根据ITU-R BS.1771[16]的平均响度度量比匹配期望DRR,以使全部测试信号混合具有相等长期响度。
测试的全部参与者皆在音频领域工作且有主观收听测试经验。
[0072] 用于预测方法的训练和验证/测试的背景真值数据获得自两个收听测试,分别标示为A及B。数据集合A包含14位收听者对54个信号的评级。收听者重复测试一次,平均评级得自各项全部28个评级。54个信号通过组合6个不同直接信号和9个立体声混响状况产生,T60∈{1,1.6,2.4}秒及DRR∈{3,7.5,12}dB,且无前置延迟。
[0073] B的资料得自14位收听者对60个信号的评级。信号是通过使用15个直接信号及36个立体声混响状况产生。混响状况取样四个参数,亦即T60、DRR、前置延迟、及ICC。针对各个直接信号,选择4个RIR使得两者不含前置延迟,而另两者有50毫秒的短前置延迟,并且两者为单声且另两者为立体声。
[0074] 后文将讨论图1中组合器110的优选实施方式的额外特征。
[0075] 预测方法的基本输入特征根据等式(2),从混响信号r[k]的部分响度Nr,x[k](以直接信号x[k]为干扰因素)与x[k]的响度Nx,r[k](此处r[k]为干扰因素)间的差计算。
[0076] △Nr,x[k]=Nr,x[k]-Nx,r[k] (2)
[0077] 等式(2)背后的论理是差△Nr,x[k]是对相比于直接信号的感觉而言混响感觉有多强烈的度量。取该差值也发现使得预测结果相对于回放水平为约略不变。回放水平对所研究的感觉有影响[17、8],但影响程度比部分响度Nr,x随回放水平增加而增加所反映的影响更微小。典型地,乐音录音相比于在12至20dB的较低水平,在中至高水平(始于约75-80dB的SPL)更为混响。这种效应在DRR为正的情况下特别明显,“对于几乎全部记录的音乐”都有效[18],但并非全部情况皆如此,对交响乐而言“收听者远超过临界距离”[6]。
[0078] 混响的感知水平随回放水平的减低而减低可由下述事实最佳地解释:混响的动态范围小于直接声音的动态范围(或,混响的时频表征更紧密,而直接声音的时频表征更稀疏[19])。在这种情况下,混响信号比直接声音更可能降至听觉的阈值以下。
[0079] 虽然等式(2)描述两个响度度量Nr,x[k]与Nx,r[k]之间的差作为组合操作,但也可进行其它组合,诸如乘法、除法或甚至加法。总而言之,由两个响度度量指示的两个可选方式足以被组合来获得两个可选方式对结果的影响。然而,实验显示差值可得到该模型的最佳值,亦即该模型的结果中匹配收听测试至良好程度,故差值为优选组合方式。
[0080] 随后,描述图1示出预测器114的细节,其中,这样的细节指优选实施方式。
[0081] 后文描述的预测方法为线性,并使用最小平方拟合于模型系数的运算。预测器的简单结构优异地用在下述情况,用于训练及测试预测器的数据集合的大小有限,当使用有较大
自由度例如神经网络的回归方法时,可能导致模型的过度拟合。基线预测器 是依据等式(3)通过线性回归导出,具有系数ai,K为帧中的信号长度,
[0082]
[0083] 模型只有一个独立变量,亦即△Nr,x[k]的平均。为了追踪改变及可实现实时处理,使用
泄漏(leaky)积分器可求取平均值计算的近似值。使用数据集合A用于训练所导出的模型参数为a0=48.2及a1=14.0,其中,a0等于全部收听者及项目的平均评级。
[0084] 图5a示出数据集合A的预测感觉。可知预测与平均收听者评级有中等关联,相关性系数为0.71。请注意回归系数的选择不影响此相关性。如下图所示,针对由相同直接信号所产生的各个混合信号,分数具有集中在靠近对
角线的特性形状。该形状指示虽然基线预测器 可预测R至某种程度,但其不反映T60对评级的影响。数据点的视觉检视示出对T60有线性依赖性。如果T60值为已知,如同控制音频效果的情况,其容易并入线性回归模型来导出增强的预测
[0085]
[0086] 从数据集合A导出的模型参数为a0=48.2,a1=12.9,a=10.2。针对各个数据集合所得结果分开显示于图5b。结果的评估被进一步细节描述于下节。
[0087] 可选地,虽然可进行对于更多或更少个方块的平均,只要至少两个方块进行平均即可,但因线性等式理论,当整块音乐的平均高达某个帧时可获得最佳结果。但针对实时应用,取决于实际应用,优选减少平均帧数目。
[0088] 第9图额外地示出由a0及a2·T60定义的常数项。第二项a2·T60已经被选择以位于不仅将该等式应用至单个混响器的
位置,即其中图6的滤波器600不变的情况。该等式当然为常数项,但因此取决于实际使用的图6的混响滤波器606提供灵活性来对具有其它T60值的其它混响滤波器使用真正相同的等式。如技术领域公知的,T60为描述某个混响滤波器的参数,特别表示混响能量已经从初始最大混响能量值减少60dB。典型地,混响曲线随时间而减少,因此T60指示时间周期,其中,通过信号激励产生的混响能已经减少60dB。经由以表示类似信息的参数(RIR的长度的参数)例如T30置换T60,获得在预测准确度方面类似结果。
[0089] 后文中,模型被使用平均收听者评级与预测感觉间的相关性系数r、平均绝对误差(MAE)、及均方根误差(RMSE)来进行评估。以两倍交叉有效化(two-fold cross validation)进行实验,即使用数据集合A训练并使用数据集合B测试预测器,使用数据集合B训练及使用数据集合A测试来重复实验。针对训练及测试,分开地对两阶段所得评估量求平均。
[0090] 针对预测模型 及 结果显示于表1。预测器 获得10.6分的带有RMSE的准确结果,。每项的个别收听者评级的标准偏差平均被给定为从平均(每项的全部收听者的评级的平均值)的离散的度量,针对数据集合A, 及针对数据集合B, 与RMSE的比较指示 至少与收听测试中的平均收听者同等准确。
[0091] 数据集合的预测准确度略有差异,例如针对 MAE及RMSE二者使用数据集合A测试时比平均值低一分(如表中列举),及使用数据集合B测试时比平均高一分。用于训练及测试的评估量表为可被比较,标明避免预测器的过度拟合。
[0092] 为了辅助实现这种预测模型的经济实现,如下实验研究如何以使更少计算复杂度影响预测结果的准确度的方式来使用响度特征,。实验聚焦在以总响度估值替代部分响度计算,并聚焦在激励模式的简化实现。
[0093] 替代使用部分响度差△Nr,x[k],利用直接信号的响度Nx[k]、混响信号的响度Nr[k]、及混合信号的响度Nm[k]的三个差值检验总响度估值,如等式(5)-(7)所示。
[0094] △Nm-x[k]=Nm[k]-Nx[k] (5)
[0095] 等式(5)基于假设混响信号的感知水平可表示为通过添加混响至原始信号所造成的总响度差(增加)。
[0096] 遵照如同对等式(2)的部分响度差的类似论理后,使用混响信号及混合信号或直接信号分别的总响度差的响度特征被定义于等式(6)及(7)。预测感觉的度量的导算方式为如同当单独收听时混响信号的响度,带有相减项以模型化部分掩蔽,并分别对于从混合信号或直接信号导出的回放水平进行标准化。
[0097] △Nr-m[k]=Nr[k]-Nm[k] (6)
[0098] △Nr-x[k]=Nr[k]-Nx[k] (7)
[0099] 表2显示所得结果,具有基于总响度的特征,并显示实际上其中二者△Nm-x[k]及△Nr-x[k]获得具有与 接近相同准确度的预测。但如表2所示,即便△Nr-n[k]也可以用于结果。
[0100] 最后,在额外实验中,研究展开函数实现的影响。这对许多应用情况特别有意义,原因在于使用水平依赖性激励模式要求高运算复杂度的实现方式。实验采用与针对 的相似处理,但使用一个没有扩展的响度模型和一个有水平不变扩展函数的响度模型,导致表2所示结果。扩展的影响似乎可忽略。
[0101] 因此指示图2c的实施方式2、3、4的等式(5)、(6)及(7)示出针对信号分量或信号的不同组合,即使无部分响度但有总响度,也可获得混合信号中混响感知水平的良好值或度量。
[0102] 接着在图8的背景下讨论确定混响感知水平的度量的优选应用。图8示出用于从在输入800所输入的直接信号分量产生混响后的信号的音频处理器。直接或原始信号分量被输入混响器801,可以类似图6的混响器606。输入800的原始信号分量额外地输入设备802以确定感知响度的度量,可如图1、图2a及图2c、图3、图9及图10背景的讨论那样地实现。装置802的输出是针对混合信号中混响的感知水平的度量R,该度量R被输入
控制器803。控制器803在又一输入接收对于混响感知水平的度量的目标值,及由此目标值及实际值R,再度求出于输出804的值。
[0103] 该增益值被输入处置器805,该处置器805被配置为在本实施方式中处置由混响器801所输出的混响信号分量806。如图8示出,装置802额外地接收混响信号分量806,如图1及其它描述用于确定感知水平的度量的装置的图的背景讨论。处置器805的输出被输入加法器807,其中图8的实施方式中,处置器的输出包括处置后的混响分量,加法器807的输出指示混合信号808,其具有如由目标值所确定的感知混响。控制器803可被配置为实现本领域界定用于反馈控制的控制法则中的任意一个,其中,目标值为设定值,装置产生的值R为实际值,增益804被选择为使得实际值R趋近于输入控制器803的目标值。虽然图8示出混响信号由处置器805中的增益处置,处置器805特别包括乘法器或加权器,但其它实现方式也可行。例如一种其它实现方式为并非混响信号分量806而是原始信号分量由处置器处置,如可选线路809指示。在这种情况下,如由混响器801输出的未经处置的混响信号分量将被输入加法器807,如可选线路810示出。当然,即使原始信号分量及混响信号分量的处置也可执行为在由加法器807所输出的混合信号808中导入或设定混响感知水平的某个度量。一个其它实现方式例如是混响时间T60被处置。
[0104] 本发明使用可变计算复杂度的响度模型提供对混响、特别是语音及乐音中的晚期混响的感知水平的简单且稳健的预测。预测模块已经使用从三个收听测试所推导出的主观数据训练及评估。至于起点,当图6的RIR606的T60为已知时,使用部分响度模型已经得出具有高准确度的预测模型。当考虑到部分响度模型原先尚未发展出如图10背景下讨论的使用直接声音及混响声音的刺激时,此项结果从感知的触发点也令人关注。随后对预测方法的输入特征计算上的修改导致一系列简化模型,该等模型对现有数据集合也达成可相比较的效能。这样的修改包括使用总响度模型及简化扩展函数。本发明的实施方式也适用于更为多样化的RIR,包括早期反映及更大的前置延迟。本发明也可用于确定及控制其它类型加法或混响音频效应的感知响度贡献。
[0105] 虽然已经以装置背景描述若干方面,但显然这样的方面也表示相对应于方法的描述,其中,方块或装置相对应于方法步骤或方法步骤的特征。同理,以方法步骤的背景描述的方面也表示相对应于装置的相对应方块或项或特征结构的描述。
[0106] 根据某些实现要求,本发明的实施方式可以
硬件或以
软件的方式实现。实现方式可使用数字储存介质执行,例如
软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,其具有可
电子读取
控制信号储存于其上,该信号与(或可与)可编程
计算机系统协作,以执行相应方法。
[0107] 根据本发明的若干实施方式包括具有可电子式读取控制信号的非暂时性或实体数据载体,该控制信号可与可编程计算机系统协作,以执行相应方法之一。
[0108] 大致言之,本发明的实施方式可实现为具有程序代码的计算机程序产品,该程序代码当计算机程序产品在计算机上运行时可执行该方法中的一个。该程序代码例如可储存在机器可读取载体上。
[0109] 其它实施方式包括储存在机器可读取载体上的用于执行本文所述方法之一的计算机程序。
[0110] 因此,换言之,本发明方法的实施方式为一种具有程序代码的计算机程序,该程序代码当该计算机程序在计算机上运行时用于执行本文所述方法之一。
[0111] 因此,本发明方法的又一实施方式为包含记录于其上的用于执行本文所述方法之一的计算机程序的数据载体(或数字储存介质,或计算机可读取介质)。
[0112] 因此,本发明方法的又一实施方式为表示用于执行本文所述方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置为通过数据通信连接,例如通过因特网传送。
[0113] 又一实施方式包含处理构件,例如计算机或可编程逻辑设备,其被配置为或适用于执行本文所述方法之一。
[0114] 又一实施方式包括其上安装有用于执行本文所述方法之一的计算机程序的计算机。
[0115] 在若干实施方式中,可编程逻辑设备(例如现场可编程
门阵列)可用来执行本文描述的方法的部分或全部功能。在若干实施方式中,
现场可编程门阵列可与
微处理器协作来执行本文所述方法之一。大致上该方法优选通过任何硬件装置执行。
[0116] 前述实施方式仅供举例说明本发明的原理。应了解对本文所述配置及细节的修改和变化将是本领域技术人员显然易见的。因此,其意在仅受未决权利要求的限定而非受由以描述和解说本文中实施方式所示出的特定细节所限制。
[0117] 参考文献列表
[0118] [1]A.Czyzewski,“A method for artificial reverberation quality testing,”J.Audio Eng.Soc.,vol.38,pp.129-141,1990.
[0119] [2]J.A.Moorer,“About this reverberation business,”Computer Music Journal,vol.3,1979.
[0120] [3]B.Scharf,“Fundamentals of auditory masking,”Audiology,vol.10,pp.30-40,1971.
[0121] [4]W.G.Gardner and D.Griesinger,“Reverberation level matching experiments,”in Proc.of the Sabine Centennial Symposium,Acoust.Soc.of Am.,1994.
[0122] [5]D.Griesinger,“How loud is my reverberation,”in Proc.Of the AES98th Conv.,1995.
[0123] [6]D.Griesinger,“Further investigation into the loudness of running reverberation,”in Proc.of the Institute of Acoustics(UK)Conference,1995.[0124] [7]D.Lee and D.Cabrera,“Effect of listening level and background noise on the subjective decay rate of room impulse responses:Using time varying-loudness to model reverberance,”Applied Acoustics,vol.71,pp.801-811,2010.
[0125] [8]D.Lee,D.Cabrera,and W.L.Martens,“Equal reverberance matching of music,”Proc.of Acoustics,2009.
[0126] [9]D.Lee,D.Cabrera,and W.L.Martens,“Equal reverberance matching of running musical stimuli having various reverberation times and SPLs,”in Proc.thof the20 International Congress on Acoustics,2010.
[0127] [10]A.Tsilfidis and J.Mourjopoulus,“Blind single-channel suppression of late reverberation based on perceptual reverberation modeling,”J.Acoust.Soc.Am,vol.129,pp.1439-1451,2011.
[0128] [11]B.C.J.Moore,B.R.Glasberg,and T.Baer,“A model for theprediction of threshold,loudness,and partial loudness,”J.Audio Eng.Soc.,vol.45,pp.224-240,1997.
[0129] [12]B.R.Glasberg and B.C.J.Moore,“Development and evaluation of a model for predicting the audibility of time varying sounds in the presence of the background sounds,”J.Audio Eng.Soc.,vol.53,pp.906-918,2005.
[0130] [13]J.Paulus,C.Uhle,and J.Herre,“Perceived level of late reverberation thin speech and music,”in Proc.of the AES130 Conv.,2011.
[0131] [14]J.L.Verhey and S.J.Heise,“Einfluss der Zeitstruktur des Hintergrundes auf die Tonhaltigkeit und Lautheit des tonalen Vordergrundes (in German),”in Proc.of DAGA,2010.
[0132] [15]C.Bradter and K.Hobohm,“Loudness calculation for individual acoustical objects within complex temporally variable sounds,”in Proc.of the thAES124 Conv.,2008.
[0133] [16]International Telecommunication Union,Radiocommunication Assembly,“Algorithms to measure audio programme loudness and true-peak audio level,”Recommendation ITU-R BS.1770,2006,Geneva,Switzerland.
[0134] [17]S.Hase,A.Takatsu,S.Sato,H.Sakai,and Y.Ando,“Reverberance of an existing hall in relation to both subsequent reverberation time and SPL,”J.Sound Vib.,vol.232,pp.149-155,2000.
[0135] [18]D.Griesinger,“The importance of the direct to reverberant ratio in the perception of distance,localization,clarity,and envelopment,”in Proc.of ththe AES126 Conv.,2009.
[0136] [19]C.Uhle,A.Walther,O.Hellmuth,and J.Herre,“Ambience separation from thmono recordings using Non-negative Matrix Factorization,”in Proc.of the AES30 Conf.,2007.