首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 修改 / 用于修改立体声信号的立体声像的音频信号处理装置和方法

用于修改立体声信号的立体声像的音频信号处理装置和方法

阅读:1043发布:2020-10-18

专利汇可以提供用于修改立体声信号的立体声像的音频信号处理装置和方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种用于 修改 立体声 信号 的立体声像的 音频信号 处理装置。该装置包括:平移指数修改器(202),用于将频带宽度内的立体声信号时频段的至少所有平移指数代入映射函数;第一平移增益确定器(602),用于基于所述修改的平移指数为所述第一和第二音频信号的时频信号段确定修改的平移增益;重平移器(606),用于根据所述修改的平移增益与在时频上与所述修改的平移增益对应的所述第一和第二音频信号的平移增益之间的比值重平移所述立体声信号。,下面是用于修改立体声信号的立体声像的音频信号处理装置和方法专利的具体信息内容。

1.一种用于修改包括第一和第二音频信号的立体声信号的立体声像的音频信号处理装置,其特征在于,所述音频信号处理装置包括:
平移指数修改器(202),用于将频带宽度内的立体声信号时频段的至少所有平移指数代入映射函数,从而提供修改的平移指数,所述至少所有平移指数描绘所述立体声信号时频段的平移位置
第一平移增益确定器(602),用于基于所述修改的平移指数为所述第一和第二音频信号的时频信号段确定修改的平移增益;
重平移器(606),用于根据所述修改的平移增益与在时频上与所述修改的平移增益对应的所述第一和第二音频信号的平移增益之间的比值重平移所述立体声信号,进而提供重平移的立体声信号。
2.根据权利要求1所述的音频信号处理装置,其特征在于,所述平移指数修改器用于将所述至少所有平移指数代入非线性映射函数。
3.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,所述映射函数基于S形函数。
4.根据权利要求3所述的音频信号处理装置,其特征在于,所述映射函数表示为或基于:
其中,Ψ(m,k)表示平移指数,Ψ’(m,k)表示修改的平移指数,a控制映射函数曲率
5.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,所述平移指数修改器用于将所述至少所有平移指数代入多项式映射函数。
6.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,所述重平移器用于根据以下等式重平移所述立体声信号:
其中:
X1(m,k)表示所述第一音频信号的时频信号段;
X2(m,k)表示所述第二音频信号的时频信号段;
X1’(m,k)表示所述重平移的立体声信号的第一重平移音频信号的时频信号段;
X2’(m,k)表示所述重平移的立体声信号的第二重平移音频信号的时频信号段;
gL(m,k)表示所述第一音频信号的时频信号段平移增益;
gR(m,k)表示所述第二音频信号的时频信号段平移增益;
g’L(m,k)表示所述第一音频信号的时频信号段修改的平移增益;
g’R(m,k)表示所述第二音频信号的时频信号段修改的平移增益。
7.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,所述第一平移增益确定器用于基于以下等式确定所述修改的平移增益:
8.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,所述平移指数修改器用于将有值的立体声信号时频段的所有平移指数代入所述映射函数,以获得至少约为
1500Hz的音频信号。
9.根据权利要求1-7任一项所述的音频信号处理装置,其特征在于,所述平移指数修改器用于将所述立体声信号时频段的所有平移指数代入所述映射函数。
10.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,所述指数修改器还用于接收参数以选择所述映射函数的曲线。
11.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,还包括以下中的至少一个:
平移指数确定器(704),用于基于对比所述在时频上对应的所述第一和第二音频信号的时频信号段值来确定所述至少所有平移指数;
第二平移增益确定器(604),用于基于所述至少所有平移指数为所述第一和第二音频信号的时频信号段确定平移增益。
12.根据权利要求11所述的音频信号处理装置,其特征在于,第一和第二平移增益确定器中的至少一个使用多项式函数。
13.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,还包括以下中的至少一个:
一个或多个时频转换单元(702),用于将所述立体声信号从时域转换到频域;
一个或多个频时转换单元(706),用于将所述重平移的立体声信号从频域转换到时域。
14.根据以上权利要求任一项所述的音频信号处理装置,其特征在于,还包括串音消除器(608),用于消除所述重平移的立体声信号的第一和第二音频信号间的串音。
15.一种用于修改包括第一和第二音频信号的立体声信号的立体声像的音频信号处理方法,其特征在于,所述音频信号处理方法包括:
获得平移指数和平移增益,所述获得的平移指数描绘立体声信号时频段的平移位置,所述获得的平移增益描绘所述第一和第二音频信号的时频信号段的平移位置;
将频带宽度内的所述立体声信号时频段的至少所有所述获得的平移指数代入映射函数,从而提供修改的平移指数;
基于所述修改的平移指数为所述第一和第二音频信号的所述时频信号段确定修改的平移增益;
根据所述修改的平移增益与在时频上与所述修改的平移增益对应的所述获得的平移增益之间的比值重平移所述立体声信号。
16.一种计算机程序,其特征在于,包括在计算机上运行时用于执行权利要求14所述的方法的程序代码。

说明书全文

用于修改立体声信号的立体声像的音频信号处理装置和方法

技术领域

[0001] 本发明涉及音频信号处理领域,尤其涉及对立体声信号的立体声像的修改,包括修改所述立体声像的宽度。

背景技术

[0002] 有已知的几种方案可用来修改(尤其是增加)立体声信号的感知空间宽度/立体声像。
[0003] 一个立体音加宽方法族依赖于可在时域完成的简单线性处理。特别地,立体声信号对能被转化为一个中间(两声道之和)和一个边(声道差值)信号。然后,边信号与中间信号的比值增加,该转化恢复为去获得立体声对,达到增加立体声宽度的效果。即便立体声宽度在理论上也能被扩展至超过扬声器跨度,这些方法主要还是被归入“内部”立体声修改方法。这些方法的计算复杂度虽然很低,但也有若干缺点。声源在立体声阶段不仅被重新分布了,还进行了不同的光谱加权。即,通过加宽过程修改立体声信号的光谱内容,使得音频质量降低,例如,混响(包括在边信号中)电平提高,或中心平移源(如声音)电平降低。欧洲专利0677235B1和美国专利6507657B1中能找到这些方法的例子。
[0004] 立体声加宽的另一种方法是串音消除(crosstalk cancellation,简称CTC),可被归入“外部”立体声修改。CTC的目的在于将立体声宽度增大至超过扬声器跨度,换言之,虚拟地增大扬声器跨度角。为达到此目的,这些方法通过过滤立体声信号来尝试取消左扬声器到右的路径,反之亦然。然而,这类方法不能克服信号的局限性,如,当信号不使用全立体阶段时的局限性。进一步地,CTC引入了着色伪影(即光谱失真),恶化了听觉体验。另外,CTC只作用于相对小的最佳听音地点,意味着只能在小的听音区域获得期望效果。美国专利6928168B2中有CTC的一个例子。

发明内容

[0005] 本发明的目的在于修改包括第一和第二音频信号的立体声信号的立体声像。
[0006] 该目的通过独立权利要求的特征实现。结合从属权利要求说明书附图,具体实现形式显而易见。
[0007] 根据第一方面,本发明涉及一种用于修改包括第一和第二音频信号的立体声信号的立体声像的音频信号处理装置。所述音频信号处理装置包括:平移指数修改器,用于将频带宽度内的立体声信号时频段的至少所有平移指数代入映射函数,从而提供修改的平移指数。所述至少所有平移指数描绘所述立体声信号时频段的平移位置
[0008] 所述装置还包括:第一平移增益确定器,用于基于所述修改的平移指数为所述第一和第二音频信号的时频信号段确定修改的平移增益;重平移器,用于根据所述修改的平移增益与在时频上与所述修改的平移增益对应的所述第一和第二音频信号的平移增益之间的比值重平移所述立体声信号,进而提供重平移的立体声信号。此处使用的平移增益在例如其都包括同一时频分箱或时频段的值时相互对应。
[0009] 因此,通过重新分布立体声信号的光谱能量来修改该立体声信号的立体声像。有了该技术,相比未修改的立体声信号可能具有加宽了或缩小的立体声像的重平移的立体声信号不包括不想要的伪影或光谱失真。
[0010] 在根据第一方面的音频信号处理装置的第一种实现方式中,所述平移指数修改器用于将所述至少所有平移指数代入非线性映射函数。
[0011] 在根据第一方面的音频信号处理装置的第二种实现方式中,所述映射函数基于S形函数。
[0012] 非线性映射函数(包括S形映射函数)可包括感知驱动的曲线,例如人物定位分辨率的降低,其声源更多地向立体声像的边平移而不是向中心平移。所述函数也可以避免立体声像内的声源集群。
[0013] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第三种实现方式中,所述映射函数表示为或基于:
[0014]
[0015] 其中,Ψ(m,k)表示平移指数,Ψ’(m,k)表示修改的平移指数,a控制映射函数曲率
[0016] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第四种实现方式中,所述平移指数修改器用于将所述至少所有平移指数代入多项式映射函数。相比通过复解析函数,多项式映射函数可降低复杂度(如使用加法和乘法代替除法和指数函数)。
[0017] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第五种实现方式中,所述重平移器用于根据以下等式重平移所述立体声信号:
[0018]
[0019] 其中:
[0020] X1(m,k)表示所述第一音频信号的时频信号段;
[0021] X2(m,k)表示所述第二音频信号的时频信号段;
[0022] X1’(m,k)表示所述重平移的立体声信号的第一重平移音频信号的时频信号段;
[0023] X2’(m,k)表示所述重平移的立体声信号的第二重平移音频信号的时频信号段;
[0024] gL(m,k)表示所述第一音频信号的时频信号段平移增益;
[0025] gR(m,k)表示所述第二音频信号的时频信号段平移增益;
[0026] g’L(m,k)表示所述第一音频信号的时频信号段修改的平移增益;
[0027] g’R(m,k)表示所述第二音频信号的时频信号段修改的平移增益。
[0028] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第六种实现方式中,所述第一平移增益确定器用于基于以下等式确定所述修改的平移增益:
[0029]
[0030] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第七种实现方式中,所述平移指数修改器用于将有值的立体声信号时频段的所有平移指数代入所述映射函数,以获得至少约为1500Hz的音频信号。这通过感知驱动方式限制了被处理的频率范围,从而降低了计算复杂度。因此,低于该阈值的频率能在不过多丢失立体声像已感知的加宽或缩小效果的情况下保持不变。
[0031] 在根据第一方面或第一方面第一至第六种实现方式中的任意一种实现方式的音频信号处理装置的第八种实现方式中,所述平移指数修改器用于将所述立体声信号时频段的所有平移指数代入所述映射函数。
[0032] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第九种实现方式中,所述指数修改器还用于接收参数以选择所述映射函数的曲线。这允许用户选择至少一种立体声像修改类型(如线性或非线性映射函数)以及应用该立体声像修改的程度(如所述映射函数曲线的曲率)。
[0033] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第十种实现方式中,所述音频信号处理装置还包括以下中的至少一个:平移指数确定器,用于基于对比所述在时频上对应的所述第一和第二音频信号的时频信号段值来确定所述至少所有平移指数;第二平移增益确定器,用于基于所述至少所有平移指数为所述第一和第二音频信号的时频信号段确定平移增益。
[0034] 在根据上一个实现方式的音频信号处理装置的第十一种实现方式中,第一和第二平移增益确定器中的至少一个使用多项式函数。这通过多项式函数近似得到的所述函数来代替正弦和余弦函数,使得计算复杂度降低。
[0035] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第十二种实现方式中,该装置还包括以下中的至少一个:一个或多个时频转换单元,用于将所述立体声信号从时域转换到频域;一个或多个频时转换单元,用于将所述重平移的立体声信号从频域转换到时域。
[0036] 在根据第一方面或第一方面的以上任意一种实现方式的音频信号处理装置的第十三种实现方式中,该装置还包括串音消除器,用于消除所述重平移的立体声信号的第一和第二音频信号间的串音。所述重平移的立体声信号占用更多能在立体声系统重现的潜在最大立体声像,因此有助于更有效地消除串音的立体声信号创建扩展到大于立体声系统的扬声器的感知到的立体声像。
[0037] 根据第二方面,本发明涉及一种用于修改包括第一和第二音频信号的立体声信号的立体声像的音频信号处理方法,该方法包括:获得平移指数和平移增益,所述获得的平移指数描绘立体声信号时频段的平移位置,所述获得的平移增益描绘所述第一和第二音频信号的时频信号段的平移位置;将频带宽度内的所述立体声信号时频段的至少所有所述获得的平移指数代入映射函数,从而提供修改的平移指数;基于所述修改的平移指数为所述第一和第二音频信号的所述时频信号段确定修改的平移增益;根据所述修改的平移增益与在时频上与所述修改的平移增益对应的所述获得的平移增益之间的比值重平移所述立体声信号。
[0038] 所述音频信号处理方法可由所述音频信号处理装置执行。所述音频信号处理方法的更多特征为可执行所述音频信号处理装置的任意一种实现方式功能。
[0039] 根据第三方面,本发明涉及一种计算机程序,包括在计算机上运行时用于执行所述方法的程序代码。
[0040] 所述音频信号处理装置可被编程设置为执行所述计算机程序。
[0041] 本发明可以以硬件和/或软件形式来实现。

具体实施方式

[0042] 本发明的实施例将结合以下附图进行描述,其中:
[0043] 图1A至图1C为各种立体声像宽度的图;
[0044] 图2示出了一实施例提供的用于修改立体声信号的时频信号段的平移指数的音频信号处理装置的图;
[0045] 图3至图5为加宽立体声像的映射曲线的可能实现方式的示意图;
[0046] 图6示出了一实施例提供的用于修改立体声信号的立体声像的音频信号处理装置的图;
[0047] 图7示出了一实施例提供的用于修改立体声信号的立体声像的音频信号处理装置的图;
[0048] 图8示出了一实施例提供的用于修改立体声信号的立体声像的音频信号处理方法的图。

具体实施方式

[0049]
[0050] 图1A至图1C为各种立体声像宽度的图。特别地,图1A示出了比最宽的立体声像窄的未处理立体声信号产生的立体声像宽度的例子。图1B至图1C分别示出了立体声像的内部加宽和外部加宽。
[0051] 媒体的立体声录音(例如音乐或电影)包含虚拟立体声阶段或立体声像内分布的不同的音频源。声源可位于立体声像宽度内,由扬声器的立体声对之间的距离定义和限制。例如,可使用振幅平移将声源放在立体声像内的任意空间上。有时,该最宽可能立体声像不用于立体声录音。在该种情况下,需修改声源的空间分布以便利用立体声系统能产生的最宽可能立体声像。这增强了感知立体声效果,获得更沉浸的听觉体验。
[0052] 可能会存在其它需要缩小立体声像的应用场景,例如扬声器的立体声对的放置位置相距较远时。
[0053] 相对于图1A的立体声像,立体声像的内部加宽在图1B中示出。图1C示出了可以使用串音消除(crosstalk cancellation,简称CTC)的外部加宽。外部加宽试图扩展感知到的立体声像,使其超过扬声器跨度。实施例可包括互补的内外部立体声修改装置和方法,因此可以被结合使用以达到更好效果并进一步改善听觉体验。
[0054] 实施例还可包括用于内部修改(如缩小和加宽)立体声像的装置和方法。可从立体声信号中提取用于描绘立体声像内的音频源的位置的时频独立的度量指标(如平移指数)。
[0055] 本领域的技术人员了解平移指数以及如何计算该指数。本发明有别于现有技术,尤其是将频带宽度内的立体声信号时频段的至少所有平移指数(如映射该指数等)代入映射函数。即,包括频带宽度(如1.5至22kHz)内的光谱内容的时频段可被修改为内部修改该立体声信号。该频带宽度可以大于,等于或小于该立体声信号带宽。
[0056] 例如,可将全部时频分箱的平移指数按顺序代入映射函数以便加宽该立体声像,使其跨越扬声器间的全部距离。不同映射函数在图3至图5中详细描述。
[0057] 本发明的一个优点为修改平移指数可以独立于时间和频率,因此独立于立体声信号内容。由于立体声信号的某些部分仅在修改的立体声像中被重新分布,因此信号的总体光谱分布是不变的。结果为不会造成着色伪影(光谱失真)。在立体声像加宽的情况下,平移指数修改导致立体声像变宽,使声源远离立体声像的中心,更多地向边/扬声器边界移动。
[0058] 进一步地,相比传统技术,实施例可以在不感知地影响(如加入失真等)修改的立体声信号的情况下降低立体声像修改的计算复杂度。为此,可通过多项式函数近似获得用于修改平移指数的映射函数。然后,不需评估映射曲线的解析式,评估多项式函数即可。由于评估多项式函数的计算复杂度比映射曲线的解析式低,使得系统整体复杂度降低。
[0059] 类似地,可用查找表(look-up table,简称LUT)实现映射曲线,其根据该解析式或多项式函数映射平移指数。
[0060] 实施例包括从立体声信号中提取平移指数。美国专利号7257231B1中描述了一种用于提取平移指数的方法。在时频转换例如快速傅立叶变换(Fast Fourier Transform,简称FFT)后,可为立体声信号的每个时频段计算平移指数。时频信号段对应于给定时间和频率区间内信号的表达方式。例如,时频信号段可对应在给定时间段生成的(复杂的)频率样本。因此,每个时频信号段可以是将FFT应用到对应时段生成的FFT分箱值。
[0061] 从立体声信号的左右声道(或第一和第二声道)间的关系中获取平移指数。虽然人类的听觉机制通过进入双耳的信号的时差和电平差来定位声源,但平移指数可以仅基于电平差。针对每个时频信号段,平移指数描绘立体声阶段的对应角度(即时频信号段“出现”在立体声像中)。
[0062] 图2示出了一实施例提供的用于修改立体声信号的立体声像的音频信号处理装置200的图。装置200包括平移指数修改器202。平移指数修改器202用于将频带宽度内的立体声信号时频段的至少所有平移指数Ψ(m,k)代入映射函数,从而提供修改的平移指数。
[0063] 例如,可以独立于时间和频率修改输入的平移指数Ψ(m,k),由此获得修改的平移指数Ψ’(m,k)。
[0064] 修改包括缩小和加宽立体声像。例如,由于立体声像自身被扬声器跨度限制,可以加宽“已使用的”立体声像的一部分(例如与音频信号的平移光谱分布相比,能在立体声系统产生的感知的宽度的值)。因此,由于例如立体声扬声器的间距,不同的立体声系统可以使用不同的修改曲线。
[0065] 即,修改平移指数的一个成果为将通过不同方式平移的音频源更多地向边移动,由此“拉伸”立体声像上的分布。
[0066] 加宽或优化声像的已使用的宽度在一些应用中有用处。一些信号可以不使用全部的可用立体声像,且加宽所述分布能在不将不需要的伪影引入加宽的立体声信号的情况下达到更沉浸的听觉体验。
[0067] 其它应用通过串音消除(crosstalk cancellation,简称CTC)或类似技术进一步处理加宽的信号,通常依赖心理声学模型来加宽超过扬声器距离的感知的立体声像。然而,这一目标未完整达成。在此情况下,输入信号的内部加宽能克服CTC的实际限制,有助于获得精确地维持声源空间分布的更宽的立体声像。
[0068] 此外,某些听觉设置可能要求修改立体声像。例如,在传统的立体声回放设置中,(与最佳立体声听音条件相比)扬声器跨度可能过大。缩小信号中已使用的立体声阶段可能有利于补偿次优的扬声器设置。
[0069] 因此,实施例可包括获得扬声器间的以及听音点和两个扬声器中每个扬声器间的距离信息。
[0070] 为加宽立体声像,要求平移指数修改器202增加(独立于时间和空间的)平移指数的绝对值,以便将声源更多地向立体声像的边移动。理想地,不应在(例如没有声源存在的)声像内创建感知的“孔”。并且,不应在有若干声源在集群的立体声像上创建点。
[0071] 用数学术语说,这两个要求可用例如双射映射函数来实现。其它标准可以为使用稳定的单调递增函数。对映射曲线/函数的其它要求可以为向中心平移的所有声源应保持在中心位置。
[0072] 另外,映射曲线可以利用关于人类听觉能的心理声学发现成果。例如,用于人类定位区分的角分辨率在立体声像中心时(约为1度)高于在边时(约为15度)。
[0073] 此时,可能要求映射曲线或映射函数独立于时间和频率修改平移指数,并且理想地实现以上所述的部分或全部属性。
[0074] 图3至图5为加宽立体声像的映射曲线的可能实现方式的示意图。由于平移指数是对称的,可以仅描述0和1之间的范围,但能通过对称曲线或函数来相应处理-1和0之间的范围。当然,平移指数可使用-1到1以外的其它取值范围。
[0075] 立体声加宽的一种可能的实现方式为将平移指数与常数因子相乘,并限定乘积最大为1。
[0076] Ψ'(m,k)=min(1,p×Ψ(m,k)),  (1)
[0077] p为控制宽度增加斜率的因子。图3中示出了通过不同重平移因子p获得的若干曲线。平移指数修改器202可以根据或基于(如获取或概算)图3中示出的一个或多个曲线来修改输入的平移指数。
[0078] 该实现方式的一个优点为重平移曲线简单。然而,图3的曲线不代表双射函数。将具有大于曲线弯曲度的平移指数的所有声源映射到最大平移指数1。
[0079] 图4中用图形示出了用于加宽立体声像的映射曲线的一种可能实现方式。平移指数修改器202可以根据或基于(如获取或概算)图4中示出的一个或多个曲线来修改输入的平移指数。
[0080] 图4示出的曲线为分段线性曲线,由低弯曲点bL和高弯曲点bH,在图4中分别为0.1和0.8,以及倾斜度控制。不修改比bL小的平移指数。倾斜度p应用于比bL大,最大至bH的输出的平移指数的平移指数,在超过最大值时,通过函数到达点(1,1)的方法确定该倾斜度。此类曲线族满足不修改平移至中心(或中心附近)的声源,以及曲线应为双射曲线的要求。然而,由于该曲线为分段线性曲线所以有弯曲度,可能会造成修改的平移指数分布中出现伪影集群。
[0081] 另一个实现方式能克服以上所述限制,其基于(如获取或概算)或表示为S型函数。图5所示的曲线平稳且没有弯曲度,代表双射函数。平移指数修改器202可以根据或基于图5所示的一个或多个曲线来修改输入的平移指数。
[0082] 能通过如下等式获取该曲线的解析式。该曲线基于代表了曲线的初步形态的S型函数。
[0083]
[0084] 参数a=2p-1控制该曲线,且p的增加增强了曲线的加宽效果。为了将该曲线拟合到点(0,0)和(1,1),应用了仿射变换,从而得到该曲线的最终版本。
[0085]
[0086] 其依旧由从p中获取的参数a控制。该曲线的表达式此时满足前述要求。例如,人类利用该曲线表达式观察角分辨率定位(如仅明显的角度差异),范围在0到1的小平移指数(对应中心平移声源)增长较小,但针对大平移指数,要求较大的增长,以获得感知的差异。
[0087] 如上所述,此处仅针对0和1之间的平移指数范围定义所有平移指数修改曲线,针对-1和0之间的范围的应用可直接使用该函数的镜像(特别地,在坐标系横坐标和纵坐标进行镜像)版本。为使解析式涵盖-1和0之间的平移指数范围,等式(3)可被修改为:
[0088]
[0089] 此外,除了立体声加宽,所有曲线也能通过对角轴y=x上的镜像应用于立体声缩小,这可通过等式(3)的逆函数实现,即:
[0090]
[0091] 范围Ψ(m,k)∈[0,1]。
[0092] 平移指数修改器202可以根据或基于(如获取或概算)图3到图5所示的一个或多个曲线来修改输入的平移指数。例如,可配置平移指数修改器202为使用唯一一个曲线。可配置平移指数修改器202为使用唯一一个映射函数。平移指数修改器202可用于接收用户输入,其中,映射函数曲率是受控的(如接收与p相关的参数)和/或映射函数选择是选出的(如与图3到图5相关的映射函数中的一个)。
[0093] 平移指数修改器202能用多种方法实现映射函数。例如,一种实现方式能直接使用等式(3)或(4)映射平移指数。
[0094] 另一种实现方式能通过等式(3)或(4)中的复杂解析函数(即多项式映射函数)的多项式近似法来降低计算复杂度。例如,从多项函数到期望映射曲线的最小二乘法拟合能使实现更高效。多项式的阶可受控。可计算一次多项式系数并存储。在运算时,评估所述多项式而不是该曲线的解析式。等式(3)的解析式中的除法和指数函数在芯片实现中的计算成本很高,用一些加法和乘法代替有助于降低计算复杂度。
[0095] 另一种实现方式通过限制处理的频率范围来降低计算复杂度。虽然平移指数修改可独立于频率进行,然而可以使用人类听觉系统的某些能力来降低计算复杂度。实施例使用振幅平移从而依赖于耳间电平差异,其主要用于定位大致1500Hz或更高频率的音频源。因此,低于该阈值的频率能在不过多损失立体声加宽效果的情况下保持不变。
[0096] 另一个实现方式通过查找表实现映射函数。在这种情况下,该函数被离散化。
[0097] 图6示出了一实施例提供的用于修改立体声信号的立体声像的音频信号处理装置600的图。平移增益确定器602接收修改的平移指数Ψ‘(m,k),其可被上述平移指数修改器
202修改。平移增益确定器604接收从例如立体声信号中提取的未修改的平移指数Ψ(m,k)。
[0098] 平移增益确定器602和604都基于接收的平移指数产生平移增益。如上所述,每个平移指数描绘立体声像内的某个位置。针对给定的平移指数(Ψ(m,k)或Ψ‘(m,k)),在一种实现方式中,平移增益确定器604和604能使用保能量平移法则确定立体声道增益:
[0099]
[0100] gL(m,k)和gR(m,k)分别表示左(如第一输入信号)和右(如第二输入信号)声道的增益,该声道针对输入的立体声信号的m和k确定的时域分箱。平移增益确定器602可以使用保能量平移法则计算修改的平移增益g‘L (m,k)和g‘R (m,k)。
[0101] 在平移增益确定器602和604的一种实现方式中,可使用多项式近似法,例如,通过多项式函数的近似法来代替正弦和余弦函数,根据等式(6)计算平移增益。
[0102] 从这个意义上说,某个时频分箱(即立体声信号时频段)中包含的信号能被移动以通过重平移器606创建修改的立体声像。重平移器606可接收平移增益、修改的平移增益以及平移增益所依据的输入的立体声信号。在重平移器606的一种实现方式中,重平移器606生成立体声信号,该信号具有使用以下表达式的修改的立体声像。
[0103]
[0104] X1(m,k)和X2(m,k)为输入的立体声信号,X1’(m,k)和X2’(m,k)为具有修改的立体声像的输出的立体声信号。
[0105] 装置600还可包括串音消除器608,用于消除重平移的立体声信号(X1’(m,k)和X2’(m,k))的第一和第二音频信号间的串音,并输出具有感知的立体声像的立体声信号(XCTC1(m,k)和XCTC2(m,k)),该感知的立体声像扩展到超出了扬声器的距离。
[0106] 图7示出了一实施例提供的用于修改立体声信号的立体声像的音频信号处理装置700的图。时频转换单元702将输入的立体声信号(x1(t)、x2(t))转化为频域信号(X1(m,k)、X2(m,k))。
[0107] 时频转换后,通过例如美国专利号7257231B1中描述的方法,使用平移指数确定器704,从立体声对X1(m,k)和X2(m,k)中提取平移指数。
[0108] 该平移指数提取方法基于信号X1(m,k)和X2(m,k)间的振幅相似性。例如,当该相似性在某个时频分箱中较低时,与该时频分箱对应的音频源更多地向一边平移,即向两个输入信号的其中一个的方向平移。在平移指数确定器704的一种实现方式中,一种相似性指数ψ(m,k)计算为:
[0109]
[0110] 分母上的项分别为立体声输入信号的第一(左)和第二(右)信号的信号能量。相对于X1(m,k)和X2(m,k),该相似性指数为对称的。因此,该相似性指数会造成歧义,且就其自身而言,无法表示信号平移的方向(如左或右)。为消除这种歧义,可使用能量差。
[0111] Δ(m,k)=|X1(m,k)|2-|X2(m,k)|2,  (9)
[0112] 从能量差中获取指示符,
[0113]
[0114] 并与相似性指数ψ(m,k)结合,以获得平移指数。
[0115]
[0116] 在该实现方式中,平移指数确定器704提供范围可能是-1到1的平移指数,其中,-1表示完全向第一输入信号(左)平移的信号,0对应向中心平移的信号,1表示完全向第二输入信号(右)平移的信号。平移指数描绘立体声像内感知的角度。
[0117] 如上所述,平移指数修改器202可修改接收的平移指数。一种实现方式包括用户输入接口705,可提供参数以控制立体声像修改程度(如映射函数曲率)和/或选择一种平移修改类型(如选择图3到图5所示的曲线族对应的平移修改技术中的一种)。
[0118] 如上所述,平移增益确定器602和604可生成平移增益,然后可以提供给重平移器606,如上所述,生成具有修改的立体声像的输出立体声信号(即重平移的立体声信号)。频时转换单元706将输出立体声信号转换到时域上,由此输出时域输出立体声信号x’1(t)和x’2(t)。
[0119] 在装置700的一种实现方式中,通过大小为512或1024,采样率为48kHz的快速傅立叶变换,频时转换单元702能将时域信号转换至频域。平移指数修改器202使用平移指数映射函数时,多项式近似法的多项式阶设为3,在平移增益确定器602和604使用平移增益计算时,设为2。因此,发明人很好地折中了准确性和降低复杂度。针对重平移参数p=4和三阶多项式,多项式系数可以为[a3 a2 a1 a0]=[4.5214 -8.4350 4.8328 0.1724]。平移指数修改器此时可使用多项式函数,得出Ψ’=a3·Ψ3+a2·Ψ2+a1·Ψ+a0。
[0120] 实施例可包括图7所示的所有特征,但也可只包括重平移器606。例如,码流可包括平移增益,修改的平移增益,以及频域输入立体声信号,其全部可被提供至重平移器606。在另一种变形中,平移指数可包括在码流中,由此可以不需要平移指数确定器704。
[0121] 图8示出了一实施例提供的用于修改立体声信号的立体声像的音频信号处理方法的图。
[0122] 步骤800包括获得平移指数和平移增益,获得的平移指数描绘输入的立体声信号的立体声信号时频段的平移位置,获得的平移增益描绘输入的立体声信号的第一和第二音频信号的时频信号段的平移位置。如上所述,该指数和增益可以直接从码流中获得,或基于输入的立体声信号计算得出,或使用两者的结合得到。
[0123] 步骤802包括将频带宽度内的立体声信号时频段的至少所有获得的平移指数代入映射函数。步骤804包括基于修改的平移指数为第一和第二音频信号的时频信号段确定修改的平移增益。
[0124] 步骤806包括根据修改的平移增益与在时频上与修改的平移增益对应的获得的平移增益之间的比值重平移输入的立体声信号。即,平移增益在例如其都包括同一时频分箱或时频段的值时相互对应。
[0125] 本发明实施例可以在用于在计算机系统上运行的计算机程序中实现,至少包括当在诸如计算机系统等的可编程装置上运行时用于执行根据本发明的方法步骤的代码部分,或者使得可编程装置执行根据本发明的设备或系统的功能。
[0126] 计算机程序是指令列表,例如,特定的应用程序和/或操作系统。计算机程序例如可以包括以下中的一个或多个:子例程、函数、流程、对象方法、对象实现、可执行应用、小程序、服务器小程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。
[0127] 计算机程序可以存储在计算机可读存储介质内部或通过计算机可读传输介质传输到计算机系统。全部或部分计算机程序可以在永久地、可移除地或远程地耦合至信息处理系统的瞬时性或非瞬时性计算机可读介质上提供。计算机可读介质可以包括,例如但不限于,任意数量的以下示例:磁存储介质,包括磁盘和磁带存储介质;光存储介质,例如光盘介质(例如,CD-ROM、CD-R等)和数字视频光盘存储介质;非易失性存储器存储介质,包括基于半导体的存储器单元,例如闪存、EEPROM、EPROM、ROM;磁数字存储器;MRAM;易失性存储介质,包括寄存器、缓冲器或缓存、主存储器、RAM等;以及数据传输介质,包括计算机网络、点对点电信设备、载波传输介质,此处仅举几例。
[0128] 计算机进程通常包括执行或运行程序或程序的一部分、当前程序值和状态信息,以及操作系统用来管理进程的执行的资源。操作系统(Operating System,简称OS)是管理计算机资源共享的软件,并为程序员提供用于访问这些资源的接口。操作系统处理系统数据和用户输入,并通过分配及管理任务和内部系统资源作为服务对系统的用户和程序进行响应。
[0129] 计算机系统例如可以包括至少一个处理单元、关联存储器和多个输入/输出(input/output,简称I/O)设备。当执行计算机程序时,计算机系统根据计算机程序处理信息并通过I/O设备生成合成的输出信息。
[0130] 此处讨论的连接可以是适用于例如通过中间设备从或向相应节点、单元或设备传递信号的任意类型的连接。因此,除非另有所指或所述,该连接例如可以是直接连接或间接连接。可以结合单个连接、多个连接、单向连接或双向连接对该连接进行说明或描述。然而,不同的实施例可能会使该连接的实现发生变化。例如,可以使用单独的单向连接而不是双向连接,反之亦然。此外,多个连接可以被替换为以串行或时间复用方式传递多个信号的单个连接。同样地,携带多个信号的单个连接可以被分离成携带这些信号的子集的各种不同的连接。因此,存在许多用于传递信号的选择。
[0131] 本领域技术人员将意识到,各逻辑块之间的界限仅仅是说明性的,并且替代实施例可以合并逻辑块或电路元件,或者可以在各种逻辑块或电路元件上实行功能的替代分解。因此,应当理解,此处所描述的架构仅仅是示例性的,并且实际上,许多其它实现相同功能的架构也能够实现。
[0132] 因此,实现相同功能的组件的任意布置是有效地“关联”,从而实现了所期望的功能。因此,不论是架构或是中间组件,此处组合以实现某个特定功能的任意两个组件可被视为相互“关联”,从而实现了所期望的功能。同样地,任意两个如此关联的组件也可被视为相互“可操作地连接”或“可操作地耦合”,以实现所期望的功能。
[0133] 此外,本领域技术人员将意识到,以上所描述的操作之间的界限仅仅是说明性的。多个操作可以组合成单个操作,单个操作可以分布在附加操作中,操作可以以在时间上至少部分重叠的方式来执行。另外,替代实施例可以包括某个特定操作的多个示例,在各种其它实施例中可以改变操作的顺序。
[0134] 此外,例如,其中的示例或部分可以,例如以任意合适类型的硬件描述语言,实现为物理电路的或可转换成物理电路的逻辑表示的软或代码表示。
[0135] 此外,本发明不限于在不可编程硬件中实现的物理设备或单元,也可以应用于能够通过根据合适的程序代码进行操作来执行所期望的设备功能的可编程设备或单元,例如,大型主机、小型计算机、服务器、工作站、个人计算机、记事本、个人数字助理电子游戏、汽车和其它嵌入式系统、蜂窝电话和各种其它无线设备,在本申请中通常表示为‘计算机系统’。
[0136] 然而,其它修改、变形和替代也是可能的。应认为本说明书和附图具有说明性意义而非限制性意义。
相关专利内容
标题 发布/更新时间 阅读量
一种修改中性笔 2020-05-12 635
一种修改纸 2020-05-11 122
移动呼叫修改 2020-05-12 204
已修改流同步 2020-05-12 202
一种面型修改油 2020-05-13 898
一种面型修改油 2020-05-13 978
一种修改液 2020-05-12 551
修改带 2020-05-11 676
修改设备通知 2020-05-13 292
引导过程修改 2020-05-13 555
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈