频域中的虚拟低音的相加专利检索-音频信号处理信号处理信号处理专利检索查询-专利查询网

频域中的虚拟低音的相加

阅读：363发布：2021-04-14

专利汇可以提供频域中的虚拟低音的相加专利检索，专利查询，专利分析的服务。并且公开了频域中的虚拟低音的相加。提供了用于对音频信号进行处理以添加虚拟低音的系统、方法和技术。在一个代表性实施例中，一种设备包括：(a)输入线，输入原始音频信号；(b)变换模块，将原始音频信号变换成频率分量的集合；(c)低音提取滤波器，提取这样的频率分量的低音部分；(d)估计器，估计这样的低音部分内的低音声音的基频；(e)频移器，将低音部分偏移作为估计器估计的基频的整数倍的频率，从而提供虚拟低音信号；(f)加法器，具有(i)耦合到原始音频信号和虚拟低音信号的输入以及(ii)输出；以及(g)音频输出装置，耦合到加法器的输出。，下面是频域中的虚拟低音的相加专利的具体信息内容。

权利要求

1.一种用于对音频信号进行处理的设备，包括：
(a)输入线，输入原始音频信号；
(b)变换模块，将所述原始音频信号变换成频率分量的集合；
(c)低音提取滤波器，提取所述频率分量的低音部分；
(d)估计器，估计所述低音部分内的低音声音的基频；
(e)频移器，将所述低音部分偏移正频率增量，从而提供虚拟低音信号，所述正频率增量是所述估计器估计的基频的整数倍；
(f)加法器，具有(i)耦合到所述原始音频信号和所述虚拟低音信号的输入以及(ii)输出；以及
(g)音频输出装置，耦合到所述加法器的输出。
2.根据权利要求1所述的设备，其中，所述低音提取滤波器是具有至少15Hz的低端截止频率的带通滤波器。
3.根据权利要求1所述的设备，其中，所述低音提取滤波器是具有至少1倍频程的通带的带通滤波器。
4.根据权利要求1所述的设备，其中，所述低音提取滤波器是具有至少2倍频程的通带的带通滤波器。
5.根据权利要求1所述的设备，还包括：响度控制器，基于所述低音部分的感知响度的第一估计和所述虚拟低音信号的感知响度的第二估计而调整所述虚拟低音信号的强度。
6.根据权利要求5所述的设备，其中，所述第一估计基于所述低音部分的声音压力水平SPL或功率中的至少一个的估计。
7.根据权利要求5所述的设备，其中，所述响度控制器基于所述低音部分的代表性频率、所述低音部分的强度、所述虚拟低音信号的代表性频率和等响度水平数据集合而确定比例因子。
8.根据权利要求7所述的设备，其中，所述低音部分的代表性频率被确定为所述低音部分内的几何平均值。
9.根据权利要求1所述的设备，其中，所述变换模块执行短时傅立叶变换STFT。
10.根据权利要求1所述的设备，其中，所述估计器还估计所述低音声音的显著性值，并且其中，如果所述显著性值不满足指定标准，则所述虚拟低音信号被强制为0。
11.根据权利要求1所述的设备，其中，所述低音声音的基频被限制为落在一倍频程范围内。
12.根据权利要求1所述的设备，其中，所述基频被限制为所述变换模块提供的所述集合中的频率分量之一。
13.根据权利要求1所述的设备，还包括：反向变换模块，具有耦合到所述加法器的输出的输入和耦合到所述音频输出装置的输入的输出，执行所述变换模块执行的变换的逆变换。
14.根据权利要求1所述的设备，其中，所述低音提取滤波器、所述估计器、所述频移器和所述加法器作用于所述原始音频信号的离散帧，并且所述设备还包括：平滑滤波器，调整所述离散帧中的各个帧中的基频以对所述帧内的基频的改变进行平滑。
15.根据权利要求14所述的设备，其中，所述平滑滤波器实现平滑函数
其中，n是当前帧编号的号码，是F0的平滑后
形式，并且α是滤波器系数。
16.根据权利要求1所述的设备，其中，所述整数倍被确定为
其中，k是所述整数倍，是用作所述低音提取滤波器的带通滤波器的低端截止频率，表示指定最低可接受频率，并且是返回不小于x的最小整数的向上取整函数。
17.根据权利要求1所述的设备，其中，所述整数倍被确定为
其中，k是所述整数倍，F0是所述基频，表示指定最低可接受频率，并且是返回不小于x的最小整数的向上取整函数。
18.根据权利要求1所述的设备，其中，所述整数倍被确定为
其中，k是所述整数倍，表示指定最低可接受频率，是用作所述低音提取滤波器的带通滤波器的低端截止频率，是所述低音提取滤波器的高端截止频率，并且是返回不小于x的最小整数的向上取整函数。
19.根据权利要求1所述的设备，还包括：高通滤波器，抑制所述原始音频信号内的不能够由所述音频输出装置有效地转换为声音的频率。
20.根据权利要求19所述的设备，其中，所述高通滤波器耦合到所述变换模块的输出，并且作用于所述频率分量的集合。

说明书全文

频域中的虚拟低音的相加

技术领域

[0001] 本发明涉及系统、方法和技术，其用于对音频信号进行处理以为收听者提供更强的低音印象，或者换言之，以便将“虚拟低音”与音频信号相加，例如以使得可以通过没有良好低音产生特性的扬声器或其它音频输出装置进行播放。

背景技术

[0002] 平板电视机和移动装置的出现加速了小型扬声器的广泛使用，公知小型扬声器具有差的低音(即，低频)性能。由于收听者对声音质量的总体印象较强地受到低音性能的影响，因此该特性通常使得小型扬声器处于不利位置。因此，非常期望改进所感知的低音性能，尤其是对于包括小型扬声器的装置。

[0003] 提升低音性能的传统方法是简单地放大音频谱的低频部分，从而使得低音听起来更大声。然而，由于当在低频将电能转换为声能时小型扬声器通常具有差的效率，从而引起诸如电池消耗和过热的问题，因此这样的方法的有效性大大受到限制。潜在的更严重的问题在于，低频的放大可以引起扬声器线圈的过度偏移，从而导致失真，并且在一些情况下，导致对扬声器的损坏。

[0004] 替选方法是利用“虚拟音调(virtual pitch)”的音质效果。对于用于示出该效果的简单示例，考虑基频F0为100赫兹(Hz)的音调。尽管可以通过播放100Hz的纯音在人耳中产生100Hz音调的感觉，但是乐器和人类声带通常使用具有合成谐波结构(诸如100Hz、200Hz、300Hz等)的声调集合产生该感觉，这也可以提供更完整的(和区分的)声音质量。更有意思的在于，100Hz的基频处的声调对于人类具有听到100Hz音调的感觉是不必要的。即使100Hz的声调丢失，200Hz、300Hz、400Hz等的谐音的集合也可以产生100Hz音调的感觉。人耳显然可以仅根据谐音而推出音调。该现象称为虚拟音调。

[0005] 虚拟音调的概念的一个分支在于，不需要物理地产生基频F0处的声调以便产生F0处的音调的感觉。当应用于小型扬声器的低音增强时，这意味着不需要在小型扬声器低效的低频浪费能量。替代地，可以通过使用扬声器在产生方面更高效的较高频率声调而产生类似的低音印象。只要提供了适当的谐波结构，虚拟音调效果就可以足够强以产生强的低音感觉。该一般方法在这里称为虚拟低音(virtual bass)。

[0006] 早期的虚拟低音技术在时域中工作并且一般包括以下步骤：

[0007] 1.使用带通滤波器从输入音频信号提取低频分量以形成低音信号；

[0008] 2.通过经由非线性装置馈送低音信号而生成较高阶的谐波；

[0009] 3.使用带通滤波器选择高阶谐波的一部分(虚拟音调)；以及

[0010] 4.将所选择的高阶谐波与原始信号相加。

[0011] 然而，本发明人意识到对于该方法存在问题，包括非线性装置引入了互调失真，这会显著降低音频质量。

[0012] 更近期的技术使用相位声码器(phase vocoder)而在频域中工作，例如，如下：

[0013] 1.使用短时傅立叶变换(STFT)将输入音频信号变换到离散傅立叶变换(DFT)域；

[0014] 2.将低频谐音的频率线性地按比例提高至扬声器可以有效地产生声音的频率；

[0015] 3.使用按比例提高后的谐波频率来驱动正弦波叠加合成器(sum-of-sinusoids synthesizer)对时域虚拟低音信号进行合成；以及

[0016] 4.将虚拟低音信号与原始信号相加。

[0017] 然而，本发明人意识到该方法的至少一个问题在于，其使得谐音之间的频率差也按比例被提高，因此所得到的虚拟音调频率高于其应该为的频率。换言之，所得到的虚拟低音通常将被感知为具有比原始信号的低音部分高的音调。甚至更坏的是，在许多情况下，特别是涉及音乐的情况下，所感知的音调中的上述偏移然后将使得所感知的低音与音频信号的其它部分冲突，从而导致声音质量的更严重下降。

发明内容

[0018] 本发明通过使用被发现产生更好结果(即，音频信号的原始低音部分的更真实印象)的某些方法来解决上述问题。

[0019] 本发明的一个具体实施例涉及一种用于对音频信号进行处理的设备，其包括：(a)输入线，输入原始音频信号；(b)变换模块，将原始音频信号变换成频率分量的集合；(c)滤波器，提取这样的频率分量的低音部分；(d)估计器，估计这样的低音部分内的低音声音的基频；(e)频移器，将低音部分偏移作为估计器估计的基频的整数倍的频率，从而提供虚拟低音信号；(f)加法器，具有(i)耦合到原始音频信号和虚拟低音信号的输入以及(ii)输出；以及(g)音频输出装置，耦合到加法器的输出。

[0020] 另一实施例涉及一种用于对音频信号进行处理的设备，其包括：(a)输入线，输入时域中的原始音频信号；(b)低音提取滤波器，提取原始音频信号的低音部分，该低音部分也在时域中；(c)估计器，估计低音部分内的低音声音的基频；(d)频移器，将低音部分偏移作为估计器估计的基频的整数倍的正频率增量，从而提供虚拟低音信号；(e)加法器，具有(i)耦合到原始音频信号和虚拟低音信号的输入和(ii)输出；以及(f)音频输出装置，耦合到加法器的输出。

[0021] 根据每个上述布置，通常可以获得更好的音频输出，特别是当通过不能提供良好的低音产生的扬声器或其它音频输出装置播放音频信号时。

[0022] 以上概述仅旨在提供本发明的某些方面的简要描述。本发明的更完整理解可以通过参考权利要求和结合附图的优选实施例的以下详细描述来获得。

附图说明

[0023] 在以下公开内容中，参照附图来描述本发明。然而，应理解，附图仅描绘了本发明的某些代表性和/或示例性实施例和特征，并且不旨在以任何方式限制本发明的范围。以下是每幅附图的简要描述。

[0024] 图1是用于在频域中将虚拟低音与音频信号相加的系统的框图。

[0025] 图2是用于在时域中将虚拟低音与音频信号相加的系统的框图。

[0026] 图3是用于执行单边带(SSB)调制的系统的框图。

具体实施方式

[0027] 本申请涉及同一发明人在同一日期提交的题为“Addition of Virtual Bass in the Time Domain”的共同转让美国专利申请。

[0028] 为了便于引用，本公开被划分为章节。每个章节的总体主题由该章节的标题来指示。然而，这样的标题仅被包括用于有利于可读性，并且不旨在以任何方式限制本发明的范围。

[0029] 频域中的虚拟低音的相加

[0030] 现在参照图1讨论主要在频域中工作的本实施例的第一实施例。如在以下更详细地讨论的，图1示出了系统5，系统5用于对原始输入音频信号10(通常为数字形式，即，在时间上离散或被采样以及在值方面离散或被量化)进行处理，以便产生与原始信号10相比可以具有较少实际低音内容但是添加了“虚拟低音”的输出音频信号40，例如，从而使得输出音频信号40更适合于不是非常擅长产生低音的扬声器或其它输出装置。

[0031] 参照图1，初始，正向变换模块12将输入音频信号10从时域变换为频域(例如，DFT)表示。可以在模块12内使用传统STFT或者其它传统频率变换技术。在以下讨论中，一般假设使用STFT，从而产生DFT表示，但是期望不失一般性，并且这里的每个具体引用可以例如利用上述更一般的语言来替换。

[0032] 所得到的变换后的信号然后被提供(即，耦合)到低音提取器14，并且可选地被提供到高通滤波器15。低音提取器14例如使用具有如下通带(例如，频谱的受到不超过3dB衰减的部分)的带通滤波器而从DFT(或其它频率)系数提取输入信号10的低频部分16：

[0033]

[0034] 其中，是低端截止(-3dB)频率，是高端截止频率，并且上述范围优选地以预期低音强但是期望的扬声器或其它最终输出装置42无法有效地产生声音的频率为中心。另外，低音提取器14的带宽优选地跨越足够的倍频程(octave)(例如，至少一个1个、2个或更多个)以便从源音频信号10提取适当的谐波结构以用于以下所指示的目的。这样的通带的一个代表性示例是[40,160]Hz。更一般地，优选地是至少10Hz、15Hz、20Hz或30Hz，并且优选地是100Hz至200Hz。

[0035] 通常，低音提取器14例如通过将具有期望滤波器特性的窗函数直接应用于正向STFT模块12提供的频率系数而抑制输入信号10的较高频分量(以及优选地还抑制非常低频分量，例如，低于人类听力范围的分量)。在优选实施例中，低音提取器14的目的是输出期望被复制为虚拟低音(例如，不包括低于人类听力范围的任何非常低频能量)的低音信号(包括低音信号的基频和低音信号的谐波结构的至少一部分)。

[0036] 如图1所示，所提取的低音信号16被提供到F0估计器24，F0估计器24用于估计低音信号16内的正生成的虚拟低音信号25期望对应的低音声音(或音调)(即，虚拟低音信号25期望替换的低音声音)的基频F0。注意，在这里的讨论中，基频可互换地称为F0或F0。尽管可使用任何F0检测算法来提供基频F0的估计，但是由于DFT(或其它频率)频谱的可用性，在当前实施例中，频域中的方法是优选的。通常，这样的技术中的隐含是正处理的音频信号内的确定其基频的主音或音调(在该情况下，主低音声音或音调)的识别。在这点上，本发明人已发现任何给定时刻的单个低音声音或音调的感觉的产生可以提供良好的声音质量。当前，优选的方法如在Xuejing Sun,“A Pitch Determination Algorithm Based on Subharmonic-to-Harmonic Ratio”,The 6th International Conference of Spoken Language Processing,2000,pp.676-679和/或Xuejing Sun,“Pitch Determination and Voice Quality Analysis Using Subharmonic-to-Harmonic Ratio”,2002IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),vol.1,pp.I-333-I-336,13-17May 2002中所述。

[0037] 可以可选地采用平滑机制来保证音频帧之间的平滑转变(即，帧之间的F0的平滑变化)。一个这样的实施例使用以下一阶无限脉冲响应(IIR)滤波器：

[0038]

[0039] 其中，n是帧编号，是平滑后的F0，并且α是滤波器系数并且与采样频率fs和时间常数τ有关，如：

[0040]

[0041] 低音不是始终存在于音频信号中。当对于音频帧不存在低音时，可以可选地禁止虚拟低音增强机制。以此方式开启和关闭虚拟低音机制通常将产生更强以及更加期望的低音对比。为此目的，大部分F0检测算法产生每个音频帧的F0显著性值(salience value)，该F0显著性值通常指示帧中的音调谐波结构的强度。例如，当使用这些F0检测算法时，谐波幅度的和(SH)以及以上引用的Sun的文章中提及的次谐波与谐波的比率(SHR)可以用作显著性函数。在SH的情况下，谐波结构越强，显著性值越高。另一方面，SHR提供相反关系：SHR越高，谐波结构越弱。

[0042] 在任意情况下，可以容易地采用所选择的F0显著性值来实现该开/关机制。例如，在某些实施例中，如果给定帧中的F0显著性值低于(或者高于，根据显著性值的特性，如先前段落所指出的)指定(例如，固定或动态设置的)阈值(或者不满足例如与指定阈值有关的指定标准)，则关闭虚拟低音机制(例如，对于该帧，虚拟低音信号25被设置或强制为0)。如上所述，存在产生不同显著性值的多个潜在显著性函数。每个这样的显著性函数通常具有可以调谐的多个参数，因此以实验方式确定对于优选地要使用的给定显著性值的适当阈值(用于开启和关闭虚拟低音功能)。例如，阈值可基于来自各个评估器的测试组的主观质量评估。替选地，并非使用在一定意义上确定为“最优”的固定阈值，用户30可设置有允许用户30例如根据他的或她的单独偏好和/或基于当前正产生的特定声音的性质(或声音的类型)而调整值的用户接口元件。在此外的实施例中，使用这些方法的组合(例如，在用户30没有指定设置的这些实例中，基于先前用户设置，允许用户30在期望时调整值以及采用机器学习算法来设置值)。

[0043] F0估计从估计器24被提供到转换计算器26，转换计算器26计算频移器28随后将用于转换低音信号16的频移(例如，转换为输出装置42可以有效地产生声音的频率)。为了适当地维持低音信号的谐波结构，转换后的谐音的频率优选地是基频F0的整数倍，因此频移的值优选地是：

[0044] Δ＝kF0

[0045] 其中，k是正整数，这里称为频移乘数。使用这样的频移乘数，F0,2F0，3F0，...处的低音谐波频率集合将被转换(在频移器28中)为F0+kF0,2F0+kF0，3F0+kF0，..处的目标谐波频率集合。

[0046] 以此方式，目标谐波频率之间的差仍是F0，并且每个谐波频率仍是F0的整数倍。因此，该谐波频率集合将产生缺失的虚拟音调的感觉。另外，F0周围的频率的相同量(Δ)的转换通常可以从感知角度保留原始低音质量。

[0047] 频移乘数优选地保证低音信号被偏移为扬声器可以有效地产生声音的频率。在这点上，如果表示扬声器可以有效地产生声音的最低频率，则对于具有公式1给出的通带的低音信号的一个这样的频移乘数可被确定为：

[0048]

[0049] 其中，是返回大于或等于x的最小整数的向上取整函数(ceilingfunction)。对于在公式1中给出的所提取低音信号16(假定包括F0)的范围，转换后(频率偏移后)的F0的相应范围于是将是：

[0050]

[0051] 当所估计的F0在公式1给出的范围的右端时，以上指定的乘数k可使得低音信号被转换为非常高的频率范围，从而导致不期望的低音感知。该问题可通过替代地使用以下乘数来缓解：

[0052]

[0053] 该乘数是所估计的F0的函数，因此，随着所估计的F0改变而在帧之间变化。为了限制当所估计的F0在得到作为整数的flt/F0的值附近改

[0054] 变时的不连续性影响，优选地，在公式1中给出的范围的顶部的一倍频程F0范围被设置为用于所允许的F0估计的范围，即，使得F0估计被限制在以下范围内：

[0055]

[0056] 并且，任何初始的F0估计通过提高其倍频程而被偏移到该范围中。然后，转换乘数可获得为：

[0057]

[0058] 其是固定值。由于该修改后的F0估计被限制为公式5中指定的范围，因此转换后(偏移后)的F0的相应范围是：

[0059]

[0060] 其显著小于公式3指定的范围。

[0061] 如公式6所阐述的定义乘数k的另一优点在于，其使得与作为对于大部分F0检测算法的共同问题的倍频程误差的问题无关。在这点上，注意，F0检测算法易于产生比真实F0高或低一个或多个倍频程的估计。如果使用公式2或公式4，则这样的误差将使得低音信号被转换为显著不同的频率。由于所估计的F0被转换为公式5的范围，因此当使用公式6时，该问题变得无关。

[0062] 转换计算器26将转换信息(例如，仅Δ或者k与F0一起)提供到频移器28，该频移器28优选地将整个提取的低音信号16转换(或偏移)固定频率增加Δ(例如，转换为扬声器或其它输出装置42可以有效地产生声音的频率)，同时保证低音信号16的谐波结构保持不变。
第n个STFT帧的虚拟低音信号V(f,n)的频率表示可以从低音信号16的频率表示B(f,n)获得，例如，如：

[0063] V(f，n)＝B(f-Δ，n)ej2πΔnM，

[0064] 其中，M是STFT的块大小。期望以上指出的相位调整保证连续STFT帧之间的平滑相位转变。参见例如J.Laroche和M.Dolson“, New phase-vocoder techniques for real-time pitch shifting,chorusing,harmonizing,and other exotic audio modifications,”Journal of the Audio Engineering Society,47.11(1999):pp.928-
936。

[0065] 注意，在当前优选实施例中，F0被限制为与变换频率(例如，DFT)频点(bin)对应的频率，因此，Δ是频点宽度的整数倍。为此目的，发现采用这样的限制显著地简化了所需的处理，而不会引起质量的任何显著下降。然而，可以适应部分情况，并且这样做的系统和处理旨在包括在本发明的范围内。在先前段落引用的Laroche和Dolson的文章讨论了根据这些路线的方法。

[0066] 由于人类响度感知在低频较不敏感，因此在缺少调整的情况下，与存在于原始信号10中的实际低音相比，要在系统5中添加的虚拟低音信号25(其包括较高频率的集合)通常将听起来(即，被感知为)更大声。然而，优选地，使得所添加的虚拟低音声音与原始低音一样响，以维持所感知的响度平衡。为此目的，响度控制模块29的主要目的是估计与输入信号10中的原始低音相比虚拟低音信号25的所感知的响度水平的改变，然后使用该信息生成期望使两者均衡的比例因子，即，估计对于虚拟低音信号25的最优音量调整以使得虚拟低音与原始音频信号10良好地混合。另外，在某些实施例中，系统5呈现使得用户30调整导致该比例因子的修改以便适合用户30的偏好(例如，增加或减小的低音感觉)的设置的用户接口。

[0067] 优选地，响度控制模块29首先估计所提取的低音信号16的声音压力水平(SPL)或功率。这样做的一种方法是计算通带内的功率的以下平均值，例如：

[0068]

[0069] 其中，Xn是第n个DFT系数，L和H分别是低音信号16内的最低和最高DFT频点编号。另外，响度控制模块29优选地标识所提取的低音信号16内的代表性或额定频率。几何平均值可用于计算原始低音信号16的该代表性或额定频率，例如，如：

[0070]

[0071] 其中，fn是第n个DFT频点的频率。该代表性或额定频率和功率然后可以被插入到ISO 226:2003的公式(2)中以获得原始低音信号16的响度水平LN。

[0072] 类似地，对于相应虚拟低音信号25的代表性或额定频率可被计算为如下：

[0073]

[0074] 该代表性或额定频率fV和响度水平LN然后可以被插入到ISO 226:2003的公式(1)中以获得目标SPL，其然后可以被转换为目标比例因子s，如：

[0075]

[0076] 经过或者没有经过用户30修改(例如，如以上所讨论的)的该比例因子s然后与虚拟低音信号25一起被提供到乘法器32，以便产生期望的经音量调整的虚拟低音信号25’。响度控制模块29和乘法器32的组合在这里可以共同被称为“响度控制器”或“响度均衡器”。另外，尽管这里引用了ISO 226:2003，可替代地使用任何其它(例如，类似的)等响度水平数据集合。

[0077] 如以上所指出的，输入信号10的经频域变换后的形式也可被提供到可选高通滤波器15。高通滤波器15(如果设置)的目的是抑制期望输出装置42不能有效再现的频谱的全部较低部分。例如，可由高通滤波器15滤除低于指定频率(例如，具有50Hz至200Hz的值)的频率。应指出，特别是由于优选地低音提取器14提取低音音调(或声音)的谐波结构的至少一部分，因此在低音信号16的频谱与高通滤波器15通过的频谱之间可存在重叠。与低音提取器14类似，高通滤波器15(如果设置)通常例如通过直接对变换模块12提供的频率系数应用具有期望滤波器特性的窗函数而执行其滤波操作(即，在该情况下，抑制输入信号10的低频分量)。如之前所指出的，高通滤波器15可以减少例如否则将在小型扬声器中浪费的或可能导致其他负面影响的能量，但是其不是根据本发明的虚拟低音系统、处理或方法的关键或必要部分。

[0078] 在加法器35中，频域虚拟低音信号25’与经频率变换的并且可能的高通滤波后的输入信号相加。最终，在模块36中执行反向变换(即，在模块12中执行的变换的逆变换)以便将合成信号转换回时域。所得到的输出信号40通常在被提供到扬声器或其它输出装置42之前将受到额外的处理(例如，数模变换、响度补偿(诸如在2015年9月13日提交的共同转让美国专利申请第14/852,576号中所讨论的，其全部内容通过引用合并于此)和/或放大)。替选地，可在将输入信号10提供到系统5之前对输入信号10执行这样的额外处理中的任何处理或全部。

[0079] 时域中的虚拟低音的相加

[0080] 现在主要参照图2讨论完全在时域中操作的本实施例的替选实施例。如以下更详细地讨论的，图2示出了系统105，系统105用于对原始输入音频信号10(通常为数字形式)进行处理，以便产生输出音频信号140，如在上述系统5中，输出音频信号140可以具有与原始信号10相比较少的实际低音内容但是添加了“虚拟低音”，例如，从而使得输出音频信号140更适合于不擅长产生低音的扬声器或其它输出装置。

[0081] 参照图2，初始，低音提取器114优选地使用带通滤波器而提取输入信号10的低频部分(例如，除了低于人类听力范围的非常低频部分之外)。与低音提取器14相同，低音提取器114的通带优选地在公式1中指定，并且低音提取器114的特性与低音提取器14的特性相同，除了低音提取器14在时域中工作之外。传统的有限脉冲响应(FIR)或IIR滤波器可用于低音提取器114。所提取的低音信号(或低音部分)116被提供到F0估计器124。

[0082] 尽管F0估计器124可使用任何F0检测算法来提供基频F0的估计，但是为了避免额外复杂度，在当前实施例中时域中的方法是优选的。优选的F0检测算法检查称为整合窗(integration window)的指定数量的音频样本，该整合窗的大小优选地至少为与最小预期F0对应的周期的两倍。在获得F0值之后，优选地将音频样本提前称为帧的多个样本，该帧的大小优选地为整合窗的大小的一部分(即，小于整合窗)。如果频繁地更新F0估计(即，与整合窗相比，帧大小较小)，则优选地使用诸如过零率(ZCR)方法的简单F0检测方法，以便维持合理的计算负荷。另一方面，如果不频繁地更新F0估计，则可以使用更复杂的方法来提供更可靠且准确的F0估计，诸如，如例如在Kawahara H.de Cheveigné,“YIN,a fundamental frequency estimator for speech and music”,J Acoust Soc Am.,Apr 2002,111(4):1917-30中讨论的YIN估计方法。另外，与F0估计器24相同，F0估计器124优选地还采用(例如，类似的或相同的)平滑机制对音频帧之间的F0估计和/或显著性测量估计和相应阈值(或者类似或相关的标准)的变化进行平滑，以在各个帧内开启和关闭虚拟低音机制。

[0083] 估计器124生成的F0估计被提供到优选地与上述转换计算器26类似或相同的转换计算器126，并且相同的考虑一般适用。转换计算器126的输出(例如，仅Δ或者k与F0一起)然后被提供到频移器128和响度控制模块129。

[0084] 频移器128将整个提取的低音信号116转换(或频移)所计算的正频率增量Δ，例如，转换为扬声器可以有效地产生声音的频率，同时保证低音信号的谐波结构保持不变。实现频移器128的简单方式是使用双边带(DSB)调制，例如，如下：

[0085] v(n)＝b(n)cos(2πfcn)，

[0086] 其中，分别地，n是样本索引，fc是载波频率(例如，Δ)，b(n)是所提取的低音信号116，并且v(n)是所得到的虚拟低音信号125。使用傅立叶变换的调制定理，得到虚拟低音信号的频谱V(f)，如：

[0087]

[0088] 其中，B(f)是所提取的低音信号116的频谱。如上所述，虚拟低音频谱在载波频率的任一侧包括两个边带或者低音频谱的频移副本，其中，较低边带是低音频谱的频率翻转或镜像副本。如果载波频率被设置为所估计的F0的倍数，则两个边带可以仍然维持有效谐波结构，因此虚拟低音频谱B(f)构成有效虚拟信号。

[0089] 存在用于选择载波频率fc的其它选择。一种选择是选择使得较低和较高边带都被转换为扬声器可以有效地产生声音的频率范围的值。该方法将导致在虚拟低音信号125中存在低音频谱的两个经频移的副本：较低边带和较高边带，因此，虚拟低音信号的音色将显著改变。另一选择是选择载波频率fc为仅使得较高边带被转换为扬声器可以有效地产生声音的频率范围的值。由于基本低音频率是F0，因此这样的载波频率优选地被选择为：

[0090] fc＝kf0，

[0091] 其保证较低边带低于扬声器可以有效地产生声音的频率，因此限制了较低边带对音色的影响。然而，该较低边带通常产生了过热以及线圈偏移，因此，该较低边带应该被限制。

[0092] 当较低边带被抑制时，所得到的频移方法称为单边带(SSB)调制。SSB调制的一种方法是采用带通滤波器来滤除较低边带。该滤波器优选地具有与所提取的低音信号116类似或相同的带宽，但是其中心频率优选地随着所估计的F0变化。由于变化的中心频率，优选地使用诸如以下截断理想带通滤波器的FIR滤波器：

[0093]

[0094] 其中，N是滤波器的长度，M＝N/2，并且fl和fh分别是通带的与低边缘和高边缘对应的频率。

[0095] SSB调制的当前更优选的方法是使用希尔伯特变换以从所提取的低音信号116创建分析信号，将该分析信号转换成期望频率，以及取其实部。在图3中示出了用于有效地实现该处理的一种算法。希尔伯特变换可由FIR滤波器来近似，该FIR滤波器可以使用帕克斯-麦克莱伦(Parks-McClellan)算法来设计(例如，如在David Ernesto Troncoso Romero和Gordana Jovanovic Dolecek,“Digital FIR Hilbert Transformers:Fundamentals and Efficient Design Methods”,chapter 19in“MATLAB-A Fundamental Tool for Scientific Computing and Engineering Applications-Volume 1”,Prof.Vasilios Katsikis(Ed.),Intech,ISBN:978-953-51-0750-7,InTech,DOI:10.5772/46451,pp.445-482(2012)中讨论的)。对于使用IIR滤波器的实现，参见例如Scott Wardle,“A Hilbert transformer frequency shifter for audio,”First Workshop on Digital Audio Effects DAFx,1998。

[0096] 如图2所示，所提取的低音信号116和转换计算器126的输出(例如，仅Δ或者k与F0一起)被提供到响度控制模块129，响度控制模块129优选地提供与上述响度控制模块29类似的功能，但是在时域中操作。例如，在该实施例中，可如下计算所提取的低音信号116内的功率值的滑动平均值：

[0097]

[0098] 其中，x(n)是输入样本值，并且N是块大小。更简单的实施例是使用低阶IIR滤波器，诸如以下一阶IIR滤波器：

[0099] P(n)＝αP(n-1)+(1-α)x2(n)，

[0100] 公式8

[0101] 其中，α是滤波器系数并且与采样频率fs和时间常数τ有关，如：

[0102]

[0103] 可例如使用公式1中给出的限制的算术平均值或以下几何平均值来计算低音信号的代表性或额定频率：

[0104]

[0105] 该代表性或额定频率和所计算的低音功率(例如，如公式7或公式8中给出的)然后可以被插入到ISO 226:2003的公式(2)中以获得其响度水平LN。

[0106] 虚拟低音信号125的频率范围是：

[0107]

[0108] 因此，虚拟低音信号125的代表性或额定频率可被计算为以上限制的算术平均值或其几何平均值，例如：

[0109]

[0110] 该代表性或额定频率和响度水平LN然后可以被插入到ISO 226:2003的公式(1)中以获得目标SPL 其可以进一步被转换为比例因子，例如，如：

[0111]

[0112] 如在先前实施例中，该比例因子s优选地可由用户30来修改。在具有或没有这样的修改的情况下，比例因子s然后与虚拟低音信号125一起被提供到乘法器132，以便产生期望的经音量调整的虚拟低音信号125’。响度控制模块129和乘法器132的组合在这里可以共同被称为“响度控制器”或“响度均衡器”。

[0113] 输入信号10还可被提供到可选的高通滤波器115。与高通滤波器15(如果设置)类似，滤波器115优选地抑制输入音频信号10的频谱的期望输出装置42不能有效地再现的整个较低部分。滤波器115(如果设置)的优选频率特性与以上针对滤波器15提供的优选频率特性相同。然而，滤波器115(如果设置)在时域中工作(例如，被实现为FIR或IIR滤波器)。

[0114] 在滤波器115(如果设置)之后，延迟元件134对可能滤波后的原始音频信号进行延迟以在时间上将该信号与合成虚拟低音信号125’对准。此后，在加法器135中将两个信号相加。所得到的输出信号140通常在被提供到扬声器或其它输出装置42之前经受额外的处理(例如，如以上关于系统5所讨论的)。替选地，与系统5相同，可在将输入信号10提供到系统105之前对输入信号10执行这样的额外处理中的任何处理或全部。

[0115] 系统环境

[0116] 一般而言，除了明确相反指出之外，这里描述的所有系统、方法、功能和技术可以利用一个或多个可编程通用计算装置来实践。这样的装置(例如，包括这里所述的任何电子装置)通常将包括例如经由例如公共总线彼此耦合的以下部件中的至少一部分：(1)一个或多个中央处理单元(CPU)；(2)只读存储器(ROM)；(3)随机存取存储器(RAM)；(4)其它集成或附接存储装置；(5)用于与其它装置接口的输入/输出软件和电路(例如，使用硬接线连接，诸如串行端口、并行端口、USB连接或火线连接，或者使用无线协议，诸如射频标识(RFID)、任何其它近场通信(NFC)协议、蓝牙或802.11协议)；(6)用于例如使用硬接线连接(诸如以太网卡)或无线协议(诸如码分多址(CDMA)、全球移动通信系统(GSM)、蓝牙、802.11协议或者任何其它基于蜂窝或非基于蜂窝的系统)连接到一个或多个网络的软件和电路，这些网络在本发明的许多实施例中进而连接到因特网或任何其它网络；(7)显示器(诸如阴极射线管显示器、液晶显示器、有机发光显示器、聚合物发光显示器或任何其它薄膜显示器)；(8)其它输出装置(诸如一个或多个扬声器、耳机、激光或其它光投影仪和/或打印机)；(9)一个或多个输入装置(诸如鼠标、一个或多个物理开关或可变控制、触摸板、平板、触敏显示器或其它指向装置、键盘、小键盘、麦克风和/或摄像装置或扫描仪)；(10)大容量存储单元(诸如硬盘驱动器或固态驱动器)；(11)实时时钟；(12)可拆卸存储读/写装置(诸如闪存驱动器、利用半导体存储器的任何其它便携式驱动器、磁盘、磁带、光磁盘、光盘等)；和/或(13)调制解调器(例如，用于发送传真或用于连接到因特网或任何其它计算机网络)。在操作中，在一定程度上由这样的通用计算机执行的用于实现以上方法和功能的处理步骤通常初始存储在大容量存储装置(例如，硬盘或固态驱动器)中，被下载到RAM中，然后由CPU在RAM之外执行。然而，在一些情况下，处理步骤初始存储在RAM或ROM中和/或直接在大容量存储装置之外执行。

[0117] 可从各种卖方获得用于实现本发明的适当通用可编程装置。在各个实施例中，根据任务的大小和复杂性而使用不同类型的装置。这样的装置可以包括例如大型计算机、多处理器计算机、一个或多个服务器盒、工作站、个人(例如，台式、笔记本、平板或板式)计算机和/或甚至更小的计算机(诸如个人数字助理(PDA)、无线电话(例如，智能电话)或任何其它可编程设施或装置)，无论是单独的、硬接线到网络的还是无线连接到网络的都可以。

[0118] 另外，尽管以上描述了通用可编程装置，但是在替选实施例中，替代地(或者另外地)使用一个或多个专用处理器或计算机。一般地，应注意，除了明确相反指出之外，上述任何功能都可以由执行软件和/固件的通用处理器、专用(例如，基于逻辑的)硬件或这些方案的任何组合来实现，其中，基于已知的工程折中来选择特定实现。更具体地，如本领域技术人员容易想到的，在上述任何处理和/或功能以固定的、预定的和/或逻辑方式来实现的情况下，可以由执行编程(例如，软件或固件)的处理器、逻辑部件(硬件)的适当布置或者这两者的任意组合来完成。换言之，如何将逻辑和/或算术操作转换成用于在处理器内执行这样的操作的指令和/或转换成用于执行这样的操作的逻辑门配置是容易理解的；实际上，编译器通常可用于这两种转换。

[0119] 应理解，本发明还涉及其上存储有用于执行本发明的方法和功能的软件或固件程序指令(即，计算机可执行处理指令)的机器可读有形(或者非暂态)介质。作为示例，这样的介质包括磁盘、磁带、光学可读取介质(诸如CD和DVD)或者半导体存储器(诸如各种类型的存储卡、USB闪存装置、固态驱动器等)。在每种情况下，介质可采取便携式物品的形式(诸如微型盘驱动器或小盘、磁碟、卡带、盘式磁带、卡、棒等)，或者可采取相对较大或不便移动的物品的形式(诸如设置在计算机或其它装置中的硬盘驱动器、ROM或RAM)。如这里所使用的，除非清楚相反指出，对存储在计算机可读或机器可读介质上的计算机可执行处理步骤的引用旨在包括这样的处理步骤存储在单个介质上的情形以及这样的处理步骤跨越多个介质存储的情形。

[0120] 先前描述主要强调了电子计算机和装置。然而，应理解，可替代地使用任何其它计算装置或其它类型的装置，诸如利用能够执行基本逻辑和/或算术操作的电子、光学、生物和化学处理的任何组合的装置。

[0121] 另外，在本公开引用处理器、计算机、服务器、服务器装置、计算机可读介质或其它存储装置、客户端装置或任何其它种类的设备或装置的情况下，除了清楚相反指出之外，这样的引用应被理解为包括使用多个这样的处理器、计算机、服务器、服务器装置、计算机可读介质或其它存储装置、客户端装置或任何其它这样的设备或装置。例如，服务器一般可以(以及通常将)使用单个装置或例如具有适当的负载平衡的服务器装置的簇(本地或地理上分散)来实现。类似地，服务器装置和客户端装置通常将配合执行完整方法的处理步骤，例如，其中，每个这样的装置具有其自己的存储这样的处理步骤的一部分的存储装置和其自己的执行这些处理步骤的处理器。

[0122] 如这里所使用的，术语“耦合”或者该词的任何其它形式旨在表示直接连接或者通过一个或多个其它元件或处理块连接。在附图和/或其讨论中，在各个步骤、模块或处理块被示出和/或讨论为直接连接到彼此的情况下，这样的连接应被理解为可包括另外的元件和/或处理块的耦合。除非在这里明确地并且具体地相反指出，否则这里对信号的引用表示信号的任何处理后形式或未处理形式。即，这里讨论的和/或要求保护的具体处理步骤不旨在为排他性的；相反，可在这里明确讨论的或要求保护的任何两个处理步骤之间执行中间处理。

[0123] 另外的考虑

[0124] 在先前讨论中，术语“操作者”、“操作”、“功能”和类似术语可以指的是根据特定实现/实施例的方法步骤或硬件部件。

[0125] 除非清楚相反指出，在以上讨论中诸如“最优”、“优化”、“最小化”、“最佳”和类似词的词以及表示比较的其它词和前缀不以其绝对意义来使用。替代地，这样的术语通常旨在根据任何其它潜在限制来理解，诸如用户指定限制和目标以及成本和处理限制。

[0126] 这里对旨在触发、限制、过滤或者影响处理步骤、其它动作、处理步骤或动作的主体或者任何其它活动或数据的“标准”、“多个标准”、“条件”、“多个条件”或类似词的引用旨在表示“一个或多个”，而与使用单数还是复数形式无关。例如，任何标准或条件可以包括动作、事件和/或发生(即，多部分标准或条件)的任何组合(例如，布尔组合)。

[0127] 类似地，在以上讨论中，功能有时被归于特定模块或部件。然而，功能一般可在任何不同的模块或部件当中根据期望重新分配，从而在一些情况下，完全避免对于特定部件或模块的需要和/或需要添加新的部件或模块。如本领域技术人员所理解的，参考本发明的具体实施例，根据已知工程折中而优选地进行功能的精确分配。

[0128] 在以上讨论中，词“包括(include)”、“包含(includes)”、“具有(including)”和该词的所有其它形式不应被理解为限制性的，而是这样的词之后的任何具体项应被理解为仅是示例性的。

[0129] 在以上以及在这里通过引用并入的文献中描述了本发明的多个不同实施例，其中每个这样的实施例被描述为包括某些特征。然而，如本领域技术人员所理解的，旨在为结合任何单个实施例的讨论描述的特征不限于该实施例，而是也可包括和/或布置在任何其它实施例的各种组合中。

[0130] 因此，尽管关于本发明的示例性实施例和附图详细描述了本发明，但是对本领域技术人员来说明显的是，可在不背离本发明的精神和范围的情况下实现本发明的各种调整和修改。因此，本发明不限于图中示出的和以上描述的具体实施例。相反，旨在为不背离本发明的精神的所有这样的变型应被视为在仅由所附权利要求限定的范围中。

标题	发布/更新时间	阅读量
一种音频信号自动增益控制方法、控制设备及存储介质	2020-06-20	2
一种能够推荐适合运动的音乐的装置及使用方法	2021-04-02	0
车位守护智能充电桩系统	2021-01-20	0
SYSTEMS AND METHODS FOR WIRELESS DISPLAY DISCOVERY	2022-08-24	1
一种数字混响系统的DSP处理模组	2020-11-08	0
电梯交互式数字对讲装置	2020-11-10	1
一种基于重力加速度传感器的蓝牙装置	2021-09-07	1
AUDIO SIGNAL PROCESSING APPARATUS AND AUDIO SIGNAL PROCESSING METHOD THEREOF	2022-05-22	1
차량의 외부 음향 합성을 위한 시스템 및 방법	2021-03-01	0
PRODUCING HEADPHONE DRIVER SIGNALS IN A DIGITAL AUDIO SIGNAL PROCESSING BINAURAL RENDERING ENVIRONMENT	2020-12-01	0

频域中的虚拟低音的相加

频域中的虚拟低音的相加

技术领域

背景技术

发明内容

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：