首页 / 专利库 / 制造过程 / 原型 / 合成音频原型的估计

合成音频原型的估计

阅读:189发布:2020-05-13

专利汇可以提供合成音频原型的估计专利检索,专利查询,专利分析的服务。并且一种用于形成输出 信号 的方法,在限制或者缓解此类 输出信号 中的伪像的同时,允许 输入信号 的既灵活的又时间和/或 频率 的局部处理。一般地,该方法涉及首先合成用于输出信号的 原型 信号,或者例如根据其统计特性等价地描述此类原型的特性,以及然后将输出信号形成为原型信号的估计,例如形成为输入信号的加权组合。,下面是合成音频原型的估计专利的具体信息内容。

1.一种用于从多个输入信号形成一个或者多个输出信号的方法,包括:
从所述输入信号中的多个输入信号确定一个或者多个原型信号的特性描述;以及形成一个或者多个输出信号,包括将每个输出信号形成为包括所述输入信号中的一个或者多个输入信号的组合的所述一个或者多个原型信号中的一个对应的原型信号的估计。
2.根据权利要求1所述的方法,还包括:对于一系列时间中的每个时间,重复确定所述一个或者多个原型信号的所述特性描述以及形成所述输出信号的步骤。
3.根据权利要求2所述的方法,其中一个或者多个输入信号的所述组合包括在对应于所述一系列时间中的每个时间的时间处的一个或者多个输入信号。
4.根据权利要求2所述的方法,其中一个或者多个输入信号的所述组合包括在先于形成所述输出信号的所述一系列时间中的每个时间的多个时间处的一个或者多个输入信号。
5.根据权利要求2所述的方法,其中一个或者多个输入信号的所述组合包括表示在对应于所述一系列时间中的每个时间的时间处的不同频率分量的多个输入信号。
6.根据权利要求1所述的方法,其中所述输入信号包括音频录音的多个输入音频通道,并且其中所述输出信号包括附加的上混通道。
7.根据权利要求6所述的方法,其中所述多个输入音频通道至少包括左音频通道和右音频通道,并且其中所述附加的上混通道包括中心通道和环绕通道中的至少一个。
8.根据权利要求1所述的方法,还包括接受来自麦克阵列的所述多个输入信号。
9.根据权利要求8所述的方法,还包括根据所述输入信号之间的差合成所述一个或者多个原型信号,并且其中根据所述输入信号之间的差形成所述原型信号包括根据增益和/或相位差确定选通值并且将所述选通值应用到所述输入信号中的一个或者多个输入信号以确定所述原型信号。
10.根据权利要求8所述的方法,其中形成一个或者多个输出信号包括根据对来自所述麦克风阵列的所述信号中的期望信号的响应的特性描述和来自所述麦克风阵列的所述信号中的非期望信号的特性描述中的至少一个形成所述一个或者多个原型信号的所述估计。
11.根据权利要求10所述的方法,其中对所述期望信号的所述响应的所述特性描述或者对所述非期望信号的所述响应的所述特性描述包括用于所述信号的传递函数特性。
12.根据权利要求1所述的方法,其中确定所述原型信号的所述特性描述包括确定所述原型信号。
13.根据权利要求1所述的方法,其中确定所述原型信号的所述特性描述包括确定所述原型信号的统计特性。
14.根据权利要求1所述的方法,其中确定原型信号的所述特性描述包括基于所述输入信号的时间局部分析形成所述数据。
15.根据权利要求14所述的方法,其中确定原型信号的所述特性描述还包括基于所述输入信号的频率局部分析形成所述数据。
16.根据权利要求14所述的方法,其中所述形成所述原型的所述估计基于比形成所述原型信号时的局部分析更全面的所述输入信号和所述原型信号的分析。
17.根据权利要求1所述的方法,其中原型信号的所述合成包括所述输入信号的非线性函数。
18.根据权利要求17所述的方法,其中将所述输出信号形成为所述原型的估计包括形成所述原型信号的最小平方误差估计。
19.根据权利要求1所述的方法,其中原型信号的合成包括所述输入信号中的一个或者多个输入信号的选通。
20.根据权利要求1所述的方法,其中将所述输出信号形成为所述原型的估计包括形成所述原型的最小误差估计。
21.根据权利要求20所述的方法,其中形成所述最小误差估计包括形成最小平方误差估计。
22.根据权利要求1所述的方法,其中将输出信号形成为作为所述输入信号中的一个或者多个输入信号的组合的所述一个或者多个原型信号中的一个对应的原型信号的估计包括计算与所述原型信号和所述一个或者多个输入信号有关的统计量的估计,以及确定将要应用到每个所述输入信号的加权系数。
23.根据权利要求22所述的方法,其中所述统计量包括所述原型信号与所述一个或者多个输入信号之间的互功率统计量,以及所述一个或者多个输入信号的自功率统计量。
24.根据权利要求22所述的方法,其中计算所述统计量的所述估计包括在时间和/或频率上对局部计算的统计量进行平均。
25.根据权利要求1所述的方法,还包括将每个输入信号分解成多个分量,并且其中确定对所述原型信号的所述合成进行特性描述的数据包括形成对每个原型信号到多个原型分量的分量分解进行特性描述的数据;
将每个输出信号形成为所述原型信号中的一个对应的原型信号的估计包括将多个输出分量估计形成为一个或者多个输入信号的对应分量的变换;以及
形成所述输出信号包括组合形成的输出分量估计以形成所述输出信号。
26.根据权利要求25所述的方法,其中形成所述分量分解包括形成基于频率的分解。
27.根据权利要求25所述的方法,其中形成所述分量分解包括形成基本正交的分解。
28.根据权利要求25所述的方法,其中形成所述分量分解包括应用小波变换、均匀带宽滤波器组、非均匀带宽滤波器组、正交镜像滤波器组和统计分解中的至少一个。
29.根据权利要求25所述的方法,其中将多个输出分量估计形成为一个或者多个输入信号的对应分量的变换包括缩放所述输入信号的所述分量以形成所述输出信号的所述分量。
30.根据权利要求1所述的方法,其中形成所述一个或者多个输出信号包括根据一组权值将多个输出信号各自形成为多个对应的输入信号的组合,所述权值对于所述多个输出信号中的每个输出信号是通用的。
31.一种用于处理多个输入信号的系统,包括:
原型生成器,被配置用于接受多个所述输入信号并且提供原型信号的特性描述;
估计器,被配置用于接受所述原型信号的所述特性描述并且将输出信号形成为作为所述输入信号中的一个或者多个输入信号的组合的所述原型信号的估计。
32.根据权利要求31所述的系统,其中所述原型信号包括所述输入信号的非线性函数。
33.根据权利要求32所述的系统,其中所述原型信号的所述估计包括所述原型信号的最小平方误差估计。
34.根据权利要求31所述的系统,还包括用于形成每个所述输入信号的多个分量分解的分量分析模,以及用于从所述输出信号的分量分解重构所述输出信号的重构模块。
35.根据权利要求34所述的系统,其中所述原型生成器和所述估计器各自被配置用于在逐个分量的基础上进行操作。
36.根据权利要求34所述的系统,其中所述原型生成器被配置用于针对每个分量执行所述输入信号的时间局部处理以确定所述原型信号的分量的特性描述。
37.根据权利要求31所述的系统,其中所述原型生成器被配置用于接受多个输入音频通道,并且其中所述估计器被配置用于提供包括附加上混通道的输出信号。
38.根据权利要求31所述的系统,其中所述原型生成器被配置用于接受来自麦克风阵列的多个输入音频通道,并且其中所述原型生成器被配置用于根据所述输入信号之间的差合成一个或者多个原型信号。
39.根据权利要求31所述的系统,其中形成的所述输出信号是所述输入信号中的多于一个输入信号的实数组合。
40.根据权利要求39所述的系统,其中形成的所述输出信号是单个输入信号的实数组合。
41.根据权利要求31所述的系统,其中形成的所述输出信号是所述一个或者多个输入信号的复数组合。
42.一种用于从多个输入信号形成一个或者多个输出信号的方法,包括:
将所述输入信号分解成表示在一系列时间中的每个时间处的不同频率分量的输入信号分量;
从所述输入信号中的多个输入信号确定一个或者多个原型信号的特性描述,所述一个或者多个原型信号的所述特性描述包括表示在所述一系列时间中的每个时间处的不同频率分量的多个原型分量;以及
形成一个或者多个输出信号,包括将每个输出信号形成为包括所述输入信号中的一个或者多个输入信号的组合的所述一个或者多个原型信号中的一个对应的原型信号的估计。
43.根据权利要求42所述的方法,其中将所述输出信号形成为原型信号的估计包括针对多个原型分量中的每个原型分量,将估计形成为所述输入信号分量中的多个输入信号分量的组合,所述输入信号分量中的多个输入信号分量包括在与估计所述原型分量不同的时间或者不同的频率处的至少一些输入信号分量。
44.根据权利要求42所述的方法,其中将所述输出信号形成为原型信号的估计包括在确定所述输入信号中的所述一个或者多个输入信号的所述组合时应用一个或者多个约束条件。
45.一种音频采集系统,包括:
输入,用于从对应的多个麦克风接收多个输入信号;
输入处理器,被配置用于将多个输入信号分解成表示在一系列时间中的每个时间处的不同频率分量的输入信号分量;
原型生成器,被配置用于接受所述输入信号中的多个输入信号并且提供期望原型信号的特性描述,所述一个或者多个原型信号的所述特性描述包括表示在所述一系列时间中的每个时间处的不同频率分量的多个原型分量;以及
估计器,被配置用于接受所述原型信号的所述特性描述并且通过估计将输出信号形成为作为所述输入信号中的一个或者多个输入信号的组合的所述原型信号的估计,其中根据所述麦克风对来自期望位置的信号的响应的模式来执行形成所述输出信号。
46.用于使得数据处理系统执行根据权利要求1至30和权利要求42至44中任一权利要求所述的所有步骤的软件
47.根据权利要求45所述的软件,所述软件被具体化在计算机可读介质上。
48.一种被配置用于执行根据权利要求1至30和权利要求42至44中任一权利要求所述的所有步骤的系统。

说明书全文

合成音频原型的估计

[0001] 相关申请的交叉引用
[0002] 本申请是通过引用结合于此的以下申请的部分继续申请案(CIP):
[0003] 于2010年10月21日提交的美国申请序列号12/909,569。
[0004] 该申请涉及但并未要求通过引用结合于此的以下申请的申请日的权益:
[0005] 于2009年12月8日授权的标题为“Spatial Disassembly Process”的美国专利第7,630,500号;以及
[0006] 于2009年10月22日公开的标题为“Hearing Assistance Apparatus”的美国专利公开号2009/0262969。
[0007] 于2008年12月25日公开的标题为“Sound Discrimination Method and Apparatus”的美国专利公开号2008/0317260。

技术领域

[0008] 本发明涉及合成音频原型的估计。

背景技术

[0009] 在音频信号处理领域中,术语“上混(upmixing)”通常指的是撤销“下混(downmixing)”的过程,下混是将许多源信号添加到较少的音频通道中。下混可以是自然的声学过程或者录音室的组合。作为示例,上混可以涉及从多通道源生成若干在空间上独立的音频通道。
[0010] 最简单的上混器(upmixer)接收一对立体声音频信号并且生成表示两个通道共同的信息的单个输出,其通常被称作中心通道。稍微复杂的上混器可以生成表示中心通道以及左输入和右输入的“非中心”组成部分的三个通道。更复杂的上混器试图将一个或者多个中心通道、摇拍内容(panned content)的两个“仅侧边(side-only)”通道以及非相关或者异相内容的一个或者多个“环绕”通道分开。
[0011] 通过创建立体声输入通道的加权(有时是负的)组合在时域中执行一种上混的方法。此方法能够在期望位置呈现单个源,但是其可能不允许隔离多个同步源。例如,对以共同(中心)内容为主的立体声内容进行操作的时域上混器将把摇拍的和不太相关的内容混合到中心输出通道中,即使此较弱的内容应归入其它通道。
[0012] 若干立体声上混算法在商业上是可用的,包括Dolby Pro Logic II(及不同版本),Lexicon的Logic 7和DTS Neo:6,Bose的Videostage、Audio Stage、Centerpoint和Centerpoint II。
[0013] 有必要以下述方式执行上混,该方式以减少声音伪像(artifact)并且具有低处理延迟的方式精确地呈现来自多通道源的在空间上独立的音频通道。

发明内容

[0014] 一个或者多个实施方式解决了在限制或者缓解输出信号中的伪像的同时合成此类输出信号的技术问题,该输出信号均允许灵活的时间和/或频率局部处理。总体而言,可以通过首先合成用于输出信号(或者例如根据其统计特征具有此类原型的特征的等价信号和/或数据)的原型信号,然后将输出信号形成为原型信号的估计(例如形成为输入信号的加权组合)来解决这个技术问题。在一些示例中,原型是输入的非线性函数并且根据最小平方误差度量来形成估计。
[0015] 该技术问题可能在各种音频处理应用中出现。例如,可以通过首先形成用于上混信号的原型,并且然后使用输入信号的组合估计输出信号以非常接近地匹配原型来解决从一组输入音频通道上混的过程。其他应用包括具有多个麦克输入的信号增强,例如用于在具有多个麦克风元件的机、手持式麦克风、车载麦克风等等中提供指向性和/或环境噪声缓解。
[0016] 在一个方面中,总体而言,用于从多个输入信号形成输出信号的方法包括从输入信号中的多个输入信号确定一个或者多个原型信号的合成的特性描述。形成一个或者多个输出信号,包括将每个输出信号形成为一个或者多个原型信号中的一个对应的原型信号的估计,该一个或者多个原型信号包括输入信号中的一个或者多个输入信号的组合。
[0017] 多个方面可以包括以下特征中的一个或者多个。
[0018] 确定原型信号的合成的特性描述包括确定原型信号,或者包括确定原型信号的统计特征。
[0019] 确定原型信号的合成的特性描述包括基于输入信号的时间局部分析形成所述的数据。在一些示例中,确定原型信号的合成的特性描述还包括基于输入信号的频率局部分析形成所述的数据。在一些示例中,形成原型的估计是基于比形成原型信号时的局部分析更全面的输入信号和原型信号的分析。
[0020] 原型信号的合成包括输入信号的非线性函数和/或输入信号中的一个或者多个输入信号的选通。
[0021] 将输出信号形成为原型的估计包括形成原型的最小误差估计。在一些示例中,形成最小误差估计包括形成最小平方误差估计。
[0022] 将输出信号形成为一个或者多个原型信号(其为输入信号中的一个或者多个输入信号的组合)中的一个对应的原型信号的估计,包括计算与原型信号以及一个或者多个输入信号有关的统计量的估计,以及确定将要应用到每个所述输入信号的加权系数。
[0023] 统计量包括原型信号与一个或者多个输入信号之间的互功率统计量、一个或者多个输入信号的自功率统计量以及所有输入信号(如果有一个以上的输入信号)之间的互功率统计量。
[0024] 计算统计量的估计包括在时间和/或频率上对局部计算的统计量进行平均。
[0025] 该方法还包括将每个输入信号分解成多个分量。
[0026] 确定对原型信号的合成进行特性描述的数据包括形成对每个原型信号到多个原型分量的分量分解进行特性描述的数据。
[0027] 将每个输出信号形成为原型信号中的一个对应的原型信号的估计包括将多个输出分量估计形成为一个或者多个输入信号的对应分量的变换。
[0028] 形成输出信号包括组合形成的输出分量估计以形成输出信号。
[0029] 形成分量分解包括形成基于频率的分解。
[0030] 形成分量分解包括形成基本上正交的分解。
[0031] 形成分量分解包括应用小波变换、均匀带宽滤波器组、非均匀带宽滤波器组、正交镜像滤波器组和统计分解中的至少一个。
[0032] 将多个输出分量估计形成为一个或者多个输入信号的对应分量的组合包括缩放输入信号的分量以形成输出信号的分量。
[0033] 输入信号包括音频录音的多个输入音频通道,并且其中输出信号包括附加的上混通道。在一些示例中,多个输入音频通道至少包括左音频通道和右音频通道,并且其中附加的上混通道包括中心通道和环绕通道中的至少一个。
[0034] 接受来自麦克风阵列的多个输入信号。在一些示例中,根据输入信号之间的差合成一个或者多个原型信号。在一些示例中,根据输入信号之间的差形成原型信号包括根据增益和/或相位差确定选通值,并且将选通值应用到输入信号中的一个或者多个输入信号以确定原型信号。
[0035] 在另一方面中,总体而言,用于从多个输入信号形成一个或者多个输出信号的方法包括:将输入信号分解成表示在一系列时间中的每个时间处的不同频率分量(例如,一般是取决于频率的分量)的输入信号分量。例如,从多个输入信号确定一个或者多个原型信号的特性描述。一个或者多个原型信号的特性描述包括表示在一系列时间中的每个时间处的不同频率分量的多个原型分量。然后通过将每个输出信号形成为一个或者多个原型信号(包括一个或者多个输入信号的组合)中的对应的一个原型信号的估计来形成一个或者多个输出信号。
[0036] 在一些示例中,将输出信号形成为原型信号的估计包括:对于多个原型分量中的每个原型分量,将估计形成为多个输入信号分量的组合,例如,包括在与被估计的原型分量不同的时间处或者不同的频率处的至少一些输入信号分量。
[0037] 在一些示例中,将输出信号形成为原型信号的估计包括:在确定一个或者多个输入信号的组合中应用一个或者多个约束条件。
[0038] 在另一方面中,总体而言,用于处理多个输入信号以将输出形成为合成原型信号的估计的系统被配置用于执行以上指定的任何方法的所有步骤。
[0039] 在另一方面中,总体而言,可以在机器可读介质上具体化的软件包括用于处理多个输入信号以将输出形成为合成原型信号的估计的指令,被配置用于执行以上指定的任何方法的所有步骤。
[0040] 在另一方面中,总体而言,用于处理多个输入信号的系统包括原型生成器,其被配置用于接受多个输入信号并且提供原型信号的特性描述。估计器被配置用于接受原型信号的特性描述并且将输出信号形成为作为输入信号中的一个或者多个输入信号的组合的原型信号的估计。
[0041] 多个方面可以包括以下特征中的一个或者多个。
[0042] 原型信号包括输入信号的非线性函数。
[0043] 原型信号的估计包括原型信号的最小平方误差估计。
[0044] 系统包括用于形成每个输入信号的多个分量分解的分量分析模,以及用于从输出信号的分量分解重构输出信号的重构模块。
[0045] 原型生成器和估计器各自被配置用于通过分量基础对分量进行操作。
[0046] 原型生成器被配置用于针对每个分量执行输入信号的时间局部处理以确定原型信号的分量的特性描述。
[0047] 原型生成器被配置用于接受多个输入音频通道,并且其中估计器被配置用于提供包括附加上混通道的输出信号。
[0048] 原型生成器被配置用于接受来自麦克风阵列的多个输入音频通道,并且其中原型生成器被配置用于根据输入信号之间的差合成一个或者多个原型信号。
[0049] 上混过程可以包括将输入信号转换成分量表示(例如,通过使用DFT滤波器组)。每个信号的分量表示可以在时间上被周期性地创建,由此将时间维度添加到分量表示(例如,时间-频率表示)。
[0050] 一些实施方式可以使用试探法来将期望输出信号非线性地估计为原型信号。例如,试探法可以确定在输出信号中包括多少个来自每个输入信号的给定分量。
[0051] 当采用合适的滤波器组时,可以通过独立地跨时间和频率非线性地生成系数(即非线性原型)来实现的结果可能是令人满意的。
[0052] 可以使用逼近技术(例如,最小平方逼近)来将非线性原型投影到输入信号空间上,由此确定上混系数。可以使用上混系数来将输入信号混合成期望输出信号。
[0053] 可以使用平滑来减少伪像和降低分辨率要求,但是可能会放慢现有上混系统的响应时间。现有时间-频率上混器要求在伪像和响应能之间进行艰难的折衷。创建合成原型的线性估计使得这些折衷没那么艰难。
[0054] 多个实施方式可以具有以下优势中的一个或者多个。
[0055] 本申请中使用的非线性处理技术提供了用于执行否则可能无法通过单独使用线性处理技术来执行的宽范围的变换的可能性。例如,可以使用非线性处理技术而不引入讨厌的伪像来实现上混、室内声学的修正和信号选择(例如,对于电话耳机和助听器)。
[0056] 目标信号的非线性原型的线性估计允许系统快速地响应输入信号中的变化,然而引入最小数目的伪像。
[0057] 根据以下描述以及根据权利要求,本发明的其他特征和优势是明显的。附图说明
[0058] 图1是被配置用于合成原型的线性估计的系统的框图
[0059] 图2是将信号分解成分量和用于代表性分量的合成原型的估计的框图。
[0060] 图3A示出了用于原型的时间-分量表示。
[0061] 图3B是时间-分量表示的单个图块的详细视图。
[0062] 图4A是示出示例性中心通道合成原型di(t)的框图。
[0063] 图4B是示出两个示例性“仅侧边”的合成原型di(t)的框图。
[0064] 图4C是示出示例性环绕通道的合成原型di(t)的框图。
[0065] 图5是合成处理模块的备选配置的框图。
[0066] 图6是被配置用于确定上混系数h的系统的框图。
[0067] 图7是示出如何可以通过使用两个局部原型确定6个上混通道的框图。
[0068] 图8是包括利用多个过去的输入和输出的原型生成器的系统的框图。
[0069] 图9是接收源信号的双麦克风阵列。
[0070] 图10是接收源信号和噪声信号的双麦克风阵列。
[0071] 图11是MVDR设计对时间-频率掩蔽方案的被测平均信噪比增益和保留信号比的曲线图。
[0072] 图12是平均目标和噪声信号功率的曲线图。
[0073] 图13是信噪比增益和保留信号比的曲线图。
[0074] 图14是信噪比增益和保留信号比的曲线图。
[0075] 图15是信噪比增益和保留信号比的曲线图。

具体实施方式

[0076] 1 系统综述
[0077] 参考图1,使用合成原型的估计的系统的示例是上混系统100,该上混系统包括上混模块104,该上混模块接收输入信号112s1(t),...,sN(t)并且输出上混信号 作为示例,输入时间信号s1(t)和s2(t)表示左输入信号和右输入信号,并且 表示导出的中心通道。上混模块104将上混信号 形成为输入信号s1(t),...,sN(t)112的组合,例如形成为输入信号的(时变)线性组合。通常地,一般通过非线性技术由估计器110将上混信号 形成为原型信号d(t)109的线性估计,该原型信号d(t)109由原型生成器108根据输入信号来形成。在一些示例中,估计形成为在最小均方差意义上最佳逼近原型信号的输入信号的线性(例如,频率加权的)组合。该线性估计 通常是基于用于输入信号112的集合的生成模型102,该生成模型102形成为模糊目标信号 和各自与输入信号112中的一个有关的噪声分量114的组合。
[0078] 在图1中示出的系统100中,合成原型生成模块108将原型d(t)109形成为输入信号112的集合的非线性变换。应当知道的是,也可以使用线性技术形成原型,作为示例,根据输入信号的不同子集形成原型而不用来根据原型对输出信号进行估计。对于特定类型的原型生成,如果不通过线性估计器110而被直接呈现给听众,则原型可能包括将产生低品质音频输出的降级和/或伪像。如上面所介绍的,在一些示例中,原型d(t)与输入信号的期望上混相关。在其他示例中,为了其他目的而形成原型,例如,基于在存在干扰的情况下期望信号的标识。
[0079] 在一些实施方式中,形成原型信号的过程在时间和/或频率中比估计过程更加局部化,这可能引入能够补偿从局部化处理得到的原型信号中的讨厌的特性的一定程度上的平滑。另一方面,原型生成的局部性质提供了使得否则难以达到的处理(例如,上混)的形成能够实现的一定程度上的灵活性和控制。
[0080] 2 分量分解
[0081] 在一些实施方式中,通过将每个输入信号112拆分成分量(例如频带)并且各自处理每个分量来实现图1中示出的上混系统100的上混模块104。例如在正交分量的情形下,可以通过独立地形成每个正交分量的估计来实现线性估计器110,并且随后根据估计的分量合成输出信号。应当明白的是,尽管以下描述着眼于形成为输入信号的频带的分量上,但是同样可以使用其它成为正交或者基本独立的分量的分解。这些备选分解可以包括输入信号的小波变换、非均匀(例如心理声学临界频带;倍频程)滤波器组、感知分量分解、正交镜像滤波器组和基于统计(例如主要分量)的分解等。
[0082] 参考图2,上混模块104的一个实施方式被配置用于用类似于通过引用结合于此的标题为“Spatial Disassembly Process”的美国专利7,630,500中所描述的方式处理输入信号(在该示例中是两个输入信号)的分解。每个输入信号112变换成具有个体分量212的多个分量表示。例如,输入信号s1(t)被分解成由i索引的分量的集合 在一些示例中,并且如在上述引用的专利中所述,分量分析器220是将输入信号转换成频率分量的离散傅里叶变换(DFT)分析滤波器组。在一些示例中,频率分量是零相位滤波器的输出,每个零相位滤波器具有相等的带宽(例如125Hz)。
[0083] 使用重构模块230从分量 的集合重构输出信号 分量分析器220和重构模块230是这样的,如果分量未作修正而通过,则最初被分析的信号基本上(即,不一定完全地)在重构模块230的输出处再现。
[0084] 在一些实施方式中,分量分析器220把输入信号112窗口化成可以由n索引的同等大小的时间块。这些块可以重叠(即,一块的数据的一部分也可以包含在另一块中),使得每个窗口在时间上移动“跳跃大小”τ。作为示例,出于改进结果分量表示222的目的,可以将窗函数(例如,平方根汉宁窗)应用至每个块。在将窗函数应用至块之后,分量分析器220可以对输入信号112的每个块补零,并且然后将每个补零的块分解成它们各自的分量表示。在一些实施方式中,分量212形成基带信号,每个基带信号由滤波器频带各自的中心频率中的一个中心频率(即,由复指数)调制。此外,可以以对于滤波器频带的带宽足够的较低采样率对每个分量212进行下采样和处理。例如,在不违反Nyquist准则的情况下,可以以250Hz对具有125Hz带宽的DFT滤波器组带通滤波器的输出进行采样。
[0085] 在一些示例中,输入信号以44.1KHz被采样,并且被移位成23.2ms长的或者以τ=11.6ms的帧跳跃周期选择的1024点采样或者512点采样。每个帧被窗函数sin(π·t)/τ多重窗口化,其中t=0指示帧的开始。窗口化的帧将输入形成为1024点FFT。从FFT的一个输出形成每个频率分量。(可以选择比FFT的输入长度长或者短的其他窗口。如果输入窗口比FFT短,可以对数据进行补零扩展以适应FFT;如果输入窗口比FFT长,可以对数据进行时间混叠)。
[0086] 在图2中,未示出输入信号的窗口化和输出信号的后续重叠相加。因此,该图应当理解为明确示出了单个分析窗口的处理。更准确地说,对于第n个分析窗口,给出连续输入信号sk(t),形成了窗口化信号sk,[n](t)=sk(t)w(t-nτ),其中该窗口可以定义为w(t)=sin(π·t)/τ。在图2中这些窗口化的信号不带有下标[n]而示出。信号的分量然后被限定为将每个信号分解为 用于分析周期的结果输出信号 随后被组合为
[0087] 3 原型合成
[0088] 如上所述,一种用于原型信号的合成的方法是在逐个分量的基础上,并且尤其在分量-局部基础中,使得每个窗口周期的每个分量被分开处理以形成该局部分量的一个或者多个原型。
[0089] 在图2中,分量上混器206处理单对输入分量 和 以形成输出分量 分量上混器206包括基于分量的局部原型生成器208,其从输入分量 和 (典型地以降i采样率)确定原型信号分量d(t)。总体而言,原型信号分量是输入分量的非线性组合。如以下所进一步讨论的那样,基于分量的线性估计器210然后估计输出分量[0090] 局部原型生成器208可以利用合成技术,该合成技术提供了用于执行通过单独使用线性处理技术可能在其他方面是不可能的宽范围的变换的可能性。例如,上混、室内声学的修正和信号选择(例如,对于电话和助听器)都可以使用此类合成处理技术来实现。
[0091] 在一些实施方式中,基于如在输入信号空间中所观测到的关于期望信号和非期望信号的特性的知识或者假设得到局部原型信号。例如,局部原型生成器选择显示期望信号的特性的输入,而抑制不显示期望信号的特性的输入。在上下文中,选择意味着以某一预定义的最大增益(以单位增益为例)通过,而在极限情况下,抑制意味着以零增益通过。优选的选择函数可以具有二进制特性(具有单位增益的通过区域,具有零增益的拒绝区域)或者在具有期望特性的通过信号和具有非期望特性的拒绝信号之间的温和过渡。选择函数可以包括线性修正的输入、一个或者多个非线性选通的输入、(任意阶)输入的乘法组合以及输入的其他非线性函数的线性组合。
[0092] 在一些实施方式中,合成原型生成器208生成在输出处所期望的信号的实际上瞬时的(即,时间上局部的)“猜测”,不必要考虑此类猜测的序列是否将直接合成无伪像的信号。
[0093] 在一些实施方式中,在通过引用结合于此的美国专利7,630,500中所描述的、用来计算输出信号的分量的方法被用在本方法中以计算原型信号的分量,该原型信号的分量然后受到进一步处理。注意到在这些示例中,本方法可能与引用的专利中所描述的方法在特性(诸如分量的时间和/或频率范围)方面存在不同。例如,在本方法中,窗口“跳跃速率”可能更高,这导致原型的更加时间上局部的合成,并且在一些合成方法中,如果直接使用在引用的专利中所描述的方法,这种较高跳跃速率可能导致更多伪像。
[0094] 参考图4A,在用于单个时间值的复平面中示出了用于中心通道的一个示例性多输i入局部原型d(t)生成器408(在图2中示出的非线性原型生成器208的实例)。以下公式(独立地应用于每个分量)限定了该特定局部原型:
[0095]
[0096] 其中,为了清楚起见,在以上公式中省略了分量索引i。注意到,该示例是在美国专利7,630,500中示出的示例的特例(在等式(16)处,其中 )。
[0097] 注意到,输入信号412( 和 )由于其基带表示是复信号。上述公式指出中i心局部原型d(t)是两个复输入信号412的等长部分的平均。换言之,通过实系数对两个输入412中具有较大幅值的一个进行缩放以匹配较小的长度,并且然后对两者进行平均。该局部原型信号具有选择特性使得当两个输入412同相并且等电平时其输出在幅值中最大,并且其随着信号之间的电平和相位差增大而减小。对于“硬摇拍的(hard-panned)”和反相的左信号和右信号来说其为零。其相位是两个输入信号的相位的平均。因而矢量选通函数可以生成具有与原始信号的任何一个不同的相位的信号,即使矢量选通因子的分量是实数值的。
[0098] 参考图5,原型生成模块508(其为在图2中示出的原型生成器208的另一实例)的另一示例包括选通函数524和定标器526。选通函数524模块接受输入信号512并且使i用它们来确定选通因子g,该选通因子在与输入信号的一个窗口对应的分析间隔期间保持恒定。选通函数模块524可以基于输入信号512在0和1之间进行切换。备选地,选通函数模块524可以实现平滑的斜率,其中选通在0和1之间基于输入信号512和/或它们在许多分析窗口上的历史进行调整。将输入信号512中的一个(例如 )和选通因子g应用至定标器526以生成局部原型d(t)。该操作动态地调整包括在系统的输出中的输入信号
512的量。由于g是s1的函数,因此d(t)不是s1的线性函数,并且因而局部原型是s1的取决于s2的非线性修正。由于选通因子仅为实数,因此局部原型d与s1具有相同相位;仅修正其幅值。注意到,在逐个分量的基础上确定选通因子,同时逐个分析窗口地调整每个频带的选通因子。
[0099] 选通函数的一个示例性用途是用于处理来自电话耳机的输入。耳机可以包括被配置用于彼此隔开并且基本与说话者的嗓音的主要声学传播方向共线的两个麦克风。麦克风向原型生成模块508提供输入信号512。选通函数模块524例如通过观测两个麦克风之间的相位差来分析输入信号512。基于观测到的差异,选通函数524为每个频率分量i生成选通因子gi。例如,当两个麦克风处的相位相等时,选通因子gi可以是0,指示被记录的声音不是说话者的嗓音而是来自环境的外来声音。备选地,当输入信号512之间的相位对应于麦克风之间的声学传播延迟时,选通因子可以是1。
[0100] 总体而言,多种原型合成方法可以用公式表示为输入信号的选通,其中该选通是根据范围从0到1的系数,其可以用矢量矩阵的形式表达为:
[0101]
[0102] 其中0≤g1,g2≤1。
[0103] 在另一示例中,选通函数被配置用于在听力辅助设备中以与通过引用结合于此的标题为“Hearing Assistance Apparatus”的美国专利公开2009/0262969中所描述的类似的方式使用。在该配置中,选通函数被配置用于向用户面对的声源提供比用户未面对的声源更多的增强。
[0104] 在另一示例中,选通函数被配置用于在声音辨别应用中使用,其中以与通过引用结合于此的标题为“Sound Discrimination Method and Apparatus”的美国专利公开2008/0317260中确定输出分量的方法类似的方式来确定原型。例如,将乘法器(42)的输出(其在引用的公开中是输入和增益(40)(即选通项)的乘积)应用为本方法中的原型。
[0105] 4 输出估计
[0106] 再次参考图1,估计器110被配置用于确定最匹配原型d(t)的输出 在一些实施方式中,估计器110是在最小平方意义上匹配d(t)的线性估计器。再次参考图2,对于至少一些形式的估计器110,可以通过分量基础在分量上执行该估计,因为通常每个分量中的误差由于分量的正交性是不相关的,并且因此每个分量可以被单独地估计。分量估计器210将估计 (t)形成为加权组合 通过最小平方权值估计器216为
每个分析窗口选择权值wi以基于输入信号s1(t)和s2(t)的自功率谱和互功率谱形成最小误差估计。
[0107] 可以通过将期望(复)信号d(t)和(复)输入信号x(t)与找到实系数h使得最2
小化|d(t)-hx(t)| 的目标一起考虑来理解在估计模块的一些示例中所实现的计算。最小化该误差的系数可以表达为
[0108]*
[0109] 其中指数 表示复共轭以及E{}表示在时间上的平均或者期望。注意到,数字上,2
如果E(x(t))很小,则h的计算可能是不稳定的,因此,数字上,向分母添加小值来调整估计为:
[0110]
[0111] 在时间间隔上估计自相关SXX和互相关SDX。
[0112] 当被应用至图2中示出的窗口化分析时,(使用符号[n]来指代第n个窗口)给定窗口化的输入信号x[n](t)(即输入信号x(t)的第n个窗口)、sk(t)中的一个以及对应的原型d[n](t),在该窗口内的自相关和互相关的局部估计形成为
[0113] 和
[0114] 注意到,在分量能够被欠采样成每一窗口单个采样的情况下,这些期望各自可以与单个复数乘法一样简单。
[0115] 为了获取自相关系数和互相关系数的鲁棒估计,可以使用多个时间窗口上的时间平均或者滤波。例如,滤波器的一种形式是在早先窗口上计算的衰减时间平均:
[0116]
[0117] 例如,当a等于0.9、窗口跳跃时间是11.6ms时,其对应于大约100ms的平均时间常数。可以使用其它因果的或者先行的、有限冲激响应或者无线冲激响应、固定的或者自适应的滤波器。然后在滤波之后应用对因子ò的调整。
[0118] 对于估计用于基于单个分量形成原型的权值h的情况,参考图6,示出了最小平方权值估计模块216的一种实施方式700。在图中将输入的分量标识为X(例如,下采样成每一窗口的单个采样的分量si(t)),并且在图中将原型分量标识为D。图6表示每个窗口周期更新一次的离散时间滤波方法。具体而言,沿着顶部路径通过计算X的复共轭750、将X的复共轭与D相乘752并且然后沿着时间维度对该乘积进行低通滤波754来计算SDX。然后提取SDX的实数部分。沿着底部路径通过将X的幅值进行平方760并且然后沿着时间维度对该结果进行低通滤波762来计算SXX。随后将小值ε加764到SXX以防止被零除。最后,通过用Re{SDX}除以(SXX+ò)来计算h。
[0119] 可以通过考虑形成为两个输入x(t)和y(t)的组合、具有找到实系数h和g以便2
最小化|d(t)-hx(t)-gy(t)| 的期望信号d(t)来进一步理解由估计模块实现的计算。注意并非必需使用实系数,并且在使用复系数的备选实施方式中,用于系数值的公式是不同的(例如,对于复系数,Re()运算落在所有项上)。在使用实系数的该情形下,使该误差最小化的系数可以表达为
[0120]
[0121]
[0122] 如上所述,在一系列窗口上对每个自相关项和互相关项进行滤波并且在计算之前进行调整。
[0123] 容易地修正上面示出的用于两个通道的矩阵公式用于任何数目的输入通道。例如,在m个原型 的矢量和n个输入信号 的矢量的情形下,可以计算加权系数H的m×n矩阵用于使用以下矢量-矩阵公式来形成估计:
[0124]
[0125] 通过计算实数矩阵H为
[0126]
[0127] 其中
[0128] 是n×m矩阵并且
[0129] 是n×n矩阵并且 指示复共轭的转置矩阵,并且在如上所述的分量按位基础上计算协方差项并且对其进行滤波和调整。
[0130] 图3A是用于所有输入通道sk(t)和一个或者多个原型d(t)的时间-分量表示322的图形表示300。表示300中的每个图块332与一个窗口索引n及一个分量索引i相关联。图3B是单个图块332的详细视图。具体而言,图3B示出了图块332是通过首次对每个输入信号312加时间窗口380而构建的。然后通过分量分解模块220处理每个输入信号312的时间窗口化部分。对于每个图块332,计算输入通道312的自相关384和互相关382以及每个输入和每个输出的互相关382的估计,并且然后在时间上进行滤波386并且进行调整以保留数值稳定性。然后根据上面示出的形式的矩阵公式计算每个加权系数[0131] 注意到在上述描述中,在时间上执行相关系数的平滑。在一些示例中,平滑还是跨分量(例如频带)的。此外,跨分量平滑的特性可能不相同,例如,在较高频率处具有比在较低频率处更大的频率范围。
[0132] 5 其它示例
[0133] 在以下示例中,为了符号的简单起见,省略了对时间变量t的依赖。注意到对于分析周期τ的一些选择,仅需要单个值来表示分量,并且因而省略对t的依赖可以被认为是对应于表示分析分量的单个(复数)值。并且,总体而言,加权值通常是复数而不是如以上所呈现的特定示例中的情况那样的实数。
[0134] 5.1 多维度输入
[0135] 作为第一示例,为了概述以上呈现的方法,可以通过估计n个权值的矢量w(即,n列矢量)从n个输入x(即,n列矢量)估计标量原型d以满足:
[0136] 通过计算
[0137]
[0138]
[0139] 其中(对于n=2)
[0140] w=[w1,w2]T,
[0141] x=[x1,x2]T,
[0142] 并且
[0143]
[0144] 因此d是期望信号(即期望原型)的局部时间-频率估计并且目标是找到矢量wT使得输入(即,wx)的局部加权组合在最小平方误差的意义上最适合d。
[0145] d的结果最小平方估计 对d具有平滑作用,这能够在听觉上使听众喜欢。该期望原型的估计 (其中e项是剩余的最小平方估计误差)保留了d的期望特性,但是在听觉上可以比单独的d更讨人喜欢。此外,可以比d的简单平滑版本更好地保留d的期望性态。
[0146] 5.2 多输入偏移
[0147] 在之前的示例中,通过将低通滤波器(即,短时间期望算子和/或统计量的跨频率平滑)应用至w的封闭解的互统计量和自统计量,可选择地实现最小平方解的短时间实现。虽然之前的示例使用最小平方解的短时间实现用于平滑单个原型信号,但是应当注意到最小平方解的短时间实现可以通过增加约束条件扩展并且应用至各种其他问题(例如,动态滤波器系数)。具体而言,其可以看作时变闭合最小平方解的短时间实现。时变闭合最小平方解可以应用至各种其他情况。
[0148] 总体而言,在上述方法中,假设用于在时间帧n处的频率分量i的原型估计取决于在相同分量和帧索引处的输入信号,并且可能通过在估计中使用的统计量的平滑间接取决于其他分量和时间帧。更一般地,在时间帧n处的原型dn(或者更精确地,用于在时间帧n处的频率分量i的原型dn,i,但是为了符号的简单起见,省略了对i的依赖)在k个时间帧n-k+1,…,n的范围上取决于输入xn,…,xn-k+1,并且每个输入xi可以是包括除了被估计的原型外的其它频率分量的值的矢量。
[0149] 参考图8,在第二示例中,系统800接收输入信号xn,其中n是例如输入信号的第n个帧。在该示例中,原型生成器802利用输入分量xn的多个前行输入或者前行原型估计yn-1…yn-k来确定在时间n处的原型信号分量dn。原型生成器802的一个示例假设dn是输入分量的前行输入和前行输出的加权线性组合加上某个估计误差,使得原型估计 具有IIR滤波器的形式,如下:
[0150] dn=b0xn+b1xn-1+…+bkxn-k…+a1yn-1+a2yn-2…+alyn-l+en
[0151] 其还可以表达为:
[0152]
[0153] 其中
[0154]
[0155] 并且
[0156] z=[xn,xn-1,…,xn-k,yn-1,…yn-l]T。
[0157] 原型信号分量dn被传送到基于分量的线性估计器804(例如,最小平方估计器),T该线性估计器804确定矢量w,该矢量w在最小平方意义上最小化原型信号分量dn和wz之间的差,如下:
[0158]
[0159]
[0160] 其中H
[0161] Rz=E{zz}
[0162] 注意到由于z是输入信号的(k+l+1)列向量,因此Rz是(k+l+1)×(错误!未找到引用源。),使得对于许多输入信号,Rz的求逆可能是昂贵的。
[0163] 基于分量的线性估计器804的输出w被传送给线性组合模块806(例如,IIR滤波器),线性组合模块806用与原型生成器802相同的方式将估计 形成为xn的前行输入值和前行输出值的组合。然而,线性组合模块806使用包括在w矢量中的值替代b0,b1,…,bk和a1,a2,…,al值(即用 替代b0,用 替代b1,等等)。线性组合模块806的输出 是dn的最小误差估计。
[0164] 5.3 被约束的原型估计
[0165] 在一些示例中,期望从多个输入信号估计多个原型信号,使得用于每个原型的权值例如被约束成对于每个原型相同,但是应用至不同输入信号。作为一个可能的示例,如果每个原型是特定信号分量的不同时间帧(即延迟),那么可能期望在不同滞后处输入分量的滤波是时不变的。在下面的5.7节中呈现另一示例。
[0166] 总体而言,使d成为期望信号的N×1矢量:d=[d0,d1,…,dN-1]T并且使w=[w0,Tw1,…,wP-1] 成为用来线性组合输入信号的N个独立的Px1矢量的系数的Px1矢量。对于每个期望原型信号,使用w组合的输入信号差异可能在于d。具体而言,使存在对应于每个期望信号或者信号矢量的独立的Px1输入矢量xi(i=0,1,…N-1),其中[0167] d0=wTx0+e0
[0168] d1=wTx1+e1
[0169] . . .
[0170] dN-1=wTxN-1+eN-1
[0171] 然后可以将N×P输入矩阵Z形成为:
[0172]
[0173] 然后(注意到di=wTxi+e0=xiTw+e0)方程系可以重写为
[0174] d=Zw+e
[0175] 其中w是加权系数的矢量:
[0176] w=[w0,w1,…,wP-1]T。
[0177] 在最小平方的意义上同时最小化每个原型信号分量d和Zw之间的差的封闭解如下:
[0178]
[0179] w=E{ZHZ}-1E{ZHd}
[0180] 5.4 加权最小平方
[0181] 在上述示例中,凭借实际上最小化ei的平方和,每个输入值实际上被视为在原型估计的确定中具有相同重要性。然而,在一些示例中,允许某些输入比其他输入重要或者不重要可能是有用的。这可以使用加权最小平方解来实现。
[0182] 加权最小平方解将G定义为用于每个输入xi的权值gi的N×N对矩阵:
[0183] G=diag(g1,g2,…,gN)
[0184] 在上述最小平方解中包括该矩阵使由于较高加权输入约束条件导致的误差比由于较低加权输入约束条件导致的误差代价更大。这使得最小平方解对具有较大权值的约束条件存在偏见。在一些示例中,约束条件权值随时间和/或频率改变,并且可以由系统内的其他信息驱动。在其他示例中,在给出的频带内可能存在一个约束条件优先于另一个约束条件的情况,反之亦然。
[0185] 包括权值矩阵W的最小平方解可以表达为:
[0186] w=E{ZHGZ}-1E{ZHGd}
[0187] 5.5 示例1:具有单个局部期望原型的多通道输入
[0188] 在该示例中,目标是找到在时间索引n处的两个输入通道信号x1,n和x2,n的线性组合,其为在时间n处的期望信号dn的最佳估计 因而,
[0189] d=dn,
[0190] 并且
[0191]
[0192] 该结果与在5.1节中呈现的示例相应。
[0193] 5.6 示例2:具有单个局部期望原型的单通道、自适应FIR解
[0194] 该示例与示例1区别在于:不使用两个不同通道作为输入,而将单通道的两个不同时间段用作输入。目标是找到当前(在时间n处)和之前(在时间n-1处)输入信号xn和xn-1的线性组合,其为在当前时间n处的期望信号dn的最佳估计 因而,[0195] d=dn,
[0196] Z=[xn,xn-1],
[0197] 并且
[0198]
[0199] 因而,示例1和示例2示出,可能通过采取跨通道和/或时间的输入来对局部期望H信号dn进行求解。然而,维度P变为大于2并且对P×P矩阵ZZ求逆可能是昂贵的。注意到可以在不增加PxP矩阵求逆的大小的情况下使用附加的期望信号(其对应于附加的输入约束条件,即维度N)。
[0200] 5.7 示例3:具有被约束的原型估计的多通道输入
[0201] 在一些示例中,将最小平方平滑应用至麦克风阵列。来自阵列中的麦克风的原始信号被用来在时间和频率中的具体点处估计期望源信号分量。目标是确定麦克风信号的线性组合,该线性组合最佳近似了在时间和频率中的该具体点处的瞬时期望信号。这一应用可以被认为是上面示例1中所述应用的扩展。
[0202] 如以下所更充分地描述的那样,最小平方解不仅可以向期望信号提供期望平滑性态,而且能够产生系数,当所求解的该系数是复数值时,其提供对消。
[0203] 参考图9,在理想的或者已知的源位置处的源1002产生源信号(例如音频信号),该源信号通过空气向麦克风阵列1006(在该示例中包括两个麦克风,M1和M2)的每个麦克风1004传播。随着源信号从源1002向每个麦克风1004传播,假设经过线性传递函数Hdp,其中p是麦克风阵列1006中的第p个麦克风1004。在以下讨论中,特定信号分量(例如频带)的传递函数被称作hdp。
[0204] 如果已知期望信号1002关于麦克风阵列1006的位置的几何形状,在理想源位置1002和麦克风阵列1006中的两个麦克风之间的传递函数的集合可以表达为T
[0205] hd=[hd1,hd2]。
[0206] 该情况的一个示例是在其中已知(至少近似地)嘴相对于麦克风的位置的耳挂式麦克风阵列的情况下,并且因而可以在使用中预先确定或者估计传递函数。
[0207] 一种用于处理一批麦克风信号(其中传递函数Hdp是已知的)的方法(以下没有进一步讨论)可能是首先估计源信号s并且随后将该信号应用至如上所述的原型估计过程。
[0208] 另一优选方法是以下面的方式从独立的输入信号形成原型估计,在此方式中,输入信号的加权近似(但并非必需)匹配来自理想源位置的已知的传递函数。这样,从理想源位置到达的信号通常未作修正地被传送。T
[0209] 实现这点的一种方式是用单位原型d=[dn,1] 扩充原型dn。单位原型源于在获取更众所周知的最小方差无畸变响应(MVDR)解中使用的无畸变响应约束条件,如下:
[0210]
[0211] 为了确定加权矢量使得加权输入信号近似地匹配来自源的已知的传递函数,在上述方程中用s取代d,如下:
[0212]
[0213] 导致如下的单位原型:
[0214]
[0215] 在通用最小平方解的上下文中,原型和输入矩阵然后可以表达为:T
[0216] d=[dn,1]
[0217]
[0218] 注意到上述解将时不变约束条件与时变解组合。因而,基于单独估计dn,附加的约束条件可以用来帮助阻止用于w的瞬时解大量地损坏源自理想源位置的任何源信号。然而注意到这并非如用于MVDR解的情况那样是绝对的约束条件(其严格禁止目标源方向上的任何畸变)。
[0219] 如上所述,在一些示例中,期望在原型的矢量d中具有某些原型,以在被估计的信号上具有比其他原型更多或更少的影响。这可以通过在w的解中包括加权矢量G来实现。因而,用于图9中示出的示例的加权解如下:
[0220]
[0221]
[0222] 并且仅需要2×2矩阵求逆。
[0223] 参考图10,上述示例可以扩展成包括附加的约束条件使得瞬时系数w在关于麦克风阵列1106的特定方向上产生空值。例如,该方向可以表达为在理想的或者已知的噪声位置N 1108的噪声(或者其他非期望的)源和麦克风阵列1106中的P个麦克风1104之间的传递函数Hnp(其中p是第p个麦克风)。对于以下讨论,信号分量(如频带)的传递函数被称作hnp。对于图10的示例,期望原型矢量和输入矩阵(对于两个麦克风元件的情况)可以表达如下:T
[0224] d=[dn,1,0],
[0225] 和
[0226]
[0227] 用于该示例的加权解产生以下趋势:近似在噪声源的方向上趋向于空值(即衰减),同时保留源信号。
[0228] 虽然上述两个示例各自涉及使用两个麦克风,但是麦克风的数目可以是大于2的其他数目P。在该一般情况下,输出可以表达为:
[0229] xn=hdsn
[0230] 其中
[0231] hd=[hd0,hd1,…,hdP-1]。
[0232] 此外,虽然上述示例描述了应用于零点技术(nulling)和波束成型的原型,但是应当注意的是,可以使用任何其他任意原型。
[0233] 5.8 示例4a:具有原型输入的多个期望原型
[0234] 在另一示例中,二元麦克风阵列产生原始输入信号x1和x2。通过观测原始输入信号中的差,可以获取每个麦克风(d1和d2)中的期望信号分量的瞬时估计。期望信号的这些局部估计可以用来获取来自每个麦克风信号的噪声信号的局部估计,如下:
[0235] n1=x1-d1
[0236] n2=x2-d2
[0237] 在一个上述示例中,对于麦克风阵列的最小平方平滑的应用被用来清理期望信号的估计。上述示例的目标是确定最近似期望信号估计的麦克风输入的线性组合。在该示例中,另一目标是在给定时间-频率点处确定将最佳对消噪声信号的局部估计的输入信号的线性组合,同时仍然试图保留目标信号。使用通用最小平方解,该问题可以表达为:
[0238]
[0239]
[0240] 在此,Z中的顶行又是从期望源到阵列的传递函数,并且在该方向上的期望阵列响应是1,而对瞬时噪声估计的期望响应是某个小信号a。
[0241]
[0242]
[0243] 5.9 示例4b:添加回原始期望原型
[0244] 在另一示例中,示例4a扩展成包括原始输入约束条件。因而,输入矩阵和期望矢量表达为:
[0245]
[0246]
[0247] 考虑到对于每个频率分量计算w的解,约束条件权值可以随时间和频率的函数(W=W(t,f))而改变。在一些示例中,在某些时候给予在具体频率范围内的特定约束条件更大的权值是有利的。
[0248] 注意到随着被包含的约束条件的数目增加,加权的、约束的最小平方平滑结构的整体构想总体而言可以看作一种用于将多个期望性态与窄的时间分辨率和频率分辨率相结合的实施策略。此外,在一些实例中,由于限制的自由度或者冲突要求,同时获取所有期望性态可能是不可能的。然而,该构想允许动态地强调(在约束条件之间平滑地切换或者混合)期望性态,同时以期望的方式平滑个别约束条件。
[0249] 5.10 示例4c:具有动态权值的固定期望原型
[0250] 在另一示例中,期望无畸变响应和噪声对消。输入矩阵和期望原型矢量表达为:
[0251]
[0252]
[0253] 其中a=0或者某个小信号/值。在该示例中,每个约束条件的强调取决于时间和/或频率变化值。例如,权值矩阵可以定义为:
[0254]
[0255] 其中,St,f可以当被估计的目标信号存在(或者显著)时起作用以强调无畸变响应约束条件而当被估计的目标信号不存在(或者不显著)时不关注无畸变响应约束条件。2 2
St,f的一个示例是目标信号能量的瞬时估计|dn|。当目标信号的能量高时,将|dn| 放入权值矩阵中具有强调无畸变响应(DR)约束条件的作用。因此,当目标信号不存在时,该解更多地关注满足噪声对消约束条件。Vt,f是在噪声对消约束条件上的可以随时间或者频率改变的任意权值函数。应当注意的是,以上示出的约束条件的动态加权仅是一个示例,并且总体而言,可以将任一任意函数(例如,麦克风间相干)用于动态加权。
[0256] 5.11 示例5:快速最小输出混合器
[0257] 在一个示例中,两个输入信号U和S(其如所有之前的示例一样可以是多通道时域或者频域信号)是可用的。在该示例中,U和S都包括相同的期望信号,但是包括不同的噪声信号(即,U=s+Nu和S=s+Ns)。由于两个期望信号和两个噪声信号都可以是时变的和非平稳的,所以找到U和S的包括最小的可能噪声贡献同时保留在二者中都存在的想要的信号分量的局部时间-频率组合(即wUU+wsS)可能是有用的。
[0258] 在该示例中,期望原型、输入和权值可以表达为:
[0259]
[0260]
[0261] 并且最小平方解可以表达为:
[0262]
[0263]
[0264] 第一约束条件致力于最小化U和S的组合(或者强制使二者的组合等于0)。第二约束条件试图执行权值(即wU+wS=1)之间的“混合”关系,因为在U和S中目标信号是相同的并且因此在该约束条件下被保留。G又是可以在任何约束条件上放置较大或较小权值的对角权值矩阵。在一些示例中,由于单个约束条件之间的竞争,矩阵G中的值需要仔细设定。
[0265] 5.12 示例5b
[0266] 在另一示例中,示例5a中所述的权值被严格执行为具有混合器关系,其中输出信号Y=αkU+(1-αk)S由系统产生。混合因子αk可以动态地确定为如下:
[0267]
[0268] 在该示例中,代价函数塌缩成标量误差函数使得能够计算关于α的导数。然而,如在上述示例中的那样,使用低通滤波器来获取短时间期望操作(即E{}),如在最小平方平滑中,用来获取αk的快速局部估计。
[0269] 5.13 实验结果:在低SNR条件下处理的麦克风阵列
[0270] 在某些条件下,时间-频率掩蔽或选通方案具有胜过更多众所周知的LTI方法(诸如MVDR解决方案)的潜力。然而,在其中目标信号几乎不是主要来源的非常低的SNR条件下,时间-频率掩蔽方案往往抑制太多期望信号,并且可能未必会像静态空间滤波器(即MVDR)一样改善信噪比。对于给定的噪声环境,最理想的LTI解决方案致使独立于环境信号干扰比的信噪比的持续改善。图11将测得的MVDR设计的平均SNR增益和保留信号比(PSR)与当前使用复数最小平方平滑的时间-频率掩蔽方案进行了比较。在图11的下半部分中的负PSR表示平均有多少目标信号由于阵列处理而丢失(以dB为单位)。该特定场景包括混合至-6dB的总体均方根SNR的回响串音中的目标语音信号。在图12中示出了用于该实验的平均目标和噪声信号功率谱。注意到在其中局部SNR大致是0dB的1.5kHz以上,时间-频率掩蔽方案具有最小的目标信号损失,但是与静态MVDR设计相比仍然有几个dB的SNR增益。在其中目标平均具有显著的能量但是SNR差(约-6dB)的400-600Hz范围中,时间-频率掩蔽方案提供多达8dB的SNR增益,但代价是更多的目标信号损失。在其中局部SNR非常差的150Hz以下,MVDR解决方案在去除噪声方面与时间-频率掩蔽器相比表现得更好。
[0271] 如在示例4b中那样,通过将附加的约束条件应用至加权最小平方解,对不同运行特性进行折衷是可能的,即使在各个频率范围是最相关的频率范围中。此外,可以大部分地保留原始最小平方平滑方法的音频质量效益同时增加该灵活性。在以下示例中,使用被约束的最小平方方法来获取组合了MVDR方法和时间-频率掩蔽方法的一些优势的单个解决方案。所使用的期望矢量和输入矩阵如下:
[0272]
[0273]
[0274] 其中a是某个小值或者信号。第一约束条件朝着用于在hd的方向上的解的无畸变响应施加张力。第二约束条件朝着输入的抑制和对消驱动解。最后的约束条件是原始约束条件,其驱动输入的线性组合以实现经由时间-频率掩蔽所获取的期望信号估计。在该示例中,应用了权值函数使得在低频处无畸变响应和输入对消约束条件处于支配地位,而在较高频率处时间-频率掩蔽期望约束条件处于支配地位。以下在图13中给出了来自该实验的SNR增益和PSR。
[0275] 注意到时间-频率掩蔽器的SNR增益效益大部分被保留同时也提高了200Hz以下的SNR增益以与MVDR解的SNR增益相等。在这种情况下仅稍微提高了被约束的最小平方方法的PSR,但是至少不比单独使用时间-频率掩蔽器差。当在一些频率处给予无畸变响应约束条件甚至更多的强调时,图14展示了使用不同组的权值函数的结果。SNR增益大部分与MVDR解一样好或者比MVDR解更好,但是在之前的示例上提高了PSR。
[0276] 图15展示了当仅使用第一对的两个约束条件(即,单位响应和对消)时单位响应约束条件经由加权矩阵被配置用于处于支配地位的性态。其表现明显接近静态MVDR解。因而,将这些附加的加权约束条件包括在最小平方平滑解中能够提供多个效益。其继续提供原始最小平方方法的期望平滑性态。此外,对于使用时间-频率掩蔽的麦克风阵列应用,其允许阵列处理器对不同期望性态(经由权值函数)进行折衷以产生更优化的解。此外,由于多个约束条件的添加并不增加最小平方解中矩阵求逆的大小,因此可能不用考虑额外的处理要求。
[0277] 6 分量重构
[0278] 因为分量分解模块220(例如DFT滤波器组)具有线性相位,所以单个通道上混输出具有相同相位并且可以在无相位相互作用的情况下重新组合,以产生信号分离的各种程度。
[0279] 在分量重构模块230中实施分量重构。分量重构模块230执行分量分解模块220的逆向操作,从若干分量222构建空间上分离的时间信号。
[0280] 7 示例
[0281] 在第3节中,具有分别对应于左信号l(t)和右信号r(t)的输入信号s1(t)和s2(t),原型d(t)适合于中心通道c(t)。在一个示例中,可以应用相似方法来为“仅左边”信号lo(t)和“仅右边”信号ro(t)确定原型信号。参考图4B,示出了用于“仅侧边”通道的示例性局部原型。注意到在其他示例中,局部原型可以来源于单个通道,而在其他示例中,它们可以来源于两个或者两个以上的通道。
[0282] 以下公式定义了此示例性原型的一种形式:
[0283]
[0284] 和,
[0285]
[0286] 其中,为了清楚起见,在上述公式中省略了分量索引i。每个输入信号412的一部分被组合来构建中心原型。局部“仅侧边”原型是每个输入信号412在贡献给中心通道之后的剩余物。例如,关于lo(t),如果l(t)小于r(t),则原型等于0。当l(t)大于r(t)时,原型具有为输入信号412的长度差的长度,以及与输入l(t)相同的方向。
[0287] 参考图4C,示出了用于“环绕”通道的示例性局部原型。“环绕”原型可以用于基于差值(反相)信息进行上混。以下公式定义了“环绕”通道的局部原型:
[0288]
[0289] 其中,为了清楚起见,在上述公式中省略了分量索引i。该局部原型与中心通道局部原型是对称的。当输入信号412平相等并且异相时,其是最大的,并且其随着水平差增大或者相位差减小而减小。
[0290] 例如,如上所述,给定原型信号,用于估计那些原型信号的方法的示例在组合以形成估计的输入方面可能不同。例如,如在图7中所示出的,原型d(t)(此处被称为作为中心通道原型的c(t))能够产生两个估计 和 其中每个估计分别形成为如下单个输入的加权:
[0291] 和
[0292] 以分别表示包含在左输入通道和右输入通道中的中心原型的一部分。使用上述协方差估计和互协方差估计的定义,这些系数可以确定如下:
[0293] 和
[0294] 对于环绕通道s(t)的定义,可以将两个估计类似地形成为
[0295] 和
[0296] 其中,负号涉及环绕原型的相位不对称,并且系数被确定为
[0297] 和
[0298] 在该示例中,存在四个如上所定义的上混通道:
[0299] 和
[0300] 两个附加通道被计算为在去除单通道的中心分量和环绕分量之后的剩余左信号和剩余右信号:
[0301] 和
[0302]
[0303] 用于源自原始的两个输入通道的共计六个输出通道。
[0304] 在另一示例中,通过将左输入和右输入混合成每个上混器输出来生成上混输出。在这种情况下,使用最小平方来求解用于每个上混器输出的两个系数:左输入系数和右输入系数。通过根据对应的系数缩放每个输入并且求和来生成输出。
[0305] 在该示例中,如果中心通道和环绕通道分别近似为:
[0306] 和
[0307] 则系数可以计算为
[0308]
[0309] 其中
[0310] 和
[0311] 如上所述,随后通过从输入信号去除中心信号和环绕信号的分量来计算仅左边信号和仅右边信号。注意到在其他示例中,可以直接提取仅左边通道和仅右边通道而不是在减去其他被提取的信号之后将他们计算为剩余物。
[0312] 8 备选方案
[0313] 以上提供了例如用于中心通道的局部原型合成的若干示例。然而,可以采用各种试探法、物理选通方案和信号选择算法来构建局部原型。
[0314] 应当理解的是,并非必须明确地计算原型信号d(t)(例如,如在图1和图2中示出的)。在一些示例中,公式被确定用于计算自功率谱和互功率谱或者原型信号的其它特性描述,其随后在确定用在估计器210中的、实际上并不形成信号d(t)209的权值wk217中使用,而仍然产生与将通过原型的明确计算已经获取的结果相同或者基本相同的结果。类似地,估计器的其他形式不必使用加权输入信号来形成估计信号。一些估计器不必利用明确地形成的原型信号而是以如下方式使用描述目标信号的原型的特性的信号或者数据(例如,使用表示统计特性的值,诸如原型的自相关估计或者互相关统计、矩等等),以这种方式,估计器的输出是根据由估计器使用的特定矩阵(例如,最小平方误差矩阵)的估计。
[0315] 还应当理解的是,在一些示例中,估计方法可以被理解为子空间投影,其中子空间由被用作输出的基础的一组输入信号所限定。在一些示例中,原型本身是输入信号的线性函数,但是可能局限于由输入信号的与在估计相位中使用的子集不同的子集所限定的不同的子空间。
[0316] 在一些示例中,使用与在估计中使用的表示不同的表示确定原型信号。例如,可以使用不同或者不使用分量分解确定原型,该分量分解与在估计阶段中使用的分量分解不同。
[0317] 还应当理解的是,“局部”原型可能并非必需严格地限制为从单个分量(例如频带)和单个时间周期(例如,输入分析的单个窗口)中的输入信号计算。例如,可能存在邻近分量(例如,在时间和/或频率中感觉上接近的分量)的限制性使用,而仍然提供相对估计过程的局部性更多的原型合成的局部性。
[0318] 由时间数据的窗口化引入的平滑能够进一步扩展至基于掩蔽的时间-频率平滑或者非线性时不变(LTI)平滑。
[0319] 可以修改系数估计规则以执行恒定功率约束条件。例如,多个原型可以被同时估计,而不计算剩余的“仅侧边”信号,同时保留总的功率约束条件使得总的左信号和右信号保持在输出通道的总和之上。
[0320] 给定一对立体声输入信号(L和R),可以旋转输入空间。这种旋转可以产生较干净的仅左边空间分解和仅右边空间分解。例如,可以将左边加右边和左边减右边用作输入信号(输入空间旋转45度)。更一般地,在原型合成和/或输出估计之前,输入信号可以经受例如线性变换的变换。
[0321] 9 应用
[0322] 本申请中所描述的方法可以应用在其中输入信号需要以低延迟和低伪像的方式在空间上被分隔的各种应用中。
[0323] 该方法可以被应用到立体声系统,诸如家庭影院环绕声系统或者汽车环绕声系统。例如,来自光盘播放机的双通道立体声信号能够在空间上被分隔到汽车中的若干通道。
[0324] 所述方法还可以用在诸如电话耳机的电讯应用中。例如,该方法可以用来使来自无线耳机的麦克风输入的不需要的环境声无效。
[0325] 10 实现
[0326] 上述方法的示例可以以软件、以硬件或者以硬件和软件的组合的形式来实现。软件可以包括计算机可读介质(例如,磁盘或者固态存储器),该计算机可读介质保存用于使计算机处理器(例如,通用处理器、数字信号处理器等等)执行上述步骤的指令。在一些示例中,该方法被具体化在适于(例如,可配置的)集成到一种或者多种类型的系统(例如,家用音响、耳机等等)中的声音处理器设备中。
[0327] 将要理解的是,前面的描述旨在说明而非限制本发明的范围,该范围由所附权利要求的范围进行限定。其他实施例在以下权利要求的范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈