首页 / 专利库 / 视听技术与设备 / 全向性麦克风 / 全向性双麦克风阵列

全向性双麦克阵列

阅读:122发布:2020-05-11

专利汇可以提供全向性双麦克阵列专利检索,专利查询,专利分析的服务。并且描述了全向性双麦克 风 阵列的噪声抑制。与设法通过使噪声源为零来降低噪声的常规阵列和 算法 相比较,一个 实施例 的阵列用来形成被配置成具有很相似的噪声响应和很不相似的语音响应的两个不同的方向性虚拟麦克风。所形成的唯一零点是被用来去除来自V2的用户语音的零点。可以利用自适应 滤波器 算法和语声活动检测器算法将这两个虚拟麦克风 配对 以显著降低噪声而不使语音失真,从而较常规噪声抑制系统而言显著提高希望的语音的 信噪比 。,下面是全向性双麦克阵列专利的具体信息内容。

1.一种麦克阵列,包括:
第一虚拟麦克风,包括第一麦克风信号与第二麦克风信号的第一组合,其中所述第一麦克风信号由第一物理麦克风生成,而所述第二麦克风信号由第二物理麦克风生成;以及
第二虚拟麦克风,包括所述第一麦克风信号与所述第二麦克风信号的第二组合,其中所述第二组合不同于所述第一组合,其中所述第一虚拟麦克风和所述第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的响应很大程度上不相似的不同的方向性虚拟麦克风。
2.根据权利要求1所述的麦克风阵列,其中所述第一和第二物理麦克风是全向性的。
3.根据权利要求1所述的麦克风阵列,其中所述第一虚拟麦克风具有无零点的对语音的第一线性响应,其中所述语音是人类语音。
4.根据权利要求3所述的麦克风阵列,其中所述第二虚拟麦克风具有对语音的第二线性响应,所述第二线性响应包括处于朝着所述语音的源的方向上的单个零点。
5.根据权利要求4所述的麦克风阵列,其中所述单个零点是所述第二线性响应的如下区域,该区域的测量响应平低于所述第二线性响应的任何其它区域的测量响应水平。
6.根据权利要求4所述的麦克风阵列,其中所述第二线性响应包括处于背离所述语音的源的方向上的主瓣。
7.根据权利要求6所述的麦克风阵列,其中所述主瓣是所述第二线性响应的如下区域,该区域的测量响应水平大于所述第二线性响应的任何其它区域的测量响应水平。
8.根据权利要求4所述的麦克风阵列,其中所述第一物理麦克风和所述第二物理麦克风沿着轴定位并且分隔开第一距离。
9.根据权利要求8所述的麦克风阵列,其中所述轴的中点与生成所述语音的语音源相距第二距离,其中所述语音源位于由相对于所述中点的一度限定的方向上。
10.根据权利要求9所述的麦克风阵列,其中所述第一虚拟麦克风包括用所述第一麦克风信号减去所述第二麦克风信号而得到的结果。
11.根据权利要求10所述的麦克风阵列,其中所述第一麦克风信号被延迟。
12.根据权利要求11所述的麦克风阵列,其中所述延迟被升高到如下幂,该幂与所述语音到达所述第一虚拟麦克风与所述语音到达所述第二虚拟麦克风之间的时间差成比例。
13.根据权利要求11所述的麦克风阵列,其中所述延迟被升高到如下幂,该幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,所述第三距离在所述第一物理麦克风与所述语音源之间,而所述第四距离在所述第二物理麦克风与所述语音源之间。
14.根据权利要求10所述的麦克风阵列,其中所述第二麦克风信号与一比值相乘,其中所述比值是第三距离与第四距离之比,所述第三距离在所述第一物理麦克风与所述语音源之间,而所述第四距离在所述第二物理麦克风与所述语音源之间。
15.根据权利要求9所述的麦克风阵列,其中所述第二虚拟麦克风包括用所述第二麦克风信号减去所述第一麦克风信号而得到的结果。
16.根据权利要求15所述的麦克风阵列,其中所述第一麦克风信号被延迟。
17.根据权利要求16所述的麦克风阵列,其中所述延迟被升高到如下幂,该幂与所述语音到达所述第一虚拟麦克风与所述语音到达所述第二虚拟麦克风之间的时间差成比例。
18.根据权利要求16所述的麦克风阵列,其中所述幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,所述第三距离在所述第一物理麦克风与所述语音源之间,而所述第四距离在所述第二物理麦克风与所述语音源之间。
19.根据权利要求18所述的麦克风阵列,其中所述第一麦克风信号与一比值相乘,其中所述比值是所述第三距离与所述第四距离之比。
20.根据权利要求4所述的麦克风阵列,其中所述单个零点位于与所述第一物理麦克风和所述第二物理麦克风中的至少一个相距一距离的位置,所述语音的源被预期处于该位置。
21.根据权利要求1所述的麦克风阵列,其中所述第一虚拟麦克风包括用所述第一麦克风信号的延迟版本减去所述第二麦克风信号而得到的结果。
22.根据权利要求21所述的麦克风阵列,其中所述第二虚拟麦克风包括用所述第二麦克风信号减去所述第一麦克风信号的延迟版本而得到的结果。
23.一种麦克风阵列,包括:
第一虚拟麦克风,由第一麦克风信号与第二麦克风信号的第一组合形成,其中所述第一麦克风信号由第一全向性麦克风生成,而所述第二麦克风信号由第二全向性麦克风生成;以及
第二虚拟麦克风,由所述第一麦克风信号与所述第二麦克风信号的第二组合形成,其中所述第二组合不同于所述第一组合;
其中所述第一虚拟麦克风具有无零点的对语音的第一线性响应,其中所述第二虚拟麦克风具有对语音的第二线性响应,所述第二线性响应具有处于朝着所述语音的源的方向上的单个零点,其中所述语音是人类语音。
24.根据权利要求23所述的麦克风阵列,其中所述第一虚拟麦克风和所述第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
25.根据权利要求23所述的麦克风阵列,其中所述单个零点是所述第二线性响应的如下区域,该区域的测量响应水平低于所述第二线性响应的任何其它区域的测量响应水平。
26.根据权利要求23所述的麦克风阵列,其中所述第二线性响应包括处于背离所述语音的源的方向上的主瓣。
27.根据权利要求26所述的麦克风阵列,其中所述主瓣是所述第二线性响应的如下区域,该区域的测量响应水平大于所述第二线性响应的任何其它区域的测量响应水平。
28.一种设备,包括:
输出第一麦克风信号的第一麦克风和输出第二麦克风信号的第二麦克风;以及
耦合到所述第一麦克风信号和所述第二麦克风信号的处理部件,所述处理部件生成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列,其中所述第一虚拟麦克风包括所述第一麦克风信号与所述第二麦克风信号的第一组合,其中所述第二虚拟麦克风包括所述第一麦克风信号与所述第二麦克风信号的第二组合,其中所述第二组合不同于所述第一组合,其中所述第一虚拟麦克风和所述第二虚拟麦克风具有对噪声的很大程度上相似的响应和对语音的很大程度上不相似的响应。
29.一种设备,包括:
输出第一麦克风信号的第一麦克风和输出第二麦克风信号的第二麦克风,其中所述第一麦克风和所述第二麦克风是全向性麦克风;以及
虚拟麦克风阵列,包括第一虚拟麦克风和第二虚拟麦克风,其中所述第一虚拟麦克风包括所述第一麦克风信号与所述第二麦克风信号的第一组合,其中所述第二虚拟麦克风包括所述第一麦克风信号与所述第二麦克风信号的第二组合,其中所述第二组合不同于所述第一组合,其中所述第一虚拟麦克风和所述第二虚拟麦克风是不同的方向性虚拟麦克风。
30.一种设备,包括:
生成第一麦克风信号的第一物理麦克风;
生成第二麦克风信号的第二物理麦克风;以及
耦合到所述第一麦克风信号和所述第二麦克风信号的处理部件,所述处理部件生成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列;
其中所述第一虚拟麦克风包括用所述第一麦克风信号的延迟版本减去所述第二麦克风信号而得到的结果;
其中所述第二虚拟麦克风包括用所述第二麦克风信号减去所述第一麦克风信号的延迟版本而得到的结果。
31.根据权利要求30所述的设备,其中所述第一虚拟麦克风具有无零点的对语音的第一线性响应,其中所述语音是人类语音。
32.根据权利要求31所述的设备,其中所述第二虚拟麦克风具有对语音的第二线性响应,所述第二线性响应包括处于朝着所述语音的源的方向上的单个零点。
33.根据权利要求32所述的设备,其中所述单个零点是所述第二线性响应的如下区域,该区域的测量响应水平低于所述第二线性响应的任何其它区域的测量响应水平。
34.根据权利要求32所述的设备,其中所述第二线性响应包括处于背离所述语音的源的方向上的主瓣。
35.根据权利要求34所述的设备,其中所述主瓣是所述第二线性响应的如下区域,该区域的测量响应水平大于所述第二线性响应的任何其它区域的测量响应水平。
36.根据权利要求32所述的设备,其中所述第一物理麦克风和所述第二物理麦克风沿着轴定位并且分隔开第一距离。
37.根据权利要求36所述的设备,其中所述轴的中点与生成所述语音的语音源相距第二距离,其中所述语音源位于由相对于所述中点的一角度限定的方向上。
38.根据权利要求37所述的设备,其中所述第一麦克风信号和所述第二麦克风信号中的一个或多个被延迟。
39.根据权利要求38所述的设备,其中所述延迟被升高到如下幂,该幂与所述语音到达所述第一虚拟麦克风与所述语音到达所述第二虚拟麦克风之间的时间差成比例。
40.根据权利要求39所述的设备,其中所述幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,所述第三距离在所述第一物理麦克风与所述语音源之间,而所述第四距离在所述第二物理麦克风与所述语音源之间。
41.根据权利要求37所述的设备,其中所述第一麦克风信号和所述第二麦克风信号中的一个或多个与增益因子相乘。
42.一种传感器,包括:
物理麦克风阵列,包括第一物理麦克风和第二物理麦克风,所述第一物理麦克风输出第一麦克风信号,而所述第二物理麦克风输出第二麦克风信号;
虚拟麦克风阵列,包括第一虚拟麦克风和第二虚拟麦克风,所述第一虚拟麦克风包括所述第一麦克风信号与所述第二麦克风信号的第一组合,所述第二虚拟麦克风包括所述第一麦克风信号和所述第二麦克风信号的第二组合,其中所述第二组合不同于所述第一组合;
所述虚拟麦克风阵列包括处于朝着人类发言者的语音源的方向上的单个零点。
43.根据权利要求42所述的传感器,其中所述第一虚拟麦克风具有无零点的对语音的第一线性响应,其中所述第二虚拟麦克风具有包括所述单个零点的对语音的第二线性响应。
44.根据权利要求43所述的传感器,其中所述第一虚拟麦克风和所述第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
45.根据权利要求43所述的传感器,其中所述单个零点是所述第二线性响应的如下区域,该区域的测量响应水平低于所述第二线性响应的任何其它区域的测量响应水平。
46.根据权利要求43所述的传感器,其中对语音的所述第二线性响应包括处于背离所述语音的源的方向上的主瓣。
47.根据权利要求46所述的传感器,其中所述主瓣是所述第二线性响应的如下区域,该区域的测量响应水平大于所述第二线性响应的任何其它区域的测量响应水平。
48.根据权利要求42所述的传感器,其中所述单个零点位于与所述物理麦克风阵列相距一距离的位置,所述语音的源被预期处于该位置。

说明书全文

技术领域

概括地说,本公开涉及噪声抑制。具体地说,本公开涉及用于在声学应用中使用的噪声抑制系统、设备和方法。

背景技术

常规自适应噪声抑制算法已经面世有一段时间。这些常规算法使用了两个或更多麦克来对用户的(不希望的)声学噪声场和(希望的)语音进行采样。然后使用自适应滤波器(比如在Haykin和Widrow,ISBN#0471215708,Wiley,2002中描述的最小均方,但是也可以使用任何自适应或平稳系统识别算法)来确定麦克风之间的噪声关系,该关系被用来从希望的信号中过滤噪声。
目前用于语音通信系统的大多数常规噪声抑制系统是基于最早在20世纪70年代开发出的单麦克风频谱相减技术的,并且例如由S.F.Boll在IEEE ASSP学报1997年第113-120页的“Suppression of Acoustic Noise inSpeech Using Spectral Subtraction”中予以描述。这些技术多年以来得以完善,但是基本工作原理仍保持相同。例如参见McLaughlin等人的第5,687,243号美国专利和Vilmur等人的第4,811,404号美国专利。还进行了多麦克风噪声抑制系统的若干尝试,比如在Silverberg等人的第5,406,622号美国专利和Bradley等人的第5,463,694号美国专利中概述的尝试。多麦克风系统由于多种原因而不是很成功,最大的阻是不良的噪声消除性能和/或显著的语音失真。常规多麦克风系统主要尝试通过将系统的零点(null)“导引”到最强噪声源来提高用户语音的SNR。该方法在可用零点数目所去除的噪声源数目方面受到限制。
加利福尼亚州旧金山的AliphCom于2006年12月推出的Jawbone机(称为“Jawbone“)是使用一对方向性物理麦克风(而不是全向性麦克风)来降低环境声学噪声的第一款已知商业产品。支持Jawbone的技术目前在Burnett的第7,246,058号美国专利和/或第10/400,282、10/667,207和/或10/769,302号美国专利申请中的一个或多个中予以描述。一般而言,多麦克风技术利用基于声学的语声活动检测器(VAD)来确定背景噪声特性,其中“语声”一般理解为包括人类有声语音、无声语音或者有声和无声语音的组合。Jawbone通过如下方式在这方面得以改进:使用基于麦克风的传感器、利用用户面颊的直接检测到的语音振动来构造VAD信号。这允许了Jawbone当用户不产生语音时主动去除噪声。然而,Jawbone使用方向性麦克风阵列。
通过引用的合并
在此通过引用整体合并本说明书中提到的每个专利、专利申请和/或出版物,以致于就如同具体和单独地表明通过引用合并每个专利、专利申请和/或出版物一样。
附图说明
图1是根据一个实施例的双麦克风自适应噪声抑制系统。
图2是根据一个实施例的阵列和语音源(S)配置。麦克风的分离距离约等于2d0,且语音源以度θ与阵列的中点相距距离ds。系统为轴对称,因而仅需指定ds和θ。
图3是根据一个实施例的使用两个全向性单元O1和O2的一阶梯度麦克风的框图
图4是根据一个实施例的DOMA的框图,该DOMA包括配置成形成两个虚拟麦克风V1和V2的两个物理麦克风。
图5是根据一个实施例的DOMA的框图,该DOMA包括配置成形成N个虚拟麦克风V1至VN的两个物理麦克风,其中N为大于1的任何数。
图6是根据一个实施例的包括这里所述DOMA的头戴送受话器或头戴设备的例子。
图7是根据一个实施例的使用DOMA来为声学信号去噪的流程图
图8是根据一个实施例的用于形成DOMA的流程图。
图9是根据一个实施例的虚拟麦克风V2对0.1m距离处的1kHz语音源的线性响应的曲线图。零点处在语音通常所位于的0度。
图10是根据一个实施例的虚拟麦克风V2对1.0m距离处的1kHz噪声源的线性响应的曲线图。不存在零点,且所有噪声源都被检测到。
图11是根据一个实施例的虚拟麦克风V1对0.1m距离处的1kHz语音源的线性响应的曲线图。不存在零点,且语音响应大于图9中所示的语音响应。
图12是根据一个实施例的虚拟麦克风V1对1.0m距离处的1kHz噪声源的线性响应的曲线图。不存在零点,且响应与图10中所示的V2很相似。
图13是根据一个实施例的对于频率100、500、1000、2000、3000和4000Hz而言的虚拟麦克风V1对0.1m距离处的语音源的线性响应的曲线图。
图14是示出了一个实施例的阵列的语音频率响应与常规心形麦克风的语音频率响应的比较的曲线图。
图15是示出了根据一个实施例的在假设ds为0.1m时V1(上部虚线)和V2(下部实线)的语音响应与B之间的关系的曲线图。V2中的空间零点相对宽。
图16是示出了根据一个实施例的图10中所示语音响应之比V1/V2与B之间的关系的曲线图。该比值对于所有0.8<B<1.1而言在10dB以上。这意味着无需对系统的物理β准确建模来得到良好性能。
图17是根据一个实施例的在假设ds=10cm且θ=0时B与实际ds之间的关系的曲线图。
图18是根据一个实施例的在ds=10cm并假设ds=10cm时B与θ之间的关系的曲线图。
图19是根据一个实施例的在B=1且D=-7.2微秒时N(s)的幅度(上部)和相位(下部)响应的曲线图。所得相位差对高频的影响明显大于对低频的影响。
图20是根据一个实施例的在B=1.2且D=-7.2微秒时N(s)的幅度(上部)和相位(下部)响应的曲线图。不是1的B影响整个频率范围
图21是根据一个实施例的在θ1=0度且θ2=30度时语音源定位错误对V2中的语音消除的影响即幅度(上部)和相位(下部)响应的曲线图。该消除对于6kHz以下的频率而言保持于-10dB以下。
图22是根据一个实施例的在θ1=0度且θ2=45度时语音源定位错误对V2中的语音消除的影响即幅度(上部)和相位(下部)响应的曲线图。该消除仅对于约2.8kHz以下的频率而言在-10dB以下,并且预期性能将降低。
图23示出了根据一个实施例的在很响亮(~85dBA)的音乐/语音噪声环境下对Bruel和Kjaer头部和躯干仿真器(HATS)使用0.83的线性β的2d0=19mm阵列的实验结果。噪声降低了约25dB,并且语音几乎不受影响,无明显失真。

具体实施方式

这里描述一种提供改进的噪声抑制的全向性双麦克风阵列(DOMA)。与设法通过使噪声源为零来降低噪声的常规阵列和算法相比较,一个实施例的阵列用来形成被配置成具有很相似的噪声响应和很不相似的语音响应的两个不同的方向性虚拟麦克风。DOMA所形成的唯一零点是被用来去除来自V2的用户语音的零点。可以利用自适应滤波器算法和/或VAD算法将一个实施例的两个虚拟麦克风配对以显著降低噪声而不使语音失真,从而较常规噪声抑制系统而言显著提高希望的语音的SNR。这里描述的实施例在工作上稳定,在虚拟麦克风模式选择方面灵活,并且在语音源到阵列的距离和取向以及温度和校准技术方面已被证明具有鲁棒性。
在下面的描述中,引入许多具体细节以提供对DOMA的实施例的透彻理解和实现性描述。然而,本领域技术人员应认识到,不利用这些具体细节中的一个或多个或利用其它部件、系统等,也可以实践这些实施例。在其它情况下,不示出或详细描述公知结构或操作以免使所公开的实施例的各方面难以理解。
除非另外指明,以下术语除了它们可以向本领域技术人员传达的任何含义或理解之外还具有以下含义。
术语“串扰(bleedthrough)”意味着在语音期间不希望地存在噪声。
术语“去噪”意指去除来自Mic1的不希望的噪声,并且还意指信号中的噪声能量的减小量(dB)。
术语“去声”意指去除来自Mic1的希望的语音/使来自Mic1的希望的语音失真。
术语“方向性麦克风(DM)”意指在感测膜片的两个侧面上开孔的方向性物理麦克风。
术语“Mic1(M1)”意指通常包含的语音大于噪声的自适应噪声抑制系统麦克风的统称。
术语“Mic2(M2)”意指通常包含的噪声大于语音的自适应噪声抑制系统麦克风的统称。
术语“噪声”意指不希望的环境声学噪声。
术语“零点”意指方向性物理或虚拟麦克风的空间响应中的零或最小值。
术语“O1”意指被用来形成麦克风阵列的第一全向性物理麦克风。
术语“O2”意指被用来形成麦克风阵列的第二全向性物理麦克风。
术语“语音”意指希望的用户语音。
术语“皮肤表面麦克风(SSM)”是在耳机(例如可从加利福尼亚州旧金山的Aliph得到的Jawbone耳机)中被用来检测用户皮肤上的语音振动的麦克风。
术语“V1”意指无零点的方向性虚拟“语音”麦克风。
术语“V2”意指具有用户语音的零点的方向性虚拟“噪声”麦克风。
术语“语声活动检测(VAD)信号”意指表明用户语音何时被检测到的信号。
术语“虚拟麦克风(VM)”或“方向性虚拟麦克风”意指使用两个或更多全向性麦克风和相关联的信号处理来构造出的麦克风。
图1是根据一个实施例的双麦克风自适应噪声抑制系统100。包括物理麦克风MIC 1和MIC 2的组合以及与麦克风耦合的处理或电路部件(在下文中详细描述、但是未在图1中示出)的双麦克风系统100在这里称为全向性双麦克风阵列(DOMA)110,但是实施例不限于此。参照图1,在分析单个噪声源101和通向麦克风的直接路径时,进入MIC 1(102,其可以是物理或虚拟麦克风)的总声学信息由m1(n)表示。进入MIC 2(103,其也可以是物理或虚拟麦克风)的总声学信息类似地标记为m2(n)。在z(数字频率)域中,它们被表示为M1(z)和M2(z)。于是:
M1(z)=S(z)+N2(z)
M2(z)=N(z)+S2(z)
其中:
N2(z)=N(z)H1(z)
S2(z)=S(z)H2(z),
从而:
M1(z)=S(z)+N(z)H1(z)
M2(z)=N(z)+S(z)H2(z)              等式1
这是所有双麦克风系统的一般情形。等式1具有四个未知量而仅有两个已知关系,因此不能显式地求解。
然而,存在另一种求解等式1中的一些未知量的方法。从考察不生成语音(即,来自VAD子系统104(任选)的信号等于零)的情形开始进行分析。在该情形下,s(n)=S(z)=0,等式1简化为:
M1N(z)=N(z)H1(z)
M2N(z)=N(z),
其中M变量的N下标表明仅接收噪声。这得到:
M1N(z)=M2N(z)H1(z)
H1(z)=M1N(z)M2N(z).等式2
可以使用任何可用的系统识别算法来计算函数H1(z),且麦克风在系统确信仅接收噪声时进行输出。可以自适应地完成计算,从而系统可以对噪声的变化作出反应。
现在可以得到作为等式1中的未知量之一的H1(z)的解。可以通过利用产生语音且VAD等于1的情况来确定最后的未知量H2(z)。当出现该情况、但是麦克风的近期(可能少于1秒)历史显示低的噪声平时,可以假设n(s)=N(z)~0。于是等式1简化为:
M1S(z)=S(z)
M2S(z)=S(z)H2(z),
这又得到:
M2S(z)=M1S(z)H2(z)
H2(z)=M2S(z)M1S(z),
这是H1(z)计算的逆。然而,要注意使用不同的输入(现在仅出现语音而之前仅出现噪声)。在计算H2(z)之时,为H1(z)计算的值保持恒定(反之亦然),并且假设噪声水平不足够高以致于不能造成H2(z)计算的误差。
在计算H1(z)和H2(z)之后,使用它们去除信号中的噪声。如果将等式1改写为:
S(z)=M1(z)-N(z)H1(z)
N(z)=M2(z)-S(z)H2(z)
S(z)=M1(z)-[M2(z)-S(z)H2(z)]H1(z)
S(z)[1-H2(z)H1(z)=M1(z)-M2(z)H1(z),
则可以如所示那样代换N(z)以求解S(z)为:
S(z)=M1(z)-M2(z)H1(z)1-H1(z)H2(z)等式3
如果可以足够准确地描述传递函数H1(z)和H2(z),则可以完全去除噪声并且恢复原始信号。无论噪声的幅度或频谱特性如何都是这样。如果从语音源到M2中只有很少的泄漏或无泄漏,则H2(z)≈0,等式3简化为:
S(z)≈M1(z)-M2(z)H1(z)               等式4
等式4实施起来容易得多并且是很稳定的(假设H1(z)是稳定的)。然而,如果相当大的语音能量在M2(z)中,则可能发生去声。为了构造性能良好的系统并且使用等式4,考虑以下条件:
R1.在有噪声的条件下得到完美(或至少很好)的VAD的可能性
R2.足够准确的H1(z)
R3.很小(理想为零)的H2(z)。
R4.在语音产生期间,H1(z)不能很大程度地改变。
R5.在噪声期间,H2(z)不能很大程度地改变。
如果希望的语音与不希望的噪声的SNR足够高,则条件R1容易满足。“足够”取决于VAD生成方法而含义不同。如果如Burnett 7,256,048中那样使用VAD振动传感器,则在很低SNR(-10dB或更小)下就可以有准确的VAD。使用来自O1和O2的信息的仅涉及声学的方法也可以返回准确的VAD,但是限于~3dB或更大的SNR以求足够的性能。
条件R5通常容易满足,因为对于大多数应用而言,麦克风不会相对于用户的嘴部很频繁地或迅速地改变位置。在可能发生这种位置改变的那些应用(如免提会议系统)中,其可通过配置Mic2使得H2(z)≈0来满足。
满足条件R2、R3和R4更困难,但是在正确地组合V1和V2的情况下是可能的。下面考察已被证明能有效地满足上述条件从而在一个实施例中获得优良的噪声抑制性能以及最小的语音去除和失真的方法。
在各实施例中,DOMA可以与作为自适应滤波系统或噪声去除的Pathfinder系统一起使用。可从加州旧金山的AliphCom得到的Pathfinder系统在这里引用的其它专利和专利申请中予以详细描述。可替选地,在一个或多个各可替选实施例或配置中,任何自适应滤波或噪声去除算法可以与DOMA一起使用。
当DOMA与Pathfinder系统一起使用时,Pathfinder系统一般通过滤波并在时域中求和来组合两个麦克风信号(例如Mic1、Mic2)从而提供自适应噪声消除。自适应滤波器一般使用从DOMA的第一麦克风接收到的信号来去除从DOMA的至少一个其它麦克风接收到的语音中的噪声,这依赖于这两个麦克风之间的缓变线性传递函数来得到噪声源。如下面具体所述,在处理DOMA的两个信道之后,生成其中噪声内容相对于语音内容被衰减的输出信号
图2是根据一个实施例的包括阵列201/202和语音源S配置的一般化双麦克风阵列(DOMA)。图3是根据一个实施例的使用两个全向性单元O1和O2来生成或产生一阶梯度麦克风V的系统300。一个实施例的阵列包括相隔距离2d0放置的两个物理麦克风201和202(例如全向性麦克风),且语音源200位于距离为ds、角度为θ的位置。该阵列是轴对称的(至少在自由空间中),因而无需其它角度。如图3中所示,可以将来自麦克风201和202的输出分别延迟(z1和z2)、分别与增益(A1和A2)相乘、然后求和。如下面具体所述,阵列的输出是至少一个虚拟麦克风或形成至少一个虚拟麦克风。可以在希望的任何频率范围内进行此操作。通过改变延迟和增益的量值和符号,可以实现各种各样的虚拟麦克风(VM)(这里亦称为方向性虚拟麦克风)。尽管本领域技术人员还知道用于构造VM的其它方法,但是这是一种常用方法,并且将在下面的实现中加以使用。
作为一个例子,图4是根据一个实施例的DOMA400的框图,DOMA400包括配置成形成两个虚拟麦克风V1和V2的两个物理麦克风。该DOMA包括根据一个实施例的使用两个麦克风或单元O1和O2(201和202)的输出来形成的两个一阶梯度麦克风V1和V2。如上文参照图2和图3所述,一个实施例的DOMA包括作为全向性麦克风的两个物理麦克风201和202。来自各麦克风的输出耦合到处理部件402或电路,处理部件输出代表或对应于虚拟麦克风V1和V2的信号。
在该示例系统400中,物理麦克风201的输出耦合到处理部件402,处理部件402包括第一处理路径(其包括第一延迟z11和第一增益A11的施加)和第二处理路径(其包括第二延迟z12和第二增益A12的施加)。物理麦克风202的输出耦合到处理部件402的第三处理路径(其包括第三延迟z21和第三增益A21的施加)和第四处理路径(其包括第四延迟z22和第四增益A22的施加)。对第一和第三处理路径的输出求和以形成虚拟麦克风V1,并且对第二和第四处理路径的输出求和以形成虚拟麦克风V2。
如下文具体所述,改变处理路径的延迟和增益的量值和符号可以实现各种各样的虚拟麦克风(VM)(这里亦称为方向性虚拟麦克风)。尽管本例子中描述的处理部件402包括生成两个虚拟麦克风或麦克风信号的四个处理路径,但是实施例不限于此。例如,图5是根据一个实施例的DOMA500的框图,DOMA 500包括配置成形成N个虚拟麦克风V1至VN的两个物理麦克风,其中N是大于1的任何数。因此,DOMA可以包括处理部件502,处理部件500具有适合于形成N个虚拟麦克风的任何数目的处理路径。
一个实施例的DOMA可以耦合或连接到一个或多个远程设备。在一个系统配置中,DOMA向远程设备输出信号。远程设备包括但不限于蜂窝电话、卫星电话、便携电话、有线电话、因特网电话、无线收发器、无线通信电台、个人数字助理(PDA)、个人计算机(PC)、头戴送受话器设备、头戴设备和耳机中的至少一种。
另外,一个实施例的DOMA可以是与主机设备集成的部件或子系统。在该系统配置中,DOMA向主机设备的部件或子系统输出信号。主机设备包括但不限于蜂窝电话、卫星电话、便携电话、有线电话、因特网电话、无线收发器、无线通信电台、个人数字助理(PDA)、个人计算机(PC)、头戴送受话器设备、头戴设备和耳机中的至少一种。
作为一个例子,图6是根据一个实施例的包括这里所述DOMA的头戴送受话器或头戴设备600的一个例子。一个实施例的头戴送受话器600包括外壳,该外壳具有接受并保持两个麦克风(例如O1和O2)的两个区域或接受器(未示出)。头戴送受话器600一般是可以由发言者602佩戴的设备,例如将麦克风定位或保持在发言者嘴部附近的头戴送受话器或耳机。一个实施例的头戴送受话器600将第一物理麦克风(例如物理麦克风O1)放置于发言者唇部附近。第二物理麦克风(例如物理麦克风O2)被放置在第一物理麦克风之后的一距离处。一个实施例的该距离处于如这里所述的(例如参照图1-5所述的)或第一物理麦克风之后几厘米的范围内。DOMA是对称的,并且以与单个近距离麦克风相同的配置或方式加以使用,但是不限于此。
图7是根据一个实施例的使用DOMA来为声学信号去噪700的流程图。去噪700始于在第一物理麦克风和第二物理麦克风处接收(702)声学信号。响应于声学信号,从第一物理麦克风输出第一麦克风信号,并且从第二物理麦克风输出第二麦克风信号(704)。通过生成第一麦克风信号与第二麦克风信号的第一组合来形成(706)的第一虚拟麦克风。通过生成第一麦克风信号与第二麦克风信号的第二组合来形成(708)第二虚拟麦克风,且第二组合不同于第一组合。第一虚拟麦克风和第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的响应很大程度上不相似的不同的方向性虚拟麦克风。去噪(700)通过组合来自第一虚拟麦克风和第二虚拟麦克风的信号来生成(710)输出信号,且输出信号包括比声学信号小的声学噪声。
图8是根据一个实施例的形成(800)DOMA的流程图。DOMA的形成(800)包括形成(802)包括第一物理麦克风和第二物理麦克风的物理麦克风阵列。第一物理麦克风输出第一麦克风信号,而第二物理麦克风输出第二麦克风信号。形成(804)包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列。第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合。第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,且第二组合不同于第一组合。虚拟麦克风阵列包括处于朝着人类发言者的语音源的方向上的单个零点。
一个实施例的自适应噪声抑制系统的VM构造包括V1和V2中很大程度上相似的噪声响应。这里使用的很大程度上相似的噪声响应意味着H1(z)易于建模并且在语音期间不会改变很多,从而满足上述条件R2和R4并且允许强的去噪和最小化的串扰。
一个实施例的自适应噪声抑制系统的VM构造包括V2的相对小的语音响应。V2的相对小的语音响应意味着H2(z)≈0,这将满足上述条件R3和R5。
一个实施例的自适应噪声抑制系统的VM构造还包括V1的足够语音响应,使得去除噪声后的语音将具有比O1所捕获的原始语音显著更高的SNR。
以下描述假设全向性麦克风O1和O2对同一声学源的响应已被归一化,从而它们具有对该源的完全相同的响应(幅度和相位)。这可使用本领域技术人员公知的标准麦克风阵列方法(比如基于频率的校准)来实现。
参照一个实施例的自适应噪声抑制系统的VM构造包括V2的相对小的语音响应这一条件,可以看出对于离散系统而言可以将V2(z)表示为:
V2(z)=O2(z)-z-γβO1(z)
其中:
β=d1d2
γ=d2-d1cfs(样本)
d1=ds2-2dsd0cos(θ)+d02
d2=ds2+2dsd0cos(θ)+d02
距离d1和d2分别是从O1和O2到语音源的距离(见图2),γ是它们的差值除以声速c并与采样频率fs相乘。因此,γ以样本为单位而无需为整数。对于非整数γ,可以使用分数延迟滤波器(为本领域技术人员所公知)。
重要的是注意上面的β不是被用来表示自适应波束形成中的VM混合的常规β,而是视麦克风内距离d0(固定)以及可变的距离ds和角度θ而定的系统物理变量。如下文所示,对于经恰当校准的麦克风,没有必要用阵列的准确β对系统进行编程。已使用了实际β的约10-15%的误差(即,该算法所用的β不是物理阵列的β),结果质量下降很少。β的算法值可以针对具体用户计算和设置,或者可以在语音产生期间、当存在很小噪声或无噪声时自适应地计算。然而,使用期间的自适应不是标称性能所要求的。
图9是根据一个实施例的β=0.8的虚拟麦克风V2对0.1m距离处的1kHz语音源的线性响应的曲线图。虚拟麦克风V2对语音的线性响应中的零点位于语音通常被预期位于的0度。图10是根据一个实施例的β=0.8的虚拟麦克风V2对1.0cm距离处的1kHz噪声源的线性响应的曲线图。V2对噪声的线性响应没有或者不包括零点,这意味着所有噪声源都被检测到。
V2(z)的上述公式表示在语音位置具有零点并且因此将表现出对语音的最小响应。在图9中针对d0=10.7mm的阵列和在阵列轴上(θ=0)10cm处(β=0.8)的语音源示出了这一情形。注意到零度处的语音零点对于同一个麦克风的远场中的噪声而言不存在,如图10中对于约1米的噪声源距离所示。这确保了用户前面的噪声将被检测到从而可被去除。这不同于可能难以去除用户嘴部方向上的噪声的常规系统。
可以使用V1(z)的一般形式来表示V1(z):
V1(z)=αAO1(z)z-dA-αBO2(z)z-dB
由于:
V2(z)=O2(z)-z-γβO1(z)
且由于对于前向上的噪声而言:
O2N(z)=O1N(z)z-γ
于是:
V2N(z)=O1N(z)z-γ-z-γβO1N(z)
V2N(z)=(1-β)(O1N(z)z-γ)
如果将这设定为等于上面的V1(z),则结果为:
V1N(z)=αAO1N(z)z-dA-αBO1N(z)z-γz-dB=(1-β)(O1N(z)z-γ)
因此我们可以设定:
dA=γ
dB=0
αA=1
αB=β
从而得到:
V1(z)=O1(z)z-γ-βO2(z)
上面的V1和V2的定义意味着对于噪声而言,H1(z)为:
H1(z)=V1(z)V2(z)=-βO2(z)+O1(z)z-γO2(z)-z-γβO1(z)
如果幅度噪声响应大致相同,则上式具有全通滤波器的形式。这具有如下优点:尤其是在量值响应中容易且准确地被建模,从而满足R2。
此公式表示确保了噪声响应将尽可能相似并且语音响应将与(1-β2)成比例。由于β是从O1和O2到语音源的距离之比,所以它受到阵列大小和从阵列到语音源的距离的影响。
图11是根据一个实施例的β=0.8的虚拟麦克风V1对0.1m距离处的1kHz语音源的线性响应的曲线图。虚拟麦克风V1对语音的线性响应没有或者不包括零点,且语音响应大于图4中所示的语音响应。
图12是根据一个实施例的β=0.8的虚拟麦克风V1对1.0m距离处的1kHz噪声源的线性响应的曲线图。虚拟麦克风V1对噪声的线性响应没有或者不包括零点,且响应与图5中所示的V2很相似。
图13是根据一个实施例的对于频率100、500、1000、2000、3000和4000Hz而言的β=0.8的虚拟麦克风V1对0.1m距离处的语音源的线性响应的曲线图。图14是示出了一个实施例的阵列的语音频率响应与常规心形麦克风的语音频率响应的比较的曲线图。
图11示出了V1对语音的响应,图12示出了V1对噪声的响应。注意到与图9中所示V2的语音响应的差异以及与图10中所示的噪声响应的相似性。还注意到图11中所示V1的语音响应的取向与常规系统的取向(其中响应的主瓣通常朝着语音源)完全相反。一个实施例的取向(其中V1的语音响应的主瓣背离语音源)意味着V1的语音灵敏度低于普通的方向性麦克风,但是对于阵列轴的约+-30度内的所有频率而言是平坦的,如图13中所示。语音响应的该平坦性意味着不需要用整形后置滤波器来恢复全向性频率响应。这是需要付出一定代价的,如图14中所示,图14示出了β=0.8的V1的语音响应和心形麦克风的语音响应。对于约16000Hz的采样频率,V1的语音响应在约500Hz到7500Hz之间比普通的方向性麦克风小约0至~13dB,而在约500Hz以下和7500Hz以上比方向性麦克风大约0至10+dB。然而,使用本系统所能实现的优良噪声抑制完全弥补了起初较差的SNR。
应当注意,图9-12假设语音位于约0度、约10cm且β=0.8处;而噪声在所有角度上均位于距阵列中点约1.0米的位置。一般而言,噪声距离无需为1m或更大,但是去噪对于这些距离是最佳的。对于小于约1m的距离,由于V1和V2的噪声响应中的更大不相似性,去噪不会同样有效。这并未被证明在实际应用中是个障碍——事实上,它可以看作一个特点。很可能希望捕捉并发送与耳机相距~10cm的任何“噪声”源。
V2的语音零点意味着VAD信号不再是关键要素。VAD的目的在于:确保系统不会在语音上训练然后去除语音从而造成语音失真。然而,如果V2不含语音,则自适应系统不能在语音上训练并去除语音。结果,系统可以一直去噪而无去声之忧,然后所得干净音频可以用来生成供后续单信道噪声抑制算法如频谱相减中使用的VAD信号。此外,对H1(z)的绝对值的约束(即,将它限制于小于2的绝对值)即使在语音被检测到时也能防止系统在语音上充分地训练。尽管如此,实际上,语音可能由于错误定位的V2零点和/或回声或其它现象而存在,推荐VAD传感器或其它仅涉及声学的VAD来使得语音失真最小化。
取决于应用,可以在噪声抑制算法中固定β和γ,或者可以在算法表明很少有噪声或无噪声地发生语音产生的情况下估计β和γ。在任一情形下,系统的实际β和γ的估计可能存在误差。下面的描述考察这些误差以及它们对系统性能的影响。如上所述,系统的“良好性能”表明存在足够的去噪和最小的去声。
通过考察上面的定义,可以看出不正确的β和γ对V1和V2的响应的影响:
V1(z)=O1(z)z-γT-βTO2(z)
V2(z)=O2(z)-z-γTβTO1(z)
其中βT和γT表示在噪声抑制算法中使用的β和γ的理论估计。实际上,O2的语音响应为:
O2S(z)=βRO1S(z)z-γR
其中βR和γR表示物理系统的实际β和γ。β和γ的理论值与实际值之间的差异可能归因于语音源的错误定位(它不在它被设想位于的位置)和/或空气温度的改变(其改变了声速)。将O2的实际语音响应代入V1和V2的上述等式中得到:

V2S(z)=O1S(z)[βRz-γR-βTz-γT]
如果相位差由下式表示:
γR=γT+γD
且幅度差表示为:
βR=BβT
则:

V2S(z)=βTO1S(z)z-γT[Bz-γD-1]等式5
V2中的语音消除(其直接影响去声的程度)和V1的语音响应将取决于B和D二者。下面考察其中D=0的情形。图15是示出了根据一个实施例的在假设ds为0.1m时V1(上部虚线)和V2(下部实线)的语音响应与B之间的关系的曲线图。该曲线图示出了V2中的空间零点相对宽。图16是根据一个实施例的图10中所示语音响应之比V1/V2与B之间的关系的曲线图。比值V1/V2对于所有0.8<B<1.1而言在10dB以上,这意味着无需对系统的物理β准确建模来得到良好的性能。图17是根据一个实施例的在假设ds=10cm且θ=0时B与实际ds之间的关系的曲线图。图18是根据一个实施例的在ds=10cm且假设ds=10cm时B与θ之间的关系的曲线图。
在图15中,示出了在假设ds约为10cm且θ=0时与O1相比较的V1(上部虚线)和V2(下部实线)的语音响应与B之间的关系。当B=1时,V2中没有语音。在图16中,示出了图10中的语音响应的比值。当0.8<B<1.1时,比值V1/V2在约10dB以上——这对于良好的性能是足够的。显然,如果D=0,则B可以显著变化而不对系统性能产生负面影响。同样,这假设了已进行了麦克风的校准从而它们的幅度和相位响应对于同一个源是相同的。
出于多种原因,B因子可能不是1。距语音源的距离和/或阵列轴与语音源的相对取向可能与所预期的不同。对于B,如果计入距离和角度失配,则:
B=βRβTdSR2-2dSRd0cos(θR)+d02dSR2+2dSRd0cos(θR)+d02dST2+2dSTd0cos(θT)+d02dST2-2dSTd0cos(θT)+d02
其中T下标仍表示理论化值而R表示实际值。在图17中,在假设ds=10cm且θ=0时描绘了因子B与实际ds之间的关系。因而,如果语音源在阵列轴上,则实际距离可以在约5cm到18cm之间变化而不显著影响性能——相当大的量。类似地,图18示出了当语音源位于约10cm的距离处但是不在阵列轴上时的情形。在该情形下,角度可以在约+-55度的范围内变化并且仍然导致B小于1.1,从而确保良好的性能。这是可允许的角度偏差的相当大的量。如果角度和距离误差都存在,则上面的等式可以用来确定这些偏差是否将导致足够的性能。当然,如果允许在语音期间更新βT的值从而实质上跟踪语音源,则B可以对于几乎所有配置而言保持在1附近。
下面考察其中B为1、但是D不为零的情形。该情形可能在语音源不在它被料想位于的位置或者声速不同于预期速度时发生。从上面的等式5可以看出,使得对于语音而言的V2中的语音零点变弱的因子是:
N(z)=Bz-γD-1
或在连续s域中:
N(s)=Be-Ds-1
由于γ是语音到达V1与语音到达V2之间的时间差,所以在估计语音源相对于阵列轴的角度位置时和/或由于温度变化,γ可能会有误差。考察温度灵敏度,声速随温度变化为:
c=3313+(0606T)m/s
其中T为摄氏度。随着温度下降,声速也下降。将20℃设定为设计温度并将最大预期温度范围设定为-40℃至+60℃(-40F至140F)。在20℃的设计声速为343m/s,最慢声速将在-40℃,为307m/s,而最快声速在60℃,为362m/s。将阵列长度(2d0)设定为21mm。对于在阵列轴上的语音源,对于声速的最大变化而言的行进时间差为:
tMAX=dc1-dc2=0021m(1343m/s-1307m/s)=-72×10-6秒或约7微秒。图19示出了在B=1且D=7.2微秒时N(s)的响应。图19是根据一个实施例的在B=1且D=-7.2微秒时N(s)的幅度(上部)和相位(下部)响应的曲线图。所得相位差对高频的影响显然大于对低频的影响。幅度响应对于小于7kHz的所有频率而言小于约-10dB,而在8kHz处仅为约-9dB。因此,假设B=1,则此系统在最高达约8kHz的频率处很可能将表现良好。这意味着经恰当补偿的系统甚至在8kHz、在异常宽(例如-40℃至80℃)的温度范围内将表现良好。注意到因延迟估计误差而引起的相位失配造成高频处的N(s)比低频处的N(s)大得多。
如果B不为1,则系统的鲁棒性降低,因为非一B的影响与非零D的影响相累积。图20示出了对于B=1.2且D=7.2微秒而言的幅度和相位响应。图20是根据一个实施例的在B=1.2且D=-7.2微秒时N(s)的幅度(上部)和相位(下部)响应的曲线图。不为1的B影响整个频率范围。现在N(s)仅对于小于约5kHz的频率而言在约-10dB以下,而低频处的响应大得多。这样的系统在5kHz以下仍将表现良好,并且对于5kHz以上的频率而言只会造成略微升高的去声。为了得到最佳性能,可以将温度传感器集成到系统中以允许算法随着温度变化而调整γT。
其中D可不为零的另一情形是当语音源不处在它被料想位于的位置时——具体而言,阵列轴与语音源之间的角度不正确。与语音源的距离也可能不正确,但是这在B中而不是在D中引入误差。
参照图2,可以看出,对于两个语音源(各自具有自己的ds和θ)而言,语音到达O1与到达O2之间的时间差为:
Δt=1c(d12-d11-d22+d21)
其中:
d11=dS12-2dS1d0cos(θ1)+d02
d12=dS12+2dS1d0cos(θ1)+d02
d21=dS22-2dS2d0cos(θ2)+d02
d22=dS22+2dS2d0cos(θ2)+d02
图21示出了在θ1=0度且θ2=30度并且假设B=1时的V2语音消除响应。图21是根据一个实施例的在θ1=0度且θ2=30度时语音源定位错误对V2中的语音消除的影响即幅度(上部)和相位(下部)响应的曲线图。注意到该消除对于6kHz以下的频率而言仍然在-10dB以下。该消除对于约6kHz以下的频率而言仍然在约-10dB以下,因而此类型的误差不会显著影响系统的性能。然而,如图22所示,如果θ2增大到约45度,则该消除仅对于约2.8kHz以下的频率而言在约-10dB以下。图22是根据一个实施例的在θ1=0度且θ2=45度时语音源定位错误对V2中的语音消除的影响即幅度(上部)和相位(下部)响应的曲线图。现在该消除仅对于约2.8kHz以下的频率而言在-10dB以下,并且预期性能会降低。在约4kHz以上的不良V2语音消除对于这些频率而言可能造成显著去声。
以上描述已假设麦克风O1和O2被校准从而它们对相同距离处的源的响应就幅度和相位而言均相同。这并非总是可行的,因此下面提供一种更实用的校准过程。它并非同样准确,但是实施起来简单得多。首先,定义滤波器α(z)使得:
O1C(z)=α(z)O2C(z)
其中“C”下标表示使用已知校准源。使用起来最简单的校准源是用户的语音。于是:
O1S(z)=α(z)O2C(z)
现在,麦克风定义是:
V1(z)=O1(z)z-γ-β(z)α(z)O2(z)
V2(z)=α(z)O2(z)-z-γβ(z)O1(z)
系统的β应当固定并且尽可能接近实际值。在实践中,系统对β的变化不敏感,约+-5%的误差容易被容忍。在用户产生语音但只有很少噪声或无噪声的时间内,系统可以训练α(z)从而去除尽可能多的语音。这是通过以下方式实现的:
1.构造如图1所示的自适应系统,其中βO1S(z)z-γ在“MIC1”位置,O2S(z)在“MIC2”位置,α(z)在H1(z)位置。
2.在语音期间,适应性调整α(z)以使得系统的残留物最小化。
3.如上面那样构造V1(z)和V2(z)。
可以针对α(z)使用简单的自适应滤波器,使得只有麦克风之间的关系被良好地建模。一个实施例的系统仅当用户产生语音时进行训练。传感器如SSM非常适合于确定何时无噪声地产生语音。如果语音源位置固定并且在使用期间不会显著变化(比如当阵列在耳机上时),则该适应性调整的更新应当是不频繁且缓慢的,以使得训练期间存在的噪声所引入的任何误差最小化。
上面的公式表示是很适用的,因为V1和V2的噪声(远场)响应很相似而语音(近场)响应很不同。然而,V1和V2的公式表示可以加以变化而仍然获得整体系统的良好性能。如果从上面取用V1和V2的定义并代入新的变量B1和B2,则结果为:
V1(z)=O1(z)z-γT-B1βTO2(z)
V2(z)=O2(z)-z-γTB2βTO1(z)
其中B1和B2均为正数或零。如果将B1和B2设定为等于1,则如上所述那样得到最优系统。如果允许B1不同于1,则V1的响应受影响。下面考察其中B2保持为1而B1减小的情形。随着B1降至零附近,V1的方向性变得越来越小,直到当B1=0时V1变成简单的全向性麦克风。由于B2=1,所以V2中仍然有语音零点,因而V1和V2仍然有很不同的语音响应。然而,噪声响应的相似性小得多,因而去噪不会同样有效。尽管如此,实际上,系统仍然表现良好。B1也可以大于1,同样,系统仍将良好地去噪,只是不如B1=1时那样好。
如果允许B2变化,则V2中的语音零点受影响。只要语音零点仍然足够深,系统就仍将表现良好。实际上,下至约B2=0.6的值已展示出足够的性能,但是推荐将B2设定为接近1以求最优性能。
类似地,可以引入变量ε和Δ,使得:
V1(z)=(ε-β)O2N(z)+(1+Δ)O1N(z)z-γ
V2(z)=(1+Δ)O2N(z)+(ε-β)O1N(z)z-γ
该公式表示也允许虚拟麦克风响应变化,但是保持H1(z)的全通特性。
总之,系统足够灵活以致于能在各种各样的B1值下表现良好,但是B2值应当接近1以限制去声以求最佳性能。
图23示出了在很响亮(~85dBA)的音乐/语音噪声环境下对Bruel和Kjaer头部和躯干仿真器(HATS)使用0.83的线性β和都等于1的B1和B2的2d0=19mm阵列的实验结果。使用上面讨论的替代麦克风校准技术来校正麦克风。噪声降低了约25dB,且语音几乎不受影响,无明显失真。显然,该技术显著提高了原始语音的SNR,从而远胜于常规噪声抑制技术。
DOMA可以是单个系统、多个系统和/或地理上分开的系统的部件。DOMA还可以是单个系统、多个系统和/或地理上分开的系统的子部件或子系统。DOMA可以耦合到主机系统或与主机系统耦合的系统的一个或多个其它部件(未示出)。
DOMA和/或与DOMA耦合或连接的相应系统或应用的一个或多个部件包括处理系统和/或在处理系统下运行和/或结合处理系统来运行。处理系统包括处理系统或设备的部件、或在一起工作的基于处理器的设备或计算设备的任何集合,这在本领域中是已知的。例如,处理系统可以包括便携计算机、在通信网络中工作的便携通信设备和/或网络服务器中的一个或多个。便携计算机可以是从个人计算机、蜂窝计算机、个人数字助理、便携计算设备和便携通信设备之中选择的多个设备和/或设备组合中的任一种,但是不限于此。处理系统可以包括更大计算机系统内的部件。
一个实施例的处理系统包括至少一个处理器和至少一个存储器件或子系统。处理系统还可以包括或耦合到至少一个数据库。这里广泛使用的术语“处理器”是指任何逻辑处理单元,比如一个或多个中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)等。处理器和存储器可以单片地集成到单个芯片上、分布于多个芯片或部件之间和/或通过多个算法的某种组合来提供。这里描述的方法可以用软件算法、程序、固件硬件、部件、电路中的一个或多个、按任何组合加以实施。
包括DOMA的任何系统的部件可以聚在一起或位于分开的位置。通信路径耦合这些部件,并且包括用于在部件之间传达或传送文件的任何介质。通信路径包括无线连接、有线连接和混合无线/有线连接。通信路径还包括与如下网络的耦合或连接,这些网络包括局域网(LAN)、城域网(MAN)、广域网(WAN)、专用网、办公室间或后端网络和因特网。另外,通信路径包括可拆卸的固定介质如软盘硬盘驱动器和CD-ROM盘以及闪速RAM、通用串行总线(USB)连接、RS-232连接、电话线、总线和电子邮件消息。
这里描述的DOMA的实施例包括一种麦克风阵列,该麦克风阵列包括:第一虚拟麦克风,包括第一麦克风信号与第二麦克风信号的第一组合,其中第一麦克风信号由第一物理麦克风生成,而第二麦克风信号由第二物理麦克风生成;以及第二虚拟麦克风,包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的响应很大程度上不相似的不同的方向性虚拟麦克风。
一个实施例的第一和第二物理麦克风是全向性的。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中该语音是人类语音。
一个实施例的第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应包括处于朝着语音源的方向上的单个零点。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第一物理麦克风和第二物理麦克风沿着轴定位并且分隔开第一距离。
一个实施例的轴的中点与生成语音的语音源相距第二距离,其中语音源位于由相对于中点的一角度限定的方向上。
一个实施例的第一虚拟麦克风包括用第一麦克风信号减去第二麦克风信号而得到的结果。
一个实施例的第一麦克风信号被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的延迟被升高到如下幂,该幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第二麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号而得到的结果。
一个实施例的第一麦克风信号被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第一麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比。
一个实施例的单个零点位于与第一物理麦克风和第二物理麦克风中的至少一个相距一距离的位置,语音源被预期处于该位置。
一个实施例的第一虚拟麦克风包括用第一麦克风信号的延迟版本减去第二麦克风信号而得到的结果。
一个实施例的第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号的延迟版本而得到的结果。
这里描述的DOMA的实施例包括一种麦克风阵列,该麦克风阵列包括:第一虚拟麦克风,由第一麦克风信号与第二麦克风信号的第一组合形成,其中第一麦克风信号由第一全向性麦克风生成,而第二麦克风信号由第二全向性麦克风生成;以及第二虚拟麦克风,由第一麦克风信号与第二麦克风信号的第二组合形成,其中第二组合不同于第一组合;其中第一虚拟麦克风具有无零点的对语音的第一线性响应,其中第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应具有处于朝着语音源的方向上的单个零点,其中该语音是人类语音。
一个实施例的第一虚拟麦克风和第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
这里描述的DOMA的实施例包括一种设备,该设备包括:输出第一麦克风信号的第一麦克风和输出第二麦克风信号的第二麦克风;以及耦合到第一麦克风信号和第二麦克风信号的处理部件,该处理部件生成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列,其中第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,其中第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风具有对噪声的很大程度上相似的响应和对语音的很大程度上不相似的响应。
这里描述的DOMA的实施例包括一种设备,该设备包括:输出第一麦克风信号的第一麦克风和输出第二麦克风信号的第二麦克风,其中第一麦克风和第二麦克风是全向性麦克风;以及包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列,其中第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,其中第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是不同的方向性虚拟麦克风。
这里描述的DOMA的实施例包括一种设备,该设备包括:生成第一麦克风信号的第一物理麦克风;生成第二麦克风信号的第二物理麦克风;以及耦合到第一麦克风信号和第二麦克风信号的处理部件,该处理部件生成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列;其中第一虚拟麦克风包括用第一麦克风信号的延迟版本减去第二麦克风信号而得到的结果;其中第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号的延迟版本而得到的结果。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中该语音是人类语音。
一个实施例的第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应包括着处于朝着语音源的方向上的单个零点。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第一物理麦克风和第二物理麦克风沿着轴定位并且分隔开第一距离。
一个实施例的轴的中点与生成语音的语音源相距第二距离,其中语音源位于由相对于中点的一角度限定的方向上。
一个实施例的第一麦克风信号和第二麦克风信号中的一个或多个被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第一麦克风信号和第二麦克风信号中的一个或多个与增益因子相乘。
这里描述的DOMA的实施例包括一种传感器,该传感器包括:物理麦克风阵列,包括第一物理麦克风和第二物理麦克风,第一物理麦克风输出第一麦克风信号,而第二物理麦克风输出第二麦克风信号;虚拟麦克风阵列,包括第一虚拟麦克风和第二虚拟麦克风,第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合;虚拟麦克风阵列包括处于朝着人类发言者的语音源的方向上的单个零点。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中第二虚拟麦克风具有包括单个零点的对语音的第二线性响应。
一个实施例的第一虚拟麦克风和第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的对语音的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的单个零点位于与物理麦克风阵列相距一距离的位置,语音源被预期处于该位置。
这里描述的DOMA的实施例包括一种设备,该设备包括:包括至少一个扬声器的头戴送受话器,其中头戴送受话器附着到人类头部的区域;连接到头戴送受话器的麦克风阵列,该麦克风阵列包括输出第一麦克风信号的第一物理麦克风和输出第二麦克风信号的第二物理麦克风;以及处理部件,耦合到麦克风阵列并且生成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列,第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风具有对噪声的很大程度上相似的响应和对语音的很大程度上不相似的响应。
一个实施例的第一和第二物理麦克风是全向性的。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中该语音是人类语音。
一个实施例的第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应包括处于朝着语音源的方向上的单个零点。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第一物理麦克风和第二物理麦克风沿着轴定位并且分隔开第一距离。
一个实施例的轴的中点与生成语音的语音源相距第二距离,其中语音源位于由相对于中点的一角度限定的方向上。
一个实施例的第一虚拟麦克风包括用第一麦克风信号减去第二麦克风信号而得到的结果。
一个实施例的第一麦克风信号被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的延迟被升高到如下幂,该幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第二麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号而得到的结果。
一个实施例的第一麦克风信号被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第一麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比。
一个实施例的第一虚拟信号包括用第一麦克风信号的延迟版本减去第二麦克风信号而得到的结果。
一个实施例的第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号的延迟版本而得到的结果。
一个实施例的生成语音的语音源是佩戴头戴送受话器的人类的嘴部。
一个实施例的设备包括耦合到处理部件的语声活动检测器(VAD),VAD生成语声活动信号。
一个实施例的设备包括耦合到处理部件的自适应噪声去除应用,自适应噪声去除应用从第一和第二虚拟麦克风接收信号并生成输出信号,其中输出信号是去噪声学信号。
一个实施例的麦克风阵列接收包括声学语音和声学噪声的声学信号。
一个实施例的设备包括耦合到处理部件的通信信道,通信信道包括无线信道、有线信道和混合无线/有线信道中的至少一个。
一个实施例的设备包括经由通信信道耦合到头戴送受话器的通信设备,该通信设备包括蜂窝电话、卫星电话、便携电话、有线电话、因特网电话、无线收发器、无线通信电台、个人数字助理(PDA)和个人计算机(PC)中的一个或多个。
这里描述的DOMA的实施例包括一种设备,该设备包括:外壳;连接到外壳的扬声器;连接到外壳的第一物理麦克风和第二物理麦克风,第一物理麦克风输出第一麦克风信号,而第二物理麦克风输出第二麦克风信号,其中第一和第二物理麦克风是全向性的;第一虚拟麦克风,包括第一麦克风信号与第二麦克风信号的第一组合;以及第二虚拟麦克风,包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的噪声很大程度上不相似的不同的方向性虚拟麦克风。
这里描述的DOMA的实施例包括一种设备,该设备包括:包括扬声器的外壳,其中外壳是便携式的并且被配置用于附着到移动物体;以及连接到头戴送受话器的物理麦克风阵列,物理麦克风阵列包括形成虚拟麦克风阵列的第一物理麦克风和第二物理麦克风,虚拟麦克风阵列包括第一虚拟麦克风和第二虚拟麦克风;第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,其中第一麦克风信号由第一物理麦克风生成,而第二麦克风信号由第二物理麦克风生成;且第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合;其中第一虚拟麦克风具有无零点的对语音的第一线性响应,其中第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应具有处于朝着语音源的方向上的单个零点,其中该语音是人类语音。
一个实施例的第一虚拟麦克风和第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
这里描述的DOMA的实施例包括一种设备,该设备包括:附着到人类发言者区域的外壳;连接到外壳的扬声器;以及包括连接到外壳的第一物理麦克风和第二物理麦克风的物理麦克风阵列,其中第一物理麦克风输出第一麦克风信号,而第二物理麦克风输出第二麦克风信号,第一物理麦克风和第二物理麦克风组合形成虚拟麦克风阵列;虚拟麦克风阵列包括第一虚拟麦克风和第二虚拟麦克风,第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合;虚拟麦克风阵列包括处于朝着人类发言者的语音源的方向上的单个零点。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中第二虚拟麦克风具有包括单个零点的对语音的第二线性响应。
一个实施例的第一虚拟麦克风和第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的对语音的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的单个零点位于与物理麦克风阵列相距一距离的位置,语音源被预期处于该位置。
这里描述的DOMA的实施例包括一种系统,该系统包括:麦克风阵列,包括输出第一麦克风信号的第一物理麦克风和输出第二麦克风信号的第二物理麦克风;处理部件,耦合到麦克风阵列并且生成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列,第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风具有对噪声的很大程度上相似的响应和对语音的很大程度上不相似的响应;以及自适应噪声去除应用,耦合到处理部件并且通过形成从第一虚拟麦克风和第二虚拟麦克风输出的信号的多个组合来生成去噪输出信号,其中去噪输出信号包括比在麦克风阵列处接收到的声学信号小的声学噪声。
一个实施例的第一和第二物理麦克风是全向性的。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中该语音是人类语音。
一个实施例的第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应包括处于朝着语音源的方向上的单个零点。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第一物理麦克风和第二物理麦克风沿着轴定位并且分隔开第一距离。
一个实施例的轴的中点与生成语音的语音源相距第二距离,其中语音源位于由相对于中点的一角度限定的方向上。
一个实施例的第一虚拟麦克风包括用第一麦克风信号减去第二麦克风信号而得到的结果。
一个实施例的第一麦克风信号被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的延迟被升高到如下幂,该幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第二麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号而得到的结果。
一个实施例的第一麦克风信号被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第一麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比。
一个实施例的第一虚拟麦克风包括用第一麦克风信号的延迟版本减去第二麦克风信号而得到的结果。
一个实施例的第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号的延迟版本而得到的结果。
一个实施例的系统包括耦合到处理部件的语声活动检测器(VAD),VAD生成语声活动信号。
一个实施例的系统包括耦合到处理部件的通信信道,通信信道包括无线信道、有线信道和混合无线/有线信道中的至少一个。
一个实施例的系统包括经由通信信道耦合到处理部件的通信设备,该通信设备包括蜂窝电话、卫星电话、便携电话、有线电话、因特网电话、无线收发器、无线通信电台、个人数字助理(PDA)和个人计算机(PC)中的一个或多个。
这里描述的DOMA的实施例包括一种系统,该系统包括:第一虚拟麦克风,由第一麦克风信号与第二麦克风信号的第一组合形成,其中第一麦克风信号由第一物理麦克风生成,而第二麦克风信号由第二物理麦克风生成;第二虚拟麦克风,由第一麦克风信号与第二麦克风信号的第二组合形成,其中第二组合不同于第一组合;其中第一虚拟麦克风具有无零点的对语音的第一线性响应,其中第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应具有处于朝着语音源的方向上的单个零点,其中该语音是人类语音;自适应噪声去除应用,耦合到第一和第二虚拟麦克风并且通过形成从第一虚拟麦克风和第二虚拟麦克风输出的信号的多个组合来生成去噪输出信号,其中去噪输出信号包括比在第一和第二物理麦克风处接收到的声学信号小的声学噪声。
一个实施例的第一虚拟麦克风和第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
这里描述的DOMA的实施例包括一种系统,该系统包括:输出第一麦克风信号的第一麦克风和输出第二麦克风信号的第二麦克风,其中第一麦克风和第二麦克风是全向性麦克风;虚拟麦克风阵列,包括第一虚拟麦克风和第二虚拟麦克风,其中第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,其中第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是不同的方向性虚拟麦克风;以及自适应噪声去除应用,耦合到虚拟麦克风阵列并且通过形成从第一虚拟麦克风和第二虚拟麦克风输出的信号的多个组合来生成去噪输出信号,其中去噪输出信号包括比在第一麦克风和第二麦克风处接收到的声学信号小的声学噪声。
这里描述的DOMA的实施例包括一种系统,该系统包括:生成第一麦克风信号的第一物理麦克风;生成第二麦克风信号的第二物理麦克风;处理部件,耦合到第一麦克风信号和第二麦克风信号,该处理部件生成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列;并且其中第一虚拟麦克风包括用第一麦克风信号的延迟版本减去第二麦克风信号而得到的结果;其中第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号的延迟版本而得到的结果;自适应噪声去除应用,耦合到处理部件并且生成去噪输出信号,其中去噪输出信号包括比在第一物理麦克风和第二物理麦克风处接收到的声学信号小的声学噪声。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中该语音是人类语音。
一个实施例的第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应包括处于朝着语音源的方向上的单个零点。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第一物理麦克风和第二物理麦克风沿着轴定位并且分隔开第一距离。
一个实施例的轴的中点与生成语音的语音源相距第二距离,其中语音源位于由相对于中点的一角度限定的方向上。
一个实施例的第一麦克风信号和第二麦克风信号中的一个或多个被延迟。
一个实施例的延迟被升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的第一麦克风信号和第二麦克风信号中的一个或多个与增益因子相乘。
一个实施例的系统包括耦合到处理部件的语声活动检测器(VAD),VAD生成语声活动信号。
一个实施例的系统包括耦合到处理部件的通信信道,通信信道包括无线信道、有线信道和混合无线/有线信道中的至少一个。
一个实施例的系统包括经由通信信道耦合到处理部件的通信设备,该通信设备包括蜂窝电话、卫星电话、便携电话、有线电话、因特网电话、无线收发器、无线通信电台、个人数字助理(PDA)和个人计算机(PC)中的一个或多个。
这里描述的DOMA的实施例包括一种系统,该系统包括:物理麦克风阵列,包括第一物理麦克风和第二物理麦克风,第一物理麦克风输出第一麦克风信号,而第二物理麦克风输出第二麦克风信号;虚拟麦克风阵列,包括第一虚拟麦克风和第二虚拟麦克风,第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合;虚拟麦克风阵列包括处于朝着人类发言者的语音源的方向上的单个零点;以及自适应噪声去除应用,耦合到虚拟麦克风阵列并且通过形成从虚拟麦克风阵列输出的信号的多个组合来生成去噪输出信号,其中去噪输出信号包括比在物理麦克风阵列处接收到的声学信号小的声学噪声。
一个实施例的第一虚拟麦克风具有无零点的对语音的第一线性响应,其中一个实施例的第二虚拟麦克风具有包括单个零点的对语音的第二线性响应。
一个实施例的第一虚拟麦克风和第二虚拟麦克风具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的对语音的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的单个零点位于与物理麦克风阵列相距一距离的位置,语音源被预期处于该位置。
这里描述的DOMA的实施例包括一种系统,该系统包括:第一虚拟麦克风,包括第一麦克风信号与第二麦克风信号的第一组合,其中从第一物理麦克风输出第一麦克风信号,而从第二物理麦克风输出第二麦克风信号;第二虚拟麦克风,包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的响应很大程度上不相似的不同的方向性虚拟麦克风;以及耦合到第一和第二虚拟麦克风的处理部件,该处理部件包括从第一虚拟麦克风和第二虚拟麦克风接收声学信号并生成输出信号的自适应噪声去除应用,其中输出信号是去噪声学信号。
这里描述的DOMA的实施例包括一种方法,该方法包括:通过生成第一麦克风信号与第二麦克风信号的第一组合来形成第一虚拟麦克风,其中第一麦克风信号由第一物理麦克风生成,而第二麦克风信号由第二物理麦克风生成;并通过生成第一麦克风信号与第二麦克风信号的第二组合来形成第二虚拟麦克风,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的响应很大程度上不相似的不同的方向性虚拟麦克风。
形成一个实施例的第一虚拟麦克风包括:形成第一虚拟麦克风使之具有无零点的对语音的第一线性响应,其中该语音是人类语音。
形成一个实施例的第二虚拟麦克风包括:形成第二虚拟麦克风使之具有对语音的第二线性响应,该第二线性响应包括处于朝着语音源的方向上的单个零点。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的方法包括将第一物理麦克风和第二物理麦克风沿着轴定位并且将第一和第二物理麦克风分隔开第一距离。
一个实施例的轴的中点与生成语音的语音源相距第二距离,其中语音源位于由相对于中点的一角度限定的方向上。
形成一个实施例的第一虚拟麦克风包括减去用第一麦克风信号减去第二麦克风信号而得到的结果。
一个实施例的方法包括延迟第一麦克风信号。
一个实施例的方法包括将该延迟升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的方法包括将该延迟升高到如下幂,该幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的方法包括将第二麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
形成一个实施例的第二虚拟麦克风包括用第二麦克风信号减去第一麦克风信号而得到的结果。
一个实施例的方法包括延迟第一麦克风信号。
一个实施例的方法包括将该延迟升高到如下幂,该幂与语音到达第一虚拟麦克风与语音到达第二虚拟麦克风之间的时间差成比例。
一个实施例的方法包括将该延迟升高到如下幂,该幂与用第四距离减去第三距离得到的量再乘以采样频率而得到的结果成比例,第三距离在第一物理麦克风与语音源之间,而第四距离在第二物理麦克风与语音源之间。
一个实施例的方法包括将第一麦克风信号与一比值相乘,其中该比值是第三距离与第四距离之比。
形成一个实施例的第一虚拟麦克风包括用第一麦克风信号的延迟版本减去第二麦克风信号。
形成一个实施例的第二虚拟麦克风包括:通过延迟第一麦克风信号来形成一个量;并用第二麦克风信号减去该量。
一个实施例的第一和第二物理麦克风是全向性的。
这里描述的DOMA的实施例包括一种方法,该方法包括:从第一全向性麦克风接收第一麦克风信号并且从第二全向性麦克风接收第二麦克风信号;通过生成第一麦克风信号与第二麦克风信号的第一组合来生成第一方向性虚拟麦克风;通过生成第一麦克风信号与第二麦克风信号的第二组合来生成第二方向性虚拟麦克风,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的响应很大程度上不相似的不同的方向性虚拟麦克风。
这里描述的DOMA的实施例包括一种方法,该方法包括:通过生成第一麦克风信号与第二麦克风信号的第一组合来形成第一虚拟麦克风,其中第一麦克风信号由第一全向性麦克风生成,而第二麦克风信号由第二全向性麦克风生成;并通过生成第一麦克风信号与第二麦克风信号的第二组合来形成第二虚拟麦克风,其中第二组合不同于第一组合;其中第一虚拟麦克风具有无零点的对语音的第一线性响应,其中第二虚拟麦克风具有对语音的第二线性响应,该第二线性响应具有处于朝着语音源的方向上的单个零点,其中该语音是人类语音。
形成一个实施例的第一和第二虚拟麦克风包括:形成第一虚拟麦克风和第二虚拟麦克风使之具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
这里描述的DOMA的实施例包括一种方法,该方法包括:在第一物理麦克风和第二物理麦克风处接收声学信号;响应于声学信号从第一物理麦克风输出第一麦克风信号并且从第二物理麦克风输出第二麦克风信号;通过生成第一麦克风信号与第二麦克风信号的第一组合来形成第一虚拟麦克风;通过生成第一麦克风信号与第二麦克风信号的第二组合来形成第二虚拟麦克风,其中第二组合不同于第一组合,其中第一虚拟麦克风和第二虚拟麦克风是对噪声的响应很大程度上相似而对语音的响应很大程度上不相似的不同的方向性虚拟麦克风;通过组合来自第一虚拟麦克风和第二虚拟麦克风的信号来生成输出信号,其中输出信号包括比声学信号小的声学噪声。
一个实施例的第一和第二物理麦克风是全向性麦克风。
形成一个实施例的第一虚拟麦克风包括:形成第一虚拟麦克风使之具有无零点的对语音的第一线性响应,其中该语音是人类语音。
形成一个实施例的第二虚拟麦克风包括:形成第二虚拟麦克风使之具有对语音的第二线性响应,该第二线性响应包括处于朝着语音源的方向上的单个零点。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
形成一个实施例的第一虚拟麦克风包括用第一麦克风信号的延迟版本减去第二麦克风信号。
形成一个实施例的第二虚拟麦克风包括:通过延迟第一麦克风信号来形成一个量;并用第二麦克风信号减去该量。
这里描述的DOMA的实施例包括一种方法,该方法包括:形成包括第一物理麦克风和第二物理麦克风的物理麦克风阵列,第一物理麦克风输出第一麦克风信号,而第二物理麦克风输出第二麦克风信号;并形成包括第一虚拟麦克风和第二虚拟麦克风的虚拟麦克风阵列,第一虚拟麦克风包括第一麦克风信号与第二麦克风信号的第一组合,第二虚拟麦克风包括第一麦克风信号与第二麦克风信号的第二组合,其中第二组合不同于第一组合;虚拟麦克风阵列包括处于朝着人类发言者的语音源的方向上的单个零点。
形成一个实施例的第一和第二虚拟麦克风包括:形成第一虚拟麦克风和第二虚拟麦克风使之具有很大程度上相似的对噪声的线性响应。
一个实施例的单个零点是第二线性响应的如下区域,该区域的测量响应水平低于第二线性响应的任何其它区域的测量响应水平。
一个实施例的第二线性响应包括处于背离语音源的方向上的主瓣。
一个实施例的主瓣是第二线性响应的如下区域,该区域的测量响应水平大于第二线性响应的任何其它区域的测量响应水平。
一个实施例的单个零点位于与物理麦克风阵列相距一距离的位置,语音源被预期处于该位置。
这里描述的DOMA及相应系统和方法的多方面可以实施为被编程到许多种电路中的任何电路中的功能,这些电路包括可编程逻辑器件(PLD)如现场可编程阵列(FPGA)、可编程阵列逻辑(PAL)器件、电可编程逻辑、存储器件和基于标准单元的器件以及专用集成电路(ASIC)。实施DOMA及相应系统和方法的多方面的一些其它可能性包括:具有存储器(比如电可擦除可编程只读存储器(EEPROM))的微控制器、嵌入式微处理器、固件、软件等。另外,DOMA及相应系统和方法的多方面可以包含在具有基于软件的电路仿真的微处理器、分立逻辑(顺序式和组合式)、自定制器件、模糊(神经)逻辑、量子器件以及任何上述器件类型的混合中。当然,可以用许多种部件类型来提供基本器件技术,这些部件类型例如是金属化物半导体场效应晶体管(MOSFET)技术如互补金属氧化物半导体(CMOS)双极技术(如发射极耦合逻辑(ECL))、聚合物技术(例如共轭聚合物和金属共轭聚合物金属结构)、混合模拟和数字等。
应当注意,这里公开的任何系统、方法和/或其它部件可以使用计算机辅助设计工具加以描述,并且可以在它们的行为、寄存器传送、逻辑部件、晶体管、布局几何和/或其它特性方面表示(或表达)为包含在各种计算机可读介质中的数据和/或指令。其中可包含这样的格式化数据和/或指令的计算机可读介质包括但不限于各种形式的非易失性存储介质(例如光、磁或半导体存储介质)以及可被用来通过无线、光或有线信号收发介质或它们的任意组合来传送这样的格式化数据和/或指令的载波。通过载波传送这样的格式化数据和/或指令的例子包括但不限于通过因特网和/或其它计算机网络、经由一个或多个数据传送协议(例如HTTP、FTP、SMTP等)的传送(上载、下载、电子邮件等)。上述部件的这样的基于数据和/或指令的表达当在计算机系统内经由一个或多个计算机可读介质被接收到时,可以由计算机系统内的处理实体(例如一个或多个处理器)连同一个或多个其它计算机程序的执行一起加以处理。
除非上下文另外明确要求,在整个说明书和权利要求书中,词语“包括”等应解释为包括在内的意思而不是排他或穷举的意思;也就是说,解释为“包括但不限于”的意思。使用单数或复数的词语也分别包括复数或单数。此外,词语“这里”、“下文”、“上面”、“下面”和类似意思的词语当在本申请中使用时指的是本申请的整体而不是本申请的任何特定部分。当针对两个或更多项目的列表使用词语“或”时,该词语涵盖该词语的所有以下解释:列表中的任何项目、列表中的所有项目以及列表中的项目的任意组合。
上面对DOMA及相应系统和方法的实施例的描述并非意在为穷举性的或者将系统和方法限制于所公开的精确形式。本领域技术人员应认识到,尽管这里出于说明的目的描述了DOMA及相应系统和方法的具体实施例和例子,但是可以在系统和方法的范围内进行各种等效修改。这里提供的DOMA及相应系统和方法的教导可以应用于其它系统和方法,而不仅限于上述系统和方法。
上述各实施例中的要素和操作可加以组合,以提供更多的实施例。可以按照上述具体描述对DOMA及相应系统和方法进行这些和其它改变。
一般而言,在所附权利要求中,所用术语不应解释为将DOMA及相应系统和方法限制于本说明书和权利要求书中公开的具体实施例,而是应当解释为包括根据权利要求书工作的所有系统。因而,DOMA及相应系统和方法并非受本公开的限制,而是范围将完全由权利要求书决定。
尽管在权利要求书中以特定的权利要求形式展示了DOMA及相应系统和方法的特定方面,但是发明人能想到采取任何数目的权利要求形式的DOMA及相应系统和方法的各方面。因而,发明人保留在提交申请之后增添附加权利要求的权利,以将这样的附加权利要求形式应用于DOMA及相应系统和方法的其它方面。
相关申请
本申请要求于2007年6月13日提交的第60/934,551号美国专利申请、于2007年8月1日提交的第60/953,444号美国专利申请、于2007年8月8日提交的第60/954,712号美国专利申请和于2008年4月16日提交的第61/045,377号美国专利申请的优先权。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈