技术领域
[0001] 本
发明涉及一种用于向用户提供听力辅助的系统,所述系统包括发送单元,所述发送单元包括用于从使用所述发送单元的说话者的语音中捕获音频
信号的麦克
风装置,并且所述发送单元被适配成经由无线RF链路将
音频信号作为射频(RF)信号来发送,所述系统包括要被佩戴在用户的左
耳处或至少部分地佩戴在用户的左耳中的左耳听力设备,以及要被佩戴在用户的右耳处或至少部分地佩戴在用户的右耳中的右耳听力设备,每个听力设备被适配成刺激用户的听力并经由无线RF链路从发送单元接收RF信号,并且每个听力设备包括用于从环境声捕获音频信号的麦克风装置;所述听力设备被适配成经由双耳链路彼此进行通信。
背景技术
[0002] 通过实现无线麦克风来增加
信噪比(SNR)的这样的系统已经知道了许多年了,并且其通常向左耳和右耳两者呈现具有相同的幅值和
相位的同一单耳信号。尽管这样的系统获得了可能的最佳SNR,但是信号中没有空间信息,从而用户无法知道信号是从哪来的。作为实际的示例,听力受损的学生在教室中装备有这样的系统,当他在读书的同时专注在他的工作上时,同时老师在教室中四处走动并突然开始对他讲话,该学生不得不抬起头并且开始任意地在左边或右边寻找老师,因为他无法直接找到老师在哪,这是由于他在两个耳朵上都
感知到相同的声音。
[0003] 通常而言,能够
定位声音是非常重要的,特别是预示危险的声音(例如,在过
马路时
汽车靠近,则触发警报…)。在每天的生活中,将头转向到来的声音的方向是非常常见的。
[0004] 公知的是,正常听力的人具有几度的方位定位精确度。取决于听力损失,听力受损的人可能具有低得多的能力来感觉声音从哪来,并且可能几乎无法检测声音来自左边还是右边。
[0005] 近几年来
助听器中的双耳声音处理已经是可用的,但
正面临几个问题。首先,两个助听器是独立的设备,这暗示不同步的时钟以及一同处理两个信号的困难。还必须考虑到声学限制:较低的SNR和混响对于双耳处理来说是有害的,并且有可能存在几个声源使得使用双耳
算法是棘手的。
[0006] 在2008年10月德国Aachen的ITG-Fachtagung Sprachkommunikation第8期中由T.Rohdenburg等人所著的文章“Combined source tracking and noise reduction for application in hearing aids(针对在听力辅助中应用的组合的源
跟踪和噪声减小)”解决了助听器的声源到达方向(DOA)估计的问题。作者假定在左助听器与右助听器之间存在双耳连接,讨论了“在不久的将来”可以从一个设备向另一个发送全频带音频信息。他们的算法是基于在允许使用所谓的SRP-PHAT方法(
相变互相关上的转向响应功率)的6个音频信道(每个耳朵3个)上的互相关的。
[0007] 在2013年的Journal of Applied Sciences(应用科学)13(8):1239-1244中由W.Qingyun等人所著的文章“Sound localization and directed speech enhancement in digital hearing aid in reverberation environment(数字助听器在混响环境中的声音定位和定向语音增强)”提出了针对眼镜数字助听器的三维(3D)DOA估计和定向语音增强方案。DOA估计是基于多信道自适应特征值分解算法(AED)的,并且语音增强是由宽带波束过程确保的。再一次,作者假设所有的音频信号是可用的和可比较的,并且他们的解决方案需要设置在眼镜臂上的4个麦克风。已经在2007年的TENCON,IEEE Region 10 Conference的1-4页中的由W.-C.Wu等人所著的文章“Hearing aid system with 3d sound localization(具有3d声音定位的听力辅助系统)”中通过佩戴在病人的胸部的5麦克风阵列而解决了针对听力受损的人的3D定位。
[0008] WO 2011/015675 A2涉及具有无线麦克风的双耳听力辅助系统,其使得能够对使用无线麦克风的说话者进行方位
角度定位,并且根据定位信息从无线麦克风导出的音频信号的“空间化”。“空间化”指的是根据发送单元的所估计的角度定位,将经由无线RF链路从发送单元所接收的音频信号分配到提供至左耳听力设备的左耳信道上以及提供至右耳听力设备的右耳信道上(以使得如由用户所感知的来自每个发送单元的音频信号的角度定位
印象与相应的发送单元的所估计的角度定位相对应的方式)。根据WO 2011/015675 A2,通过根据相应的发送单元的所估计的角度定位而引入音频信号的左耳信道信号部分和右耳信道信号部分之间的相对声音
水平差和/或相对
相位差,将所接收的音频信号分配到左耳信道和右耳信道上。根据一个示例,对在右耳助听器和在左耳助听器处所接收到的无线信号的接收信号强度指示符(“RSSI”)进行比较,以便从RSSI值的差来确定方位角度定位,所述方位角度定位预计是由头影效应所引起的。根据可替代的示例,通过以下方式来估计方位角度定位:测量无线信号以及在每个助听器处本地拾起的麦克风信号的到达时间,以及根据计算无线信号与本地麦克风信号之间的相关性而确定的无线信号和相应的本地麦克风信号之间的到达时间差。
[0009] US 2011/0293108A1涉及一种双耳听力辅助系统,其中,声音源的方位角度定位是通过对由右耳听力设备和左耳听力设备所捕获的音频信号的自相关以及耳间互相关来确定的,并且其中,以根据所确定的角度定位来增加音频源的空间化的方式来处理和混合音频信号。
[0010] 类似的双耳听力辅助系统是从WO 2010/115227A1已知的,其中,当在系统用户的两耳上撞击时,从声音源发出的声音的耳间声音水平差(“ILD”)和耳间时间差(“ITD”)用于确定声音源的角度定位。
[0011] US 8,526,647 B2涉及一种双耳听力辅助系统,其包括每个听力设备处的无线麦克风以及两个耳朵水平的麦克风。由麦克风所捕获的音频信号以增强角度定位提示,特别是实现波束成形器的方式而被处理。
[0012] US 8,208,642 B2涉及一种双耳听力辅助系统,其中,单耳音频信号在被无线地发送至两个耳朵水平听力设备之前以如下方式被处理:通过调整耳间延迟和耳间声音水平差来提供所接收的音频信号的空间化,其中,还可以将有关头的传输函数(HRTF)考虑在内。
[0013] 此外,WO 2007/031896A1涉及一种音频
信号处理单元,其中,通过使用通过转换空间参数所获得的双耳参数来将音频信道转换成一对双耳输出信道。
发明内容
[0014] 本发明的一个目的在于提供一种包括无线麦克风的双耳听力辅助系统,其中,由无线麦克风所提供的音频信号可以由听力设备的用户以与无线麦克风的用户的角度定位相对应的“经空间化”的方式来感知,其中,所述听力设备具有相对低的功耗,而空间化函数针对混响和背景噪声是鲁棒的。本发明的另一个目标是提供一种对应的听力辅助方法。
[0015] 根据本发明,这些目标分别是由如在
权利要求1中所定义的听力辅助系统和如在权利要求39中所定义的听力辅助方法来实现的。
[0016] 本发明是有益的,这在于通过使用从发送单元所接收的RF音频信号作为相位参考,以用于间接地确定在由右耳听力设备麦克风所捕获的音频信号与由左耳听力设备麦克风所捕获的音频信号之间的耳间相位差,消除了在听力设备之间交换音频信号以便确定耳间相位差而的需求,由此降低了在双耳链路上所发送的数据的量以及功率。另一方面,通过不仅使用所估计的耳间相位差,还使用耳间音频信号水平差以及耳间RF信号差(例如,耳间RSSI差),有可能增加角度定位估计的
稳定性及其针对混响和背景噪声的鲁棒性,以使得增强角度定位估计的可靠性。
[0017] 在
独立权利要求中定义了本发明的优选
实施例。
附图说明
[0018] 在下文中,将通过参考附图来示出本发明的示例,其中:
[0019] 图1和2是根据本发明的听力辅助系统的示例的典型使用情形的示图;
[0020] 图3是根据包括多个发送设备的本发明的听力辅助系统的示例的使用情形的示图;
[0021] 图4是根据本发明的听力辅助系统的音频发送设备的
框图的示意性示例;
[0022] 图5是根据本发明的听力辅助系统的听力设备的示例的示意性框图;
[0023] 图6是由本发明所使用的用于估计无线麦克风的角度定位的信号处理的示例的框图;以及
[0024] 图7是图6的IPD框的
流程图的示例。
具体实施方式
[0025] 根据在图1和2中所示出的示例,根据本发明的听力辅助系统的示例可以包括发送单元10,发送单元10包括用于从使用发送单元10的说话者11的语音中捕获音频信号的麦克风装置17,并且发送单元10被适配成经由无线RF链路12向用于佩戴或至少部分地佩戴在听力设备用户13的左耳处的左耳听力设备16B以及用于佩戴或至少部分地佩戴在用户13的右耳处的右耳听力设备16A发送作为RF信号的音频信号,其中,两个听力设备16A、16B都被适配成刺激用户的听力并且经由无线RF链路12从发送单元10接收RF信号,并且两个听力设备包括用于从环境声音中捕获音频信号的麦克风装置62(参见图5)。听力设备16A、16B也被适配成经由双耳链路15彼此进行通信。此外,当根据经处理的音频信号来刺激用户的听力时,听力设备16A、16B能够估计发送单元10的方位角度定位并且以用于创建听力感知的方式来处理从发送单元10所接收的音频信号,其中,来自发送单元10的音频信号的角度定位印象与发送单元10的所估计的方位角度定位相对应。
[0026] 听力设备16A和16B能够以以下方式来估计发送单元10的角度定位,所述方式利用以下事实:每个听力设备16A、16B一方面经由RF链路12从发送单元10接收作为RF信号的说话者11的语音,并且另一方面接收作为由麦克风装置62转换成对应的音频信号的声学(声音)信号21的说话者11的语音。通过以双耳的方式来分析这两个不同的音频信号,执行对发送单元10和说话者11的角度定位的可靠的但相对简单的估计(在图2中由角“α”示出,其指示了听力设备13的观察方向23(用户的“观察方向”将被理解为用户的鼻子所指向的方向)的偏差)与声音冲击方向25的偏差)。
[0027] 几个音频参数由每个听力设备16A、16B本地地确定,并且接着经由双耳链路15被交换以确定相应的参数的耳间差,以便从这些耳间差来估计说话者11/发送单元10的角度定位。更加详细地,每个听力设备16A、16B确定由相应的听力设备所接收的RF信号的水平(通常为RSSI值)。所接收的RF信号水平的耳间差是由RF信号被人类组织吸收(“头部阴影效应”)所引起的,以使得耳间RF信号水平差被预期为随着发送单元10的方向25与收听者13的观察方向23的偏差α的增加而增加。
[0028] 此外,确定了由每个听力设备16A、16B的麦克风装置62所捕获的音频信号的水平,这是由于声音水平的耳间差(“耳间水平差ILD”)也随着由于
声波被人类组织吸收/反射所导致的角度α的增加而增加(由于由麦克风装置62所捕获的音频信号的水平与声音水平成正比,所以音频信号水平的耳间差与ILD相对应)。
[0029] 此外,由听力设备16A、16B所接收的声波21的耳间相位差(IPD)也是由每个听力设备16A、16B确定的,其中,在至少一个频带中,每个听力设备16A、16B确定从发送单元10经由RF链路12接收的音频信号与由相同的听力设备16A、16B的麦克风装置62所捕获的相应的音频信号之间的相位差,其中,由右耳听力设备所确定的相位差与由左耳听力设备所确定的相位差之间的耳间差与IPD相对应。在本文中,将经由RF链路12从发送单元10接收的音频信号当作参考,以使得无需交换由两个听力设备16A、16B的麦克风装置62经由双耳链路15所捕获的音频信号,而仅仅是一些测量结果。IPD随着由于相应的耳朵/听力设备到说话者11的距离的耳间差的增加引起的角α的增加而增加。
[0030] 尽管在原理上,耳间RF信号水平差、ILD、和IPD三个参数中的每个参数可以独自用于对说话者11/发送单元10的角度定位α进行粗略估计,但将所有这三个参数都考虑在内的估计提供了可靠得多的结果。
[0031] 为了增强角度定位估计的可靠性,可以在每个听力设备中进行相干估计(CE),其中,对从发送单元10所接收的音频信号与由相应的听力设备16A、16B的麦克风装置62所捕获的音频信号之间的相关程度进行估计,以便根据所估计的相关程度来调整发送单元10的方位角度定位的估计的角
分辨率。特别地,较高的相关程度指示存在“好的”声学条件(例如,低的混响、低的背景噪声、说话者11与收听者13之间的小的距离等),这使得由听力设备16A、16B所捕获的音频信号与经由RF链路12从发送单元10所接收的经解调的音频信号相比没有显著失真。从而,可以随着所估计的相关程度的增加来增加角度定位估计过程的角分辨率。
[0032] 由于对说话者11/发送单元10的角度定位的有意义的估计仅在说话者11说话的时间期间才是可能的,因此发送单元10优选地包括语音活动检测器(VAD),所述VAD提供了指示“语音开”(或“VAD真”)或“语音关”(或“VAD伪”)的输出,所述输出经由RF链路12而被发送至听力设备16A、16B,以使得仅仅在接收到“话音开”信号的时间期间实行听力设备16A、16B中的相干性估计、ILD确定、和IPD确定。相比之下,由于在说话者11没有说话的时间期间也可以经由RF链路12来接收RF信号,因此也可以在说话者11没有说话的时间期间实行RF信号水平确定。
[0033] 在图6中示出了迄今为止所描述的角度定位估计的示例的示意图,根据该示意图,听力设备16A、16B经由双耳链路15交换以下参数:一个RSSI值、一个相干性估计(CE)值、指示所捕获的音频信号水平的一个RMS(均方根)值、以及至少一个相位值(优选地,IPD是在三个频带中确定的,以使得针对每一频带交换一个相位值)。
[0034] 尽管VAD优选地是在发送单元10中提供的,但也可以想得到的是,较不优选地,在听力设备中的每个听力设备中实现VAD,并且接着从经由RF链路12所接收的经解调的音频信号中检测语音活动。
[0035] 根据图6的示例,角度定位估计过程接收以下输入:表示RF信号水平的RSSI值(其中,在下文中“RSSIL”
指定了由左耳听力设备所捕获的无线信号的水平,而在下文中“RSSIR”指定了由右耳听力设备所捕获的无线信号的水平)、由听力设备的麦克风装置62所捕获的音频信号AU(其中,在下文中“AUL”指定了由左耳听力设备所捕获的音频信号AU,而在下文中,“AUR”指定了由右耳听力设备所捕获的音频信号AU)、经由RF链路12所接收到的经解调的音频信号(RX)和经由RF链路12所接收到的VAD状态(可替代地,如在上文中所提及的,通过分析经解调的音频信号可以确定左听力设备和右听力设备中的VAD状态)。
[0036] 针对每个听力设备,角度定位估计过程的输出是发送单元10/说话者11最有可能位于的角扇区,其中,所述信息接着被用作对经解调的音频信号的空间化处理的输入。
[0037] 在下文中,将更加详细地描述发送单元10的示例和听力设备16的输入,此后是对角度定位估计过程的各种步骤的详细描述。
[0038] 在图4中所示出的发送单元10的示例,包括用于从说话者11捕获音频信号的麦克风装置17、用于处理所捕获的音频信号的
音频信号处理单元20、用于将在处理的音频信号作为由音频数据分组组成的
音频流19而发送至听力设备16A、16B的数字发射机28和天线30。音频流19形成在发送单元10与听力设备16A、16B之间所建立的数字音频链路12的一部分。发送单元10可以包括额外的组件,例如包括声音活动检测器(VAD)的单元24。音频信号处理单元20和这样额外的分量可以是由在22处所指示的
数字信号处理器(DSP)实现的。另外,发送单元10还可以包括对DSP 22和发射机28起作用的微
控制器26。在DSP 22能够接管
微控制器26的功能的情况下可以省略微控制器26。优选地,麦克风装置17包括至少两个分隔的麦克风17A、17B,它们的音频信号可以在音频信号处理单元20中使用以用于声学波束成形,以便向麦克风装置17提供方向性特性。可替代地,也可以使用具有多个声音端口的单个麦克风及其一些合适的组合。
[0039] VAD单元24使用来自麦克风装置17的音频信号作为输入以便确定使用相应发送单元10的人11何时正在说话,即VAD单元24确定是否存在水平高于话音水平
阈值的话音信号。VAD功能可以基于关于在两个子频带(例如,100-600Hz以及300-1000Hz)中所计算的
能量的条件之间的基于逻辑的组合过程。验证阈值可以使得仅仅保留浊音(主要是元音)(这是因为在算法中对低频话音信号执行定位,以便达到较高的精确性)。VAD单元24的输出可以存在于二进制值中,该值在输入声音可以被当作话音时为真,其他情况下为伪。
[0040] 可以经由无线链路12来发送单元24的合适的
输出信号。为此,可以提供单元32,其用于生成合并了来自处理单元20的潜在的音频信号与由单元24所生成的数据的数字信号,所述数字信号被提供给发送器28。在实践中,数字发射机28被设计成收发机,以使得其不仅可以将数据从发送单元10发送至听力设备16A、16B,并且可以接收从网络的其他设备发送的数据和命令。收发机28和天线30可以形成无线网络
接口的一部分。
[0041] 根据一个实施例,发送单元10可以被设计成由相应的说话者11围绕该说话者的脖子穿戴的无线麦克风、或者作为衣领麦克风、或者在说话者的手中。根据可替代的实施例,发送单元10可以被适配成由相应的说话者11佩戴在该说话者的耳朵处,例如无线耳塞或耳机。根据另一实施例,发送单元10可以形成耳际听力设备(例如,助听器)的一部分。
[0042] 在图5中示出了左耳听力设备16B中的信号路径的示例,其中收发机48经由数字链路12接收从发送单元10所发送的RF信号,即,其接收从发送单元10所发送的音频信号流19并且将音频信号流19解调为向音频信号处理单元38和角度定位估计单元40两者提供经解调的音频信号RX。听力设备16B还包括麦克风装置62,麦克风装置62包括至少一个(优选地是两个)麦克风,其用于捕获对收听者13的左耳进行冲击的音频信号环境声音,例如来自说话者11的声学
语音信号21。
[0043] 所接收的RF信号还被提供给信号强度分析器单元70,其确定RF信号的RSSI值,所述RSSI值被提供给角度定位估计单元40。
[0044] 收发机48也经由RF链路12从发送单元10接收指示“语音开”或“语音关”的VAD信号,所述VAD信号被提供给角度定位估计单元40。
[0045] 此外,收发机48经由双耳链路从右耳听力设备16A接收某些参数值(如关于图6所提及的),以便将这些参数值提供至角度定位估计单元40;所述参数值是(1)与如由右耳听力设备16A接收的RF链路12的RF信号的水平相对应的RSSI值RSSIR,(2)如由右耳听力设备16A的麦克风62所捕获的音频信号的水平,(3)指示如由右耳听力设备16A的麦克风62所捕获的音频信号与如由右耳听力设备16A经由RF链路12从发送单元10接收的经解调的音频信号之间的相位差的值,其中,针对其中确定相位差的每一频带而确定分别的值,以及(4)指示如由右耳听力设备16A的麦克风62所捕获的音频信号与如由右耳听力设备16A经由RF链路12从发送单元10所接收的经解调的音频信号的相关性的CE值。
[0046] RF链路12和双耳链路15可以使用相同的无线接口(由天线46和收发机48形成),在图5中示出的,或者其可以使用两个分离的无线接口(在图5中未示出该变型)。最后,将如由本地麦克风装置62所捕获的音频信号提供至角度定位估计单元40。
[0047] 上文的参数值(1)至(4)也是由角度定位估计单元40针对左耳听力设备16B确定的,并且被提供至收发机以经由双耳链路15发送至右耳听力设备16A,以用于在右耳听力设备16A的角度定位估计单元中使用。
[0048] 角度定位估计单元40输出指示说话者11/发送单元10的最可能的角度定位的值(其通常与方位扇区相对应),所述值被提供至充当“空间化单元”的音频信号处理单元38,以通过调整信号水平和/或信号延迟(在不同的音频带(HRTF)中可能具有不同的水平和延迟)来处理经由RF链路12所接收的音频信号,所述处理是以以下方式进行的:当收听者13被与由左耳听力设备16B的音频信号处理单元38所处理的音频信号和与由右耳听力设备16A的相应的音频信号处理单元所处理的音频信号同时刺激时,收听者13将经由RF链路12所接收的音频信号感知为来源于由角度定位估计单元40所估计的角度定位。换句话说,听力设备16A、16B协作以生成立体声信号,其中右信道是由右耳听力设备16A生成的而左信道是由左耳听力设备16B所生成的。
[0049] 听力设备16A、16B包括用于处理由麦克风装置62所捕获的音频信号并将其与来自单元38的音频信号相结合的音频信号处理单元64、用于对单元64的输出进行放大的功率
放大器66、以及用于将经放大的信号转换成声音的扬声器68。
[0050] 根据一个示例,听力设备16A、16B可以被设计为助听器,例如BTE、ITE、或CIC助听器,或者作为人工耳蜗,其中RF信号接收机功能与助听器集成。根据可替代的示例,包括角度定位估计单元40和空间化单元38的RF信号接收机功能可以在接收机单元中被实现(在图5中在16’处所指示的),该接收机单元被连接至包括本地麦克风装置62的助听器(在图5中在16”处所指示的);根据一个变型,RF信号接收机功能仅可以在分离的接收机单元中被实现,而角度定位估计单元40和空间化单元38形成了接收机单元所连接至的助听器的一部分。
[0051] 通常而言,RF信号的载波
频率高于1GHz。特别地,在高于1GHz的频率处,由用户头部而产生的衰减或遮蔽相对较强。优选地,数字音频链路12是在2.4GHz ISM频带中的
载波频率处建立的。可替代地,数字音频链路12可以在868MHz 915或5800MHz频带中的载波频率处、或者在如6-10GHz区域中的UWB链路中被建立。
[0052] 取决于声学条件(混响、背景噪声、说话者与收听者之间的距离),来自耳机的
声音信号可能相比于来自发送单元10的解调的音频信号而显著失真。由于这对定位的精确性有突出的影响,因此空间分辨率(即,角度扇区的数量)可以根据环境而自动地适配。
[0053] 如在上文中已经提及的,CE用于估计经由RF链路接所收的音频信号(“RX信号”)与由听力设备麦克风所捕获的音频信号“AU信号”的相似度。例如,这可以通过如下式来计算所谓的“相干性”来完成:
[0054]
[0055] 其中,E{}表示数学均值,d是应用于互相关函数(分子)的计算的变化的延迟(
采样k→k+4中),RX 是在通常地5个128采样
帧上累积的经解调的RX信号,而AU表示来自听力设备(在下文中也被称为“耳机”)的麦克风62的信号。
[0056] 信号是在通常地5个帧上累积的以便将发生在经解调的RX信号与来自耳机的AU信号之间的延迟考虑在内。RX信号延迟是由于
硬件中的处理和传输延时所导致的并且通常是常数值。AU信号延迟是由常分量(硬件中的音频处理延迟)和与声学飞行时间(针对1m到10m之间的说话者-收听者距离是3ms到33ms)对应的可变分量组成的。如果针对相干性的计算而仅仅考虑一个128采样帧,则可能发生的是两个当前的RX和AU帧不共享任何共同的采样,这即使在声学条件较好的情况下也导致了非常低的相干值。为了降低该
块的计算成本,可以向
下采样多于一个的累积的帧。优选地,在向下采样之前不应用反
混叠滤波器,以便计算成本保持尽可能低。结果发现,混叠的结果是受限的。显然,只有在
缓冲器的内容是浊音话音(由VAD信号携带的信息)时才处理所述缓冲器。
[0057] 可以利用需要存储几个先前的相干值的移动平均滤波器来使本地计算的相干性平滑。输出理论上在1(相同的信号)与0(完全不相关的信号)之间。在实践中,已经发现输出的值在0.6与0.1之间,这主要是由于减小相干性范围的向下采样的操作所引起的。阈值CHIGH已经被定义以使得:
[0058]
[0059] 已经设置了另一个阈值CLOW以使得如果C﹤CLOW,则重置该定位,即,预期声学条件太差从而算法不能准确工作。在下文中,针对算法描述而将分辨率设置为5(个扇区)。
[0060] 因此,可以将可能的方位角度定位的范围划分成多个方位扇区,其中,扇区的数量随着所估计的相关程度的增加而增加;只要所估计的相关程度低于第一阈值,就可以中断对发送单元的方位角度定位的估计;特别地,只要所估计的相关程度高于第一阈值并且低于第二阈值,则对发送单元的方位角度定位的估计可以由三个扇区组成,而只要所估计的相关程度超过第二阈值,则由5个扇区组成。
[0061] 如在上文中已经提及的,角度定位估计可以利用对右耳与左耳音频信号之间的声音压力水平差(也被称为ILD)的估计,其将输入看作来自左耳听力设备的AU信号(“AUL信号”)(或来自右耳听力设备的AU信号(“AUR信号”)),以及VAD的输出。ILD定位过程实际上比之后描述的IPD过程更不精确得多。因此,输出可以被限制成指示说话者相对于收听者的所估计的侧的3状态标志(1:源在左边;-1:源在右边,0:不确定的侧);即,角度定位估计实际上仅仅使用3个扇区。
[0062] 可以将块过程划分成六个主要部分:
[0063] (1)VAD检查:如果帧包含浊音话音,则处理开始,否则系统等待直到检测语音活动为止。
[0064] (2)AU信号滤波(例如,具有1kHz到2.5kHz的下限(截止频率)和3.5kHz到6kHz的上限(截止频率)的kHz
带通滤波器,起初条件是由先前的帧给出的)。由于该带宽提供了具有最低变化的最高ILD范围,所以可以选择该带宽。
[0065] (3)能量累积,例如,针对左信号:
[0066]
[0067] 其中, 表示帧k的左信号,而EL是能量。
[0068] (4)通过双耳链路15的EL与ER的值的交换。
[0069] (5)ILD计算:
[0070]
[0071] (6)侧确定:
[0072]
[0073] 其中,ut表示不确定性阈值(通常是3dB)。
[0074] 步骤(5)和(6)不是在在每一帧上都启动的;能量累积是在某一时间段(通常是100ms,其表示在精确性与反应度之间的最佳折衷)上执行的。ILD值和侧是在对应的频率处更新的。
[0075] 耳间RF信号水平差(“RSSID”)是类似于ILD但是在射频域(例如,大约2.4GHz)中的线索。在耳机天线46处所接收的每个数据分组(例如,4ms分组)的强度被评估并且被发送至左耳和右耳上的算法。RSSID是通常需要被平滑以便变得有用的相对吵杂的线索。像ILD一样,其通常无法用于估计精细的定位,因此RSSID框的输出经常提供与三个不同的角度扇区相对应的、指示说话者相对于收听者的所估计的侧的3状态标志(1:在左边的源,-1:在右边的源,0:不确定的侧)。
[0076] 自回归滤波器可以用于进行平滑,这避免了存储所有先前的RSSI差(ILD需要计算10log(EI/Ek),由此RSSI读数已经是以dBm为单位(对数形式),因此采取了简单的差分)以计算当前的一个,仅仅需要对先前的输出进行反馈:
[0077] RSSID(k)=λRSSID(k-1)+(1-λ)(RSSIL-RSSIR),
[0078] 其中λ是所谓的忘记因子。已知特定的想要数量的先前的累积的值N,根据以下公式而导出λ:
[0079]
[0080] 已经发现通常的值0.95(N=20的值)产生在精确性与反应度之间的适当的折衷。关于ILD,根据不确定性阈值来确定侧:
[0081]
[0082] 其中ut表示不确定性阈值(通常是5dB)。
[0083] 该系统使用射频跳跃方案。RSSI读数可能从一个RF信道到其他RF信道而不同,这是由于TX和RX天线的频率响应、多径效应、滤波、干扰等所引起的。因此,可以通过使用不同信道上的RSSI的小型
数据库来获得更可靠的RSSI结果,并且在每信道
基础上比较RSSI随着时间的变化。这将降低由于在上文中所提及的现象而导致的变化,代价是稍微更复杂的RSSI获取和存储,其需要更多的RAM。
[0084] IPD框估计在一些具体频率分量上的左音频信号与右音频信号之间的耳间相位差。IPD是耳间时间差(“ITD”)的频率表示,另一定位线索是由人耳听觉系统使用的。其将相应的AU信号和RX信号当作输入,其充当相位参考。IPD仅仅在包含有用信息(即,当“VAD为真”/“语音开”)的音频帧上被处理。在图7中示出了该过程的流程图的示例。
[0085] 由于IPD在低频率处更鲁棒(根据Lord Rayleigh的双工理论),所以信号可能被大幅下降因数4以降低所需的计算功率。计算了与等于250Hz、375Hz、和500Hz(用最小的变化示出最高的IPD范围)的频率相对应的3区间FFT分量。接着,提取相位,并且针对两侧而计算RX对AUL/AUR相位差(在下文中被称为 和 )即:
[0086]
[0087] 其中, 表示
傅立叶变换而ω1,2,3表示所考虑到三个频率。
[0088] 将 和 从一侧发送至另一侧并且将其减去,IPD可以被恢复:
[0089]
[0090] N×3参考矩阵包含针对一组N个入射方向的IPD的理论值(例如,如果选择了10度的分辨率,则针对半平面N=18),并且从所谓的正弦定律来计算3个不同的频率区间θ1,2…N。
[0091]
[0092] 其中,α与两个听力设备之间的距离(头部尺寸)成正比,而c是空气中的声音速度。
[0093] 使用正弦平方函数来评估在所观测的IPD与理论的IPD两者之间的角偏差d,如下所述:
[0094]
[0095] 其中,d∈[0;3],d较低值意味着与模型的较高的匹配程度。
[0096] 仅仅在所测试的一组方位的最小偏差低于阈值δ的情况下,当前的帧才用于定位(验证步骤):
[0097]
[0098] δ的典型值是0.8,这在精确性与反应度之间提供了适当的折衷。
[0099] 最后,偏差被累积成针对对应的方位角的方位扇区(5个或3个扇区):
[0100]
[0101] 其中,D(i)是扇区i的累积误差, 是扇区i的低角度边界和高角度边界,并且s(i)是扇区i的大小(在离散的测试角方面);而在示例中,i=1…5表示5个扇区分辨率,i=1…3将表示3个扇区分辨率。
[0102] IPD框的输出是向量D,如果VAD关闭或如果未满足验证步骤,则将D设置为0。因此,该帧将被定位框忽略。
[0103] 定位框使用来自ILD和RSSID框的侧信息以及来自IPD框的偏差向量来执行定位。定位框的输出是从说话者相对于收听者的当前的方位角度定位所估计的最有可能的扇区。
[0104] 针对每个到来的非零偏差向量,利用以下的关系将偏差转换成每个扇区的概率:
[0105]
[0106] 其中pD是0和1之间的概率,以使得:
[0107]
[0108] 接着,应用移动平均滤波器,在每一扇区中在K个先前的概率上采用加权平均(典型地,K=15帧),以便获得稳定的输出。 表示时间平均的概率。
[0109] 接着,根据来自ILD和RSSID的框的侧信息来对时间平均的概率进行加权:
[0110]
[0111] 其中,权重WILD和WRSSID取决于侧信息。针对ILD权重WILD,必须区分这三种情况:
[0112] 如果来自ILD的侧信息是1,则左扇区的概率随着右扇区的概率的衰减而增加:
[0113]
[0114] γ的典型值是3。
[0115] 如果来自ILD的侧信息是-1,则右扇区的概率随着左扇区的概率的衰减而增加:
[0116]
[0117] 如果来自ILD的侧信息为0,则没有扇区被优选:
[0118]
[0119] 同样的情况适用于RSSID权重WRSSID。因此,在冲突线索的情况下,ILD和RSSID的权重彼此抵消。应当注意的是,在该加权操作之后,人们不应该再谈论“概率”,这是因为总和不等于1(这是因为权重不能相在这里完成的那样被正式地应用到概率上)。然而,出于理解的原因,在下文中将保留名称“概率”。
[0120] 可以使用基于马尔可夫链启发的网络的追踪模型以便管理5个扇区之间的估计的动作。从一个扇区到另一扇区的改变是由以5×5转换矩阵收集的转换概率来管理的。保持在特定的扇区X中的概率被表示为pXX,而从扇区X去到扇区Y的概率是pXY。可以凭经验来定义转换概率;可以测试几组概率,以便提供在精确性和反应度之间的最佳折衷。转换概率使得:
[0121]
[0122] 令S(k-1)为帧k-1的扇区。在
迭代k处,扇区i知道先前的扇区为S(k-1)的概率是:
[0123]
[0124] 因此,可以计算当前的扇区S(k)以使得:
[0125]
[0126] 应当注意的是,模型是在扇区3(正面的扇区)中被初始化的。
[0127] 可以以更加一般化的方式将方位角度定位估计的该示例描述如下:
[0128] 可以将可能的方位角度定位的范围划分成多个方位扇区,并且在一个时刻,将扇区中的一个扇区标识为发送单元的所估计的方位角度定位。基于从每个扇区的模型值确定的相位差的耳间差的偏差,将概率分配至每个方位扇区,并且概率是基于所接收的RF信号的水平与所捕获的音频信号的水平的相应的耳间差来加权的,其中具有最大加权概率的方位扇区被选择为发送单元的所估计的方位角度定位。通常而言,存在5个方位扇区,即两个右方位扇区R1、R2,两个左方位扇区L1、L2,以及中央方位扇区C,也参见图1。
[0129] 此外,可能的方位角度定位被划分成多个加权扇区(通常而言,是三个加权扇区,即右侧加权扇区、左侧加权扇区、和中央加权扇区),并且加权扇区中的一个加权扇区是基于所接收的RF信号的水平和/或所捕获的音频信号的水平的所确定的耳间差来选择的。所选择加权扇区是与基于所接收的RF信号的水平和/或所捕获的音频信号的水平的所确定的耳间差而估计的方位角度定位最好地适配的加权扇区中的一个加权扇区。对加权扇区的选择与从所接收的RF信号的水平和/或所捕获的音频信号的水平的所确定的耳间差所获得的(额外的)侧信息(例如,在该示例(在上文中所提及的)中,侧信息值-1(“右侧加权扇区”);0“中央加权扇区”和1“左侧加权扇区”)相对应。这样的加权扇区/侧信息值中的每个与要应用于方位扇区的区别的加权组相关联。更加详细的,在上文中所提及的示例中,如果选择了右侧加权扇区(侧信息值-1),则权重3应用于两个右方位扇区R1、R2;权重1应用于中央方位扇区C,且权重1/3应用于两个左方位扇区L1、L2),即,该组权重是{3;1;1/3};如果选择中央加权向量(侧信息值0),则该组权重是{1;1;1};并且如果选择左侧权重扇区(侧信息值1),则该组权重是{1/3;1;3}。概括而言,与某一加权扇区/侧信息值相关联的一组权重使得落入(或接近于)该加权扇区的方位扇区的权重相对于在该加权扇区之外(或远离该加权扇区)的方位扇区而增加。
[0130] 特别地,可以基于所接收的RF信号的水平的所确定的耳间差来选择第一加权扇区(或侧信息值),并且可以基于所捕获的音频信号的水平的所确定的耳间差来分别地选择第二加权扇区(或侧信息值)(通常,针对“好的”的操作/测量条件,从所接收的RF信号的所确定的耳间差获得的侧信息/所选择的加权扇区以及从所捕获的音频信号的水平的所确定的耳间差获得的侧信息/所选择的加权扇区将是相等的)。
[0131] 通过使用包括两个位于一个听力设备上的分隔的麦克风的麦克风装置的方向属性,有可能检测说话者是在收听者前面还是后面。例如,通过将处于心脏线模式下的BTE助听器的两个麦克风设置为朝前(相应地,朝后),人们可以确定在哪中情况下水平是最高的,并且因此选择正确的解决方案。然而,在某些情形下,确定谈话者是在前面还是在后面是非常难的,例如在嘈杂的情形下、当房间对声波非常具有反射性时、或者当说话者离收听者非常远时。在前/后确定被激活的情况下,则与仅仅在前平面中完成定位的情况相比,用于定位的扇区的数量通常加倍。
[0132] 在VAD为“关”的时刻,即没有检测到话音的时刻,音频ILD的权重实质上为1,但是基于耳间RF信号水平(例如,RSSI)差的粗定位估计仍然是可能的。因此,当VAD再次变成“开”时,可以仅仅基于RSSI值来对定位估计进行重新初始化,这与没有RSSI值可用的情况相比紧固了估计过程。
[0133] 如果VAD为“关”而持续了较长时间,例如5s,则很有可能收听情形已经改变了(例如,收听者头部旋转、说话者移动等)。因此,可以将定位估计和空间化重置为“正常”,即前方。如果RSSI值随着时间稳定,则这意味着该情况是稳定的,因此这样的重置将不需要并且可以被推迟。
[0134] 一旦已经确定了说话者所位于的扇区,则RX信号就被处理从而以实现所期望的空间化的方式在左侧和右侧提供不同的音频流(即,立体声流)。
[0135] 为了将RX声音空间化,可以将HRTF(头部相关的传输函数)应用于RX信号。需要每个扇区一个HRTF。对应的HRTF可以简单地作为对到来的音频流的滤波函数而被应用。然而,为了避免扇区间的转换太突然(即,能够听见),在扇区被改变的同时可以进行对2个相邻扇区的HRTF插值,由此实现扇区间的平滑转换。
[0136] 为了利用最低的动态来获得HRTR滤波(为了考虑听力障碍的主体的降低的动态范围并且在可能的情况下降低滤波阶数),可以对HRTF数据库应用动态压缩。这样的滤波像限制器一样工作,即,针对每个频率区间,大于固定阈值的所有增益都被剪掉。这同样适用于低于另一固定阈值的增益。因此,针对任何频率区间的增益值被保持在受限的范围内。该处理可以以双耳的方式完成,以便尽可能地将ILD保护得最好。
[0137] 为了最小化HRTF数据库的大小,可以使用最小的相位表示。Oppenheim的公知的算法是用于在开始时获得具有最大能量的脉冲响应并且帮助降低滤波阶数的工具。
[0138] 虽然,迄今为止所描述的示例涉及包括单个发送单元的听力辅助系统,但是根据本发明的听力辅助系统可以包括由不同的说话者所使用的几个发送单元。在图3中示意性地示出了包括由听力障碍的收听者13佩戴的三个发送单元10(其分别被标记为10A、10B、10C)和两个听力设备16A、16B的系统的示例。听力设备16A、16B可以从图3中的发送单元
10A、10B、10C中的每一个接收音频信号,来自发送单元10A的音频流被标记为19A,来自发送单元10B的音频流被标记为19B,以此类推。
[0139] 存在关于如何处理音频信号发送/接收的几个选项。
[0140] 优选地,发送单元10A、10B、10C形成多谈话者网络(“MTN”),其中,当前活动的说话者11A、11B、11C被定位和空间化。实现谈话者改变检测器将紧固从一个谈话者到另一个谈话者的系统的转换,以使得人们可以避免系统如同谈话者将实质上从一个
位置非常快地移动到另一个位置一样地反应(这也与用于追踪的马尔可夫模型所允许的相矛盾)。特别地,通过检测MTN中的发送单元的改变,人们可以再前进一步并记住每个发送单元的当前的扇区并将概率矩阵初始化至最近已知的扇区。这甚至将以更自然的方式紧固从一个说话者到另一个说话者的转换。
[0141] 如果人们检测到几个谈话者已经从一个扇区移动到另一个扇区,则这可能是由于收听者转动了他的头的事实所引起的。在该情况下,不同发射机的所有已知位置可以被移动相同的角度,以使得当这些说话者中的任何一个再次谈话时,其初始位置被最佳地猜测。
[0142] 可以通过无线电链路向听力设备同时提供几个音频流,而不是突然地从一个谈话者切换至另一个谈话者。如果在助听器中有足够的处理功率可用,则将有可能并行地对每一个谈话者的音频流进行定位和空间化,这将改善用户体验。仅有的限制是可用(通过RF)的参考音频流的数量和可用的处理功率以及听力设备中的
存储器。
[0143] 每个听力设备可以包括听力仪器以及机械地或电气地连接至所述听力仪器或者集成在所述听力仪器内的接收机单元。听力仪器可以是助听器或听觉修复器(例如,CI)。