包括降噪系统的听装置

申请号 CN202010084761.5 申请日 2020-02-10 公开(公告)号 CN111556420B 公开(公告)日 2024-04-12
申请人 奥迪康有限公司; 发明人 A·H·安德森; J·詹森; M·S·佩德森; N·H·罗德; A·B·奥尔森; M·S·克里斯滕森; T·本森; A·T·伯特森;
摘要 本 申请 公开了包括降噪系统的听 力 装置,所述听力装置包括:用于按时频表示k,m提供至少一电输入 信号 的输入单元,其中k和m分别指 频率 和时间,及k表示频道,所述至少一电 输入信号 表示声音并包括目标信号分量和噪声信号分量;及 信号处理 器,其包括用于提供按时频表示的所述至少一电输入信号的目标 信噪比 SNR估计量的SNR估计器;用于将目标信噪比估计量转换为按时频表示的相应增益值的SNR到增益转换器;其中所述信号处理器包括神经网络,其中所述神经网络的权重已用多个训练信号训练。
权利要求

1.一种听装置,配置成由用户佩戴在朵处或耳朵中,所述听力装置包括:
‑用于按时频表示k,m提供至少一电输入信号的输入单元,其中k和m分别指频率和时间,及k表示频道,所述至少一电输入信号表示声音并包括目标信号分量和噪声信号分量;

信号处理器,包括
‑‑用于提供按时频表示的所述至少一电输入信号的目标信噪比SNR估计量的SNR估计器;及
‑‑用于将目标信噪比估计量转换为按时频表示的相应增益值的SNR到增益转换器;
其特征在于,所述SNR到增益转换器包括神经网络,其中所述神经网络的权重已用多个训练信号训练;
其中,所述多个训练信号包括估计的信噪比作为从有噪声输入混合获得的输入及其对应的输出作为主要包含所需信号的降噪后的输入信号的跨频率向量的例子;
其中,所述训练通过使用价值函数比较最佳增益及估计的增益进行,所述比较提供当前价值或误差估计量的度量,所述价值或误差估计量迭代地反馈回到所述神经网络以修改神经网络参数直到实现可接受的误差估计量为止。
2.根据权利要求1所述的听力装置,其中所述SNR估计器配置成在每一频道中独立地提供所述目标信噪比SNR估计量。
3.根据权利要求1所述的听力装置,其中所述SNR估计器包括第一和第二SNR估计器。
4.根据权利要求3所述的听力装置,其中所述第一和第二SNR估计器顺序连接,使得第一SNR估计器的输出由第二SNR估计器用于提供改善的SNR估计量。
5.根据权利要求4所述的听力装置,其中第二SNR估计器的输出用作SNR到增益转换器的输入。
6.根据权利要求3‑5任一所述的听力装置,其中第一和第二SNR估计器的输出并行用作SNR到增益转换器的输入。
7.根据权利要求3‑5任一所述的听力装置,其中第一SNR估计器配置成在每一频道中独立地提供第一目标信噪比估计量。
8.根据权利要求3‑5任一所述的听力装置,其中第二SNR估计器包括所述神经网络,其中所述神经网络的权重已用多个训练信号训练。
9.根据权利要求1所述的听力装置,其中所述SNR到增益转换器实施非线性函数G(k,m),k=1,…,K,其中G为增益,及其中第k个频道中的增益G(k,m)取决于一个或多个另外的频道在时间m的所述目标信噪比估计量,及其中所述非线性函数由所述神经网络实施。
10.根据权利要求1所述的听力装置,其中所述神经网络朝向仅部分衰减所述至少一电输入信号的噪声分量进行优化。
11.根据权利要求1所述的听力装置,其中所述SNR估计器和/或所述SNR到增益转换器配置成从一个或多个传感器或检测器接收输入。
12.根据权利要求11所述的听力装置,其中所述一个或多个传感器或检测器提供下述之一或多个:
‑话音活动标志;
‑自我话音活动标志;
‑不同的SNR估计量;
‑起始标志;
‑估计的到达方向(DoA)信息;
‑捕获读唇或喉部运动信息的基于摄像机的输入。
13.根据权利要求12所述的听力装置,其中不同的SNR估计量基于信号调制或基于利用至少两个传声器信号的空间特性或基于双耳SNR估计量。
14.根据权利要求12或13所述的听力装置,其中起始标志由起始或瞬态检测器直接从时域输入信号提供。
15.根据权利要求1所述的听力装置,其中所述SNR到增益转换器配置成提供最大降噪量。
16.根据权利要求15所述的听力装置,其中所述SNR到增益转换器配置成使得最大降噪量取决于噪声类型。
17.根据权利要求1所述的听力装置,由助听器、头戴式耳机、耳麦、耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。
18.根据权利要求1所述的听力装置,其中所述神经网络包括卷积神经网络递归神经网络
19.一种听力装置的运行方法,所述听力装置配置成由用户佩戴在耳朵处或耳朵中,所述方法包括:
‑按时频表示k,m提供至少一电输入信号,其中k和m分别指频率和时间,及k表示频道,所述至少一电输入信号表示声音并包括目标信号分量和噪声信号分量;及‑提供按时频表示的所述至少一电输入信号的目标信噪比估计量;
‑将所述目标信噪比估计量转换为按时频表示的相应的增益值;
‑使用神经网络提供所述相应的增益值,其中所述神经网络的权重已用多个训练信号训练;
其中,所述多个训练信号包括估计的信噪比作为从有噪声输入混合获得的输入及其对应的输出作为主要包含所需信号的降噪后的输入信号的跨频率向量的例子;
其中,所述训练通过使用价值函数比较最佳增益及估计的增益进行,所述比较提供当前价值或误差估计量的度量,所述价值或误差估计量迭代地反馈回到所述神经网络以修改神经网络参数直到实现可接受的误差估计量为止。

说明书全文

包括降噪系统的听装置

技术领域

[0001] 本申请涉及听力装置如助听器,尤其涉及听力装置中的降噪。本申请涉及在提供由听力装置如助听器拾取的有噪声声音信号中的降噪改善的任务中使用机器学习人工智能方法,例如使用神经网络及有监督的学习。

背景技术

[0002] 目前的听力仪器处理如降噪通常应用在不同频道中。藉此,可能利用在按时间和频率表示时不同音频信号相比于仅在时域的表示较少重叠的事实。图1示出了听力仪器中的典型降噪算法。在每一频道k中,估计信噪比(SNR(k))。SNR可基于单一传声器或基于多个传声器估计,从而使能考虑空间信息。在每一频道中,估计的信噪比经非线性函数转换为增益:
[0003] G(k)=f(SNR(k))
[0004] 通常,当SNR估计量低时,增益函数衰减声音;而在SNR估计量高时,声音保持不变G(k)=1(0dB)。
[0005] 增益(连同其它增益贡献一起)在信号被合成回到时域信号之前应用于音频信号。发明内容
[0006] 听力装置
[0007] 在本申请的一方面,提供一种听力装置如助听器,其配置成由用户佩戴在朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中。该听力装置包括:
[0008] ‑用于按时频表示k,m提供至少一电输入信号的输入单元,其中k和m分别指频率和时间,及k表示频道,所述至少一电输入信号表示声音并包括目标信号分量和噪声信号分量;及
[0009] ‑信号处理器,包括
[0010] ‑‑用于提供按时频表示的所述至少一电输入信号的(第一)目标信噪比估计量的(第一)信噪比SNR估计器;
[0011] ‑‑用于将(第一)目标信噪比估计量(或从其得出的第二目标信噪比估计量)转换为按时频表示的相应增益值的SNR到增益转换器。
[0012] 所述听力装置配置成使得所述信号处理器包括神经网络,其中所述神经网络的权重已用多个训练信号训练。
[0013] 从而可提供具有改善的降噪的听力装置如助听器。
[0014] 听力装置包括至少一SNR估计器。
[0015] SNR估计器和/或SNR到增益转换器可包括神经网络。
[0016] 听力装置可包括至少两个SNR估计器。SNR估计器可包括第一和第二SNR估计器。第一和第二信噪比(SNR)估计器可提供相应的第一和第二信噪比(SNR)估计量。目标信噪比(目标信号与噪声的比)可基于第一和第二信噪比估计量。第一和第二信噪比估计器可顺序连接(例如参见图13A)或相对于SNR到增益转换器并联连接(或二者,例如参见图14)。
[0017] 在实施例中,听力装置包括两个以上SNR估计器。
[0018] 第一和第二SNR估计器可顺序连接,使得第一SNR估计器的输出由第二SNR估计器用于提供改善的SNR估计量。目标信噪比估计量可等于(或配置成影响)改善的SNR估计量。第二SNR估计器的输出可用作SNR到增益转换器的输入。
[0019] 第一和第二SNR估计器的输出可并行用作SNR到增益转换器的输入。SNR估计量可以不同方式得到。在实施例中,第二SNR估计量为第一SNR估计量的自适应平滑版(例如参见US20170345439A1)。第一SNR例如可基于输入信号的空间特性,或者其可基于其它特征如调制或音调。在实施例中,SNR估计量基于从至少两个传声器信号获得的空间特征。在实施例中,第一SNR估计量从输入信号中的调制(距噪底的距离)进行估计。第一和第二SNR例如可基于不同的特征。两个以上SNR估计量也可预见。
[0020] 第一SNR估计器(参见图中的SNR‑EST)可配置成在每一频道中独立地提供第一(目标)信噪比估计量(即例如不通过神经网络实施)。
[0021] 信号处理器可包括第二SNR估计器(SNR改善器),用于将第一(目标)信噪比估计量转换为第二(目标)信噪比估计量。第二SNR估计器(SNR改善器)(例如参见图中的SNR2SNR’)可包括神经网络,其中该神经网络的权重已用多个训练信号训练。
[0022] SNR到增益转换已是助听器中的弱点,部分因为基于理论的(数学上最佳的)解决方案在响度感知方面通常不太被接受(听起来令人不适)。本发明提出引入基于SNR经学习的确定增益,例如使用机器学习技术如神经网络,其中给定频带的增益受不同于给定频带的其它频带的SNR值影响。在听力装置如助听器中,计算能力天然地受限,因此,计算必须被小心地管理。因此,由于大小/电池容量限制,引入具有大量节点和许多层的大神经网络(例如深度神经网络)不现实。然而,SNR到增益转换的计算负荷相对小(相较于音频处理听力装置的其它任务),这样,使用神经网络用于该任务实际可行且合乎需要。
[0023] SNR到增益转换器(例如参见图中的SNR2G)可包括神经网络,其中该神经网络的权重已用多个训练信号训练(例如参见图17)。向SNR到增益转换器提供输入的SNR估计器可通过传统方法实施,例如不使用人工神经网络或基于有监督的或未监督的学习的其它算法实施。
[0024] 实施SNR到增益转换器的神经网络例如可以是递归神经网络。该神经网络的输入向量可包括在给定时间点的SNR值的单一(例如对于K个频带,K例如小于或等于128,如小于或等于64,如小于或等于24)。输出向量例如可以是增益值的单一帧(例如对于K个频带)。隐藏层的数量例如可小于或等于10,如小于或等于5,如小于或等于2。
[0025] 实施SNR到增益转换器的神经网络的输入可基于简单的(后验)SNR或目标信号质量的其它(例如容易确定的)估计量。在本说明书中,“后验信噪比”SNRpost指在给定时间点t观察到的(可获得的)有噪声信号(目标信号S+噪声N,Y(t)=S(t)+N(t))(如由一个或多个传声器拾取)如有噪声信号的平方与噪声N(t)如噪声的估计量 例如噪声信号的平方之间的比,即 或者 “后验信噪比”SNRpost例如可在时频域定义为每一频带(k)和时间帧(m)的值,即SNRpost=SNRpost(k,m),例如即
[0026] 在更一般的方面,SNR到增益转换器可实施非线性函数G(k,m),k=1,…,K,其中G为增益,及其中第k个频道中的增益G(k,m)取决于一个或多个另外的如所有K个频道在时间m的(例如第一或第二)目标信噪比估计量,及非必须地取决于所述估计量的先前值,及其中所述非线性函数由所述神经网络实施。第k个频道的增益G(k,m)因而可取决于先前的值G(k,m‑1),G(k,m‑2),…,G(k,m‑Np),其中Np为先前的值的数量,及对应地,也为相邻频道k+1,k‑1中的一个或多个例如所有频道k=1,…,K的历史值的数量。非线性函数例如可实施为神经网络或者使用机器学习或人工智能领域的任何其它方法实施。
[0027] 神经网络可朝向仅部分衰减有噪声输入信号的噪声分量进行优化。神经网络可在训练程序中优化,其中训练中使用的目标信号可包含噪声,其已被衰减例如10dB或15dB或20dB。藉此,由于增益变化变得更小,可使用更小的神经网络。这在有限功率容量的装置如便携听力装置如助听器中有利,其中功耗是主要设计参数。
[0028] SNR估计器和/或SNR到增益转换器可配置成从一个或多个传感器或检测器接收输入。一个或多个传感器或检测器可提供下述之一或多个:
[0029] ‑(单通道或多通道)话音活动标志;
[0030] ‑(单通道或多通道)自我话音活动标志;
[0031] ‑不同的SNR估计量;
[0032] ‑起始标志;
[0033] ‑估计的到达方向(DoA)信息;
[0034] ‑基于摄像机的输入,捕获读唇或喉部运动信息。
[0035] 不同的SNR估计量可基于信号调制(例如来自单一传声器)或基于利用至少两个传声器信号的空间特性或基于双耳SNR估计量。
[0036] 起始标志例如可由起始或瞬态检测器直接从时域输入信号提供。时域瞬态检测器的目的在于克服分析滤波器组中的时延,因而获得小的展望未来,如从分析滤波器组之后发生的处理的度看。
[0037] 噪声电平是应用降噪的重要驱动参数。SNR到增益转换器可配置成提供最大降噪量。听力装置(如SNR到增益转换器)可配置成使得最大降噪量取决于噪声类型和电平。
[0038] 听力装置可由助听器、头戴式耳机、耳麦、耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。
[0039] 听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。在实施例中,听力装置包括用于增强输入信号并提供处理后的输出信号的信号处理器。
[0040] 在实施例中,听力装置包括输出单元,用于基于处理后的电信号提供由用户感知为声信号的刺激。在实施例中,输出单元包括耳蜗植入件(用于CI型听力装置)的多个电极或者骨导听力装置的振动器。在实施例中,输出单元包括输出变换器。在实施例中,输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)听力装置中)。在实施例中,输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。
[0041] 听力装置可包括用于提供表示声音的电输入信号的输入单元。在实施例中,输入单元包括用于将输入声音转换为电输入信号的输入变换器如传声器。在实施例中,输入单元包括用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号的无线接收器。无线接收器例如可配置成接收在射频范围(3kHz到300GHz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300GHz到430THz,或可见光,例如430THz到770THz)的电磁信号。
[0042] 在实施例中,听力装置包括定向传声器系统,其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。在实施例中,定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中,传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地,MVDR波束形成器保持来自目标方向(也称为视向)的信号不变,而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示,其相较原始形式的直接实施提供计算和数字表示优点。
[0043] 听力装置可包括用于从另一装置如从娱乐设备(例如电视机)、通信装置、无线传声器或另一听力装置接收直接电输入信号的天线和收发器电路(如无线接收器)。在实施例中,直接电输入信号表示或包括音频信号和/或控制信号和/或信息信号。在实施例中,听力装置包括用于对所接收的直接电输入进行解调的解调电路,以提供表示音频信号和/或控制信号的直接电输入信号,例如用于设置听力装置的运行参数(如音量)和/或处理参数。总的来说,听力装置的天线及收发器电路建立的无线链路可以是任何类型。在实施例中,无线链路在两个装置之间建立,例如在娱乐装置(如TV)和听力装置之间,或者在两个听力装置之间,例如经第三中间装置(如处理装置,例如遥控装置、智能电话等)。在实施例中,无线链路在功率约束条件下使用,例如由于听力装置是或包括便携式(通常电池驱动的)装置。在实施例中,无线链路为基于近场通信的链路,例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。在另一实施例中,无线链路基于远场电磁辐射。在实施例中,经无线链路的通信根据特定调制方案进行安排,例如模拟调制方案,如FM(调频)或AM(调幅)或PM(调相),或数字调制方案,如ASK(幅移键控)如开‑关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅)等。
[0044] 在实施例中,听力装置与另一装置之间的通信处于基带(音频频率范围,如0和20kHz之间)中。优选地,用于在听力装置和另一装置之间建立通信链路的频率低于70GHz,例如位于从50MHz到70GHz的范围中,例如高于300MHz,例如在高于300MHz的ISM范围中,例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM=工业、科学和医学,这样的标准化范围例如由国际电信联盟ITU定义)。在实施例中,无线链路基于标准化或专用技术。在实施例中,无线链路基于蓝牙技术(如蓝牙低功率技术)。
[0045] 在实施例中,听力装置具有0.15m级的最大外尺寸(如手持移动电话)。在实施例中,听力装置具有0.08m级的最大外尺寸(如耳机)。在实施例中,听力装置具有0.04m级的最大外尺寸(如听力仪器)。
[0046] 在实施例中,听力装置为便携(即配置成可穿戴)装置,如包括本机能源如电池例如可再充电电池的装置。听力装置例如为轻质、容易穿戴的装置,例如具有小于100g(或小于10g)的总重量。
[0047] 听力装置可包括输入单元(如输入变换器,例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。在实施例中,信号处理器位于该正向通路中。在实施例中,信号处理器适于根据用户的特定需要提供随频率而变的增益。在实施例中,听力装置包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例中,分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中,分析通路和/或信号通路的部分或所有信号处理在时域进行。
[0048] 在实施例中,表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频信号,其中模拟信号以预定采样频率或采样速率fs进行采样,fs例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点tn(或n)提供数字样本xn(或x[n]),每一音频样本通过预定的Nb比特表示声信号在tn时的值,Nb例如在从1到48比特的范围中如24比特。每Nb一音频样本因此使用Nb比特量化(导致音频样本的2 个不同的可能的值)。数字样本x具有
1/fs的时间长度,如50μs,对于fs=20kHz。在实施例中,多个音频样本按时间帧安排。在实施例中,一时间帧包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。
[0049] 听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。在实施例中,听力装置包括数模(DA)转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
[0050] 在实施例中,听力装置如输入单元和/或天线及收发器电路包括用于提供输入信号的时频表示的TF转换单元。在实施例中,时频表示包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。在实施例中,TF转换单元包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。在实施例中,TF转换单元包括用于将时变输入信号转换为(时‑)频域中的(时变)信号的傅里叶变换单元。在实施例中,听力装置考虑的、从最小频率fmin到最大频率fmax的频率范围包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。通常,采样率fs大于或等于最大频率fmax的两倍,即fs≥2fmax。在实施例中,听力装置的正向通路和/或分析通路的信号拆分为NI个(例如均匀宽度的)频带,其中NI例如大于5,如大于10,如大于50,如大于100,如大于500,至少其部分个别进行处理。在实施例中,助听器适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。
[0051] 听力装置可配置成在不同模式下运行,如正常模式及一个或多个特定模式,例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式,其中听力装置的功能被减少(例如以便节能),例如禁用无线通信和/或禁用听力装置的特定特征。
[0052] 听力装置可包括多个检测器,其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。
[0053] 在实施例中,多个检测器中的一个或多个对全带信号起作用(时域)。在实施例中,多个检测器中的一个或多个对频带拆分的信号起作用((时‑)频域),例如在有限的多个频带中。
[0054] 在实施例中,多个检测器包括用于估计正向通路的信号的当前电平的电平检测器。在实施例中,预定判据包括正向通路的信号的当前电平是否高于或低于给定(L‑)阈值。在实施例中,电平检测器作用于全频带信号(时域)。在实施例中,电平检测器作用于频带拆分信号((时‑)频域)。
[0055] 在特定实施例中,听力装置包括话音检测器(VD),用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中,话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中,话音检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点:包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别,因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。在实施例中,话音检测器适于将用户自己的话音也检测为“话音”。作为备选,话音检测器适于从“话音”的检测排除用户自己的话音。
[0056] 在实施例中,听力装置包括自我话音检测器,用于估计特定输入声音(如话音,如语音)是否(或以何种概率)源自听力系统用户的话音。在实施例中,听力装置的传声器系统适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。
[0057] 在实施例中,多个检测器包括运动检测器,例如加速度传感器。在实施例中,运动检测器配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。
[0058] 听力装置可包括分类单元,配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”由下面的一个或多个定义:
[0059] a)物理环境(如包括当前电磁环境,例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号),或者当前环境不同于声学的其它性质);
[0060] b)当前声学情形(输入电平、反馈等);
[0061] c)用户的当前模式或状态(运动、温度、认知负荷等);
[0062] d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。
[0063] 在实施例中,听力装置还包括用于所涉及应用的其它适宜功能,如压缩、反馈控制等。
[0064] 在实施例中,听力装置包括听音装置如助听器、听力仪器例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器,例如头戴式耳机、耳麦、耳朵保护装置或其组合。在实施例中,助听系统包括喇叭扩音器(包含多个输入变换器和多个输出变换器,例如用在音频会议情形),例如包括波束形成器滤波单元,例如提供多个波束形成能力。
[0065] 另一听力装置
[0066] 在本发明的一方面,听力装置配置成使得最大降噪量可取决于噪声类型(例如参见图16B、16C)。由于非自然信号(例如源自降噪)可根据噪声类型而不同,最大衰减量可取决于背景噪声的类型(例如根据背景噪声的类型进行调节),例如取决于调制量。例如,如果背景噪声被调制,相较于未调制的背景,可容许更高的衰减量。系统允许的最大衰减可随频率而变(或者作为备选,跨频率一致)。听力装置可以是上面描述的、具体实施方式中详细描述的或权利要求中限定的听力装置,或者其可以是任何其它听力装置如助听器,包括可配置的降噪系统。
[0067] 再一听力装置
[0068] 在本发明的一方面,提供一种听力装置如助听器,其配置成由用户佩戴在耳朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中。该听力装置可包括:
[0069] ‑用于按时频表示k,m提供至少一电输入信号的输入单元,其中k和m分别指频率和时间,及k表示频道,所述至少一电输入信号表示声音并包括目标信号分量和噪声信号分量;及
[0070] ‑信号处理器,包括
[0071] ‑‑用于提供按时频表示的所述至少一电输入信号的目标信噪比(SNR)估计量的SNR估计器;
[0072] ‑‑用于将目标信噪比估计量转换为按时频表示的相应增益值的SNR到增益转换器,其中所述SNR到增益转换器包括递归神经网络,其中所述神经网络的权重已用多个训练信号训练。
[0073] SNR到增益转换器可配置成实施降噪算法。
[0074] 听力装置可包括组合单元,及其中所述增益值被应用于所述至少一电输入信号以提供表示所述声音的处理后的信号,用于进一步处理或者作为可感知为声音的刺激呈现给用户。
[0075] 听力装置可配置成使得所述至少一电输入信号的时频表示包括量值信息及相位信息。
[0076] 听力装置可配置成使得所述SNR到增益转换器的输入包括量值信息及相位信息。
[0077] 听力装置可配置成使得所述SNR到增益转换器的输入包括相位信息随时间的变化。这样的相位信息的随时间的变化表示频率含量在给定频带中的位置并可由(SNR到增益转换器的)神经网络用于定位能量位于给定子频带中的何处。从而神经网络可使能以比通常(仅将量值信息用作输入)允许的子频带宽度更大的分辨率处理噪声分量。从而可实现相对低的滤波器组潜伏时间(基于相对大的子频带带宽),而不损害降噪(仍然使能在降噪时实现可接受的频率分辨率)。
[0078] 听力装置可配置成使得所述SNR到增益转换器的输出包括量值信息及相位信息。
[0079] 应用
[0080] 一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。在实施例中,提供在包括音频分布的系统中的应用,。在实施例中,提供在包括一个或多个助听器(如听力仪器)的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用,例如在免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等中的用途。
[0081] 方法
[0082] 一方面,提供一种听力装置如助听器的运行方法,听力装置配置成由用户佩戴在耳朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中。所述方法包括:
[0083] ‑按时频表示k,m提供至少一电输入信号,其中k和m分别指频率和时间,及k表示频道,所述至少一电输入信号表示声音并包括目标信号分量和噪声信号分量;及
[0084] ‑提供按时频表示的所述至少一电输入信号的(第一)目标信噪比估计量;
[0085] ‑将(第一)目标信噪比估计量(或从其得出的第二目标信噪比估计量)转换为按时频表示的相应增益值;
[0086] ‑使用神经网络提供所述(第一)目标信噪比估计量(和/或所述第二目标信噪比估计量)和/或所述相应增益值,其中所述神经网络的权重已用多个训练信号训练。
[0087] 当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方法的实施具有与对应装置一样的优点。
[0088] 计算机可读介质
[0089] 本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质,当计算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
[0090] 作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD‑ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。
[0091] 计算机程序
[0092] 此外,本申请提供包括指令的计算机程序(产品),当该程序由计算机运行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。
[0093] 数据处理系统
[0094] 一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
[0095] 听力系统
[0096] 另一方面,提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及辅助装置的听力系统。
[0097] 在实施例中,听力系统适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号,可能音频信号)可进行交换或者从一装置转发给另一装置。
[0098] 在实施例中,听力系统包括辅助装置,例如遥控器、智能电话、或者其它便携或可穿戴电子设备如智能手表等。
[0099] 在实施例中,辅助装置是或包括遥控器,用于控制听力装置的功能和运行。在实施例中,遥控器的功能被实施在智能电话中,智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案)。
[0100] 在实施例中,辅助装置是或包括音频网关设备,其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。
[0101] 在实施例中,辅助装置是或包括另一听力装置。在实施例中,听力系统包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。
[0102] 双耳听力系统
[0103] 本发明还提供双耳听力系统如双耳助听器系统,其包括第一和第二上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置如助听器。第一和第二听力装置可适于在其间建立无线链路及适于在其间交换数据。数据可包括目标SNR(如第一和第二(依存的或独立的)SNR估计量)。第一和第二听力装置的SNR到增益转换器可配置成在按时频表示估计相应的第一和第二增益值时包括相应的对侧听力装置的目标SNR估计量(例如相应的第一和第二SNR估计量)。
[0104] APP
[0105] 另一方面,本发明还提供称为APP的非短暂应用。APP包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。在实施例中,该APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。
[0106] 定义
[0107] 在本说明书中,“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。
[0108] 听力装置可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中,或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。
[0109] 更一般地,听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器,例如包括可配置(可编程)的处理器,例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中,放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件,用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息,例如由信号处理电路提供)。在一些听力装置中,输出单元可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中,输出单元可包括一个或多个用于提供电信号的输出电极(例如用于电刺激耳蜗神经的多电极阵列)。在实施例中,听力装置包括喇叭扩音器(包括多个输入变换器和多个输出变换器,例如用在音频会议情形)。
[0110] 在一些听力装置中,振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中,振动器可植入在中耳和/或内耳中。在一些听力装置中,振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中,振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中,输出电极可植入在耳蜗中或植入在颅骨内侧上,并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。
[0111] 听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中,例如经到编程装置(验配系统)的接口上传到听力装置,并由听力装置的可配置的信号处理电路执行的处理算法使用。
[0112] “听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”,其与听力装置通信并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。
[0113] 本发明的实施例如可用在下述应用中:音频装置如助听器、头戴式耳机、移动电话等,通常在包括有噪声信号的声学环境中工作,其中目标信号应被改善以增强用户对目标信号的感知。附图说明
[0114] 本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
[0115] 图1示意性地示出了典型的听力仪器降噪系统;
[0116] 图2示意性地示出了跨不同频道的信息的使用,通过使第k个频道的增益估计量不仅取决于第k个频道的SNR而且取决于多个相邻如所有频道的SNR估计量来改善降噪系统;
[0117] 图3示意性地示出了在根据本发明的听力装置中,使用神经网络(NN)将跨频率估计的SNR值映射到跨频率的增益值的向量;
[0118] 图4示出了具有M=3层的(前馈)神经网络的示例性结构;
[0119] 图5示出了在每一单独的频道中使用单独的映射将SNR映射到增益与对于所有频率应用联合增益映射例如基于神经网络之间的比较;
[0120] 图6示出了根据本发明的听力装置的实施例,其中神经网络的输入不仅包括当前SNR估计量,而且包括从先前时间帧获得的SNR估计量;
[0121] 图7示出了为找到从n频道SNR估计量到k频道增益向量的映射进行优化的神经网络;
[0122] 图8示出了将SNR估计量映射到增益向量的备选神经网络,其中该神经网络朝向改善当前SNR估计量进行优化;
[0123] 图9示出了提出的、应用于耳蜗植入型听力装置的概念,其中SNR估计量(可能及其它增益贡献)被映射到电极刺激;
[0124] 图10示出了SNR‑增益映射可怎样扩展到双耳听力系统,其中不仅本地SNR估计量用作神经网络的输入;
[0125] 图11示出了根据本发明的听力装置,其包括用于对来自多个传声器的电输入信号进行空间滤波的波束形成器,及其中波束成形信号用作降噪系统的输入;
[0126] 图12示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器,其中第二估计器基于经训练的受控偏差和平滑算法(Directed Bias and Smoothing Algorithm,DBSA)(DBSA’);
[0127] 图13A示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器,其中第二估计器基于US20170345439A1中描述的受控偏差和平滑算法(DBSA),及其中SNR‑增益转换器基于神经网络;
[0128] 图13B示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器,其中第二估计器基于经训练的受控偏差和平滑算法(DBSA’),及其中SNR‑增益转换器基于传统算法;
[0129] 图14示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器;
[0130] 图15示出了包括多式输入及包含神经网络以将所得增益提供为输出的SNR‑增益映射的示例性SNR估计;
[0131] 图16A示出了根据本发明的听力装置的实施例,其包括具有固定的最大衰减的降噪系统;
[0132] 图16B示出了根据本发明的听力装置的实施例,其包括具有根据输入信号调制而自适应确定的最大衰减的降噪系统;
[0133] 图16C示出了根据本发明的听力装置的实施例,其包括具有根据输入信号的噪声和语音的重叠稀疏度而自适应确定的最大衰减的降噪系统;
[0134] 图17示意性地示出了根据本发明的SNR到增益估计器的神经网络的训练设置;及[0135] 图18示出了以约125Hz的基频讲出的信号的波形(上部)及该波形的对应谱图(下部)。
[0136] 通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。

具体实施方式

[0137] 下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
[0138] 电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件中间件微码、硬件描述语言还是其他名称。
[0139] 本申请涉及听力装置如助听器或耳机领域。
[0140] 图1‑3的框图为示意性的图且应被解释为包括下述实施:由SNR到增益估计器SNR2G提供的随频率而变的增益G(k,m)(例如经相应的组合单元)应用于来自分析滤波器组FB‑A的输入信号IN(k,m)以提供输出信号OUT(k,m),其被馈给合成滤波器组FB‑S。这样结构的解决方案在图7、12、13B中提供。这同样适合于图6、8、11、13A、14、16A、16B、16C的实施例。类似地,更多的功能单元可被包括在多个不同实施例中,例如波束形成(例如如图11中所示)、压缩、移频、反馈控制等。
[0141] 图1示出了典型的听力仪器降噪系统。在传声器处记录的音频信号利用分析滤波器组转换为不同的频道,每一频道表示一频率范围。在每一频道中,信号被分析以估计给定时间和频率的当前信噪比SNR。每一SNR被映射到增益,其中低SNR被衰减(假定噪声为主)及高SNR保持不变(假定感兴趣的信号为主)。在增益已被应用到每一频道中时,信号被转换回到时域的增强音频信号。
[0142] 音频信号如语音包含分量(如谐频或起始段),它们跨不同的频道高度相关。当在单独的频道中应用处理时,跨频率的信息未被完全利用。藉此,听力仪器未利用某些可用于改善降噪的信息。
[0143] 图2示出了跨不同频道的信息的使用,通过使第k个频道的增益估计量不仅取决于第k个频道的SNR而且取决于多个相邻如所有频道的SNR估计量来改善降噪系统。
[0144] 所提出的解决方案的示意性图示在图2中给出。与图1(其中第k个频道中的增益仅取决于第k个频道中估计的SNR)相反,第k个频道中的增益可取决于所有K个频道的估计的SNR值,即
[0145] G(k)=f(SNR(1),...,SNR(k),...,SNR(K))
[0146] 人工找到并调整将跨频率的不同SNR估计量组合为一增益的最佳方式富有挑战性。为此,我们提出应用神经网络(NN),其已被优化以找到从跨频率的一组SNR估计量到一组随频率而变的增益值的最佳映射。这在图3中示出。
[0147] 图3示出了在根据本发明的听力装置中,使用神经网络NN将跨频率估计的SNR值映射到跨频率的增益值的向量。
[0148] 神经网络可基于估计的信噪比作为从有噪声输入混合获得的输入及其对应的输出作为主要包含所需信号的降噪后的输入信号的跨频率向量的例子进行训练。图4给出了[l] [l‑1]具有M=3的前馈神经网络的例子。输入信号被传过a =f(Wa +b)类型的多个非线性层。
第l层的第n个节点 取决于先前层的所有节点,即
其中 和 为经训练的权重及f为非线性函数。当神经网络包含一个以上隐藏层时,其被称为深度神经网络(DNN)。神经网络的权重通常使用反向传播进行训练,其中这些权重进行更新以使某一给定价值函数最小化。例如,神经网络的权重W,b可进行优化,使得跨所有频道的差在希望的输出y(k)(在训练时,提前知道)与估计的输出 之间,
其中x(k)为第k个频道中的有噪声音频信号。有噪声音频信号x(k)可以是预处理的信号如波束形成器的输出。价值函数可表达为例如线性域或对数域中的距离度量。在降噪时,总是希望消除所有噪声,因为听者想要知道环境。神经网络可朝向仅部分衰减混合信号的噪声分量进行优化,即训练中使用的目标信号可包含噪声,其已被衰减例如10dB或15dB或20dB。
藉此,由于增益变化变得更小,可使用更小的神经网络。
[0149] 前馈神经网络仅用作例子。其它类型的网络结构也可应用,例如卷积神经网络(CNN)或递归神经网络如长短期记忆(LSTM)神经网络。也可应用其它机器学习技术。神经网络可被全连接,即所有节点彼此连接。作为备选,神经网络可以是稀疏网络,例如每一节点仅可被连接到相邻频道、最近的频道或者k个最近的频道,导致W的对角线状结构(例如(粗)对角线,指包括具有变化宽度的多根对角线)。藉此,首选最近频率之间的连接,计算成本得以降低。在深度网络的情形下,所有频道仍可能彼此影响,即使每一层均具有到附近频道的连接。
[0150] 图5示出了在每一单独的频道中使用单独的映射将SNR映射到增益与对于所有频率应用联合增益映射例如基于神经网络之间的比较。图5的左部示出了SNR(k,m),其中k为频率(记为“频率”的纵轴)及m为时间(记为“时间”的横轴)。图5的右部示出了源自SNR‑增益变换的对应的Gain(k,m)。图5示出了其中来自相邻频率的SNR估计量未被考虑时从SNR到增益的本地映射(G(k)=f(SNR(k))(参见图的上部)与其中增益基于来自所有频道的SNR估计量进行估计时的增益映射(G(k)=f(SNR(1),…,SNR(K))(参见图的下部)之间的差。在增益图中(图5的右部),白色区域指对应的时频单元应被衰减,而灰色/黑色区域指对应的时频单元应保持不变。可以看出,当已考虑跨频率信息时,计算的增益跨频率更相关(参见右下图中的纵向“线图”)。
[0151] 上面示出的例子示出了仅将当前估计的SNR取作输入的神经网络。此外,先前的SNR估计量可用作神经网络的输入。通过使用递归网络结构,该神经网络也能够利用来自先前时间帧的SNR估计量的信息。这在图6中示出。图6示出了根据本发明的听力装置的实施例,其中神经网络的输入不仅包括当前SNR估计量,而且包括从先前时间帧获得的SNR估计量。先前时间帧例如可以是最近的时间帧,其可以是两个最近的时间帧。先前时间帧可被下采样,例如由每第二个先前时间帧或每第三个先前时间帧组成,甚至更高的步幅。
[0152] 在听力仪器如助听器中,通过听力仪器的潜伏时间通常低于10毫秒。由于该限制,滤波器组的频率分辨率有限。
[0153] 利用神经网络结构进行估计的信噪比到增益函数的映射的优点之一在于,其允许从多个频道处获得的估计的信噪比映射,这些频道不同于应用增益的频道。因而我们可从滤波器组获得SNR估计量,其具有比助听器中通常允许的频率分辨率高的频率分辨率。作为备选,增益估计量可基于SNR估计量,其中SNR估计量的频率分辨率低于所希望增益的频率分辨率。藉此,更容易考虑例如语音信号的谐波结构。因而,神经网络将被优化以找到从n频道SNR估计量(或另一输入)到k频道增益的最佳可能映射。这在图7中例示。
[0154] 图7示出了为找到从n频道SNR估计量到k频道增益向量的映射进行优化的神经网络。
[0155] 作为将SNR估计量映射到增益向量的备选,可应用神经网络以改善估计的SNR,如图8中所示。在该情形下,价值函数朝向使改善的SNR即SNR’与理想SNR(可在训练数据中获得)之间的距离最小化进行优化。
[0156] 图8示出了将SNR估计量映射到增益向量的备选神经网络,其中该神经网络朝向改善当前SNR估计量进行优化。
[0157] 该方法也可用在耳蜗植入件中,其中音频信号不必须合成回到时域音频信号。而是,不同的频道被转换为电极刺激信号。在该情形下,神经网络可以是找到将SNR(或增益)估计量映射到一组电极刺激信号的最佳方式的有利方法。这在图9中例示。
[0158] 图9示出了提出的、应用于耳蜗植入型听力装置的概念,其中SNR估计量(可能及其它增益贡献)被映射到电极刺激。该神经网络可根据各个电极置放个别地训练。输出频道的非均匀分布指明电极的个别置放可在个体之间变化,用于一个体的一些电极可能不活跃。
[0159] 图10示出了SNR‑增益映射可怎样扩展到双耳听力系统,其中不仅本地SNR估计量用作神经网络的输入。在双耳听力仪器系统的情形下,本地估计的信噪比可在听力仪器之间交换并用于另一听力仪器处的增益估计。藉此,本地和外部SNR估计量将可用于神经网络。交换的、用在另一听力仪器处的SNR估计量可以是本地SNR估计量的子集,例如下采样的SNR估计量或者时间延迟的SNR估计量或者限于频道的子集的SNR估计量。
[0160] 图11示出了根据本发明的听力装置,其包括用于对来自多个传声器(M1,M2)的电输入信号(IN1(t),IN2(t))进行空间滤波的波束形成器BF,及其中波束成形信号YBF(k,m)用作降噪系统的输入。除另外的多传声器及波束形成器布置(代替单一传声器)之外,图11的实施例与图3的实施例类似。然而,在本发明所示的任何实施例中,多传声器‑波束形成器BF均可存在,如图2、3、6、7、8、9、10、12、13A、13B、14、15、16A、16B、16C的实施例。
[0161] 图12示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器,其中第二估计器基于经训练的受控偏差和平滑算法DBSA’。听力装置包括传声器M,其提供表示听力装置环境中的声音的时域电输入信号IN(t)(t表示时间)。该听力装置还包括分析滤波器组FB‑A,用于将时域信号转换为包括K个子频带信号的频域信号IN(k,m),其中k(=1,…,K)和m分别为频率和时间指数。传声器M或分析滤波器组FB‑A可包括适当的模数转换器电路以将模拟电输入信号提供为数字化样本。听力装置还包括(第一)信噪比估计器SNR‑EST,用于提供每一子频带信号IN(k,m)的(第一)SNR估计量SNR(k,m)。(第一)信噪比估计器SNR‑EST中的贯通虚线指给定“频道”k的SNR估计量独立于其它频道(同样在图1、2、3、6、7、8、9、10、11和13A、13B、14、15、16A、16B、16C中标示),即例如不通过神经网络实施。然而,第一信噪比估计器SNR‑EST也可基于神经网络。听力装置还包括(第二)信噪比估计器SNR2SNR’,其将第一信噪比估计器SNR‑EST提供的SNR转换为(改善的)第二信噪比SNR’(k,m),第二信噪比然后由SNR‑增益转换器SNR2G用于针对每一子频带提供适当的、将应用于输入信号IN(k,m)的(降噪)增益G(k,m)。在图12的实施例中,(第二)信噪比估计器SNR2SNR’基于经训练的受控偏差和平滑算法DBSA’。受控偏差和平滑算法(DBSA)在(本申请的部分发明人发明的)美国专利申请US20170345439A1中描述,其中第一信噪比SNR的非线性平滑提供第二信噪比SNR’。给定频道的第二SNR的估计通过第一信噪比的低通滤波实施(参见图12中的LP单元),其中各个低通滤波器的时间常数或截止频率自适应确定。非线性平滑基于自适应确定的(随SNR而变的)偏差(参见单元ρ)及每一子频带k的所述时间常数或截止频率。自适应性在图12中通过穿过偏差单元ρ和低通滤波器LP的箭头标示。在US20170345439A1的公开内容中,第二信噪比SNR’通过递归算法及所提及的自适应确定的偏差和平滑参数从第一信噪比SNR确定。在图12的实施例中,偏差和时间常数/截止频率参数通过有监督的学习确定,例如使用迭代、最速下降或最速上升方法,例如通过神经网络实施。(优化的)偏差和平滑参数(在图12中由权重矩阵W1标示)和SNR到增益单元SNR2G的神经网络的(优化的)权重W2可从包括多个(如大量)有噪声测试信号及对应的(已知)纯净信号的第一信噪比SNR(k,m)和适当的价值函数的训练数据确定,在图12中使用SNR到增益单元(及组合单元“x”)提供噪声降低的信号OUT(k,m)(=G(k,m)IN(k,m))。该噪声降低的信号OUT(k,m)可能通过将适当的其它算法应用于噪声降低的信号(例如将随频率和电平而变的增益(衰减)应用于噪声降低的信号的电平‑压缩)而进一步处理。这样的进一步处理未在本发明的实施例中示出,但当然可在从子频带信号OUT(k,m)提供时域输出信号OUT(t)的合成滤波器组之前(或之后)插入。输出信号OUT(t)被馈给输出变换器,在此为扬声器SPK,用于将所得信号作为可由用户感知为声音的刺激呈现给用户。
[0162] 在本发明的某些实施例中,输出单元被示为扬声器。然而,其可包括骨导型听力装置的振动器或者耳蜗植入型听力装置的多电极阵列或其组合。
[0163] 图1、2、3、6、8、9、11、13A、14、15的实施例被示为执行输入信号的所有处理的一个信号通路或者正向通路。然而,其可以其它方式实施,例如具有分析通路或正向(信号)通路,如图7、12和13B中所示,其中降噪增益(如衰减)在分析通路中确定并由正向通路中的组合单元x应用于输入信号。
[0164] 图13A示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器,其中第二估计器基于US20170345439A1中描述的受控偏差和平滑算法(DBSA),及其中SNR‑增益转换器SNR2G基于神经网络。否则,图13A的实施例与图12的实施例类似。
[0165] 图13B示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器(分别为SNR‑EST和SNR2SNR’),其中第二估计器基于经训练的受控偏差和平滑算法DBSA’,如结合图12所述,及其中SNR‑增益转换器基于传统算法(如齐纳(Wiener)增益函数或其它适当方案)。
[0166] 图14示出了根据本发明的听力装置的实施例,其包括第一和第二SNR估计器(分别为SNR‑EST和SNR2SNR’)。图14的实施例与图13A的实施例类似,但在图14的实施例中,第一和第二SNR估计器(分别为SNR(k,m)和SNR’(k,m))的输出作为用于实施SNR‑增益转换器SNR2G的神经网络NN的输入并行应用(而在图13A中,仅第二SNR估计器SNR’用作SNR‑增益转换器SNR2G的神经网络的输入)。第二SNR(SNR’)的参数可以是第一SNR的(例如自适应)平滑版。SNR’估计的平滑参数也可视为神经网络的一部分(如图13B中所述)。SNR2SNR’指该文本下方的提供第二SNR估计量(信号SNR’(k,m))的模块。
[0167] 图15示出了包括多式输入并提供所得的估计的SNR值SNRR(k,m)的示例性SNR估计模块SNR‑EST,及包含神经网络NN以将所得增益G(k,m)提供为输出的SNR‑增益映射模块input2G,k和m分别为频率和时间指数。图15示出了根据本发明的听力装置的输入部分。该输入部分还包括提供(时域)电输入信号IN(t)的输入变换器(在此为传声器M)和将电输入信号提供为相应子频带信号IN(k,m)的分析滤波器组FB‑A。额外的输入可以是从输入信号IN得出的另一特征。该特征可以是包含跨频率的值的向量,该特征可以是标量如自我话音标志。该特征可以是基于其它特征的另一信噪比估计量。该特征可源自另一装置如另一听力装置或智能电话。在该情形下,该特征不源自(本地)输入信号IN。该图例示神经网络NN可具有用于SNR估计的多式输入。除SNR之外,另外的输入也可进一步改善神经网络输出。这样的另外的输入信号可以是下述之一或多个:
[0168] ‑(单通道或多通道)话音活动标志;
[0169] ‑(单通道或多通道)自我话音活动标志;
[0170] ‑不同的SNR估计量。SNR估计量例如可基于信号调制(基于至少一传声器信号)或空间特性(利用至少两个传声器信号,或双耳SNR估计量(如结合图10所提及的));
[0171] ‑起始标志(如由起始或瞬态检测器提供,例如从时域信号直接得出);
[0172] ‑估计的到达方向(DoA)信息;
[0173] ‑基于摄像机的输入,例如捕获读唇或喉部运动信息。
[0174] 下面与结合图18的公开有关:SNR估计器(例如实施为神经网络)的或者直接给神经网络input2G的另外的输入例如可包括来自分析滤波器组的电(子频带)输入信号的相位信息。相位信息例如可包括随时间的相位变化,例如每频带的相位变化。这样的“d(phase)/dt”信息表示给定频带中的频率含量,例如频带的“含量”位于哪些频率处。从而可实施相对宽的频带(有利于保持滤波器组的潜伏时间低),同时仍能够(例如使用神经网络)将噪声衰减聚焦于子频带内的频率范围。神经网络input2SNR的输出可以是(如通常那样)实值增益G(k,m)或者可以是复值增益G(k,m)(或者分开的实值增益和实值相位)。
[0175] 多式输入也可以是上面提及的输入信号的组合。
[0176] 在本发明的一方面,听力装置配置成使得最大降噪量可取决于噪声类型。由于非自然信号(例如源自降噪)可能因噪声类型而不同,最大衰减量可取决于背景噪声的类型,如取决于调制量。例如,如果背景噪声被调制,相较于未调制的背景,可容许更高的衰减量。
[0177] 图16A、16B、16C示出了根据本发明的包括降噪系统的听力装置的不同实施例。这些听力装置实施例与图3的实施例类似,但在正向通路中包括额外的用于控制降噪的最大衰减的模块max。图16A、16B、16C的实施例可按结合图3所述实施或者使用分析通路确定适当的(随频率而变的)增益(衰减)及使用正向通路,其中这些增益被应用于电输入(子频带)信号,如图7(或图12或13B)中所示。三个实施例在确定降噪系统的最大衰减方面不同(参见图16A、16B、16C中的模块max)。三个实施例分别展现固定的最大衰减(图16A)和自适应确定的最大衰减(图16B、16C)。这些实施例还可包括不同于图16A、16B、16C中所示的功能单元(如处理单元)。
[0178] 图16A示出了根据本发明实施例的听力装置(或其一部分)。从神经网络得出的增益可能限于某一衰减量。例如,根据应用,系统不允许衰减例如5dB或10dB或15dB或20dB以上。最大衰减可以是固定值。最大衰减可随频率而变(但对于每一频带固定)。这在图16A中示出。
[0179] 一般地,在训练神经网络的同时,最大衰减也可被反映在训练数据中。不是以纯净目标信号为目标,而是目标可以是有噪声目标信号,其中噪声已被衰减某一量如10dB。有噪声目标信号中的衰减量可取决于噪声类型。
[0180] 作为备选,最大衰减可使用有监督的学习进行调整,例如用通过最大衰减标记的不同噪声类型训练神经网络。
[0181] 最大衰减例如可自适应确定,例如从输入电平、信噪比或声音环境确定。
[0182] 一些噪声类型可能相较于其它噪声类型更适合快速变化的增益。例如,在时间和频率方面与所希望的语音信号具有小重叠的稀疏背景噪声相较于与所希望的语音信号具有高度重叠的背景噪声可被衰减得更多(而不引入非自然信号)。
[0183] 语音与噪声之间的重叠可通过(例如将目标抵消波束形成器用作噪声估计)测量背景信号的调制量进行估计。这在图16B中示出,其与图16A类似,但固定不动(未调制)的噪声源的最大衰减可低于更多调制的背景(如多讲话者乱哄哄的说话声)允许的最大衰减。后者由上图图示,其示意性地示出了最大增益[dB](纵轴)与调制度(横轴)之间的关系。直线指明随调制度(如调制指数)递增而递增的最大衰减(递减的增益)。横轴的位置可指明纵轴上0dB的位置。来自该确定最大衰减值的图的箭头指明馈给控制单元的(可能随频率而变的)衰减值,控制单元用于将所得增益值应用于正向通路的电信号。控制模块可基于不同的输入特征(例如不仅仅基于调制)确定最大衰减。
[0184] 作为备选,背景噪声的稀疏度可进行估计,例如按“语音的基尼(Gini)指数”(或类似参数)进行估计(例如参见[Rickard&Fallon;2004])。这在图16C中示出,其与图16B类似,但其上图指明随稀疏度(例如背景噪声的时间和/或频率与(目标)语音的重叠)递增而递增的最大衰减(递减的增益)。
[0185] 噪声的其它特性/特征也可用于确定最大衰减,例如音调分量、音乐或音高或声学特征的检测如噪声场的散播量。
[0186] 图17示意性地示出了根据本发明的SNR到增益估计器的神经网络的训练设置。图17示出了包括纯净语音S的时间段的适当例子(下标p,p=1,…,P)的数据库DB‑S‑N,每一时间段例如大于1s,例如在1s到20s的范围中。该数据库可包括按时频表示的每一时间段S(k,m),其中k为频率指数及m为时间指数。该数据库可包括第p个语音段的噪声N的对应例子(例如不同类型的噪声和/或不同的噪声量(电平)),例如按时频表示N(k,m)。纯净语音Sp(k,m)和噪声Np(k,m)的不同的对应时间段可单独(并行)呈现给用于针对语音与噪声的给定组合Sp(k,m),Np(k,m)提供最佳增益G‑OPTp(k,m)的模块OPTG。类似地,纯净语音Sp(k,m)和噪声Np(k,m)的不同的对应时间段可混合,及混合信号INp(k,m)可被呈现给SNR估计器SNR‑EST以针对语音与噪声的给定组合Sp(k,m),Np(k,m)提供有噪声(混合的)输入信号INp(k,m)的估计的SNR即SNR‑ESTp(k,m)。估计的SNR即SNR‑ESTp(k,m)被馈给实施为神经网络如递归神经网络的SNR到增益估计器SNR2G,其提供对应的估计的增益G‑ESTp(k,m)。相应的最佳及估计的增益(G‑OPTp(k,m),G‑ESTp(k,m))被馈给价值函数模块LOSS,其提供当前“价值”(“误差估计量”)的度量。该“价值”或“误差估计量”迭代地反馈回到神经网络模块SNR2G以修改神经网络参数直到实现可接受的误差估计量为止。
[0187] 神经网络可被随机初始化,及其后可被迭代地更新。优化的神经网络参数(如权重,及每一节点的偏差值)可使用标准、迭代随机梯度根据神经网络输出G‑ESTp(k,m)和最佳增益G‑OPTp(k,m)找到,例如最速下降或最速上升方法,例如使用使价值函数例如均方误差最小化的反向传播实施(参见信号ΔGp(k,m))。价值函数(例如均方误差)跨输入信号的许多训练对进行计算(p=1,…,P,其中P可以≥10,例如≥50,例如≥100或更大)。
[0188] 优化的神经网络参数可存储在实施在听力装置中的SNR到增益估计器SNR2G中并用于从随频率而变的输入SNR值例如从“后验SNR”(简单的SNR,例如(S+N)/)或从“先验SNR”(改善的SNR,例如/)或从二者(其中<●>指估计量)确定随频率而变的增益。
[0189] 也可使用其它训练方法,例如参见[Sun et al.;2017]。
[0190] 使用相位信息的降噪
[0191] 一般地,听力装置需要低潜伏时间信号处理。这对可实施在滤波器组中的频带的最小宽度提出限制(较窄的频带导致较高的潜伏时间)。具有在滤波器组中使用128频带FFT的20kHz采样率的助听器在频带中心之间具有20kHz/128=156.25Hz的间隔。除此之外,在频带之间实施明显的重叠。相反,512点FFT用于分析16kHz的信号,导致31.25Hz的频带间隔,没有或仅具有小的重叠。人类语音具有~80‑450Hz的基频,参见图18中具有~125Hz的基频的语音谱图(下部)。图18的上部示出了信号波形的时间段(振幅‑时间[s]),其被提供为图18下部的时频图(谱图,频率[Hz]‑时间[s])。具有明显小于基频的滤波器组分辨率使能在讲话者活跃的同时去除语音的谐波带之间的噪声。这非常有效,且对于神经网络学习怎样进行令人惊奇地容易。然而,代价是不能保持非常低的潜伏时间。
[0192] 目前通常使用的后滤波器为什么不能任意地改善信号的一个原因是它们仅将(实值)增益/衰减应用于有噪声信号(在频域)。因此,它们仅能以在不改变信号相位的情形下可实现的程度去除噪声。该约束条件与估计做正确的事的“难度”没有关系,其仅对于基于分开的目标语音和噪声知识计算的理想增益艰难。这部分地是由于降噪性能通过滤波器组分辨率确定。具有良好的分辨率(许多频带)时,简单的实值衰减可去除语音的谐波分量之间的噪声,但在具有较低分辨率(较少频带)时,每一频带跨越一个以上谐波分量。在后一情形下,关于语音谐波之间的有噪声间隙的信息被埋在(当前)降噪系统不能修改的相位中。因此,提供能够控制相位及量值的降噪算法将有利。
[0193] 提出一种解决方案:通过使降噪系统也能修改有噪声信号的相位,理论上可完全控制输出信号。这也可看作使降噪系统能应用复数增益代替实数增益。例如,如果目标语音和噪声分开地已知,构建完全恢复纯净语音(即实现无限SNR改善)的理想复数增益没有意义。这样的系统的降噪性能因而完全通过准确逼近前述增益的能力确定而不是通过使用的滤波器组设置确定。
[0194] 该想法在基本形式上与本申请中的现有图一致。例如,如果我们看图7,并假定基于神经网络的SNR到增益单元(SNR2G,DNN)的输出即增益G(k,m)为复数。在实践中,我们也可能想要从分析滤波器组FB‑A提取一些相位信息并将相位信息转发给DNN。DNN例如可配置成将复数增益G(k,m)提供为输出。DNN可配置成对于每一频道输出以dB计的一个增益(量值)及以弧度计的一个单独的相位项。这两个然后可被转换为复数增益。也可选择配置前述系统的其它方式,但主要想法是:1)DNN(除SNR信息之外)还被提供关于其输入中的有噪声信号相位的信息;及2)DNN被使能产生不仅影响输出信号的量值而且影响相位的输出(所得的(复数)信号被转发给图7中的合成滤波器组FB‑S)。这例如可按图15中所示实施。
[0195] 代替直接的相位信息PH(k,m),子频带相位信息随时间的变化ΔPH(k,m)/Δm例如PH(k,m)‑PH(k,m‑1)可被馈给SNR估计器(或者直接馈给SNR到增益转换器(神经网络))。这样的随时间相位信息变化代表给定频带中频率含量的位置,并可由神经网络用于定位能量位于给定子频带中的何处。从而神经网络可使能以比通常(仅将量值信息用作输入)允许的子频带宽度更大的分辨率处理噪声分量。从而可实现相对低的滤波器组潜伏时间(基于相对大的子频带带宽),而不损害降噪(仍然使能在降噪时实现可接受的频率分辨率)。
[0196] 当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
[0197] 除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
[0198] 应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。
[0199] 权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
[0200] 因而,本发明的范围应依据权利要求进行判断。
[0201] 参考文献
[0202] ·US20170345439A1(Oticon)30.11.2017
[0203] ·[Rickard&Fallon;2004],Rickard,S&Fallon,M 2004,The Gini index of speech.in Proceedings of the 38th Conference on Information Science and Systems(CISS’04).
[0204] ·[Sun et al.;2017]Lei Sun,Jun Du,Li‑Rong Dai,Chin‑Hui Lee,Multiple‑target deep learning for LSTM‑RNN based speech enhancement,IEEE Hands‑free Speech Communication and Microphone Arrays,HSCMA 2017,pp.136‑140.
QQ群二维码
意见反馈