首页 / 专利库 / 信号处理 / 小信号增益 / 听力测试和音频信号的修改

测试和音频信号修改

阅读:1017发布:2020-09-09

专利汇可以提供测试和音频信号修改专利检索,专利查询,专利分析的服务。并且一种方法,包括:通过在通信网络中的网络实体与用户的用户设备之间建立的通信链路为用户进行听 力 测试;其中听力测试包括通过通信链路以多个测试 频率 向用户设备提供音频刺激,并监视从用户设备接收的对于音频刺激的响应性;基于听力测试的结果,生成听力简档;以及将听力简档和与用户相关联的信息存储在网络实体的 存储器 中,使得听力简档可用于 修改 去往用户设备的音频 信号 。,下面是测试和音频信号修改专利的具体信息内容。

1.一种方法,包括:
经由在通信网络中的网络实体与用户的用户设备之间建立的通信链路为用户实施听测试;
其中听力测试包括经由所述通信链路以多个测试频率向所述用户设备提供音频刺激以及监视从用户设备接收的对于音频刺激的响应性;
基于听力测试的结果,生成听力简档;以及
将听力简档和与用户相关联的信息存储在网络实体的存储器中,使得听力简档可用于修改去往用户设备的音频信号
2.如权利要求1所述的方法,其中,与用户相关联的信息包括用户的标识符和/或用户设备的标识符。
3.如权利要求1或权利要求2所述的方法,其中,音频刺激包括白噪声,该白噪声基于一个或多个人类语音。
4.如任何前述权利要求所述的方法,所述音频刺激包括1/3倍频程的宽带噪声。
5.如任何前述权利要求所述的方法,其中,以多个测试频率向用户提供音频刺激包括以500Hz;1000Hz;2000Hz;3000Hz;6000Hz中的两个或更多个提供音频刺激。
6.如任何前述权利要求所述的方法,该方法包括获得用户的听力损失的指示以及使用所述听力损失的指示来确定听力测试的初始音量。
7.如任何前述权利要求所述的方法,包括响应于监视响应性而调整每个测试频率下的音频刺激的音量。
8.如权利要求7所述的方法,其中,响应于来自用户的肯定响应,该方法包括减小音频刺激的音量。
9.如权利要求7所述的方法,其中,响应于来自用户的空响应,该方法包括增大音频刺激的音量。
10.如任何前述权利要求所述的方法,其中,每个音频刺激的持续时间是等于或大约
1000ms。
11.如任何前述权利要求所述的方法,其中,每个音频刺激包括在背景噪声级别与60dB或大约60dB之间增大/减小音量的一个或多个斜坡。
12.如任何前述权利要求所述的方法,其中,该方法包括以视觉的方式向用户和/或操作者显示听力测试的结果。
13.如任何前述权利要求所述的方法,包括使用存储的用户的听力简档来实时地修改去往用户的音频信号,所述音频信号的修改是在网络实体处执行的,使得经修改的音频信号被递送到用户的用户设备。
14.如权利要求13所述的方法,修改音频信号包括以下中的一项或多项:对音频信号进行滤波;调整音频信号的幅度;调整音频信号的频率;调整音频信号的音高和/或音调
15.如权利要求13或权利要求14所述的方法,修改音频信号包括在所述用户和第二用户之间的呼叫中修改第二用户的语音信号
16.如任何前述权利要求所述的方法,包括:使得能够进行提供音频信号修改的设置的选择性激活或停用。
17.如任何前述权利要求所述的方法,包括:使用用户设备的一个或多个麦克测量环境噪声,在与用户设备具有所述通信链路的网络实体处接收来自用户设备的环境噪声信息,以及将接收到的环境噪声信息存储在所述网络实体处,该网络实体存储有用于修改去往用户的音频信号的听力简档。
18.如任何前述权利要求所述的方法,包括确定用于将音频信号递送到用户设备的信道插入增益。
19.如任何前述权利要求所述的方法,包括将音频信号分成多个通道。
20.如任何前述权利要求所述的方法,包括确定每个通道的功率级别。
21.如权利要求18或从属于其的任何权利要求所述的方法,其中,在去往用户的音频信号的动态压缩之前应用信道插入增益。
22.一种方法,包括:
经由在用户设备和通信网络中的网络实体之间建立的通信链路参与针对用户的听力测试,以便提供用户的听力简档;
其中听力测试包括经由所述通信链路以多个测试频率在所述用户设备处接收音频刺激,并向网络实体提供对于音频刺激的一个或多个响应;以及
随后在用户设备处接收取决于听力简档而修改的音频信号。
23.一种服务器,被布置为执行如权利要求1至21中任一项所述的方法。
24.一种用户设备,被布置为执行如权利要求22所述的方法。
25.一种包括指令的计算机可读介质,所述指令在被执行时使处理器执行权利要求1至
21或权利要求22中任一项所述的方法。

说明书全文

测试和音频信号修改

技术领域

[0001] 本公开涉及听力测试。本公开还涉及使用听力测试的结果来修改音频信号(例如语音和音乐)。它特别适用于但不限于为具有可解决的听力损失或需求的人增强音频信号,特别是在诸如移动电话网络之类的通信网络上。

背景技术

[0002] 对于移动或固定设备(例如移动电话或固定电话)上的增强音频的当前解决方案提供了可以加载到典型用户设备中或由典型用户设备实现的软件应用,以在移动或固定终端上模拟助听器,例如通过利用数字技术在用户设备处使用本地处理来为轻度至重度听力损失的人模仿助听器,但不适用于可能需要专科治疗或医疗解决的严重至极度听力损失的情况。其它解决方案针对轻度至重度听力损失的人,通过替换助听器或植入物或者与助听器或植入物协作来向移动设备提供复杂的设备配件作为附件。
[0003] 这种解决方案需要用户设备处的处理能力和/或附加的硬件固件
[0004] 因而,存在例如在网络级别提供由中央系统执行的音频增强的便利性的需求,使得增强对于用户设备是透明的,并且因此可以在任何用户设备(其可以是移动的、固定的或独立的扬声器或其它这种通信方法)上实现或向任何用户设备提供,并且不限于具有更大处理能力和本地资源的更高端设备。另外,避免对于设备配件的需求可以增加对于更多用户的音频增强可用性,因为硬件或固件要求降低,实现成本和能量使用可以更低,因此有可能允许音频增强到达更广泛的用户。发明内容
[0005] 根据一方面,提供了一种方法,包括:经由在通信网络中的网络实体与用户的用户设备之间建立的通信链路为用户实施听力测试;其中听力测试包括经由所述通信链路以多个测试频率向用户设备提供音频刺激,并监视从用户设备接收到的对于音频刺激的响应性;基于听力测试的结果,生成听力简档(hearing profile);以及将听力简档和与用户相关联的信息存储在网络实体的存储器中,使得听力简档可用于修改去往用户设备的音频信号。
[0006] 与用户相关联的信息可以包括用户的标识符和/或用户设备的标识符。
[0007] 根据一些实施例,听力简档被存储于其中的网络实体是与用户设备具有所述通信链路的相同网络实体。
[0008] 根据一些实施例,听力简档被存储于其中的网络实体包括第二网络实体,并且与用户设备具有所述通信链路的网络实体包括第一网络实体,第一网络实体和第二网络实体彼此通信。
[0009] 根据一些实施例,标识符包括唯一标识符。
[0010] 根据一些实施例,标识符包括MSISDN。
[0011] 音频刺激可以包括白噪声,白噪声基于一个或多个人类语音(human voice)。
[0012] 音频刺激可以包括1/3倍频程(1/3octave)的宽带噪声。
[0013] 以多个测试频率向用户提供音频刺激可以包括以500Hz;1000Hz;2000Hz;3000Hz;6000Hz中的两个或更多个提供音频刺激。
[0014] 根据一些实施例,以步进(stepwise)方式向用户提供多个测试频率。
[0015] 根据一些实施例,该方法包括在播放音频刺激之前同步用户设备和与用户设备具有通信链路的网络实体之间的时钟。
[0016] 该方法可以包括获得用户的听力损失的指示以及使用听力损失的指示来确定听力测试的初始音量。
[0017] 该方法可以包括响应于监视响应性而调整每个测试频率下的音频刺激的音量。
[0018] 响应于来自用户的肯定响应,该方法可以包括减小音频刺激的音量。
[0019] 根据一些实施例,减小音量包括以5dB步长减小音量。
[0020] 响应于来自用户的空响应,该方法可以包括增加音频刺激的音量。
[0021] 根据一些实施例,增加音量包括以10dB步长增加音量。
[0022] 每个音频刺激的持续时间可以是等于1000ms或大约1000ms。
[0023] 每个音频刺激可以包括在背景噪声级别与60dB或大约60dB之间增加/减小音量的一个或多个斜坡。
[0024] 该方法可以包括向用户和/或操作员视觉地显示听力测试的结果。
[0025] 该方法可以包括使用所存储的用户的听力简档来实时地修改去往用户的音频信号,音频信号的修改在网络实体处执行,使得经修改的音频信号被递送到用户的用户设备。
[0026] 修改音频信号可以包括以下中的一项或多项:对音频信号进行滤波;调整音频信号的幅度;调整音频信号的频率;调整音频信号的音高和/或音调
[0027] 根据一些实施例,音频信号修改由包括网络接口的声音处理引擎执行。
[0028] 修改音频信号可以包括在该用户和第二用户之间的呼叫中修改第二用户的语音信号
[0029] 该方法可以包括:启用提供音频信号修改的设置的选择性激活或停用。
[0030] 该方法可以包括使用用户设备的一个或多个麦克测量环境噪声,在与用户设备具有通信链路的网络实体处从用户设备接收环境噪声信息,以及将接收到的环境噪声信息存储在存储用于修改去往用户的音频信号的听力简档的网络实体处。
[0031] 该方法可以包括确定用于将音频信号递送到用户设备的信道插入增益。
[0032] 根据一些实施例,所确定的信道插入增益是特定于用户的。
[0033] 根据一些实施例,确定信道插入增益包括动态地改变增益。
[0034] 该方法可以包括将音频信号分成多个通道。
[0035] 根据一些实施例,多个通道包括三个或四个通道。
[0036] 该方法可以包括确定每个通道的功率级别。
[0037] 根据一些实施例,确定信道插入增益包括使用用户参数。
[0038] 根据一些实施例,用户参数包括以下中的一项或多项:用户听力阈值的初始感知估计;初始用户音量偏好;听力图(audiogram)或基于用户听力损失和用于生成听力阈值的设备的组合输入参数的用户的组合数字听力阈值信息;用户的年龄;用户的助听器信息;用户的性别。
[0039] 可以在去往用户的音频信号的动态压缩之前应用信道插入增益。
[0040] 根据一些实施例,动态压缩包括确定每个通道的攻击平和释放水平。
[0041] 根据一些实施例,攻击水平包括增益信号相对于最终值稳定的时间,并且释放水平包括增益信号相对于最终值稳定的时间。
[0042] 根据一些实施例,对于在用于动态压缩的压缩器处应用的35dB变化,攻击水平包括增益信号稳定在最终值的3dB内的时间,并且释放水平包括增益信号稳定在最终值的4dB内的时间。
[0043] 根据一些实施例,该方法包括在将音频信号传输给用户之前处理音频信号帧,音频信号帧的处理包括将有限脉冲响应滤波器应用于音频信号帧。
[0044] 一些实施例可以包括服务器,该服务器被布置为执行先前描述的任何方法特征的方法。
[0045] 根据另一方面,提供了一种方法,包括:通过在用户设备和通信网络中的网络实体之间建立的通信链路参与针对用户的听力测试,以便提供用户的听力简档;其中听力测试包括通过通信链路以多个测试频率在用户设备处接收音频刺激,并向网络实体提供对于音频刺激的一个或多个响应;以及随后在用户设备处接收根据听力简档修改的音频信号。
[0046] 一些实施例可以包括被布置为执行这个方法的用户设备。
[0047] 根据一方面,提供了一种用户设备,该用户设备包括显示器和多个麦克风。根据一些实施例,这多个麦克风是定向聚焦的。
[0048] 根据一些实施例,麦克风被配置用于与用户设备的操作系统通信。
[0049] 根据一些实施例,麦克风被配置为检测环境噪声。
[0050] 根据一些实施例,用户设备被配置为向网络实体提供环境噪声的信息。
[0051] 根据一些实施例,用户设备包括涂层或层。
[0052] 根据一些实施例,涂层或层被配置为充当天线和/或感应回路和/或拾音线圈(tele-coil)。
[0053] 根据一些实施例,涂层或层包括电池和/或处理器和/或存储器。
[0054] 根据一些实施例,涂层或层包括标记和/或物联网能力。
[0055] 根据一些实施例,涂层或层是外壳的形式,其可附接到用户设备并且可从用户设备分离。
[0056] 根据一些实施例,用户设备可以与本文描述的方法结合使用。
[0057] 根据另一方面,提供了一种去往第一用户的音频信号的实时增强的方法。这可以提供实时增强而没有过多的延迟。因此,提供了一种在网络上实时增强去往第一用户的音频信号的方法,包括在独有的听力简档中表征第一用户的听力,该简档包括预定参数,该参数是以预定的输入频率从第一用户的听力能力导出的,以及使用该听力简档的预定参数来实时地增强去往第一用户的音频信号。
[0058] 可选地,增强音频信号包括根据第一用户的听力简档的预定参数来对原始音频信号进行滤波和/或调整幅度和/或频率。
[0059] 可选地,该方法还包括:i在独有的语音简档中表征第二用户的语音,该简档包括预定参数,该参数是从第二用户的语音音高和/或音调导出的,以及使用该语音简档的预定参数来实时地增强去往第一用户的音频信号。
[0060] 可选地,增强音频信号包括根据第二用户的语音简档、朝着由第一用户的听力简档定义的要求来改变第二用户的语音的音高和/或音调。
[0061] 可选地,该方法还包括在环境噪声简档中表征网络的环境噪声,该简档包括预定的环境噪声参数,以及使用该预定的环境噪声参数来实时地增强到第一用户的音频信号。
[0062] 可选地,预定的环境噪声参数包括信噪比、回声、设备换能器影响或数据分组丢失中的至少一个。
[0063] 可选地,音频信号增强由包括网络独立接口的声音处理引擎执行。
[0064] 可选地,网络独立接口包括与参数数据库的第一接口以及与用于实时地拦截和增强音频信号的音频信号数据分组接口的第二接口。
[0065] 可选地,第二接口包括RTP接口。
[0066] 可选地,声音处理引擎驻留在服务器上,并且增强的音频信号被递送到预先增强的第一用户的设备。
[0067] 可选地,声音处理引擎驻留在第一用户的设备上,并且在声音处理引擎已经接收到预定参数之后将增强的音频信号提供给第一用户。
[0068] 可选地,音频信号被携带在IP网络上的音频数据分组中,并且进一步其中音频数据分组经由媒体网关通过SIP路由到声音处理引擎。
[0069] 可选地,通过用基于一个或多个人类语音的白噪声、以预定频率测试用户的听力来导出听力简档参数。
[0070] 可选地,每个用户由唯一标识参考标识。
[0071] 可选地,能够实时地启用和禁用音频信号的增强。
[0072] 可选地,听力简档的参数分别在用户设备和服务器时钟的同步之后确定。
[0073] 可选地,基于用户的年龄、用户的性别或自从上次导出听觉简档参数以来的时间中的至少一项来改变听力简档的参数。
[0074] 可选地,语音简档与诸如MSISDN之类的用户唯一标识参考相关联,使得当用户使用已知的MSISDN时,不需要在语音简档中重新表征用户的语音。
[0075] 根据另一方面,提供了一种用户设备,该用户设备包括被配置为执行上述方法的处理器。
[0076] 根据另一方面,提供了一种服务器,该服务器被布置为执行上述(一个或多个)方法。
[0077] 根据另一方面,提供了一种用于计算机设备的计算机程序产品,包括用于当程序在计算机设备上运行时执行任何上述方法方面的步骤的软件代码部分。计算机设备可以是服务器、计算机、用户设备、移动电话、智能电话或任何其它合适的设备。
[0078] 根据另一方面,提供了一种计算机可读介质,包括在被执行时使处理器执行任何前面的方法的指令。
[0079] 一种计算机程序,包括被配置为当在至少一个处理器上运行时使得任何前面的方法被执行的程序代码。
[0080] 在上文中,已经描述了许多不同的实施例。应当认识到的是,可以通过上述任何两个或更多个实施例的组合来提供其它实施例。附图说明
[0081] 现在将参考附图仅以示例的方式描述实施例,其中:
[0082] 图1图示了如实施例中提供的、经由增强的音频进行通信的两个用户的体系架构概述;
[0083] 图2图示了根据实施例的、通过PSTN发起的呼叫以及提供语音增强服务的呼叫的切换和路由的高级示例;
[0084] 图3图示了根据实施例的、涉及何时发生音频增强的数据协议流;
[0085] 图4图示了根据实施例的、关于第一/第二网络部署的音频增强部件;
[0086] 图5图示了根据实施例的、与呼叫发起和由声音处理引擎进行的音频增强相关联的数据流;
[0087] 图6图示了根据实施例的、通过输入调节(图6A)、输出调节(图6B)和环境调节(图6C)获取用户的听力和语音简档所涉及的处理;
[0088] 图7图示了根据实施例的、在增强音频时由声音处理引擎所进行的处理步骤;
[0089] 图8图示了音频增强的频率响应;
[0090] 图9图示了在16kHz处使用宽带语音处理的实时音频增强的频谱
[0091] 图10图示了在8kHz处使用窄带语音处理的实时音频增强的频谱;
[0092] 图11图示了根据实施例的示例用户设备;
[0093] 图12图示了根据示例的方法的流程图
[0094] 图13图示了根据示例的方法的流程图;以及
[0095] 图14图示了根据示例的用户设备。
[0096] 在附图中,相同的元件始终由相同的标号表示。

具体实施方式

[0097] 概述
[0098] 本公开说明了听力测试和语音信号的音频增强,特别是在通信网络(例如,移动通信网络)上。本公开利用一种方法,其中与用户相关联的参数首先在预定义的基础上被假设并且随后在听力测试中被精炼,然后用于在该用户通过通信网络进行通信的任何时候(优选地,在中央)增强与那个用户相关联的音频。与任何用户的听力特性相关联的参数被称为他们的听力生物计量(biometrics),并且可以通过网络中的加密来保护,以避免对该信息的无理访问
[0099] 也就是说,中央通信网络提供对音频增强的固定或移动访问,例如经由服务或其它中央资源。因此,可以通过两个用户都可访问的任何中央资源来提供增强的音频信号,并且至少一个用户已经向该中央资源以简档的形式登记了语音和/或听力参数,使得那些参数可以被应用于音频信号以提供独特的增强信号,该增强信号是为那个用户定制的(源自和/或递送到用户),优选地是在中央,或者可选地在那个用户的设备上。
[0100] 体系架构
[0101] 转到图1,示出了如实施例中提供的经由增强的音频进行通信的两个用户的体系架构概述。具有连接到第一网络11的通信设备的第一用户10和连接到第二网络13的通信设备的第二用户14能够经由通信装置12进行通信。第一和第二网络可以包括移动通信网络、固定线路网络或VoIP网络中的任何一种。通信装置12可以包括PSTN、互联网、WAN LAN、卫星或者能够递送电信服务的任何形式的传输和交换网络,例如但不限于固定线路、WiFi、IP网络、PBX(私人交换机)、应用、边缘计算、毫微微蜂窝、VoIP、VoLTE和/或物联网。基本上,可以发送/分发数字或模拟信号的任何装置(诸如国家或地方配电网络(英国的国家电网))都能够将音频信号递送给用户终端设备,然后用户终端设备处理包括音频增强的信号。在其它实施例中,音频增强可以作为应用或嵌入式固件在用户设备上被处理。
[0102] 在图1中,第一用户10可以是所公开的增强音频服务的订户15A或非订户15B。订户15A能够通过音频增强部件20获得对增强音频处理的访问,如本文进一步描述的。
[0103] 基于图1中所示的体系架构结构,并且转到图2,由第一用户10通过PSTN 12发起的呼叫的高级示例如现在所描述的那样操作。一旦呼叫被发起,第一网络11就检测第一用户1是否是订户15A。如果是,那么通过音频增强部件20提供音频增强,如果不是,那么由第一网络11将标准呼叫经由PSTN 12转发到第二用户14。
[0104] 音频增强部件20(通过虚线内的区域示出)包括媒体网关控制器21A、媒体网关21B、声音处理引擎22和配置管理模23,并且可以位于通信网络的核心网络(在这个实施例中是第一网络11)内。在图2的实施例中,会话发起协议(SIP)16用于发起呼叫,如将理解的那样(并且允许创建附加的音频增强服务),其涉及经由音频增强部件20的媒体网关21B的音频增强。可以可替代地使用其它适当的非IP协议。本文描述的实施例可以利用标准网络接口部件和协议(诸如IP、SIP和VoIP协议)和各种部件(诸如会话边界控制器(SBC)或媒体网关及其控制器或者等同物)来与电信或其它底层网络连接。如将理解的那样,当与固定或移动网络通信时,基于用于传统CAMEL/IN、ISDN或IMS网络规范的当今技术,这种网络的信令和接口可以变化。
[0105] 如将理解的那样,网络11、13可以基于用于连接到其用户的“最后一英里”接入网和核心网技术而变化。媒体网关21B提供用于将来自各种可能标准的信令和业务从例如传统运营商网络转换到最近的基于IP的解决方案的装置。SIP用于信令并且RTP用于语音服务的业务流。
[0106] 在更详细地描述音频增强部件20之前,图3图示了当在图1的底层体系架构上发生音频增强时涉及音频增强部件20的数据协议流。媒体网关控制器21A处理增强音频呼叫的发起(在这个实施例中,通过SIP分组)。媒体网关21B处理多媒体实时协议(RTP)分组17,其包括与声音处理引擎22的接口(参见本文所述的接口“D”和“X”),并且处于正在进行的呼叫的去往/来自第一用户10的第一网络11与去往/来自第二用户14的第二网络13之间的通信,如将理解的那样。声音处理引擎22在SIP 16发起之后修改源自和/或提供给第一用户10的RTP分组17中包含的音频流,使得第一用户1(在图1的实施例中并且是增强音频处理的订户15A)基于配置管理模块23内包含的听力和语音简档而被提供音频增强。声音处理引擎还可以能够在任一方向上使用不同的听力和语音简档,使得具有听力损伤的两个用户可以同时增强其音频(参见图5和附带的文字)。
[0107] 如稍后所述,在替代实施例中,接口“D”和“X”允许声音处理引擎22驻留在网络的分布式节点处,例如通过预安装的编解码器与任何国家的移动网络相关联或者在用户设备中,例如,如果用户设备具有足够的处理能力和本地资源的话。在这种实施例中,配置管理模块23提供了编解码器在提供音频增强时要使用的参数。因而,听力生物计量数据可以集中地保持在网络内,并且有可能在服务器中将声音增强功能作为分布式功能节点来执行,其中服务器物理上在除了配置管理系统23被执行或媒体网关21正在操作的位置之外的位置操作。声音增强的这种分布式功能可以被认为是在靠近用户(10、14)设备的网络边缘处执行,或者在兼容性和互操作性允许的某些情况下,它可以在用户设备本身内被实现为所支持的声音编解码器之一。
[0108] 音频增强模块接口和性能
[0109] 现在更详细地描述音频增强部件20与第一网络11和第二网络13的交互。图4示出了关于第一/第二网络11、13部署的音频增强部件20,第一/第二网络11、13提供了SIP/VoIP环境(诸如IP PBX、IMS、CAMEL/IN或其它SIP环境)。
[0110] 音频增强部件20通过媒体网关控制器21A处的接口“A”、媒体网关21B处的接口“M”和配置管理模块23处的接口“B”与网络11、13接口。
[0111] 接口“A”包括去往/来自核心网络11、13的信令。为呼叫的第一用户10和第二用户14提供唯一标识符以及用于呼叫的RTP分组17的路由信息。接口“M”的RTP分组17包括携带经由媒体网关21B将被声音处理引擎22处理的分组的声音。接口“B”包括配置管理模块23与网络运营商的操作支持系统(OSS)26之间的操作和维护连接性。
[0112] 如前面所讨论的,音频增强部件20包括媒体网关控制器21A、媒体网关21B、声音处理引擎22和配置管理模块23。
[0113] 媒体网关控制器21A包括接口“A”、接口“C”和接口“E”。接口“C”是媒体网关控制器21A与媒体网关21B之间的音频增强部件20内部的接口,并且包括媒体部分和控制部分。在实施例中,接口“C”可以包括1Gb以太网的物理层,具有用于媒体部分的用户数据报协议(UDP)上的RTP应用层和用于控制部分的UDP上的媒体网关控制协议(MGCP)。接口“E”可以用于通过配置管理模块23监视和控制媒体网关控制器21A。
[0114] 媒体网关21B允许在创建RTP代理时执行声音处理,在RTP代理中实时语音数据可以被提取用于处理并返回到相同的网关用于路由。简而言之,媒体网关是用于从感兴趣的网络到SIP 16的信令转换以及还将业务作为RTP 17路由到声音处理引擎22的SIP路由器。
[0115] 配置管理模块23包括数据库25、接口“B”、接口“D”和用户接口24,用户接口24可以包括例如在膝上型或手持设备上的网络户,该网络门户可以是语音激活的和/或与诸如机或其它听力和麦克风设置之类的配件结合使用,用户接口包括接口“F”和/或“G”。用户接口24提供对音频增强部件20的用户访问。用户接口24的接口“F”提供用于通过初始和正在进行的校准以及用于声音处理算法(参见后面的图6)的参数捕获用户听力和语音简档(生物计量登记)的用户设置。接口“G”包括管理和支持功能。接口“F”和“G”可以是同一接口的部分。数据库25包括与生物计量数据有关的用户信息以及与声音处理引擎22一起使用的听力和语音简档信息,如下所述。接口“D”用于在声音处理引擎22的请求下传递在用户听力和语音简档中定义的声音处理参数。
[0116] 转到图5,并且关于通过例如移动始发点(MO从第一用户10(音频增强服务的订户15A))到第二用户14(例如移动终端点(MT))的呼叫,示出了与呼叫发起和声音处理引擎22的音频增强相关联的数据流(50)。核心网络11、13不具有音频增强部件20的内部功能的可见性,网络仅需要知道哪个用户使用哪个用户标识符,例如,每个用户所唯一的MSISDN。
[0117] 在图1的示例中,与终端点10和14相关联的MSISDN号与应用服务器(媒体网关控制器21A)进行的呼叫的会话ID相关联,并且相关联的参数经由接口“X”被传递到音频声音处理引擎22。例如,第一用户10的唯一标识符经由接口“A”提供给媒体网关控制器21A,进而经由接口“C”提供给媒体网关21B,并经由接口“X”提供给声音处理引擎20。
[0118] 然后,在特定电话呼叫的开始时,声音处理引擎以来自该用户的配置管理模块23的数据库25的听力和语音简档的形式在接口“D”上请求对应的生物计量。一旦简档返回到声音处理引擎20,RTP分组17的音频增强就可以实时进行。
[0119] 因此,在图5的示例中,第一用户10受益于增强的音频。
[0120] 对于继续进行音频增强的呼叫,询问数据库25以获得与MO和MT MSISDN号都相关联的生物计量。
[0121] 在其中MO和MT都被登记用于音频增强的实施例中,声音处理引擎将来自包含在数据库25内的每个用户的生物计量简档的参数应用于交谈的两侧。这可以包括针对每个用户独立地利用与听力简档、语音简档或这两者相关的音频增强。
[0122] 即使特定用户没有注册语音增强,他们的语音生物计量简档也可以被捕获并且对照其唯一MSISDN号存储在数据库25中,使得在他们与注册用户通信的任何时候,通过针对注册用户优化的未注册用户的初始输入信号调节,那个注册用户可以受益于更高程度的增强。
[0123] 如所描述的,声音处理引擎20请求听力和语音简档,以便被提供要馈送到声音处理算法中的参数。例如通过查找表,数据库25保持与每个个体用户的每个听力和语音简档相关联的值。
[0124] 通过增强源自用户的语音和递送给用户的语音,每个用户的听力和语音简档都是对于其具体的听力受损而可配置的。可以考虑电话反馈(换能器影响)和/或环境噪声作为选项。
[0125] 图6图示了通过对语音的输入调节(图6A)、对听力的输出调节(图6B)和可选的环境调节(图6C)来获取用户的听力和语音简档所涉及的处理。可以根据用户的要求来启用或禁用输入、输出和环境调节中的任何一个或全部。例如,如果增强音频的用户正在进行电话交谈,然后将他们的电话递给朋友以继续交谈,那么该朋友可能不需要音频增强,因为他们可能没有听力受损。
[0126] 参考图6A(通过声音处理引擎22朝着作为具有听力损失的注册订户15A的用户10调节进入语音),在开始时和在会话中的呼叫期间,在步骤61处从用户的通信设备(图1中的14)或从与用户14的唯一标识符(例如MSISDN号)相关联的另一个输入设备对进入语音进行采样。在步骤62处将信号从时域转换到频域,以在步骤63处提供频域信号Fi。在步骤64处,分析语音类型(例如女高音、女中音、女低音、反高音、男高音、男中音或低音)和音量,以在步骤65产生语音简档,其中导出说话者的语音的语音简档(致动器的特性)。这允许可选地将语音发起者(用户14)的声音自动移位一个或多个频率(音调)步长,作为朝着接收或听到进入语音的用户(在这种情况下是用户10)的听力特性的听力简档的误差函数。在步骤66处,这个语音简档存储在数据库25中,具有对于所讨论的用户是唯一的相关联的语音发起者用户ID。这导致如果同一用户(14)在将来的呼叫中使用相同的线路(MSISDN),那么不一定需要再次导出语音简档。还可以捕获语音的统计变化。这可以指示特定线路(MSISDN)被多人使用,因此,对于这种线路,可能需要在每次进行新呼叫时执行语音表征,因为它不能充分预测哪个用户(语音)将进行呼叫。
[0127] 参考图6B(调节用户将从声音处理引擎22听到的信号),在步骤67处将音频听力测试信号提供给用户的通信设备,或者提供给与配置管理模块25的用户接口24相关联的另一个输出设备。在步骤68处,分析听力音调和音量,以在步骤69处产生听力简档(传感器(用户的耳朵)的特性)。听力简档包括用于平衡呈现给订阅用户的声波上的不同频率的参数。它是用户听力的伪指示(pseudo prescription)。如果进入语音与他们的听力简档匹配,那么任何特定用户将最高效地并且最清晰地听到进入声音。
[0128] 在步骤70处,将这个听力简档存储在数据库25中,其具有所讨论的用户的唯一的相关联用户ID。该简档可以被认为是关联于并考虑了在测试中涉及的所测量的换能器和系统噪声影响的用户的听力损失的组合,以给出在那个时间针对电信网络定制的、特定于该用户的组合听力阈值。该组合听力阈值对于那个用户可以是唯一的。它可以是为用户定制的数字“声纹”阈值。术语“阈值”可以被认为是听力阈值,与用户可以令人满意地听到音频信号的水平(例如,音量和/或频率)一样多。这个阈值可以低于听力损失的阈值。听力阈值的这种表示与传统量度(诸如听力图)形成对比,区别在于听力损失如何被转录为在通信网络上工作、修改和传送。
[0129] 关于在步骤67处执行的听力测试的进一步细节如下:
[0130] 基于用户的感知到的听力损失(根据各种机构量度,没有、轻度、中度、重度或严重到深度),确定听力测试的初始音量。在一些实施例中,初始值可以由用户确定。在一些实施例中,在设置初始音量时,可以替代地或附加地考虑用户的性别和/或年龄。
[0131] 听力测试开始:
[0132] 1.开始听力测试
[0133] a)可以经由用户接口24向用户提供听力测试的指令。
[0134] b)媒体网关控制器21B向用户的电话发出呼叫。
[0135] 如可以理解的那样,是底层网络(例如宽带网络)提供用户接口24(例如,面向用户的web门户或语音激活接口)以及语音通信网络(例如为用户电话听筒或设备提供语音的电话或VoIP)。这些网络以不同的时钟运行,例如,浏览器或笔记本电脑时钟相对于电信网络时钟。因此,知道用户在其设备上听到音调与在web门户上确认音调被听到之间的延迟可以造成听力测试中的误差或不准确,其中可以通过网络之间的不同时钟值来更改的对自动测试作出反应的时间可以确定特定听力测试频率下错误的真或假结果,这会影响测得的用户的听力能力的阈值水平并因此不利地影响该用户的生物计量简档(参见下文)。因此,用于客户端和服务器(媒体网关控制器)平台的主时钟和定时器被同步。
[0136] 在服务器和用户设备之间同步时钟的一种方法如下。在请求开始听力测试时,用户(客户端)设备从服务器请求多个ping(例如五个)。多个ping中的一个或多个可以包括表示语音或白噪声的频率扩展。这可以与使用具体的单频音调的标准听力测试形成对比。服务器发送ping分组,该ping分组具有当前服务器时间的数据有效载荷。ping分组由客户端设备接收并在设定的时间间隙(例如一秒)之后被发送。在另一个设定的时间间隙(例如两秒)之后,发送回该ping分组的副本。这可以重复若干次,使得服务器接收多个ping分组,每个ping分组相对于从客户端设备发送回的对应原始分组。根据这些分组,服务器可以计算从用户到服务器的传输行程时间以及客户端和服务器处的时钟漂移。这有助于避免前面提到的错误的真或假测试结果。
[0137] 另外,随着测试的音量减小(见下文),错过的听力测试的按键时间延迟对于测试结果是重要的。测试结果用半步长(5dB而不是10dB)微调。通过具有准确的时钟同步信息,可以减少测试所花费的时间,从而可以减少半步长的数量。
[0138] c)朝着用户的电话停用音增强功能
[0139] d)将参考语音流传输到用户的电话,并请求用户将电话听筒中的音量调整为在听参考语音时是舒适的
[0140] e)同步定时器并以500Hz测试听觉阈值
[0141] f)同步定时器并以1000Hz测试听力阈值
[0142] g)同步定时器并以2000Hz测试听力阈值
[0143] h)同步定时器并以3000Hz测试听力阈值
[0144] i)同步定时器并以6000Hz测试听力阈值
[0145] j)朝着用户的电话激活声音增强功能
[0146] k)同步定时器并且向用户的电话流传输参考语音并经由用户接口请求用户调整音量指数
[0147] 2.听力测试完成
[0148] 在完成上述听力测试后,参数被捕获,作为配置和管理模块23的数据库25内的听力简档(生物计量数据)。参数可以取决于用户听力损失、系统噪声和换能器影响中的一个或多个。
[0149] 通常,对于听力测试,刺激将是以500、1000、2000、3000和6000Hz或更高为中心的1/3倍频程的宽带噪声。优选地,作为示例,每次测试的持续时间为大约1000ms,包括用于在背景噪声与-60dB之间增加和减小刺激音量的20ms斜坡。刺激的频谱斜率优选地是陡峭的,优选地为90dB/oct或更高。
[0150] 1/3倍频程的宽噪声实际上是包括一个或多个人类语音的混合的白噪声,并且在直到所使用的通信系统的能力的频带上进行测试。包括人类语音的白噪声提供了更现实世界测试的益处,其反映了如何将对话递送给用户并且使得能够更准确地表征致动器参数(声带)和传感器参数(用户耳朵)。用于每个测试的白噪声可以表征发送给用户的用于微调听力简档参数的替代发声发音(不同的字母表)。
[0151] 建议的测试次序:对于宽带或超宽带语音编解码器为500、1000、2000、3000、6000Hz或更高,对于窄带编解码器为3000-3400Hz。窄带和宽带编解码器是传统电信系统中使用的典型编解码器。可以为底层通信装置定制测试,诸如经由更窄或更宽的带运输音频的网络能力。优选地在选择下一个中心频率之前完成一个中心频率处的测量。
[0152] 下面给出用于每个测试频率的更详细的过程作为示例实现:
[0153] a)声音以如上估计的初始级别呈现
[0154] b)如果在例如声音结束的2秒内给出“是”的响应,那么将其视为“命中”并且将下一个声音的级别降低10dB。如果在声音结束后2秒内没有响应,那么这被评分为“未命中”并且下一个声音的级别增加10dB。
[0155] c)可以在可变时间间隔之后呈现下一个测试声音,以避免用户在预期时间响应“是”。如果对前一声音的响应是命中,那么在“是”响应之后0.5至2秒范围内优选地随机选择的延迟之后呈现下一个声音。如果对前一声音的响应是未命中,那么应当在在前一声音结束之后优选地从例如2.5至4秒的范围中随机选择的延迟之后呈现下一个声音。
[0156] d)重复步骤(b),直到发生至少一次命中,然后是未命中。在未命中之后,在级别增加10dB的情况下呈现信号。
[0157] a.如果响应是命中,那么信号级别以5dB步长减小,直到发生未命中。发生命中的最低级别被视为那个频率的阈值级别。
[0158] b.如果响应是未命中,那么以5dB步长增加级别直到发生命中,然后以5dB步长降低级别直到发生未命中。发生命中的最低级别被视为那个频率的阈值级别。
[0159] 依次对每个测试频率重复这个过程。但是,如果对前一测试声音的初始响应是未命中(意味着起始级别太低),那么将当前中心频率的起始级别设置为前一频率的阈值级别加上预定量(例如加上25dB)。
[0160] 可以在稍后的时间重复听力测试,这允许用户看到他们的生物计量参数的长期变化并且减少所捕获的阈值参数的标准差。
[0161] 然后可以在视觉上和/或以其它方式将组合的听力阈值或“数字声纹”的最终结果呈现为特定于那个用户。可以解释结果,包括例如收听测试结果、保存测试结果、取消测试结果或重新测试。然后可以收听听力测试结果,以比较经处理的语音与未经处理的语音。这可以或可以不导致所记录的听力阈值也被进一步微调,例如使用压缩比和/或频率级别的调整,使得数字声纹或原始组合听力阈值更准确地反映用户偏好和音调,当听力损失或需求变化时,用户偏好和音调能够并可以随着时间的推移而适应。一旦如上所述测得了反映个人听力损失或需求以及系统噪声和换能器影响的组合听力阈值,这种数字微调就是可能的。换句话说,用户可以与屏幕交流,以记录并映射他们的听力损失。系统“噪声”加上换能器影响的组合被用于创建数字阈值。视觉输出可以被认为是听力损失和设备换能器影响的联合听力阈值的“图形”表示。
[0162] 参考图6C(考虑环境噪声、信噪比、回声、分组丢失和其它有害影响中的至少一个),在步骤71处,频域信号Fi(其可以是与步骤63的信号相同的信号,或者可以是新获取的以满足现场条件的信号)在步骤72处由标准人类语音检测算法处理,并在步骤73处被分析,以在步骤74处产生环境噪声简档(表征用于音频递送的信道)。在步骤75处,这个噪声简档存储在数据库25中,具有对于所讨论的用户唯一的相关联用户ID。作为对环境噪声调节的扩展,指示使得难以进行认知信息交换的音频信噪比的可选警报或其它信号可以触发某些记录的消息在呼叫时被发送到用户,使得他们知道环境噪声问题并且他们可以移动到噪声不太容易被察觉的环境。用户可以接受或拒绝警报,并因此提供反馈,使得将来警报在个体用户发现难以进行认知信息交换的适当时间发生。可以提供诸如记录对话的能力之类的其它功能,以帮助听力损伤的用户在事件之后查看和核实对话。例如,可以记录并存储呼叫,并与来自用户的反馈、导出的知识相结合,以预定义和预测发生特定语音体验的未来情况,因此可以克服实际上声音处理引擎22可以通过人工智能学习如何识别、避免或补偿这种潜在的困难语音场景。随着时间的推移,这个知识数据库可以建立并存储在数据库25中,被共享并用于开发和增强音频增强和处理算法,以便在其它情况下更通用地使用,诸如微调一系列语音环境情况下的听力阈值,例如,无论是通过固定、移动还是无线网络,都能满足当时的环境和/或网络信号强度。典型地,在电信/IP网络中不实时使用AI来改善用户体验,因此本公开可以改善具有可解决的听力损失需求的那些人的语音体验。
[0163] 图7图示了声音处理引擎22在增强音频时所采取的处理步骤。如将示出的,在图6A、6B和可选的6C的建档处理中导出的参数用于将音频增强至进行接收的用户(图1的示例中的用户10)的需要。
[0164] 在第一步骤80处,获取来自用户(14)的要发送给订阅用户(10)的输入音频信号,并在步骤81处解码。在步骤82处,音频信号被变换到频域,以在步骤83处产生频域信号。在步骤84处,以与图6C相同的方式评估环境噪声,并且在步骤85处移除噪声。此后,在语音调节的步骤66期间应用存储在数据库25中的语音简档参数(步骤86),以在步骤87处产生增强的语音输出(仍然在频域中)。
[0165] 在步骤88处,将在步骤70期间存储在数据库25中的用于接收者(订阅用户10)的听力简档参数应用于增强的语音输出,并且在步骤89处提供增强的语音输出(在频域中)。在步骤90处,将增强的语音输出变换到时域,以便在步骤91处得到增强的时域信号。在步骤92处,对增强的语音输出进行归一化,以避免削波,从而在步骤93处提供归一化的语音输出。最后,在步骤94处对输出进行针对底层传输协议的编码,并在步骤95处提供为订阅用户接收者(10)的听力定制的增强音频(称为声纹)。
[0166] 作为示例,图9和10图示了当提供增强音频时由声音处理引擎(频域)产生的波形
[0167] 首先,转到图8,可以通过所示的响应曲线中的任何一个或全部来定制音频增强的频率响应。频带在水平轴上表示,而垂直轴示出了在如前所述的听力测试期间确定的阈值(用户对那个频率的听力极限)。阈值轴上的标度表示指示声音音量的声压级别。
[0168] “平坦”响应(频率没有变化)由100示出。“低”是增强较低频率处的声音(101),“中”增强中频带(102),并且“高”增强较高频带(103)。
[0169] 图9图示了使用16kHz处的宽带语音处理通过声音模拟器处理的样本实时声音的频谱。图10图示了使用8kHz处的窄带语音的频谱。所示的窄带和宽带频率仅用于说明目的。可以处理输入信号的许多其它带宽。
[0170] 当经历诸如语音或音乐之类的音频信号的实时增强时,可以在任何时间应用平坦、低、中和高滤波器中的任何一个或全部,这取决于针对特定用户存储在数据库25中的听力和语音简档参数。
[0171] 除了如上所述用于特定用户的语音简档和听力简档的导出之外,要发送到订阅用户的输入语音可以可选地实时地使其输入音调朝着音频的接收者的语音类型移动,如先前关于步骤64和65所描述的。这是通过作用于音频信号并在声音处理引擎22中应用的误差函数,例如跨滤波器组。期望的音调变化可以与用户的其它简档数据一起存储,以供将来使用。当订阅或非订阅用户从已知的MSISDN呼叫订阅用户时,可以自动执行音调变化。来自特定MSISDN的语音类型可以存储在数据库25中,使得如果不同的用户从相同的MSISDN呼叫,那么可以通过内置于声音处理引擎22中的人工智能来关闭自动音调变化。示例实现可以是观察代表语音简档的参数的标准偏差并将其与学习阈值进行比较。在标准偏差值超过所学习的阈值的情况下,声音处理引擎22可以自动关闭音调变化,因为它将假设不同的人可能正在使用这个进入线路。
[0172] 除了与要发送给订阅用户的输入相关的听力简档和环境简档之外,还可以通过多种方式调整要接收的语音的音量:
[0173] ·只需在最后一个处理级放大输出的音量(步骤92)
[0174] ·在去除环境噪声后,放大输入信号的数字范围(步骤85)。放大可以基于使用在一段时间内(例如,当前对话中的20个处理时间间隔)评估的反馈参数的误差函数。
[0175] ·上述反馈参数可以作为长期变量存储在数据库25中的用户简档信息中。
[0176] ·在较长的时间段内,例如许多对话,由声音处理引擎20使用的初始参数可以基于某些用户之间的对话的真实世界体验来定制,从而为用户提供优化的声纹。
[0177] ·另外,可以随时间的推移更改听力简档的参数,以解决用户听力的劣化,无论用户是否进行随后的听力测试以更新他们的听力简档。例如,用户的听力阈值随着年龄而恶化。所公开的方法和系统可以测量随时间的阈值损失,并且经由用户反馈、询问和人工智能、与那个用户的电话使用相关的听力损失数据、其年龄、性别和频率损失的组合被用于创建预测性的动态听力阈值,这个听力阈值不仅可以通过其预测能力自动适应那个用户的年龄和性别,还可以通过将这些数据与相关同伴群体进行比较来自动适应那个用户的年龄和性别。本质上,算法通过不仅解释用户的听力特性而且还解释特定对话的网络信令强度(例如,固定网络中的分组丢失或无线网络中的RF信号强度)来与AI链接,使得它可以预测:如果信号差,那么可以将听力阈值移到较低级别以增强音频处理来递送更明显(更高音量)的语音信号。这种听力阈值的量度,这种阈值随时间(用户年龄)并对照信号强度的适应是独特的,因为它允许随时间调整用户听力简档以迎合用户听力的劣化以及用于即将到来的对话。
[0178] 现在将参考图12更详细地描述听力测试以及使用听力测试的结果以便修改去往用户的音频信号。将理解的是,现在描述的方法可以与例如关于图6A至6C和图7(以及实际上本说明书的任何其它实施例)描述的方法。
[0179] 关于图12描述的方法涉及在网络实体(例如驻留在通信网络中的服务器)和经由用户设备与服务器通信的用户之间执行的听力测试。通信网络可以是电信网络。用户设备可以是电话,诸如移动电话;可替代地,用户设备可以是笔记本电脑、平板电脑等。将理解的是,通过在网络上并利用用户的设备执行听力测试,这可以更准确地描述用户的听力如何受现实世界条件的影响。它还考虑了特定于特定用户的方面。例如,听力测试可以考虑网络影响(诸如干扰或噪声),或者特定于用户的特定网络提供商的方面(诸如他们使用的特定压缩算法)。它还可以考虑与用户的具体设备相关的方面,例如设备的扬声器的换能器影响。它还可以考虑用户的其它听力设备(诸如助听器和/或植入物)的各方面。
[0180] 如S1处所示,通过在通信网络中的网络实体(例如,包括在音频增强部件20中的实体或服务器)与用户(例如,用户14)的用户设备之间建立的通信链路,为用户进行听力测试。(通过用户发起与服务器的联系,例如通过用户打电话给听力测试的服务提供商的联系号码,可以在网络实体和用户设备之间建立通信链路。可替代地,服务提供商可以在他们的用户设备上呼叫用户,例如在预先安排的时间。但是,建立了链路,将理解的是,听力测试是在通信网络中的网络实体之间并与用户的用户设备结合地建立的链路上进行的。
[0181] 在一些实施例中,听力测试可以使用平台。这可以是与呼叫期间使用的媒体增强平台相同的媒体增强平台或类似于这种平台。听力测试可以可替代地或附加地使用基于web的测试门户。这可以发起和/或接收去往/来自用户电话的自动呼叫。这个门户可以通过经由一个或多个屏幕上的提示或指令来引导用户通过测试过程。这个门户可以通过与媒体增强平台交互来实现此目的。
[0182] 听力测试可以以自动或半自动方式执行。例如,用户可以遵循来自服务器/服务提供商的自动提示。可替代地,用户可以直接与实施听力测试的服务提供商的人类操作员说话。提示可以是视觉提示和/或口头提示。提示可以显示在用户的用户设备上。提示可以在与用于实施听力测试的服务器通信的相同用户设备上提供。可替代地,提示可以在分开的用户设备上提供。例如,用户可以遵循膝上型电脑或平板电脑上显示的提示,结合经由其用户设备执行听力测试,该用户设备具有与服务提供商的服务器的通信链路。
[0183] 如S2处所示,听力测试包括向用户提供音频刺激。音频刺激以多个测试频率提供给用户设备。
[0184] 根据一些实施例,音频刺激包括白噪声。白噪声可以基于一个或多个人类语音,其更准确地模仿用户通常诸如在电话呼叫期间在其用户设备上听到的声音类型。根据一些实施例,音频刺激包括1/3倍频程的宽带噪声。
[0185] 根据一些实施例,以多个测试频率向用户提供音频刺激包括以500Hz;1000Hz;2000Hz;3000HZ;6000Hz中的两个或更多个提供音频刺激。这些值仅作为示例,并且可以使用不同的值,包括低于500Hz且高于6000Hz的频率。例如,高于6000Hz的值可以用于宽带或超宽带语音编解码器,或高达3000-3400Hz用于窄带编解码器。可以按预定义的次序,例如,
500Hz;l000Hz;2000Hz;3000HZ;6000Hz,以测试频率播放白噪声。频率的改变可以以步进方式进行。
[0186] 在S3处,监视从用户设备接收的对于音频刺激的响应性。这还可以包括测量响应性。监视响应性有效地检查用户是否已经听到已播放给他们的音频刺激。监视可以例如包括监视来自用户的反馈,诸如其用户设备(可以是用户的电话或相关联的膝上型电脑、平板电脑等)上的按键或来自用户的语音响应。
[0187] 在向用户播放音频刺激之前,可以从用户获得关于他们的听力能力的信息。在一些实施例中,这可以至少部分地也通过性别和/或年龄来假设和/或预定义。这可以包括获得用户的听力损失的指示。这可以包括根据各种机构量度获得诸如用户的听力损失是没有、轻度、中度、严重或严重到深度之类的信息。可以请求用户提供这种信息。用户听力损失的指示可以用于确定听力测试的初始音量。然后,根据响应性的监视,可以在听力测试期间调整音频刺激的音量。例如,根据来自用户的肯定响应,可以针对下一个刺激减小音量。这可以以5dB步长发生。当然,在不同实施例中,步长改变可以是其它量。根据来自用户的空响应,该方法可以包括增加音频刺激的音量。增加音量可以包括以10dB步长增加音量。当然,在不同实施例中,步长改变可以是其它量。在一些实施例中,音频刺激的音量的调整可以在每个测试频率下发生。
[0188] 根据一些实施例,每个音频刺激的持续时间是1000ms或大约1000ms。当然,这是作为非限制性示例,并且在其它实施例中,音频刺激的持续时间可以采用其它值。每个音频刺激内可以存在音量的改变或变化。例如,每个音频刺激可以包括在背景噪声级别和60dB(或大约60dB)之间增加/减小音量的一个或多个斜坡。同样,这个60dB的值仅作为示例,并且在其它实施例中,可以使用不同的值。
[0189] 基于听力测试,并且如S4处所示,可以为用户生成听力简档。这可以被认为是听力简档阈值。考虑网络影响(诸如信号质量、网络噪声等),以及与用户设备有关的影响(例如,换能器影响),听力简档包括用户听力损失的准确量度。
[0190] 一旦生成听力简档,就可以将其存储在网络实体的存储器中。这可以是与用户的用户设备具有通信链路并且实施听力测试的相同网络实体。可替代地,它可以是不同的网络实体或设备。这在S5处示出。听力简档还可以存储在其它实体处,包括其它网络实体或在用户设备处。在存储听力简档时,可以在用户和/或用户设备之间进行关联。例如,该关联可以存储在查找表中。这使得能够在向那个用户的用户设备发送和修改音频信号时获得并使用那个用户的听力简档。换句话说,存储的听力简档可用于修改去往用户设备的音频信号。当然,网络实体可以存储用户和/或用户设备与相关联的听力简档之间的多个(可以是数百、数千、数百万等)这种关联。根据一些实施例,与用户相关联的信息包括用户的标识符。
标识符可以是唯一标识符。标识符可以是例如用户的名称。标识符可以附加地或可替代地包括用户的用户设备的标识符。例如,标识符可以包括用户设备的MSISDN。
[0191] 在一些实施例中,听力测试可以包括处理和微调听力测试的输出。这可以在网络实体与用户通信时发生,或者可以在用户完成收听音频刺激之后发生。这可以使得能够将听力简档微调到用户的自然耳朵,和/或将听力简档微调到用户的另一听力设备(例如,助听器或耳蜗植入物)。在这方面,该方法可以包括向用户和/或与网络实体通信的运营商可视地显示听力测试的结果。微调可以由用户执行,例如经由他们的用户设备或单独的膝上型电脑、平板电脑等。附加地或者可替代地,微调可以由与网络通信的操作者执行。例如,操作者可以是音频修改服务的服务提供商的雇员。
[0192] 图13是示出从用户设备的度看的根据示例的方法的流程图。
[0193] 在S1处,用户经由他们的用户设备参与与网络实体建立的通信链路上的听力测试。
[0194] 在S2处,设备通过通信链路接收多个测试频率下的音频刺激。即,听力测试以上面详细描述的方式执行。
[0195] 在S3处,用户向网络实体提供对于音频刺激的一个或多个响应。响应可以经由用户正在收听音频刺激的用户设备提供,或者可以经由用户的单独设备(例如,用户的膝上型电脑或平板电脑)提供。
[0196] 随后,用户可以在其用户设备处接收经修改的音频信号,如步骤S4处所示。如上面详细描述的,基于在听力测试之后为用户创建的听力简档来修改这些经修改的音频信号。
[0197] 经修改的音频信号可以实时地递送到用户的用户设备(并最终递送到用户的自然耳朵、助听器或植入物等)。例如,已经执行了听力测试并且具有存储的听力简档的用户是用户A。用户A的标识符(例如,MSISDN)与网络中用户A的听力简档相关联地存储。当第二用户(用户B)呼叫用户A时,从存储器中检索用户A的听力简档,并且呼叫可以以用户B的声音(以及实际上任何其它音频信号)继续,根据用户A的听力简档(或“声纹”)进行修改。音频信号的修改可以包括以下当中的任何一个或多个:对音频信号进行滤波;调整音频信号的幅度;调整音频信号的频率;调整音频信号的音高和/或音调。根据一些实施例,音频信号修改可以由网络实体中的声音处理引擎或网络实体执行。
[0198] 根据一些实施例,可以记录用户设备的位置处的环境噪声。可以使用用户设备的一个或多个麦克风来记录环境噪声。可以将环境噪声信息发送到可以存储它的网络。例如,可以在电话呼叫期间实时收集并存储环境噪声信息。然后,环境噪声信息还可以用于将经修改的音频信号实时递送到用户设备。
[0199] 现在将通过示例描述音频信号修改的一些另外的细节。
[0200] 基于FFT的信号处理功能的概述
[0201] 数字音频通常被视为由音频样本的时间序列组成。为了保存连续声音的错觉,必须在每个时间周期将新样本转换成模拟的,这个周期是采样频率的倒数。但是,这个算法中的音频的实际处理不一定是在逐个样本的基础上,而是按音频样本的“帧”,其长度为128个样本。每个帧,读和写都可以与前一帧重叠50%。因此,音频流中的每个样本实际上可以被发送两次用于处理。
[0202] 帧的处理速率可能比音频采样率慢得多:
[0203] FsFFT=Fs/(framelength/2)
[0204] 其中FsFFT是帧的采样率,Fs是(音频样本的)以Hz为单位的采样率,并且framelength是帧中的样本数。处理的采样率可以总是一个值,例如16kHz,但是如果音频流以任何其它速率到达,那么在两个速率之间可能需要采样率转换。
[0205] 在实施例中,可以使用在16kHz下128个样本的FFT(快速傅立叶变换)长度。但是,由于需要这个算法的上下文,可能有必要调整插入每个FFT帧的音频样本的数量。
[0206] 在两个不同的采样率同时运行的情况下,可能需要并行运行两个进程以保持处理连续。
[0207] (1)中断驱动的进程,它从输入流中取得样本并将其放入输入缓冲,同时从输出缓冲中取出样本并将其放入输出流中。
[0208] (2)基于帧的进程,可以分别在当前输入/输出样本缓冲溢出或清空之前完成。
[0209] 在示例中,这种形式的“重叠-相加”处理的输入和输出之间的最小音频时间延迟是帧长度的1.5倍。一旦出现满/空标志,就可以在一个采样周期(1/Fs)内更新用于中断驱动的进程的缓冲指针,否则会发生音频的卡顿。如果帧处理足够强大,那么可以在输入/输出缓冲用完或填满之前处理帧。
[0210] 在所述处理的以下伪代码示例中,步骤的主要功能由粗体的罗数字(0、I、II、III、IV、V、VI)表示,并且处理的每个子步骤以正常类型编号,例如(1)。如果在步骤中存在有条件处理,那么条件由小数点后面的数字表示,例如(1.1、1.2、....)·
[0211] (0)开始:假设在名为input(i)的缓冲中已累积:
[0212] (0.0)32个音频样本,采样率为8kHz,或者
[0213] (0.1)64个音频样本,采样率为16kHz
[0214] 取决于,采样率i=0....31或0...63。
[0215] 然后处理如下继续
[0216] (I)所有音频样本都需要被转换成单精度(4字节)浮点格式样本的线性表示,因此任何瞬时压缩都需要撤消。
[0217] (1.1)如果样本到达“mu-law”或者
[0218] (1.2)“A-law”编码,
[0219] (1.3)任何其它非线性编码格式
[0220] 这些可以通过反函数(使用查找表)撤消。
[0221] 伪代码:xt_lin=inv_law(input)
[0222] 其中xt_lin是线性格式的样本值,input是进入的最新缓冲。inv_law()是压缩样本值(8位整数,因此256条目的表就足够了)与线性样本值的浮点表示之间的映射函数。
[0223] 在实施例中,一次一个缓冲地完成该步骤,以防止对每个样本的重复函数调用。
[0224] (II)预计数据将以两个采样率之一到达,即,8kHz(标准电话速率)或者16kHz(较宽的带宽)。因此,在实施例中,所有处理都以固定长度“帧”在16kHz采样率执行。
[0225] (1)可以在FFT结构内执行采样率转换。
[0226] 每个FFT帧用最近的输入缓冲填充一半,剩下的一半用前一个输入缓冲填充。因此,相邻帧之间可以存在50%的样本重叠(每个输入缓冲出现在两个连续帧中)。在插入的音频样本之外还可以存在“零填充”。
[0227] (2)构造长度为128个样本的空帧一次,以保存线性编码的音频样本。
[0228] (索引0到127)
[0229] 伪代码:x=zeros(128,1);
[0230] (3.1)如果音频是8kHz采样率,那么在最新的32个音频样本到达之后,则这些样本可以插到x中的索引位置65、67、69……127处的input(0……31)。对于新处理序列中的第一帧,数组的其余部分可以保持未填充(填充零)。对于所有其它帧,索引位置1、3、5……63可以用来自先前输入缓冲(0……31)的32个样本填充。
[0231] (3.2)如果音频采样率为16kHz,那么最新的64个音频采样可以插入input(0……63)并将它们放置在帧中的索引位置64、65、66……127。对于新处理序列中的第一帧,帧的其余部分可以保持未填充(0……63)。对于所有其它帧,索引位置0、1、2、3……63可以用先前输入缓冲的64个样本填充。
[0232] (4)生成“窗”函数。这可以是形状对称的斜坡和正弦波的0-pi表示。这可以预先计算成小数组,并且可以在处理中被再次使用。这个窗在索引i处的样本值称为W(i)。
[0233] 伪代码:
[0234] for i=0,1,2.........127
[0235] W(i)=sin((i+0.5)*(pi/N))
[0236] 其中pi=3.14159265,并且N是音频数组尺寸(N=128)。
[0237] (5)帧数组被“加窗”。这是音频流和窗W(i)之间的逐样本乘法。
[0238] 伪代码:xw(i)=W(i)*x(i);for i=0.........127
[0239] (III)对这个数据帧执行正向FFT。
[0240] (6)伪代码:xf=fwd_fft(xw);
[0241] FFT函数将生成相同长度的数组,但数据类型将改变为包括复数。
[0242] (a)输出数组被认为是两半,正频率和负频率。对于输出数组中的每个点,其等效频率可以计算为:
[0243] f(i)=i*Fs/N for i=0,1,.......63(2)
[0244] f(i)=(128-i)*Fs/N for i=64,65,......127(3)
[0245] 其中Fs是采样率(16kHz),并且i是128点数组的索引(假设函数已返回完整数组)。N是数组尺寸(N=128)。等式(2)定义FFT数组的“正频率”侧,而等式(3)定义数组的“负频率”侧。F(i=0)是0Hz,因此是实数,表示平均级别(DC级别)。
[0246] 使用Fs=16000和N=128,于是“区间间隔”或(f(i+l)-f(i))=125Hz。
[0247] (b)一些库可以包括为音频明确设计的FFT函数,更具体地说是用于仅实部数据。它们将产生半尺寸的数组,仅包含用于正频率的值。在内部,这种库函数将对负频率分量执行必要的操纵,以产生正确的正向和反向变换,从而节省处理能力。
[0248] (c)如果来自FFT的返回数组具有正频率分量和负频率分量,那么对负频域中的频率点执行的任何计算都不必在负频域中重复,只是等效的正频率点的的复数共轭需要复制。
[0249] (6.1)如果输入音频流最初是以8kHz采样的,那么FFT数组中f(i)>4000(Fs/2)的分量需要被设置为零(可能是数组的两半)。这是为了消除“混叠(aliasing)”;执行从8kHz至16kHz的采样率转换。
[0250] 伪代码:
[0251] i_stop_pos=round(4000*Fs/N);
[0252] i_stop_neg=round(128-(4000*Fs/N));
[0253] xf(i>i_stop_pos&i<63)=0;
[0254] xf(i<i_stop_neg&i>63)=0;
[0255] 舍入函数用于确保不生成分数索引,并防止未来采样率或N的改变。
[0256] (6.2)如果输入音频流最初以16kHz采样,那么无需进行任何处理。
[0257] (IV).代码的核心:在FFT期间实现插入增益和压缩的软件。(如果在这里未插入任何处理,那么有效地是循环返回函数)
[0258] 这里的压缩系统被设计为在频域中操作,但将音频信号分成4个通道,计算短期通道功率,并在此基础上,应用动态变化的增益,该增益将音频信号映射回例如听力损伤用户的可听性和舒适度。
[0259] 用于每个用户所需的一次性预计算的软件
[0260] 每个用户都有不同的听力特性,因此对于每个用户,可以计算独有的助听器设置:
[0261] (A)用于“65”dB SPL话音的插入增益(IG)IG65,作为FFT频率的函数[0262] 经由听力图测量来计算作为频率的函数的增益的精确值。
[0263] 伪代码:[freq_ig,gain_dB]=IG65(听力图,年龄,助听器体验);
[0264] 因此,freq_ig可以是对数标度,并且gain_dB将以分贝表达增益,这是线性增益的对数函数。
[0265] 伪代码:
[0266] gain_dB=20log10(gain_linear);
[0267] gain_linear=10^(0,05*gain_dB);
[0268] 这个增益可以在频域中应用于音频帧的FFT。因此,增益值从[freq_ig,gain_dB]网格被内插到FFT的线性频率网格。
[0269] 这是通过两种不同方法完成的:第一种方法是在线性频率标度上内插线性增益,或者第二种方法是在对数频率标度上内插对数增益(dB)。
[0270] 给定:
[0271] f(i)=i*Fs/N for i=0,1,.......63(2)
[0272] 以及f(i)=(128-i)*Fs/N for i=64,65,......127(3)
[0273] (假设2侧FFT计算)
[0274] 于是
[0275] 伪代码:
[0276]
[0277] 在第一个“if”循环中,可以确定句柄增益(handle gain)是否针对低于IG65数组的最低的频率。如果满足条件,那么可以使用最小频率值对照对数频率内插对数增益。
[0278] 第二个“elseif”循环将确定句柄增益是否针对高于IG65数组的频率。如果满足条件,那么可以使用最大频率值对照对数频率内插对数增益。
[0279] 如果两个条件都不满足,那么可以对值进行线性内插。
[0280] 在原始插入增益数组之外的频率处需要增益值的情况下,则不存在外推(extrapolation),而是从插入增益数组的相关端延伸相同的增益值。
[0281] 如果f=0或f<0,可以注意不违反log10(f)或log10(freq_ig),因为这会造成错误。
[0282] 用于线性内插的伪代码:
[0283] NewY(i)=OldY(f(j))+(OldY(f(j+1)-OldY(f(j)))*(NewX(i)-OldX(j))/(OldX(j+1)-OldX(j));
[0284] 其中OldX(j)和OldXf(j+1)是已知的(x,y)函数内的X点,其界定值NewX(i),其中NewY(i)是期望计算的。
[0285] (B)在应用IG65之后计算话音形状的噪声的通道级别。
[0286] 这构成校准过程的一部分。应用于FFT数组的增益有两个主要级:(i)规定的插入增益(对于65dB SPL话音)和(ii)动态压缩增益。可以在动态范围压缩软件之前应用特定于用户的插入增益。对于65dB SPL的话音输入,增益的组合需要与规定的插入增益相同。可以计算校正因子,使得当用于压缩器的通道功率是在应用65dB SPL话音噪声时所生成的通道功率时,动态压缩增益为0dB。因此,在这种情况下计算通道级别。虽然这可以在FFT域中完成,但是在优选实施例中,它是利用具有与插入增益被指定的级别相同的数字RMS的信号文件完成的。MAS可以提供具有期望频谱的2秒噪声文件,但可以在使用前进行缩放,这取决于定义的参考级别。可以为压缩系统计算通道边缘频率。这允许音频信号在FFT处理中被分成3或4个分离的通道,以便半独立地操纵它们。由于计算是在FFT域中完成的,因此已经执行了带通滤波,但是是在固定的线性频率网格上。为了计算通道功率,可以对来自位于我们期望的通道的带通部分内的各个FFT区间的功率求和。虽然功率在FFT区间中求和,但是通道的“边缘频率”在FFT的“区间”之间的中间,在n*125+125/2Hz处,其中n是整数。
[0287] (a)POTS,其中话音占用300-3400Hz,并允许在信号边缘处有过渡频带。
[0288]  频率跨度 FFT区间数(称为ChanjFFTbin{Start/End})
通道(1) 250至750Hz 2-6
通道(2) 750至1500Hz 7-12(NB不对750Hz处的区间双重计数)
通道(3) 1500至3500H 13-28(NB不对1500Hz处的区间双重计数)
通道(4) 3500-3875Hz 29-126(虚设通道,不应当携带信号)
[0289] (b)宽带话音:
[0290]  频率跨度 FFT区间数(称为ChanjFFTbin{Start/End})
通道(1) 0(DC)至750Hz 0-6
通道(2) 750至1500Hz 7-12
通道(3) 1500至3500H 13-28
通道(4) 3500-7875Hz 29-126
[0291] 如此处理FFT域中的噪声校准信号并形成通道功率的平均级别。
[0292] 伪代码:
[0293] (i)数组被初始化(仅在最开始时需要)。
[0294] for j=1,2,3;ChannelPower65(j)=0;end
[0295] (ii)将插入增益应用于xf:
[0296] xf_ig(i)=xf(i)*Glin(i);
[0297] (iii)计算每个FFT“区间”中的功率
[0298] BinPower(i)=xf_ig(i).*conj(xf_ig(i);
[0299] (iv)将来自每个区间的功率求和到其相关的压缩通道中。上面在变量ChanjFFTbinStart到ChanjFFTbinEnd中给出了开始和结束区间
[0300] for j=1,2,3,4
[0301] ChannelPower65(j)=sum(BinPower(i));
[0302] “i”值将跨越若干区间。
[0303] 针对在处理校准信号时生成的每个帧(由k索引)计算向量“ChannelPower65”。
[0304] 于是:CalibPower65(j)=mean(ChannelPower65(j,k));
[0305] 最后将这个功率转换成dB:
[0306] CalibLeve165dB(j)=10*log10(CalibPower65(j));for j=0....3;
[0307] 要注意的是,这个10*log10()包含隐形的sqrt(),以从CalibPower转换成CalibMagnitude。虽然为每个个体用户选择了插入增益和CR,但是其它参数可以不被选择,并且被定义为给出良好的音频质量。
[0308] 这些是:
[0309] (a)通道压缩阈值Chan_dBthr,被表达为相对于在携带65dB话音形状的噪声Chan0dBGn_lvl时的通道级别的分贝数。Chan_dBthr的范围是0到-15。
[0310] (b)通道压缩器的攻击和释放时间:att和rel,以毫秒表达,压缩器响应输入级别的变化的速度。攻击时间(当信号级别上升时)通常远小于释放时间(当信号级别下降时),但至少比例为2:1。
[0311] (c)通道压缩限制器在通道压缩器输出之上切入的相对级别deltaFSdB,以deciBels表达,典型值为10-20。
[0312] (d)通道限制器的攻击和释放时间:t_att_lim和t_rel_lim。它们通常分别设置为3和80毫秒。
[0313] (C)在处理的最开始,可以为每个通道完成以下计算(假设每个变量可以基于每个通道计算)
[0314] (C.1)Expon=(1-CR)/CR
[0315] [CR]可能永远不会低于1。
[0316] (C.2)以dB表达的压缩阈值被转换成线性值
[0317] cthresh=10^(.05*Chan_dBthr)
[0318] (C.3)计算通道校准系数。这参考了在携带65dB话音时的通道级别,因此这是在上面的B节中计算这个值的原因。
[0319] G0dB_norm=(10^(-.05*CalibLeve165dB))^Expon
[0320] (C.4)计算常量,以实现用于计算短期平均值级别I的系统的攻击和释放时间。当在压缩器的输入端应用在级别上而言的35dB步长变化时,这些时间被定义为增益信号稳定在最终值的3dB(攻击)或最终值的4dB(释放)以内的时间(数字35、3和4将在下面出现)。对于非常低的CR值,通常在<1.2左右,完全增益变化几乎不超过3或4dB,意味着在计算中可以出现误差。因此,实现了误差检查,要求压缩器至少实现这种增益改变。通过使用计算出的采样率,逐帧地更新短期平均级别I的计算,所计算出的采样率取决于FFT尺寸、重叠程度和基于样本的采样率。
[0321] FsFFT=Fs/(FFTsize/Overlap)=16000/(128/2)=250;
[0322] 计算每秒的帧。FFT帧之间的重叠为50%,因此要“/2”。
[0323] 计算:
[0324] (i)min_dstpdB=35/8;
[0325] 确保低CR时没有问题。这里使用的值是除以8,以得到大于4dB的变化,当CR<=1.14时有效
[0326] (ii)dstp_att=max(min_dstpdB,35-3*CR/(CR-1));
[0327] 选择最大增益变化值。
[0328] (iii)dstp_rel=max(min_dstpdB,35-4*CR/(CR-1));
[0329] 选择最大增益变化值。
[0330] (iv)k_att=10^(0.05*(-dstp_att/(t_att*FsFFT/1000)));
[0331] t_att被转换成毫秒
[0332] (v)k_rel=10^(0.05*(-dstp_rel/(t_rel*FsFFT/1000)));
[0333] (C.5)可以计算常数,以实现压缩限制器的攻击和释放时间,以防止每个通道过载。
[0334] (i)CRlim=100;
[0335] 非常高的CR,以获得真正的限制器
[0336] (ii)dstp_att=max(min_dstpdB,35-3*CRlim/(CRlim-1));
[0337] (iii)
[0338] (iv)
[0339] (v)deltaFSlin=10^(-0.05*deltaFSdB);
[0340] 通道压缩器动作与限制器动作之间的差异比率。
[0341] (C.6)初始化“状态”向量,它将携带最新版本的通道平均级别。
[0342] for j=1,2,3,4
[0343] ChanMeans(j)=Cthresh(j);
[0344] ChanLimMeans=Cthresh(j);
[0345] End
[0346] (D)基于帧的处理
[0347] 对于每个FFT帧,预期频域样本的数组(xf)。除了要处理的FFT数组和预先计算的常数(插入增益、压缩器设置、校准常数)之外,还可以将通道压缩器的运行平均值的“状态”向量传入通道控制器。
[0348] 伪代码:
[0349] function[xfproc,ChanMeans,ChanLimMeans]=implement_hearing_aid(xf,ChanMeans,
[0350] ChanLimMeans);
[0351] 其包括以下步骤:
[0352] (D.l)实现线性插入增益
[0353] xf_ig(i)=xf(i)*Glin(i)
[0354] (D.2)以用于计算校准时的通道级别类似的方法计算压缩器通道功率:
[0355] (i)for j=1,2,3;ChannelPower65(j)=0;
[0356] 初始化数组。这仅在最开始需要。
[0357] (ii)将插入增益应用于xf:
[0358] xf_ig(i)=xf(i)*Glin(j);
[0359] (iii)计算每个FFT“区间”中的功率
[0360] RinPower(i)=xf_ig(i).*conj(xf_ig(i);
[0361] (iv)将来自每个区间的功率求和到其相关的压缩通道中。上面在变量ChanjFFTbinStart到ChanjFFTbinEnd中给出了开始和结束区间
[0362] for j=1,2,3,4
[0363] ChannelPower(j)=sum(BinPower(i));(NB“i”跨越若干区间)
[0364] ChannelLevel(j)=sqrt(ChannelPower(j));
[0365] end
[0366] 在计算中看起来sqrt()函数计算量很大。
[0367] (D.3)可以计算4个增益,每个压缩通道一个增益。因此,生成了运行平均值。如果新信号级别高于先前测得的平均级别,那么该信号被视为“攻击”。如果信号被视为“攻击”,那么使用更快的攻击时间常数。如果新信号级别小于或等于先前测得的平均级别,那么该信号被视为“释放”。如果信号被视为“释放”,那么使用较慢的释放时间常数。Max()函数用于阻止NewChanMeans降至压缩阈值以下。如果没有实现这一点,那么经过长时间的静音后,如果遇到高级别,那么压缩器可以花很长时间才能达到非常低的平均级别。
[0368] (i)为通道压缩器及其限制器生成新的平均值
[0369] for j=1,2,3,4
[0370] 计算压缩器的新ChannelMean
[0371] if ChannelLevel(j)>ChanMeans(j)
[0372] k=k_att;
[0373] else
[0374] k=k_rel;
[0375] end
[0376] NewChanMeans(j)=max(cthresh(j),(1-k).*ChannelLevel(j)+k.*ChanMeans);
[0377] 限制器值以与平均值计算类似的方式计算,其平均值相对于压缩器级别进行跟踪[0378] LimiterLevel(j)=ChanLevel(j)*deltaFSlin(j);
[0379] ifLimiterLevel(j)>ChanLimMeans(j)
[0380] k=k_attlim;%%在FFT实现中,这可以是单一的
[0381] else
[0382] k=k_rellim;
[0383] end
[0384] NewLimMeans(j)=max(cthresh(j),(1-k).*LimiterLevel(j)+k.*ChanLimMeans(j));
[0385] end
[0386] (ii)从新的平均级别计算压缩器增益,但是,在一些实施例中,基于限制器平均值与压缩器平均值的比率而增加额外的增益减少。可以使用查找表来移除(a)除法和(b)两次取幂的计算复杂度,以消除取幂。
[0387] Gain(j)=(NewChanMeans(j)^Expon(j))*G0dB_norm(j);
[0388] if NewChanMeans(j)<NewLimMeans(j)//限制器将切入
[0389] Gain(j)=Gain(j)*(NewLimMeans(j)/NewChanMeans(j))^ExponLim(j));
[0390] end
[0391] (iii)将4通道增益扩展到FFT数组尺寸。每个增益被指派给从中计算对应通道功率的区间索引。索引存储在变量ChanjFFTbinStart到ChanjFFTbinEnd中
[0392] 在处理开始时初始化数组一次。
[0393] GainFFT=zeros(1,NFFT);
[0394] 然后在每一帧中(并且如有必要,在填写FFT数组时考虑负频率):
[0395] for j=1,2,3,4
[0396] GainFFT(ChanjFFTbinStart(j)......ChanjFFTbinEndChannelPower(j)=Gain(j);
[0397] End
[0398] (iv)这使得GainFFT成为在通道边缘处具有矩形台阶的数组。当值变换回时域时,这会造成错误。因此,使用3抽头FIR滤波器对边缘值进行平滑,该3抽头FIR滤波器的系数为Tap3=[0.28 0.440.28],其通过k被索引。滤波器在(频域)数组的整个一半上“向前”和向后“运行”,注意确保滤波不会使增益函数相对于其起点
[0399] “偏移”。由于它是对称的FIR滤波器,因此向前和向后都是相同的,这意味着相同的代码可以应用第二遍,但具有不同的起始数组。
[0400] (iv.1)第一遍:移除数组末端的潜在重叠/索引问题。
[0401] for i={0,63}
[0402] SmootheGain1(i)=Gain(i);
[0403] end
[0404] 对边缘值执行FIR滤波
[0405] for i=2.....62
[0406] SmootheGainl(i)=Gain(i-1)*Tap3(1)+Gain(i)*Tap3(2)+Gain(i+1)*Tap3(3);
[0407] end
[0408] (iv.2)第二遍:移除数组末端的潜在重叠/索引问题。
[0409] for i={0,63}
[0410] SmootheGain2(i)=SmootheGain1(i);
[0411] end
[0412] 对边缘值执行FIR滤波
[0413] for i=2.....62
[0414] SmootheGain2(i)=SmootheGain1(i-1)*Tap3(1)+SmootheGain1(i)*Tap3(2)+[0415] SmootheGain1(i+1)*Tap3(3);
[0416] end
[0417] (iv.3)如有必要,将SmootheGain2数组扩展回负频率。
[0418] (iv.4)将压缩器增益应用于已经应用了插入增益的数组,
[0419] for i=0.....63
[0420] xf_proc(i)=xf_ig*SmootheGain2(i);
[0421] end
[0422] (iv.5)更新并保存保持这些平均级别的变量
[0423] ChanMeans=NewChanMeans;//4通道
[0424] ChanLimMeans=NewLimMeans;//4通道
[0425] (iv.6)从函数返回xf_proc,以及更新后的平均值(或保持它们安全,直到下一帧)[0426] (V)对这个数据帧执行逆FFT。
[0427] (i)伪代码:xproc=inv_fft(xf);
[0428] 除非使用特定于音频的逆FFT函数,否则这个函数的输出应当是实数。如果输出被返回作为复数的数组,那么可以在开发期间执行检查,以确保虚部为零。
[0429] 一旦检查已执行,就丢弃虚部并保留实部。此外,如果向前和向后fft()函数是互逆的,那么音频的缩放比例应当没有变化。
[0430] (ii)执行相同的逐点乘法,如上面第(5)节中描述的开窗函数中那样。
[0431] 伪代码:
[0432] for i=0.......127
[0433] xwproc(i)=W(i)*xproc(i);
[0434] (VI)执行新数据帧到输出音频流中的插入
[0435] xwproc(0.....63)的最早的64个样本与xwproc的前一帧中的最后的64个样本重叠并加在一起并被索引为下一个可用时间缓冲,以发送到输出流(预备一旦输出流完成播放上一个输出缓冲)。这称为“重叠-相加”过程。来自xwproc的后64个样本将被保存,以便下一版本的xwproc到达。
[0436] (i)伪代码:
[0437] output16(i)=xwproc(i)+xwproc′(i+64);for i=0......63
[0438] xwproc′=xwproc;//为算法的下一次迭代而保存
[0439] 其中xwproc′是先前计算的帧。
[0440] 因此,“output16”是音频样本的64-long数组,采样率为16kHz。
[0441] (ii)在实施例中,如果原始音频采样率是8kHz,那么创建由output16的奇数编号的元素组成的输出缓冲。不需要低通滤波,因为由于级III(6.1)低处执行的低通滤波而不应当存在混叠分量。
[0442] 伪代码:output8=output16(1,3,5,.........63);
[0443] 在实施例中,如果原始音频采样率是16kHz,那么输出缓冲与output16相同。
[0444] 总的来说,基于帧的处理采用输入缓冲(尺寸在8kHz时为32个样本或在16kHz时为64个样本)并产生一个输出缓冲(尺寸在8kHz时为32个样本或在16kHz时为64个样本),从而维持输入和输出之间的音频不断流动。
[0445] 具有重叠-相加的双开窗函数产生单位重组,其中逆fft输出数组重叠。如果输出音频中出现帧速率的“嗡嗡声”,那么发生了可能的错误。
[0446] 根据一些实施例,用户设备的用户或网络运营商可以选择性地激活或停用提供音频信号修改的设置。例如,如果用户出于某种原因不需要音频修改,那么这可能是有用的。当用户的用户设备也被可能不需要音频修改的其他人使用时,这也是有用的。
[0447] 在图14中示出了另一方面,图14示出了用户设备1400。用户设备1400可以是例如移动电话,或者实际上是任何其它类型的数字设备。用户设备1400包括显示器1402。用户设备1400还包括多个麦克风,如黑圈1404所表示的。在这个示例中,设备包括十二个麦克风。将理解的是,在其它示例中,可以提供更多或更少的麦克风。这种用户设备可以结合先前描述的实施例操作。麦克风1404的阵列可以接收噪声,并将那个噪声的信息发送到网络以供处理,如前所述。麦克风1404可以是定向聚焦的。麦克风可以链接到用户设备1400的操作系统。进而,操作系统可以通信链接到用户的听力简档,这使得能够进行那个人特有的音频信号调整。举例来说,用户设备1400可以放置在桌子的前面或支架上,并拾取音频信号(例如,语音或音乐)。那些音频信号然后可以由用户设备1400发送到网络,在网络中它们可以被处理,以结合用户设备的用户的听力简档来为那个用户定制音频信号。
[0448] 用户设备1400还包括涂层或层1406。涂层1406可以是金属带或线圈的形式。涂层1406可以充当天线和/或感应回路和/或T线圈(拾音线圈),或实际上任何其它辅助设备或配件,以从用户设备1400传送到用户的助听器。涂层1406还可以包括电池和/或处理器和/或存储器,以便增加用户设备1400的电池寿命和/或处理能力和/或存储能力。这也可以帮助连接到助听器所需的T线圈或其它应用。涂层1406还可以在其中并入标记和/或物联网(IoT)能力。这种能力可以指定用户的唯一听力标识码。在一些实施例中,涂层1406呈壳体的形式,其可附连到用户设备1400并且可从用户设备1400分离。
[0449] 因而,基于并且特定于个人的预先测得和配置的听力损失和需求,以实时方式为特定用户的听力要求提供定制的改进的音频增强。
[0450] 所描述的方法可以由计算机程序实现。可以是web应用或“app”形式的计算机程序包括被布置为指示或使得计算机或处理器执行所描述方法的一个或多个功能的计算机可执行指令或代码。可以将计算机程序在计算机可读介质或计算机程序产品上提供给装置(诸如计算机)。计算机可读介质或计算机程序产品可以包括非瞬态介质,诸如半导体或固态存储器、磁带、可移动计算机记忆棒或软盘随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘,诸如CD-ROM、CD-R/W、DVD或Blu-ray。计算机可读介质或计算机程序产品可包括用于数据传输的传输信号或介质,例如用于通过互联网下载计算机程序。
[0451] 诸如计算机之类的装置或设备可以被配置为执行所描述的方法的一个或多个功能。装置或设备可以包括移动电话、平板电脑、膝上型电脑或其它处理设备。装置或设备可以采取数据处理系统的形式。数据处理系统可以是分布式系统。例如,数据处理系统可以跨网络或通过专用本地连接分布。
[0452] 装置或设备通常包括用于存储计算机可执行指令的至少一个存储器和用于执行计算机可执行指令的至少一个处理器。
[0453] 图11示出了示例装置或设备104的体系架构。装置或设备104包括处理器110、存储器115和显示器135。它们连接到中央总线结构,显示器135经由显示器适配器130连接。示例装置或设备100还包括输入设备125(诸如鼠标、音频输入设备和/或键盘)、输出设备145(例如,诸如扬声器或头戴式耳机插口之类的音频输出设备)以及用于将装置或设备连接到其它装置、设备或网络的通信适配器105。输入设备125、输出设备145和通信适配器105也连接到中央总线结构,输入设备125经由输入设备适配器120连接,而输出设备145经由输出设备适配器140连接。
[0454] 在操作中,处理器110可以执行存储在存储器115中的计算机可执行指令,并且可以在显示器135上向用户显示处理的结果。可以经由(一个或多个)输入设备125接收用于控制计算机操作的用户输入。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈