首页 / 专利库 / 软件 / 网络机器人 / 用于声学环境的音频处理

用于声学环境的音频处理

阅读:1024发布:2020-11-12

专利汇可以提供用于声学环境的音频处理专利检索,专利查询,专利分析的服务。并且一种用于检测声学环境中的声音的设备包含经配置以检测所述声学环境中的音频 信号 的麦克 风 阵列。所述设备还包含经配置以确定所述 音频信号 的声音源的 角 度 位置 的处理器。所述角度位置是相对于所述麦克风阵列。所述处理器还经配置以确定所述音频信号的至少一个混响特性。所述处理器经进一步配置以基于所述至少一个混响特性,确定所述声音源沿与所述角度位置相关的轴线相对于所述麦克风阵列的距离。,下面是用于声学环境的音频处理专利的具体信息内容。

1.一种用于检测声学环境中的声音的设备,所述设备包括:
经配置以检测所述声学环境中的音频信号的麦克阵列;以及
处理器,其经配置以进行以下操作:
确定所述音频信号的声音源的位置,所述角度位置是相对于所述麦克风阵列;
确定所述音频信号的至少一个混响特性;以及
基于所述至少一个混响特性,确定所述声音源沿与所述角度位置相关的轴线相对于所述麦克风阵列的距离。
2.根据权利要求1所述的设备,其中所述角度位置包含所述声音源的角坐标。
3.根据权利要求1所述的设备,其中所述角度位置对应于两个角坐标之间的区域。
4.根据权利要求1所述的设备,其中所述处理器经进一步配置以确定相对于所述麦克风阵列的一或多个不同角度位置处的一或多个混响特性,以确定所述至少一个混响特性。
5.根据权利要求4所述的设备,其中所述一或多个不同角度位置跨越360度。
6.根据权利要求1所述的设备,其中所述至少一个混响特性包含所述音频信号的直达混响比。
7.根据权利要求1所述的设备,其中所述至少一个混响特性包含所述音频信号的音量减小时间,所述音量减小时间对应于所述音频信号的音量减小特定百分比的时间量。
8.根据权利要求7所述的设备,其中所述特定百分比是百分之六十。
9.根据权利要求1所述的设备,其中所述处理器经进一步配置以进行以下操作:
基于所述角度位置及所述距离确定所述声音源是位于所述声学环境的第一区中、所述声学环境的第二区中,还是位于所述声学环境的第三区中;
其中所述第一区相比于所述第二区更接近麦克风阵列,且其中所述第二区相比于所述第三区更接近所述麦克风阵列。
10.根据权利要求8所述的设备,其进一步包括经配置以显示所述声音源相对于所述麦克风阵列的位置的用户界面,所述位置基于所述角度位置与所述距离。
11.根据权利要求10所述的设备,其中所述用户界面经进一步配置以显示所述第一区、所述第二区和所述第三区的视觉表示。
12.根据权利要求9所述的设备,其中所述第一区、所述第二区和所述第三区包括具有位于所述麦克风阵列处的中心点的同心圆。
13.根据权利要求9所述的设备,其中所述声学环境中的每个区包括具有位于所述麦克风阵列处的中心点的矩形部分。
14.根据权利要求1所述的设备,其中所述麦克风阵列是固定麦克风阵列。
15.根据权利要求1所述的设备,其中所述麦克风阵列是移动麦克风阵列。
16.根据权利要求1所述的设备,其中所述处理器经进一步配置以基于所述至少一个混响特性确定所述声学环境中的所述麦克风阵列的位置,其中所述麦克风阵列包含在机器人、头戴装置或移动装置中。
17.一种用于检测声学环境中的声音的设备,所述设备包括:
经配置以检测所述声学环境中的音频信号的麦克风阵列;以及
处理器,其经配置以进行以下操作:
确定所述音频信号的直达能量分量;
确定所述音频信号的混响能量分量;
基于所述直达能量分量和所述混响能量分量,确定所述音频信号的声音源距所述麦克风阵列的距离;以及
基于所述距离,将所述音频信号归类为前景音频或背景音频。
18.根据权利要求17所述的设备,其中所述处理器经进一步配置以进行以下操作:
如果所述音频信号被归类为前景音频,那么向所述音频信号分配第一数量的位以用于编码操作;以及
如果所述音频信号被归类为背景音频,那么向所述音频信号分配第二数量的位以用于所述编码操作,所述第二数量的位少于所述第一数量的位。
19.根据权利要求17所述的设备,其中所述处理器经进一步配置以在所述编码操作期间编码数据包,以产生经编码数据包。
20.根据权利要求19所述的设备,其中如果所述音频信号被归类为前景音频,那么所述第一数量的位在所述经编码数据包中用于编码所述音频信号。
21.根据权利要求19所述的设备,其中如果所述音频信号被归类为背景音频,那么所述第二数量的位在所述经编码数据包中用于编码所述音频信号。
22.根据权利要求19所述的设备,其进一步包括经配置以发射所述经编码数据包到远程装置的发射器。
23.一种用于检测声学环境中的声音的设备,所述设备包括:
经配置以检测所述声学环境中的一或多个音频信号的麦克风;以及
处理器,其经配置以进行以下操作:
确定所述声学环境中的所述一或多个音频信号的至少一个混响特性;
将所述一或多个音频信号应用到神经网络,以确定一或多个神经网络特征;以及基于所述至少一个混响特性和所述一或多个神经网络特征,确定所述声学环境的一或多个特性。
24.根据权利要求23所述的设备,其中所述处理器经进一步配置以基于所述至少一个混响特性和所述一或多个神经网络特征,确定所述一或多个音频信号的一或多个特性。
25.根据权利要求24所述的设备,其中所述一或多个音频信号的所述一或多个特性包含所述麦克风与所述一或多个音频信号的声音源之间的距离。
26.一种用于检测声学环境中的声音的方法,所述方法包括:
在麦克风阵列处检测所述声学环境中的第一音频信号和所述声学环境中的第二音频信号,所述第一音频信号来自第一声音源,且所述第二音频信号来自第二声音源;
在处理器处确定所述声学环境中的所述第一音频信号的第一混响特性和所述声学环境中的所述第二音频信号的第二混响特性;
基于所述第一混响特性确定所述第一声音源与所述麦克风阵列之间的第一距离,所述第一声音源沿与相对于所述麦克风阵列的第一角度位置相关的第一轴线定位;以及基于所述第二混响特性确定所述第二声音源与所述麦克风阵列之间的第二距离,所述第二声音源沿与相对于所述麦克风阵列的第二角度位置相关的第二轴线定位。
27.根据权利要求26所述的方法,其进一步包括执行扬声器辨识,以使用语音声学模型识别来自所述第一声音源的第一音频信号和来自所述第二声音源的第二音频信号。
28.根据权利要求26所述的方法,其进一步包括:
在所述麦克风阵列处检测来自所述第一声音源的一或多个额外的音频信号;
在处理器处确定所述一或多个额外的音频信号的一或多个额外的混响特性;以及基于所述第一混响特性与所述一或多个额外的混响特性之间的比较,追踪所述第一声音源位置的变化。
29.根据权利要求26所述的方法,其中所述第一混响特性包含所述第一音频信号的直达混响比。
30.根据权利要求26所述的方法,其中所述第一混响特性包含所述第一音频信号的音量减小时间,所述音量减小时间对应于所述第一音频信号的音量减小特定百分比的时间量。

说明书全文

用于声学环境的音频处理

[0001] 相关申请的交叉引用
[0002] 本申请主张2016年3月25日递交的共同拥有的第15/081,664号美国非临时申请的权益,其内容明确地以全文引用的方式并入。

技术领域

[0003] 本公开大体上涉及音频处理。

背景技术

[0004] 技术进步已经产生更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线计算装置,例如便携式无线电话、个人数字助理(personal digital assistant;PDA)和寻呼装置,其体积小,重量轻,且易于由用户携带。更确切地说,例如蜂窝式电话和互联网协议(Internet protocol;IP)电话等的便携式无线电话可经由无线网络传送语音和数据包。此外,许多此类无线电话包含并入其中的其它类型的装置。举例来说,无线电话还可包含数字静态相机、数码摄像机、数字记录器和音频文件播放器。并且,此类无线电话可处理可执行指令,所述指令包含软件应用程序,例如可用于上网的网页浏览器应用程序。由此,这些无线电话可以包含大量计算能
[0005] 无线电话可以从周围的声学环境采集音频信号。举例来说,无线电话可包含经配置以从一或多个声音源采集音频信号的一或多个麦克。然而,无线电话可能难以在编码期间分离音频信号。举例来说,无线电话可能难以确定音频信号是前景音频信号(例如,“重要”音频信号)或背景音频信号(例如,“不重要”音频信号)。因此,基于采集的音频信号的音频应用(无线装置或远程装置处)可能受损。作为非限制性实例,前景音频信号和背景音频信号可能以类似位率经编码,其可能损害音频编码效率。发明内容
[0006] 根据所公开的技术的一个实施方案,用于在声学环境中检测声音的设备包含经配置以在声学环境中检测音频信号的麦克风阵列。所述设备还包含经配置以确定音频信号的声音源的位置的处理器。所述角度位置是相对于所述麦克风阵列。所述处理器还经配置以确定所述音频信号的至少一个混响特性。所述处理器经进一步配置以基于所述至少一个混响特性,确定声音源沿与所述角度位置相关的轴线相对于所述麦克风阵列的距离。
[0007] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的方法包含在麦克风阵列处检测声学环境中的音频信号。所述方法还包含确定所述音频信号的声音源的角度位置。所述角度位置是相对于所述麦克风阵列。所述方法进一步包含确定所述音频信号的至少一个混响特性。所述方法还包含基于所述至少一个混响特性,确定声音源沿与角度位置相关的轴线相对于所述麦克风阵列的距离。
[0008] 根据所公开的技术的另一个实施方案,非暂时性计算机可读媒体包含用于在声学环境中检测声音的指令。在由处理器执行时,所述指令导致所述处理器执行包含确定使用麦克风阵列在声学环境中检测到的音频信号的声音源的角度位置的操作。所述角度位置是相对于所述麦克风阵列。操作还包含确定所述音频信号的至少一个混响特性,和基于所述至少一个混响特性确定所述声音源沿与角度位置相关的轴线相对于所述麦克风阵列的距离。所述距离是相对于所述麦克风阵列。
[0009] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的设备包含检测所述声学环境中的音频信号的装置和确定所述音频信号的声音源的角度位置的装置。所述角度位置是相对于所述用于检测的装置。所述设备还包含确定所述音频信号的至少一个混响特性的装置,和基于所述混响特性,确定所述声音源沿与所述角度位置相关的轴线的距离的装置。所述距离是相对于所述用于检测的装置。
[0010] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的设备包含经配置以在声学环境中检测音频信号的麦克风阵列。所述设备还包含经配置以确定所述音频信号的直达能量分量和确定所述音频信号的混响能量分量的处理器。所述处理器还经配置以基于所述直达能量分量和所述混响能量分量,确定所述音频信号的声音源距所述麦克风阵列的距离。处理器经进一步配置以基于所述距离将所述音频信号归类为前景音频或背景音频。
[0011] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的方法包含在麦克风阵列处检测声学环境中的音频信号。所述设备进一步包含在处理器处确定所述音频信号的直达能量分量和确定所述音频信号的混响能量分量。所述方法还包含基于所述直达能量分量和所述混响能量分量,确定所述音频信号的声音源距所述麦克风阵列的距离。所述方法进一步包含基于所述距离将所述音频信号归类为前景音频或背景音频。
[0012] 根据所公开的技术的另一个实施方案,非暂时性计算机可读媒体包含用于在声学环境中检测声音的指令。在由处理器执行时,所述指令导致所述处理器执行包含确定使用麦克风阵列在声学环境检测到的音频信号的直达能量分量的操作。所述操作还包含确定所述音频信号的混响能量分量,和基于所述直达能量分量和所述混响能量分量,确定所述音频信号的声音源距所述麦克风阵列的距离。所述操作进一步包含基于所述距离将所述音频信号归类为前景音频或背景音频。
[0013] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的设备包含检测所述声学环境中的音频信号的装置和确定所述音频信号的直达能量分量的装置。所述设备还包含确定所述音频信号的混响能量分量的装置,和基于所述直达能量分量和所述混响能量分量确定所述音频信号的声音源距所述麦克风阵列的距离的装置。所述设备还包含基于所述距离将所述音频信号归类为前景音频或背景音频的装置。
[0014] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的设备包含经配置以在声学环境中检测一或多个音频信号的麦克风阵列。所述设备还包含经配置以确定所述声学环境中的所述一或多个音频信号的至少一个混响特性的处理器。所述处理器经进一步配置以将所述一或多个音频信号应用到神经网络,以确定一或多个神经网络特征。所述处理器还经配置以基于所述至少一个混响特性和所述一或多个神经网络特征,确定所述声学环境的一或多个特性。
[0015] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的方法包含在麦克风处检测声学环境中的一或多个音频信号。所述方法还包含在处理器处确定所述声学环境中的所述一或多个音频信号的至少一个混响特性。所述方法进一步包含将所述一或多个音频信号应用于神经网络以确定一或多个神经网络特征,以及基于所述至少一个混响特性和所述一或多个神经网络特征确定所述声学环境的一或多个特性。
[0016] 根据所公开的技术的另一个实施方案,非暂时性计算机可读媒体包含用于在声学环境中检测声音的指令。在由处理器执行时,所述指令导致所述处理器执行包含确定使用麦克风在所述声学环境中检测到的一或多个音频信号的至少一个混响特性的操作。所述操作还包含将所述一或多个音频信号应用到神经网络,以确定一或多个神经网络特征。所述操作进一步包含基于所述至少一个混响特性和所述一或多个神经网络特征,确定所述声学环境的一或多个特性。
[0017] 根据所公开的技术的另一个实施方案,用于在声学环境中检测声音的设备包含检测所述声学环境中的一或多个音频信号的装置和确定所述声学环境中的所述一或多个音频信号的至少一个混响特性的装置。所述设备还包含将所述一或多个音频信号应用于神经网络以确定一或多个神经网络特征的装置,以及基于所述至少一个混响特性和所述一或多个神经网络特征确定所述声学环境的一或多个特性的装置。
[0018] 根据所公开的技术的另一个实施方案,一种用于在声学环境中检测声音的方法包含在麦克风阵列处检测所述声学环境中的第一音频信号和所述声学环境中的第二音频信号。所述第一音频信号来自第一声音源,且所述第二音频信号来自第二声音源。所述方法还包含在处理器处确定所述声学环境中的所述第一音频信号的第一混响特性和所述声学环境中的所述第二音频信号的第二混响特性。所述方法进一步包含基于所述第一混响特性确定所述第一声音源与所述麦克风阵列之间的第一距离,以及基于所述第二混响特性确定所述第二声音源与所述麦克风阵列之间的第二距离。所述第一声音源沿与相对于所述麦克风阵列的第一角度位置相关的第一轴线定位,而所述第二声音源沿与相对于所述麦克风阵列的第二角度位置相关的第二轴线定位。
[0019] 根据所公开的技术的另一个实施方案,一种用于在声学环境中检测声音的设备包含经配置以检测所述声学环境中的第一音频信号和所述声学环境中的第二音频信号的麦克风阵列。所述第一音频信号来自第一声音源,且所述第二音频信号来自第二声音源。所述设备还包含经配置以确定所述声学环境中的所述第一音频信号的第一混响特性和确定所述声学环境中的所述第二音频信号的第二混响特性的处理器。所述处理器经进一步配置以基于所述第一混响特性确定所述第一声音源与所述麦克风阵列之间的第一距离,以及基于所述第二混响特性确定所述第二声音源与所述麦克风阵列之间的第二距离。所述第一声音源沿与相对于所述麦克风阵列的第一角度位置相关的第一轴线定位,而所述第二声音源沿与相对于所述麦克风阵列的第二角度位置相关的第二轴线定位。
[0020] 根据所公开的技术的另一个实施方案,非暂时性计算机可读媒体包含用于在声学环境中检测声音的指令。在由处理器执行时,所述指令导致所述处理器执行包含确定所述声学环境中的第一音频信号的第一混响特性和确定所述声学环境中的第二音频信号的第二混响特性的操作。使用麦克风阵列检测所述第一音频信号和所述第二音频信号。所述第一音频信号来自第一声音源,且所述第二音频信号来自第二声音源。所述操作还包含基于所述第一混响特性确定所述第一声音源与所述麦克风阵列之间的第一距离,以及基于所述第二混响特性确定所述第二声音源与所述麦克风阵列之间的第二距离。所述第一声音源沿与相对于所述麦克风阵列的第一角度位置相关的第一轴线定位,而所述第二声音源沿与相对于所述麦克风阵列的第二角度位置相关的第二轴线定位。
[0021] 根据本公开的另一个实施方案,一种用于在声学环境中检测声音的设备包含在麦克风阵列处检测所述声学环境中的第一音频信号和所述声学环境中的第二音频信号的装置。所述第一音频信号来自第一声音源,且所述第二音频信号来自第二声音源。所述设备还包含确定所述声学环境中的所述第一音频信号的第一混响特性和所述声学环境中的所述第二音频信号的第二混响特性的装置。所述设备进一步包含确定所述第一声音源与所述用于基于所述第一混响特性检测的装置之间的第一距离的装置,以及确定所述第二声音源与所述用于基于所述第二混响特性检测的装置之间的第二距离的装置。所述第一声音源沿与相对于所述用于检测的装置的第一角度位置相关的第一轴线定位,而所述第二声音源沿与相对于所述用于检测的装置的第二角度位置相关的第二轴线定位。附图说明
[0022] 图1是描绘可用于检测声学环境中的声音的音频采集装置的简图。
[0023] 图2是描绘图1的音频采集装置的另一个简图。
[0024] 图3说明用于确定不同角度位置处的混响特性的技术。
[0025] 图4说明用于基于混响特性确定声学环境中的麦克风阵列的位置的技术。
[0026] 图5是说明用于在声学环境中检测声音的一种方法的流程图
[0027] 图6是说明用于在声学环境中检测声音的一种方法的另一个流程图。
[0028] 图7是说明用于在声学环境中检测声音的一种方法的另一个流程图。
[0029] 图8说明用于基于一或多个音频信号确定神经网络特征的神经网络。
[0030] 图9是说明用于在声学环境中检测声音的一种方法的另一个流程图。
[0031] 图10说明包含可用于执行根据图1到9所描述的技术的组件的装置。

具体实施方式

[0032] 参考图1,描绘了声学环境100。根据一个实施方案,声学环境100可包含房间、室外会议厅等。音频采集装置102位于所述声学环境100中。所述音频采集装置102可以是无线电话,或经配置以从一或多个声音源采集声音的另一个移动装置。
[0033] 音频采集装置102包含处理器104、存储器106、麦克风阵列108和收发器110。存储器106可包含非暂时性计算机可读媒体,其包含可通过处理器104实行的指令。根据一个实施方案,麦克风阵列108可以是固定麦克风阵列。根据另一个实施方案,麦克风阵列108可以是移动麦克风阵列。举例来说,麦克风阵列108可以包含在机器人、头戴装置、移动装置、诸如机动车或飞行器的有人或无人驾驶的载具中等。收发器110可以经配置以发射和接收来自一或多个其它装置(未展示)的数据。根据一些实施方案,音频采集装置102可包含额外的(或更少)组件。作为非限制性实例,音频采集装置102可包含一或多个扬声器来输出音频。处理器104包含直达混响比(direct-to-reverberation ratio;DRR)电路系统112和音量减小时间(volume reduction time;VRT)电路系统114。
[0034] 声学环境100包含复数个区。举例来说,声学环境100包含第一区116、第二区118和第三区120。根据其它实施方案,声学环境100可包含额外的区。作为非限制性实例,声学环境100可包含五个区。声学环境100的区116、118、120可包含具有位于麦克风圆形阵列中心处的中心点的同心圆。举例来说,麦克风阵列108可以是麦克风的圆形阵列,其中各麦克风被定位成采集不同方向中的音频。其中所述第一区116相比于所述第二区118更接近麦克风阵列108,且其中所述第二区118相比于所述第三区120更接近所述麦克风阵列108。
[0035] 尽管图1描绘呈同心圆形式的三个区116、118、120,但本文中所描述的技术可适用于使用具有不同几何形状的区。作为非限制性实例,参考图2,声学环境200包含第一区216、第二区218和第三区220。声学环境200的各区216、218、220可包含具有位于所述麦克风阵列108处的中心点的矩形部分。因此,根据图1描述的技术还可以适用于图2的声学环境200。
[0036] 返回参考图1,处理器104可以经配置以确定音频信号的声音源的角度位置。角度位置可以相对于麦克风阵列108。为了说明,第一声音源122可以位于相对于麦克风阵列108第一角度位置(例如,大约260度)处,第二声音源124可以位于相对于麦克风阵列108第二角度位置(例如,大约3度)处,而第三声音源126可以位于相对于麦克风阵列108第三角度位置(例如,大约190度)处。尽管在一些实施方案中角度位置包含角坐标(例如,260度),但在其它实施方案中角度位置可包含两个角坐标之间的区域,诸如第一角坐标141(例如,230度)与第二角坐标142(例如,275度)之间的区域140。第一声音源122可以输出由麦克风阵列108所采集的第一音频信号123,第二声音源124可以输出由麦克风阵列108所采集的第二音频信号125,而第三声音源126可以输出由麦克风阵列108所采集的第三音频信号127。
[0037] 基于第一音频信号123的声学特性,处理器104可以确定第一声音源122相对于麦克风阵列108的第一角度位置。举例来说,处理器104可以基于检测到的第一音频信号123音量、第一音频信号123的混响特性、第一音频信号123的一或多个其它特性,或其组合,确定第一角度位置。基于第二音频信号125的声学特性,处理器104可以确定第二声音源124相对于麦克风阵列108的第二角度位置。以类似方式,基于第三音频信号127的声学特性,处理器104可以确定第三声音源126相对于麦克风阵列108的第三角度位置。
[0038] 处理器104可以确定声学环境100中的音频信号的至少一个混响特性。根据一个实施方案,至少一个混响特性可包含所述音频信号的直达混响比。作为非限制性实例,处理器104可以确定音频信号123、125、127的直达混响比。DRR电路系统112可以确定第一音频信号
123的直达能量分量和第一音频信号123的混响能量分量。如本文所用,信号的“直达”能量分量包含和在第一角度位置所检测到的能级相同的信号能级(例如,最高能级)。根据一些实施方案,直达能量分量包含和从“最接近”信号源极的麦克风检测到的能级相同的信号能级。如本文所用,信号的“混响”能量分量包含与从其它角度位置检测到的能级相同的信号能级的总和(例如,除最高能级外各能级的总和)。根据图3更详细地描述直达混响比。在确定第一音频信号123的直达能量分量和第一音频信号123的混响能量分量后,DRR电路系统
112就可以确定第一音频信号123的第一直达混响比。举例来说,第一直达混响比可以通过将第一音频信号123直达能量分量除以第一音频信号123混响能量分量来计算。基于第一直达混响比,DRR电路系统112可以确定第一声音源122与麦克风阵列108之间的距离(d1)。举例来说,DRR电路系统112可以基于至少一个混响特性(例如,第一直达混响比)确定第一声音源122沿与第一角度位置相关的轴线的距离(d1)。轴线可以沿图1中指出的方向有距离d1。
在其它实施方案中,轴线可以对应于区域140内的角坐标,诸如252.5度(例如,居中于第一角坐标141与第二角坐标142之间)。
[0039] 另外或在替代方案中,DRR电路系统112确定第二音频信号125的直达能量分量和第二音频信号125的混响能量分量。在确定第二音频信号125的直达能量分量和第二音频信号125的混响能量分量后,DRR电路系统112就可以确定第二音频信号125的第二直达混响比。举例来说,第二直达混响比可以通过将第二音频信号125直达能量分量除以第二音频信号125混响能量分量来计算。基于第二直达混响比,DRR电路系统112可以确定第二声音源124与麦克风阵列108之间的距离(d2)。举例来说,DRR电路系统112可以基于至少一个混响特性(例如,第二直达混响比)确定第二声音源124沿与第二角度位置相关的轴线的距离(d2)。
[0040] 以类似方式,DRR电路系统112可以确定第三音频信号127的直达能量分量和第三音频信号127的混响能量分量。在确定第三音频信号127的直达能量分量和第三音频信号127的混响能量分量后,DRR电路系统112就可以确定第三音频信号127的第三直达混响比。
举例来说,第三直达混响比可以通过将第三音频信号127直达能量分量除以第三音频信号
127混响能量分量来计算。基于第二直达混响比,DRR电路系统112可以确定第三声音源126与麦克风阵列108之间的距离(d3)。举例来说,DRR电路系统112可以基于至少一个混响特性(例如,第三直达混响比)确定第三声音源126沿与第三角度位置相关的轴线的距离(d3)。
[0041] 根据一个实施方案,至少一个混响特性可包含所述音频信号的音量减小时间。音量减小时间可以对应于音频信号的音量减小特定百分比的时间量。举例来说,音量减小时间可以对应于音频信号音量减小百分之六十的时间量(例如,“T60”)。为了说明,VRT电路系统114可以确定第一音频信号123的第一音量减小时间(例如,第一音频信号123音量减小百分之六十的时间量)。基于第一音量减小时间,VRT电路系统114可以确定第一声音源122与麦克风阵列108之间的距离(d1)。举例来说,VRT电路系统114可以基于至少一个混响特性(例如,第一音量减小时间)确定第一声音源122沿与第一角度位置相关的轴线的距离(d1)。为了说明,如果第一音量减小时间相对较大,那么距离(d1)相对较短。然而,如果第一音量减小时间相对较小,那么距离(d1)相对较长。
[0042] 另外或在替代方案中,VRT电路系统114可以确定第二音频信号125的第二音量减小时间(例如,第二音频信号125音量减小百分之六十的时间量)。基于第二音量减小时间,VRT电路系统114可以确定第二声音源124与麦克风阵列108之间的距离(d2)。举例来说,VRT电路系统114可以基于至少一个混响特性(例如,第二音量减小时间)确定第二声音源124沿与第二角度位置相关的轴线的距离(d2)。
[0043] 以类似方式,VRT电路系统114可以确定第三音频信号127的第三音量减小时间(例如,第三音频信号127音量减小百分之六十的时间量)。基于第三音量减小时间,VRT电路系统114可以确定第三声音源126与麦克风阵列108之间的距离(d3)。举例来说,VRT电路系统114可以基于至少一个混响特性(例如,第三音量减小时间)确定第三声音源126沿与第三角度位置相关的轴线的距离(d3)。
[0044] 处理器104还可以经配置以基于角度位置和距离确定特定声音源是位于第一区116、第二区118,还是位于第三区120中。举例来说,处理器104可以基于第一声音源122与麦克风阵列108之间的距离(d1)和基于第一声音源122的第一角度位置(相对于麦克风阵列
108)确定第一声音源122位于第一区116中。以类似方式,处理器104可以基于第二声音源
124与麦克风阵列108之间的距离(d2)和基于第二声音源124的第二角度位置(相对于麦克风阵列108)确定第二声音源124位于第二区118中。处理器104还可以基于第三声音源126与麦克风阵列108之间的距离(d3)和基于第三声音源126的第三角度位置(相对于麦克风阵列
108)确定第三声音源126位于第三区120中。
[0045] 音频采集装置102还可以包含用户界面111。所述用户界面111可以经配置以显示特定声音源相对于麦克风阵列108的位置(例如,相对于音频采集装置102的位置)。特定声音源的位置可以基于特定声音源相对于麦克风阵列108的角度位置和特定声音源沿与角度位置相关的轴线的距离。为了说明,用户界面111可显示各声音源122、124、126相对于麦克风阵列108位置的位置。根据一个实施方案,用户界面111还可以显示第一区116、第二区118和第三区120的视觉表示,使得用户可以轻易地辨认各别区116、118、120内的声音源122、124、126的位置。
[0046] 根据一些实施方案,处理器104可以经配置以基于各区中产生的音频信号的检测到的声学特性(例如,直达混响比和音量减小时间)确定一或多个区116、118、118的边界。为了说明,处理器104可以基于第一区116中产生的第一音频信号的检测到的声学特性确定第一区116的第一边界、基于第二区118中产生的第二音频信号的检测到的声学特性确定第二区118的第二边界,以及基于第三区120中产生的第三音频信号的检测到的声学特性确定第三区120的第三边界。举例来说,DRR电路系统112可以基于从声学环境100中的音频信号收集到的一组直达混响比,设定第一直达混响阈值、第二直达混响阈值和第三直达混响阈值。DRR电路系统112可以确定检测到的音频信号的最高直达混响比和检测到的音频信号的最低直达混响比。基于最高和最低直达混响比,处理器104可以基于待确定区的数量确定直达混响阈值。待确定区的数量可基于用户输入。类似技术可用于使用音量减小时间确定边界。
[0047] 如上文所述,处理器104可以比较音频信号123、125、127的直达能量分量与音频信号123、125、127的混响分量,以分别确定声音源122、124、126与麦克风阵列108之间的距离(d1、d2、d3)。基于距离(d1、d2、d3),处理器104可以将音频信号123、125、127归类为前景音频或背景音频。为了说明,因为第一声音源122与麦克风阵列108之间的距离(d1)相对较小(例如,未能满足距离阈值),所以处理器104可以将第一音频信号123归类为前景音频。因为第三声音源126与麦克风阵列108之间的距离(d3)相对较大(例如,满足距离阈值),所以处理器104可以将第三音频信号127归类为背景音频。以类似方式,处理器104可以基于第二声音源124与麦克风阵列108的距离(d2)与距离阈值的比较确定第二音频信号125是前景音频还是背景音频。
[0048] 处理器104可以经配置以在第一音频信号123被归类为前景音频时向第一音频信号123分配第一数量的位以用于编码操作,且经配置以在第三音频信号127被归类为背景音频时向第三音频信号127分配第二数量的位以用于编码操作。如本文所用,向音频信号“分配”多个位对应于使用所述数量的位来编码音频信号。第二数量的位可以少于第一数量的位。处理器104可以在编码操作期间编码数据包以产生经编码数据包。第一数量的位可在第一音频信号123被归类为前景音频时在经编码数据包中被使用来编码第一音频信号123,以及第二数量的位可在第三音频信号127被归类为前景音频时在经编码数据包中被使用来编码第三音频信号127。收发器110可以经配置以发射经编码数据包到远程装置。经编码数据包可包含指示用于编码音频信号123、127位的数量的部分。
[0049] 根据图1描述的技术可以允许音频采集装置102基于混响特性(例如,直达混响比、音量减小时间或两者都有)确定声学环境100中的声音源122、124、126到一或多个麦克风的邻近度和位置。确定声音源122、124、126的邻近度可以允许处理器104以更高位率编码来自更近的声音源的音频信号(例如,前景音频信号)和以更低位率编码来自更远的声音源的音频信号(例如,背景音频信号),以用于编码效率。举例来说,如果音频采集装置102将第一音频信号123归类为前景音频,那么相对大量的位可以被分配给第一音频信号123以用于编码,从而实现高准确度音频编码。然而,如果音频采集装置102将第三音频信号127归类为背景音频,那么相对少量的位可以被分配给第三音频信号127以用于编码,这是因为第三音频信号127可能被视为“较不重要”。
[0050] 参考图3,简图300说明用于确定第一音频信号123的混响特性的技术。根据简图300,第一音频信号123的能量分量(例如,平)相对于图1的麦克风阵列108在不同角度位置被检测到。举例来说,简图300说明第一角度位置320、第二角度位置322、第三角度位置
324和第四角度位置326。尽管图3中描绘四个角度位置320、322、324、326,但在其它实施方案中,第一音频信号123的能量分量可以在额外的(或更少)角度位置中检测到。根据一个实施方案,角度位置320、322、324、326的总和可以跨越360度。作为非限制性实例,各角度位置
320、322、324、326可以跨越90度。
[0051] 图1的处理器104可以确定相对于麦克风阵列108的一或多个不同角度位置320、322、324、326处的一或多个混响特性,以确定第一音频信号123的角度位置。作为非限制性实例,DRR电路系统112可以为(或相对于)各角度位置320、322、324、326确定第一音频信号
123的混响特性。
[0052] 为了说明,DRR电路系统112可以确定第一音频信号123的第一混响特性。可以在第一音频信号123的直达能量分量在第一角度位置320处测量时,确定第一混响特性。举例来说,第一混响特性可以通过将第一角度位置320处的第一音频信号123的第一能级除以第一音频信号123在其它角度位置322、324、326处的能级的总和来计算。以类似方式,DRR电路系统112可以确定第一音频信号123的第二混响特性。可以在第一音频信号123的直达能量分量在第二角度位置322处测量时,确定第二混响特性。举例来说,第二混响特性可以通过将第二角度位置322处的第一音频信号123的第二能级除以第一音频信号123在其它角度位置320、324、326处的能级的总和来计算。类似技术可以经实施以在第一音频信号123的直达能量分量分别在第三和第四角度位置324、326处测量时,确定第一音频信号123的第三和第四混响特性。
[0053] 处理器104可以基于各角度位置320、322、324、326处计算出的混响特性的幅值,选择确定第一音频信号123的混响特性和/或第一声音源122的角度位置。举例来说,具有最高幅值的混响特性可用于确定第一声音源122中的第一个的角度位置和第一音频信号123的混响特性。为了说明,处理器104可以确定直达能量分量的幅值相对于第一角度位置320最大。因此,处理器104可以确定第一声音源122沿与第一角度位置320相关的轴线定位,且第一音频信号123的直达混响比具有针对第一角度位置320的直达能量分量。
[0054] 参考图4,描绘了声学环境400。根据一个实施方案,声学环境400可包含由墙壁402、404、406、408包围的房间。声学环境400包含音频采集装置102。根据图4,音频采集装置
102可以从声学环境400的左下角中的第一方位移动到声学环境400中心附近的第二方位。
音频采集装置102还可以从第二方位移动到声学环境400右下角中的第三方位。因此,音频采集装置102可以包含在移动对象中,诸如机器人、头戴装置、移动装置、载具等。
[0055] 在第一方位处,音频采集装置102可以检测声学环境400中的一或多个音频信号。如相对于图3以类似方式所描述,音频采集装置102可以确定音频信号的直达混响比。基于直达混响比,音频采集装置102可以确定具有最大“直达分量”(例如,最高直达混响比)的方向(或区域)和具有较大“混响分量”(例如,较低直达混响比)的方向。音频采集装置102可以检测朝向左侧和朝向底部的相对较大声音反射440,和朝向顶部和朝向右侧的相对较小声音反射440。基于声音反射440,音频采集装置102可以确定其在(或在附近)声学环境400的左下角(例如,墙壁404、406附近)、家具附近等。举例来说,如果音频采集装置102的第一直达混响比(具有朝向声学环境400中心的直达分量)大体上不同于音频采集装置102的第二直达混响比(具有朝向壁406的直达分量),那么麦克风阵列108可以定位在声学环境400的角落附近。
[0056] 在第二方位处,音频采集装置102也可以检测声学环境400中的一或多个音频信号。音频采集装置102可以检测音频采集装置102周围全部的大体上类似的声音反射442。基于声音反射442,音频采集装置102可以确定其在(或在附近)声学环境400的中心。举例来说,如果音频采集装置102的第一直达混响比(具有朝向声学环境400左下角的直达分量)大体上不同于音频采集装置102的第二直达混响比(具有朝向声学环境400右下角的直达分量),那么麦克风阵列108可以被定位在声学环境400中心附近。
[0057] 在第三方位处,音频采集装置102可以检测声学环境400中的一或多个音频信号。音频采集装置102可以检测朝向右侧和朝向底部的相对较大声音反射444,和朝向顶部和朝向左侧的相对较小声音反射444。基于声音反射444,音频采集装置102可以确定它是在(或在附近)声学环境400的右下角(例如,墙壁402、404附近)。
[0058] 相对于图4描述的技术可以允许音频采集装置102基于混响特性(例如,直达混响比)确定声学环境400中的麦克风阵列108的位置。
[0059] 参看图5,描绘了说明一种用于在声学环境中检测声音的方法500的流程图。方法500可以使用图1、2和4的音频采集装置102进行。
[0060] 方法500包含在502处使用麦克风阵列检测声学环境中的音频信号。举例来说,参考图1,麦克风阵列108可以检测声学环境100中的第一音频信号123。第一音频信号123可以由第一声音源122产生。
[0061] 方法500还包含在504处确定音频信号的声音源的角度位置。角度位置可以是相对于麦克风阵列。举例来说,参考图1,处理器104可以确定第一声音源122相对于麦克风阵列108的第一角度位置。为了说明,基于第一音频信号123的声学特性,处理器104可以确定第一声音源122相对于麦克风阵列108的第一角度位置。举例来说,处理器104可以基于第一音频信号123的检测到的音量和第一音频信号123的混响特性,确定第一角度位置。
[0062] 所述方法500还包含在506处确定所述音频信号的至少一个混响特性。举例来说,参考图1,DRR电路系统112可以确定第一音频信号123的直达能量分量和第一音频信号123的混响能量分量。在确定第一音频信号123的直达能量分量和第一音频信号123的混响能量分量后,DRR电路系统112就可以确定第一音频信号123的第一直达混响比。举例来说,第一直达混响比可以通过将第一音频信号123直达能量分量除以第一音频信号123混响能量分量来计算。
[0063] 所述方法500还包含在508处基于所述至少一个混响特性,确定声音源沿与所述角度位置相关的轴线相对于所述麦克风阵列的距离。举例来说,参考图1,基于第一直达混响比,DRR电路系统112可以确定第一声音源122与麦克风阵列108之间的距离(d1)。DRR电路系统112可以基于至少一个混响特性(例如,第一直达混响比)确定第一声音源122沿与第一角度位置相关的轴线的距离(d1)。
[0064] 根据方法500的一个实施方案,处理器104可以确定相对于所述麦克风阵列108的一或多个不同角度位置处的一或多个混响特性,以确定所述至少一个混响特性。举例来说,参考图3,处理器104可以在不同角度位置320、322、324、326处确定第一音频信号123的直达混响比、第一音频信号123的音量减小时间,或这两者,且根据方法500基于产生“最大”直达混响比或最大音量减小时间的角度位置320、322、324、326选择“至少一个混响特性”。不同角度位置320、322、324、326可以跨越360度。然而,在其它实施方案中,角度位置可以跨越其它范围(例如,180度、90度、45度、15度等)。
[0065] 根据方法500的一个实施方案,至少一个混响特性可包含音频信号的直达混响比。根据方法500的另一个实施方案,至少一个混响特性可包含音频信号的音量减小时间。音量减小时间可以对应于音频信号的音量减小特定百分比的时间量。举例来说,音量减小时间可以对应于音频信号音量减小百分之六十的时间量。
[0066] 根据一个实施方案,方法500可包含基于角度位置和距离确定声音源是位于声学环境的第一区中、声学环境的第二区中,还是位于声学环境的第三区中。举例来说,参考图1,处理器104可以确定第一声音源122是位于第一区116中、第二区118中,还是位于第三区
120中。其中所述第一区116可能相比于所述第二区118更接近麦克风阵列108,且其中所述第二区118可能相比于所述第三区120更接近所述麦克风阵列108。
[0067] 根据方法500的一个实施方案,用户界面可显示声音源相对于麦克风阵列的位置。位置可基于角度位置和距离。用户界面,诸如图1的用户界面111,也可以显示第一区116、第二区118和第三区120的视觉表示。如图1中所说明,第一区116、第二区118和第三区120可包含具有位于麦克风阵列108处的中心点的同心圆。如图2中所说明,各区216、218、220包含具有位于所述麦克风阵列108处的中心点的矩形部分。
[0068] 根据另一个实施方案,方法500可包含基于至少一个混响特性确定声学环境中的麦克风阵列的位置。麦克风阵列可以包含在机器人、头戴装置、移动装置、有人或无人驾驶的载具等中。举例来说,参考图4,处理器104可以基于混响特性(例如,直达混响比和/或音量减小时间)确定音频采集装置102在声学环境400中的位置(例如,麦克风阵列108的位置)。
[0069] 图5的方法500可以允许音频采集装置102基于混响特性(例如,直达混响比、音量减小时间,或这两者)确定在声学环境100中的声音源122、124、126到一或多个麦克风的邻近度和位置。
[0070] 参看图6,描绘了说明一种用于在声学环境中检测声音的方法600的流程图。方法600可以使用图1、2和4的音频采集装置102进行。
[0071] 方法600包含在602处使用麦克风阵列检测声学环境中的音频信号。举例来说,参考图1,麦克风阵列108可以检测声学环境100中的第一音频信号123。第一音频信号123可以由第一声音源122产生。
[0072] 方法600还包含在604处确定音频信号的直达能量分量。举例来说,参看图1,DRR电路系统112可以确定第一音频信号123的直达能量分量。方法600还包含在606处确定音频信号的混响能量分量。举例来说,参看图1,DRR电路系统112可以确定第一音频信号123的混响能量分量。
[0073] 所述方法600还包含在608处基于所述直达能量分量和所述混响能量分量,确定所述音频信号的声音源距所述麦克风阵列的距离。举例来说,参看图1,处理器104可以比较音频信号123、125、127的直达能量分量与音频信号123、125、127的混响分量,来分别确定声音源122、124、126与麦克风阵列108之间的距离(d1、d2、d3)。
[0074] 所述方法600还包含在610处基于所述距离将所述音频信号归类为前景音频或背景音频。举例来说,参看图1,基于距离(d1、d2、d3),处理器104可以将音频信号123、125、127归类为前景音频或背景音频。为了说明,因为第一声音源122与麦克风阵列108之间的距离(d1)相对较小(例如,未能满足距离阈值),所以处理器104可以将第一音频信号123归类为前景音频。因为第三声音源126与麦克风阵列108之间的距离(d3)相对较大(例如,满足距离阈值),所以处理器104可以将第三音频信号127归类为背景音频。以类似方式,处理器104可以基于第二声音源124与麦克风阵列108的距离(d2)与距离阈值的比较确定第二音频信号125是前景音频还是背景音频。
[0075] 根据一个实施方案,如果音频信号被归类为前景音频,那么方法600可包含向音频信号分配第一数量的位以用于编码操作。如果音频信号被归类为背景音频,那么方法600还可以包含向音频信号分配第二数量的位以用于编码操作。第二数量的位可以少于第一数量的位。方法600还可以包含在编码操作期间编码数据包以产生经编码数据包。如果音频信号被归类为前景音频,那么第一数量的位可在经编码数据包中被使用来编码音频信号。如果音频信号被归类为背景音频,那么第二数量的位可在经编码数据包中被使用来编码音频信号。发射器可以经配置以发射经编码数据包到远程装置。
[0076] 图6的方法600可以允许音频采集装置102基于混响特性(例如,直达混响比、音量减小时间,或这两者)确定在声学环境100中的声音源122、124、126到一或多个麦克风的邻近度和位置。确定声音源122、124、126的邻近度可以允许处理器104以更高位率编码来自更近声音源的音频信号(例如,前景音频信号)以用于更高质量(例如,更精确再现)和以更低位率编码来自更远的声音源的音频信号(例如,背景音频信号)以用于更高编码效率。举例来说,如果音频采集装置102将第一音频信号123归类为前景音频,那么相对大量的位可以被分配给第一音频信号123。然而,如果音频采集装置102将第三音频信号127归类为背景音频,那么相对少量的位可以被分配给第三音频信号127用于编码,这是因为第三音频信号127可能被视为“较不重要”。
[0077] 参看图7,描绘了说明一种用于在声学环境中检测声音的方法700的流程图。方法700可以使用图1、2和4的音频采集装置102进行。
[0078] 方法700包含,在702处,在麦克风阵列处检测声学环境中的第一音频信号和声学环境中的第二音频信号。第一音频信号可以来自第一声音源,且第二音频信号可以来自第二声音源。举例来说,参看图1,麦克风阵列108可以检测声学环境100中的第一音频信号123,且可以检测声学环境100中的第二音频信号125。第一音频信号123可以来自(例如,由其产生)第一声音源122,且第二音频信号125可以来自(例如,由其产生)第二声音源124。
[0079] 所述方法700还包含,在704处,在处理器处确定所述声学环境中的所述第一音频信号的第一混响特性和所述声学环境中的所述第二音频信号的第二混响特性。举例来说,参看图1,处理器104可以确定第一音频信号123的第一混响特性和第二音频信号125的第二混响特性。
[0080] 方法700还包含,在706处,基于第一混响特性确定第一声音源与麦克风阵列之间的第一距离。第一声音源可以沿与相对于所述麦克风阵列的第一角度位置相关的第一轴线定位。举例来说,参看图1,基于第一直达混响比(例如,“第一混响特性”),DRR电路系统112可以确定第一声音源122与麦克风阵列108之间的距离(d1)。DRR电路系统112可以基于第一混响特性,确定第一声音源122沿与第一角度位置相关的轴线的距离(d1)。
[0081] 方法700还包含,在708处,基于第二混响特性确定第二声音源与麦克风阵列之间的第二距离。第二声音源可以沿与相对于所述麦克风阵列的第二角度位置相关的第二轴线定位。举例来说,参看图1,基于第二直达混响比(例如,“第二混响特性”),DRR电路系统112可以确定第二声音源124与麦克风阵列108之间的距离(d2)。DRR电路系统112可以基于第二混响特性,确定第二声音源124沿与第二角度位置相关的轴线的距离(d2)。
[0082] 根据一个实施方案,方法700包含执行扬声器辨识,以使用语音声学模型识别来自第一声音源的第一音频信号和来自第二源的第二音频信号。举例来说,参看图1,存储器106可以存储处理器104可获取的语音声学模型。语音声学模型可以指示来自第一声音源122的声音的第一音频特性,和来自第二声音源124的声音的第二音频特性。处理器104可以基于语音声学模型中的第一音频特性识别来自第一声音源122的第一音频信号,并且处理器104可以基于语音声学模型中的第二音频特性识别来自第二声音源124的第二音频信号。
[0083] 根据一个实施方案,方法700还可以包含在麦克风阵列处检测来自第一声音源的一或多个额外的音频信号。方法700还可以包含在处理器处确定一或多个额外的音频信号的一或多个额外的混响特性,以及基于第一混响特性与一或多个额外的混响特性之间的比较,追踪第一声音源的位置变化。
[0084] 图7的方法700可以允许音频采集装置102基于混响特性(例如,直达混响比、音量减小时间,或这两者)确定在声学环境100中的声音源122、124、126到一或多个麦克风的邻近度和位置。
[0085] 参看图8,展示神经网络800的简图,其可以在音频采集装置102处(例如,在处理器104处)实施。神经网络800包含处理网络801和多个结点802、804、806、808、810、812。图1的处理器104可以将对应于音频信号123、125、127的数据应用到神经网络800,以确定一或多个神经网络特征。
[0086] 举例来说,处理器104可以提供对应于音频信号123、125、127的数据到处理网络801。处理网络801可以基于音频信号123、125、127产生向量803、805、807。举例来说,处理网络801可以执行特征选择和距离指标选择,以产生向量803、805、807。
[0087] 向量803可包含指示第一音频信号123能级的第一分量、指示第二音频信号125能级的第二分量,以及指示第三音频信号127能级的第三分量。向量805可包含指示第一音频信号123混响特性的第一分量、指示第二音频信号125混响特性的第二分量,以及指示第三音频信号127混响特性的第三分量。向量807可包含指示第一音频信号123噪声比的第一分量、指示第二音频信号125噪声比的第二分量,以及指示第三音频信号127噪声比的第三分量。向量803可以被提供到节点802、向量805可以被提供到节点804,而向量807可以被提供到节点806。
[0088] 结点802、804、806可以包含在神经网络800的“输入层”中,结点808、810可以包含在神经网络800的“隐藏层”中,而节点812可以包含在神经网络800的“输出层”中。在实时处理音频信号123、125、127之前,神经网络800的结点802的812可以被“训练”以确定特定神经网络特征。如本文所用,“训练”一个节点可包含指配权重到所述节点,以相对于类似层处的其它输入缩放对应输入。为了说明(在输入层处),节点802可以应用权重(W1)到所述向量803,节点804可以应用权重(W2)到向量805,而节点806可以应用权重(W3)到向量807。各权重(W1、W2、W3)可以在确定神经网络特征时,指示对应音频属性的“重要性”。相对于隐藏层,节点808可以分别应用权重(W4)到节点802和节点804输出的向量830、832的乘积,而节点810可以分别应用权重(W5)到节点804和节点806输出的向量832、834的乘积。相对于输出层,节点812可以分别应用权重(W6)到节点808和节点810输出的向量844、846的乘积。
[0089] 各权重(W1到W6)可以通过比较输出850与已知值,在神经网络800的训练期间被调整。权重(W1到W6)可以在训练期间反复地调整,直到输出850处的值的阈值数量精确地反映对应的已知值。
[0090] 在结点802到812已经被训练之后,神经网络800可以使用权重(W1到W6)来确定神经网络特征。节点802可以应用“经训练的”权重(W1)到向量803,以产生第一加权的向量。节点802可以经配置以通过将激励函数(F1)(例如,传递函数)应用于第一加权的向量,产生向量
830。向量830可以被提供到节点808。以类似方式,节点804可以应用经训练的权重(W2)到向量805,以产生第二加权的向量。节点804可以经配置以将激励函数(F2)应用于第二加权的向量来产生向量832。向量832可以被提供到结点808、810。类似地,节点806可以应用经训练的权重(W3)到向量807,以产生第三加权的向量。节点806可以经配置以将激励函数(F3)应用于第三加权的向量来产生向量834。向量834可以被提供到节点810。
[0091] 节点808可以应用经训练的权重(W4)到向量830和向量832的组合(例如,乘积)以产生第四加权的向量。节点808可以经配置以将激励函数(F4)应用于第四加权的向量来产生向量844。向量844可以被提供到节点812。节点810可以应用经训练的权重(W5)到向量832与向量834的组合(例如,乘积)以产生第五加权的向量。节点810可以经配置以将激励函数(F5)应用于第五加权的向量来产生向量846。向量846可以被提供到节点812。节点812可以应用“经训练的”权重(W6)到向量844与向量846的组合(例如,乘积)以产生第六加权的向量。节点812可以经配置以将激励函数(F6)应用于第六加权的向量来产生向量850。输出850可以指示神经网络特征。如相对于图9所描述,神经网络特征可以由处理器104使用,以确定声学环境的一或多个特性,诸如大小。
[0092] 参看图9,描绘了说明一种用于在声学环境中检测声音的方法900的流程图。方法900可以使用图1、2和4的音频采集装置102进行。
[0093] 方法900包含,在902处,在麦克风处检测声学环境中的一或多个音频信号。举例来说,参看图1,麦克风阵列108的麦克风可以检测第一音频信号123、第二音频信号125和第三音频信号127。
[0094] 所述方法900还包含,在904处,在处理器处确定所述声学环境中的所述一或多个音频信号的至少一个混响特性。举例来说,参看图1,处理器104可以确定各音频信号123、125、127的直达混响比,各音频信号123、125、127的音量减小时间,或其组合。
[0095] 所述方法900还包含,在906处,将所述一或多个音频信号应用到神经网络,以确定一或多个神经网络特征。举例来说,参看图8,处理器104可以将音频信号123、125、127(例如,对应于音频信号的数据,诸如信号样本、一或多个信号参数或其组合)应用到神经网络800,以确定输出850(例如,一或多个神经网络特征)。
[0096] 所述方法900还包含,在908处,基于所述至少一个混响特性和所述一或多个神经网络特征,确定所述声学环境的一或多个特性。根据一个实施方案,一或多个特性可包含声学环境的大小。根据一个实施方案,方法900可包含基于至少一个混响特性和一或多个神经网络特征,确定一或多个音频信号的一或多个特性。举例来说,一或多个音频信号的一或多个特性可包含麦克风与一或多个音频信号的声音源之间的距离。
[0097] 参看图10,描绘了装置的特定说明性实施方案的框图,且一般将其表示为1000。在特定实施方案中,装置1000包含处理器1006(例如,CPU)。装置1000可包含处理器104。处理器104可包含DRR电路系统112和VRT电路系统114。
[0098] 装置1000可包含存储器106和耦接到天线1042的无线控制器1040。装置1000可包含耦合到显示器控制器1026的显示器1028。扬声器1036、麦克风108或两者可耦合到编解码器1034。编解码器1034可包含数/模转换器(digital-to-analog converter;DAC)1002和模/数转换器(analog-to-digital converter;ADC)1004。在特定实施方案中,编解码器1034可以从麦克风阵列108接收模拟信号,且使用模/数转换器1004转换模拟信号为数字信号。编解码器1023可以从处理器104接收数字信号,而编解码器1034可以使用数/模转换器
1002转换数字信号为模拟信号,并且可以提供模拟信号到扬声器1036。
[0099] 存储器106可包含可由处理器1006、处理器104、CODEC 1034、装置1000的另一个处理单元或其组合执行以执行本文所公开的一或多种方法及过程(例如图5到7和9的方法500到700、900中的一或多个)的指令1060。本文中所公开的设备/系统的一或多个组件可以凭借专用硬件(例如,电路系统)、通过实行指令(例如,指令1060)来执行一或多个任务的处理器,或其组合来实施。作为实例,存储器106,处理器1006、处理器104及/或CODEC 1034的一或多个组件可为存储器装置,例如随机存取存储器(random access memory;RAM)、磁阻随机存取存储器(magnetoresistive random access memory;MRAM)、自旋力矩转移MRAM(spin-torque transfer MRAM;STT-MRAM)、闪存、只读存储器(read-only memory;ROM)、可编程只读存储器(programmable read-only memory;PROM)、可擦除可编程只读存储器(erasable programmable read-only memory;EPROM)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory;EEPROM)、寄存器、硬盘、可移动磁盘或只读光盘(compact disc read-only memory;CD-ROM)。存储器设备可包含指令(例如,指令1060),其当由计算机(例如,编解码器1034中的处理器、处理器1006和/或处理器104)执行时,可以导致计算机来执行本文所描述的一或多种方法的至少一部分。举例来说,存储器106,或处理器1006、处理器104和/或编解码器1034的一或多个组件可以是非暂时性计算机可读媒体,其包含指令(例如,指令1060),其当由计算机(例如,编解码器1034中的处理器、处理器1006和/或处理器1010)执行时,致使电脑执行本文中所公开的一或多种方法的至少一部分。
[0100] 在特定实施方案中,装置1000可包含于系统级封装或芯片上系统装置1022,例如移动台调制解调器(mobile station modem;MSM)。在特定实施方案中,处理器1006、处理器104、显示器控制器1026、存储器106、编解码器1034,和无线控制器1040被包含在系统级封装或芯片上系统装置1022中。在特定实施方案中,输入装置1030,例如触摸屏和/或小键盘,和电力供应器1044被耦合到芯片上系统装置1022。此外,在特定实施方案中,如图10中所说明,显示器1028、输入装置1030、扬声器1036、麦克风阵列108、天线1042和电力供应器1044在芯片上系统装置1022外部。然而,显示器1028、输入装置1030、扬声器1048、麦克风1046、天线1042和电力供应器1044中的每一者可耦合到芯片上系统装置1022的组件,例如接口或控制器。在说明性实例中,装置1000对应于移动通信装置、智能手机、蜂窝电话、笔记本电脑、计算机、平板计算机、个人数字助理、显示装置、电视、游戏控制台、音乐播放器、无线电装置、数字视频播放器、光碟播放器、调谐器、摄像机、导航装置、解码器系统、编码器系统、有人或无人驾驶的载具,例如机动车或飞行器内的装置,或其任何组合。
[0101] 结合描述的实施方案,用于在声学环境中检测声音的第一设备包含检测声学环境中的音频信号的装置。举例来说,用于检测音频信号的装置可包含图1和10的麦克风阵列108、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0102] 第一设备还可以包含确定音频信号的声音源的角度位置的装置。角度位置可以是相对于用于检测的装置。举例来说,用于确定角度位置的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0103] 第一设备还可以包含确定声学环境中的音频信号的至少一个混响特性的装置。举例来说,用于确定至少一个混响特性的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0104] 第一设备还可以包含基于至少一个混响特性,确定声音源沿与角度位置相关的轴线的距离的装置。距离可以是相对于用于检测的装置。举例来说,用于确定距离的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0105] 结合描述的实施方案,用于在声学环境中检测声音的第二设备包含检测声学环境中的音频信号的装置。举例来说,用于检测的装置可包含图1和10的麦克风阵列108、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0106] 第二设备还可以包含确定音频信号的直达能量分量的装置。举例来说,用于确定直达能量分量的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0107] 第二设备还可以包含确定音频信号的混响能量分量的装置。举例来说,用于确定混响能量分量的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0108] 第二设备还可以包含确定音频信号的声音源与用于基于直达能量分量和混响能量分量检测的装置之间的距离的装置。举例来说,用于比较的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0109] 第二设备还可以包含基于距离将音频信号归类为前景音频或背景音频的装置。举例来说,用于归类的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0110] 结合描述的实施方案,用于在声学环境中检测声音的第三设备包含检测声学环境中的一或多个音频信号的装置。举例来说,用于检测的装置可包含图1和10的麦克风阵列108、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0111] 第三设备还可以包含确定声学环境中的一或多个音频信号的至少一个混响特性的装置。举例来说,用于确定至少一个混响特性的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0112] 第三设备还可以包含将一或多个音频信号应用于神经网络,以确定一或多个神经网络特征的装置。举例来说,用于将一或多个音频信号应用于神经网络的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0113] 第三设备还可以包含基于所述至少一个混响特性和所述一或多个神经网络特征,确定所述声学环境的一或多个特性的装置。举例来说,用于确定声学环境的一或多个特性的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0114] 结合所描述的实施方案,用于在声学环境中检测声音的第四设备包含检测所述声学环境中的第一音频信号和所述声学环境中的第二音频信号的装置。第一音频信号可以从第一声音源产生,而第二音频信号可以从第二声音源产生。举例来说,用于检测的装置可包含图1和10的麦克风阵列108、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0115] 第四设备还可以包含确定声学环境中的所述第一音频信号的第一混响特性和声学环境中的第二音频信号的第二混响特性的装置。举例来说,用于确定的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0116] 第四设备还可以包含确定第一声音源与用于基于第一混响特性检测的装置之间的第一距离的装置。第一声音源可以沿与相对于用于检测的装置的第一角度位置相关的轴线定位。举例来说,用于确定第一距离的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0117] 第四设备还可以包含确定第二声音源与用于基于第二混响特性检测的装置之间的第二距离的装置。第二声音源可以沿与相对于用于检测的装置的第二角度位置相关的轴线定位。举例来说,用于确定第二距离的装置可包含图1到10的处理器104、一或多个装置、实行在非瞬时性计算机可读存储介质处的指令的处理器,或其任何组合。
[0118] 所属领域的技术人员将进一步了解,各种说明性逻辑、配置、模块、电路和结合本文中所揭示的方面所描述的算法步骤可实施为电子硬件、由诸如硬件处理器等处理装置执行的计算机软件,或两者的组合。上文已大体在其功能性方面描述了各种说明性组件、块、配置、模块、电路及步骤。此类功能性是实施为硬件还是可执行软件取决于特定应用及施加于整个系统的设计约束。本领域技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解释为引起对本发明的范围的偏离。
[0119] 结合本文中所公开的方面描述的方法或算法的步骤可以硬件、以由处理器执行的软件模块或以这两者的组合直接体现。软件模块可驻留于存储器装置中,所述存储器装置例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动的磁盘或压缩光盘只读存储器(CD-ROM)。例示性存储器装置耦合到处理器,使得处理器可从存储器装置读取信息并将信息写入到存储器装置。在替代方案中,存储器装置可与处理器成一体式。处理器及存储媒体可驻留在ASIC中。ASIC可以驻留在计算装置或用户终端中。在替代方案中,处理器与存储媒体可作为分立组件驻留在计算装置或用户终端中。
[0120] 提供对所公开方面的先前描述,以使得所属领域的技术人员能够制造或使用所公开方面。对这些方面的各种修改对于所属领域的技术人员将易于显而易见,且在不脱离本发明的范围的情况下,本文中所定义的原理可应用于其它方面。因此,本公开并不意图限于本文中所展示的方面,而应被赋予与如通过所附权利要求书界定的原理及新颖特征一致的可能的最广范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈