一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法 |
|||||||
申请号 | CN201610022499.5 | 申请日 | 2016-01-13 | 公开(公告)号 | CN105676167A | 公开(公告)日 | 2016-06-15 |
申请人 | 北京大学深圳研究生院; | 发明人 | 邹月娴; 金彦含; | ||||
摘要 | 本 发明 提供了一种基于声学矢量 传感器 和双谱变换的鲁棒单语者声源DOA估计方法。所述方法采用声学矢量传感器Acoustic Vector Sensor(AVS),实现四通道语音 信号 采集,并对采集到的数据进行双谱变换,求其对应的双谱数据。利用双谱上AVS接收分量之间的三 角 函数关系,计算AVS传感器分量间的数据比。通过计算双谱掩膜谱,提取高信干比 频率 点,利用KDE方法对其聚类,在此 基础 上,计算得到语音声源的到达方向Direction of Arrival(DOA)。本发明所述方法在不同的房间混响、干扰噪声种类、干扰噪声强度的条件下,能够高 精度 地估计出语者声源的DOA。此外,该发明方法采用的体积仅有1cm3的AVS传感器非常适用于便携设备上的 语音技术 应用。 | ||||||
权利要求 | 1.一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,包括如下步骤: |
||||||
说明书全文 | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法 技术领域[0001] 本发明涉及一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,属于人机语音交互技术领域。 背景技术[0002] 空间语者声源到达方向(Direction of Arrival,DOA)估计是智能机器人人机交互的关键技术,具有重大的应用价值,一直是阵列信号处理领域的研究热点。在实际复杂声学环境中,麦克风在采集语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声和房间混响等因素干扰,因此获取的语音质量下降,导致DOA估计性能下降。基于传统麦克风阵列的DOA技术存在麦克风阵列孔径大、有空域混叠以及运算复杂度高等局限,限制了该类技术在小型移动设备(机器人)上的应用。 [0003] 本发明采用了一种新型麦克风——声学矢量传感器(Acoustic Vector Sensor,AVS)作为音频信号采集器。与常用的ECM麦克风相比,AVS在结构上具有其特殊性:一颗AVS由1个全向压力传感器和2到3个正交放置的压力梯度传感器构成。它的空间结构紧凑,仅有1cm3左右大小,理论上,AVS是同位阵列,各个传感器接收到的音频信号在时间上对齐,且各通道接收信号存在固定的三角函数关系。AVS小体积的特殊优点,有可能成为服务机器人听觉感知技术的有效解决方案。 [0005] xu(k)=uss(k)*hs(k)+urr(k)*hr(k)+nu(k) (1) [0006] xv(k)=vss(k)*hs(k)+vrr(k)*hr(k)+nv(k) (2) [0007] xw(k)=wss(k)*hs(k)+wrr(k)*hr(k)+nw(k) (3) [0008] xo(k)=s(k)*hs(k)+r(k)*hr(k)+no(k) (4) [0009] 其中xu(t),xv(t),xw(t)和xo(t)分别是AVS的u-,v-,w-和o-通道的输出信号,nu(t),nv(t),nw(t)和no(t)分别是在u-,v-,w-和o-通道的零均值高斯加性噪声,s(k)和r(k)分别是待定位的语者声源信号和非语音干扰信号,hs和hr分别是语音和干扰的房间冲击响应。us,vs和ws分别可表示为us=sinθscosφs,vs=sinθssinφs,以及ws=cosθs,被称为语者声源信号在x,y和z轴上的方向余弦。类似的,ur,vr和wr分别可表示干扰信号在x,y和z轴上的方向余弦。本发明基于上述定义,提出了一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法。实验结果表明,本发明可有效抑制非语音干扰,背景噪声和空间混响对DOA估计的影响。 发明内容[0010] 本发明的目的是面向智能机器人人机语音交互技术,发明一种对声学环境变化不敏感、体积小的高精度鲁棒空间语音声源DOA估计方法。 [0011] 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其核心思想是:计算在双谱上u-通道信号、v-通道信号和w-通道信号与o-通道信号间的数据比值(Bispectrum Inter-Sensor Data Ratio,BISDR)。通过迭代估计先验双谱信干比,计算一个双谱掩膜谱。在此基础上,利用计算的双谱掩膜谱在BISDR上提取高信干比频率点。利用核密度估计方法对提取的高信干比频率点进行聚类,并获得语音声源的DOA估计。 [0012] 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其步骤是: [0013] (a)采用单个声学矢量传感器,即Acoustic Vector Sensor(AVS),采集四通道语音信号,通过模数转换器获得四通道数字信号输出,包括o-通道信号、u-通道信号、v-通道信号和w-通道信号;分别计算每一通道数字信号的双谱变换,获得四通道双谱数据; [0014] (b)计算传感器之间的双谱数据比值,即分别计算出u-通道双谱信号、v-通道双谱信号和w-通道双谱信号与o-通道双谱信号的比值,简写为BISDR值(Bispectrum Inter-Sensor Data Ratio),分别表示为Iuo(Ω1,Ω2),Ivo(Ω1,Ω2),Iwo(Ω1,Ω2),用BISDR值构成3×1的BISDR数据矢量I(Ω1,Ω2); [0015] (c)通过迭代估计先验双谱信干比,计算得到一个双谱掩膜谱; [0016] (d)通过掩膜方式将双谱掩膜谱与BISDR数据矢量I(Ω1,Ω2)相乘,提取具有高信干比的BISDR数据矢量 [0017] (e)利用核密度估计方法,即Kernel Density Estimation(KDE),对 进行聚类,并利用聚类结果计算所对应的语者声源到达方向,即Direction of Arrival(DOA)。 [0018] 本发明的有益效果在于:1)本发明所述的方法能够实现鲁棒的高精度单语者声源DOA估计。仿真实验和实测实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响条件下,都能获得高精度的DOA估计。2)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集语音信号,该传感器仅有1cm3大小,易于在小型设备上集成系统;同时算法复杂度低,易于实时运行在运算能力有限的嵌入式平台上。 附图说明 [0019] 图1.AVS结构图 [0020] 图2.θs=60°,φs∈[0°,180°]的100次DOA估计实验结果 [0021] 图3.不同信干比和干扰噪声下的DOA估计RMSE(a)高斯白噪声 (b)短波信道噪声 (c)粉红噪声 (d)工厂噪声(θs=60°,φs=45°) [0022] 图4.不同混响条件下的DOA估计RMSE(θs=60°,φs=45°) [0023] 图5.实验设备 具体实施方式[0024] 下面结合附图和具体实施方式对本发明作进一步详细描述。 [0025] 假设空间中只有一个语者声源,本发明采用8kHz采样率对AVS四通道输出信号((1)-(4))求得双谱数据,表示如下: [0026] [0027] [0028] [0029] [0030] 定义BISDR值如下: [0031] [0032] [0033] [0034] 其中Iuo(Ω1,Ω2),Ivo(Ω1,Ω2)和Iwo(Ω1,Ω2)分别是u通道与o通道,v通道与o通道,w通道与o通道的BISDR 值。以Iuo(Ω1,Ω2)为例,推导BISDR与语者声源DOA的关系如下。把(5)和(8)代入(9)中得到 [0035] Iuo(Ω1,Ω2)=us+εu(Ω1,Ω2) (12) [0036] 其中 [0037] [0038] 同理可得: [0039] Ivo(Ω1,Ω2)=vs+εv(Ω1,Ω2) (14) [0040] Iwo(Ω1,Ω2)=ws+εw(Ω1,Ω2) (15) [0041] 其中 [0042] [0043] [0044] ΒISDR的数据模型的矩阵形式如下: [0045] I(Ω1,Ω2)=b(θs,φs)+ε(Ω1,Ω2) (18) [0046] 其中 [0047] I(Ω1,Ω2)=[Iuo(Ω1,Ω2),Ivo(Ω1,Ω2),Iwo(Ω1,Ω2)]T (19) [0048] b(θs,φs)=[us,vs,ws]T (20) [0049] ε(Ω1,Ω2)=[εu(Ω1,Ω2),εv(Ω1,Ω2),εw(Ω1,Ω2)]T (21) [0050] 在频率点(Ω1,Ω2)处,当满足 时,可以得到ε(Ω1,Ω2)接近0,我们将这些点称为高信干比频率点。在这些高信干比频率点,干扰噪声的影响很大程度上被降低,于是可从BISDR中得到语音声源的DOA相关信息b(θs,φs)。 [0051] 为了提取上述高信干比频率点,本发明通过迭代算法估计了先验双谱信干比ξ(Ω1,Ω2),并以此计算了得到一个双频谱掩膜谱m(Ω1,Ω2),表示如下: [0052] [0053] 将其与BISDR数据矢量I(Ω1,Ω2)相乘,提取到具有高信干比的BISDR数据矢量如下: [0054] [0055] 由上述分析可得以下近似: [0056] [0057] 由此,利用核密度估计法,对 进行聚类,聚类结果即为 根据上文对于us,vs和ws的定义,语者声源的 可估计如下: [0058] |