一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法

申请号 CN201610022499.5 申请日 2016-01-13 公开(公告)号 CN105676167A 公开(公告)日 2016-06-15
申请人 北京大学深圳研究生院; 发明人 邹月娴; 金彦含;
摘要 本 发明 提供了一种基于声学矢量 传感器 和双谱变换的鲁棒单语者声源DOA估计方法。所述方法采用声学矢量传感器Acoustic Vector Sensor(AVS),实现四通道语音 信号 采集,并对采集到的数据进行双谱变换,求其对应的双谱数据。利用双谱上AVS接收分量之间的三 角 函数关系,计算AVS传感器分量间的数据比。通过计算双谱掩膜谱,提取高信干比 频率 点,利用KDE方法对其聚类,在此 基础 上,计算得到语音声源的到达方向Direction of Arrival(DOA)。本发明所述方法在不同的房间混响、干扰噪声种类、干扰噪声强度的条件下,能够高 精度 地估计出语者声源的DOA。此外,该发明方法采用的体积仅有1cm3的AVS传感器非常适用于便携设备上的 语音技术 应用。
权利要求

1.一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,包括如下步骤:
(a)采用单个声学矢量传感器,即Acoustic Vector Sensor(AVS),采集四通道语音信号,通过模数转换器获得四通道数字信号输出,包括o-通道信号、u-通道信号、v-通道信号和w-通道信号;分别计算每一通道数字信号的双谱变换,获得四通道双谱数据;
(b)计算传感器之间的双谱数据比值,即分别计算出u-通道双谱信号、v-通道双谱信号和w-通道双谱信号与o-通道双谱信号的比值,简写为BISDR值(Bispectrum Inter-Sensor Data Ratio),分别表示为Iuo(Ω1,Ω2),Ivo(Ω1,Ω2),Iwo(Ω1,Ω2),用BISDR值构成3×1的BISDR数据矢量I(Ω1,Ω2);
(c)通过迭代估计先验双谱信干比,计算得到一个双谱掩膜谱;
(d)通过掩膜方式将双谱掩膜谱与BISDR数据矢量I(Ω1,Ω2)相乘,提取具有高信干比的BISDR数据矢量
(e)利用核密度估计方法,即Kernel Density Estimation(KDE),对 进行聚类,并利用聚类结果计算所对应的语者声源到达方向,即Direction of Arrival(DOA)。
2.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,该方法使用的声学矢量传感器是由三个正交放置的同相位梯度传感器以及一个全向压力传感器组成且同位放置,由该四个传感器构成的AVS整体结构紧凑、尺寸小。
3.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(a)对采用的四通道数据进行双谱变换,由于语音和非语音干扰信号在双谱上具有很明显的区分性,且高斯噪声的双谱为零,因此本发明所提出方法对噪声和非语音干扰具有良好的鲁棒性。
4.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(b)中对各传感器接收信号的双谱求其数据比值,即BISDR值,抑制了混响分量,提高了本发明提出方法的混响鲁棒性。
5.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(c)中利用计算得到的双谱掩膜谱来提取BISDR中的高信干比频率点,抑制了噪声和非语音干扰的影响,提高了本发明提出方法的噪声和非语音干扰鲁棒性。
6.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其特征在于,所述步骤(d)是利用核密度估计法对提取的高信干比频率点进行聚类,即 将DOA估计问题转化为聚类问题,然后计算对应的DOA估计值。

说明书全文

一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA

估计方法

技术领域

[0001] 本发明涉及一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,属于人机语音交互技术领域。

背景技术

[0002] 空间语者声源到达方向(Direction of Arrival,DOA)估计是智能机器人人机交互的关键技术,具有重大的应用价值,一直是阵列信号处理领域的研究热点。在实际复杂声学环境中,麦克在采集语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声和房间混响等因素干扰,因此获取的语音质量下降,导致DOA估计性能下降。基于传统麦克风阵列的DOA技术存在麦克风阵列孔径大、有空域混叠以及运算复杂度高等局限,限制了该类技术在小型移动设备(机器人)上的应用。
[0003] 本发明采用了一种新型麦克风——声学矢量传感器(Acoustic Vector Sensor,AVS)作为音频信号采集器。与常用的ECM麦克风相比,AVS在结构上具有其特殊性:一颗AVS由1个全向传感器和2到3个正交放置的压力梯度传感器构成。它的空间结构紧凑,仅有1cm3左右大小,理论上,AVS是同位阵列,各个传感器接收到的音频信号在时间上对齐,且各通道接收信号存在固定的三函数关系。AVS小体积的特殊优点,有可能成为服务机器人听觉感知技术的有效解决方案。
[0004] 本发明利用AVS采集的音频信号,提出了一种新的鲁棒单语者声源DOA估计算法。AVS输出的信号模型可表示为:
[0005] xu(k)=uss(k)*hs(k)+urr(k)*hr(k)+nu(k)  (1)
[0006] xv(k)=vss(k)*hs(k)+vrr(k)*hr(k)+nv(k)  (2)
[0007] xw(k)=wss(k)*hs(k)+wrr(k)*hr(k)+nw(k)  (3)
[0008] xo(k)=s(k)*hs(k)+r(k)*hr(k)+no(k)  (4)
[0009] 其中xu(t),xv(t),xw(t)和xo(t)分别是AVS的u-,v-,w-和o-通道的输出信号,nu(t),nv(t),nw(t)和no(t)分别是在u-,v-,w-和o-通道的零均值高斯加性噪声,s(k)和r(k)分别是待定位的语者声源信号和非语音干扰信号,hs和hr分别是语音和干扰的房间冲击响应。us,vs和ws分别可表示为us=sinθscosφs,vs=sinθssinφs,以及ws=cosθs,被称为语者声源信号在x,y和z轴上的方向余弦。类似的,ur,vr和wr分别可表示干扰信号在x,y和z轴上的方向余弦。本发明基于上述定义,提出了一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法。实验结果表明,本发明可有效抑制非语音干扰,背景噪声和空间混响对DOA估计的影响。

发明内容

[0010] 本发明的目的是面向智能机器人人机语音交互技术,发明一种对声学环境变化不敏感、体积小的高精度鲁棒空间语音声源DOA估计方法。
[0011] 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其核心思想是:计算在双谱上u-通道信号、v-通道信号和w-通道信号与o-通道信号间的数据比值(Bispectrum Inter-Sensor Data Ratio,BISDR)。通过迭代估计先验双谱信干比,计算一个双谱掩膜谱。在此基础上,利用计算的双谱掩膜谱在BISDR上提取高信干比频率点。利用核密度估计方法对提取的高信干比频率点进行聚类,并获得语音声源的DOA估计。
[0012] 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法,其步骤是:
[0013] (a)采用单个声学矢量传感器,即Acoustic Vector Sensor(AVS),采集四通道语音信号,通过模数转换器获得四通道数字信号输出,包括o-通道信号、u-通道信号、v-通道信号和w-通道信号;分别计算每一通道数字信号的双谱变换,获得四通道双谱数据;
[0014] (b)计算传感器之间的双谱数据比值,即分别计算出u-通道双谱信号、v-通道双谱信号和w-通道双谱信号与o-通道双谱信号的比值,简写为BISDR值(Bispectrum Inter-Sensor Data Ratio),分别表示为Iuo(Ω1,Ω2),Ivo(Ω1,Ω2),Iwo(Ω1,Ω2),用BISDR值构成3×1的BISDR数据矢量I(Ω1,Ω2);
[0015] (c)通过迭代估计先验双谱信干比,计算得到一个双谱掩膜谱;
[0016] (d)通过掩膜方式将双谱掩膜谱与BISDR数据矢量I(Ω1,Ω2)相乘,提取具有高信干比的BISDR数据矢量
[0017] (e)利用核密度估计方法,即Kernel Density Estimation(KDE),对 进行聚类,并利用聚类结果计算所对应的语者声源到达方向,即Direction of Arrival(DOA)。
[0018] 本发明的有益效果在于:1)本发明所述的方法能够实现鲁棒的高精度单语者声源DOA估计。仿真实验和实测实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响条件下,都能获得高精度的DOA估计。2)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集语音信号,该传感器仅有1cm3大小,易于在小型设备上集成系统;同时算法复杂度低,易于实时运行在运算能力有限的嵌入式平台上。
附图说明
[0019] 图1.AVS结构图
[0020] 图2.θs=60°,φs∈[0°,180°]的100次DOA估计实验结果
[0021] 图3.不同信干比和干扰噪声下的DOA估计RMSE(a)高斯白噪声 (b)短波信道噪声 (c)粉红噪声 (d)工厂噪声(θs=60°,φs=45°)
[0022] 图4.不同混响条件下的DOA估计RMSE(θs=60°,φs=45°)
[0023] 图5.实验设备

具体实施方式

[0024] 下面结合附图和具体实施方式对本发明作进一步详细描述。
[0025] 假设空间中只有一个语者声源,本发明采用8kHz采样率对AVS四通道输出信号((1)-(4))求得双谱数据,表示如下:
[0026]
[0027]
[0028]
[0029]
[0030] 定义BISDR值如下:
[0031]
[0032]
[0033]
[0034] 其中Iuo(Ω1,Ω2),Ivo(Ω1,Ω2)和Iwo(Ω1,Ω2)分别是u通道与o通道,v通道与o通道,w通道与o通道的BISDR 值。以Iuo(Ω1,Ω2)为例,推导BISDR与语者声源DOA的关系如下。把(5)和(8)代入(9)中得到
[0035] Iuo(Ω1,Ω2)=us+εu(Ω1,Ω2)  (12)
[0036] 其中
[0037]
[0038] 同理可得:
[0039] Ivo(Ω1,Ω2)=vs+εv(Ω1,Ω2)  (14)
[0040] Iwo(Ω1,Ω2)=ws+εw(Ω1,Ω2)  (15)
[0041] 其中
[0042]
[0043]
[0044] ΒISDR的数据模型的矩阵形式如下:
[0045] I(Ω1,Ω2)=b(θs,φs)+ε(Ω1,Ω2)  (18)
[0046] 其中
[0047] I(Ω1,Ω2)=[Iuo(Ω1,Ω2),Ivo(Ω1,Ω2),Iwo(Ω1,Ω2)]T  (19)
[0048] b(θs,φs)=[us,vs,ws]T  (20)
[0049] ε(Ω1,Ω2)=[εu(Ω1,Ω2),εv(Ω1,Ω2),εw(Ω1,Ω2)]T  (21)
[0050] 在频率点(Ω1,Ω2)处,当满足 时,可以得到ε(Ω1,Ω2)接近0,我们将这些点称为高信干比频率点。在这些高信干比频率点,干扰噪声的影响很大程度上被降低,于是可从BISDR中得到语音声源的DOA相关信息b(θs,φs)。
[0051] 为了提取上述高信干比频率点,本发明通过迭代算法估计了先验双谱信干比ξ(Ω1,Ω2),并以此计算了得到一个双频谱掩膜谱m(Ω1,Ω2),表示如下:
[0052]
[0053] 将其与BISDR数据矢量I(Ω1,Ω2)相乘,提取到具有高信干比的BISDR数据矢量如下:
[0054]
[0055] 由上述分析可得以下近似:
[0056]
[0057] 由此,利用核密度估计法,对 进行聚类,聚类结果即为 根据上文对于us,vs和ws的定义,语者声源的 可估计如下:
[0058]
QQ群二维码
意见反馈