首页 / 专利库 / 专利权 / 申请 / 国际申请 / 请求书 / 指定 / 基于指定带宽的定向噪音抑制方法

基于指定带宽的定向噪音抑制方法

阅读:1024发布:2020-05-27

专利汇可以提供基于指定带宽的定向噪音抑制方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 指定 带宽的定向噪音抑制方法,具体包括:步骤1、根据传输通道的 功率谱 的期望评价值估计目标语音通道传输函数;步骤2、估计及抑制平稳噪音分量;定义一语音阻塞 滤波器 ,阻塞掉目标语音,得到平稳噪音分量,并计算抑制掉平稳噪音之后的目标语音谱;步骤3、定向噪音抑制;判断目标语音和所观测语音之间的 相位 差,如果当前时频单元的所观测语音为定向噪音主导,使用 带通滤波 器 将其过滤;最后可得到抑制了平稳噪音和定向噪音的目标语音 信号 。本发明系统简单,且在抑制噪音的过程中有效区分了定向噪声和平稳噪声分量的不同,并基于这二者性质上不同,采用不同的方法进行抑制,噪音抑制效果更好。有很高的实用性。,下面是基于指定带宽的定向噪音抑制方法专利的具体信息内容。

1.一种基于指定带宽的定向噪音抑制方法,其特征在于:包括双麦克语音采集模型,所述双麦克风语音采集模型所观测到的语音信号均可分为两个信号通道;双麦克风语音采集模型所观测到的语音信号包括目标语音信号和噪音信号;所述噪音信号包括与目标语音信号方向不一致的定向噪音和非定向的平稳噪音;设置一时间帧ls>1,在时间帧l满足1≤l≤ls时,所观测到的语音信号包括目标语音信号和平稳噪音信号;在时间帧l满足l≥ls时,所观测到的语音信号包括目标语音信号、平稳噪音信号和定向噪音信号;所述抑制方法的步骤为:
步骤1、估计目标语音通道传输函数;
在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、自相关功率谱系数的期望平均值Ω1(k)、互相关功率谱系数的期望平均值Ω2(k);并根据下式估计目标语音通道传输函数:
步骤2、估计及抑制平稳噪音;
定义语音阻塞滤波器J(k):
J(k)=[-R*(k),1]T;
在时间帧l满足1≤l≤ls时,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量;在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的平稳噪音的功率谱密度PN,i(k);根据所观测语音谱Zi(l,k)和平稳噪音的功率谱密度PN,i(k),计算抑制掉平稳噪音之后的目标语音谱;
步骤3、抑制定向噪音;
在时间帧l满足l>ls时,继续抑制平稳噪音,且开始定向噪音抑制过程;目标语音和定向噪音来自不同的方向,根据步骤1的目标语音通道传输函数,目标语音的方向θ(k)为:
θ(k)=∠R(k)/kω0;
设定一带通滤波器,所述带通滤波器的通带为Δθp(k)、阻带为Δθs(k);判断目标语音和所观测语音之间的相位差,在当前时间帧,如果目标语音和所观测语音之间的相位差在通带Δθp(k)之内,则所观测语音信号为目标语音所主导,如果目标语音和所观测语音之间的相位差在阻带Δθs(k)之内,则所观测语音为定向噪音主导,使用带通滤波器将其过滤;
最后可得到抑制了平稳噪音和定向噪音的目标语音信号。
2.如权利要求1所述的基于指定带宽的定向噪音抑制方法,其特征在于:
所述步骤1具体包括:
步骤1-1、设置用于储存信息的缓冲区,缓冲区可储存时间帧l满足1≤l≤ls时的语音信息;将观测信号z1(t)和z2(t)写入缓冲区;在时域上,观测信号z1(t)和z2(t)表示为:
z1(t)=hS,1(t)*s(t)+n1(t)
z2(t)=hS,2(t)*s(t)+n2(t)   (1)
式(1)中,s(t)为目标语音的时域信号,n1(t)和n2(t)分别为两路不相关的平稳噪音的时域信号,hS,1(t)和hS,2(t)分别代表目标语音到两个麦克风的时域传输函数,“*”为卷积运算符号;
步骤1-2、两路观测信号z1(t)和z2(t)形成两个通道,对每个通道的数据进行加窗傅里叶变换:
式(2)中,w(t)为窗函数,l为时间帧,k为频带;
步骤1-3、根据傅里叶变换的线性性质,观测信号z1(t)和z2(t)在频域可表示为:
式(3)中,S(l,k)为目标语音的功率谱,N1(l,k)和N2(l,k)分别为两个通道的平稳噪音的功率谱;定义R(k)为包括反应目标语音方位信息的目标语音通道传输函数:
R(k)=HS,2(k)/HS,1(k);
步骤1-4、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的自相关功率谱Ψ11(l,k)和第二通道的自相关功率谱Ψ22(l,k):
式(4)中,a为平滑因子,上标“*”为共轭算子;
步骤1-5、由时间帧l=1起,直至l=ls止,在每一个频带k,估计互相关功率谱Ψ21(l,k):
步骤1-6、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的功率谱自相关系数Γ11及功率谱互相关系数Γ21:
步骤1-7、估计第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、第一通道的功率谱自相关系数的期望平均值Ω1(k)、功率谱互相关系数的期望平均值Ω2(k):
步骤1-8、将步骤1-3中所定义的目标语音通道传输函数R(k),由功率谱的期望平均值和功率谱系数的期望平均值所表示:
3.如权利要求1所述的基于指定带宽的定向噪音抑制方法,其特征在于:所述步骤2具体为:
步骤2-1、根据步骤1得到的通道传输函数R(k),定义语音阻塞滤波器J(k):
J(k)=[-R*(k),1]T   (9)
步骤2-2、由时间帧l=1起,直至l=ls止,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量V(l,k):
式(10)中,上标“H”为共轭转置算子;
步骤2-3、当时间帧l满足1≤l≤ls时,在每一个频带k,计算平稳噪音分量V(l,k)的功率谱密度ΨVV(l,k):
ΨVV(l,k)=aΨVV(l-1,k)+(1-a)V(l,k)V(l,k)   (11)
步骤2-4、当时间帧l满足1≤l≤ls时,在每一个频带k,计算功率谱密度ΨVV(l,k)的期望平均值ρVV(k)为:
步骤2-5、当时间帧l满足1≤l≤ls时,在每一个频带k,估计第一通道的自相关功率谱的期望平均值ρ11(k)和第二通道的自相关功率谱的期望平均值ρ22(k):
步骤2-6、第一通道平稳噪音的功率谱密度ΡN,1(k)和第二通道的平稳噪音的功率谱密度ΡN,2(k)如下:
步骤2-7、基于平稳噪音的功率谱密度估计,在每一个通道,每一个时间帧,计算谱减后的功率谱密度:
式(15)中,α为平滑因子;
步骤2-8、计算抑制掉平稳噪音分量的目标语音谱
如果有:
则有:
如果有:
则有:
其中,β为过减控制因子。
4.如权利要求1所述的基于指定带宽的定向噪音抑制方法,其特征在于:
所述步骤1得到的目标语音的通道传输函数R(k)包括目标语音的方向θ(k):
∠R(k)为复数R(k)的度,kω0为傅里叶变换频带所对应的圆频率
步骤3具体包括:
步骤3-1、对于l>lS的时间帧,对所观测语音信号进行加窗傅里叶变换:
式(17)中,w(t)为窗函数,l为时间帧,k为频带;
步骤3-2、对于l>lS的时间帧,计算第一通道的自相关功率谱、互相关功率谱:
步骤3-3、对于l>lS的时间帧,计算通道传输函数的方向δ(l,k):
步骤3-4、设定带通滤波器,其阻带为Δθs(k),通带为Δθp(k);确定带通滤波器的增益函数Gp(l,k):=1
如果:
|θ(k)-δ(l,k)/kω0|<ΔθP(k),
则判定所观测语音信号处于通带内,说明所观测语音信号为目标语音主导,增益函数定义为:Gp(l,k)=1;
如果:
|θ(k)-δ(l,k)/kω0|>ΔθS(k),
则判定所观测语音信号处于阻带内,说明该所观测语音信号为定向噪声主导,增益函数定义为:Gp(l,k)=0.1;
如果所观测语音信号介于通带和阻带之间,增益函数定义为:
步骤3-5、抑制定向噪音之后的目标语音频谱估计为:
步骤3-6、根据逆傅里叶变换,时域目标语音信号估计为:
即为去除了平滑噪音和定向噪声之后的目标语音估计。

说明书全文

基于指定带宽的定向噪音抑制方法

技术领域

[0001] 本发明涉及语音信号的噪音抑制方法,具体涉及一种基于指定带宽的定向噪音抑制方法。

背景技术

[0002] 有关定向噪音和非定向噪音:
[0003] 智能语音相关信号采集设备在采集用户语音的同时通常会被各种各样的噪音干扰。从噪音的来源可以分为定向噪音和非定向噪音两种类型。所谓定向噪音是由一个独立声源所产生,相对于采集终端麦克阵列方向固定,在信号处理领域通常抽象为一个点源信号。比如在家居环境下电视机的声音、闹钟的声音等等。非定向噪音是指多个能量相差不多的噪音源同时发出噪音,并且这些噪音源相对于麦克风阵列方向并不固定。比如路上、咖啡厅等等环境噪音。
[0004] 有关噪音抑制:
[0005] 由于噪音的存在会对听觉感知、后续语音识别造成极大的干扰,噪音抑制技术的目的就是把采集到的信号中掺杂的噪音基于语音或者噪音独有的特征给抑制掉,同时尽可能保证目标语音不失真。
[0006] 和非定向噪音相比,定向噪音一般能量较大,比如在智能电视应用中,电视机音箱发出的声音能量要远高于环境噪音,甚至会高于目标语音信号。因此,如果该定向噪音不能被抑制,降会对后续的语音识别造成极大的干扰。定向噪音的另外一个特点是能量随时间快速变化,平稳性非常差。比如各种音乐信号能量起伏非常快,实时追踪、估计噪音在每一时间的能量将非常困难,采用常规的估计噪音能量的方法不再有效。
[0007] 噪音抑制要满足智能交互的实时性,不然用户交互体验度会很差。一方面,计算复杂度不能太高。另一方面,噪音抑制对历史信息依赖不能过长,一次处理的缓冲区不能太大。通过短时傅里叶变换技术,把时域信号映射到时频域是降低复杂度、提高实时性的常用技。
[0008] 目前,噪音抑制是智能语音交互系统的前端核心处理模,由于智能语音交互近几年才在产业界有了广泛影响,现有噪音抑制尤其是定向噪音抑制技术,还存在如下几个问题:
[0009] 1)现有技术依赖于声源方位信息,假设用户方位已知,影响了实用性,因为实际的使用过程中,不可能预先固定用户的声音方位。由于声源相对于麦克风方向信息是基于麦克风阵列的核心线索信息,现有的大部分噪音抑制技术,或者先采用声源定位技术对声源方位信息进行估计,或者对用户方位进行限定。在双麦克风降噪系统领域,由于麦克风数量不多,声源定位算法很难达到很高的精度,自然影响了后续的噪音抑制的效果。而对用户方位进行限定,比如假设用户在麦阵的正前方呈90度,固然提供了精确的方位信息,但是显著了用户使用的自由度,用户体验差。
[0010] 2)现有技术中的噪音抑制模型假设过于理想,或者基于无混响模型,或者混响很小。现有许多噪音抑制技术随着混响的增大性能迅速下降,而实际诸如家居应用环境下,来自墙壁反射的混响会降低方位信息的准确性。另一方面,硬件系统附带的噪音不论对估计目标语音方位还是定向噪音的方位都有重大影响。因此,降噪模型应该有着很高的鲁棒性,以应对应用环境与理想假设的不匹配。
[0011] 3)在现有技术中,也有其他的技术手段可使噪音得到一定程度抑制,但是引入了过高的语音扭曲,更不利于后续的语音识别。从整体来看,大部分噪音抑制技术都可以一定程度上抑制噪音,然后从时频谱图上聚焦到某一个时频单元,会有许多单元因为噪音估计的不准确,能量被过分的抑制,导致语音能量也被错误的扭曲。从语音识别的度来讲,语音能量的扭曲比噪音的影响更大。因此,许多噪音抑制技术并不能提高语音识别的准确性,甚至会导致识别率下降。

发明内容

[0012] 针对现有技术的不足,本发明公开了基于指定带宽的定向噪音抑制方法。
[0013] 本发明的技术方案如下:
[0014] 一种基于指定带宽的定向噪音抑制方法,包括双麦克风语音采集模型,所述双麦克风语音采集模型所观测到的语音信号均可分为两个信号通道;双麦克风语音采集模型所观测到的语音信号包括目标语音信号和噪音信号;所述噪音信号包括与目标语音信号方向不一致的定向噪音和非定向的平稳噪音;设置一帧时间帧ls>1,在时间帧l满足1≤l≤ls时,所观测到的语音信号包括目标语音信号和平稳噪音信号;在时间帧l满足l≥ls时,所观测到的语音信号包括目标语音信号、平稳噪音信号和定向噪音信号;所述抑制方法的步骤为:
[0015] 步骤1、估计目标语音通道传输函数;
[0016] 在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、自相关功率谱系数的期望平均值Ω1(k)、互相关功率谱系数的期望平均值Ω2(k);并根据下式估计目标语音通道传输函数:
[0017]
[0018] 步骤2、估计及抑制平稳噪音;
[0019] 定义语音阻塞滤波器J(k):
[0020] J(k)=[-R*(k),1]T;
[0021] 在时间帧l满足1≤l≤ls时,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量;在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的平稳噪音的功率谱密度PN,i(k);根据所观测语音谱Zi(l,k)和平稳噪音的功率谱密度PN,i(k),计算抑制掉平稳噪音之后的目标语音谱;
[0022] 步骤3、抑制定向噪音;
[0023] 在时间帧l满足l>ls时,继续抑制平稳噪音,且开始定向噪音抑制过程;目标语音和定向噪音来自不同的方向,根据步骤1的目标语音通道传输函数,目标语音的方向θ(k)为:
[0024] θ(k)=∠R(k)/kω0;
[0025] 设定一带通滤波器,所述带通滤波器的通带为Δθp(k)、阻带为Δθs(k);判断目标语音和所观测语音之间的相位差,在当前时间帧,如果目标语音和所观测语音之间的相位差在通带Δθp(k)之内,则所观测语音信号为目标语音所主导,如果目标语音和所观测语音之间的相位差在阻带Δθs(k)之内,则所观测语音为定向噪音主导,使用带通滤波器将其过滤;
[0026] 最后可得到抑制了平稳噪音和定向噪音的目标语音信号。
[0027] 其进一步的技术方案为,所述步骤1具体包括:
[0028] 步骤1-1、设置用于储存信息的缓冲区,缓冲区可储存时间帧l满足1≤l≤ls时的语音信息;将观测信号z1(t)和z2(t)写入缓冲区;在时域上,观测信号z1(t)和z2(t)表示为:
[0029] z1(t)=hS,1(t)*s(t)+n1(t)
[0030] z2(t)=hS,2(t)*s(t)+n2(t)   (1)
[0031] 式(1)中,s(t)为目标语音的时域信号,n1(t)和n2(t)分别为两路不相关的平稳噪音的时域信号,hS,1(t)和hS,2(t)分别代表目标语音到两个麦克风的时域传输函数,“*”为卷积运算符号;
[0032] 步骤1-2、两路观测信号z1(t)和z2(t)形成两个通道,对每个通道的数据进行加窗傅里叶变换:
[0033]
[0034]
[0035] 式(2)中,w(t)为窗函数,l为时间帧,k为频带;
[0036] 步骤1-3、根据傅里叶变换的线性性质,观测信号z1(t)和z2(t)在频域可表示为:
[0037]
[0038] 式(3)中,S(l,k)为目标语音的功率谱,N1(l,k)和N2(l,k)分别为两个通道的平稳噪音的功率谱;定义R(k)为包括反应目标语音方位信息的目标语音通道传输函数:
[0039] R(k)=HS,2(k)/HS,1(k);
[0040] 步骤1-4、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的自相关功率谱Ψ11(l,k)和第二通道的自相关功率谱Ψ22(l,k):
[0041]
[0042] 式(4)中,a为平滑因子,上标“*”为共轭算子;
[0043] 步骤1-5、由时间帧l=1起,直至l=ls止,在每一个频带k,估计互相关功率谱Ψ21(l,k):
[0044]
[0045] 步骤1-6、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的功率谱自相关系数Γ11及功率谱互相关系数Γ21:
[0046]
[0047] Γ21(l,k)=Ψ11(l,k)Ψ21(l,k)   (6)
[0048] 步骤1-7、估计第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、第一通道的功率谱自相关系数的期望平均值Ω1(k)、功率谱互相关系数的期望平均值Ω2(k):
[0049]
[0050]
[0051] 步骤1-8、将步骤1-3中所定义的目标语音通道传输函数R(k),由功率谱的期望平均值和功率谱系数的期望平均值所表示:
[0052]
[0053] 其进一步的技术方案为,所述步骤2具体为:
[0054] 步骤2-1、根据步骤1得到的通道传输函数R(k),定义语音阻塞滤波器J(k):
[0055] J(k)=[-R*(k),1]T   (9)
[0056] 步骤2-2、由时间帧l=1起,直至l=ls止,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量V(l,k):
[0057]
[0058] 式(10)中,上标“H”为共轭转置算子;
[0059] 步骤2-3、当时间帧l满足1≤l≤ls时,在每一个频带k,计算平稳噪音分量V(l,k)的功率谱密度ΨVV(l,k):
[0060] ΨVV(l,k)=aΨVV(l-1,k)+(1-a)V(l,k)V(l,k)   (11)
[0061] 步骤2-4、当时间帧l满足1≤l≤ls时,在每一个频带k,计算功率谱密度ΨVV(l,k)的期望平均值ρVV(k)为:
[0062]
[0063] 步骤2-5、当时间帧l满足1≤l≤ls时,在每一个频带k,估计第一通道的自相关功率谱的期望平均值ρ11(k)和第二通道的自相关功率谱的期望平均值ρ22(k):
[0064]
[0065]
[0066] 步骤2-6、第一通道平稳噪音的功率谱密度ΡN,1(k)和第二通道的平稳噪音的功率谱密度ΡN,2(k)如下:
[0067]
[0068] 步骤2-7、基于平稳噪音的功率谱密度估计,在每一个通道,每一个时间帧,计算谱减后的功率谱密度:
[0069]
[0070] 式(15)中,α为平滑因子;
[0071] 步骤2-8、计算抑制掉平稳噪音分量的目标语音谱
[0072] 如果有:
[0073]
[0074] 则有:
[0075]
[0076] 如果有:
[0077]
[0078] 则有:
[0079]
[0080] 其中,β为过减控制因子。
[0081] 其进一步的技术方案为:所述步骤1得到的目标语音的通道传输函数R(k)包括目标语音的方向θ(k):
[0082] θ(k)=∠R(k)/kω0
[0083] ∠R(k)为复数R(k)的角度,kω0为傅里叶变换频带所对应的圆频率
[0084] 步骤3具体包括:
[0085] 步骤3-1、对于l>lS的时间帧,对所观测语音信号进行加窗傅里叶变换:
[0086]
[0087] 式(17)中,w(t)为窗函数,l为时间帧,k为频带;
[0088] 步骤3-2、对于l>lS的时间帧,计算第一通道的自相关功率谱、互相关功率谱:
[0089]
[0090] 步骤3-3、对于l>lS的时间帧,计算通道传输函数的方向δ(l,k):
[0091] δ(l,k)=∠(Ψ21(l,k)/Ψ11(l,k))   (19)
[0092] 步骤3-4、设定带通滤波器,其阻带为Δθs(k),通带为Δθp(k);确定带通滤波器的增益函数Gp(l,k):
[0093] 如果:
[0094] |θ(k)-δ(l,k)/kω0|<ΔθP(k),
[0095] 则判定所观测语音信号处于通带内,说明所观测语音信号为目标语音主导,增益函数定义为:Gp(l,k)=1;
[0096] 如果:
[0097] |θ(k)-δ(l,k)/kω0|>ΔθS(k),
[0098] 则判定所观测语音信号处于阻带内,说明该所观测语音信号为定向噪声主导,增益函数定义为:Gp(l,k)=0.1;
[0099] 如果所观测语音信号介于通带和阻带之间,增益函数定义为:
[0100]
[0101] 步骤3-5、抑制定向噪音之后的目标语音频谱估计为:
[0102]
[0103] 步骤3-6、根据逆傅里叶变换,时域目标语音信号估计为:
[0104]
[0105] 即为去除了平滑噪音和定向噪声之后的目标语音估计。
[0106] 本发明的有益技术效果是:
[0107] 本发明复杂度低,噪音抑制效果良好,即便在信噪比较低的情况下,都有良好的效果,有很高的实用性,具体如下:
[0108] 1、本发明与现有技术相比,在抑制噪音的过程中有效区分了定向噪声和平稳噪声分量的不同,并基于这二者性质上不同,采用不同的方法进行抑制,噪音抑制效果更好。
[0109] 对于定向噪音,其能量随时间快速变化,很难通过估计能量密度的方式采用谱减法进行抑制,本发明根据其方向信息,设计通带和阻带的方式进行可有效抑制。
[0110] 对于平稳噪声,其存在会影响定向噪音的带宽判断的准确性,所以本发明中,先对平稳噪音进行抑制,之后再进行定向噪音的带宽判定,有效提高了判定的准确性。
[0111] 2、本项发明在噪音抑制的过程中设定了目标语音和定向噪音来自不同的方向这一假设,但不论是目标语音还是定向噪音,都不需要先确定其具体的方位信息,而是采用功率谱平滑估计的方式,提高了对噪声的鲁棒性,降低了误差。
[0112] 对于用户来说,本发明并不对用户的目标语音的具体方向进行限制,即用户即可以在麦克风阵列的正前方,也可以是任一角度发出声音,本项发明可以自适应用户的不同方位。在大部分应用环境下,目标语音方位和噪音来自不同方向,符合本项发明的应用假设。即本发明有很高的实用性,更适合实际情况,用户使用更自由。
[0113] 3、本发明可以同时抑制定向噪声和非定向的平稳噪声,适应的噪声类型范围更广。
[0114] 4、本发明使用了双麦克风阵列模型。由于定向噪音能量的非平稳性,通常需要采用集合多个麦克风的阵列进行处理。增加麦克风的数量会提高噪音抑制的效果,同时也增加了成本。本发明采用了双麦克风的阵列,是一种折中方案,既可以可以反映声音信号的时间信息,也可控制成本。附图说明
[0115] 图1是本发明的流程图
[0116] 图2是目标语音通道传输函数估计的流程图。
[0117] 图3是估计及抑制平稳噪音分量的流程图。
[0118] 图4为带通滤波器的增益函数示意图。

具体实施方式

[0119] 本发明涉及语音信号处理和计算机软件两个领域。语音信号处理是伴随计算机问世,从20世纪50年代兴起的专业技术领域。噪声抑制一直是该领域的重要问题之一。
[0120] 本发明采用双麦克风语音采集模型,即使用两个空间位置有差异的麦克风,同时分两路采集所观测的声音信号,并对两路声音信号进行相关的分析计算来抑制噪音。
[0121] 所观测的信号包括目标语音信号和噪音信号,噪音信号包括指定带宽的定向噪音和非定向的平稳噪音。所谓“指定带宽”,是指先对目标语音方位所对应的频域传输函数进行自适应估计,由于定向噪声和目标语音的传输函数并不相同,因此定向噪声和目标语音的方位所对应的频域传输函数也不同,在得到目标语音的传输函数估计之后,通过指定一个带宽,提高对估计误差的鲁棒性,超出这个带宽之外的时频单元可以认为来自定向噪声方向,对其进行过滤,以达到噪声抑制的目的。
[0122] 设置一帧时间帧信号ls>1,在本发明的计算过程中,做如下假设:对于观测到的所有的时间帧l来说,在时间帧l满足1≤l≤ls时,所观测到的语音信号包括目标语音信号和平稳噪音信号;在时间帧l满足l>ls时,所观测到的语音信号包括目标语音信号、平稳噪音信号和定向噪音信号;则在时间帧l满足1≤l≤ls这一系列前帧信号中,估计目标语音通道传输函数以及估计和抑制平稳噪音分量。在时间帧l满足l>ls,即出现定向噪音之后,抑制指定带宽的定向噪音。
[0123] 在本实施例中,特别的,设lS=50,即前帧信号为第1帧至第50帧。
[0124] 图1是本发明的流程图,如图1所示,本发明所述的控制方法包括三个步骤:
[0125] 步骤1、估计目标语音通道传输函数;
[0126] 在时间帧l满足1≤l≤ls时,估计各个通道的自相关功率谱、互相关功率谱,并且根据功率谱的期望平均值,计算目标语音通道传输函数R(k)。
[0127] 步骤2、估计及抑制平稳噪音分量;
[0128] 可根据步骤1中所得到的第一通道的自相关功率谱的期望平均值ρ11(k)、第二通道的自相关功率谱Ψ22(l,k)和目标语音的通道传输函数R(k)继续进行步骤2的计算。
[0129] 在时间帧l满足1≤l≤ls时,进行步骤2的计算过程。在步骤2中,定义语音阻塞滤波器,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量,并估计平稳噪音的功率谱密度。根据平稳噪音功率谱密度可得到抑制了平稳噪音分量的目标语音信号[0130] 步骤3、定向噪音的抑制。
[0131] 可根据根据步骤2所得到的抑制了平稳噪音分量的目标语音信号 和步骤1所得到的目标语音的通道传输函数R(k)继续进行步骤3的计算。
[0132] 在时间帧l满足l>ls时,开始步骤3的计算过程。在步骤3中,计算同时包含于语音信号和定向噪音的通道功率谱密度,并计算其与目标语音之间的相位差,再根据所设定的通带和阻带,确定带通滤波器的函数增益,之后可得到已经抑制了平滑噪音和定向噪音之后的目标语音的频域估计,最后通过逆傅里叶变换得到目标语音的时域估计。
[0133] 本发明中各个步骤的具体详述如下:
[0134] 步骤1、目标语音通道传输函数估计。图2是目标语音通道传输函数估计的流程图。如图2所示,步骤1具体包括:
[0135] 步骤1-1、设置用于储存信息的缓冲区,缓冲区可储存时间帧l满足1≤l≤ls时的语音信息;将观测信号z1(t)和z2(t)写入缓冲区;在本实施例中,缓冲区大小为2048B,其中每一个麦克风通道为1024个浮点数据。在时域上,观测信号z1(t)和z2(t)表示为:
[0136] z1(t)=hS,1(t)*s(t)+n1(t)
[0137] z2(t)=hS,2(t)*s(t)+n2(t)   (1)
[0138] 式(1)中,s(t)为目标语音的时域信号,n1(t)和n2(t)分别为两路不相关的平稳噪音的时域信号,hS,1(t)和hS,2(t)分别代表目标语音到两个麦克风的时域传输函数,“*”为卷积运算符号;
[0139] 步骤1-2、两路观测信号z1(t)和z2(t)形成两个通道,对每个通道的数据进行加窗傅里叶变换:
[0140]
[0141]
[0142] 式(2)中,w(t)为窗函数,具体是1024长度的汉明窗,T=1024,l为时间帧,k为频带;
[0143] 步骤1-3、根据傅里叶变换的线性性质,观测信号z1(t)和z2(t)在频域可表示为:
[0144]
[0145] 式(3)中,S(l,k)为目标语音的功率谱,N1(l,k)和N2(l,k)分别为两个通道的平稳噪音的功率谱;定义包括反应目标语音方位信息的目标语音通道传输函数R(k):
[0146] R(k)=HS,2(k)/HS,1(k);
[0147] 步骤1-4、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的自相关功率谱Ψ11(l,k)和第二通道的自相关功率谱Ψ22(l,k):
[0148]
[0149] 式(4)中,a为平滑因子,a=0.8,上标“*”为共轭算子;
[0150] 步骤1-5、由时间帧l=1起,直至l=ls止,在每一个频带k,估计互相关功率谱Ψ21(l,k):
[0151]
[0152] 步骤1-6、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的功率谱自相关系数Γ11及功率谱互相关系数Γ21:
[0153]
[0154] Γ21(l,k)=Ψ11(l,k)Ψ21(l,k)   (6)
[0155] 步骤1-7、估计第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、第一通道的功率谱自相关系数的期望平均值Ω1(k)、功率谱互相关系数的期望平均值Ω2(k):
[0156]
[0157]
[0158] 步骤1-8、将步骤1-3中所定义的目标语音通道传输函数R(k),由功率谱的期望平均值和功率谱系数的期望平均值表示:
[0159]
[0160] 结合图2可知,步骤1-1至步骤1-6,为循环迭代计算,从第一帧,即l=1开始,一直到第lS=50帧,在每一帧中,都计算每一个频带k的自相关功率谱、互相关功率谱、自相关功率谱系数、互相关功率谱系数,并将每一帧中所有频带k的信息都写入缓冲区。之后上述计算结果,计算自相关功率谱的期望平均值、互相关功率谱的期望平均值、自相关功率谱系数的期望平均值、互相关功率谱系数的期望平均值。最后再用上述期望平均值来计算通道传输函数。
[0161] 原则上,平稳噪音的能量越小,传输函数的估计越准确。
[0162] 步骤2、估计及抑制平稳噪音。
[0163] 如果定向噪音也存在,则定向噪音和目标语音一样,也会对应一个通道传输函数。然而平稳噪音的存在会对判断一个时间帧的信号是来自目标语音还是定向噪音带来干扰。
由于平稳噪音的功率谱可以随时间保持不变,所以步骤2旨在基于这一特性,利用时间帧l满足1≤l≤ls时的前帧数据估计出平稳噪音在各个频带的功率谱密度,图3是估计及抑制平稳噪音分量的流程图。结合图3,步骤2具体包括:
[0164] 步骤2-1、根据步骤1得到的通道传输函数R(k),定义语音阻塞滤波器J(k):
[0165] J(k)=[-R*(k),1]T   (9)
[0166] 步骤2-2、由时间帧l=1起,直至l=ls止,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量V(l,k):
[0167]
[0168] 式(10)中,上标“H”为共轭转置算子;由式(10)可以看出,由于目标语音的定向性,可以通过其定向信息所对应的传输函数将目标语音全部抑制掉,仅剩包含有两个通道的平稳噪音的平稳噪音分量。
[0169] 步骤2-3、由时间帧l=1起,直至l=ls止,在每一个频带k,计算平稳噪音分量V(l,k)的功率谱密度ΨVV(l,k):
[0170] ΨVV(l,k)=aΨVV(l-1,k)+(1-a)V(l,k)V(l,k)   (11)
[0171] 步骤2-4、计算功率谱密度ΨVV(l,k)的期望平均值ρVV(k):
[0172]
[0173] 步骤2-5、在步骤1中,已计算出第一通道的自相关功率谱的期望平均值ρ11(k),当时间帧l满足1≤l≤ls时,在每一个频带k,估计第二通道的自相关功率谱的期望平均值ρ22(k):
[0174]
[0175] 步骤2-6、分别计算每个通道的平稳噪音的功率谱密度,第一通道平稳噪音的功率谱密度ΡN,1(k)和第二通道的平稳噪音的功率谱密度ΡN,2(k)如下:
[0176]
[0177] 步骤2-7、基于平稳噪音的功率谱密度估计,在每一个通道,每一个时频单元,计算谱减后的功率谱密度:
[0178]
[0179] 式(15)中,α为平滑因子;α=4。
[0180] 步骤2-8、计算抑制掉平稳噪音分量的目标语音谱
[0181] 如果有:
[0182]
[0183] 则有:
[0184]
[0185] 如果有:
[0186]
[0187] 则有:
[0188]
[0189] 其中,β为过减控制因子,以避免过度的能量被抑制掉,造成语音扭曲。β=0.3。
[0190] 上述步骤完成后得到的混合谱即为平稳噪音得到抑制后的语音谱。该语音谱只含有目标语音和定向噪音谱。本模块数据流程如图3所示,步骤2-2至步骤2-3,为循环迭代计算,从第一帧,即l=1开始,一直到第lS=50帧,在每一帧中,都计算每一个频带k的平稳噪音分量和平稳噪音分量的功率谱。之后根据上述计算结果,计算平稳噪音分量功率谱的期望平均值,并分别计算每个通道的平稳噪音分量的功率谱,最后得到抑制掉平稳噪音的目标语音谱。
[0191] 步骤3、抑制定向噪音。
[0192] 当时间帧l满足l>ls时,开始步骤3的计算。
[0193] 步骤1得到的目标语音的通道传输函数包括目标语音的方向θ(k):
[0194] θ(k)=∠R(k)/kω0
[0195] ∠R(k)为复数R(k)的角度,kω0为傅里叶变换频带所对应的圆频率;由于步骤1中,所观测的语音信号不包括定向噪音,所以θ(k)仅包括目标语音的方向信息。对于l>lS帧,开始出现定向噪音,则抑制掉平稳噪音分量之后,所观测语音信号的频域模型为:
[0196]
[0197] 式(16)中,D(l,k)为定向噪音,HD,1(k)和HD,2(k)为定向噪音的传输函数;定义包括定向噪音的方向信息的定向噪音通道传输函数Q(k):
[0198] Q(k)=HD,2(k)/HD,1(k);
[0199] 图4为带通滤波器的增益函数示意图。结合图4,设定一带通滤波器,带通滤波器的通带为Δθp(k),阻带为Δθs(k);判断目标语音和所观测语音之间的相位差,在当前时间帧,如果目标语音和所观测语音之间的相位差在通带Δθp(k)之内,则所观测语音为目标语音所主导,如果目标语音和所观测语音之间的相位差信息在阻带Δθs(k)之内,则所观测语音为定向噪音主导,使用带通滤波器将其过滤。最后得到抑制了平稳噪音和定向噪音的目标语音信号。带通滤波器的增益函数的确定方法在下文详述。
[0200] 步骤3具体包括:
[0201] 步骤3-1、对于l>lS时间帧,对所观测语音信号进行加窗傅里叶变换:
[0202]
[0203] 式(17)中,w(t)为窗函数,具体是1024长度的汉明窗,T=1024,l为时间帧,k为频带;
[0204] 步骤3-2、对于l>lS的时间帧,计算第一通道的自相关功率谱Ψ11(l,k)、互相关功率谱Ψ21(l,k):
[0205]
[0206] 步骤3-3、对于l>lS的时间帧,计算通道传输函数的复数角δ(l,k):
[0207] δ(l,k)=∠(Ψ21(l,k)/Ψ11(l,k))   (19)
[0208] 步骤3-4、设定一带通滤波器,其通带为Δθp(k),阻带为Δθs(k):确定带通滤波器的增益函数;
[0209] 设方向θ′(k)=δ(l,k)/kω0;
[0210] 由于对于l>lS的时间帧,通道传输函数同时包含有目标语音信号和定向噪音信号的信息,所以方向θ′(k)也同时包括目标语音信号和定向噪音信号的方向信息。步骤3-4的原理为,比较方向θ′(k)与不包括定向噪音信号的目标语音的方向θ(k)之间的差距。如果方向θ′(k)与方向θ(k)之间差距较近,则说明此信息主要由目标语音主导,反之则说明此信息主要由定向噪音主导。具体方法为:
[0211] 如果:
[0212] |θ(k)-δ(l,k)/kω0|<ΔθP(k),
[0213] 则判定所观测语音信号处于通带内,说明所观测语音信号为目标语音主导,增益函数定义为:Gp(l,k)=1。
[0214] 如果:
[0215] |θ(k)-δ(l,k)/kω0|>ΔθS(k),
[0216] 则判定所观测语音信号处于阻带内,说明该所观测语音信号为定向噪声主导,增益函数定义为:Gp(l,k)=0.1。
[0217] 如果所观测语音信号介于通带和阻带之间,增益函数定义为:
[0218]
[0219] 在本实施例中,设定通带Δθp(k)为:
[0220]
[0221] 阻带Δθs(k)为:
[0222]
[0223] 步骤3-5、抑制定向噪音之后的目标语音频谱估计为:
[0224]
[0225] 步骤3-6、根据逆傅里叶变换,时域目标语音信号估计为:
[0226]
[0227] 即为去除了平滑噪音和定向噪声之后的目标语音估计。
[0228] 以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈