首页 / 专利库 / 信号处理 / 线性滤波器 / 梳状滤波器 / 一种用于视频会议系统的语音活动检测系统

一种用于视频会议系统的语音活动检测系统

阅读:543发布:2020-05-14

专利汇可以提供一种用于视频会议系统的语音活动检测系统专利检索,专利查询,专利分析的服务。并且本 发明 属于语音 信号 处理领域,公开了一种用于视频会议系统的语音活动检测系统。分别对获取的带噪时域信号做瞬态冲击噪声检测、浊音/清音分类、基于语音存在概率的检测、基于 信噪比 的检测以及带噪 语音信号 的 能量 检测,通过各个模 块 的判决结果得到最终的语音活动检测结果。本发明对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。相较于 现有技术 ,本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、 算法 运算复杂度低、易于实现等优点。,下面是一种用于视频会议系统的语音活动检测系统专利的具体信息内容。

1.一种用于视频会议系统的语音活动检测系统,其特征在于,包括语音信号获取模、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
所述语音信号获取模块用于利用麦克阵列获取带噪语音信号;
所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
2.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,瞬态冲击噪声检测模块的检测方法包括如下子步骤:
步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,所述平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间之内的最小统计量Smin(k,n);
步骤a2:设定初级门限γ0和ε0,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足 且 则标记该频点不存在瞬态冲击噪声,否
则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差;
获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑,得到二次平滑的频域带噪语音信号 获取 在一段时间之内的最小统计量 和在当前帧之后第
U帧在一段时间之内最小统计量
步骤a3:设定二级门限σ,对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断,若 则标记该频点存在瞬态冲击噪声,否则标记该频点不存在瞬态冲击噪声,其中,
步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
3.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,浊音清音分类模块的分类方法包括如下子步骤:
步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu;
步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf:
如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
4.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,所述信噪比检测模块的检测方法为:
估计当前帧的后验信噪比 和先验信噪比 并计算经过时域平滑频域平均的
先验信噪比 如果当前帧满足 且 μ1和μ2表示调节因子,则标
记当前帧为语音信号,否则标记当前帧为噪声信号。
5.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,所述语音存在概率检测模块的检测方法为:
利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,标记当前帧为噪声信号,否则标记当前帧为语音信号;
其中, 表示先验语音不存在概率,
6.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,带噪语音信号能量检测模块的检测方法为:
步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的 若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的 作为当前帧的
步骤c2:根据当前帧的E(n)和 进行判断,如果当前帧满足 且E(n)>E0,
则标记当前帧为语音信号,否则标记当前帧为噪声信号,其中,E0表示能量门限,μ3表示调节因子。
7.如权利要求4所述的用于视频会议系统的语音活动检测系统,其特征在于,所述语音信噪比检测模块中 表示前一帧的经过时域平滑
的平均先验信噪比,αSNR为遗忘因子。

说明书全文

一种用于视频会议系统的语音活动检测系统

技术领域

[0001] 本发明属于语音信号处理领域,具体涉及一种用于视频会议系统的语音活动检测系统。

背景技术

[0002] 通常,在视频会议系统中,摄像头会根据定位算法给出的度转动,以获取当前说话人的视频。但是,在会议室环境中随时会有各种各样的干扰源。当干扰源存在时,如果摄像头转向干扰源的方向,会给参会人员非常不好的体验。这时,我们就需要对当前的信号做语音活动检测。如果检测出语音信号,则摄像头转向定位算法给出的角度。如果没有检测出语音信号,则摄像头保持不动。
[0003] 会议室环境中典型的干扰源分为两类,第一类为准平稳噪声,如扇或空调的声音。准平稳噪声的功率谱密度变化较为缓慢,而语音信号的功率谱密度变化相对较快。第二类为非平稳噪声,非平稳噪声包括瞬态冲击噪声和非瞬态冲击噪声。瞬态冲击噪声具有瞬时能量较大,持续时间短的特点,比如敲桌子、敲以及敲击键盘的声音。非瞬态冲击噪声的持续时间和人说话时单个词的持续时间相近,比如挪动椅子以及翻书的声音。绝大多数语音信号包含浊音,即有清晰的谐波结构,而绝大多数会议室场景中典型的非瞬态冲击噪声为清音,即没有清晰的谐波结构。
[0004] 语音活动检测算法有很多,首先,比较典型的一类是通过跟踪输入信号的功率变化,确定输入信号中是否包含语音信号。当背景噪声较为平稳,即为功率谱密度变化比较缓慢的准平稳噪声时,此类算法效果较好。但对于非平稳噪声,此类算法容易将非常不平稳的噪声成分判别为语音信号。另一类典型的算法是根据输入带噪语音信号和其线性预测编码的自相关值来做语音活动检测。此类方法的缺点是在信噪比较低时不能准确的做出语音活动检测。此外,还有一类基于机器学习的语音活动检测算法。此类算法的问题是泛化能较差,即,对训练过的噪声场景,性能较好,但对于没有出现在训练集的噪声场景,性能较差。

发明内容

[0005] 本发明的目的在于提供一种用于视频会议系统的语音活动检测系统,用以解决现有技术中的在会议室环境下语音活动检测效果不准确的问题。
[0006] 为了实现上述任务,本发明采用以下技术方案:
[0007] 一种用于视频会议系统的语音活动检测系统,包括语音信号获取模、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
[0008] 所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
[0009] 所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0010] 所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0011] 所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0012] 所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0013] 所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0014] 所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
[0015] 进一步的,瞬态冲击噪声检测模块的检测方法包括如下子步骤:
[0016] 步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,所述平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间之内的最小统计量Smin(k,n);
[0017] 步骤a2:设定初级门限γ0和ε0,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足 且 则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差;
[0018] 获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑,得到二次平滑的频域带噪语音信号 获取 在一段时间之内的最小统计量 和在当前帧之后第U帧在一段时间之内最小统计量
[0019] 步骤a3:设定二级门限σ,对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断,若 则标记该频点存在瞬态冲击噪声,否则标记该频点不存在瞬态冲击噪声,其中,
[0020] 步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
[0021] 进一步的,浊音清音分类模块的分类方法包括如下子步骤:
[0022] 步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
[0023] 步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu;
[0024] 步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf:
[0025]
[0026] 如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
[0027] 进一步的,所述信噪比检测模块的检测方法为:
[0028] 估计当前帧的后验信噪比 和先验信噪比 并计算经过时域平滑频域平均的先验信噪比 如果当前帧满足 且 μ1和μ2表示调节因子,
则标记当前帧为语音信号,否则标记当前帧为噪声信号。
[0029] 进一步的,所述语音存在概率检测模块的检测方法为:
[0030] 利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,标记当前帧为噪声信号,否则标记当前帧为语音信号;
[0031]
[0032] 其中, 表示先验语音不存在概率,
[0033] 进一步的,带噪语音信号能量检测模块的检测方法为:
[0034] 步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的 若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的 作为当前帧的
[0035] 步骤c2:根据当前帧的E(n)和 进行判断,如果当前帧满足 且E(n)>E0,则标记当前帧为语音信号,否则标记当前帧为噪声信号,其中,E0表示能量门限,μ3表示调节因子。
[0036] 更进一步的,所述语音信噪比检测模块中表示前一帧的经过时域平滑的平均先验信噪比,αSNR为遗忘因子。
[0037] 本发明与现有技术相比具有以下技术特点:
[0038] (1)基于视频会议系统的环境,能够对对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。
[0039] (2)相较于现有技术,本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、算法运算复杂度低、易于实现等优点。
[0040] (3)本发明可以非常容易的从视频会议场景扩展到其他场景,如智能家居及车载系统。附图说明
[0041] 图1所示为本发明的方法流程示意图;
[0042] 图2所示为典型的语音活动检测方法及装置示意图;
[0043] 图3所示为当存在挪动椅子的噪声时的语音活动检测结果;
[0044] 图4所示为图3所示带噪语音信号的时频图;
[0045] 图5所示为当存在敲桌子的噪声时的语音活动检测结果;
[0046] 图6所示为图5带噪语音信号的时频图。

具体实施方式

[0047] 实施例
[0048] 在本实施例中公开了一种用于视频会议系统的语音活动检测系统,如图1和图2所示。需要说明的是本发明中的语音活动检测方法还可应用于其他场景。比如,教育录播系统的应用场景、审讯系统的应用场景等。应用本发明可以有效地区分音频信号中语音信号和噪声信号。
[0049] 一种用于视频会议系统的语音活动检测系统,包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
[0050] 所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
[0051] 所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0052] 所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0053] 所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0054] 所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0055] 所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
[0056] 所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
[0057] 具体的,在带噪语音信号中,当瞬态冲击噪声单独出现时,检测瞬态冲击噪声是否存在较为容易。但是当语音信号(或非瞬态冲击噪声)和瞬态冲击噪声同时存在时,则检测瞬态冲击噪声是否存在较为困难。因此,给出瞬态冲击噪声检测模块的检测方法包括如下子步骤:
[0058] 步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间内的最小统计量Smin(k,n);
[0059] 具体的,时域带噪语音信号表示为y(t)=x(t)+v(t)+b(t),其中,y,x,v以及b分别表示带噪信号、纯净语音信号、瞬态/非瞬态冲击噪声信号和准平稳背景噪声信号,t表示离散时间点;
[0060] 将时域信号y(t)分帧、加窗后,做快速傅里叶变换,得到频域带噪信号Y(k,n),[0061]
[0062] 其中,h表示窗函数,T表示窗函数的长度(也是语音信号帧的长度),M表示两个相邻帧之间的步进长度,零均值随机变量Y(k,n),X(k,n),V(k,n),B(k,n),分别为y(t),x(t),v(t),b(t)在第n帧第k个频点的傅立叶变换值,其中k∈{0,1,...,K-1};
[0063] 具体的,频域平滑为 其中,bω(q)表示归一化窗函数,时域平滑在频域平滑之后,采取一阶递归平滑的方式,表示为:S(k,n)=αsS(k,n-1)+(1-αs)Sf(k,n);
[0064] 步骤a2:设定初级门限γ0和ε0,其中γ0的取值范围为4.5-5,ε0的取值范围为1.5-1.8,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足 且
则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪
声,其中,Bmin表示Smin(k,n)的估计偏差,Bmin的取值范围为1.5-1.7;
[0065] 获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑,得到二次平滑的频域带噪语音信号 获取 在一段时间内的的最小统计量 和在当前帧之后第U帧在一段时间内的最小统计量 U一般应设置为大于瞬态冲击噪声持续
时间,小于语音信号持续时间,U的取值范围为10-20,一段时间内通常为6-12帧。
[0066] 由于在估计 时,已经将比较强的瞬态冲击噪声排除,可以获得更加鲁棒的语音信号(或非瞬态冲击噪声)的功率谱密度估计结果以及更高的时间分辨率,改善对最小统计量的估计性能,得到更加精确的最小统计量估计结果
[0067] 步骤a3:设定二级门限σ,σ的取值范围为5-8,对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断,若 则标记该频点存在瞬态冲击噪声,否则标记该频点不存在瞬态冲击噪声,其中,
[0068] 步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,N1设置为10-20,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
[0069] 具体的,浊音清音分类模块的分类方法包括如下子步骤:
[0070] 步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
[0071] 具体的,假设带噪信号具有清晰的谐波结构(浊音),在理想情况下,我们可以将其表示为 其中,a(i)表示第i个谐波的能量,f0表示基频,δ(·)为狄拉克函数,Iv为谐波个数。将Y(f)转化到对数频域,记为Y(c),其中c=log f。
将Y(f)转化到对数频域,可以使各次谐波之间的距离和基频无关,同时可使带噪信号的低频段分辨率较高,由于在此同样将带噪语音信号做分帧处理,我们将Y(c)表示为Y(c,n)。
[0072] 具体的,为防止每帧带噪信号Y(c,n)中存在较强的窄带干扰,我们将其做压缩处理得到Y′(c,n)=Y(c,n)β(c,n),其中,β(c,n)为压缩因子,为估计β(c,n),首先估计带噪信号Y(c,n)的功率谱密度。先对带噪信号做对数频域平滑,然后,用一阶递归平滑的方式对频域平滑后的信号做时域平滑,记为S(c,n)。再估计带噪信号的长时(通常时长大于20帧)平均功率谱密度L(c,n),则压缩因子表示为
[0073] 步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu;
[0074] h(c)的冲击响应表示为h(c)=ξ-log[η-cos(2πec)],定义域设为log(0.5)同时,由于h(c)的各个峰值近似对称,所以其可以有效地抑制准平稳噪声。
[0075] 步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf:
[0076]
[0077] 如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
[0078] 具体的,信噪比检测模块的检测方法为:
[0079] 估计当前帧的后验信噪比 和先验信噪比 并计算经过时域平滑频域平均的先验信噪比 如果当前帧满足 且 μ1和μ2表示调节因
子,则标记当前帧为语音信号,否则标记当前帧为噪声信号。
[0080] 其中 表示前一帧的经过时域平滑的平均先验信噪比,αSNR为遗忘因子取值为大于零小于1;
[0081] 具体的,定义后验信噪比 先验信噪比 其中λx(k,n)为语音信号的功率谱密度,λd(k,n)为准平稳噪声的功率谱密度;
[0082] 我们以下式估计带噪语音信号的先验信噪比:
[0083]
[0084] 其中, 表示当语音信号存在时的语音信号对数谱幅值估计器,αG为遗忘因子取值为大于零小于1;其中 为
的估计值,即 表示估计得到的噪声功率谱密度,其估计方法为
其中
为估计得到的当前帧的噪声功率谱密度,αd为遗忘因子,取值范围为大于零小于1,p(k,n)为条件语音存在概率,其在语音存在概率检测模块中测得,κ为补偿因子,取值范围为
1-2。
[0085] 具体的,语音存在概率检测模块的检测方法为:
[0086] 利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,N2设置为10-20,标记当前帧为噪声信号,否则标记当前帧为语音信号;
[0087]
[0088] 其中, 表示先验语音不存在概率,根据带噪信号瞬态冲击噪声检测的
估计方法,先估计出 然后分别定义
γ1为固定门限值,取值范围为2.5-3。
[0089] 具体的,带噪语音信号能量检测模块的检测方法为:
[0090] 步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的 若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的 作为当前帧的
[0091] 步骤c2:根据当前帧的E(n)和 进行判断,如果当前帧满足 且E(n)>E0,则标记当前帧为语音信号,否则标记当前帧为噪声信号,其中,E0表示能量门限,取值范围为10-8-10-5,μ3表示调节因子,取值范围为0.2-0.3。
[0092] 如图3-图6所示,本发明可以有效的在瞬态冲击噪声、非瞬态冲击噪声和准平稳背景噪声干扰下,准确的检测出语音信号。
[0093] 如图3所示为当存在挪动椅子的噪声及其他干扰噪声时,本发明的语音活动检测结果。其中虚线代表语音活动检测结果。幅值为1时,表示检测结果为语音信号,为0时为噪声信号。椭圆中的信号为挪动椅子的噪声及其他干扰噪声。图4所示为图3所示带噪信号的时频图。
[0094] 如图5所示为存在敲桌子的噪声时,本发明的语音活动检测结果。其中虚线代表语音检测结果。幅值为1时,表示检测结果为语音信号,为0时为噪声信号。椭圆中的信号为敲桌子的噪声。图6所示为图5带噪信号的时频图。
[0095] 本发明既可用于多通道麦克风阵列做完回声消除、回声抑制、波束形成及降噪后的单通道语音信号,也可直接用于单通道降噪前或降噪后的语音信号。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈