首页 / 专利库 / 信号处理 / 信号 / 叠加信号 / 一种低信噪比语音降噪方法

一种低信噪比语音降噪方法

阅读:4发布:2024-02-23

专利汇可以提供一种低信噪比语音降噪方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种低 信噪比 语音降噪方法,该方法包括以下步骤:对输入语音 信号 分 帧 组帧,乘入汉明窗,进行时频转换,计算信号的谱 能量 分布;根据接收信号的状态判断对接收信号进行增益振荡检测,更新底噪谱能量分布;计算谱分布后验信噪比,进行MMSE噪声抑制;计算帧信噪比,保存并更新最近一定时间内的帧信噪比;进行谱包络多状态转移,根据状态转移的状态输出判断 输入信号 是语音或是噪声;对降噪后的信号进行频时转换以及窗 叠加 ,对 输出信号 进行语音头保护,根据静音检测的结果输出降噪后语音或是静音。本发明能够有效的抑制短波通信噪声,提高通信话音的 质量 ,从技术手段上保证语音降噪的有效性。,下面是一种低信噪比语音降噪方法专利的具体信息内容。

1.一种低信噪比语音降噪方法,其特征在于,包括以下步骤:
(1)对输入语音信号组帧,乘入汉明窗;
(2)将时域信号转换成频域信号,计算信号的谱能量分布;
(3)根据接收信号的状态判断对接收信号进行增益振荡检测,检测结束后根据当前所处的状态更新底噪谱能量分布;
(4)利用接收信号的谱能量分布和底噪的谱能量分布计算谱分布后验信噪比,通过MMSE估计方法计算谱增益系数,并利用增益系数抑制噪声;
(5)利用降噪后的谱能量分布及底噪谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;
(6)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音或是噪声;
(7)对降噪后的信号进行频时转换以及窗叠加,对输出信号进行语音头保护,根据静音检测的结果输出降噪后语音或是静音。
2.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述步骤(1)对输入语音信号分帧组帧,每帧由128-512个样点组成,每次更新帧长度一半的样点,将每帧信号乘以一汉明窗,窗长度与帧长度相同。
3.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述步骤(2),通过快速傅立叶变换将收到的时域信号转为频域信号;根据人类发声特性,将低于300Hz以及大于
3400Hz的频谱能量置为零。
4.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述步骤(3),进行增益振荡检测的步骤是:
(3-1)如果接收信号的状态为噪声状态,则先判断一定时间前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(3-3);
(3-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(3-3);
(3-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
5.根据权利要求1或4所述的低信噪比语音降噪方法,其特征在于,所述步骤(3)中更新底噪谱能量分布包括以下三种方式:谱分布初始化更新、谱分布正向更新和谱分布反向更新;如果当前所处的状态是初始化状态则采用谱分布初始化更新;如果当前所处的状态是噪声状态则采用谱分布正向更新;如果当前所处的状态是信号状态则采用谱分布反向更新。
6.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述步骤(4),利用接收信号的谱能量分布和底噪的谱能量分布计算谱分布后验信噪比,通过直接判决反馈法将后验信噪比转为先验信噪比,根据MMSE估计得到基于先验信噪比的对数谱估计增益系数,将增益系数与谱分布相乘得到降噪后的信号谱分布。
7.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述后验信噪比计算公式如下:
其中,SNRpost表示后验信噪比;|Yn(w)|2表示当前帧带噪语音信号的频谱能量;λ(w)表示噪声频谱方差,代表噪声的平均能量;n表示当前的帧数;w表示频域上的频率
先验信噪比计算公式如下:
其中:SNRprio表示先验信噪比;α表示遗忘因子,0<α<1;Gn-1(w)表示上一帧的增益因子;
对数谱估计增益函数计算公式如下:
其中, Gn(w)表示当前帧的增益因子;
降噪后的信号谱分布计算公式如下:
Xn(w)=Gn(w)*Yn(w);
Xn(w)表示降噪后的频域语音信号。
8.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述步骤(5)中,帧信噪比计算公式如下:
其中:SNR表示帧信噪比,x(i)表示降噪处理后的语音信号,n(i)表示噪声信号,L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定。
9.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述步骤(6)中,根据多状态转移的状态输出判断输入信号是语音或是噪声,其中先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程是:
(6-1)设置第一限和第二门限;初始化为噪声状态;
(6-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(6-3),否则继续保持为噪声状态;
(6-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(6-4),否则进入噪声状态;
(6-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
10.根据权利要求1所述的低信噪比语音降噪方法,其特征在于,所述步骤(7),利用快速傅里叶逆变换将谱分布信号变为时域信号,并通过窗重合叠加输出所述步骤(1)中帧长度一半的样点;根据对每一帧静音检测的记录,对输出信号进行语音头保护,将输出样点延迟输出50-200ms,根据延迟后的静音检测结果决定输出内容,如果静音检测结果为噪声,则输出静音;如果静音检测结果为语音,则输出降噪后语音信号。

说明书全文

一种低信噪比语音降噪方法

技术领域

[0001] 本发明涉及无线电通信的语音信号处理领域,特别涉及一种低信噪比语音降噪方法。

背景技术

[0002] 语音通信为无线通信中最基本的业务,目前在很多领域中仍然是以模拟话音为主,如飞机与地面通信、远程指挥通信、无线电广播等等。在这些应用中受无线信道的多径、衰落、反射等多种因素影响,语音信号在传输过程中会出现畸变和衰落,同时天线会接收到无线信道上的各种噪声信号,导致接收到的话音具有较大的噪声干扰。特别是当没有语音信号传输时,接收设备会将收到的各种无线信道噪声信号当成语音信号播放出来,使通信员长期承受着较为恶劣的噪声,严重地影响通信员的听觉感受。
[0003] 针对上述问题,通常做法是采用语音降噪和静音检测来降低噪声的影响,具体是:通过静音检测判断是否有语音信号到达,如果没有语音信号则关闭声音;如果有信号则进行降噪处理并输出降噪后的语音。但是传统方法在信噪比较低、噪声信号能量大于或者远大于语音信号时,往往无法有效的检测出语音信号并降噪,导致语音通信中丢字丢句子,降噪输出的话音失真较大。
[0004] 因此,研究一种即使信噪比比较低仍能够准确检测出语音信号的语音降噪方法具有重要意义。

发明内容

[0005] 本发明的主要目的在于克服现有技术的缺点与不足,提供一种低信噪比语音降噪方法,该方法能够在信噪比较低,甚至只能听到有话音而难以分辩话音内容的情况下准确的检测出语音信号,并抑制噪声。
[0006] 本发明的目的通过以下的技术方案实现:一种低信噪比语音降噪方法,包括以下步骤:
[0007] (1)对输入语音信号分组帧,乘入汉明窗;
[0008] (2)将时域信号转换成频域信号,计算信号的谱能量分布;
[0009] (3)根据接收信号的状态判断对接收信号进行增益振荡检测,检测结束后根据当前所处的状态更新底噪谱能量分布;
[0010] (4)利用接收信号的谱能量分布和底噪的谱能量分布计算谱分布后验信噪比,通过MMSE估计方法计算谱增益系数,并利用增益系数抑制噪声;
[0011] (5)利用降噪后的谱能量分布及底噪谱能量分布计算帧信噪比,保存并更新最近一定时间内的帧信噪比;
[0012] (6)根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是语音或是噪声;
[0013] (7)对降噪后的信号进行频时转换以及窗叠加,对输出信号进行语音头保护,根据静音检测的结果输出降噪后语音或是静音。
[0014] 优选的,所述步骤(1)对输入语音信号分帧组帧,每帧由128-512个样点组成,每次更新帧长度一半的样点,将每帧信号乘以一汉明窗,窗长度与帧长度相同。采用这样的汉明窗可以保证帧间信号的连续性和平稳性。
[0015] 优选的,所述步骤(2),通过快速傅立叶变换将收到的时域信号转为频域信号;根据人类发声特性,将低于300Hz以及大于3400Hz的频谱能量置为零。从而可以减少后续的计算量。
[0016] 优选的,所述步骤(3),进行增益振荡检测的步骤是:
[0017] (3-1)如果接收信号的状态为噪声状态,则先判断一定时间前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(3-3);
[0018] (3-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(3-3);
[0019] (3-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
[0020] 优选的,所述步骤(3)中更新底噪谱能量分布包括以下三种方式:谱分布初始化更新、谱分布正向更新和谱分布反向更新;如果当前所处的状态是初始化状态则采用谱分布初始化更新;如果当前所处的状态是噪声状态则采用谱分布正向更新;如果当前所处的状态是信号状态则采用谱分布反向更新。
[0021] 具体的,所述步骤(4),利用接收信号的谱能量分布和底噪的谱能量分布计算谱分布后验信噪比,通过直接判决反馈法将后验信噪比转为先验信噪比,根据MMSE估计得到基于先验信噪比的对数谱估计增益系数,将增益系数与谱分布相乘得到降噪后的信号谱分布。
[0022] 更进一步的,所述后验信噪比计算公式如下:
[0023]
[0024] 其中,SNRpost表示后验信噪比;|Yn(w)|2表示当前帧带噪语音信号的频谱能量;λ(w)表示噪声频谱方差,代表噪声的平均能量;n表示当前的帧数;w表示频域上的频率
[0025] 先验信噪比计算公式如下:
[0026]
[0027] 其中:SNRprio表示先验信噪比;α表示遗忘因子,0<α<1;Gn-1(w)表示上一帧的增益因子;
[0028] 对数谱估计增益函数计算公式如下:
[0029]
[0030] 其中, Gn(w)表示当前帧的增益因子;
[0031] 降噪后的信号谱分布计算公式如下:
[0032] Xn(w)=Gn(w)*Yn(w);
[0033] Xn(w)表示降噪后的频域语音信号。
[0034] 优选的,所述步骤(5)中,帧信噪比计算公式如下:
[0035]
[0036] 其中:SNR表示帧信噪比,x(i)表示降噪处理后的语音信号,n(i)表示噪声信号,L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定。比如采样率为8Khz,统计时间为16毫秒,那么统计周期L就是128样点。
[0037] 优选的,所述步骤(6)中,根据多状态转移的状态输出判断输入信号是语音或是噪声,其中先定义三个状态,噪声状态表示当前接收到信号为噪声,语音状态表示当前接收到信号为语音,过渡状态表示当前接收到的信号还需要进一步判断是噪声还是语音,具体判断过程是:
[0038] (6-1)设置第一限和第二门限;初始化为噪声状态;
[0039] (6-2)判断当前的帧信噪比是否大于第一门限,如果是,则由噪声状态转移至过渡状态,进入步骤(6-3),否则继续保持为噪声状态;
[0040] (6-3)计算进入过渡状态的连续若干帧的平均信噪比,判断平均信噪比是否大于第二门限,如果是则进入语音状态,进入步骤(6-4),否则进入噪声状态;
[0041] (6-4)检测一定时间内的谱包络信噪比,判断此谱包络信噪比是否大于第一门限,如果是则保持为语音状态,否则进入过渡状态。
[0042] 更进一步的,所述步骤(6-1)中,第一门限和第二门限是通过统计平稳噪声的能量熵分布得出。其具体值可根据静音检测实际使用环境调整,当接收的话音经常非常微弱难以分辩时可选择临界门限,当接收的话音能够基本上听清楚时可以提高门限,增大静音检测的鲁棒性。
[0043] 具体的,所述步骤(7),利用快速傅里叶逆变换将谱分布信号变为时域信号,并通过窗重合叠加输出所述步骤(1)中帧长度一半的样点;根据对每一帧静音检测的记录,对输出信号进行语音头保护,将输出样点延迟输出50-200ms,根据延迟后的静音检测结果决定输出内容,如果静音检测结果为噪声,则输出静音;如果静音检测结果为语音,则输出降噪后语音信号。
[0044] 本发明与现有技术相比,具有如下优点和有益效果:
[0045] 1、本发明通过谱包络静音检测对输入信号进行语音识别,利用识别结果进行噪声更新,通过MMSE估计方法抑制噪声,并通过语音头保护等手段保护语音信号的完整,能够有效的抑制短波通信噪声,提高通信话音的质量,从技术手段上保证语音降噪的有效性,特别是能够准确可靠的抑制低信噪比下的噪声,弥补目前针对低信噪比语音降噪手段的不足。
[0046] 3、本发明具有语音头保护功能,能够有效防止语音开始阶段的部分音节丢失。附图说明
[0047] 图1是本发明方法流程示意图;
[0048] 图2是本发明增益振荡检测流程示意图;
[0049] 图3是本发明谱包络状态转移过程示意图。

具体实施方式

[0050] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0051] 实施例1
[0052] 结合图1所示,本实施例所述低信噪比语音降噪方法,包括以下步骤:
[0053] 步骤(1),对输入语音信号分帧组帧,每帧由200样点组成,每次更新100样点。为了保证帧间信号的连续性和平稳性,将每帧信号乘以200样点的汉明窗。
[0054] 步骤(2),通过快速傅立叶变换将收到的时域信号转为频域信号,计算信号频谱的能量分布。根据人类发声特性,将低于300Hz以及大于3400Hz的频谱能量置为零。
[0055] 步骤(3),根据接收信号的状态判断对接收信号进行增益振荡检测。增益振荡检测过程是为了防止通信设备收发状态切换期间,由于信道切换而造成AGC的瞬态变化,从而导致接收信号幅度上的剧烈变化,影响静音检测的准确性和稳定性。所述进行增益振荡检测的具体步骤是:
[0056] (3-1)如果接收信号的状态为噪声状态,则先判断一定时间前信号是否为语音状态,如果不是,则不进行检测,否则获取其包络谱能量,进入步骤(3-3);
[0057] (3-2)如果接收信号的状态为语音状态,则获取其包络谱能量,进入步骤(3-3);
[0058] (3-3)判断帧能量是否大于包络能量10dB,如果是,则进行帧能量缩放,否则,则不进行检测。
[0059] 检测结束后根据当前所处的状态对底噪的谱能量分布进行更新,初始化状态采用谱分布初始化更新;噪声状态采用谱分布正向更新;信号状态采用谱能量反向更新。
[0060] 步骤(4),利用接收信号的谱能量分布和底噪的谱能量分布计算谱分布后验信噪比,通过直接判决反馈法将后验信噪比转为先验信噪比,根据MMSE估计得到基于先验信噪比的对数谱估计增益系数,将增益系数与谱分布相乘得到降噪后的信号谱分布。
[0061] 后验信噪比计算公式如下:
[0062]
[0063] 其中,SNRpost表示后验信噪比;|Yn(w)|2表示当前帧带噪语音信号的频谱能量;λ(w)表示噪声频谱方差,代表噪声的平均能量;n表示当前的帧数;w表示频域上的频率;
[0064] 先验信噪比计算公式如下:
[0065]
[0066] 其中:SNRprio表示先验信噪比;α表示遗忘因子,0<α<1;Gn-1(w)表示上一帧的增益因子;
[0067] 对数谱估计增益函数计算公式如下:
[0068]
[0069] 其中, Gn(w)表示当前帧的增益因子;
[0070] 降噪后的信号谱分布计算公式如下:
[0071] Xn(w)=Gn(w)*Yn(w);
[0072] Xn(w)表示降噪后的频域语音信号。
[0073] 步骤(5),利用降噪后的谱能量分布及底噪谱能量分布计算帧信噪比,保存并更新最近0.5秒钟内的帧信噪比。
[0074] 帧信噪比计算公式如下:
[0075]
[0076] 其中:SNR表示帧信噪比,x(i)表示降噪处理后的语音信号,n(i)表示噪声信号,L表示统计周期内的样点个数,统计周期是由统计时间和采样率来决定。
[0077] 步骤(6),根据帧信噪比和谱包络信噪比记录信息,进行谱包络多状态转移,根据多状态转移的状态输出判断输入信号是话音或是噪声。流程如图3所示。噪声状态表示当前接收到信号为噪声,当前帧信噪比大于门限1时由噪声状态转移至过渡状态,否则保持在噪声状态;过渡状态表示当前接收到信号可能是噪声也可能是语音,计算进入此状态的连续5帧的平均信噪比,平均信噪比大于门限2则进入语音状态,否则进入噪声状态;语音状态表示当前接收到信号为语音,语音状态主要检测1秒钟内的谱信噪比包络,当包络大于门限1时保持为语音状态,否则进行过渡状态。
[0078] 状态转移中所使用的2个门限是通过统计平稳噪声的能量熵分布得出,其具体值可根据静音检测实际使用环境调整,当接收的话音经常非常微弱难以分辩时可选择临界门限,当接收的话音能够基本上听清楚时可以提高门限,增大静音检测的鲁棒性。
[0079] 步骤(7)、利用快速傅里叶逆变换将谱分布信号变为时域信号,并通过窗重合叠加输出100样点。根据对每一帧静音检测的记录,对输出信号进行语音头保护。将输出样点延迟输出100ms,根据100ms后的静音检测结果决定输出内容。如果静音检测结果为噪声,则输出静音;如果静音检测结果为语音,则输出降噪后信号。
[0080] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈