首页 / 专利库 / 信号处理 / 采样频率 / 噪声环境下语音端点的检测方法

噪声环境下语音端点的检测方法

阅读:1发布:2021-02-28

专利汇可以提供噪声环境下语音端点的检测方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种噪声环境下语音端点的检测方法,包括:步骤1:根据人 耳 的基底膜的听觉特性将20~22050Hz的 频率 范围分成25个频率群;步骤2:计算与每个频率群相对应的不等带宽子带的方差Di;步骤3:根据计算出的频率群的不等带宽子带的方差Di,通过单参数双 门 限法检测语音 信号 的起止端点。本发明利用人耳的听觉特性和频带方差对语音 能量 的起伏的敏感度来进行语音端点的检测,方法简便,检测的准确率更高。,下面是噪声环境下语音端点的检测方法专利的具体信息内容。

1.一种噪声环境下语音端点的检测方法,包括:
步骤1:根据人的基底膜的听觉特性将20~22050Hz的频率范围分成25个频率群;
步骤2:计算与每个频率群相对应的不等带宽子带的方差Di;
步骤3:根据计算出的频率群的不等带宽子带的方差Di,通过单参数双限法检测语音信号的起止端点。
2.如权利要求1所述的噪声环境下语音端点的检测方法,其中,每个频率群中的中心频率、临界带宽、下限频率和上限频率分别代表一项参数,且所述中心频率、所述下限频率和所述上限频率被构成一个3×25维的数组。
3.如权利要求2所述的噪声环境下语音端点的检测方法,其中,在计算每个频率群的不等带宽子带的方差的过程中,包括:
步骤21:根据语音信号x(n)的采样频率fs,求出在(0~fs/2)频率区间内的不等带宽子带的数量q;
步骤22:对所述语音信号x(n)进行加窗处理得到第i帧的语音信号xi(m),经快速傅氏变换后得到(N/2+1)条正频率幅值谱线Xi,Xi={Xi(1),Xi(2),...,Xi(N/2+1)},i=0,1,
2,...,N为帧长;
步骤23:通过内插的方法对(N/2+1)条正频率幅值谱线Xi进行扩展;
步骤24:计算每个不等带宽子带内频谱的平均幅值Ei(j):
式中,fj,l——第j个不等带宽子带的低频临界带宽;
fj,h——第j个不等带宽子带的高频临界带宽;
步骤25:计算(0~fs/2)频率区间内q个不等带宽子带的均值 计算公式为:
步骤26:根据所述 与所述Ei(j)计算q个不等带宽子带的方差Di,计算公式为:
4.如权利要求1所述的噪声环境下语音端点的检测方法,其中,在根据计算出的频率群的不等带宽子带的方差,通过单参数双门限法检测语音信号的起止端点的过程中,包括:
步骤31:根据所述语音信号的前导无话段计算噪声段的平均方差值,并可设置阈值T1和T2;
步骤32:根据所述阈值T1和所述阈值T2,通过所述单参数双门限法检测语音信号的起止位置
5.如权利要求4所述的噪声环境下语音端点的检测方法,其中,在根据所述阈值T1和所述阈值T2,通过所述单参数双门限法检测语音信号的起止位置的过程中,当所述Di高于所述阈值T1时,判断为所述语音信号的起点,当所述Di高于所述阈值T2时,判断为所述语音信号的端点;其中,所述阈值T1和所述阈值T2取所述Di的原始数据上的数值或取所述Di的原始数据经过平滑处理后的数值。

说明书全文

噪声环境下语音端点的检测方法

技术领域

[0001] 本发明涉及语音信号处理技术领域,更为具体地,涉及一种噪声环境下语音端点的检测方法。

背景技术

[0002] 语音端点检测是语音识别中一个重要的缓解,语音端点检测能够对语音信号进行更好的分析和训练,从而提高语音识别的识别率。现有的端点检测算法如利用过零率、短时能量和自相关参数,在高信噪比环境下可以获得较好的检测效果,但在低信噪比环境下其检测性能却急剧下降。
[0003] 当语音信号包含有背景噪音时,从中检测出语音信号的起始点和终止点,可以减少数据的采集量,删除不含语音信号的背景噪声和无声段,从而降低特征提取的计算量和处理时间,提高语音识别的准确性。
[0004] 因此,噪声环境中准确的检测语音的起止点有利于提高语音系统性能。当语音中含有噪音时,现有的语音端点检测方法显得有些无能为

发明内容

[0005] 鉴于上述问题,本发明的目的是提供一种噪声环境下语音端点的检测方法,以解决现有的语音端点检测方法在低信噪比环境下其检测性能低的问题。
[0006] 本发明提供的噪声环境下语音端点的检测方法,包括:
[0007] 步骤1:根据人的基底膜的听觉特性将20~22050Hz的频率范围分成25个频率群;
[0008] 步骤2:计算与每个频率群相对应的不等带宽子带的方差Di;
[0009] 步骤3:根据计算出的频率群的不等带宽子带的方差Di,通过单参数双限法检测语音信号的起止端点。
[0010] 本发明利用人耳的听觉特性和频带方差对语音能量的起伏的敏感度来进行语音端点的检测,方法简便,检测的准确率更高。
[0011] 为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。

附图说明

[0012] 通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
[0013] 图1为根据本发明实施示例的噪声环境下语音端点的检测方法的流程示意图;
[0014] 图2为根据本发明实施示例的单参数双门限端点检测一级判决示意图;
[0015] 图3为根据本发明实施示例的不等带宽子带方差端点检测结果图。

具体实施方式

[0016] 本发明的整体思路为:语音与噪声在频谱域中的差别很大,一般有话段的能量会随频带产生较大的变化,在共振峰处有较大的峰值,在其他的频段能量较小;而噪声段的能量数值相对较小,且在频带内的分布较为均匀,即变相对平缓。可根据这个特性来辨别有有话段与噪声段,产生的“频带方差”可以很好的检测出语音的有话段。
[0017] 图1示出了根据本发明实施示例的噪声环境下语音端点的检测方法的流程。
[0018] 如图1所示,本发明提供的噪声环境下语音端点的检测方法,包括如下步骤:
[0019] 步骤1:根据人耳的基底膜的听觉特性将20~22050Hz的频率范围分成25个频率群。
[0020] 每个频率群对应一个不等带宽子带,且每个频率群中的中心频率、临界带宽、下限频率和上限频率分别代表一项参数,且中心频率、下限频率和上限频率被构成一个3×25维的数组。如表1所示:
[0021]
[0022]
[0023] 步骤2:计算与每个频率群相对应的不等带宽子带的方差Di。
[0024] 计算与每个频率群相对应的不等带宽子带的方差Di的过程为:
[0025] 步骤21:根据语音信号x(n)的采样频率fs,求出在(0~fs/2)频率区间内的不等带宽子带的数量q。
[0026] 由于在0~22050Hz的范围内有25个不等带宽子带,但一般采样频率可能极低,它只能含有少于25个不等带宽子带,例如语音信号的采样频率是8kHz,通过比较可知,在4kHz的范围内只有17个不等带宽子带,因此,在求取不等带宽子带方差时,只需计算这17个子带的方差即可,从而大幅度地减少计算量。
[0027] 步骤22:对语音信号x(n)进行加窗处理得到第i帧的语音信号xi(m),经快速傅氏变换后得到(N/2+1)条正频率幅值谱线Xi,Xi={Xi(1),Xi(2),...,Xi(N/2+1)},i=0,1,2,...,N为帧长。
[0028] 其中,xi(m)满足:xi(m)=ω(m)*x(iT+m)1≤m≤N。
[0029] 步骤23:通过内插的方法对(N/2+1)条正频率幅值谱线Xi进行扩展。
[0030] 通过内插的方法对对(N/2+1)条正频率幅值谱线Xi进行扩展的的目的在于为了更精确地计算不等带宽子带的方差值。以8kHz的取样频率为例,在0~4kHz的范围内包含有17个不等带宽子带,当帧长取为200时,正频率幅值谱线就有101条,频率的分辨率是40Hz,第1个不等带宽子带是20~100Hz,在101条幅值谱线中第1~4条谱线所对应的频率分别是0Hz、40Hz、80Hz、120Hz,而第1个不等带宽子带只能读取2~3条谱线,用两条谱线计算方差肯定会产生较大的误差。谱线扩展是把频率分辨率减小到1Hz,这样对第1个不等带宽子带就很容易地能够包含有20~100Hz的频率分量,有81条谱线,用这些谱线来计算方差显然要比只用两条谱线计算方差会有更高的精度
[0031] 步骤24:计算每个不等带宽子带内频谱的平均幅值Ei(j):
[0032]
[0033] 式中,fj,l——第j个不等带宽子带的低频临界带宽;
[0034] fj,h——第j个不等带宽子带的高频临界带宽。
[0035] 步骤25:计算(0~fs/2)频率区间内q个不等带宽子带的均值 计算公式为:
[0036] 步骤26:根据 与Ei(j)计算q个不等带宽子带的方差Di,计算公式为:
[0037]
[0038] 步骤3:根据计算出的频率群的不等带宽子带的方差Di,通过单参数双门限法检测语音信号的起止端点。
[0039] 在根据计算出的频率群的不等带宽子带的方差Di,通过单参数双门限法检测语音信号的起止端点的过程中,包括如下步骤:
[0040] 步骤31:根据语音信号的前导无话段计算噪声段的平均方差值,并可设置阈值T1和T2。
[0041] 步骤32:根据阈值T1和阈值T2通过单参数双门限法检测语音信号的起止位置
[0042] 当Di高于阈值T1时,判断为语音信号的起点,当Di高于阈值T2时,判断为语音信号的端点;其中,阈值T1和阈值T2取Di的原始数据上的数值或取Di的原始数据经过平滑处理后的数值,在本发明中,阈值T1和阈值T2采用Di原始数据上的值,且T1=0.01,T2=0.002。
[0043] 更为具体地,单参数双门限法采用短时平均能量和短时平均过零率对语音信号进行端点检测。
[0044] 如图2所示,第一级判决:首先根据短时能量包络线选取一个较大的阈值T1进行粗判,高于该阈值确定为语音信号,语音信号的起止点位于该阈值与短时能量包络交点所对应时间点之外。在平均能量上确定一个较低的阈值T2,并从T1的交点分别往语音信号的两端搜索,找到与T2的交点就是短时能量判定的语音信号起止点。
[0045] 第二级判决:以短时过零率为准向语音信号两侧寻找,找到低于设定过零率阈值的点即为语音信号的起止点。
[0046] 根据两级判决的结果各取起点和终点的中间值作为语音信号最后的起止点,语音信号端点的最终检测结果如图3所示。
[0047] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈