专利汇可以提供数字助听器中融合相位估计与人耳听觉特性的语音增强方法专利检索,专利查询,专利分析的服务。并且本 发明 公开数字 助听器 中融合 相位 估计与人 耳 听觉特性的语音增强方法,该方法首先通过傅里叶变换得到含噪语音的频域表达式;采用最小值控制递归平均方法获得噪声 功率谱 ;获得初步增强语音和噪声的幅度谱;通过可改善低 信噪比 环境下语音失真的相位估计来修正语音和噪声的相位,获得初步增强语音和噪声;其次,将初步增强语音和噪声分别通过模拟人工耳蜗工作机理的gammatone 滤波器 组,进行滤波处理,对其时频分析,得到有时频单元组成的时频表示形式;最后,利用人耳的听觉特性,计算含噪语音在时频域的二值掩蔽,利用掩蔽值合成得到增强后的语音。该方法结合了人耳听觉特性,使数字助听器的输出语音 信号 的 质量 得到了很大的提高。,下面是数字助听器中融合相位估计与人耳听觉特性的语音增强方法专利的具体信息内容。
1.数字助听器中融合相位估计与人耳听觉特性的语音增强方法,其特征在于:通过对数幅度谱估计和语音相位估计修正初步增强语音的相位,获得较为准确的语音信号和噪声,接着通过基于可以模拟人耳听觉特性,能对人耳基底膜进行仿真的gammatone滤波器组,对语音信号和噪声进行时频分析,计算二值掩蔽,利用了人耳听觉感知理论,结合了人耳听觉掩蔽特性;具体过程包括步骤如下,
步骤一,数字助听器的输入信号进行预处理,首先对输入信号进行去均值、归一化、预加重、分帧、加窗处理;
步骤二,通过傅里叶变换计算出含噪语音信号的频谱;
步骤三,通过最小值控制递归平均算法,计算出含噪语音信号中的噪声分量即噪声功率;
步骤四,通过估计出来的噪声功率得到后验信噪比,利用判决引导法得到先验信噪比;
步骤五,通过先验信噪比和后验信噪比得出对数幅度谱估计器增益函数,利用对数幅度谱估计器从含噪语音中得到初步增强的语音信号的幅度谱;
步骤六,根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值,推导出噪声的增益函数,进而从含噪语音中得到噪声信号的幅度谱;
步骤七,相位估计,利用噪声相位和步骤五、步骤六得到的语音信号幅度谱和噪声幅度谱估计出其相位修正值,得到语音信号和噪声的相位;
步骤八,进行傅里叶逆变换,将初步增强的语音信号幅度谱和噪声幅度谱,乘以从步骤七中修正后的相位,然后通过傅里叶逆变换分别得到初步增强的语音信号和噪声信号;
步骤九,时频处理,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,将初步增强的语音信号和噪声信号分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,将其频谱范围非均匀地分为N个频带,得到由时频单元组成的时频表达形式;
步骤十,利用人耳的听觉掩蔽特性,计算出含噪语音在时频域的二值掩蔽;
步骤十一,时频掩蔽,利用步骤十得到的掩蔽值得到最终的输出信号。
2.根据权利要求1所述的数字助听器中融合相位估计与人耳听觉特性的语音增强方法,其特征在于:步骤一,对数字助听器的输入信号进行预处理,即去均值、归一化、预加重、分帧、加窗;
数字助听器的模拟输入信号x(t),在模/数转换过程中,采样率为16kHz的采样率,转换后的数字信号为x(n),n表示时域的序列号;为了消除直流分量,采用去均值;避免因为输入输出数据数量级差别较大而造成较大误差,对数据进行归一化;由于语音信号的高频段能量小,造成高频传输衰弱,预加重针对高频部分进行加重,提高信号传输质量;去均值公式如式(1),归一化公式如式(2),预加重公式如式(3)所示;
x1(n)=x(n)-mean(x(n)) (1)
式中,n为样点数,mean(x(n))是x(n)序列的平均值,x1(n)是去均值后的信号;
式中,n为样点数,xmax是x(n)序列的最大值,xmin是x(n)序列的最小值,x2(n)是归一化后的信号;
x3(n)=x2(n)-a×x2(n-1) (3)
式中,n为样点数,a是系数,这里取0.9375,x3(n)是预加重之后的信号;
利用哈明窗对x3(n)进行分帧、加窗,根据语音信号的短时平稳特性,取20ms为一帧的长度,帧移长度为10ms,哈明窗函数定义如式(4),分帧、加窗定义如式(5)所示;
式中,n为样点数,w(n)是哈明窗函数,L为窗长;
y(n)=x3(n)×w(n)0≤n≤L-1 (5)
式中,n为样点数,y(n)是分帧、加窗后的信号,x3(n)是预加重之后的信号,w(n)是哈明窗函数;
步骤二,通过傅里叶变换计算出含噪语音信号的频谱Y(λ,k),对每帧含噪语音信号进行2N点离散傅立叶变换傅里叶变换得到每帧含噪语音信号的频谱,如式(6)所示;
式(6)中Y(λ,k)表示第λ帧在频点为k处的频谱,k表示频域的序列号;
带噪语音信号频谱Y(λ,k)表示为复指数形式为:
|Y(λ,k)|、|X(λ,k)|、|D(λ,k)|分别代表带噪语音、纯净语音、噪声分量的谱幅度,表示第λ帧频域第k个频谱分量的相位;
步骤三,通过最小值控制递归平均算法,估计出含噪语音信号中的噪声功率谱本方法中噪声估计采用最小值控制递归平均算法,该方法利用无语音段来更新噪声估计,有语音段则保持不变,考虑了语音存在概率,能够实时跟踪快速变化的噪声,具有较好的鲁棒性,利于减小信号的失真;
噪声功率的估计基于公式(7)以下两个略作修改的假设:
其中, 表示语音不存在, 表示语音存在,λ表示分帧后帧信号的序列号,k表示离散频率点的序列号, 表示当前分析的第λ帧在频率点k处的噪声估计功率谱;α是一个固定值,0到1的取值范围,在本方法中取为0.97;|Y(λ,k)|2表示当前分析的第λ帧在频率点k处含噪语音信号的功率谱;
噪声功率谱密度的均方估计表示如公式(8):
基于公式(7)的两个假设,可以将表示为式(9)
其中αd(λ,k)=α+(1-α)p(λ,k)其取值范围为α≤αd(λ,k)≤1,需要计算所需的p(λ,k)以估计平滑因子αd(λ,k),各频点存在语音的概率p(λ,k)通过带噪语音功率谱与其局部最小值之比来计算;带噪语音功率谱密度的平滑估计计算如下:
S(λ,k)=αdS(λ-1)+(1-αs)Sf(λ,k) (10)
其中为αs平滑因子本方法中取0.6, 其中为窗函数,窗长为
2Lw+1,局部最小值Smin(λ,k)通过在一个D帧的固定窗口长度上,通过与过去每一个S(λ,k)值进行对比得到,平滑的语音功率谱S(λ,k)与其局部最小值Smin(λ,k)之比表示为:
将该比值与一阈值δ进行比较得到频谱上存在语音的区域:
if Sr(λ,k)≥δ
P(λ,k)=1 语音存在
else
p(λ,k)=0 语音不存在
end
语音的存在概率通过下面的递归公式(11),在时间上进行平滑,计算出语音存在概率p(λ,k)
最后,将其代入公式中得到估计噪声功率谱
步骤四,通过步骤三估计出来的噪声功率 得到后验信噪比γk,如式所示,利用判决引导法得到先验信噪比ξk;判决引导法它是基于ξk的定义及其后验信噪比γk的关系,ξk的更新是根据上一次的幅度估计的信息,算法如式(12)所示:
其中 表示后验信噪比,
步骤五,通过先验信噪比ξk和后验信噪比γk得出对数幅度谱估计器增益函数GLSA(ξk,γk),采用公式(13)得到初步增强语音信号的幅度谱;
其中
步骤六,根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值,推导出噪声的增益函数HLSA(ξk,γk),噪声幅度 可用公式(14)表示:
其中
将上述两式带入公式(13)可得噪声的幅度谱:
其中,
步骤七,相位估计,利用噪声相位和步骤五、步骤六得到的语音信号幅度谱和噪声幅度谱估计出其相位修正值,得到语音信号和噪声的相位;
步骤八,进行傅里叶逆变换,将初步增强的语音信号幅度谱和噪声幅度谱,乘以从步骤七中修正后的语音的相位,然后通过傅里叶逆变换,公式(17)、(18),分别得到初步增强的语音信号和噪声信号;
步骤九,时频处理,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,将初步增强的语音信号和噪声信号分别通过模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,将其频谱范围非均匀地分为N个频带,得到由时频单元组成的时频表达形式,使用公式(19)、(20)得到;
Bandx(λ,i,n)=x(λ,n)*g(n,f(i))i=1,2,3,…,128 (19)
Bandd(λ,i,n)=d(λ,n)*g(n,f(i))i=1,2,3,…,128 (20)
其中,Bandx(λ,i,n)表示初步增强语音信号x(λ,n)在第λ帧的第i频带的信号,Bandd(λ,i,n)表示估计噪声信号d(λ,n)在第λ帧的第i频带的信号;g(n,f(i))表示gammatone滤波器组,中心频率为f(i);gammatone滤波器组可模拟耳蜗中的基底膜对输入信号进行滤波,耳蜗对声音的频率分辨率是非均匀的,在80HZ~5000HZ范围,gammatone滤波器组的中心频率内以准对数形式分布,并以等距形带宽的方式均匀地分布在语音信号所占据的频率范围内;gammatone滤波器的脉冲响应具有以下形式:
式中a=4,表示滤波器的阶数;b(f)表示中心频率为f时的等距形带宽,随着f的增加而变宽;
步骤十,利用人耳的听觉掩蔽特性,计算出含噪语音在时频域的掩蔽值,得到最终的输出信号;理想二值掩蔽是为了保留混合信号中由目标语音主导的声音分量,去除由噪声主导的声音分量,从而实现目标语音信号和噪声信号的分离;首先将混合信号中的初步增强语音和估计噪声信号都分解为时频域二维表示形式,然后,计算出每个时频单元的能量,本方法中利用式(22)计算估计二值掩蔽;
式中,表示初步增强语音信号的能量,表示噪声信号的能量,表示估计的信噪比;如果时频单元内目标语音的能量大于噪声的能量,该时频单元为‘1’,否则为‘0’;
最后将每个频带的时频掩蔽值分别乘以该频带的信号,最后将所有频带相加得到最终的输出信号,如公式(23);
。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于非共面H型谐振器和蟹腿型支撑梁的双轴体微机械谐振式加速度计 | 2020-05-08 | 40 |
脑电的阈下姓名身份认证方法 | 2020-05-11 | 882 |
开关转换器及其控制电路、使用它的照明装置、电子设备 | 2020-05-12 | 125 |
机芯、电子钟表以及电机驱动控制方法 | 2020-05-12 | 975 |
用频谱域智能间隙填充编码或解码音频信号的设备及方法 | 2020-05-13 | 503 |
半导体器件 | 2020-05-11 | 192 |
包括操作为多个通道的多个裸片的半导体装置 | 2020-05-13 | 381 |
用于由功能硬件组件产生的噪音的控制系统 | 2020-05-12 | 229 |
处理系统、集成电路和微控制器 | 2020-05-12 | 344 |
一种多人语音的分离方法和装置 | 2020-05-12 | 12 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。