技术领域
[0001] 本
发明涉及语音数字
信号处理技术,具体涉及一种基于听觉感知模型的多通道语音增强方法。
背景技术
[0002] 语音增强是
语音信号处理的一个重要分支,其目的是改善音质,提高清晰度和可懂度,减少听觉疲劳。语音增强的主要方法之一是谱减法,它通过从含噪语音
功率谱中减去噪声功率谱来估计干净语音的功率谱。传统的谱减法是在某
帧语音经过快速
傅立叶变换后的整个频域上减去一个相同的谱减参数。而语音和实际环境中的非平稳噪声在频域上是非均匀分布的。相应的,噪声信号在不同的频带上对语音信号的影响也是不同的。因此,人们提出了多通道语音增强技术。典型的多通道语音增强系统是先用
滤波器组将信号划分为多个通道,对每个通道的信号单独进行语音增强处理。最后,将处理后的各通道信号综合成一路信号。
[0003] 多通道语音增强系统设计中的一个关键问题是如何使系统的
频率分辨率与人类听觉系统的频率分辨率相匹配,又可以尽量减少通道数目。针对以
离散傅立叶变换(Discrete Fourier Transform,DFT)为
基础的多通道语音增强系统只能提供均匀通道划分的问题,
专利号为US7277554的发明提出了用一阶全通滤波器代替离散傅立叶变换中的延迟单元,从而实现在非线性频率变换域上计算压缩放大增益的语音增强系统,适当选择全通滤波器的极点
位置,该系统可以较好地模拟听觉系统。但是,由于全通滤波器的群延迟与频率有关,该系统会造成信号的不同频率成分通过该系统的时间不同,导致信号失真,这种由于频率相关的群延迟产生的信号失真在通道数目较多时尤为严重。
发明内容
[0004] 本发明的目的是针对
现有技术的
缺陷,提供了一种基于听觉感知模型的多通道语音增强方法,实现在通道数目较少的情况下模拟人
耳听觉分辨率,本发明既具有加权叠接相加结构的高效率,同时克服了目前频率变换
滤波器组方法中存在的无法实时实现和
相位失真的问题。
[0005] 为实现上述目的,本发明提供了一种基于听觉感知模型的多通道语音增强方法,所述方法包括以下步骤:
[0006] 将
输入信号非均匀通道划分为多个通道信号;
[0007] 检测每个通道的噪声级得到噪声级数据;
[0008] 根据所述噪声级数据计算得到每个通道的通道增益;
[0009] 每个所述通道的通道信号与通道增益的积作为该通道的增益信号;
[0010] 将所述每个通道的增益信号进行信号综合得到
输出信号;
[0011] 发送该输出信号。
[0012] 优选的,将输入信号非均匀通道划分为多个通道信号具体包括:
[0013] 截取有限长度的信号
片段,并对所述信号片段进行全通变换得到全通变换信号;其中,所述信号片段的长度P为不大于(1+|b|)L(1-|b|)的最大整数,截取步长为D,其中L为分析
原型滤波器的长度,b为全通变换参数,全通变换为L-1阶,并且所述全通变换利用L-1个全通滤波器;
[0014] 利用分析原型滤波器的时间翻转h(-r)对所述全通变换信号进行加权处理得到加权信号;
[0015] 将所述加权信号平均分成L/K个长度为K的加权信号片段,并将所述加权信号片段相加得到和信号;
[0016] 对所述和信号进行K点离散傅立叶变换得到变换信号,K为通道数目;
[0017] 所述变换信号与中心频率调整系数exp(jmDθ-1(ωk))之积为各个通道信号的序列 其为第k个分量对应第k个通道m时刻的输出,其中ωk=2kπ/K,k=0,...,K-1。
[0018] 优选的,全通变换具体包括:
[0019] 将所述信号片段s(n)进行时间翻转得到翻转信号片段s(N-n);
[0020] 将所述翻转信号片段s(N-n)进行全通滤波器A(z)链处理,当n=N时取值,得到非线性频率变换结果 其中全通滤波器利用下式实现:
[0021]
[0022] 优选的,将所述每个通道的增益信号进行信号综合得到输出信号具体包括:-1
[0023] 所述各通道信号序列 与另一组中心频率调整系数exp(-jmDθ (ωk))之积为积信号,其中,ωk=2kπ/K,k=0,...,K-1;
[0024] 对所述积信号进行K点离散傅立叶反变换得到反变换信号;
[0025] 将所述反变换信号复制L/K次,形成一个长度为L的序列;
[0026] 利用综合原型滤波器对所述序列进行加权处理得到加权信号;
[0027] 对所述加权信号进行全通反变换得到全通反变换信号,其中全通反变换为P-1阶,b为全通反变换参数;
[0028] 将所述全通反变换信号
叠加至长度为P的输出缓存,并将输出缓存的左侧移出D个点作为叠加处理后的信号,同时将输出缓存右侧补充D个零;
[0029] 将所述叠加处理后的信号通过频率响应为一阶全通滤波器A(z)的群延迟的倒数的滤波器,得到输出信号。
[0030] 优选的,所述对加权处理的结果进行P-1阶参数为b的全通反变换,可以通过P-1阶参数为-b的全通变换实现。
[0031] 优选的,所述输入信号为实信号的情况,所述噪声级检测模
块和增益计算模块仅需对第0至K/2通道的信号进行处理。
[0032] 与现有技术相比,本发明具有以下优点:
[0033] 本发明中采用的模拟听觉感知模型的滤波器将均匀DFT滤波器组的高效实现方法加权叠接相加(weighted overlap-add,WOLA)结构与全通变换相结合,用较少的通道数目的滤波器组对
音频信号实现近似人耳听觉分辨率的非均匀通道划分,同时,保证信号重建效果,并使其具有较低的计算复杂度,通道数目的减少还可以降低系统的群延迟。而且,模拟听觉感知模型的滤波器组在信号综合过程中加入了全通反变换操作,克服了现有技术中相位失真的问题,可应用于实时
信号处理。
附图说明
[0034] 图1为本发明
实施例一种基于听觉感知模型的多通道语音增强方法的
流程图;
[0035] 图2为本发明实施例一种基于听觉感知模型的多通道语音增强系统的结构图。
[0036] 图3a是全通变换参数b=0时16通道划分情况图;
[0037] 图3b是全通变换参数b=0.4时16通道划分情况图;
[0038] 图4是模拟听觉感知模型的分析滤波器组的流程图;
[0039] 图5是全通变换原理图;
[0040] 图6a是全通滤波器A(z)的相位响应图;
[0041] 图6b是全通滤波器A(z)的群延迟图;
[0042] 图7是模拟听觉感知模型的综合滤波器组的流程图。
具体实施方式
[0043] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
[0044] 本发明实施例的一种基于听觉感知模型的多通道语音增强方法,可应用于数字
助听器,本发明实施例在信号分析过程中将加权叠接相加结构与全通变换相结合,具有高效率,实时实现的优点,以较少的通道数目模拟人耳分辨率,同时在信号综合过程中加入全通反变换,解决了相位失真的问题。
[0045] 图1为本发明实施例一种基于听觉感知模型的多通道语音增强方法的流程图,如图所示,具体包括如下步骤:
[0046] 步骤101,将输入信号非均匀通道划分为多个通道信号。
[0047] 具体的,图2为本发明实施例一种基于听觉感知模型的多通道语音增强系统的结构图,如图2所示,本发明公开的基于听觉感知模型的多通道语音增强系统包括模拟听觉感知模型的分析滤波器组1,噪声级检测模块2,增益计算模块3,乘法器4和模拟听觉感知模型的综合滤波器组5五个主要部分。输入信号x(n)经过模拟听觉感知模型的分析滤波器组1后被划分为K个通道。
[0048] 为了提高效率,模拟听觉感知模型的分析滤波器组1采用加权叠接相加结构,并且在通道划分的过程中加入了全通变换,通过调整全通变换参数,可以得到非均匀通道划分。例如,对于
采样率为8kHz,通道数目为K=16,分析原型滤波器的截止频率为π/K,图3a为全通变换参数b=0时的通道划分情况,此时为均匀滤波器组。图3b为全通变换参数b=0.4时的通道划分情况,为非均匀滤波器组。
[0049] 模拟听觉感知模型的分析滤波器组1具体实现流程如图4所示,将输入信号x(n)非均匀通道划分为多个通道信号具体实现步骤如下:
[0050] 步骤401,截取有限长度的信号片段,并对信号片段进行全通变换得到全通变换信号。
[0051] 其中,信号片段的长度P为不大于(1+|b|)L(1-|b|)的最大整数,截取步长为D,L为分析原型滤波器的长度,b为全通变换参数,全通变换为L-1阶,并且全通变换利用L-1个全通滤波器;
[0052] 例如可以将长度为P的输入缓存每次右侧移入x(n)的D个点,左侧移出D个点,计算输入缓存中信号的L-1阶参数为b的全通变换。
[0053] 步骤402,利用分析原型滤波器的时间翻转h(-r)对全通变换信号进行加权处理得到加权信号。
[0054] 步骤403,将加权信号平均分成L/K个长度为K的加权信号片段,并将加权信号片段相加得到和信号。
[0055] 步骤404,对和信号进行K点离散傅立叶变换得到变换信号,K为通道数目。
[0056] 其中,离散傅里叶变换用快速傅里叶变换实现。
[0057] 步骤405,变换信号与中心频率调整系数exp(jmDθ-1(ωk))之积为各个通道信号的序列 其为第k个分量对应第k个通道m时刻的输出,其中ωk=2kπ/K,k=0,...,K-1。
[0058] 其中,全通变换的实现流程如图5所示。将信号片段s(n)进行时间翻转得到翻转信号片段s(N-n),然后将翻转信号片段s(N-n)进行全通滤波器A(z)链处理,当n=N时取值,得到非线性频率变换结果 A(z)的个数称为全通变换的阶数。其中
[0059]
[0060] A(z)为实的、稳定的、因果的一阶全通滤波器,其极点b称为全通变换参数。在单位圆上,有A(ejω)=ejθ(ω),其中
[0061]
[0062] 式中ω=2πf/fs,fs为采样率。
[0063] 图5的过程实现了θ:ω→θ(ω)的非线性频率变换。由A(z)的性质可知,实-1现其反变换θ :θ(ω)→ω只要将A(z)的极点改为-b即可。
[0064] 图6a显示了极点b取不同值时θ(ω)与ω之间的关系,可见当b≠0时,二者是非线性关系,对θ(ω)进行均匀通道划分,相当于对ω进行非均匀通道划分。图6b显2 2
示了极点b取不同值时A(z)的群延迟τb(ω)=(1-b)(1-2bcosω+b)随ω和b变化的情况。通过对A(z)的群延迟的分析可知,当b>0时,频率越高群延迟越小,要使 中包含s(k)中的所有ω=π的信息,要求序列s(k)的长度P与A(z)链长度L之间满足:
L≥(1+|b|)P(1-|b|)。而如果只要求 中包含s(k)中的所有ω=0的信息,则只需满足P≥(1+|b|)L(1-|b|)。
[0065] 步骤102,检测每个通道的噪声级得到噪声级数据。
[0066] 通过噪声级检测模块2对K个通道的噪声级进行检测。具体的,利用以下
算法实现:
[0067] 若|Xk(m)|>λ|Nk(m-1)|,则|Nk(m)|=|Nk(m-1)|;
[0068] 若|Xk(m)|≤λ|Nk(m-1)|,则|Nk(m)|=a|Nk(m-1)|+(1-a)|Xk(m)|。
[0069] 其中,|Nk(m)|为第k通道第m帧的噪声幅度估计,|Xk(m)|为含噪信号的幅度。数λ和a可以根据实际情况调整。
[0070] 例如取λ=2,a=exp(-D/(0.2fs)),其中fs为信号x(n)的
采样频率。计算出各个通道信号Xk(m)的噪声估计。
[0071] 对于输入信号为实信号的情况,正、负频率成分是对称的,所以此时噪声级检测模块2实际上只需对第0至K/2通道信号进行处理。
[0072] 步骤103,根据噪声级数据计算得到每个通道的通道增益。
[0073] 采用广义谱减法计算增益计算函数Gk(m),利用以下公式实现:
[0074]
[0075] 其中α≥1称为过减因子,β称为最低衰减参数。参数α,β,γ,δ可以根据实际情况选取,例如取α=2,β=0.002,γ=2,δ=2。
[0076] 同理上一步骤,若输入信号为实信号,增益计算模块3也只需对第0至K/2通道信号进行处理。
[0077] 步骤104,每个通道的通道信号与通道增益的积作为该通道的增益信号。
[0078] 利用乘法器4将通道增益与对应通道的通道信号相乘,得到该通道的增益信号。
[0079] 步骤105,将每个通道的增益信号进行信号综合得到输出信号。
[0080] 经过上一步骤的相乘处理,将得到的每个通道的增益信号通过模拟听觉感知模型的综合滤波器组5综合成一路输出信号y(n)。其中,模拟听觉感知模型的综合滤波器组5通过全通反变换,将全通变换后的频率尺度再变换成原来的频率尺度,如图7所示,具体实现步骤为:
[0081] 步骤701,各通道信号序列 与另一组中心频率调整系数exp(-jmDθ-1(ωk))之积为积信号,其中,ωk=2kπ/K,k=0,...,K-1。
[0082] 步骤702,对积信号进行K点离散傅立叶反变换得到反变换信号。
[0083] 其中,离散傅立叶反变换用
快速傅立叶反变换实现。
[0084] 步骤703,将反变换信号复制L/K次,形成一个长度为L的序列。
[0085] 步骤704,利用综合原型滤波器对序列进行加权处理得到加权信号;
[0086] 步骤705,对加权信号进行全通反变换得到全通反变换信号,其中全通反变换为P-1阶,b为全通反变换参数。
[0087] 其中,P-1阶参数为b的全通反变换可以通过P-1阶参数为-b的全通变换实现。
[0088] 步骤706,将全通反变换信号叠加至长度为P的输出缓存,并将输出缓存的左侧移出D个点作为叠加处理后的信号,同时将输出缓存右侧补充D个零。
[0089] 步骤707,将叠加处理后的信号通过频率响应为一阶全通滤波器A(z)的群延迟的倒数的滤波器,得到输出信号y(n)。
[0090] 例如可以将叠加处理后的信号通过频率响应为1τb(ω)的滤波器,得到最后的输出信号y(n)。
[0091] 步骤106,发送该输出信号。
[0092] 经过上一步骤的滤波处理,最终得到语音增强后的输出信号y(n),并发送输出信号y(n)。
[0093] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何
修改、等同替换、改进等,均应包含在本发明的保护范围之内。