首页 / 专利库 / 电脑编程 / 算法 / 期望最大化算法 / 基于源和室内声学的概率模型的语音去混响方法和设备

基于源和室内声学的概率模型的语音去混响方法和设备

阅读:615发布:2020-10-12

专利汇可以提供基于源和室内声学的概率模型的语音去混响方法和设备专利检索,专利查询,专利分析的服务。并且通过接受用于初始化(1000)的观测 信号 以及执行包括 傅立叶变换 (4000)的似然最大化(2000)来实现语音去混响。,下面是基于源和室内声学的概率模型的语音去混响方法和设备专利的具体信息内容。

1.一种语音去混响设备,包括:
确定最大化似然函数的源信号估计的似然最大化单元,其中参考观 测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声 学环境不确定性的第二方差进行所述确定。
2.根据权利要求1所述的语音去混响设备,其中所述似然函数基 于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变 量所评估的概率密度函数被定义,其中参考源信号估计来定义所述未知 参数,丢失数据的第一随机变量表示室内传递函数的逆滤波器,以及参 考观测信号和初始源信号估计来定义观测数据的第二随机变量。
3.根据权利要求2所述的语音去混响设备,其中所述似然最大化 单元使用迭代优化算法来确定源信号估计。
4.根据权利要求3所述的语音去混响设备,其中所述迭代优化算 法是期望最大化算法
5.根据权利要求1所述的语音去混响设备,其中所述似然最大化 单元进一步包括:
逆滤波器估计单元,其参考观测信号、第二方差、以及初始源信号 估计和更新的源信号估计之一来计算逆滤波器估计;
滤波单元,其将逆滤波器估计应用于观测信号并产生滤波信号;
源信号估计和收敛检验单元,其参考初始源信号估计、第一方差、 第二方差、和滤波信号来计算源信号估计,所述源信号估计和收敛检验 单元进一步确定是否源信号估计的收敛被获得,如果源信号估计的收敛 被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作为去 混响的信号;以及
更新单元,其将所述源信号估计更新为更新的源信号估计,如果源 信号估计的收敛未被获得,所述更新单元进一步提供更新的源信号估计 给逆滤波器估计单元,以及所述更新单元在初始更新步骤中进一步提供 所述初始源信号估计给逆滤波器估计单元。
6.根据权利要求5所述的语音去混响设备,其中所述似然最大化 单元进一步包括:
第一长时傅立叶变换单元,其执行波形观测信号到变换后的观测信 号的第一长时傅立叶变换,该第一长时傅立叶变换单元进一步将变换后 的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;
LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的 LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信 号作为滤波信号提供给源信号估计和收敛检验单元;
STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计 的STFS到LTFS变换,如果源信号估计的收敛未被获得,该STFS到LTFS 变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单 元;
第二长时傅立叶变换单元,其执行波形初始源信号估计到第一变换 初始源信号估计的第二长时傅立叶变换,该第二长时傅立叶变换进一步 将第一变换初始源信号估计作为初始源信号估计提供给更新单元;以及
短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始 源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变 换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验 单元。
7.根据权利要求1所述的语音去混响设备,进一步包括:
执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时 傅立叶变换单元。
8.根据权利要求1所述的语音去混响设备,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差的初始 化单元。
9.根据权利要求8所述的语音去混响设备,其中所述初始化单元 进一步包括:
基频估计单元,其估计来自变换后的信号的每个短时间的基频和 发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信 号;以及
源信号不确定性确定单元,其基于所述基频和发声量度确定第一方 差。
10.根据权利要求1所述的语音去混响设备,进一步包括:
初始化单元,其基于观测信号产生初始源信号估计、第一方差、和 第二方差;和
收敛检验单元,其从似然最大化单元接收源信号估计,该收敛检验 单元确定是否源信号估计的收敛被获得,如果获得源信号估计的收敛, 则所述收敛检验单元进一步输出源信号估计作为去混响的信号,并且如 果未获得源信号估计的收敛,则所述收敛检验单元进一步提供源信号估 计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信 号估计、第一方差、和第二方差。
11.根据权利要求10所述的语音去混响设备,其中所述初始化单 元进一步包括:
第二短时傅立叶变换单元,其执行观测信号到第一变换观测信号的 第二短时傅立叶变换;
第一选择单元,其执行第一选择操作以产生第一选择输出以及第二 选择操作以产生第二选择输出,第一和第二选择操作是相互独立的,当 所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计 的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择 输出,而当所述第一选择单元接收第一变换观测信号和源信号估计的输 入时,第一选择操作用于选择第一变换观测信号和源信号估计之一作为 第一选择输出,当所述第一选择单元接收第一变换观测信号的输入而不 接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信 号作为第二选择输出,而当所述第一选择单元接收第一变换观测信号和 源信号估计的输入时,第二选择操作用于选择第一变换观测信号和源信 号估计之一作为第二选择输出;
基频估计单元,其接收第二选择输出并估计来自第二选择输出的每 个短时间帧的基频和发声量度;以及
自适应谐波滤波单元,其接收第一选择输出、基频和发声量度,该 自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结 构以产生初始源信号估计。
12.根据权利要求10所述的语音去混响设备,其中所述初始化单 元进一步包括:
第三短时傅立叶变换单元,其执行观测信号到第二变换观测信号的 第三短时傅立叶变换;
第二选择单元,其执行第三选择操作以产生第三选择输出,当所述 第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任 何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输 出,而当所述第二选择单元接收第二变换观测信号和源信号估计的输入 时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第 三选择输出;
基频估计单元,其接收第三选择输出并估计来自第三选择输出的每 个短时间帧的基频和发声量度;以及
源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
13.根据权利要求10所述的语音去混响设备,进一步包括:
逆短时傅立叶变换单元,如果获得源信号估计的收敛,则所述逆短 时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶 变换。
14.一种语音去混响设备,包括:
确定最大化似然函数的逆滤波器估计的似然最大化单元,其中参考 观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示 声学环境不确定性的第二方差进行所述确定。
15.根据权利要求14所述的语音去混响设备,其中所述似然函数 基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量 所评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参 数,参考室内传递函数的逆滤波器来定义第二未知参数,参考观测信号 和初始源信号估计来定义观测数据的第一随机变量,逆滤波器估计是室 内传递函数的逆滤波器的估计。
16.根据权利要求15所述的语音去混响设备,其中所述似然最大 化单元使用迭代优化算法来确定逆滤波器估计。
17.根据权利要求14所述的语音去混响设备,进一步包括:
将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应 用单元。
18.根据权利要求17所述的语音去混响设备,其中所述逆滤波器 估计应用单元进一步包括:
第一逆长时傅立叶变换单元,其执行逆滤波器估计到变换后的逆滤 波器估计的第一逆长时傅立叶变换;以及
卷积单元,其接收变换后的逆滤波器估计和观测信号,以及将观测 信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
19.根据权利要求17所述的语音去混响设备,其中所述逆滤波器 应用单元进一步包括:
第一长时傅立叶变换单元,其执行观测信号到变换后的观测信号的 第一长时傅立叶变换;
第一滤波单元,其将逆滤波器估计应用于变换后的观测信号,以及 产生滤波源信号估计;和
第二逆长时傅立叶变换单元,其执行滤波源信号估计到源信号估计 的第二逆长时傅立叶变换。
20.根据权利要求14所述的语音去混响设备,其中所述似然最大 化单元进一步包括:
逆滤波器估计单元,其参考观测信号、第二方差、以及初始源信号 估计和更新的源信号估计之一计算逆滤波器估计;
收敛检验单元,其确定是否逆滤波器估计的收敛被获得,如果获得 源信号估计的收敛,该收敛检验单元进一步输出逆滤波器估计作为将要 对所述观测信号进行去混响的滤波器,
滤波单元,如果未获得源信号估计的收敛,该滤波单元从所述收敛 检验单元接收逆滤波器估计,该滤波单元进一步将逆滤波器估计应用于 观测信号并产生滤波信号;
源信号估计单元,其参考初始源信号估计、第一方差、第二方差、 和滤波信号计算源信号估计;
更新单元,其将源信号估计更新为更新的源信号估计,该更新单元 进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元,该 更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信 号估计给逆滤波器估计单元。
21.根据权利要求20所述的语音去混响设备,其中所述似然最大 化单元进一步包括:
第二长时傅立叶变换单元,其执行波形观测信号到变换后的观测信 号的第二长时傅立叶变换,该第二长时傅立叶变换单元进一步将变换后 的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;
LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的 LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信 号作为滤波信号提供给源信号估计单元;
STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计 的STFS到LTFS变换,该STFS到LTFS变换单元进一步将变换后的源信 号估计作为源信号估计提供给更新单元;
第三长时傅立叶变换单元,其执行波形初始源信号估计到第一变换 初始源信号估计的第三长时傅立叶变换,该第三长时傅立叶变换单元进 一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元; 以及
短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始 源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变 换初始源信号估计作为初始源信号估计提供给源信号估计单元。
22.根据权利要求14所述的语音去混响设备,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差的初始 化单元。
23.根据权利要求22所述的语音去混响设备,其中所述初始化单 元进一步包括:
基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和 发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信 号;以及
源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
24.一种语音去混响方法,包括:
确定最大化似然函数的源信号估计,其中参考观测信号、初始源信 号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的 第二方差进行所述确定。
25.根据权利要求24所述的语音去混响方法,其中所述似然函数 基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机 变量所评估的概率密度函数被定义,其中参考源信号估计来定义未知参 数,丢失数据的第一随机变量表示室内传递函数的逆滤波器,参考观测 信号和初始源信号估计来定义观测数据的第二随机变量。
26.根据权利要求25所述的语音去混响方法,其中使用迭代优化 算法来确定源信号估计。
27.根据权利要求26所述的语音去混响方法,其中所述迭代优化 算法是期望最大化算法。
28.根据权利要求24所述的语音去混响方法,其中确定源信号估 计进一步包括:
参考观测信号、第二方差、以及初始源信号估计和更新的源信号估 计之一计算逆滤波器估计;
将逆滤波器估计应用于观测信号,以产生滤波信号;
参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信 号估计;
确定是否源信号估计的收敛被获得;
如果获得源信号估计的收敛,则输出源信号估计作为去混响的信 号;以及
如果未获得源信号估计的收敛,则将源信号估计更新为更新的源信 号估计。
29.根据权利要求28所述的语音去混响方法,其中确定源信号估 计进一步包括:
执行波形观测信号到变换后的观测信号的第一长时傅立叶变换;
执行滤波信号到变换后的滤波信号的LTFS到STFS变换;
如果未获得源信号估计的收敛,执行源信号估计到变换后的源信号 估计的STFS到LTFS变换;
执行波形初始源信号估计到第一变换初始源信号估计的第二长时 傅立叶变换;以及
执行波形初始源信号估计到第二变换初始源信号估计的短时傅立 叶变换。
30.根据权利要求24所述的语音去混响方法,进一步包括:
执行源信号估计到波形源信号估计的逆短时傅立叶变换。
31.根据权利要求24所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差。
32.根据权利要求31所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括:
估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通 过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
基于所述基频和发声量度确定第一方差。
33.根据权利要求24所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差;
确定是否源信号估计的收敛被获得;
如果获得源信号估计的收敛,则输出源信号估计作为去混响的信 号;以及
如果未获得源信号估计的收敛,则返回到产生初始源信号估计、第 一方差、和第二方差。
34.根据权利要求33所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括:
执行观测信号到第一变换观测信号的第二短时傅立叶变换;
执行第一选择操作以产生第一选择输出,当接收第一变换观测信号 的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一 变换观测信号作为第一选择输出,当接收第一变换观测信号和源信号估 计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之 一作为第一选择输出;
执行第二选择操作以产生第二选择输出,当接收第一变换观测信号 的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一 变换观测信号作为第二选择输出,当接收第一变换观测信号和源信号估 计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之 一作为第二选择输出;
估计来自第二选择输出的每个短时间帧的基频和发声量度;以及
基于基频和发声量度增强第一选择输出的谐波结构以产生初始源 信号估计。
35.根据权利要求33所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括:
执行观测信号到第二变换观测信号的第三短时傅立叶变换;
执行第三选择操作以产生第三选择输出,当接收第二变换观测信号 的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二 变换观测信号作为第三选择输出,当接收第二变换观测信号和源信号估 计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之 一作为第三选择输出;
估计来自第三选择输出的每个短时间帧的基频和发声量度;以及
基于所述基频和发声量度确定第一方差。
36.根据权利要求33所述的语音去混响方法,进一步包括:
如果获得源信号估计的收敛,则执行源信号估计到波形源信号估计 的逆短时傅立叶变换。
37.一种语音去混响方法,包括:
确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源 信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性 的第二方差进行所述确定。
38.根据权利要求37所述的语音去混响方法,其中所述似然函数 基于根据第一未知参数、第二未知参数、和观测数据的第一随机变量所 评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参 数,参考室内传递函数的逆滤波器来定义第二未知参数,以及参考观测 信号和初始源信号估计来定义观测数据的第一随机变量,所述逆滤波器 估计是室内传递函数的逆滤波器的估计。
39.根据权利要求38所述的语音去混响方法,其中使用迭代优化 算法来确定逆滤波器估计。
40.根据权利要求37所述的语音去混响方法,进一步包括:
将逆滤波器估计应用于观测信号以产生源信号估计。
41.根据权利要求40所述的语音去混响方法,其中将逆滤波器估 计应用于观测信号进一步包括:
执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶 变换;以及
将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
42.根据权利要求40所述的语音去混响方法,其中将逆滤波器估计 应用于观测信号进一步包括:
执行观测信号到变换后的观测信号的第一长时傅立叶变换;
将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计; 以及
执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
43.根据权利要求37所述的语音去混响方法,其中确定逆滤波器 估计进一步包括:
参考观测信号、第二方差、以及初始源信号估计和更新的源信号估 计之一计算逆滤波器估计;
确定是否逆滤波器估计的收敛被获得;
如果获得源信号估计的收敛,则输出逆滤波器估计作为将要对所述 观测信号进行去混响的滤波器;
如果未获得源信号估计的收敛,则将逆滤波器估计应用于观测信号 以产生滤波信号;
参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信 号估计;以及
将源信号估计更新为更新的源信号估计。
44.根据权利要求43所述的语音去混响方法,其中确定逆滤波器 估计进一步包括:
执行波形观测信号到变换后的观测信号的第二长时傅立叶变换;
执行滤波信号到变换后的滤波信号的LTFS到STFS变换;
执行源信号估计到变换后的源信号估计的STFS到LTFS变换;
执行波形初始源信号估计到第一变换初始源信号估计的第三长时 傅立叶变换;以及
执行波形初始源信号估计到第二变换初始源信号估计的短时傅立 叶变换。
45.根据权利要求37所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差。
46.根据权利要求45所述的语音去混响方法,其中产生初始源信 号估计、第一方差、和第二方差进一步包括:
估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通 过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
基于所述基频和发声量度确定第一方差。
47.一种程序,该程序要通过计算机来执行以执行语音去混响方法, 该方法包括:
确定最大化似然函数的源信号估计,其中参考观测信号、初始源信 号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的 第二方差进行所述确定。
48.一种程序,该程序要通过计算机来执行以执行语音去混响方法, 该方法包括:
确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源 信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性 的第二方差进行所述确定。
49.一种存储介质,其存储要通过计算机来执行以执行语音去混响 方法的程序,该方法包括:
确定最大化似然函数的源信号估计,其中参考观测信号、初始源信 号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的 第二方差进行所述确定。
50.一种存储介质,其存储要通过计算机来执行以执行语音去混响 方法的程序,该方法包括:
确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源 信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性 的第二方差进行所述确定。

说明书全文

技术领域

发明通常涉及用于语音去混响的方法和设备。更具体而言,本发 明涉及基于源和室内声学的概率模型的语音去混响方法和设备

背景技术

以下在本申请中将被引用或标识的所有专利、专利申请、专利公开、 科学文献等等将在此以其整体被包含作为参考以便更全面地描述本发 明所属技术领域的状态。
在普通室内通过远距离麦克捕获的语音信号不可避免地包含混 响,这对于语音信号感知质量和清晰度具有有害的影响并且使自动语 音识别(ASR)系统的性能降低。当混响时间长于0.5秒时,甚至当使 用已经在匹配的混响条件下被训练的声学模型时,不能够提高识别性 能。这在B.Kingsbury和N.Morgan的“Recognizing reverberant speech with rasta-plp”(Proc.1997 IEEE International Conference Acoustic Speech and Signal Processing(ICASSP-97),Vol.2,第1259-1262 页,1997年)中被公开。语音信号的去混响无论对于高质量记录和重放 或对于自动语音识别(ASR)都是必需的。
尽管语音信号的盲去混响仍是有挑战性的问题,但是近来已经提出 若干技术。已经提出将观测信号去相关同时在信号的短时间段内保持相 关性的技术。这由B.W.Gillespie和L.E.Atlas的“Strategies for improving audible quality and speech recognition accuracy of reverberant speech”(Proc.2003 IEEE International Conference Acoustics,Speech and Signal Processing(ICASSP-2003),Vol.1, 第676-679页,2003年)公开。这还由H.Buchner、R.Aichner、和 W.Kellemann的“Trinicon:a versatile framework for multichannel blind signal processing”(Proc.of the 2004 IEEE International Conference Acoustics,Speech and Signal Processing(ICASSP-2004), Vol.III,第889-892页,2004年5月)公开。
已经提出用于估计和均衡室内的声响应中的极点的方法。这由 T.Hikichi和M.Miyoshi的“Blind algorithm for calculating common poles based on linear prediction”(Proc.of the 2004 IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP 2004),Vol.IV,第89-92页,2004年5月)公 开。这还由J.R.Hopgood和P.J.W.Rayner的“Blind single channel deconvolution using nonstationary signal processing”(IEEE Transactions Speech and Audio processing,vol.11,no.5,第467-488 页,2003年9月)公开。
而且,已经提出基于语音信号的本质特征的两种方法,即在下文中 被称为HERB的基于调和性的去混响、和在下文中被称为SBD的基于稀 疏性的去混响。  HERB由T.Nakatani和M.Miyoshi的“Blind dereverberation of single channel speech signal based on harmonic structure”(Proc.ICASSP-2003,vol.1,第92-95页,2003年4月) 公开。首次出版第2004-274234号的日本未审查专利申请公开了用于 HERB的传统技术的一个实例。SBD由K.Kinoshita、T.Nakatani和 M.Miyoshi的“Efficient blind dereverberation framework for automatic speech recognition”(Proc.Interspeech-2005,2005年 9月)公开。
这些方法广泛使用源信号的初始估计中的各语音特征。然后,初始 源信号估计和观测到的混响信号被一起用于估计用于去混响的逆滤波 器,这允许进一步改进源信号估计。为了获得初始源信号估计,HERB利 用自适应谐波滤波器,以及SBD利用基于最小统计的频谱相减。在实验 上已经显示:如果信号足够长,这些方法大大地提高观测到的混响信号 的ASR性能。
鉴于上述内容,本领域普通技术人员从本公开内容将会明白存在对 用于语音去混响的改进设备和/或方法的需要。本发明解决本领域中的 这种需要以及其他需要,这对于本领域普通技术人员来说根据本公开内 容将会变得显而易见。

发明内容

相应地,本发明的主要目的是提供语音去混响设备。
本发明的另一个目的是提供语音去混响方法。
本发明的再一个目的是提供将通过计算机执行的用于执行语音去 混响方法的程序。
本发明的又一个目的是提供存储将通过计算机执行的用于执行语 音去混响方法的程序的存储介质。
根据本发明的第一方面,语音去混响设备包括确定最大化似然函数 的源信号估计的似然最大化单元。参考观测信号、初始源信号估计、表 示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进 行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第一随机 变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考 源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函 数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二 随机变量。
上述似然最大化单元可以优选地使用迭代优化算法来确定源信号 估计。迭代优化算法可以优选地是期望最大化算法
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、滤波 单元、源信号估计和收敛检验单元、以及更新单元。所述逆滤波器估计 单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估 计之一计算逆滤波器估计。滤波单元将逆滤波器估计应用于观测信号, 并且产生滤波信号。源信号估计和收敛检验单元参考初始源信号估计、 第一方差、第二方差、和滤波信号计算源信号估计。源信号估计和收敛 检验单元进一步确定是否源信号估计的收敛被获得。如果源信号估计的 收敛被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作 为去混响的信号。所述更新单元将源信号估计更新为更新的源信号估 计。如果源信号估计的收敛未被获得,则所述更新单元进一步提供更新 的源信号估计给逆滤波器估计单元。该更新单元进一步在初始更新步骤 中提供初始源信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第一长时傅立叶变换单 元、LTFS到STFS变换单元、STFS到LTFS变换单元、第二长时傅立叶 变换单元、和短时傅立叶变换单元。第一长时傅立叶变换单元执行波形 观测信号到变换后的观测信号的第一长时傅立叶变换。第一长时傅立叶 变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估 计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤 波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的 滤波信号作为滤波信号提供给源信号估计和收敛检验单元。STFS到LTFS 变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。 如果源信号估计的收敛未被获得,则STFS到LTFS变换单元进一步将变 换后的源信号估计作为源信号估计提供给更新单元。第二长时傅立叶变 换单元执行波形初始源信号估计到第一变换初始源信号估计的第二长 时傅立叶变换。第二长时傅立叶变换进一步将第一变换初始源信号估计 作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初 始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立 叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提 供给源信号估计和收敛检验单元。
所述语音去混响设备可以进一步包括但不限于执行源信号估计到 波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生 初始源信号估计、第一方差、和第二方差的初始化单元。在这种情况下, 初始化单元可以进一步包括但不限于基频估计单元和源信号不确定性 确定单元。基频估计单元估计来自变换后的信号的每个短时间的基频 和发声量度(voicing measure),其中通过观测信号的短时傅立叶变 换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声 量度确定第一方差。
所述语音去混响设备可以进一步包括但不限于初始化单元、和收敛 检验单元。初始化单元基于观测信号产生初始源信号估计、第一方差、 和第二方差。收敛检验单元从似然最大化单元接收源信号估计。收敛检 验单元确定是否源信号估计的收敛被获得。如果获得源信号估计的收 敛,则所述收敛检验单元进一步输出源信号估计作为去混响的信号。如 果未获得源信号估计的收敛,则收敛检验单元进一步提供源信号估计给 初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估 计、第一方差、和第二方差。
在最后描述的情况下,初始化单元可以进一步包括但不限于第二短 时傅立叶变换单元、第一选择单元、基频估计单元、和自适应谐波滤波 单元。第二短时傅立叶变换单元执行观测信号到第一变换观测信号的第 二短时傅立叶变换。第一选择单元执行第一选择操作以产生第一选择输 出以及第二选择操作以产生第二选择输出。第一和第二选择操作是相互 独立的。当第一选择单元接收第一变换观测信号的输入而不接收源信号 估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一 选择输出。当第一选择单元接收第一变换观测信号和源信号估计的输入 时,第一选择操作还用于选择第一变换观测信号和源信号估计之一作为 第一选择输出。当第一选择单元接收第一变换观测信号的输入而不接收 源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作 为第二选择输出。当第一选择单元接收第一变换观测信号和源信号估计 的输入时,第二选择操作还用于选择第一变换观测信号和源信号估计之 一作为第二选择输出。基频估计单元接收第二选择输出。基频估计单元 还估计来自第二选择输出的每个短时间帧的基频和发声量度。自适应谐 波滤波单元接收第一选择输出、基频和发声量度。自适应谐波滤波单元 基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号 估计。
初始化单元可以进一步包括但不限于第三短时傅立叶变换单元、第 二选择单元、基频估计单元、和源信号不确定性确定单元。第三短时傅 立叶变换单元执行观测信号到第二变换观测信号的第三短时傅立叶变 换。第二选择单元执行第三选择操作以产生第三选择输出。当第二选择 单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时, 第三选择操作用于选择第二变换观测信号作为第三选择输出。当第二选 择单元接收第二变换观测信号和源信号估计的输入时,第三选择操作还 用于选择第二变换观测信号和源信号估计之一作为第三选择输出。基频 估计单元接收第三选择输出。基频估计单元估计来自第三选择输出的每 个短时间帧的基频和发声量度。源信号不确定性确定单元基于基频和发 声量度确定第一方差。
所述语音去混响设备可以进一步包括但不限于逆短时傅立叶变换 单元,如果获得源信号估计的收敛,则该逆短时傅立叶变换单元执行源 信号估计到波形源信号估计的逆短时傅立叶变换。
根据本发明的第二方面,语音去混响设备包括确定最大化似然函数 的逆滤波器估计的似然最大化单元。参考观测信号、初始源信号估计、 表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差 进行所述确定。
似然函数可以优选地基于根据第一未知参数、第二未知参数、以及 观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估 计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知 参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变 量。逆滤波器估计是室内传递函数的逆滤波器的估计。
似然最大化单元可以优选地使用迭代优化算法来确定逆滤波器估 计。
所述语音去混响设备可以进一步包括但不限于将逆滤波器估计应 用于观测信号并产生源信号估计的逆滤波器应用单元。
该逆滤波器应用单元可以进一步包括但不限于第一逆长时傅立叶 变换单元、和卷积单元。第一逆长时傅立叶变换单元执行逆滤波器估计 到变换后的逆滤波器估计的第一逆长时傅立叶变换。卷积单元接收变换 后的逆滤波器估计和观测信号。卷积单元将观测信号与变换后的逆滤波 器估计进行卷积以产生源信号估计。
该逆滤波器应用单元可以进一步包括但不限于第一长时傅立叶变 换单元、第一滤波单元、和第二逆长时傅立叶变换单元。第一长时傅立 叶变换单元执行观测信号到变换后的观测信号的第一长时傅立叶变换。 第一滤波单元将逆滤波器估计应用于变换后的观测信号。第一滤波单元 产生滤波源信号估计。第二逆长时傅立叶变换单元执行滤波源信号估计 到源信号估计的第二逆长时傅立叶变换。
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、收敛 检验单元、滤波单元、源信号估计单元、和更新单元。逆滤波器估计单 元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计 之一计算逆滤波器估计。收敛检验单元确定是否逆滤波器估计的收敛被 获得。如果获得源信号估计的收敛,收敛检验单元进一步输出逆滤波器 估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估 计的收敛,滤波单元从收敛检验单元接收逆滤波器估计。滤波单元进一 步将逆滤波器估计应用于观测信号。滤波单元进一步产生滤波信号。源 信号估计单元参考初始源信号估计、第一方差、第二方差、和滤波信号 计算源信号估计。更新单元将源信号估计更新为更新的源信号估计。更 新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波估计单 元。更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源 信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第二长时傅立叶变换单 元、LTFS到STFS变换单元、STFS到LTFS变换单元、第三长时傅立叶 变换单元、和短时傅立叶变换单元。第二长时傅立叶变换单元执行波形 观测信号到变换后的观测信号的第二长时傅立叶变换。第二长时傅立叶 变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估 计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤 波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的 滤波信号作为滤波信号提供给源信号估计单元。STFS到LTFS变换单元 执行源信号估计到变换后的源信号估计的STFS到LTFS变换。STFS到 LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更 新单元。第三长时傅立叶变换单元执行波形初始源信号估计到第一变换 初始源信号估计的第三长时傅立叶变换。第三长时傅立叶变换单元进一 步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短 时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估 计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信 号估计作为初始源信号估计提供给源信号估计单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生 初始源信号估计、第一方差、和第二方差的初始化单元。
所述初始化单元可以进一步包括但不限于基频估计单元、和源信号 不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间 帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述 变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一 方差。
根据本发明的第三方面,语音去混响方法包括确定最大化似然函数 的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性 的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第一随机 变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考 源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函 数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二 随机变量。
可以优选地使用迭代优化算法来确定源信号估计。该迭代优化算法 可以优选地是期望最大化算法。
用于确定源信号估计的过程可以进一步包括但不限于以下过程。参 考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一 计算逆滤波器估计。将该逆滤波器估计应用于观测信号,以产生滤波信 号。参考初始源信号估计、第一方差、第二方差、和滤波信号来计算所 述源信号估计。确定是否源信号估计的收敛被获得。如果获得源信号估 计的收敛,则输出源信号估计作为去混响的信号。如果未获得源信号估 计的收敛,则将源信号估计更新为更新的源信号估计。
用于确定源信号估计的过程可以进一步包括但不限于以下过程。执 行第一长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执 行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。如果未获 得源信号估计的收敛,则执行STFS到LTFS变换以将源信号估计变换为 变换后的源信号估计。执行第二长时傅立叶变换以将波形初始源信号估 计变换为第一变换初始源信号估计。执行短时傅立叶变换以将波形初始 源信号估计变换为第二变换初始源信号估计。
所述语音去混响方法可以进一步包括但不限于执行源信号估计到 波形源信号估计的逆短时傅立叶变换。
所述语音去混响方法可以进一步包括但不限于基于观测信号产生 初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方 差可以进一步包括但不限于以下过程。估计来自变换后的信号的每个短 时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定 所述变换后的信号。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于以下过程。基于观测 信号产生初始源信号估计、第一方差、和第二方差。确定是否源信号估 计的收敛被获得。如果获得源信号估计的收敛,则输出源信号估计作为 去混响的信号。如果未获得源信号估计的收敛,则该过程将返回产生初 始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方 差可以进一步包括但不限于以下过程。执行第二短时傅立叶变换以将观 测信号变换为第一变换观测信号。执行第一选择操作以产生第一选择输 出。当接收第一变换观测信号的输入而不接收源信号估计的任何输入 时,第一选择操作用于选择第一变换观测信号作为第一选择输出。当接 收第一变换观测信号和源信号估计的输入时,第一选择操作用于选择第 一变换观测信号和源信号估计之一作为第一选择输出。执行第二选择操 作以产生第二选择输出。当接收第一变换观测信号的输入而不接收源信 号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第 二选择输出。当接收第一变换观测信号和源信号估计的输入时,第二选 择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输 出。估计来自第二选择输出的每个短时间帧的基频和发声量度。基于基 频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
产生初始源信号估计、第一方差、和第二方差可以进一步包括但不 限于以下过程。执行第三短时傅立叶变换以将观测信号变换为第二变换 观测信号。执行第三选择操作以产生第三选择输出。当接收第二变换观 测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选 择第二变换观测信号作为第三选择输出。当接收第二变换观测信号和源 信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号 估计之一作为第三选择输出。估计来自第三选择输出的每个短时间帧的 基频和发声量度。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于:如果获得源信号估 计的收敛,则执行源信号估计到波形源信号估计的逆短时傅立叶变换。
根据本发明的第四方面,语音去混响方法包括确定最大化似然函数 的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定 性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据第一未知参数、第二未知参数、 观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估 计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知 参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变 量。逆滤波器估计是室内传递函数的逆滤波器的估计。
可以优选地使用迭代优化算法来确定逆滤波器估计。
所述语音去混响方法可以进一步包括但不限于将逆滤波器估计应 用于观测信号以产生源信号估计。
在一种情况下,最后描述的用于将逆滤波器估计应用于观测信号的 过程可以进一步包括但不限于以下过程。执行第一逆长时傅立叶变换以 将逆滤波器估计变换为变换后的逆滤波器估计。将观测信号与变换后的 逆滤波器估计进行卷积以产生源信号估计。
在另一种情况下,最后描述的用于将逆滤波器估计应用于观测信号 的过程可以进一步包括但不限于以下过程。执行第一长时傅立叶变换以 将观测信号变换为变换后的观测信号。将逆滤波器估计应用于变换后的 观测信号以产生滤波源信号估计。执行第二逆长时傅立叶变换以将滤波 源信号估计变换为源信号估计。
在再一种情况下,确定逆滤波器估计可以进一步包括但不限于以下 过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号 估计之一计算逆滤波器估计。确定是否逆滤波器估计的收敛被获得。如 果获得源信号估计的收敛,则输出逆滤波器估计作为将对所述观测信号 进行去混响的滤波器。如果未获得源信号估计的收敛,则将逆滤波器估 计应用于观测信号以产生滤波信号。参考初始源信号估计、第一方差、 第二方差、和滤波信号计算源信号估计。将源信号估计更新为更新的源 信号估计。
在最后描述的情况下,用于确定逆滤波器估计的过程可以进一步包 括但不限于以下过程。执行第二长时傅立叶变换以将波形观测信号变换 为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换 后的滤波信号。执行STFS到LTFS变换以将源信号估计变换为变换后的 源信号估计。执行第三长时傅立叶变换以将波形初始源信号估计变换为 第一变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估 计变换为第二变换初始源信号估计。
所述语音去混响方法可以进一步包括但不限于基于观测信号产生 初始源信号估计、第一方差、和第二方差。
在一种情况下,最后描述的用于产生初始源信号估计、第一方差、 和第二方差的过程可以进一步包括但不限于以下过程。估计来自变换后 的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅 立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一 方差。
根据本发明的第五方面,要通过计算机执行的用于执行语音去混响 方法的程序,所述方法包括确定最大化似然函数的源信号估计。参考观 测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声 学环境不确定性的第二方差进行所述确定。
根据本发明的第六方面,要通过计算机执行的用于执行语音去混响 方法的程序,所述方法包括确定最大化似然函数的逆滤波器估计。参考 观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示 声学环境不确定性的第二方差进行所述确定。
根据本发明的第七方面,存储介质存储要通过计算机执行的用于执 行语音去混响方法的程序,所述方法包括确定最大化似然函数的源信号 估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方 差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第八方面,存储介质存储要通过计算机执行的用于执 行语音去混响方法的程序,所述方法包括确定最大化似然函数的逆滤波 器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一 方差、和表示声学环境不确定性的第二方差进行所述确定。
根据以下结合附图进行的详细描述,本发明的这些和其他目的、特 征、方面和优点对于本领域普通技术人员来说将会变得显而易见,所述 附图图示本发明的实施例

附图说明

现在参考形成本原始公开内容的一部分的附图:
图1是图示在本发明的第一实施例中基于源和室内声学的概率模型 的语音去混响设备的方框图
图2是图示包括在图1中所示的语音去混响设备中的似然最大化单 元的配置的方框图;
图3A是图示包括在图2中所示的似然最大化单元中的STFS到LTFS 变换单元的配置的方框图;
图3B是图示包括在图2中所示的似然最大化单元中的LTFS到STFS 变换单元的配置的方框图;
图4A是图示包括在图2中所示的似然最大化单元中的长时傅立叶 变换单元的配置的方框图;
图4B是图示包括在图3B中所示的LTFS到STFS变换单元中的逆长 时傅立叶变换单元的配置的方框图;
图5A是图示包括在图3B中所示的LTFS到STFS变换单元中的短时 傅立叶变换单元的配置的方框图;
图5B是图示包括在图3A中所示的STFS到LTFS变换单元中的逆短 时傅立叶变换单元的配置的方框图;
图6是图示包括在图1中所示的初始化单元中的初始源信号估计单 元的配置的方框图;
图7是图示包括在图1中所示的初始化单元中的源信号不确定性确 定单元的配置的方框图;
图8是图示包括在图1中所示的初始化单元中的声学环境不确定性 确定单元的配置的方框图;
图9是图示根据本发明第二实施例的另一种语音去混响设备的配置 的方框图;
图10是图示包括在图9中所示的初始化单元中的修改的初始源信 号估计单元的配置的方框图;
图11是图示包括在图9中所示的初始化单元中的修改的源信号不 确定性确定单元的配置的方框图;
图12是图示根据本发明第三实施例的又一种语音去混响设备的配 置的方框图;
图13是图示包括在图12中所示的语音去混响设备中的似然最大化 单元的配置的方框图;
图14是图示包括在图12中所示的语音去混响设备中的逆滤波器应 用单元的配置的方框图;
图15是图示包括在图12中所示的语音去混响设备中的另一个逆滤 波器应用单元的配置的方框图;
图16A图示当女人说话时在RT60=1.0秒的能量衰减曲线;
图16B图示当女人说话时在RT60=0.5秒的能量衰减曲线;
图16C图示当女人说话时在RT60=0.2秒的能量衰减曲线;
图16D图示当女人说话时在RT60=0.1秒的能量衰减曲线;
图16E图示当男人说话时在RT60=1.0秒的能量衰减曲线;
图16F图示当男人说话时在RT60=0.5秒的能量衰减曲线;
图16G图示当男人说话时在RT60=0.2秒的能量衰减曲线;以及
图16H图示当男人说话时在RT60=0.1秒的能量衰减曲线。

具体实施方式

根据本发明的一个方面,提供单声道语音去混响方法,其中源信号 和室内声学的特征通过概率密度函数(pdf)表示以及通过最大化基于 概率密度函数(pdf)定义的似然函数来估计源信号。基于两种基本语 音信号特征、即调和性和稀疏性,两种类型的概率密度函数(pdf)被 引入用于源信号,同时基于逆滤波操作来定义室内声学的概率密度函数 (pdf)。期望最大化(EM)算法被用于有效地解决最大似然问题。所 产生的算法通过经由期望最大化(EM)迭代将其源信号特征与室内声学 特征结合来精心制作仅仅基于其源信号特征所给定的初始源信号估计。 用去混响脉冲响应的能量衰减曲线来显示本方法的有效性。
尽管上述的HERB和SBD在获得去混响滤波器中有效地利用语音信 号特征,但是它们并不提供能够优化其性能的分析构架。根据本发明的 一个方面,上述的HERB和SBD被重新用公式表示为最大似然(ML)估 计问题,其中源信号被确定为在给定观测信号的情况下最大化似然函数 的信号。为此目的,两个概率密度函数(pdf)被引入用于初始源信号 估计和去混响滤波器,以便基于期望最大化(EM)算法最大化似然函数。 实验结果显示:在给定相同数量的观测信号的情况下在去混响脉冲响应 的能量衰减曲线方面能够进一步提高HERB和SBD的性能。以下描述将 针对在本发明的一个方面中使用的傅立叶频谱。
短时傅立叶频谱和长时傅立叶频谱
本发明的一个方面将合并有关考虑源特性的语音信号特征和有关 考虑混响效果的室内声学特征的信息。大约几十毫秒的短时间帧的相继 应用对于分析这样的随时间变化的语音特征可能是有用的,而通常可能 需要大约几千毫秒的相对长的时间帧来计算室内声学特征。本发明的一 个方面将引入基于这两种分析帧的两种类型的傅立叶频谱、即在下文中 被称为“STFS”的短时傅立叶频谱和在下文中被称为“LTFS”的长时傅 立叶频谱。STFS和LTFS中的各频率分量通过具有尾标“(r)”的符号被 表示为以及通过另一个不具有尾标的符号被表示为sl,k′,其中sl,k′的l 是用于LTFS的长时间帧的索引,k′是用于LTFS的频率索引,的l 是包括用于STFS的短时间帧的长时间帧的索引,的m是包括在长时 间帧中的短时间帧的索引,以及的k是用于STFS的频率索引。短时 间帧能够被视为长时间帧的组成部分。所以,STFS中的频率分量具有两 个下标l和m。两个频谱被如下定义:
s l , m , k ( τ ) = 1 / K ( τ ) Σ n = 0 K ( τ ) - 1 g ( τ ) [ n ] s [ t l , m + n ] e - j 2 πkn / K ( τ ) ,
s l , m = 1 / K Σ n = 0 K - 1 g [ n ] s [ t l + n ] e - j 2 πkn / K , - - - ( 1 )
其中s[n]是数字化波形信号,g(r)[n]和g[n]、K (r)和K、以及tl,m和tl分别是 窗函数、离散傅立叶变换(DFT)点的数量、和用于STFS和LTFS的时 间索引。设置tl,m和tl之间的关系为对于m=0到M-1,tl,m=tl+mτ,其 中τ是相继的短时间帧之间的帧移。此外,引入以下归一化条件:
K=κK(τ),
g [ n ] = k Σ m = 0 M - 1 g ( τ ) [ n - ] , - - - ( 2 )
其中K是整数常量。利用该条件,在STFS,和LTFS,sl,k′之间保持 以下方程,其中K′=кK:
s l , k = Σ m = 0 M - 1 s l , m , k ( τ ) η - m ,
其中 η = e j 2 πkτ / K ( τ ) . 定义逆操作,通过LSm,k{*}来表示,该逆操作将由{sl,k′}l所 表示的在长时间帧l的一组LTFS仓sl,k′(k′=1-K)变换为在短时间帧m 和频率索引k的STFS仓(bin):
s l , m , k ( T ) = LS m , k { { s l , k } l } .
通过级联逆长时傅立叶变换和短时傅立叶变换能够实现这种变换。 显然,LSm,k{*}是线性操作符。
信号的三种类型的表示、即波形数字化信号、短时傅立叶频谱 (STFS)和长时傅立叶频谱(LTFS)包含相同的信息,并且能够使用已 知的变换在无任何主要信息丢失的情况下从一种类型被变换到另一种 类型。
源和室内声学的概率模型
定义以下术语:
观测到的混响信号的STFS
未知源信号的STFS
初始源信号估计的STFS
wk′:未知逆滤波器的LTFS(kt=кk)
                                        (5)
假设和wk分别是随机过程和wk′的 实现,以及是根据观测信号基于语音信号的特征、诸如调和性和稀 疏性而给定的。
在以下描述的本发明的一个实施例中,或sl,k′被作为未知参数处 理,wk′被作为丢失数据的第一随机变量处理,以及或xl,k′被作为第 二随机变量的一部分处理,和或被作为第二随机变量的另一部分 处理。
假设:针对一定的持续时间给定和以及给定 z k ( τ ) = { { x l , m , k ( τ ) } k , { s ^ l , m , k ( τ ) } k } , 其中{.}k表示在频率索引k的STFS仓的时间系列。 在此情况下,假设语音通过估计最大化在每个频率索引k定义的似然函 数的源信号能够去混响:
θ k = arg max Θ k log p { z k ( τ ) Θ k }
= arg max Θ k log p { ω k , z k ( τ ) | Θ k } k ,
其中 Θ k = { S l , m , k ( τ ) } k , θ k = { S l , m , k ( τ ) } k , 以及k′=кk是LTFS仓的频率索引。θk的上述方 程中的积分是对Wk′的实部虚部的简单二重积分。未被观测的逆滤波 器被作为上述似然函数中的丢失数据处理并通过积分被排斥 (marginalize)。为了分析该函数,进一步假设:在给定的情况 下,以及和Wk′联合事件在统计上是独立的。在此情况下,上 述方程(6)中的P{wk′,zk|Θk}能够被如下分成两个函数:
p { ω k , z k | Θ k } = p { ω k , { x l , m , k ( τ ) } k | Θ k } p { { s ^ l , m , k ( τ ) } k | Θ k } . - - - ( 7 )
前者是与室内声学有关的概率密度函数(pdf),即在给定源信号 的情况下观测信号和逆滤波器的联合概率密度函数(pdf)。后者是与 由初始估计提供的信息有关的另一个概率密度函数(pdf),即在给定 源信号的情况下初始源信号估计的概率密度函数(pdf)。第二分量能 够被解释为在给定真实源信号的情况下语音特征的概率存在。它们将分 别在下文中被称为“声学概率密度函数(声学pdf)”以及“源概率密 度函数(源pdf)”。理想地,逆传递函数wk′将xl,k′变换成sl,k′,即 wk′xl,k′=sl,k′。但是,在实际的声学环境中,该方程由于诸如不足够的逆 滤波器长度和室内传递函数的波动这样的原因而可能包含一定误差 ϵ l , k ( a ) = w k x l , k - s l , k . 所以,声学pdf能够被认为是这种误差的概率密度函数 (pdf),如 p { w k , { x l , m , k ( τ ) } k | Θ k } = p { { ϵ l , k ( a ) } k | Θ k } . 类似地,源概率密度函数(源 pdf)能够被认为是误差 ϵ l , m , k ( a ) = s ^ l , m , k ( τ ) - S l , m , k ( τ ) 或者源信号和基于特征的信号之 差的另一个概率密度函数(pdf),如 p { { s ^ l , m , k ( τ ) } k | Θ k } = p { { ϵ l , m , k ( ) } k | Θ k } . 为了简化 起见,假设这些误差是在给定的情况下顺序地独立的随机过程。 假设上述两个误差过程的实部和虚部以相同的方差相互独立并且能够 单独地通过具有零平均值的高斯随机过程被建模。利用这些假设,误差 概率密度函数(误差pdf)被表示为:
p { { ϵ l , k ( a ) } k | Θ k } = Π l b l , k ( a ) exp { - | ϵ l , k ( n ) | 2 2 σ l , k ( a ) } ,
p { { ϵ l , m , k ( ) } k | Θ k } = Π l Π m b l , m , k ( ) exp { - | ϵ l , m , k ( ) | 2 2 σ l , m , k ( ) } , - - - ( 8 )
其中和分别是两个概率密度函数(pdf)的方差,在下文中被称 为声学环境不确定性和源信号不确定性。假设这两个值是基于语音信号 和室内声学的特征被给定的。
EM算法的说明
期望最大化(EM)算法是找到最大化包括丢失数据的给定似然函数 的一组参数的优化方法。这通过A.P.Dempster、N.M.Laird、和D.B.Rubin 在“maximum likelihood from incorporate data via the EMalgorithm” (Journal of the Royal Statistical Society,Series B,39(1): 1-38,1977年)中被公开。通常,似然函数被表示为:
L ( Θ ) = p { X = x | Θ } ,
= - p { X = x , Y = y | Θ } dy , - - - ( 9 )
其中p(*|Θ}表示在参数集Θ被给定并且X和Y是随机变量的条件下随机变 量的概率密度函数(pdf)。X=x意味着x作为关于X的观测数据被给 定。在上述似然函数中,假设Y未被观测到,被称为丢失数据,因此利 用Y排斥概率密度函数(pdf)。通过找到最大化似然函数的参数集Θ=θ 的实现能够求解最大似然问题。
根据期望最大化(EM)算法,利用辅助函数Q{Θ|θ}的期望步骤 (E-step)和最大化步骤(M-step)被分别定义为:
·E-step;


·M-step:
θ ~ = arg max θ Q { Θ | θ } , - - - ( 10 )
其中在上述方程(10)的标记为“E-step”的上面方程中的是在Θ=θ 为固定的条件下的期望函数,其被更具体地定义为所述方程在E-step 中的第二行。似然函数被显示为通过经由期望步骤(E-step)和最 大化步骤(M-step)的一次迭代利用 Θ = θ ~ 更新Θ=θ进行增加,其中在期 望步骤(E-step)中计算Q{Θ|θ},而在最大化步骤(M-step)中获得最大 化的 Θ = θ ~ 最大似然问题的解通过重复所述迭代获得。
基于EM算法的解
求解θk的上述方程(6)的一种有效方式是使用上述期望最大化(EM) 算法。利用这种方法,为了语音去混响,利用辅助函数Q(Θk|θk)的期望步 骤(E-step)和最大化步骤(M-step)被分别定义为:
Q ( Θ k | θ k ) = E { log p { W k , Z k ( τ ) = z k ( τ ) | Θ k } | Θ k = θ k } ,
= p { W k = w k , Z k ( τ ) = z k ( τ ) | Θ k = θ k } log p { W k = w k , Z k ( τ ) = z k ( τ ) | Θ k } , - - - ( 11 )
θ ~ k = arg max Θ k Q ( Θ k | θ k ) ,
其中假设是以下随机过程的实现:
Z k ( τ ) = { { X l , m , k ( τ ) } k , { S ^ l , m , k ( τ ) } k } .
根据EM算法,对数似然log通过利用经由EM迭代获得的更 新θk而增加,并且通过重复所述迭代收敛到平稳点解。
解:
取代直接计算E-step和M-step,由于Q(Θk|θk)-Q(θk|θk)在相同的Θk具 有其最大值如Q(Θk|θk),因此它被分析。在Q(Θk|θk)-Q(θk|θk)的某种排列之后 并且仅仅提取包含Θk的项,从而获得以下函数。

其中

其中意味着复数共轭。应该注意:Θk最大化QΘ(Θk|θk}并且也最大化 Q(Θk|θk),Θk产生QΘ{Θk|θk}>QΘ{θk|θk}并且也产生Q(Θk|θk)>Q(θk|θk)。最大化 QΘ{Θk|θk}的Θk能够通过以对它求微分、将它设置成零、以及求解所 产生的联立方程而获得。但是,获得该解的计算成本相当高,这是因为 需要针对每个l和k求解具有M个未知变量的该方程。
替代地,为了以更有效的方式最大化上述方程(12)的QΘ{Θk|θk}, 引入以下假设。通过基于上述方程(3)对构成LTFS仓的STFS仓的幂 求和,能够近似LTFS仓的幂,即:

利用这种假设,通过上述方程(12)给定的QΘ{Θk|θk}能够被重写为:
Q Θ { Θ k | θ k } = Σ l Σ m - | LS m , k { { ω ~ k x l , k } l } - S l , m , k ( τ ) | 2 2 σ l , k ( a )
+ Σ l Σ m - | s ^ l , m , k ( τ ) - S l , m , k ( τ ) | 2 2 σ l , m , k ( ) . - - - ( 14 )
通过对上述方程求微分并将它设置成零,能够如下针对通过上述方 程(11)的M-step所给定的获得封闭形式解:
S ~ l , m , k ( τ ) = σ l , m , k ( ) LS m , k { { ω ~ k x l , k } l } + σ l , k ( a ) s ~ l , m , k ( τ ) σ l , k ( a ) + σ l , m , k ( ) . - - - ( 15 )
讨论:
利用这种方法,通过依次重复地计算由上述方程(12)给定的以 及由上述方程(15)给定的来实现去混响。
上述方程(12)中的对应于在给定初始源信号估计为sl,k′和观测 信号为xl,k′的情况下通过传统HERB和SBD方法获得的去混响滤波器。
上述方程(15)通过初始源信号估计和通过将xl,k′乘以获得的 源估计的加权平均来更新所述源估计。根据源信号不确定性和声学环境 不确定性来确定权重。换而言之,一次EM迭代通过集成基于源和室内 声学特性获得的两种类型的源估计来精心制作源估计。
从不同的观点来看,能够将通过上述方程(12)计算的逆滤波器估 计视为最大化如下在θk是固定的条件下所定义的似然函数的逆 滤波器估计,
L { w k , θ k } = p { w k , z k ( τ ) | θ k }
= p { w k , { x l , m , k ( τ ) } k | θ k } p { { s ^ l , m , k ( τ ) } k | θ k } ,     (16)
其中采用与上述方程(8)相同的定义用于上述似然函数中的概率密度 函数(pdf)。另外,通过上述方程(15)计算的源信号估计也在 逆滤波器估计是固定的条件下最大化上述似然函数。所以,通过分 别重复地计算上述方程(12)和(15),能够获得最大化上述似然函数 的逆滤波器估计和源信号估计换而言之,通过这种迭代优化算 法,能够计算最大化上述似然函数的逆滤波器估计
现在将参考附图描述本发明的所选择的实施例。对于本领域普通技 术人员来说根据本公开内容将显而易见的是,本发明的实施例的以下描 述仅仅被提供用于说明而不是用于限制如通过所附的权利要求及其等 同物定义的本发明的目的。
第一实施例:
图1是图示根据本发明的第一实施例的、基于源和室内声学的概率 模型的语音去混响设备的方框图。能够通过一组功能单元来实现语音去 混响设备10000,该组功能单元协作用于接收观测信号x[n]的输入并产 生波形信号的输出。功能单元中的每一个都可以包括被构造和/或被 编程用于执行预定功能的硬件和/或软件。术语“被适配”和“被配置” 被用于描述被构造和/或被编程用于执行一个或多个期望功能的硬件和 /或软件。语音去混响设备10000能够例如通过计算机或处理器来实现。 语音去混响设备10000执行语音去混响操作。语音去混响方法能够通过 要由计算机执行的程序来实现。
语音去混响设备10000可以典型地包括初始化单元1000、似然最大 化单元2000和逆短时傅立叶变换单元4000。初始化单元1000可以被适 配用于接收能够是数字化波形信号的观测信号x[n],其中n是样本索 引。数字化波形信号x[n]可以包含具有未知混响程度的语音信号。通过 诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000 可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信 号估计和不确定性。初始化单元1000还可以被适配用于用公式表达初 始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有 索引l、m、k和k′,这些表示被列举为是数字化波形初始源信号估计的 是表示源信号不确定性的方差或离差的以及是表示声学环境 不确定性的方差或离差的即,初始化单元1000可以被适配用于接 收数字化波形信号x[n]的输入作为观测信号并产生数字化波形初始源 信号估计、表示源信号不确定性的方差或离差以及表示声学环 境不确定性的方差或离差
似然最大化单元2000可以与初始化单元1000协作。即,似然最大 化单元2000可以被适配用于从初始化单元1000接收数字化波形初始源 信号估计的输入、源信号不确定性和声学环境不确定性似 然最大化单元2000还可以被适配用于接收数字化波形观测信号x[n]的 另一个输入作为观测信号。是数字化波形初始源信号估计。是表 示源信号不确定性的第一方差。是表示声学环境不确定性的第二方 差。似然最大化单元2000还可以被适配用于确定最大化似然函数的源 信号估计θk,其中参考数字化波形观测信号x[n]、数字化波形初始源信 号估计表示源信号不确定性的第一方差以及表示声学环境不 确定性的第二方差来进行所述确定。通常,可以基于概率密度函数 来定义似然函数,该概率密度函数根据参考源信号估计所定义的未知参 数、表示室内传递函数的逆滤波器的丢失数据的第一随机变量、和参考 观测信号和初始源信号估计所定义的观测数据的第二随机变量进行评 估。使用迭代优化算法来执行源信号估计θk的确定。
迭代优化算法的典型实例可以包括但不限于上述期望最大化算法。 在一个实例中,似然最大化单元2000可以被适配用于针对所有k搜索 源信号 θ k = { s ~ l , m , k ( τ ) } k , 并估计最大化如下定义的似然函数的源信号:
L { θ k } = log p { z k ( τ ) | Θ k = θ k |
其中 z k ( τ ) = { { x l , m , k ( τ ) } k , { s ^ l , m , k ( τ ) } k } 是此刻的短时观测和初始源信号估计的联 合事件。已经参考上述方程(6)描述了该函数的细节。因此,似然最 大化单元2000可以被适配用于确定并输出最大化所述似然函数的源信 号估计
逆短时傅立叶变换单元4000可以与似然最大化单元2000协作。即, 逆短时傅立叶变换单元4000可以被适配用于从似然最大化单元2000接 收最大化似然函数的源信号估计的输入。逆短时傅立叶变换单元 4000还可以被适配用于将源信号估计变换成数字化波形信号并输 出该数字化波形信号
似然最大化单元2000能够通过相互协作以确定并输出最大化似然 函数的源信号估计的一组子功能单元来实现。图2是图示图1中所 示的似然最大化单元2000的配置的方框图。在一种情况下,似然最大 化单元2000还可以包括长时傅立叶变换单元2100、更新单元2200、STFS 到LTFS变换单元2300、逆滤波器估计单元2400、滤波单元2500、LTFS 到STFS变换单元2600、源信号估计和收敛检验单元2700、短时傅立叶 变换单元2800、以及长时傅立叶变换单元2900。这些单元协作以继续 执行迭代操作,直到已经确定最大化似然函数的源信号估计为止。
长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字 化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适 配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的 变换后的观测信号xl,k′的长时傅立叶变换。
短时傅立叶变换单元2800被适配用于从初始化单元1000接收数字 化初始源信号估计短时傅立叶变换单元2800被适配用于执行数字 化波形初始源信号估计到初始源信号估计的短时傅立叶变换。
长时傅立叶变换单元2900被适配用于从初始化单元1000接收数字 化波形初始源信号估计长时傅立叶变换单元2900被适配用于执行 数字化波形初始源信号估计到初始源信号估计的长时傅立叶变 换。
更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单 元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅 立叶变换单元2900接收初始源信号估计并且还被适配用于用源信号 估计θk′代替更新单元2200此外被适配用于发送更新的源信号估计 θk′给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随 后步骤中从STFS到LTFS变换单元2300接收源信号估计并且用于 用源信号估计θk′代替更新单元2200还被适配用于发送更新的源信 号估计θk′给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元 2200和初始化单元1000协作。逆滤波器估计单元2400被适配用于从长 时傅立叶变换单元2100接收观测信号xl,k′。逆滤波器估计单元2400还 被适配用于从更新单元2200接收更新的源信号估计θk′。逆滤波器估计 单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性 的第二方差逆滤波器估计单元2400进一步被适配用于根据上述方 程(12)基于观测信号xl,k′、更新的源信号估计θk′和表示声学环境不确 定性的第二方差来计算逆滤波器估计逆滤波器估计单元2400进 一步被适配用于输出逆滤波器估计
滤波单元2500与长时傅立叶变换单元2100和逆滤波器估计单元 2400协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收 观测信号xl,k′。滤波单元2500还被适配用于从逆滤波器估计单元2400 接收逆滤波器估计滤波单元2500还被适配用于将观测信号xl,k′应用 于逆滤波器估计以产生滤波源信号估计sl,k′。将观测信号xl,k′应用于 逆滤波器估计的滤波过程的典型实例可以包括但不限于计算观测信 号xl,k′和逆滤波器估计的乘积在这种情况下,通过观测信号xl,k′ 和逆滤波器估计的乘积来给定滤波源信号估计sl,k′。
LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS 变换单元2600被适配用于从滤波单元2500接收滤波源信号估计 LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计到 变换后的滤波源信号估计的LTFS到STFS变换。当滤波过程是计算 观测信号xl,k′和逆滤波器估计的乘积时,LTFS到STFS变换单元 2600进一步被适配用于执行乘积到变换后的信号的 LTFS到STFS变换。在这种情况下,乘积表示滤波源信号估计 以及变换后的信号表示变换后的滤波源信号估计
源信号估计和收敛检验单元2700与LTFS到STFS变换单元2600、 短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计和 收敛检验单元2700被适配用于从LTFS到STFS变换单元2600接收变换 后的滤波源信号估计源信号估计和收敛检验单元2700还被适配用 于从初始化单元1000接收表示源信号不确定性的第一方差和表示声 学环境不确定性的第二方差源信号估计和收敛检验单元2700还被 适配用于从短时傅立叶变换单元2800接收初始源信号估计源信号 估计和收敛检验单元2700进一步被适配用于基于变换后的滤波源信号 估计表示源信号不确定性的第一方差表示声学环境不确定性 的第二方差和初始源信号估计估计源信号其中根据上述方 程(15)进行所述估计。
源信号估计和收敛检验单元2700此外被适配用于例如通过比较当 前已经被估计的源信号估计的当前值和之前已经被估计的源信号估 计的前一值以及检验是否当前值偏离前一值小于一定的预定量来确 定迭代过程的收敛状态。如果源信号估计和收敛检验单元2700确认源 信号估计的当前值偏离其前一值小于一定的预定量,那么源信号估 计和收敛检验单元2700识别出已经获得源信号估计的收敛。如果源 信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一 值不小于一定的预定量,那么源信号估计和收敛检验单元2700识别出 还未获得源信号估计的收敛。
作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过 程。即,源信号估计和收敛检验单元2700已经确认迭代次数达到一定 的预定值,于是源信号估计和收敛检验单元2700识别出已经获得源信 号估计的收敛。如果源信号估计和收敛检验单元2700已经确认已经 获得源信号估计的收敛,那么源信号估计和收敛检验单元2700向逆 短时傅立叶变换单元4000提供源信号估计作为第一输出。如果源信 号估计和收敛检验单元2700已经确认还未获得源信号估计的收敛, 那么源信号估计和收敛检验单元2700向STFS到LTFS变换单元2300提 供源信号估计作为第二输出。
STFS到LTFS变换单元2300与源信号估计和收敛检验单元2700协 作。STFS到LTFS变换单元2300被适配用于从源信号估计和收敛检验单 元2700接收源信号估计STFS到LTFS变换单元2300被适配用于执 行源信号估计到变换后的源信号估计的STFS到LTFS变换。
在迭代操作的随后步骤中,更新单元2200从STFS到LTFS变换单 元2300接收所述源信号估计并用源信号估计θk′代替以及发 送更新的源信号估计θk′给逆滤波器估计单元2400。
上述迭代过程将被继续,直到源信号估计和收敛检验单元2700已 经确认源信号估计的收敛已经被获得。在迭代的初始步骤中,更新 的源信号估计θk′是从长时傅立叶变换单元2900提供的在迭代的 第二或随后步骤中,更新的源信号估计θk′是
如果源信号估计和收敛检验单元2700已经确认已经获得源信号估 计的收敛,那么源信号估计和收敛检验单元2700向逆短时傅立叶变 换单元4000提供源信号估计作为第一输出。逆短时傅立叶变换单元 4000可以被适配用于将源信号估计变换成数字化波形信号并输 出该数字化波形信号
将参考图2描述似然最大化单元2000的操作。
在迭代的初始步骤中,将数字化波形观测信号x[n]从初始化单元 1000提供给长时傅立叶变换单元2100。由长时傅立叶变换单元2100执 行长时傅立叶变换以便数字化波形观测信号x[n]被变换成作为长期傅 立叶频谱(LTFS)的变换后的观测信号xl,k′。数字化波形初始源信号估计 从初始化单元1000被提供给短时傅立叶变换单元2800和长时傅立叶 变换单元2900。由短时傅立叶变换单元2800执行短时傅立叶变换以便 将数字化波形初始源信号估计变换成初始源信号估计由长时傅 立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号 估计变换成初始源信号估计
从长时傅立叶变换单元2900提供初始源信号估计给更新单元 2200。通过更新单元2200用源信号估计θk′代替初始源信号估计 然后从更新单元2200提供初始源信号估计 θ k = { s ^ l , k } k , 给逆滤波器估计单元 2400。观测信号xl,k′从长时傅立叶变换单元2100被提供给逆滤波器估计 单元2400。表示声学环境不确定性的第二方差从初始化单元1000被 提供给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号 xl,k′、初始源信号估计θk′、以及表示声学环境不确定性的第二方差计 算逆滤波器估计其中根据上述方程(12)进行所述计算。
逆滤波器估计从逆滤波器估计单元2400被提供给滤波单元 2500。观测信号xl,k′进一步从长时傅立叶变换单元2100被提供给滤波单 元2500。滤波单元2500将逆滤波器估计应用于观测信号xl,k′以产生 滤波源信号估计sl,k′。将观测信号xl,k′应用于逆滤波器估计的滤波过 程的典型实例可以用于计算观测信号xl,k′和逆滤波器估计的乘积 在这种情况下,通过观测信号xl,k′和逆滤波器估计的乘积 来给定滤波源信号估计sl,k′。
从滤波单元2500提供滤波源信号估计 2600。由LTFS到STFS变换单元2600执行LTFS到STFS变换以便滤波 源信号估计sl,k′被变换成变换后的滤波源信号估计当滤波过程用于 计算观测信号xl,k′和逆滤波器估计的乘积时,乘积被变换 成变换后的信号 LS m , k { { w ~ k x l , k } l } .
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计给 源信号估计和收敛检验单元2700。从初始化单元1000提供表示源信号 不确定性的第一方差和表示声学环境不确定性的第二方差给源信 号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供初始源 信号估计给源信号估计和收敛检验单元2700。源信号估计和收敛检 验单元2700基于变换后的滤波源信号估计表示源信号不确定性的 第一方差表示声学环境不确定性的第二方差和初始源信号估计 计算源信号估计其中根据上述方程(15)进行所述估计。
在迭代的初始步骤中,从源信号估计和收敛检验单元2700提供源 信号估计给STFS到LTFS变换单元2300以便将源信号估计变换 成变换后的源信号估计从STFS到LTFS变换单元2300提供变换后 的源信号估计给更新单元2200。更新单元2200用源信号估计θk′代替 变换后的源信号估计从更新单元2200提供更新的源信号估计θk′给 逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元2200提供源信号估计 θ k = { s ~ l , k } k 给逆滤波器估计单元2400。观测信号xl,k′也从长时傅立叶变换单 元2100被提供给逆滤波器估计单元2400。从初始化单元1000提供表示 声学环境不确定性的第二方差给逆滤波器估计单元2400。逆滤波器 估计单元2400基于观测信号xl,k′、更新的源信号估计 θ k = { s ~ l , k } k , 和表示声 学环境不确定性的第二方差计算更新的逆滤波器估计其中根据 上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供更新的逆滤波器估计给滤波单元 2500。观测信号xl,k′进一步被从长时傅立叶变换单元2100提供给滤波单 元2500。滤波单元2500将观测信号xl,k′应用于更新的逆滤波器估计 以产生滤波源信号估计sl,k′。
从滤波单元2500提供更新的滤波源信号估计sl,k′给LTFS到STFS变 换单元2600。LTFS到STFS变换单元2600执行LTFS到STFS变换以便 将更新的滤波源信号估计sl,k′变换成变换后的滤波源信号估计
从LTFS到STFS变换单元2600提供更新的滤波源信号估计给源 信号估计和收敛检验单元2700。还从初始化单元1000提供表示源信号 不确定性的第一方差和表示声学环境不确定性的第二方差给源 信号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供更新 的初始源信号估计给源信号估计和收敛检验单元2700。源信号估计 和收敛检验单元2700基于变换后的滤波源信号估计表示源信号不 确定性的第一方差和表示声学环境不确定性的第二方差和初始 源信号估计计算源信号估计其中根据上述方程(15)进行所 述估计。比较当前已经被估计的源信号估计的当前值与之前已经被 估计的源信号估计的前一值。源信号估计和收敛检验单元2700验证 是否当前值偏离前一值小于一定的预定量。
如果源信号估计和收敛检验单元2700确认源信号估计的当前 值偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元 2700识别出已经获得源信号估计的收敛。源信号估计作为第一输 出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元 4000。逆短时傅立叶变换单元4000将源信号估计变换成数字化波形 源信号估计
如果源信号估计和收敛检验单元2700确认源信号估计的当前 值不偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元 2700识别出还未获得源信号估计的收敛。从源信号估计和收敛检验 单元2700提供源信号估计给STFS到LTFS变换单元2300以便将源 信号估计变换成变换后的源信号估计从STFS到LTFS变换单元 2300提供变换后的源信号估计给更新单元2200。更新单元2200用源 信号估计θk′代替变换后的源信号估计从更新单元2200提供更新的 源信号估计θk′给逆滤波器估计单元2400。
作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过 程。即,已经通过源信号估计和收敛检验单元2700确认迭代次数达到 一定的预定值,那么源信号估计和收敛检验单元2700识别出已经获得 源信号估计的收敛。如果已经通过源信号估计和收敛检验单元2700 确认已经获得源信号估计的收敛,那么源信号估计作为第一输 出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元 4000。如果已经通过源信号估计和收敛检验单元2700确认还未获得源 信号估计的收敛,那么源信号估计作为第二输出从源信号估计和 收敛检验单元2700被提供给STFS到LTFS变换单元2300以便然后将源 信号估计变换成变换后的源信号估计进一步用源信号估计θk′代 替变换后的源信号估计
上述迭代过程将被继续,直到通过源信号估计和收敛检验单元2700 已经确认已经获得源信号估计的收敛。在迭代的初始步骤中,更新 的源信号估计θk′是从长时傅立叶变换单元2900提供的。在迭代的第二或 随后步骤中,更新的源信号估计θk′是
如果已经通过源信号估计和收敛检验单元2700确认已经获得源信 号估计的收敛,那么源信号估计作为第一输出从源信号估计和 收敛检验单元2700被提供给逆短时傅立叶变换单元4000。逆短时傅立 叶变换单元4000将源信号估计变换成数字化波形源信号估计并 输出该数字化波形源信号估计
图3A是图示在图2中所示的STFS到LTFS变换单元2300的配置的 方框图。STFS到LTFS变换单元2300可以包括逆短时傅立叶变换单元 2310和长时傅立叶变换单元2320。逆短时傅立叶变换单元2310与源信 号估计和收敛检验单元2700协作。逆短时傅立叶变换单元2310被适配 用于从源信号估计和收敛检验单元2700接收源信号估计逆短时傅 立叶变换单元2310进一步被适配用于将源信号估计变换成作为输 出的数字化波形源信号估计
长时傅立叶变换单元2320与逆短时傅立叶变换单元2310协作。长 时傅立叶变换单元2320被适配用于从逆短时傅立叶变换单元2310接收 数字化波形源信号估计长时傅立叶变换单元2320进一步被适配用 于将数字化波形源信号估计变换成作为输出的变换后的源信号估计
图3B是图示在图2中所示的LTFS到STFS变换单元2600的配置的 方框图。LTFS到STFS变换单元2600可以包括逆长时傅立叶变换单元 2610和短时傅立叶变换单元2620。逆长时傅立叶变换单元2610与滤波 单元2500协作。逆长时傅立叶变换单元2610被适配用于从滤波单元 2500接收滤波源信号估计sl,k′逆长时傅立叶变换单元2610进一步被适 配用于将滤波源信号估计sl,k′变换成作为输出的数字化波形滤波源信号 估计s[n]。
短时傅立叶变换单元2620与逆长时傅里叶变换单元2610协作。短 时傅立叶变换单元2620被适配用于从逆长时傅立叶变换单元2610接收 数字化波形滤波源信号估计s[n]。短时傅里叶变换单元2620进一步被适 配用于将数字化波形滤波源信号估计s[n]变换成作为输出的变换后的滤 波源信号估计
图4A是图示图2中所示的长时傅立叶变换单元2100的配置的方框 图。长时傅立叶变换单元2100可以包括开窗单元2110和离散傅立叶变 换单元2120。开窗单元2100被适配用于接收数字化波形观测信号x[n]。 开窗单元2100进一步被适配用于如以下所给定的那样将分析窗函数 g[n]重复地应用于数字化波形观测信号x[n]:
xl[n]=g[n]x[nl+n],
其中nl是长时间帧l所开始的样本索引。开窗单元2110被适配用于针对 所有l产生分段波形观测信号xl[n]。
离散傅立叶变换单元2120与开窗单元2110协作。离散傅立叶变换 单元2120被适配用于从开窗单元2110接收分段波形观测信号xl[n]。离 散傅立叶变换单元2120进一步被适配用于执行分段波形信号xl[n]中的 每一个到变换后的观测信号xl,k′的如下给定的K点离散傅立叶变换:
x l , k = 1 / K Σ n = 0 K - 1 x l [ n ] e - j 2 πk n / K
图4B是图示图3B中所示的逆长时傅立叶变换单元2610的配置的 方框图。逆长时傅立叶变换单元2610可以包括逆离散傅立叶变换单元 2612以及重叠相加合成单元2614。逆离散傅立叶变换单元2612与滤波 单元2500协作。逆离散傅立叶变换单元2612被适配用于接收滤波源信 号估计sl,k′逆离散傅立叶变换单元2612进一步被适配用于应用滤波源 信号估计sl,k′的每个帧到作为如下所给定的输出的分段波形滤波源信号 估计sl[n]的相应逆离散傅立叶变换:
s l [ n ] = Σ k = 0 K - 1 s l , k e j 2 πk n / K
重叠相加合成单元2614与逆离散傅立叶变换单元2612协作。重叠 相加合成单元2614被适配用于从逆离散傅立叶变换单元2612接收分段 波形滤波源信号估计sl[n]。重叠相加合成单元2614进一步被适配用于根 据重叠相加合成技术利用重叠相加合成窗gl[n]针对所有l连接或合成分 段波形滤波源信号估计sl[n],以便获得如下给定的数字化波形滤波源信号 估计s[n]。
s [ n ] = Σ l g s [ n - n l ] s l [ n - n l ]
图5A是图示在图3B中所示的短时傅立叶变换单元2620的配置的 方框图。短时傅立叶变换单元2620可以包括开窗单元2622和离散傅立 叶变换单元2624。开窗单元2622与逆长时傅立叶变换单元2610协作。 开窗单元2622被适配用于从逆长时傅立叶变换单元2610接收数字化波 形滤波源信号估计s[n]。开窗单元2622进一步被适配用于将分析窗函数 g(r)[n]以窗偏移τ重复地应用于数字化波形滤波源信号估计s[n]以便产生如 下给定的分段滤波源信号估计sl,m[n]。
sl,m[n]=g(r)[n]s[nl,m+n]
其中nl,m是时间帧所开始的样本索引。针对所有l和m,开窗单元2622 产生分段波形滤波源信号估计sl,m[n]。
离散傅立叶变换单元2624与开窗单元2622协作。离散傅立叶变换 单元2624被适配用于从开窗单元2622接收分段波形滤波源信号估计 sl,m[n]。离散傅立叶变换单元2624进一步被适配用于执行分段波形滤波 源信号估计sl,m[n]中的每一个到如下给定的变换后的滤波源信号估计 的K(r)点离散傅立叶变换。
s l , m , k ( τ ) = 1 / K ( τ ) Σ n = 0 K ( τ ) - 1 s l [ n ] e - j 2 πkn / K ( τ )
图5B是图示在图3A中所示的逆短时傅立叶变换单元2310的配置 的方框图。逆短时傅立叶变换单元2310可以包括逆离散傅立叶变换单 元2312和重叠相加合成单元2314。逆离散傅里叶变换单元2312与源信 号估计和收敛检验单元2700协作。逆离散傅立叶变换单元2312被适配 用于从源信号估计和收敛检验单元2700接收源信号估计逆离散傅 立叶变换单元2312进一步被适配用于将相应的逆离散傅立叶变换应用 于源信号估计的每个帧并产生如下给定的分段波形源信号估计 s ~ l , m [ n ] .
s ~ l , m [ n ] = Σ k = 0 K ( τ ) - 1 s ~ l , m , k e j 2 πkn / K ( τ )
重叠相加合成单元2314与逆离散傅立叶变换单元2312协作。重叠 相加合成单元2314被适配用于从逆离散傅立叶变换单元2312接收分段 波形源信号估计重叠相加合成单元2314进一步被适配用于针对 所有l和m基于重叠相加合成技术利用合成窗gs (r)[n]连接或合成分段波 形源信号估计以便获得如下给定的数字化波形源信号估计
s ~ [ n ] = Σ l , m g s ( τ ) [ n - n l , m ] s ~ l , m [ n - n l , m ]
初始化单元1000被适配用于执行三个操作,即初始源信号估计、 源信号不确定性确定和声学环境不确定性确定。如上所述,初始化单元 1000被适配用于接收数字化波形观测信号x[n]并产生表示源信号不确 定性的第一方差表示声学环境不确定性的第二方差以及数字 化波形初始源信号估计详细地,初始化单元1000被适配用于执行 初始源信号估计,该估计根据数字化波形观测信号x[n]产生数字化波形 初始源信号估计初始化单元1000进一步被适配用于执行源信号不 确定性确定,该确定根据数字化波形观测信号x[n]产生表示源信号不确 定性的第一方差初始化单元1000此外被适配用于执行声学环境不 确定性确定,该确定根据数字化波形观测信号x[n]产生表示声学环境不 确定性的第二方差
初始化单元1000可以包括三个功能子单元,即执行初始源信号估 计的初始源信号估计单元1100、执行源信号不确定性确定的源信号不确 定性确定单元1200、以及执行声学环境不确定性确定的声学环境不确定 性确定单元1300。图6是图示包括在图1中所示的初始化单元1000中 的初始源信号估计单元1100的配置的方框图。图7是图示包括在图1 中所示的初始化单元1000中的源信号不确定性确定单元1200的配置的 方框图。图8是图示包括在图1中所示的初始化单元1000中的声学环 境不确定性确定单元1300的配置的方框图。
参考图6,初始源信号估计单元1100可以进一步包括短时傅立叶变 换单元1110、基频估计单元120和自适应谐波滤波单元1130。短时傅 立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅 立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输 出的变换后的观测信号的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单 元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号 基频估计单元1120进一步被适配用于估计来自变换后的观测信号 的每个短时间帧的基频fl,m和发声量度vl,m。
自适应谐波滤波单元1130与短时傅立叶变换单元1110和基频估计 单元1120协作。自适应谐波滤波单元1130被适配用于从短时傅立叶变 换单元1110接收变换后的观测信号自适应谐波滤波单元1130还 被适配用于从基频估计单元1120接收基频fl,m和发声量度vl,m。自适应谐 波滤波单元1130还被适配用于基于基频fl,m和发声量度vl,m增强的谐 波结构以便谐波结构的增强产生所得到的数字化波形初始源信号估计 作为输出。本实例的过程流程在由Tomohiro Nakatani、Masato Miyoshi和Keisuke Kinoshita在Speech Enhancement((Benesty, J.Makino,S.,和Chen,J.Eds),Chapterll,第247-270页,2005 年春)中发表的“Single Microphone Blind Dereverberation”中被详 细公开。
参考图7,源信号不确定性确定单元1200可以进一步包括短时傅立 叶变换单元1110、基频估计单元1120和源信号不确定性确定子单元 1140。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号 x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号 x[n]到作为输出的变换后的观测信号的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单 元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号 基频估计单元1120进一步被适配用于估计来自变换后的观测信号 的每个短时间帧的基频fl,m和发声量度vl,m。
源信号不确定性确定子单元1140与基频估计单元1120协作。源信 号不确定性确定子单元1140被适配用于从基频估计单元1120接收基频 fl,m和发声量度vl,m。源信号不确定性确定子单元1140进一步被适配用于 根据基频fl,m和发声量度vl,m确定表示源信号不确定性的第一方差如 下给定表示源信号不确定性的第一方差

其中G{u}是被定义为例如具有某些正的常量“a”和“b”的G{u}=e-a(u-h)的 归一化函数,并且谐波频率意味着用于基频及其倍数之一的频率索引。
参考图8,声学环境不确定性确定单元1300可以包括声学环境不确 定性确定子单元1150。声学环境不确定性确定子单元1150被适配用于 接收数字化波形观测信号x[n]。声学环境不确定性确定子单元1150进 一步被适配用于产生表示声学环境不确定性的第二方差在一种典 型情况下,对于所有l和k′来说,第二方差能够是常量,即如在图8 中所示,σl,k′=1。
所述混响信号能够通过修改的包括执行反馈过程的反馈回路的语 音去混响设备20000更有效地去混响。根据反馈过程的流程,通过利用 反馈回路迭代相同的处理流程,能够提高源信号估计的质量。尽管 只有数字化波形观测信号x[n]在初始步骤中被用作流程的输入,但是已 经被包含在前一步骤中的源信号估计也在随后的步骤中被用作输 入。更优选的是使用源信号估计而不是使用观测信号x[n]来对源概 率密度函数(源pdf)的参数和进行估计。
第二实施例:
图9是图示根据本发明的第二实施例进一步包括反馈回路的另一语 音去混响设备的配置的方框图。修改的语音去混响设备20000可以包括 初始化单元1000、似然最大化单元2000、收敛检验单元3000、和逆短 时傅立叶变换单元4000。初始化单元1000、似然最大化单元2000和逆 短时傅立叶变换单元4000的配置和操作如上所述。在本实施例中,在 似然最大化单元2000和逆短时傅立叶变换单元4000之间附加地引入收 敛检验单元3000以便收敛检验单元3000检验已经从似然最大化单元 2000输出的源信号估计的收敛。如果收敛检验单元3000识别出已经 获得源信号估计的收敛,那么收敛检验单元3000发送源信号估计 给逆短时傅立叶变换单元4000。如果收敛检验单元3000识别出还未获 得源信号估计的收敛,那么收敛检验单元3000发送源信号估计给 初始化单元1000。以下描述将聚焦于第二实施例与第一实施例的差异。
收敛检验单元3000与初始化单元1000和似然最大化单元2000协 作。收敛检验单元3000被适配用于从似然最大化单元2000接收源信号 估计收敛检验单元3000进一步被适配用于例如通过验证是否源信 号估计的当前更新的值偏离源信号估计的前一值小于一定的预 定量来确定迭代过程的收敛状态。如果收敛检验单元3000确认源信号 估计的当前更新的值偏离源信号估计的前一值小于一定的预定 量,那么收敛检验单元3000识别出已经获得源信号估计的收敛。如 果收敛检验单元3000确认源信号估计的当前更新的值不偏离源信号 估计的前一值小于一定的预定量,那么收敛检验单元3000识别出还 未获得源信号估计的收敛。
作为修改有可能的是当反馈或迭代次数达到一定的预定值时终止 所述反馈过程。当收敛检验单元3000已经确认源信号估计的收敛已 经被获得时,那么收敛检验单元3000发送源信号估计给逆短时傅立 叶变换单元4000。如果收敛检验单元3000已经确认还未获得源信号估 计的收敛,那么收敛检验单元3000将源信号估计作为输出提供给 初始化单元1000以执行上述迭代的进一步的步骤。
收敛检验单元3000提供反馈回路给初始化单元1000。即,初始化 单元1000与收敛检验单元1000协作。因此,初始化单元1000需要适 配于反馈回路。根据第一实施例,初始化单元1000包括初始源信号估 计单元1100、源信号不确定性确定单元1200、和声学环境不确定性确 定单元1300。根据第二实施例,修改的初始化单元1000包括修改的初 始源信号估计单元1400、修改的源信号不确定性确定单元1500、和声 学环境不确定性确定单元1300。以下描述将聚焦于修改的初始源信号估 计单元1400、和修改的源信号不确定性确定单元1500。
图10是图示包括在图9中所示的初始化单元1000中的修改的初始 源信号估计单元1400的配置的方框图。修改的初始源信号估计单元 1400可以进一步包括短时傅立叶变换单元1110、基频估计单元1120、 自适应谐波滤波单元1130、和信号切换单元1160。信号切换单元1160 的增加能够提高数字化波形初始源信号估计的精度
短时傅立叶变换单元1110被适配用于接收数字化波形观测信号 x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号 x[n]到作为输出的变换后的观测信号的短时傅立叶变换。信号切换 单元1160与短时傅立叶变换单元1110和收敛检验单元3000协作。信 号切换单元1160被适配用于从短时傅立叶变换单元1110接收变换后的 观测信号信号切换单元1160被适配用于从收敛检验单元3000接收 源信号估计信号切换单元1160被适配用于执行第一选择操作以产 生第一输出。信号切换单元1160还被适配用于执行第二选择操作以产 生第二输出。第一和第二选择操作是相互独立的。第一选择操作是用于 选择变换后的观测信号和源信号估计之一。在一种情况下,第一 选择操作可以用于在除了一个或多个限制步骤之外的迭代的所有步骤 中选择变换后的观测信号例如,第一选择操作可以是用于在除了 迭代的最后一个或两个步骤之外的迭代的所有步骤中选择变换后的观 测信号以及仅仅在最后一个或两个步骤中选择源信号估计在一 种情况下,第二选择操作可以是用于在除初始步骤之外的迭代的所有步 骤中选择源信号估计在迭代的初始步骤中,信号切换单元1160仅 接收变换后的观测信号并选择变换后的观测信号更优选的是就 基频和发声量度vl,m两者的估计而言使用源信号估计而不使用变 换后的观测信号
信号切换单元1160执行第一选择操作并产生第一输出。信号切换 单元1160执行第二选择操作并产生第二输出。
基频估计单元1120与信号切换单元1160协作。基频估计单元1120 被适配用于从信号切换单元1160接收第二输出。即,基频估计单元1120 被适配用于在迭代的初始或第一步骤中从信号切换单元1160接收变换 后的观测信号以及在迭代的第二或随后步骤中从信号切换单元1160 接收源信号估计基频估计单元1120进一步被适配用于基于变换后 的观测信号或源信号估计估计每个短时间帧的基频fl,m及其发声量 度vl,m。
自适应谐波滤波单元1130与信号切换单元1160和基频估计单元 1120协作。自适应谐波滤波单元1130被适配用于从信号切换单元1160 接收第一输出以及还从基频估计单元1120接收基频fl,m和发声量度vl,m。 即,自适应谐波滤波单元1130被适配用于在除迭代的最后一个或两个 步骤之外的迭代的所有步骤中从信号切换单元1160接收变换后的观测 信号自适应谐波滤波单元1130还被适配用于在迭代的最后一个或 两个步骤中从信号切换单元1160接收源信号估计自适应谐波滤波 单元1130还被适配用于在迭代的所有步骤中从基频估计单元1120接收 基频fl,m和发声量度vl,m。自适应谐波滤波单元1130还被适配用于基于基 频fl,m和发声量度vl,m增强观测信号或源信号估计的谐波结构。增强 操作产生估计精度被提高的数字化波形初始源信号估计
如上所述,更优选的是就基频fl,m和发声量度vl,m两者的估计而言基频 估计单元1120使用源信号估计而不是使用观测信号因此在迭代 的第二或随后步骤中提供源信号估计而不是观测信号给基频估计 单元1120能够改善数字化波形初始源信号估计的估计。
在某些情况下,可能更适合于将自适应谐波滤波器应用于源信号估 计而不是观测信号以便获得数字化波形初始源信号估计的较 佳估计。去混响步骤的一次迭代可能将一定的特殊失真添加到源信号估 计中以及当将自适应谐波滤波器应用于源信号估计时,该失真被 直接继承到数字化波形初始源信号估计另外,这种失真可能通过迭 代的去混响步骤被累积到源信号估计中。为了避免失真的这种累积, 有效的是信号切换单元1160被适配用于除了在迭代结束之前的最后一 个步骤或最后几个步骤中之外将观测信号提供给自适应谐波滤波单 元1130,在所述迭代中使源信号估计的估计精确。
图11是图示包括在图9中所示的初始化单元1000中的修改的源信 号不确定性确定单元1500的配置的方框图。修改的源信号不确定性确 定单元1500可以进一步包括短时傅立叶变换单元1112、基频估计单元 1122、源信号不确定性确定子单元1140和信号切换单元1162。信号切 换单元1162的增加能够改善源信号不确定性的估计。根据第二实施 例,似然最大化单元2000的配置与在第一实施例中描述的配置相同。
短时傅立叶变换单元1112被适配用于接收数字化波形观测信号 x[n]。短时傅立叶变换单元1112被适配用于执行数字化波形观测信号 x[n]到作为输出的变换后的观测信号的短时傅立叶变换。信号切换 单元1162与短时傅立叶变换单元1110和收敛检验单元3000协作。信 号切换单元1162被适配用于从短时傅立叶变换单元1110接收变换后的 观测信号信号切换单元1162被适配用于从收敛检验单元3000接收 源信号估计信号切换单元1162被适配用于执行第一选择操作以产 生第一输出。第一选择操作是用于选择变换后的观测信号和源信号 估计之一。在一种情况下,第一选择操作可以是用于在除了迭代的 初始步骤之外的迭代的所有步骤中选择源信号估计在迭代的初始步 骤中,信号切换单元1162仅接收变换后的观测信号并选择变换后的 观测信号更优选的是就基频fl,m和发声量度vl,m两者的估计而言使用 源信号估计而不使用变换后的观测信号
基频估计单元1122与信号切换单元1162协作。基频估计单元1122 被适配用于从信号切换单元1162接收第一输出。即,基频估计单元1122 被适配用于在迭代的初始步骤中接收变换后的观测信号以及在除迭 代的初始步骤之外的迭代的所有步骤中接收源信号估计基频估计 单元1122进一步被适配用于估计每个短时间帧的基频fl,m及其发声量度 vl,m。参考变换后的观测信号或源信号估计进行所述估计。
源信号不确定性确定单元1140与基频估计单元1122协作。源信号 不确定性确定单元1140被适配用于从基频估计单元1122接收基频fl,m和 发声量度vl,m。源信号不确定性确定单元1140进一步被适配用于确定源 信号不确定性如上所述,更优选的是就基频fl,m和发声量度vl,m两者 的估计而言使用源信号估计而不使用观测信号
第三实施例:
图12是图示根据本发明的第三实施例基于源和室内声学的概率模 型的语音去混响设备的配置的方框图。语音去混响设备30000能够通过 一组功能单元来实现,这些功能单元协作用于接收观测信号x[n]的输入 并产生数字化波形源信号估计或滤波源信号估计s[n]的输出。语音去 混响设备30000能够例如通过计算机或处理器来实现。语音去混响设备 30000执行语音去混响操作。语音去混响方法能够通过要由计算机执行 的程序来实现。
语音去混响设备30000典型地可以包括上述初始化单元1000、上述 似然最大化单元2000-1和逆滤波器应用单元5000。初始化单元1000可 以被适配用于接收数字化波形观测信号x[n]。数字化波形观测信号x[n] 可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的 设备能够捕获该语音信号。初始化单元1000可以被适配用于从观测信 号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化 单元1000还可以被适配用于用公式表达初始源信号估计、源信号不确 定性和声学环境不确定性的表示。针对所有索引l、m、k和k′,这些表 示被列举为是数字化波形初始源信号估计的是表示源信号不确定性 的方差或离差的以及是表示声学环境不确定性的方差或离差的 即,初始化单元1000可以被适配用于接收数字化波形信号x[n]的 输入作为观测信号并产生数字化波形初始源信号估计表示源信号不 确定性的方差或离差以及表示声学环境不确定性的方差或离差
似然最大化单元2000-1可以与初始化单元1000协作。即,似然最 大化单元2000-1可以被适配用于从初始化单元1000接收数字化波形初 始源信号估计源信号不确定性和声学环境不确定性的输入。 似然最大化单元2000-1还可以被适配用于接收数字化波形观测信号 x[n]的另一个输入作为观测信号。是数字化波形初始源信号估计。 是表示源信号不确定性的第一方差。是表示声学环境不确定性的 第二方差。似然最大化单元2000-1还可以被适配用于确定最大化似然 函数的逆滤波器估计其中参考数字化波形观测信号x[n]、数字化 波形初始源信号估计表示源信号不确定性的第一方差以及表 示声学环境不确定性的第二方差进行所述确定。通常,可以基于概率 密度函数定义似然函数,该概率密度函数根据第一未知参数、第二未知 参数、和观测数据的第一随机变量进行评估。参考源信号估计定义所述 第一未知参数。参考室内传递函数的逆滤波器定义第二未知参数。参考 观测信号和初始源信号估计定义观测数据的第一随机变量。逆滤波器估 计是室内传递函数的逆滤波器的估计。使用迭代优化算法来执行逆滤波 器估计的确定。
迭代优化算法可以在不使用上述期望最大化算法的情况下进行组 织。例如,能够获得逆滤波器估计和源信号估计作为最大化如下定 义的似然函数的逆滤波器估计和源信号估计:
L { w k , θ k } = p { w k , z k ( τ ) | θ k }
= p { w k , { x l , m , k ( τ ) } k | θ k } p { { s ^ l , m , k ( τ ) } k | θ k } ,      (16)
能够通过紧接着的迭代算法最大化该似然函数。
第一步骤是设置初始值为 θ k = θ ~ k .
第二步骤是计算在θk固定的条件下最大化似然函数的逆滤波器估计 w k = w ~ k .
第三步骤是计算在wk′固定的条件下最大化似然函数的源信号估计 θ k = θ ~ k .
第四步骤是重复上述第二和第三步骤,直到迭代的收敛被确认为 止。
当与上述方程(8)相同的定义被用于上述似然函数中的概率密度 函数(pdf)时,容易地显示出能够分别通过上述方程(12)和(15) 获得上述第二步骤中的逆滤波器估计和上述第三步骤中的源信号估 计通过检验是否逆滤波器估计的当前获得的值和逆滤波器估计 的之前获得的值之差小于预定的阈值,可以完成第四步骤中的上述收敛 确认。最后,该观测信号可以通过将在上述第二步骤中获得的逆滤波器 估计应用于观测信号来去混响。
逆滤波器应用单元5000可以与似然最大化单元2000-1协作。即, 逆滤波器应用单元5000可以被适配用于从似然最大化单元2000-1接收 最大化似然函数(16)的逆滤波器估计的输入。逆滤波器应用单元 5000还可以被适配用于接收数字化波形观测信号x[n]。逆滤波器应用 单元5000还可以被适配用于将逆滤波器估计应用于数字化波形观测 信号x[n]以便产生恢复后的数字化波形源信号估计或滤波数字化波 形源信号估计s[n]。
在某一情况下,逆滤波器应用单元5000可以被适配用于将长时傅 立叶变换应用于数字化波形观测信号x[n]以产生变换后的观测信号 xl,k′。逆滤波器应用单元5000可以进一步被适配用于将每个帧中的变换 后的观测信号xl,k′乘以逆滤波器估计以产生滤波源信号估计 s ~ l , k = w ~ k x l , k . 逆滤波器应用单元5000可以进一步被适配用于将逆长时傅立叶变换应 用于滤波源信号估计以产生滤波数字化波形源信号估计s[n]。
在另一情况下,逆滤波器应用单元5000可以被适配用于将逆长时 傅立叶变换应用于逆滤波器估计以产生数字化波形逆滤波器估计 逆滤波器应用单元5000可以被适配用于将数字化波形观测信号 x[n]与数字化波形逆滤波器估计进行卷积以产生恢复后的数字化波 形源信号估计 s ~ [ n ] = Σ m x [ n - m ] w ~ [ m ] .
似然最大化单元2000-1能够通过相互协作以确定并输出最大化所 述似然函数的逆滤波器估计的一组子功能单元来实现。图13是图示 在图12中所示的似然最大化单元2000-1的配置的方框图。在一种情况 下,似然最大化单元2000-1可以进一步包括上述长时傅立叶变换单元 2100、上述更新单元2200、上述STFS到LTFS变换单元2300、上述逆 滤波器估计单元2400、上述滤波单元2500、LTFS到STFS变换单元2600、 源信号估计单元2710、收敛检验单元2720、上述短时傅立叶变换单元 2800、以及上述长时傅立叶变换单元2900。这些单元协作以继续执行迭 代操作,直到最大化似然函数的逆滤波器估计已经被确定为止。
长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字 化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适 配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的 变换后的观测信号xl,k′的长时傅立叶变换。
短时傅立叶变换单元2800被适配用于从初始化单元1000接收数字 化波形初始源信号估计短时傅立叶变换单元2800被适配用于执行 数字化波形初始源信号估计到初始源信号估计的短时傅立叶变 换。
长时傅立叶变换单元2900被适配用于从初始化单元1000接收数字 化波形初始源信号估计长时傅立叶变换单元2900被适配用于执行 数字化波形初始源信号估计到初始源信号估计的长时傅立叶变 换。
更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单 元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅 立叶变换单元2900接收初始源信号估计以及进一步被适配用于用源 信号估计θk′代替。更新单元2200此外被适配用于发送更新的源信号 估计θk′给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代 的随后步骤中从STFS到LTFS变换单元2300接收源信号估计以及 用源信号估计θk′代替更新单元2200还被适配用于发送更新的源信 号估计θk′给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元 2200和初始化单元1000协作。逆滤波器估计单元2400被适配用于从长 时傅立叶变换单元2100接收观测信号xl,k′。逆滤波器估计单元2400还 被适配用于从更新单元2200接收更新的源信号估计θk′。逆滤波器估计 单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性 的第二方差逆滤波器估计单元2400还被适配用于根据上述方程 (12)基于观测信号xl,k′、更新的源信号估计θk′、和表示声学环境不确定 性的第二方差计算逆滤波器估计逆滤波器估计单元2400进一步 被适配用于输出逆滤波器估计
收敛检验单元2720与逆滤波器估计单元2400协作。收敛检验单元 2720被适配用于从逆滤波器估计单元2400接收逆滤波器估计收敛 检验单元2720被适配用于例如通过比较当前已经被估计的逆滤波器估 计的当前值与之前已经被估计的逆滤波器估计的前一值以及检验 是否所述当前值偏离前一值小于一定的预定量来确定迭代过程的收敛 状态。如果收敛检验单元2720确认逆滤波器估计的当前值偏离其前 一值小于一定的预定量,那么收敛检验单元2720识别出已经获得逆滤 波器估计的收敛。如果收敛检验单元2720确认逆滤波器估计的当 前值偏离其前一值不小于一定的预定量,那么收敛检验单元2720识别 出还未获得逆滤波器估计的收敛。
作为修改有可能的是当迭代次数达到一定的预定值时终止所述迭 代过程。即,收敛检验单元2720已经确认迭代次数达到一定的预定值, 那么收敛检验单元2720识别出已经获得逆滤波器估计的收敛。如果 收敛检验单元2720已经确认已经获得逆滤波器估计的收敛,那么收 敛检验单元2720将逆滤波器估计作为第一输出提供给逆滤波器应用 单元5000。如果收敛检验单元2720已经确定还未获得逆滤波器估计 的收敛,那么收敛检验单元2720将逆滤波器估计作为第二输出提供 给滤波单元2500。
滤波单元2500与长时傅立叶变换单元2100和收敛检验单元2720 协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收观测 信号xl,k′。滤波单元2500还被适配用于从收敛检验单元2720接收逆滤 波器估计滤波单元2500还被适配用于将观测信号xl,k′应用于逆滤波 器估计以产生滤波源信号估计sl,k′。
用于将观测信号xl,k′应用于逆滤波器估计的滤波过程的典型实例 可以包括但不限于计算观测信号xl,k′和逆滤波器估计的乘积在 这种情况下,通过观测信号xl,k′和逆滤波器估计的乘积来给定滤 波源信号估计sl,k′。
LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS 变换单元2600被适配用于从滤波单元2500接收滤波源信号估计sl,k′。 LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计sl,k′到 变换后的滤波源信号估计的LTFS到STFS变换。当滤波过程是计算 观测信号xl,k′和逆滤波器估计的乘积时,LTFS到STFS变换单元 2600进一步被适配用于执行乘积到变换后的信号的LTFS 到STFS变换。在这种情况下,乘积表示滤波源信号估计sl,k′以及变 换后的信号表示变换后的滤波源信号估计
源信号估计单元2710与LTFS到STFS变换单元2600、短时傅立叶 变换单元2800、以及初始化单元1000协作。源信号估计单元2710被适 配用于从LTFS到STFS变换单元2600接收变换后的滤波源信号估计 源信号估计单元2710还被适配用于从初始化单元1000接收表示源信号 不确定性的第一方差以及表示声学环境不确定性的第二方差源 信号估计单元2710还被适配用于从短时傅立叶变换单元2800接收初始 源信号估计源信号估计单元2710还被适配用于基于变换后的滤波 源信号估计表示源信号不确定性的第一方差表示声学环境不 确定性的第二方差以及初始源信号估计估计源信号其中根 据上述方程(15)进行所述估计。
STFS到LTFS变换单元2300与源信号估计单元2710协作。STFS到 LTFS变换单元2300被适配用于从源信号估计单元2710接收源信号估计 STFS到LTFS变换单元2300被适配用于执行源信号估计到变换 后的源信号估计的STFS到LTFS变换。
在迭代操作的随后步骤中,更新单元2200从STFS到LTFS变换单 元2300接收源信号估计并且用源信号估计θk代替以及发送更 新的源信号估计θk′给逆滤波器估计单元2400。在迭代的初始步骤中,更 新的源信号估计θk′是从长时傅立叶变换单元2900提供的在迭代的 第二或随后步骤中,更新的源信号估计θk′是
将参考图13描述似然最大化单元2000-1的操作。
在迭代的初始步骤中,提供数字化波形观测信号x[n]给长时傅立叶 变换单元2100。长时傅立叶变换单元2100执行长时傅立叶变换以便将 数字化波形观测信号x[n]变换成变换后的观测信号xl,k′作为长期傅立叶 频谱(LTFS)。将数字化波形初始源信号估计从初始化单元1000提 供给短时傅立叶变换单元2800和长时傅立叶变换单元2900。短时傅立 叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估 计变换成初始源信号估计长时傅立叶变换单元2900执行长时 傅立叶变换以便将数字化波形初始源信号估计变换成初始源信号估 计
从长时傅立叶变换单元2900提供初始源信号估计给更新单元 2200。更新单元2200用源信号估计θk′代替初始源信号估计然后将 初始源信号估计 θ k = { s ^ l , k } k 从更新单元2200提供给逆滤波器估计单元 2400。从长时傅立叶变换单元2100提供观测信号xl,k′给逆滤波器估计单 元2400。从初始化单元1000提供表示声学环境不确定性的第二方差 给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′、 初始源信号估计θk′、和表示声学环境不确定性的第二方差计算逆滤 波器估计其中根据上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供逆滤波器估计给收敛检验单元 2720。收敛检验单元2720进行迭代过程的收敛状态的确定。例如,通 过比较当前已经被估计的逆滤波器估计的当前值与之前已经被估计 的逆滤波器估计的前一值来进行所述确定。收敛检验单元2720检验 是否当前值偏离前一值小于一定的预定量。如果收敛检验单元2720确 认逆滤波器估计的当前值偏离其前一值小于一定的预定量,那么收敛 检验单元2720识别出已经获得逆滤波器估计的收敛。如果收敛检验 单元2720确认逆滤波器估计的当前值偏离其前一值不小于一定的预 定量,那么收敛检验单元2720识别出还未获得逆滤波器估计的收敛。
如果已经获得逆滤波器估计的收敛,那么从收敛检验单元2720 提供逆滤波器估计给逆滤波器应用单元5000。如果还未获得逆滤波器 估计的收敛,那么从收敛检验单元2720提供逆滤波器估计给滤波 单元2500。观测信号xl,k′进一步从长时傅立叶变换单元2100被提供给滤 波单元2500。滤波单元2500将逆滤波器估计应用于观测信号xl,k′以产 生滤波源信号估计sl,k′。用于将观测信号xl,k′应用于逆滤波器估计的滤 波过程的典型实例可以是计算观测信号xl,k′和逆滤波器估计的乘积 在这种情况下,通过观测信号xl,k′和逆滤波器估计的乘积 来给定滤波源信号估计sl,k′。
从滤波单元2500提供滤波源信号估计sl,k′给LTFS到STFS变换单元 2600。LTFS到STFS变换单元2600执行LTFS到STFS变换以便将滤波源 信号估计sl,k′变换成变换后的滤波源信号估计当所述滤波过程是计 算观测信号xl,k′和逆滤波器估计的乘积时,该乘积被变换成 变换后的信号 LS m , k ( ( w ~ k x l , k ) l ) .
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计给 源信号估计单元2710。从初始化单元1000提供表示源信号不确定性的 第一方差和表示声学环境不确定性的第二方差给源信号估计单 元2710。从短时傅立叶变换单元2800提供初始源信号估计给源信号 估计单元2710。源信号估计单元2710基于变换后的滤波源信号估计 表示源信号不确定性的第一方差和表示声学环境不确定性的第二 方差以及初始源信号估计计算源信号估计其中根据上述方程 (15)进行所述估计。
从源信号估计单元2710提供源信号估计给STFS到LTFS变换单 元2300以便将源信号估计变换成变换后的源信号估计从STFS 到LTFS变换单元2300提供所述变换后的源信号估计给更新单元 2200。更新单元2200用源信号估计θk′代替变换后的源信号估计从 更新单元2200提供更新的源信号估计θk′给逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元2200提供源信号估计 给逆滤波器估计单元2400。还将观测信号xl,k′从长时傅立叶变换 单元2100提供给逆滤波器估计单元2400。从初始化单元1000提供表示 声学环境不确定性的第二方差给逆滤波器估计单元2400。逆滤波器 估计单元2400基于观测信号xl,k′、更新的源信号估计 θ k = { s ~ l , k } k , 和表示声 学环境不确定性的第二方差计算更新的逆滤波器估计其中根据上 述方程(12)进行所述计算。
从逆滤波器估计单元2400提供更新的逆滤波器估计给收敛检验 单元2720。收敛检验单元2720进行对迭代过程的收敛状态的确定。
上述迭代过程将被继续,直到收敛检验单元2720已经确认逆滤波 器估计的收敛已经被获得为止。
图14是图示在图12中所示的逆滤波器应用单元5000的配置的方 框图。逆滤波器应用单元5000的典型实例可以包括但不限于逆长时傅 立叶变换单元5100和卷积单元5200。逆长时傅立叶变换单元5100与似 然最大化单元2000-1协作。逆长时傅立叶变换单元5100被适配用于从 似然最大化单元2000-1接收逆滤波器估计长时傅立叶变换单元 5100进一步被适配用于执行逆滤波器估计到数字化波形逆滤波器估 计的逆长时傅立叶变换。
卷积单元5200与逆长时傅立叶变换单元5100协作。卷积单元5200 被适配用于从逆长时傅立叶变换单元5100接收数字化波形逆滤波器估 计卷积单元5200还被适配用于接收数字化波形观测信号x[n]。卷 积单元5200还被适配用于执行卷积过程以将数字化波形观测信号x[n] 与数字化波形逆滤波器估计进行卷积以产生恢复后的数字化波形源 信号估计 s ~ [ n ] = Σ m x [ n - m ] w ~ [ m ] 作为去混响的信号。
图15是图示在图12中所示的逆滤波器应用单元5000的配置的方 框图。逆滤波器应用单元5000的典型实例可以包括但不限于长时傅立 叶变换单元5300、滤波单元5400、以及逆长时傅立叶变换单元5500。 长时傅立叶变换单元5300被适配用于接收数字化波形观测信号x[n]。 长时傅立叶变换单元5300被适配用于执行数字化波形观测信号x[n]到 变换后的观测信号xl,k′的长时傅立叶变换。
滤波单元5400与长时傅立叶变换单元5300和似然最大化单元 2000-1协作。滤波单元5400被适配用于从长时傅立叶变换单元5300接 收变换后的观测信号xl,k′。滤波单元5400还被适配用于从似然最大化单 元2000-1接收逆滤波器估计滤波单元5400进一步被适配用于将逆 滤波器估计应用于变换后的观测信号xl,k′以产生滤波源信号估计 s l , k = w ~ k x l , k . 将逆滤波器估计应用于变换后的观测信号xl,k′可以通过将每 个帧中的变换后的观测信号xl,k′乘以逆滤波器估计来进行。
逆长时傅立叶变换单元5500与滤波单元5400协作。逆长时傅立叶 变换单元5500被适配用于从滤波单元5400接收滤波源信号估计sl,k′。逆 长时傅立叶变换单元5500被适配用于执行滤波源信号估计到作为去 混响的信号的滤波数字化波形源信号估计s[n]的逆长时傅立叶变换。
试验:
借助于确认本方法的性能执行了简单的试验。如由Tomohiro Nakatani和Masato Miyoshi的  “Blind dereverberation of single channelspeech signal based on harmonic struture”(Proc.ICASSP -2003,vol.1,第92-95页,2003年4月)详细公开的,以0.1秒、 0.2秒、0.5秒、和1.0秒的RT60时间采用了单词话语(word utterances) 的相同的源信号以及相同的脉冲响应。通过将源信号与脉冲响应进行卷 积来合成观测信号。准备了与用于HERB和SBD相同的两种类型的初始 源信号估计,即 s ^ l , m , k ( τ ) = H { x l , m , k ( τ ) } s ^ l , m , k ( τ ) = N { x l , m , k ( τ ) } , 其中H{′}和N{′}分别是用于 HERB的谐波滤波器和用于SBD的噪声减小滤波器。相对于发声量度vl,m 确定源信号不确定性,其中该发声量度和HERB一起被用于判定观测信 号的每个短时间帧的语音状态。根据该量度,当对于固定的阈值δ, vl,m>δ时,帧被确定为有声(voiced)。特别是,在试验中被确定为:

其中G{u}是被定义成G{u}=e-160(u-0.95)的非线性归一化函数。另一方面,被 设置成常量值1。结果,当G{u}中的u从0移动到1时,上述方程(15) 中的的权重变成从0到1变化的S形函数。对于每个试验,EM步骤 被迭代了四次。另外,还引入了具有反馈回路的重复估计方案。采用对 应于42ms的K(r)=504、对应于10.9s的K=130800、对应于1ms的τ=12、 以及12kHz采样频率作为分析条件。
能量衰减曲线:
图12A到12H显示使用女人和男人所说的100单词观测信号在利用 和不利用EM算法的情况下室内脉冲响应和通过HERB和SBD去混响的脉 冲响应的能量衰减曲线。图12A图示当女人说话时在RT60=1.0秒的能 量衰减曲线。图12B图示当女人说话时在RT60=0.5秒的能量衰减曲线。 图12C图示当女人说话时在RT60=0.2秒的能量衰减曲线。图12D图示 当女人说话时在RT60=0.1秒的能量衰减曲线。图12E图示当男人说话 时在RT60=1.0秒的能量衰减曲线。图12F图示当男人说话时在RT60=0.5 秒的能量衰减曲线。图12G图示当男人说话时在RT60=0.2秒的能量衰 减曲线。图12H图示当男人说话时在RT60=0.1秒的能量衰减曲线。图 12A到12H清楚地表明EM算法能够利用HERB和SBD有效地减小混响能 量。
相应地,如上所述,本发明的一个方面针对新的去混响方法,其中 源信号和室内声学的特征借助高斯概率密度函数(pdf)来表示,以及 源信号被估计为最大化基于这些概率密度函数(pdf)所定义的似然函 数的信号。迭代优化算法被用于有效地解决这种优化问题。试验结果显 示出就去混响脉冲响应的能量衰减曲线而言,本方法能够大大地提高基 于语音信号特征的两种去混响方法、即HERB和SBD的性能。由于HERB 和SBD在提高在混响环境中捕获的语音信号的ASR性能方面是有效的, 所以本方法能够利用较少的观测信号提高性能。
尽管以上已经描述和图示了本发明的优选实施例,但是应该理解这 些优选实施例是本发明的示例并且不应被认为是限制性的。在不背离本 发明的精神或范围的情况下能够进行添加、省略、替换、和其他修改。 因此,本发明不应该被认为是受上述描述限制,而是仅仅受所附的权利 要求书的范围限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈