声处理系统、声处理装置、声处理方法、声处理程序及存储媒体

申请号 CN200480001508.8 申请日 2004-08-27 公开(公告)号 CN1717720A 公开(公告)日 2006-01-04
申请人 松下电器产业株式会社; 发明人 国枝伸行; 野村和也; 中村一启;
摘要 本 发明 的声处理装置(10)包括:扬声器(12),输出第1声 信号 所表示的声音;声信号生成部件(13),拾取扬声器(12)输出的声音和话者的语音,生成第2声信号;回波抑制部件(14),抑制第2声信号的回波分量,将抑制了上述回波分量的第2声信号作为第3声信号来输出;声信号存储部件(15),存储第3声信号;语音检测部件(16),从回波抑制部件(14)输出的第3声信号中检测存在话者的语音的区间的始端;以及控制部件(17),控制声信号存储部件(15),以便声信号存储部件(15)将声信号存储部件(15)存储的第3声信号内的、从上述语音检测部件(16)检测出的存在上述话者的语音的区间的始端回溯了预先设定的时间的时刻以后的第3声信号作为第4声信号来输出。
权利要求

1、一种声处理装置,其特征在于,包括:
扬声器,将第1声信号变换为声音,输出变换出的声音;
声信号生成部件,拾取上述扬声器输出的声音和话者的语音,生成第2 声信号,该第2声信号包含了表示上述扬声器输出的声音的回波分量和表示 上述话者语音的语音分量;
回波抑制部件,根据上述第1声信号和上述第2声信号来抑制上述第2 声信号的回波分量,将抑制了上述回波分量的第2声信号作为第3声信号来 输出;
声信号存储部件,存储上述第3声信号;
语音检测部件,从上述回波抑制部件输出的第3声信号中检测上述话者 的语音的始端;以及
控制部件,控制上述声信号存储部件,以便使上述声信号存储部件将上 述声信号存储部件存储的第3声信号内的、从上述语音检测部件检测出的上 述话者的语音的始端回溯了预先设定的时间的时刻以后的第3声信号作为第 4声信号来输出。
2、如权利要求1所述的声处理装置,其特征在于,
上述回波抑制部件包含:自适应滤波器,估计上述第2声信号的回波分 量,生成用于表示估计出的回波分量的伪回波信号;以及
减法器,生成用于表示上述声信号生成部件生成的第2声信号和上述自 适应滤波器生成的伪回波信号之差的差信号;
上述自适应滤波器根据上述第1声信号和上述差信号来生成伪回波信 号;
上述回波抑制部件将上述减法器生成的差信号作为第3声信号来输出。
3、如权利要求1所述的声处理装置,其特征在于,
上述回波抑制部件包含:
自适应滤波器,估计滤波器系数;
卷积处理部,根据上述自适应滤波器估计出的滤波器系数对上述第1声 信号实施卷积处理,生成伪回波信号;
系数传送部,判定上述自适应滤波器估计出的滤波器系数是否稳定,在 上述滤波器系数稳定的情况下,向上述卷积处理部传送上述自适应滤波器估 计出的滤波器系数;以及
减法器,生成用于表示上述声信号生成部件生成的第2声信号和上述卷 积处理部生成的伪回波信号之差的差信号,
上述自适应滤波器根据上述第1声信号和上述差信号来估计滤波器系 数,
上述回波抑制部件将上述减法器生成的差信号作为第3声信号来输出。
4、如权利要求1所述的声处理装置,其特征在于,
上述回波抑制部件包含:
自适应滤波器,估计滤波器系数;
第1声信号存储部,按先入先出的顺序来存储上述第1声信号,以便向 第1声信号施加延迟并输出;
第2声信号存储部,按先入先出的顺序来存储上述第2声信号,以便向 第2声信号施加延迟并输出;
卷积处理部,根据上述自适应滤波器估计出的滤波器系数对上述第1声 信号存储部输出的第1声信号实施卷积处理,生成伪回波信号;
系数传送部,判定上述自适应滤波器估计出的滤波器系数是否稳定,在 上述滤波器系数稳定的情况下,向上述卷积处理部传送上述自适应滤波器估 计出的滤波器系数;以及
减法器,生成用于表示上述第2声信号存储部输出的第2声信号和上述 卷积处理部生成的伪回波信号之差的差信号;
上述自适应滤波器根据上述第1声信号和上述差信号来估计滤波器系 数;
上述回波抑制部件将上述减法器生成的差信号作为第3声信号来输出。
5、如权利要求1所述的声处理装置,其特征在于,
上述回波抑制部件包含:第1学习数据存储部,将上述第1声信号作为 第1学习数据来存储;
第2学习数据存储部,将上述声信号生成部件生成的第2声信号作为第 2学习数据来存储;
控制部,控制上述第1学习数据存储部和上述第2学习数据存储部,以 便相对应地存储上述第1声信号和上述第2声信号;
自适应滤波器,根据上述第1学习数据存储部中存储的第1声信号和上 述第2学习数据存储部中存储的第2声信号来估计滤波器系数;
卷积处理部,根据上述自适应滤波器估计出的滤波器系数对上述第1声 信号实施卷积处理,生成伪回波信号;
系数传送部,判定上述自适应滤波器估计出的滤波器系数是否稳定,在 上述滤波器系数稳定的情况下,向上述卷积处理部传送上述自适应滤波器估 计出的滤波器系数;以及
减法器,生成用于表示上述声信号生成部件生成的第2声信号和上述卷 积处理部生成的伪回波信号之差的差信号;
上述回波抑制部件将上述减法器生成的差信号作为第3声信号来输出。
6、一种声处理装置,其特征在于,包括:
通信部件,与具有生成第1声信号的声信号生成部件的外部设备经网络 进行通信,从上述外部设备接收上述第1声信号;
扬声器,将该通信部件接收到的第1声信号变换为声音,输出变换出的 声音;
声信号生成部件,拾取上述扬声器输出的声音和话者的语音,生成第2 声信号,该第2声信号包含了表示上述扬声器输出的声音的回波分量和表示 上述话者语音的语音分量;
回波抑制部件,抑制上述声信号生成部件生成的第2声信号的回波分量, 将抑制了上述回波分量的第2声信号作为第3声信号来输出;
声信号存储部件,存储上述第3声信号;
语音检测部件,从上述回波抑制部件输出的第3声信号中检测上述话者 的语音的始端;以及
控制部件,控制上述声信号存储部件,以便使上述声信号存储部件将上 述声信号存储部件存储的第3声信号内的、从上述语音检测部件检测出的上 述话者的语音的始端回溯了预先设定的时间的时刻以后的第3声信号作为第 4声信号来输出。
7、一种声处理装置,其特征在于,包括:
通信部件,与外部设备经网络进行通信,为了使上述外部设备的扬声器 输出上述第1声信号所表示的声音而将上述第1声信号发送到上述外部设备, 接收上述外部设备的声信号生成部件生成的第2声信号;该外部设备具有: 扬声器,将第1声信号变换为声音,输出变换出的声音;以及声信号生成部 件,拾取上述扬声器输出的声音和话者的语音,生成第2声信号,该第2声 信号包含了表示上述扬声器输出的声音的回波分量和表示上述话者语音的语 音分量;
回波抑制部件,抑制该通信部件接收到的第2声信号的回波分量,将抑 制了上述回波分量的第2声信号作为第3声信号来输出;
声信号存储部件,存储上述第3声信号;
语音检测部件,从上述回波抑制部件输出的第3声信号中检测上述话者 的语音的始端;以及
控制部件,控制上述声信号存储部件,以便使上述声信号存储部件将上 述声信号存储部件存储的第3声信号内的、从上述语音检测部件检测出的上 述话者的语音的始端回溯了预先设定的时间的时刻以后的第3声信号作为第 4声信号来输出。
8、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件计 测上述第1声信号的信号电平和上述第3声信号的信号电平,比较计测到的 第1声信号的信号电平及第3声信号的信号电平和预先设定的阈值,检测上 述话者的语音的始端。
9、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件计 测上述第3声信号的噪声分量,按照计测到的噪声分量来更新预先设定的阈 值,比较上述第1声信号的信号电平及上述第3声信号的信号电平和更新过 的阈值,检测上述话者的语音的始端。
10、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 判定上述扬声器是否输出了语音,根据该判定来更新预先设定的阈值,比较 上述第1声信号的信号电平及上述第3声信号的信号电平和更新过的阈值, 检测上述话者的语音的始端。
11、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 计测上述扬声器输出的声音的持续时间,根据上述持续时间来更新预先设定 的阈值,比较上述第1声信号的信号电平及上述第3声信号的信号电平和更 新过的阈值,检测上述话者的语音的始端。
12、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 计算表示上述第1声信号的功率的第1功率值和表示上述第3声信号的功率 的第3功率值,比较算出的第1功率值及第3功率值和预先设定的阈值,检 测上述话者的语音的始端。
13、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 执行上述第1声信号及第3声信号的频率分析,根据该频率分析的结果来检 测上述话者的语音的始端。
14、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 计测上述第2声信号的信号电平和上述第3声信号的信号电平,比较计测到 的第2声信号的信号电平及第3声信号的信号电平和预先设定的阈值,检测 上述话者的语音的始端。
15、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 计算表示上述第2声信号的功率的第2功率值和表示上述第3声信号的功率 的第3功率值,比较算出的第2功率值及第3功率值和预先设定的阈值,检 测上述话者的语音的始端。
16、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 执行上述第2声信号及上述第3声信号的频率分析,根据该频率分析的结果 来检测上述话者的语音的始端。
17、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 计测上述第1声信号至上述第3声信号的各信号电平,比较计测到的第1声 信号至第3声信号的各信号电平和预先设定的阈值,检测上述话者的语音的 始端。
18、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 计算分别表示上述第1声信号至上述第3声信号的各功率的第1功率值、第 2功率值及第3功率值,比较算出的第1声信号至第3声信号的各功率值和 预先设定的阈值,检测上述话者的语音的始端。
19、如权利要求1所述的声处理装置,其特征在于,上述语音检测部件 执行上述第1声信号至上述第3声信号的频率分析,根据该频率分析的结果 来检测上述话者的语音的始端。
20、如权利要求1所述的声处理装置,其特征在于,
包括音量调整部件,调整上述第1声信号的信号电平,调整上述扬声器 输出的声音的音量;
上述语音检测部件计测上述音量调整部件调整过的第1声信号的信号电 平和上述回波抑制部件输出的第3声信号的信号电平,比较计测到的第1声 信号的信号电平及第3声信号的信号电平和预先设定的阈值,检测上述话者 的语音的始端。
21、如权利要求1所述的声处理装置,其特征在于,
包括音量调整部件,调整上述第1声信号的信号电平,调整上述扬声器 输出的声音的音量;
上述语音检测部件计算表示上述音量调整部件调整过的第1声信号的功 率的第1功率值和表示上述回波抑制部件输出的第3声信号的功率的第3功 率值,比较算出的第1功率值及第3功率值和预先设定的阈值,检测上述话 者的语音的始端。
22、如权利要求1所述的声处理装置,其特征在于,
包括音量调整部件,调整上述第1声信号的信号电平,调整上述扬声器 输出的声音的音量;
上述语音检测部件执行上述音量调整部件调整过的第1声信号及上述回 波抑制部件输出的第3声信号的频率分析,根据该频率分析的结果来检测上 述话者的语音的始端。
23、如权利要求1所述的声处理装置,其特征在于,
包括触发信号生成部件,生成与应检测上述话者的语音的始端的时刻相 关联的触发信号;
上述语音检测部件根据上述触发信号生成部件生成的触发信号从上述第 3声信号中检测上述话者的语音的始端。
24、如权利要求23所述的声处理装置,其特征在于,
上述触发信号生成部件生成与应检测上述话者的语音的始端的时刻相关 联的触发信号;
上述语音检测部件根据上述触发信号生成部件生成的触发信号从上述第 3声信号中检测上述话者的语音的始端。
25、如权利要求1所述的声处理装置,其特征在于,
上述声信号生成部件包括:多个话筒元件,拾取上述扬声器输出的声音 和上述话者的语音,分别生成包含表示上述扬声器输出的声音的回波分量和 表示上述话者语音的语音分量的多个声信号;以及声信号合成部,合成上述 多个话筒元件分别生成的多个声信号,生成第2声信号,
上述声信号生成部件将上述声信号合成部生成的第2声信号输出到回波 抑制部件;
上述语音检测部件计测上述声信号合成部生成的第2声信号的信号电 平,比较计测到的第2声信号的信号电平和预先设定的阈值,检测上述话者 的语音的始端。
26、如权利要求1所述的声处理装置,其特征在于,
上述声信号生成部件包括:多个话筒元件,拾取上述扬声器输出的声音 和上述话者的语音,分别生成多个声信号,多个声信号包含了表示上述扬声 器输出的声音的回波分量和表示上述话者语音的语音分量;以及声信号合成 部,合成上述多个话筒元件分别生成的多个声信号,生成第2声信号;
上述声信号生成部件将上述声信号合成部生成的第2声信号输出到回波 抑制部件;
上述语音检测部件计算表示上述声信号合成部生成的第2声信号的功率 的第2功率值,比较算出的第2功率值和预先设定的阈值,检测上述话者的 语音的始端。
27、如权利要求1所述的声处理装置,其特征在于,
上述声信号生成部件包括:多个话筒元件,拾取上述扬声器输出的声音 和上述话者的语音,分别生成多个声信号,多个声信号包含了表示上述扬声 器输出的声音的回波分量和表示上述话者语音的语音分量;以及声信号合成 部,合成上述多个话筒元件分别生成的多个声信号,生成第2声信号;
上述声信号生成部件将上述声信号合成部生成的第2声信号输出到回波 抑制部件;
上述语音检测部件执行上述声信号合成部生成的第2声信号的频率分 析,根据该频率分析的结果来检测上述话者的语音的始端。
28、如权利要求1所述的声处理装置,其特征在于,
包括噪声抑制部件,抑制上述回波抑制部件输出的第3声信号的噪声分 量;
上述语音检测部件计测抑制了上述噪声分量的第3声信号的信号电平, 比较计测到的第3声信号的信号电平和预先设定的阈值,检测上述话者的语 音的始端。
29、如权利要求1所述的声处理装置,其特征在于,
包括噪声抑制部件,抑制上述回波抑制部件输出的第3声信号的噪声分 量,
上述语音检测部件计算表示抑制了上述噪声分量的第3声信号的功率的 第3功率值,比较算出的第3功率值和预先设定的阈值,检测上述话者的语 音的始端。
30、如权利要求1所述的声处理装置,其特征在于,
包括噪声抑制部件,抑制上述回波抑制部件输出的第3声信号的噪声分 量,
上述语音检测部件执行抑制了上述噪声分量的第3声信号的频率分析, 根据该频率分析的结果来检测上述话者的语音的始端。
31、如权利要求3所述的声处理装置,其特征在于,在上述系数传送部 判定为上述滤波器系数稳定时,上述语音检测部件计测上述第2声信号的信 号电平,比较计测到的第2声信号的信号电平和预先设定的阈值,检测上述 话者的语音的始端。
32、如权利要求3所述的声处理装置,其特征在于,在上述系数传送部 判定为上述滤波器系数稳定时,上述语音检测部件计算表示上述第2声信号 的功率的第2功率值,比较算出的第2功率值和预先设定的阈值,检测上述 话者的语音的始端。
33、如权利要求3所述的声处理装置,其特征在于,在上述系数传送部 判定为上述滤波器系数稳定时,上述语音检测部件执行上述第2声信号的频 率分析,根据该频率分析的结果来检测上述话者的语音的始端。
34、一种声处理系统,其特征在于,
包括具有第1及第2声处理装置的至少2个声处理装置;
第1声处理装置具有:扬声器,将输入的第1声信号变换为声音,输出 变换出的声音;声信号生成部件,拾取上述扬声器输出的声音和话者的语音, 生成第2声信号,该第2声信号包含了表示上述扬声器输出的声音的回波分 量和表示上述话者语音的语音分量;回波抑制部件,抑制上述第2声信号的 回波分量,将抑制了上述回波分量的第2声信号作为第3声信号来输出;声 信号存储部件,存储上述第3声信号;语音检测部件,从上述回波抑制部件 输出的第3声信号中检测上述话者的语音;控制部件,控制上述声信号存储 部件,以便上述声信号存储部件将上述声信号存储部件中存储的第3声信号 内的、检测出上述话者的语音的区间的第3声信号作为第4声信号来输出; 以及通信部件,将上述第1声信号发送到上述第2声处理装置;
第2声处理装置具有:扬声器,将输入的第1声信号变换为声音,输出 变换出的声音;声信号生成部件,拾取上述扬声器输出的声音和上述话者的 语音,生成第2声信号,该第2声信号包含了表示上述扬声器输出的声音的 回波分量和表示上述话者语音的语音分量;回波抑制部件,抑制上述第2声 信号的回波分量,将抑制了上述回波分量的第2声信号作为第3声信号来输 出;声信号存储部件,存储上述第3声信号;语音检测部件,从上述回波抑 制部件输出的第3声信号中检测上述话者的语音;控制部件,控制上述声信 号存储部件,以便上述声信号存储部件将上述声信号存储部件中存储的第3 声信号内的、检测出上述话者的语音的区间的第3声信号作为第4声信号来 输出;以及通信部件,将上述第1声信号发送到上述第1声处理装置;
在上述第1声处理装置的语音检测部件检测出上述话者的语音的始端 时,上述第1声处理装置的控制部件进行控制,以便将从检测出上述话者的 语音的时刻回溯了预先设定的时间的时刻作为上述话者的语音的始端使上述 第2声处理装置的声信号存储部件输出上述第4声信号;
在上述第2声处理装置的语音检测部件检测出上述话者的语音的始端 时,上述第2声处理装置的控制部件进行控制,以便使上述第1声处理装置 的声信号存储部件将从检测出上述话者的语音的时刻回溯了预先设定的时间 的时刻作为上述话者的语音的始端来输出上述第4声信号。
35、如权利要求34所述的声处理系统,其特征在于,
上述第1声处理装置的回波抑制部件根据输入到上述第1声处理装置中 的第1声信号、上述第1声处理装置的声信号生成部件生成的第2声信号、 以及从上述第2声处理装置接收到的第1声信号来抑制上述第1声处理装置 的声信号生成部件生成的第2声信号的回波分量;
上述第2声处理装置的回波抑制部件根据输入到上述第2声处理装置中 的第1声信号、上述第2声处理装置的声信号生成部件生成的第2声信号、 以及从上述第1声处理装置接收到的第1声信号来抑制上述第2声处理装置 的声信号生成部件生成的第2声信号的回波分量。
36、一种声处理系统,其特征在于,包括:
音频装置,生成第1声信号;以及
声处理装置,具有:扬声器,取得上述音频装置生成的第1声信号,将 取得的第1声信号变换为声音,输出变换出的声音;声信号生成部件,拾取 上述扬声器输出的声音和话者的语音,生成第2声信号,该第2声信号包含 了表示上述扬声器输出的声音的回波分量和表示上述话者语音的语音分量; 回波抑制部件,抑制上述第2声信号的回波分量,将抑制了上述回波分量的 第2声信号作为第3声信号来输出;声信号存储部件,存储上述第3声信号; 语音检测部件,从上述回波抑制部件输出的第3声信号中检测上述话者的语 音;以及控制部件,控制上述声信号存储部件,以便上述声信号存储部件将 上述声信号存储部件中存储的第3声信号内的、检测出上述话者的语音的区 间的第3声信号作为第4声信号来输出;在上述语音检测部件检测出上述话 者的语音的始端时,上述控制部件进行控制,以便将从检测出上述话者的语 音的时刻回溯了预先设定的时间的时刻作为上述话者的语音的始端使上述声 信号存储部件输出上述第4声信号;
包括:声信号记录装置,取得上述声处理装置的声信号存储部件输出的 第4声信号,记录取得的第4声信号。
37、一种声处理系统,其特征在于,包括:
汽车导航装置,具有:导航信息生成部件,生成导航信息;以及声信号 生成部件,生成第1声信号作为与导航有关的引导语音;以及
声处理装置,具有:扬声器,取得上述汽车导航装置的声信号生成部件 生成的第1声信号,将取得的第1声信号变换为声音,将变换出的声音作为 上述汽车导航装置的引导语音来输出;声信号生成部件,拾取上述扬声器输 出的声音和话者的语音,生成第2声信号,该第2声信号包含了表示上述扬 声器输出的声音的回波分量和表示上述话者语音的语音分量;回波抑制部件, 抑制上述第2声信号的回波分量,将抑制了上述回波分量的第2声信号作为 第3声信号来输出;声信号存储部件,存储上述第3声信号;语音检测部件, 从上述回波抑制部件输出的第3声信号中检测上述话者的语音;以及控制部 件,控制上述声信号存储部件,以便上述声信号存储部件将上述声信号存储 部件中存储的第3声信号内的、检测出上述话者的语音的区间的第3声信号 作为第4声信号来输出;在上述语音检测部件检测出上述话者的语音的始端 时,上述控制部件进行控制,以便将从检测出上述话者的语音的时刻回溯了 预先设定的时间的时刻作为上述话者的语音的始端使上述声信号存储部件输 出上述第4声信号;
上述汽车导航装置还具有:语音识别部件,为了判定话者是否响应上述 引导语音发出了特定的语音,而执行上述声处理装置的声信号存储部件输出 的第4声信号的语音识别;
在用上述汽车导航装置的语音识别部件判定为上述话者发出了特定的语 音时,
上述汽车导航装置的导航信息生成部件生成与上述特定的语音相应的导 航信息。
38、一种声处理系统,其特征在于,包括:
外部设备,具有:声信号生成部件,生成用于表示语音的第1声信号; 以及
声处理装置,具有:扬声器,取得上述外部设备的声信号生成部件生成 的第1声信号,将取得的第1声信号变换为声音,将变换出的声音作为上述 外部设备的语音来输出;声信号生成部件,拾取上述扬声器输出的声音和话 者的语音,生成第2声信号,该第2声信号包含了表示上述扬声器输出的声 音的回波分量和表示上述话者语音的语音分量;回波抑制部件,抑制上述第 2声信号的回波分量,将抑制了上述回波分量的第2声信号作为第3声信号 来输出;声信号存储部件,存储上述第3声信号;语音检测部件,从上述回 波抑制部件输出的第3声信号中检测上述话者的语音;以及控制部件,控制 上述声信号存储部件,以便上述声信号存储部件将上述声信号存储部件中存 储的第3声信号内的、检测出上述话者的语音的区间的第3声信号作为第4 声信号来输出;在上述语音检测部件检测出上述话者的语音的始端时,上述 控制部件进行控制,以便将从检测出上述话者的语音的时刻回溯了预先设定 的时间的时刻作为上述话者的语音的始端使上述声信号存储部件输出上述第 4声信号;
上述外部设备还具有:语音识别部件,为了判定话者是否响应上述扬声 器输出的语音发出了语音,而执行上述声处理装置的声信号存储部件输出的 第4声信号的语音识别;
上述外部设备的声信号生成部件根据上述语音识别部件的语音识别来生 成用于表示响应语音的第1声信号,以便响应上述话者发出的语音。
39、一种声处理方法,其特征在于,包括:
准备步骤,准备声处理装置,该声处理装置具有:扬声器,将第1声信 号变换为声音,输出变换出的声音;声信号生成部件,拾取上述扬声器输出 的声音和话者的语音,生成第2声信号,该第2声信号包含了表示上述扬声 器输出的声音的回波分量和表示上述话者语音的语音分量;回波抑制部件, 根据上述第1声信号和上述第2声信号来抑制上述第2声信号的回波分量, 将抑制了上述回波分量的第2声信号作为第3声信号来输出;声信号存储部 件,与时间信息相关联来存储上述第3声信号;语音检测部件,从上述回波 抑制部件输出的第3声信号中检测上述话者的语音;以及控制部件,控制上 述声信号存储部件,以便上述声信号存储部件将上述声信号存储部件中存储 的第3声信号内的、检测出上述话者的语音的区间的第3声信号作为第4声 信号来输出;在上述语音检测部件检测出上述话者的语音的始端时,上述控 制部件进行控制,以便将从检测出上述话者的语音的时刻回溯了预先设定的 时间的时刻作为上述话者的语音的始端使上述声信号存储部件输出上述第4 声信号;
回波抑制步骤,上述回波抑制部件根据第1声信号和上述第2声信号来 抑制上述第2声信号的回波分量;
存储步骤,上述声信号存储部件与时间信息相关联来存储第3声信号;
语音检测步骤,上述语音检测部件从上述第3声信号中检测上述话者的 语音;以及
控制步骤,上述控制部件控制上述声信号存储部件,以便上述声信号存 储部件将上述声信号存储部件中存储的第3声信号内的、检测出上述话者的 语音的区间的第3声信号作为第4声信号来输出;
在上述控制步骤中,在上述语音检测部件检测出上述话者的语音的始端 时,上述控制部件进行控制,以便将从检测出上述话者的语音的时刻回溯了 预先设定的时间的时刻作为上述话者的语音的始端使上述声信号存储部件输 出上述第4声信号。
40、一种声处理程序,能够使计算机执行,其特征在于,包括:
回波抑制步骤,根据第1声信号和第2声信号来抑制上述第2声信号的 回波分量,将抑制了上述回波分量的第2声信号作为第3声信号来输出;
存储步骤,与时间信息相关联来存储上述第3声信号;
语音检测步骤,从上述第3声信号中检测话者的语音;以及
控制步骤,控制上述声信号存储部件,以便上述声信号存储部件将上述 声信号存储部件中存储的第3声信号内的、检测出上述话者的语音的区间的 第3声信号作为第4声信号来输出;
在上述控制步骤中,在上述语音检测部件检测出上述话者的语音的始端 时,上述控制部件进行控制,以便将从检测出上述话者的语音的时刻回溯了 预先设定的时间的时刻作为上述话者的语音的始端使上述声信号存储部件输 出上述第4声信号。
41、一种记录媒体,记录着计算机可执行的声处理程序,其特征在于,
上述声处理程序包括:回波抑制步骤,根据第1声信号和上述第2声信 号来抑制上述第2声信号的回波分量,将抑制了上述回波分量的第2声信号 作为第3声信号来输出;
存储步骤,与时间信息相关联来存储上述第3声信号;
语音检测步骤,从上述第3声信号中检测话者的语音;以及
控制步骤,控制上述声信号存储部件,以便上述声信号存储部件将上述 声信号存储部件中存储的第3声信号内的、检测出上述话者的语音的区间的 第3声信号作为第4声信号来输出;
在上述控制步骤中,在上述语音检测部件检测出上述话者的语音的始端 时,上述控制部件进行控制,以便将从检测出上述话者的语音的时刻回溯了 预先设定的时间的时刻作为上述话者的语音的始端使上述声信号存储部件输 出上述第4声信号。

说明书全文

技术领域

发明涉及声处理系统、声处理装置、声处理方法、声处理程序及存储 媒体,特别涉及抑制声信号的回波分量、处理抑制了回波分量的声信号的声 处理系统、声处理装置、声处理方法、声处理程序及存储媒体。

背景技术

以往,作为这种声处理装置,已知有下述电视会议系统或免提通话系统 等:在从扬声器输出远端话者的语音或音乐等声音的环境下,用话筒拾取从 扬声器输出的声音和近端话者的语音,将拾取的声音作为近端话者的语音发 送到远端话者。
在这种现有的声处理装置中,为了解决从扬声器输出的声音作为回声混 入到话筒中这一问题,采用了回波消除器来抑制拾取的声音中的回波分量。
所谓回波消除器,是利用从扬声器输出的声音是已知的这一事实、根据 从扬声器输出的已知声音和输入到话筒中的声音用自适应滤波器来估计输入 到话筒中的声音中混入的的回波分量、抑制回波分量的装置。采用了该回波 消除器的声处理装置例如在(日本)电子情报通信学会(编)《音响システムとデ イジタル処理》(pp.209-218,コロナ社,1995)或(日本)北胁信彦(编著)《デイ ジタル音声·オ—デイオ技術》(オ—ム社,pp.221-257,1999)等中有详细说明。
此外,在包括语音识别部来识别话者语音的语音对话系统中,例如在汽 车导航系统的语音对话部中,在从扬声器例如输出了“您有什么事?”这一引 导语音时,为了不与“您有什么事?”这一引导语音混合来识别话者的语音“想 去A游乐场。”,也要求降低回波分量。
此外,在现有的语音对话系统中,有下述制约:在输出引导语音期间, 不执行话筒取入的声音的语音识别,在未输出引导语音期间执行话筒取入的 声音的语音识别。
然而,等待引导语音结束容易使人烦躁。近来,为了在输出引导语音期 间插入话者的语音,提出了称为强插(Barge-in)的各种插入方法。(例如(日本) 北胁信彦(编著)《音のコミユニケ—シヨン工学》(コロナ社,pp.128-130, 1996))。
用语音对话系统来实现强插时的问题是,如果包含引导语音作为回波分 量,则对话者的语音的语音识别造成恶劣影响,容易误识别,所以利用回波 消除器来减少回波分量。然而,仍有残留回波,难以减少回波分量。
例如,在(日本)特开平8-107375号公报(第4-5页,图1)中记载的“声信 号记录再生装置”及(日本)特开平8-51385号公报(第3-4页,图1)中记载的“信 息处理装置”中,如图33所表示,包括声信号输入部件1、扬声器2、话筒3、 回波消除器4、以及声信号输出部件5,回波抑制部件4减少回波分量。此外, 在(日本)特开2001-94379号公报(第3-4页,图1)中记载的“语音输入方式”中, 通过从回波消除器处理过的信号中只提取语音部分,再次从扬声器输出,使 话者确认发声内容。然而,由于是在噪声环境下、或者回波路径随时间变化 等原因而使回波分量的估计精度降低,所以不能减少残留回波。
此外,在(日本)特开2001-134275号公报(第3-4页,图5)中记载的“语音 识别装置”中,如图34所表示,包括声信号输入部件1、扬声器2、话筒3、 回波消除器4、声信号输出部件5、以及语音区间检测部件6,回波消除器4 判定是否存在话者的语音,语音区间检测部件6提取语音区间,但是提取存 在话者的语音的区间产生时延,所以在话者结束发声之前,不能对该发声的 语音开始语音识别。
此外,在(日本)特开平5-323993号公报(第3-4页,图1)中记载的“语音 对话系统”、(日本)特许第3229335号公报(第4页,图2)中记载的“语音处理 装置及方法”、及(日本)特开平7-264103号公报(第4页,图1)中记载的“语音 的叠加检测方法及装置和利用该检测装置的语音输入输出装置”中,都判断在 输入的声信号中是否包含话者发声的语音,在判断为包含时,分别开始语音 识别,或者结束自适应滤波器的学习,或者结束适合回波消除器的学习的数 据的取得。
然而,在这种现有的声处理装置中有下述问题:将从开始输入话者发声 的语音、到判断为输入了话者发声的语音的时间中输入的话者发声的语音误 识别为背景噪声或回声分量等,其结果是回波分量的估计精度降低,不能减 少残留回波。
本发明就是为了解决这种问题而提出的,其目的在于提供一种声处理装 置,能够缩短输出抑制了回波的声信号所需的延时,而且降低残留回波。

发明内容

第1发明的声处理装置具有下述结构,包括:扬声器,将第1声信号变 换为声音,输出变换出的声音;声信号生成部件,拾取上述扬声器输出的声 音和话者的语音,生成第2声信号,该第2声信号包含了表示上述扬声器输 出的声音的回波分量和表示上述话者语音的语音分量;回波抑制部件,根据 上述第1声信号和上述第2声信号来抑制上述第2声信号的回波分量,将抑 制了上述回波分量的第2声信号作为第3声信号来输出;声信号存储部件, 存储上述第3声信号;语音检测部件,从上述回波抑制部件输出的第3声信 号中检测上述话者的语音的始端;以及控制部件,控制上述声信号存储部件, 以便使上述声信号存储部件将上述声信号存储部件存储的第3声信号内的、 从上述语音检测部件检测出的上述话者的语音的始端回溯了预先设定的时间 的时刻以后的第3声信号作为第4声信号来输出。
通过该结构,声处理装置的语音检测部件检测出话者的语音的始端后, 控制部件将回溯了预先设定的时间的时刻作为上述话者的语音的始端使声信 号存储部件输出第4声信号,所以从开始输入话者发声的语音、到判断为输 入了话者发声的语音的时间中输入的话者发声的语音也作为第4声信号来输 出,从而能够高精度地估计回波分量,减少残留回波。此外,不等待话者的 语音结束就开始输出第4声信号,所以能够缩短输出抑制了回波的声信号所 需的延时。
第2发明的声处理装置具有下述结构,上述回波抑制部件包含:自适应 滤波器,估计上述第2声信号的回波分量,生成用于表示估计出的回波分量 的伪回波信号;以及减法器,生成用于表示上述声信号生成部件生成的第2 声信号和上述自适应滤波器生成的伪回波信号之差的差信号;上述自适应滤 波器根据上述第1声信号和上述差信号来生成伪回波信号;上述回波抑制部 件将上述减法器生成的差信号作为第3声信号来输出。
通过该结构,回波抑制部件能够抑制声信号生成部件生成的第2声信号 的回波分量。
第3发明的声处理装置具有下述结构,上述回波抑制部件包含:自适应 滤波器,估计滤波器系数;卷积处理部,根据上述自适应滤波器估计出的滤 波器系数对上述第1声信号实施卷积处理,生成伪回波信号;系数传送部, 判定上述自适应滤波器估计出的滤波器系数是否稳定,在上述滤波器系数稳 定的情况下,向上述卷积处理部传送上述自适应滤波器估计出的滤波器系数; 以及减法器,生成用于表示上述声信号生成部件生成的第2声信号和上述卷 积处理部生成的伪回波信号之差的差信号;上述自适应滤波器根据上述第1 声信号和上述差信号来估计滤波器系数;上述回波抑制部件将上述减法器生 成的差信号作为第3声信号来输出。
通过该结构,自适应滤波器根据第1声信号和第2声信号来估计滤波器 系数,系数传送部在滤波器系数稳定的情况下向卷积处理部传送滤波器系数, 所以回波抑制部件能够用卷积处理部生成的伪回波信号来高精度地抑制回波 分量。
第4发明的声处理装置具有下述结构,上述回波抑制部件包含:自适应 滤波器,估计滤波器系数;第1声信号存储部,按先入先出的顺序来存储上 述第1声信号,以便向第1声信号施加延迟并输出;第2声信号存储部,按 先入先出的顺序来存储上述第2声信号,以便向第2声信号施加延迟并输出; 卷积处理部,根据上述自适应滤波器估计出的滤波器系数对上述第1声信号 存储部输出的第1声信号实施卷积处理,生成伪回波信号;系数传送部,判 定上述自适应滤波器估计出的滤波器系数是否稳定,在上述滤波器系数稳定 的情况下,向上述卷积处理部传送上述自适应滤波器估计出的滤波器系数; 以及减法器,生成用于表示上述第2声信号存储部输出的第2声信号和上述 卷积处理部生成的伪回波信号之差的差信号;上述自适应滤波器根据上述第 1声信号和上述差信号来估计滤波器系数;上述回波抑制部件将上述减法器 生成的差信号作为第3声信号来输出。
通过该结构,卷积处理部等待自适应滤波器系数收敛后生成伪回波信号, 所以回波抑制部件能够高精度地抑制第2声信号的回波分量。
第5发明的声处理装置具有下述结构,上述回波抑制部件包含:第1学 习数据存储部,将上述第1声信号作为第1学习数据来存储;第2学习数据 存储部,将上述声信号生成部件生成的第2声信号作为第2学习数据来存储; 控制部,控制上述第1学习数据存储部和上述第2学习数据存储部,以便相 对应地存储上述第1声信号和上述第2声信号;自适应滤波器,根据上述第 1学习数据存储部中存储的第1声信号和上述第2学习数据存储部中存储的 第2声信号来估计滤波器系数;卷积处理部,根据上述自适应滤波器估计出 的滤波器系数对上述第1声信号实施卷积处理,生成伪回波信号;系数传送 部,判定上述自适应滤波器估计出的滤波器系数是否稳定,在上述滤波器系 数稳定的情况下,向上述卷积处理部传送上述自适应滤波器估计出的滤波器 系数;以及减法器,生成用于表示上述声信号生成部件生成的第2声信号和 上述卷积处理部生成的伪回波信号之差的差信号;上述回波抑制部件将上述 减法器生成的差信号作为第3声信号来输出。
通过该结构,回波抑制部件即使在不能得到足以使自适应滤波器算出的 滤波器系数收敛的数据的情况下,也通过重复使用为学习而保存的数据而使 滤波器系数收敛,卷积处理部用收敛的滤波器系数来生成伪回波信号,所以 能够高精度地抑制第2声信号的回波分量。
第6发明的声处理装置具有下述结构,包括:通信部件,与具有生成第 1声信号的声信号生成部件的外部设备经网络进行通信,从上述外部设备接 收上述第1声信号;扬声器,将该通信部件接收到的第1声信号变换为声音, 输出变换出的声音;声信号生成部件,拾取上述扬声器输出的声音和话者的 语音,生成第2声信号,该第2声信号包含了表示上述扬声器输出的声音的 回波分量和表示上述话者语音的语音分量;回波抑制部件,抑制上述声信号 生成部件生成的第2声信号的回波分量,将抑制了上述回波分量的第2声信 号作为第3声信号来输出;声信号存储部件,存储上述第3声信号;语音检 测部件,从上述回波抑制部件输出的第3声信号中检测上述话者的语音的始 端;以及控制部件,控制上述声信号存储部件,以便使上述声信号存储部件 将上述声信号存储部件存储的第3声信号内的、从上述语音检测部件检测出 的上述话者的语音的始端回溯了预先设定的时间的时刻以后的第3声信号作 为第4声信号来输出。
通过该结构,声处理装置能够构成与外部设备经网络相连的声处理系统。
第7发明的声处理装置具有下述结构,包括:通信部件,与外部设备经 网络进行通信,为了使上述外部设备的扬声器输出上述第1声信号所表示的 声音而将上述第1声信号发送到上述外部设备,接收上述外部设备的声信号 生成部件生成的第2声信号;该外部设备具有:扬声器,将第1声信号变换 为声音,输出变换出的声音;以及声信号生成部件,拾取上述扬声器输出的 声音和话者的语音,生成第2声信号,该第2声信号包含了表示上述扬声器 输出的声音的回波分量和表示上述话者语音的语音分量;回波抑制部件,抑 制该通信部件接收到的第2声信号的回波分量,将抑制了上述回波分量的第 2声信号作为第3声信号来输出;声信号存储部件,存储上述第3声信号; 语音检测部件,从上述回波抑制部件输出的第3声信号中检测上述话者的语 音的始端;以及控制部件,控制上述声信号存储部件,以便使上述声信号存 储部件将上述声信号存储部件存储的第3声信号内的、从上述语音检测部件 检测出的上述话者的语音的始端回溯了预先设定的时间的时刻以后的第3声 信号作为第4声信号来输出。
通过该结构,声处理装置能够构成与外部设备经网络相连的声处理系统。
第8发明的声处理装置具有下述结构,上述语音检测部件计测上述第1 声信号的信号电平和上述第3声信号的信号电平,比较计测到的第1声信号 的信号电平及第3声信号的信号电平和预先设定的阈值,检测上述话者的语 音的始端。
通过该结构,语音检测部件能够根据第1声信号的信号电平、第3声信 号的信号电平、以及预先设定的阈值,来高精度地检测第3声信号的话者的 语音的始端。
第9发明的声处理装置具有下述结构,上述语音检测部件计测上述第3 声信号的噪声分量,按照计测到的噪声分量来更新预先设定的阈值,比较上 述第1声信号的信号电平及上述第3声信号的信号电平和更新过的阈值,检 测上述话者的语音的始端。
通过该结构,语音检测部件即使在第3声信号中包含噪声分量的情况下, 也能够高精度地检测第3声信号的话者的语音的始端。
第10发明的声处理装置具有下述结构,上述语音检测部件判定上述扬声 器是否输出了语音,根据该判定来更新预先设定的阈值,比较上述第1声信 号的信号电平及上述第3声信号的信号电平和更新过的阈值,检测上述话者 的语音的始端。
通过该结构,语音检测部件能够根据扬声器输出的声音来更新阈值,所 以能够高精度地检测第3声信号的话者的语音的始端。
第11发明的声处理装置具有下述结构,上述语音检测部件计测上述扬声 器输出的声音的持续时间,根据上述持续时间来更新预先设定的阈值,比较 上述第1声信号的信号电平及上述第3声信号的信号电平和更新过的阈值, 检测上述话者的语音的始端。
通过该结构,语音检测部件即使在从扬声器输出的声音的合计时间短时, 也能够通过更新阈值,来高精度地检测第3声信号的话者的语音的始端。
第12发明的声处理装置具有下述结构,上述语音检测部件计算表示上述 第1声信号的功率的第1功率值和表示上述第3声信号的功率的第3功率值, 比较算出的第1功率值及第3功率值和预先设定的阈值,检测上述话者的语 音的始端。
通过该结构,语音检测部件能够根据容易测定的信号的功率,来高精度 地检测第3声信号的话者的语音的始端。
第13发明的声处理装置具有下述结构,上述语音检测部件执行上述第1 声信号及第3声信号的频率分析,根据该频率分析的结果来检测上述话者的 语音的始端。
通过该结构,语音检测部件根据第3声信号的频率分析的结果来检测话 者的语音,所以能够高精度地检测第3声信号的话者的语音的始端。
第14发明的声处理装置具有下述结构,上述语音检测部件计测上述第2 声信号的信号电平和上述第3声信号的信号电平,比较计测到的第2声信号 的信号电平及第3声信号的信号电平和预先设定的阈值,检测上述话者的语 音的始端。
通过该结构,语音检测部件能够根据第2声信号的信号电平、第3声信 号的信号电平、以及预先设定的阈值,来高精度地检测第3声信号的话者的 语音的始端。
第15发明的声处理装置具有下述结构,上述语音检测部件计算表示上述 第2声信号的功率的第2功率值和表示上述第3声信号的功率的第3功率值, 比较算出的第2功率值及第3功率值和预先设定的阈值,检测上述话者的语 音的始端。
通过该结构,语音检测部件能够根据第2声信号的功率、第3声信号的 功率、以及预先设定的阈值,来高精度地检测第3声信号的话者的语音的始 端。
第16发明的声处理装置具有下述结构,上述语音检测部件执行上述第2 声信号及上述第3声信号的频率分析,根据该频率分析的结果来检测上述话 者的语音的始端。
通过该结构,语音检测部件根据第2声信号及第3声信号的频率分析的 结果来检测话者的语音,所以能够高精度地检测第3声信号的话者的语音的 始端。
第17发明的声处理装置具有下述结构,上述语音检测部件计测上述第1 声信号至上述第3声信号的各信号电平,比较计测到的第1声信号至第3声 信号的各信号电平和预先设定的阈值,检测上述话者的语音的始端。
通过该结构,语音检测部件能够根据第1声信号至第3声信号的各信号 电平和预先设定的阈值,来高精度地检测第3声信号的话者的语音的始端。
第18发明的声处理装置具有下述结构,上述语音检测部件计算分别表示 上述第1声信号至上述第3声信号的各功率的第1功率值、第2功率值及第 3功率值,比较算出的第1声信号至第3声信号的各功率值和预先设定的阈 值,检测上述话者的语音的始端。
通过该结构,语音检测部件能够根据第1声信号至第3声信号的各功率 和预先设定的阈值,来高精度地检测第3声信号的话者的语音的始端。
第19发明的声处理装置具有下述结构,上述语音检测部件执行上述第1 声信号至上述第3声信号的频率分析,根据该频率分析的结果来检测上述话 者的语音的始端。
通过该结构,语音检测部件根据第1声信号至第3声信号的频率分析来 检测话者的语音,所以能够高精度地检测第3声信号的话者的语音的始端。
第20发明的声处理装置具有下述结构,包括:音量调整部件,调整上述 第1声信号的信号电平,调整上述扬声器输出的声音的音量;上述语音检测 部件计测上述音量调整部件调整过的第1声信号的信号电平和上述回波抑制 部件输出的第3声信号的信号电平,比较计测到的第1声信号的信号电平及 第3声信号的信号电平和预先设定的阈值,检测上述话者的语音的始端。
通过该结构,语音检测部件根据音量调节部件调节过的第1声信号的信 号电平、第3声信号的信号电平、以及预先设定的阈值来检测话者的语音, 所以能够高精度地检测第3声信号的话者的语音的始端。
第21发明的声处理装置具有下述结构,包括:音量调整部件,调整上述 第1声信号的信号电平,调整上述扬声器输出的声音的音量;上述语音检测 部件计算表示上述音量调整部件调整过的第1声信号的功率的第1功率值和 表示上述回波抑制部件输出的第3声信号的功率的第3功率值,比较算出的 第1功率值及第3功率值和预先设定的阈值,检测上述话者的语音的始端。
通过该结构,语音检测部件根据音量调节部件调节过信号电平的第1声 信号的功率、第3声信号的功率、以及预先设定的阈值来检测话者的语音, 所以能够高精度地检测第3声信号的话者的语音的始端。
第22发明的声处理装置具有下述结构,包括:音量调整部件,调整上述 第1声信号的信号电平,调整上述扬声器输出的声音的音量;上述语音检测 部件执行上述音量调整部件调整过的第1声信号及上述回波抑制部件输出的 第3声信号的频率分析,根据该频率分析的结果来检测上述话者的语音的始 端。
通过该结构,语音检测部件根据音量调节部件调节过信号电平的第1声 信号和第3声信号的频率分析的结果来检测话者的语音,所以能够高精度地 检测第3声信号的话者的语音的始端。
第23发明的声处理装置具有下述结构,包括:触发信号生成部件,生成 与应检测上述话者的语音的始端的时刻相关联的触发信号;上述语音检测部 件根据上述触发信号生成部件生成的触发信号从上述第3声信号中检测上述 话者的语音的始端。
通过该结构,语音检测部件能够根据触发信号生成部件生成的触发信号, 来高精度地检测第3声信号的话者的语音的始端。
第24发明的声处理装置具有下述结构,上述触发信号生成部件生成与应 检测上述话者的语音的始端的时刻相关联的触发信号;上述语音检测部件根 据上述触发信号生成部件生成的触发信号从上述第3声信号中检测上述话者 的语音的始端。
通过该结构,语音检测部件能够根据触发信号生成部件生成的触发信号, 来高精度地检测第3声信号的话者的语音的始端。
第25发明的声处理装置具有下述结构,上述声信号生成部件包括:多个 话筒元件,拾取上述扬声器输出的声音和上述话者的语音,分别生成多个声 信号,多个声信号包含了表示上述扬声器输出的声音的回波分量和表示上述 话者语音的语音分量;以及声信号合成部,合成上述多个话筒元件分别生成 的多个声信号,生成第2声信号;上述声信号生成部件将上述声信号合成部 生成的第2声信号输出到回波抑制部件;上述语音检测部件计测上述声信号 合成部生成的第2声信号的信号电平,比较计测到的第2声信号的信号电平 和预先设定的阈值,检测上述话者的语音的始端。
通过该结构,声处理装置能够提高话者发声的语音的信噪比,同时能够 降低从扬声器输出、输入到声信号生成部件中的第2声信号的回波分量,所 以语音检测部件能够根据第2声信号的信号电平和预先设定的阈值来高精度 地检测第3声信号的话者的语音的始端。
第26发明的声处理装置具有下述结构,上述声信号生成部件包括:多个 话筒元件,拾取上述扬声器输出的声音和上述话者的语音,分别生成多个声 信号,多个声信号包含了表示上述扬声器输出的声音的回波分量和表示上述 话者语音的语音分量;以及声信号合成部,合成上述多个话筒元件分别生成 的多个声信号,生成第2声信号;上述声信号生成部件将上述声信号合成部 生成的第2声信号输出到回波抑制部件;上述语音检测部件计算表示上述声 信号合成部生成的第2声信号的功率的第2功率值,比较算出的第2功率值 和预先设定的阈值,检测上述话者的语音的始端。
通过该结构,声处理装置能够提高话者发声的语音的信噪比,同时能够 降低表示从扬声器输出、输入到声信号生成部件中的声音的第2声信号的回 波分量,所以语音检测部件能够根据第2声信号的功率和预先设定的阈值来 高精度地检测第3声信号的话者的语音的始端。
第27发明的声处理装置具有下述结构,上述声信号生成部件包括:多个 话筒元件,拾取上述扬声器输出的声音和上述话者的语音,分别生成多个声 信号,多个声信号包含了表示上述扬声器输出的声音的回波分量和表示上述 话者语音的语音分量;以及声信号合成部,合成上述多个话筒元件分别生成 的多个声信号,生成第2声信号;上述声信号生成部件将上述声信号合成部 生成的第2声信号输出到回波抑制部件;上述语音检测部件执行上述声信号 合成部生成的第2声信号的频率分析,根据该频率分析的结果来检测上述话 者的语音的始端。
通过该结构,声处理装置提高话者发声的语音的信噪比,同时降低表示 从扬声器输出、输入到声信号生成部件中的声音的第2声信号的回波分量, 根据第2声信号的频率分析来检测话者的语音,所以能够高精度地检测第3 声信号的话者的语音的始端。
第28发明的声处理装置具有下述结构,包括:噪声抑制部件,抑制上述 回波抑制部件输出的第3声信号的噪声分量;上述语音检测部件计测抑制了 上述噪声分量的第3声信号的信号电平,比较计测到的第3声信号的信号电 平和预先设定的阈值,检测上述话者的语音的始端。
通过该结构,语音检测部件根据噪声抑制部件抑制了噪声分量的第3声 信号的信号电平和预先设定的阈值来检测话者的语音,所以能够高精度地检 测第3声信号的话者的语音的始端。
第29发明的声处理装置具有下述结构,包括:噪声抑制部件,抑制上述 回波抑制部件输出的第3声信号的噪声分量;上述语音检测部件计算表示抑 制了上述噪声分量的第3声信号的功率的第3功率值,比较算出的第3功率 值和预先设定的阈值,检测上述话者的语音的始端。
通过该结构,语音检测部件根据噪声抑制部件抑制了噪声分量的第3声 信号的功率和预先设定的阈值来检测话者的语音,所以能够高精度地检测第 3声信号的话者的语音的始端。
第30发明的声处理装置具有下述结构,包括:噪声抑制部件,抑制上述 回波抑制部件输出的第3声信号的噪声分量;上述语音检测部件执行抑制了 上述噪声分量的第3声信号的频率分析,根据该频率分析的结果来检测上述 话者的语音的始端。
通过该结构,语音检测部件根据噪声抑制部件抑制了噪声分量的第3声 信号的频率分析的结果来检测话者的语音,所以能够高精度地检测第3声信 号的话者的语音的始端。
第31发明的声处理装置具有下述结构,在上述系数传送部判定为上述滤 波器系数稳定时,上述语音检测部件计测上述第2声信号的信号电平,比较 计测到的第2声信号的信号电平和预先设定的阈值,检测上述话者的语音的 始端。
通过该结构,语音检测部件根据高精度地抑制了回波分量的第2声信号 的信号电平和预先设定的阈值来检测话者的语音,所以能够高精度地检测第 3声信号的话者的语音的始端。
第32发明的声处理装置具有下述结构,在上述系数传送部判定为上述滤 波器系数稳定时,上述语音检测部件计算表示上述第2声信号的功率的第2 功率值,比较算出的第2功率值和预先设定的阈值,检测上述话者的语音的 始端。
通过该结构,语音检测部件根据高精度地抑制了回波分量的第2声信号 的功率和预先设定的阈值来检测话者的语音,所以能够高精度地检测第3声 信号的话者的语音的始端。
第33发明的声处理装置具有下述结构,在上述系数传送部判定为上述滤 波器系数稳定时,上述语音检测部件执行上述第2声信号的频率分析,根据 该频率分析的结果来检测上述话者的语音的始端。
通过该结构,语音检测部件根据高精度地抑制了回波分量的第2声信号 的频率分析的结果来检测话者的语音,所以能够高精度地检测第3声信号的 话者的语音的始端。
第34发明的声处理系统具有下述结构,包括包含第1及第2声处理装置 的至少2个声处理装置;第1声处理装置具有:扬声器,将输入的第1声信 号变换为声音,输出变换出的声音;声信号生成部件,拾取上述扬声器输出 的声音和话者的语音,生成第2声信号,该第2声信号包含了表示上述扬声 器输出的声音的回波分量和表示上述话者语音的语音分量;回波抑制部件, 抑制上述第2声信号的回波分量,将抑制了上述回波分量的第2声信号作为 第3声信号来输出;声信号存储部件,存储上述第3声信号;语音检测部件, 从上述回波抑制部件输出的第3声信号中检测上述话者的语音;控制部件, 控制上述声信号存储部件,以便上述声信号存储部件将上述声信号存储部件 中存储的第3声信号内的、检测出上述话者的语音的区间的第3声信号作为 第4声信号来输出;以及通信部件,将上述第1声信号发送到上述第2声处 理装置;第2声处理装置具有:扬声器,将输入的第1声信号变换为声音, 输出变换出的声音;声信号生成部件,拾取上述扬声器输出的声音和上述话 者的语音,生成第2声信号,该第2声信号包含了表示上述扬声器输出的声 音的回波分量和表示上述话者语音的语音分量;回波抑制部件,抑制上述第 2声信号的回波分量,将抑制了上述回波分量的第2声信号作为第3声信号 来输出;声信号存储部件,存储上述第3声信号;语音检测部件,从上述回 波抑制部件输出的第3声信号中检测上述话者的语音;控制部件,控制上述 声信号存储部件,以便上述声信号存储部件将上述声信号存储部件中存储的 第3声信号内的、检测出上述话者的语音的区间的第3声信号作为第4声信 号来输出;以及通信部件,将上述第1声信号发送到上述第1声处理装置; 在上述第1声处理装置的语音检测部件检测出上述话者的语音的始端时,上 述第1声处理装置的控制部件进行控制,以便将从检测出上述话者的语音的 时刻回溯了预先设定的时间的时刻作为上述话者的语音的始端使上述第1声 处理装置的声信号存储部件输出上述第4声信号;在上述第2声处理装置的 语音检测部件检测出上述话者的语音的始端时,上述第2声处理装置的控制 部件进行控制,以便将从检测出上述话者的语音的时刻回溯了预先设定的时 间的时刻作为上述话者的语音的始端使上述第2声处理装置的声信号存储部 件输出上述第4声信号。
通过该结构,即使在第1声处理装置及第2声处理装置未直接连接的状 态下第1声处理装置及第2声处理装置的声信号生成部件分别拾取双方的声 处理装置的扬声器输出的声音的情况下,双方的第1声信号也分别输入到双 方的回波抑制部件,所以能够实现任一个声处理装置的回波处理部件都能够 分别抑制第2声信号的回波分量的系统。
第35发明的声处理系统具有下述结构,上述第1声处理装置的回波抑制 部件根据输入到上述第1声处理装置中的第1声信号、上述第1声处理装置 的声信号生成部件生成的第2声信号、以及从上述第2声处理装置接收到的 第1声信号来抑制上述第1声处理装置的声信号生成部件生成的第2声信号 的回波分量;上述第2声处理装置的回波抑制部件根据输入到上述第2声处 理装置中的第1声信号、上述第2声处理装置的声信号生成部件生成的第2 声信号、以及从上述第1声处理装置接收到的第1声信号来抑制上述第2声 处理装置的声信号生成部件生成的第2声信号的回波分量。
通过该结构,即使在第1声处理装置及第2声处理装置的声信号生成部 件分别拾取双方的声处理装置的扬声器输出的声音的情况下,双方的第1声 信号也分别输入到双方的回波抑制部件,所以能够实现任一个声处理装置的 回波处理部件都能够分别抑制第2声信号的回波分量的系统。
第36发明的声处理系统具有下述结构,包括:音频装置,生成第1声信 号;以及声处理装置,具有:扬声器,取得上述音频装置生成的第1声信号, 将取得的第1声信号变换为声音,输出变换出的声音;声信号生成部件,拾 取上述扬声器输出的声音和话者的语音,生成第2声信号,该第2声信号包 含了表示上述扬声器输出的声音的回波分量和表示上述话者语音的语音分 量;回波抑制部件,抑制上述第2声信号的回波分量,将抑制了上述回波分 量的第2声信号作为第3声信号来输出;声信号存储部件,存储上述第3声 信号;语音检测部件,从上述回波抑制部件输出的第3声信号中检测上述话 者的语音;以及控制部件,控制上述声信号存储部件,以便上述声信号存储 部件将上述声信号存储部件中存储的第3声信号内的、检测出上述话者的语 音的区间的第3声信号作为第4声信号来输出;在上述语音检测部件检测出 上述话者的语音的始端时,上述控制部件进行控制,以便将从检测出上述话 者的语音的时刻回溯了预先设定的时间的时刻作为上述话者的语音的始端使 上述声信号存储部件输出上述第4声信号;包括:声信号记录装置,取得上 述声处理装置的声信号存储部件输出的第4声信号,记录取得的第4声信号。
通过该结构,声处理装置即使在扬声器将音频装置生成的第1声信号作 为声音来输出、声信号生成部件生成包含表示扬声器输出的声音的回波分量 和表示话者语音的语音分量的第2声信号的情况下,语音检测部件也能够高 精度地检测第3声信号的话者的语音的始端,声信号记录装置也能够记录声 处理装置输出的第4声信号。
第37发明的声处理系统具有下述结构,包括:汽车导航装置,具有:导 航信息生成部件,生成导航信息;以及声信号生成部件,生成第1声信号作 为与导航有关的引导语音;以及声处理装置,具有:扬声器,取得上述汽车 导航装置的声信号生成部件生成的第1声信号,将取得的第1声信号变换为 声音,将变换出的声音作为上述汽车导航装置的引导语音来输出;声信号生 成部件,拾取上述扬声器输出的声音和话者的语音,生成第2声信号,该第 2声信号包含了表示上述扬声器输出的声音的回波分量和表示上述话者语音 的语音分量;回波抑制部件,抑制上述第2声信号的回波分量,将抑制了上 述回波分量的第2声信号作为第3声信号来输出;声信号存储部件,存储上 述第3声信号;语音检测部件,从上述回波抑制部件输出的第3声信号中检 测上述话者的语音;以及控制部件,控制上述声信号存储部件,以便上述声 信号存储部件将上述声信号存储部件中存储的第3声信号内的、检测出上述 话者的语音的区间的第3声信号作为第4声信号来输出;在上述语音检测部 件检测出上述话者的语音的始端时,上述控制部件进行控制,以便将从检测 出上述话者的语音的时刻回溯了预先设定的时间的时刻作为上述话者的语音 的始端使上述声信号存储部件输出上述第4声信号;上述汽车导航装置还具 有:语音识别部件,为了判定话者是否响应上述引导语音发出了特定的语音, 而执行上述声处理装置的声信号存储部件输出的第4声信号的语音识别;在 用上述汽车导航装置的语音识别部件判定为上述话者发出了特定的语音时, 上述汽车导航装置的导航信息生成部件生成与上述特定的语音相应的导航信 息。
通过该结构,声处理装置即使在扬声器将汽车导航装置生成的第1声信 号作为声音来输出、声信号生成部件生成包含表示扬声器输出的声音的回波 分量和表示话者语音的语音分量的第2声信号的情况下,语音检测部件也能 够高精度地检测第3声信号的话者的语音的始端,导航装置也能够输入声处 理装置输出的第4声信号来执行语音识别。
第38发明的声处理系统具有下述结构,包括:外部设备,具有:声信号 生成部件,生成用于表示语音的第1声信号;以及声处理装置,具有:扬声 器,取得上述外部设备的声信号生成部件生成的第1声信号,将取得的第1 声信号变换为声音,将变换出的声音作为上述外部设备的语音来输出;声信 号生成部件,拾取上述扬声器输出的声音和话者的语音,生成第2声信号, 该第2声信号包含了表示上述扬声器输出的声音的回波分量和表示上述话者 语音的语音分量;回波抑制部件,抑制上述第2声信号的回波分量,将抑制 了上述回波分量的第2声信号作为第3声信号来输出;声信号存储部件,存 储上述第3声信号;语音检测部件,从上述回波抑制部件输出的第3声信号 中检测上述话者的语音;以及控制部件,控制上述声信号存储部件,以便上 述声信号存储部件将上述声信号存储部件中存储的第3声信号内的、检测出 上述话者的语音的区间的第3声信号作为第4声信号来输出;在上述语音检 测部件检测出上述话者的语音的始端时,上述控制部件进行控制,以便将从 检测出上述话者的语音的时刻回溯了预先设定的时间的时刻作为上述话者的 语音的始端使上述声信号存储部件输出上述第4声信号;上述外部设备还具 有:语音识别部件,为了判定话者是否响应上述扬声器输出的语音发出了语 音,而执行上述声处理装置的声信号存储部件输出的第4声信号的语音识别; 上述外部设备的声信号生成部件根据上述语音识别部件的语音识别来生成用 于表示响应语音的第1声信号,以便响应上述话者发出的语音。
通过该结构,声处理系统即使在扬声器将外部设备生成的第1声信号作 为声音来输出、声信号生成部件生成包含表示扬声器输出的声音的回波分量 和表示话者语音的语音分量的第2声信号的情况下,语音检测部件也能够高 精度地检测第3声信号的话者的语音的始端,外部设备也能够输入声处理装 置输出的第4声信号来执行语音识别,根据语音识别的结果来生成用于表示 响应话者发出的语音的响应语音的第1声信号。
第39发明的声处理方法具有下述结构,包括:准备步骤,准备声处理装 置,该声处理装置具有:扬声器,将第1声信号变换为声音,输出变换出的 声音;声信号生成部件,拾取上述扬声器输出的声音和话者的语音,生成第 2声信号,该第2声信号包含了表示上述扬声器输出的声音的回波分量和表 示上述话者语音的语音分量;回波抑制部件,根据上述第1声信号和上述第 2声信号来抑制上述第2声信号的回波分量,将抑制了上述回波分量的第2 声信号作为第3声信号来输出;声信号存储部件,与时间信息相关联来存储 上述第3声信号;语音检测部件,从上述回波抑制部件输出的第3声信号中 检测上述话者的语音;以及控制部件,控制上述声信号存储部件,以便上述 声信号存储部件将上述声信号存储部件中存储的第3声信号内的、检测出上 述话者的语音的区间的第3声信号作为第4声信号来输出;在上述语音检测 部件检测出上述话者的语音的始端时,上述控制部件进行控制,以便将从检 测出上述话者的语音的时刻回溯了预先设定的时间的时刻作为上述话者的语 音的始端使上述声信号存储部件输出上述第4声信号;回波抑制步骤,上述 回波抑制部件根据第1声信号和上述第2声信号来抑制上述第2声信号的回 波分量;存储步骤,上述声信号存储部件与时间信息相关联来存储第3声信 号;语音检测步骤,上述语音检测部件从上述第3声信号中检测上述话者的 语音;以及控制步骤,上述控制部件控制上述声信号存储部件,以便上述声 信号存储部件将上述声信号存储部件中存储的第3声信号内的、检测出上述 话者的语音的区间的第3声信号作为第4声信号来输出;在上述控制步骤中, 在上述语音检测部件检测出上述话者的语音的始端时,上述控制部件进行控 制,以便将从检测出上述话者的语音的时刻回溯了预先设定的时间的时刻作 为上述话者的语音的始端使上述声信号存储部件输出上述第4声信号。
通过该结构,语音检测步骤检测出话者的语音的始端后,控制部件将回 溯了预先设定的时间的时刻作为上述话者的语音的始端使声信号存储部件输 出第4声信号,所以能够实现一种声处理方法,能够不等待话者的发声结束 就开始输出第4声信号,而且能够将从开始输入话者发声的语音、到判断为 输入了话者发声的语音的时间中输入的话者发声的语音也作为第4声信号来 输出。
第40发明的声处理程序具有下述结构,能够使计算机执行,包括:回波 抑制步骤,根据第1声信号和第2声信号来抑制上述第2声信号的回波分量, 将抑制了上述回波分量的第2声信号作为第3声信号来输出;存储步骤,与 时间信息相关联来存储上述第3声信号;语音检测步骤,从上述第3声信号 中检测话者的语音;以及控制步骤,控制上述声信号存储部件,以便上述声 信号存储部件将上述声信号存储部件中存储的第3声信号内的、检测出上述 话者的语音的区间的第3声信号作为第4声信号来输出;在上述控制步骤中, 在上述语音检测部件检测出上述话者的语音的始端时,上述控制部件进行控 制,以便将从检测出上述话者的语音的时刻回溯了预先设定的时间的时刻作 为上述话者的语音的始端使上述声信号存储部件输出上述第4声信号。
通过该结构,语音检测步骤检测出话者的语音的始端,控制步骤将回溯 了预先设定的时间的时刻作为上述话者的语音的始端使声信号存储部件输出 第4声信号,所以能够实现一种声处理程序,能够不等待话者的发声结束就 开始输出第4声信号,而且能够将从开始输入话者发声的语音、到判断为输 入了话者发声的语音的时间中输入的话者发声的语音也作为第4声信号来输 出。
第41发明的记录媒体具有下述结构,记录着计算机可执行的声处理程 序,上述声处理程序包括:回波抑制步骤,根据第1声信号和第2声信号来 抑制上述第2声信号的回波分量,将抑制了上述回波分量的第2声信号作为 第3声信号来输出;存储步骤,与时间信息相关联来存储上述第3声信号; 语音检测步骤,从上述第3声信号中检测话者的语音;以及控制步骤,控制 上述声信号存储部件,以便上述声信号存储部件将上述声信号存储部件中存 储的第3声信号内的、检测出上述话者的语音的区间的第3声信号作为第4 声信号来输出;在上述控制步骤中,在上述语音检测部件检测出上述话者的 语音的始端时,上述控制部件进行控制,以便将从检测出上述话者的语音的 时刻回溯了预先设定的时间的时刻作为上述话者的语音的始端使上述声信号 存储部件输出上述第4声信号。
通过该结构,语音检测步骤检测出话者的语音的始端,控制步骤将回溯 了预先设定的时间的时刻作为上述话者的语音的始端使声信号存储部件输出 第4声信号,所以能够实现一种存储着声处理程序的存储媒体,能够不等待 话者的发声结束就开始输出第4声信号,而且能够将从开始输入话者发声的 语音、到判断为输入了话者发声的语音的时间中输入的话者发声的语音也作 为第4声信号来输出。
附图说明
通过后面结合以下附图进行的描述,本发明的声处理装置的特征及优点 将会变得很明显。
图1是本发明第1实施方式的声处理装置的结构的方框图
图2是本发明第1实施方式的声处理装置的回波消除器的一例的方框图。
图3是本发明第1实施方式的声处理装置的回波消除器的一例的方框图。
图4是用于表示回波消除器的效果的时间信号波形的示例图。
图5是语音检测部件的工作示例图。
图6是本发明第1实施方式第1其他形态的声处理装置的结构的方框图。
图7是本发明第1实施方式第1其他形态的声处理装置的外形图。
图8是本发明第1实施方式第2其他形态的声处理装置的方框图。
图9是语音对话系统的示例图。
图10是语音对话系统的示例图。
图11是本发明第2实施方式的声处理装置的结构的方框图。
图12是本发明第2实施方式的声处理装置的语音检测部件设定阈值的阈 值设定方法的示例图。
图13是对本发明第2实施方式的声处理装置输出的声信号进行语音识别 的情况下的语音识别率和对现有的声处理装置输出的声信号进行语音识别的 情况下的语音识别率之间进行比较的比较图。
图14是本发明第3实施方式的声处理装置的结构的方框图。
图15是本发明第4实施方式的声处理装置的结构的方框图。
图16是本发明第5实施方式的声处理装置的结构的方框图。
图17是本发明第6实施方式的声处理装置的结构的方框图。
图18是本发明第7实施方式的声处理装置的结构的方框图。
图19是本发明第8实施方式的声处理装置的结构的方框图。
图20是本发明第9实施方式的声处理装置的结构的方框图。
图21是本发明第10实施方式的声处理装置的结构的方框图。
图22是本发明第11实施方式的声处理装置的结构的方框图。
图23是本发明第12实施方式的声处理装置的结构的方框图。
图24是本发明第13实施方式的声处理装置的结构的方框图。
图25是本发明第14实施方式的声处理系统的结构的方框图。
图26是本发明第14实施方式的声处理系统的回波消除器的结构的方框 图。
图27是本发明第14实施方式的声处理系统的回波消除器的结构的方框 图。
图28是本发明第14实施方式的另一对应的声处理系统的结构的方框图。
图29是将本发明的声处理装置应用于电视操作系统的示例图。
图30是将本发明的声处理装置应用于与机器人的语音对话系统的示例 图。
图31是本发明第15实施方式的声处理装置的方框图。
图32是本发明第15实施方式的声处理装置的各步骤的流程图
图33是现有的声处理装置的方框图。
图34是现有的声处理装置的方框图。

具体实施方式

以下参照图1至图32来说明本发明实施方式的声处理装置。
(第1实施方式)
第1实施方式的声处理装置10如图1所表示,包括:声信号输入部件 11,输入表示声音的第1声信号;扬声器12,将该声信号输入部件11输入的 第1声信号变换为声音,输出变换出的声音;以及话筒13,拾取该扬声器12 输出的声音和话者的语音,生成第2声信号。
这里,话筒13构成声信号生成部件。此外,第2声信号包含表示话者语 音的语音分量、通过拾取扬声器12输出的声音而生成的回波分量、以及从话 筒13周边的声源生成的噪声分量。
声处理装置10还包括:回波消除器14,根据声信号输入部件11输入的 第1声信号和话筒13生成的第2声信号来抑制第2声信号的回波分量,将抑 制了回波分量的第2声信号作为第3声信号来输出;声信号存储部件15,存 储回波消除器14输出的第3声信号;语音检测部件16,从回波消除器14输 出的第3声信号中检测话者的语音的始端;以及控制部件17,控制声信号存 储部件15,以便使声信号存储部件15将声信号存储部件15存储的第3声信 号内的、从语音检测部件16检测出的话者的语音的始端回溯了预先设定的时 间的时刻以后的第3声信号作为第4声信号来输出。
这里,回波消除器14构成回波抑制部件。
回波消除器14如图2所表示,包含:自适应滤波器19,估计第2声信 号的回波分量,生成用于表示估计出的回波分量的伪回波信号;以及减法器 20,生成用于表示话筒13生成的第2声信号和自适应滤波器19生成的伪回 波信号之间的差分的差信号;回波消除器14将减法器20生成的差信号作为 第3声信号来输出。自适应滤波器19根据第1声信号和减法器20生成的差 信号来生成伪回波信号。
这里,也可以将图2所表示的本实施方式的回波消除器14置换为图3 所表示的回波消除器24。回波消除器24如图3所表示,包含:自适应滤波 器19,估计滤波器系数;卷积处理部22,根据该自适应滤波器19估计出的 滤波器系数对第1声信号进行卷积处理,生成伪回波信号;系数传送部21, 向卷积处理部22传送自适应滤波器19估计出的滤波器系数;以及第1减法 器23,生成用于表示话筒13生成的第2声信号和卷积处理部22生成的伪回 波信号之间的差分的差信号;自适应滤波器19根据第1声信号和第1减法器 23生成的差信号来估计滤波器系数。
此外,回波消除器24将第1减法器23生成的差信号作为第3声信号来 输出。另一方面,自适应滤波器19估计滤波器系数,并且生成伪回波信号。
回波消除器24还包含:第2减法器25,生成用于表示话筒13生成的第 2声信号和自适应滤波器19生成的伪回波信号之间的差分的差信号。另一方 面,自适应滤波器19反馈第2减法器25生成的差信号,更新滤波器系数。
系数传送部21判定自适应滤波器19估计出的滤波器系数是否稳定,在 滤波器系数稳定的情况下,向卷积处理部22传送自适应滤波器19估计出的 滤波器系数,更新卷积处理部22的滤波器系数。另一方面,卷积处理部22 根据系数传送部21更新过的滤波器系数来生成伪回波信号。
图3所表示的回波消除器24例如记载于非专利文献1《デユアルフイル タ构成エコ—抑圧における係数転送方式について》(王、松井、寺田、中山 著:日本音响学会讲演论文集,3-p-10,pp.491-492,Oct.1999)中。此外, 对于图3所表示的回波消除器24中的自适应滤波器19的算法,在前述非专 利文献1或(日本)非专利文献2《适応フイルタ入》(S.ヘイキン著,武部 干(译):现代工学社,1987)中记载了各种手法,省略其详细说明。
此外,为了表示除扬声器12及话筒13以外的各部处理离散的时间序列 信号,第1声信号及第2声信号分别用标号x(i)及d(i)来表示,i表示是离散 的时间序列信号中的第i个信号。此外,假设第2声信号的回波分量为y(i), 第2声信号的语音分量为s(i),第2声信号的噪声分量为n(i),则第2声信号 d(i)可表示为d(i)=s(i)+y(i)+n(i)。
这里,说明下述情况:例如在本实施方式的声处理装置10上连接汽车导 航装置,声信号输入部件11将表示该汽车导航装置的引导语音的声信号作为 第1声信号来接收,将接收到的第1声信号输出到扬声器12。
其中,图4示出了话筒13生成的第2声信号d(i)的回波分量y(i)、第2 声信号d(i)的语音分量s(i)、第2声信号d(i)=y(i)+s(i)、回波消除器14生成的 第3声信号e(i)的时间波形的一例。此外,为了容易理解已抑制了回波分量, 示出了可将背景噪声n(i)看作零时的时间波形。
此外,对于回波消除器14输出的第3声信号e(i),比较了滤波器系数不 稳定时(滤波器系数的变动未收敛时)回波消除器14抑制了回波分量的情况下 的第3声信号e1(i)、和滤波器系数稳定时(滤波器系数的变动收敛时)抑制了回 波分量、从回波消除器14输出的第3声信号e2(i)。
如图4(d)、(e)所表示,在滤波器系数不稳定时,未充分抑制回波分量, 在第3声信号e1中存在着残留回波。另一方面,在滤波器系数稳定时,充分 抑制了回波分量,在第3声信号e2中不存在残留回波。
语音检测部件16计测第3声信号e(i)的信号电平,比较计测到的第3声 信号e(i)的信号电平和预先设定的阈值,检测话者的语音的始端,生成用于将 是否是在第3声信号中存在话者的语音的区间的判定结果通知给控制部件17 的控制信号
这里,语音检测部件16也可以判定扬声器11是否输出了声音,根据该 判定来更新预先设定的阈值,比较第3声信号e(i)的信号电平和更新过的阈 值,检测话者的语音的始端。
此外,语音检测部件16也可以计测扬声器输出的声音的持续时间,根据 该持续时间来更新预先设定的阈值,比较第3声信号e(i)的信号电平和更新过 的阈值,检测话者的语音的始端。
图5比较示出了存在残留回波及话者的语音的区间的第3声信号e(i)和 语音检测部件16生成的控制信号。
语音检测部件16生成的控制信号,在语音检测部件16未检测出话者的 语音的区间中生成用于表示OFF(“关”)状态的控制信号,从检测出话者的语 音的始端时起变化为ON(“开”)状态,在检测出话者的语音的区间中生成用于 表示ON状态的控制信号,输出到控制部件17。
如图5所表示,通常在比话者的发声开始略晚的定时生成用于表示ON 状态的控制信号。因此,设发声语音的检测结果从OFF变为ON的瞬间的时 刻为Ton,声信号存储部件15由控制部件17控制,将从时刻Ton回溯了时 间Tm的时刻Ts以后的信号e(i)作为第4声信号来输出。
因此,从声信号存储部件15中存储的信号中减少回声分量,通过声信号 输出部件18来输出包含用户发声的语音分量的信号。
接着,说明本实施方式的声处理装置10的工作。
首先,例如将表示“您去哪儿?”这一引导语音的第1声信号输入到声信 号输入部件11中。接着,将第1声信号输入到回波消除器14中,由扬声器 12将引导语音输出到空中。
在话者响应引导语音、例如发出了“想去A游乐场。”时,话筒13拾取 话者的语音以及引导语音,生成包含表示话者语音的语音分量和表示作为回 波而拾取的引导语音的回波分量的第2声信号。该引导语音成为回声,在对 话者发声的语音进行语音处理的情况下成为干扰音,所以由回波消除器14进 行消除回声的处理。
以下,以图2为例来说明回波消除器14进行的回声消除处理。
假设由声信号输入部件11输入的引导语音的时间序列信号为x(i),该引 导语音x(i)从扬声器12混入到话筒13中的信号、即回声为y(i),用户发声的 信号为s(i),背景噪声信号为n(i),则输入到话筒13中的信号d(i)可用 d(i)=s(i)+y(i)+n(i)来表现。
此时,自适应滤波器19计算d(i)中包含的引导信号分量y(i)的估计值 yd(i),作为回波消除器14的处理而进行e(i)=d(i)-yd(i)。这样得到消除了从话 筒13输入的信号d(i)中包含的引导语音分量的第3声信号e(i),由声信号存 储部件15来存储。
将如前所述从回波消除器14输出的第3声信号e(i)临时存储到声信号存 储部件15中。此时,同时将来自回波消除器14的第3声信号e(i)送至语音检 测部件16,进行在第3声信号e(i)中检测用户发声的语音分量的检测处理。 该检测处理例如根据信号的功率来进行,观测第3声信号e(i)的平均功率P(i), 在功率P(i)超过阈值TH时判断为在e(i)中包含用户发声的语音分量。
接着,进一步详细说明存在话者的语音的区间的提取。
如图5所表示,回波消除器14输出的第3声信号e(i)表示引导语音的残 余即残留回波、和该残留回波之后接着的话者的语音。图5示出了回波消除 器14输出的第3声信号以及语音检测部件16生成的控制信号。该控制信号 取“H”电平和“L”电平这2个值,在检测第3声信号的话者的语音时,将“H” 电平与判定为存在话者的语音的区间相对应,将“L”电平与判定为不存在话者 的语音的区间相对应。因此,从“L”电平上升到“H”电平的时刻“Ton”是判定为 存在话者的语音的区间的始端。
此外,如图5所表示,在比话者的语音开始略晚的定时,控制信号上升 到“H”电平,所以控制部件17将回波消除器14输出的第3声信号存储到声信 号存储部件15中,将从控制信号上升的时刻“Ton”回溯了预先设定的时间 “Tm”的时刻以后声信号存储部件15存储的第3声信号作为第4声信号从声 信号存储部件15输出。
因此,控制部件17将只提取出存在话者的语音的区间的第4声信号从声 信号存储部件15输出到声信号输出部件18,所以声信号输出部件18能够向 外部设备输出减少了回波分量的第4声信号。
如上所述,本实施方式的声处理装置10从检测出存在话者的语音的区间 的始端时起向外部设备输出减少了回波分量的声信号,所以与检测出存在话 者的语音的区间的末端后向外部设备输出减少了回波分量的声信号的现有的 声处理装置相比,能够缩短回波抑制处理所需的时间。
此外,本实施方式的声处理装置10即使在不能充分抑制回波分量的环境 下,也能够在回波消除器输出的第3声信号中比较准确地提取存在话者的语 音的区间,作为第4声信号输出到外部设备。
此外,在组合使用本实施方式的声处理装置和语音识别装置的情况下, 声处理装置将存在话者的语音的区间作为第4声信号输出到语音识别装置, 所以语音识别装置能够高效率地执行话者的语音的语音识别。
接着,参照图6及图7来说明本实施方式第1另一方式的声处理装置30。
如图6及图7所表示,声处理装置30在与再生乐曲的音频装置31的组 合中,执行回波抑制处理,将从声信号存储部件15输出的第4声信号经声信 号输出部件18输出到声信号记录装置32。
通过该结构,在用户按照从扬声器12输出的乐曲将语音或歌声录音到声 信号记录装置32中时,能够从话筒13生成的声信号中减少回波分量,将减 少了回波分量的声信号输出到声信号记录装置32。
接着,参照图8至图10来说明本实施方式第2另一形态的声处理装置 40。
如图8至图10所表示,本实施方式第2另一形态的声处理装置40被包 含在具有生成引导语音的声信号生成部件41、和对从声信号输出部件18输 出的声信号执行语音识别的语音识别部件42的电子设备中,执行回波抑制处 理。
通过该结构,声处理装置执行回波抑制处理,提取存在话者的语音的区 间的声信号,所以语音识别部件能够高效率地执行话者的语音的语音识别。
此外,如图9及图10所表示,通过在该电子设备的监视器43上显示动 画色,按照引导语音及话者的语音的识别结果来变化动画角色的表情,操 作者能够以人际对话的感觉与电子设备进行对话,例如搜索或记录信息。
(第2实施方式)
作为用于实施发明的最佳方式,说明了第1实施方式的声处理装置。然 而,为了完成本申请的课题,也可以是第2实施方式的声处理装置。
以下,参照图11至图13来说明本发明第2实施方式的声处理装置。
本实施方式的声处理装置50如图11所表示,包括:声信号输入部件51; 扬声器52;话筒53;回波消除器54;声信号存储部件55;声信号输出部件 58;语音检测部件56,响应声信号输入部件51输入的第1声信号和回波消 除器输出的第3声信号来检测话者的语音的始端;以及控制部件57,控制声 信号存储部件55,以便使声信号存储部件55将声信号存储部件55存储的第 3声信号内的、从语音检测部件56检测出的话者的语音的始端回溯了预先设 定的时间的时刻以后的第3声信号作为第4声信号来输出。
语音检测部件56计测第1声信号的信号电平和第3声信号的信号电平, 比较计测到的第1声信号的信号电平及第3声信号的信号电平与预先设定的 阈值,检测话者的语音的始端。
在本实施方式的声处理装置50中,如上所述,语音检测部件56计测第 1声信号的信号电平和第3声信号的信号电平,比较计测到的第1声信号的 信号电平及第3声信号的信号电平与预先设定的阈值,检测话者的语音的始 端;但是语音检测部件也可以计算表示第1声信号的功率的第1功率值和表 示第3声信号的功率的第3功率值,比较算出的第1功率值及第3功率值和 预先设定的阈值,检测话者的语音的始端。此外,语音检测部件也可以执行 第1声信号及第3声信号的频率分析,根据该频率分析的结果来检测话者的 语音的始端。再者,语音检测部件也可以计测第3声信号的噪声分量,按照 计测到的噪声分量来更新预先设定的阈值,比较第1声信号的信号电平及第 3声信号的信号电平和更新过的阈值,检测话者的语音的始端。
如上所述,语音检测部件56根据声信号输入部件51输入的第1声信号 和回波消除器54输出的第3声信号来判定是否是话者的语音,所以能够以比 较高的精度来检测话者的语音的始端。
此外,语音检测部件56在根据声信号输入部件51输入的第1声信号而 判定为扬声器52输出了声音时,将预先设定的阈值更新得略高,所以能够以 比较高的精度来检测话者的语音的始端。
此外,语音检测部件56对回波消除器54输出的第3声信号e(i)进行平 滑,计测平滑过的第3声信号的信号电平Pe(i),将不存在话者的语音时的第 3声信号的信号电平作为背景噪声的平滑值Pn(i)来记录,逐计算平滑过的 第3声信号的信号电平Pe(i)和背景噪声的平滑值Pn(i)之间的差分 L(i)=Pe(i)-Pn(i),在算出的差分L(i)超过预先设定的阈值TH时,判定为存在 话者的语音。
此外,语音检测部件56最好计测扬声器输出的声音的持续时间,根据该 持续时间来更新预先设定的阈值,比较第1声信号的信号电平及第3声信号 的信号电平和更新过的阈值。此外,语音检测部件最好判定扬声器52是否输 出了声音,根据该判定来来更新预先设定的阈值,比较第1声信号的信号电 平及第3声信号的信号电平和更新过的阈值。此外,如图12所表示,第3声 信号的语音分量的大小、或者第3声信号的回波分量的消去量根据背景噪声 的大小来变化,所以语音检测部件56最好也根据平滑过的第3声信号的信号 电平Pe(i)来更新阈值。
在图12中,阈值设定方法1示出了不依赖于背景噪声的平滑值Pn(i)、 采用了恒定的阈值TH的一例。另一方面,阈值设定方法2示出了与背景噪 声的平滑值Pn(i)成正比来增加阈值TH的值的一例。此外,阈值设定方法3 示出了阈值TH根据噪声电平Pn(i)来增加、但是在某个Pn(i)的范围内阈值TH 不变化的例子。图12所表示的3种阈值设定方法只是一例,最好按照系统用 最佳的方法来设定。
这里,补充说明用于有效地进行回波抑制处理的阈值TH的设定。首先 通过根据背景噪声电平来变化阈值TH,能够有效地进行回波抑制处理。例如, 噪声电平上升后,一般用户的发声电平也上升,所以在噪声电平高时,最好 将发声检测的阈值TH设定得略高。
此外,也可以根据是否从扬声器52输出了声音来变化阈值TH,在从扬 声器52输出了声音的情况下,如果将阈值TH设定得较小,则能够有效地进 行回波抑制处理。
再者,也可以根据从扬声器52输出的声信号的合计时间来变化阈值TH。 这是因为,回波消除器54的性能往往是在从扬声器52输出的声信号的合计 时间短时回波抑制处理不够。因此,在从扬声器52输出的声信号的合计时间 短时,最好将阈值TH设定得略大。
如上所述,能够设定阈值TH来检测用户的发声,减小回声信号,来输 出包含用户产生的声信号的信号。
接着,描述在本实施方式的声处理装置50的声信号输出部件58上连接 了语音识别部件42的情况下调查语音识别部件42的语音识别性能的实验结 果。
图13示出了汽车导航装置进行语音识别处理的情况下的性能评价结果。 在该语音识别实验中,求出了在输出引导语音的期间用户发出设施名时的语 音识别率。条件假定是非特定人型的单词识别,词典为2600个单词的词典, 在与空载相当的SN比为25dB的环境下使用。
图13的横轴是发声的定时,纵轴显示了引导输出开始时刻为0.5秒、用 户的发声定时为U秒时的语音识别率。由该结果可知,与不用回波抑制来进 行语音识别时的识别率61相比,对从声信号输出部件58输出的信号进行语 音识别时的识别率62的语音识别性能大幅度改善了。
接着,说明本实施方式的声处理装置50的工作。其中,除了语音检测部 件56的工作,本实施方式的声处理装置50的工作与第1实施方式的声处理 装置10的工作相同,这里,说明语音检测部件56的工作。
将声信号输入部件51输入的第1声信号和回波消除器54生成的第3声 信号输入到语音检测部件56中。语音检测部件56根据第1声信号和第3声 信号来检测存在话者的语音的区间的始端,将表示检测出始端的意思的控制 信号输出到控制部件57。
接着,进一步详细说明存在话者的语音的区间的检测。
语音检测部件56根据来自声信号输入部件51的输入信号x(i)、和来自 回波消除器54的输出信号e(i)来检测用户的发声。在本实施方式中,以用信 号的平滑值来检测发声的方法为例。其中,所谓信号的平滑值,是指信号振 幅的绝对值的时间平均值。
测定从回波消除器54得到的信号e(i)的平滑值Pe(i),将没有用户的发声 语音时的值作为背景噪声的平滑值Pn(i)来记录。然后,对根据预定的时间划 分的每个帧来连续测定L(i)=Pe(i)-Pn(i),在该L(i)超过阈值TH时,认为有用 户的发声语音。
如上所述,本实施方式的声处理装置的语音检测部件根据回波消除器输 出的第3声信号和声信号输入部件输入的第1声信号来检测话者的语音的始 端,所以即使在不能充分抑制回波分量的环境下,也能够在回波消除器输出 的第3声信号中比较准确地提取存在话者的语音的区间,作为第4声信号输 出到外部设备。
此外,在组合使用本实施方式的声处理装置和语音识别装置的情况下, 声处理装置将存在话者的语音的区间作为第4声信号输出到语音识别装置, 所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第3实施方式)
作为用于实施发明的最佳方式,说明了第1及第2实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第3实施方式的声处理装置。
以下,参照图14来说明本发明第3实施方式的声处理装置。
本实施方式的声处理装置70如图14所表示,包括:声信号输入部件71; 扬声器72;话筒73;回波消除器74;声信号存储部件75;声信号输出部件 78;语音检测部件76,根据话筒73生成的第2声信号和回波消除器74生成 的第3声信号来检测存在话者的语音的区间的始端;以及控制部件77。
此外,控制部件77将回波消除器74输出的第3声信号存储到声信号存 储部件75中,将从语音检测部件76生成的控制信号上升的时刻“Ton”回溯了 预先设定的时间“Tm”的时刻以后声信号存储部件75存储的第3声信号作为 第4声信号从声信号存储部件75输出。此外,控制部件77控制声信号存储 部件75,使得从控制信号上升的时刻“Ton”起开始输出第4声信号。
语音检测部件76取得与声信号输入部件71输入的第1声信号的信号电 平的变化、频率特性、话者的语音有关的信息,所以能够以比较高的精度来 判定是否是话者的语音。例如,在声信号输入部件71输入的第1声信号中检 测语音分量,在能够判断为输出了引导语音的情况下,将预先设定的阈值更 新得略高,判定话者的语音分量是否超过更新过的阈值。
接着,说明本实施方式的声处理装置70的工作。其中,除了语音检测部 件76的工作,本实施方式的声处理装置70的工作与第1实施方式的声处理 装置10的工作相同,这里,说明语音检测部件76的工作。
将话筒73生成的第2声信号和回波消除器74生成的第3声信号输入到 语音检测部件76中。语音检测部件76根据第2声信号和第3声信号来检测 存在话者的语音的区间的始端,将表示检测出始端的意思的控制信号输出到 控制部件77。
如上所述,本实施方式的声处理装置的语音检测部件根据话筒生成的第 2声信号和回波消除器输出的第3声信号来检测存在话者的语音的区间,所 以回波消除器74能够测定在多大程度上抑制了回波分量。
此外,本实施方式的声处理装置根据第2声信号和第3声信号来检测存 在话者的语音的区间的始端,所以即使在不能充分抑制回波分量的环境下, 也能够在回波消除器输出的第3声信号中比较准确地提取存在话者的语音的 区间,作为第4声信号输出到外部设备。
语音检测部件例如在输入到回波消除器74中的第2声信号的信号电平比 较高、而且回波消除器74输出的第3声信号的信号电平也比较高的情况下, 能够判定为存在话者的语音,所以控制部件能够向语音信号存储部件中比较 准确地输出存在语音的区间。
此外,在组合使用本实施方式的声处理装置和语音识别装置的情况下, 声处理装置将存在话者的语音的区间作为第4声信号输出到语音识别装置, 所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第4实施方式)
作为用于实施发明的最佳方式,说明了第3实施方式的声处理装置。然 而,为了完成本申请的课题,也可以是第4实施方式的声处理装置。
以下,参照图15来说明本发明第4实施方式的声处理装置。
本实施方式的声处理装置80如图15所表示,包括:声信号输入部件81; 扬声器82;话筒83;回波消除器84;声信号存储部件85;声信号输出部件 88;语音检测部件86,根据声信号输入部件81输入的第1声信号、话筒83 生成的第2声信号以及回波消除器生成的第3声信号来检测存在话者的语音 的区间的始端;以及控制部件87。
此外,控制部件87将回波消除器84输出的第3声信号存储到声信号存 储部件85中,将从语音检测部件86生成的控制信号上升的时刻“Ton”回溯了 预先设定的时间“Tm”的时刻以后声信号存储部件85存储的第3声信号作为 第4声信号从声信号存储部件85输出。
语音检测部件86从声信号输入部件81输入的第1声信号中取得与信号 电平的变化、频率特性、发声内容有关的信息,所以能够以比较高的精度来 判定是否是话者的语音。例如,在声信号输入部件81输入的第1声信号中检 测出语音分量的情况下,判断为输出了引导语音,将预先设定的阈值更新得 略高,判定话者的语音分量是否超过更新过的阈值。
接着,说明本实施方式的声处理装置80的工作。其中,除了语音检测部 件86的工作,本实施方式的声处理装置80的工作与第3实施方式的声处理 装置70的工作相同,这里,说明语音检测部件86的工作。
将声信号输入部件81输入的第1声信号、话筒83生成的第2声信号以 及回波消除器生成的第3声信号输入到语音检测部件86中。语音检测部件 76根据第1声信号、第2声信号以及第3声信号来检测存在话者的语音的区 间的始端,将表示检测出始端的时刻的控制信号输出到控制部件87。
如上所述,本实施方式的声处理装置根据声信号输入部件81输入的第1 声信号、话筒83生成的第2声信号以及回波消除器生成的第3声信号来检测 存在话者的语音的区间的始端,所以即使在不能充分抑制回波分量的环境下, 也能够在回波消除器输出的第3声信号中比较准确地提取存在话者的语音的 区间,作为第4声信号输出到外部设备。
此外,在组合使用本实施方式的声处理装置和语音识别装置的情况下, 声处理装置将存在话者的语音的区间作为第4声信号输出到语音识别装置, 所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第5实施方式)
作为用于实施发明的最佳方式,说明了第1至第4实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第5实施方式的声处理装置。
以下,参照图16来说明本发明第5实施方式的声处理装置。
本实施方式的声处理装置90如图16所表示,包括:声信号输入部件91; 扬声器92;话筒93;回波消除器94;声信号存储部件95;声信号输出部件 98;音量调整部件99,为了调整扬声器92输出的声音的音量,而调整声信 号输入部件91输出到扬声器92的第1声信号的信号电平;语音检测部件96, 根据音量调整部件99输出的第1声信号和回波消除器94生成的第3声信号 来检测存在话者的语音的区间的始端;以及控制部件97。
此外,控制部件97将回波消除器94输出的第3声信号存储到声信号存 储部件95中,将从语音检测部件96生成的控制信号上升的时刻“Ton”回溯了 预先设定的时间“Tm”的时刻以后声信号存储部件95存储的第3声信号作为 第4声信号从声信号存储部件95输出。
语音检测部件96从声信号输入部件91输入的第1声信号中取得与信号 电平的变化、频率特性、发声内容有关的信息,所以能够以比较高的精度来 判定是否是话者的语音。例如,在声信号输入部件91输入的第1声信号中检 测出语音分量的情况下,将预先设定的阈值更新得略高,判定话者的语音分 量是否超过更新过的阈值。
接着,说明本实施方式的声处理装置90的工作。其中,除了语音检测部 件96及音量调整部件99的工作,本实施方式的声处理装置90的工作与第1 实施方式的声处理装置10的工作相同,这里,只说明语音检测部件96及音 量调整部件99的工作。
音量调整部件99调整从声信号输入部件91输入的声信号的输出电平。 因此,从扬声器92输出的声音的音量的输出电平按照音量调整部件99的调 整来增减,回声分量也增减。
另一方面,语音检测部件96根据从回波消除器94输出的消除处理后的 声信号和音量调整部件99的调整信息的信号来进行用户发声的语音分量的 检测处理。
如上所述,本实施方式的声处理装置的语音检测部件根据音量调整部件 99调整过信号电平的第1声信号和回波消除器输出的第3声信号来检测话者 的语音的始端,所以即使在不能充分抑制回波分量的环境下,也能够在回波 消除器输出的第3声信号中比较准确地提取存在话者的语音的区间,作为第 4声信号来输出。
此外,在组合使用本实施方式的声处理装置和语音识别装置的情况下, 声处理装置将存在话者的语音的区间作为第4声信号输出到语音识别装置, 所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第6实施方式)
作为用于实施发明的最佳方式,说明了第1至第5实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第6实施方式的声处理装置。
以下,参照图17来说明本发明第6实施方式的声处理装置。
本实施方式的声处理装置100如图17所表示,包括:声信号输入部件 101;扬声器102;话筒103;回波消除器104;声信号存储部件105;声信号 输出部件108;发声检测辅助开关109,检测话者发出语音的定时,响应检测 出的定时来生成触发信号;语音检测部件106,根据该发声检测辅助开关109 生成的触发信号和回波消除器104生成的第3声信号来判定第3声信号的话 者的语音分量是否超过预先设定的阈值;以及控制部件107,根据该语音检 测部件106判定出的判定结果来控制声信号存储部件105,使得声信号存储 部件105输出第3声信号。
语音检测部件106响应发声检测辅助开关109生成的触发信号,所以能 够以比较高的精度来判定第3声信号的信号电平是否增加了。
其中,发声检测辅助开关109构成触发信号生成部件。此外,作为发声 检测辅助开关109的具体例,有按钮开关、触摸传感器、用摄像机检测嘴唇 的运动的系统等。
接着,说明本实施方式的声处理装置100的工作。其中,只说明发声检 测辅助开关109的工作。
发声检测辅助开关109在话者开始发声时“开”,将该信号输出到语音检 测部件106。语音检测部件106通过从发声检测辅助开关109接收“开”信号, 来取得话者的发声定时。
如上所述,本实施方式的声处理装置100即使在不能充分抑制回波分量 的环境下,也能够根据触发信号生成部件109生成的触发信号和回波消除器 104输出的第3声信号来比较准确地检测话者的语音的始端。
此外,本实施方式的声处理装置100将存在话者的语音的区间作为第4 声信号来输出,所以能够排除残留回波。
此外,在组合使用本实施方式的声处理装置100和语音识别装置的情况 下,声处理装置100将存在话者的语音的区间作为第4声信号输出到语音识 别装置,所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第7实施方式)
作为用于实施发明的最佳方式,说明了第1至第6实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第7实施方式的声处理装置。
以下,参照图18来说明本发明第7实施方式的声处理装置。
本实施方式的声处理装置110如图18所表示,包括:声信号输入部件 111;扬声器112;多个话筒元件113c至113n,拾取话者的语音,分别生成 多个声信号;声信号合成部件119,合成多个话筒元件113c至113n分别生成 的多个声信号以便增强话者的语音分量,生成第2声信号;回波消除器114, 减少该声信号合成部件119生成的第2声信号的回波分量;声信号存储部件 115;声信号输出部件118;语音检测部件116,根据声信号合成部件119生 成的第2声信号和回波消除器114生成的第3声信号来判定第3声信号的话 者的语音分量是否超过预先设定的阈值;以及控制部件117,根据该语音检 测部件116判定出的判定结果来控制声信号存储部件115,使得声信号存储部 件115输出第3声信号。这里,话筒元件113c至113n构成话筒阵列113。
语音检测部件116能够根据声信号合成部件119生成的第2声信号和回 波消除器114生成的第3声信号用话者的语音以比较高的精度来判定第3声 信号的信号电平是否增加了。
此外,多个话筒元件113c至113n以预先设定的间隔来配置,所以声信 号合成部件119能够增强第2声信号的语音分量,减少第2声信号的回波分 量。
接着,说明本实施方式的声处理装置110的工作。其中,只说明话筒阵 列113及声信号合成部件119的工作。
话筒阵列113拾取话者的语音,将声信号输出到声信号合成部件119。 声信号合成部件119增强话者的声信号,将增强了的声信号输出到语音检测 部件116。语音检测部件116根据增强了的声信号和回波抑制处理过的信号来 进行话者发声的语音分量的检测处理。
如上所述,本实施方式的声处理装置110即使在不能充分抑制回波分量 的环境下,也能够根据声信号合成部件119生成的第2声信号和回波消除器 114输出的第3声信号来比较准确地检测话者的语音的始端。
此外,本实施方式的声处理装置110将存在话者的语音的区间作为第4 声信号来输出,所以能够排除残留回波。
此外,在组合使用本实施方式的声处理装置110和语音识别装置的情况 下,声处理装置110将存在话者的语音的区间作为第4声信号输出到语音识 别装置,所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第8实施方式)
作为用于实施发明的最佳方式,说明了第1至第7实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第8实施方式的声处理装置。
以下,参照图19来说明本发明第8实施方式的声处理装置。
本实施方式的声处理装置120如图19所表示,包括:声信号输入部件 121;扬声器122;话筒123;回波消除器124;噪声抑制部件129,抑制回波 消除器124输出的第3声信号的噪声分量;声信号存储部件125,存储该噪 声抑制部件129抑制了噪声分量的第3声信号;声信号输出部件128;语音 检测部件126,根据噪声抑制部件129抑制了噪声分量的第3声信号来检测 存在话者的语音的区间的始端;以及控制部件127。
语音检测部件126根据噪声抑制部件129抑制了噪声分量的第3声信号 来检测存在话者的语音的区间的始端,所以能够用话者的语音以比较高的精 度来判定第3声信号的信号电平是否增加了。
接着,说明本实施方式的声处理装置120的工作。其中,只说明噪声抑 制部件129的工作。
从回波消除器124输出的第3声信号的噪声分量由噪声抑制部件129来 抑制。接着,抑制了噪声分量的第3声信号由声信号存储部件125来存储。 另一方面,从抑制了噪声分量的第3声信号中检测存在话者的语音的区间的 始端。另一方面,从声信号存储部件125中存储的第3声信号内的、从存在 话者的语音的区间的始端回溯了预先设定的时间的时刻的第3声信号起依次 输出。
如上所述,本实施方式的声处理装置120即使在不能充分抑制回波分量 的环境下,也能够根据噪声抑制部件129抑制了噪声分量的第3声信号来比 较准确地检测话者的语音的始端。
此外,本实施方式的声处理装置120的语音检测部件126从抑制了噪声 分量的第3声信号中检测存在话者的语音的区间的始端,控制部件将声信号 存储部件中存在话者的语音的区间作为第4声信号来输出,所以能够排除残 留回波。
此外,在组合使用本实施方式的声处理装置120和语音识别装置的情况 下,声处理装置120将存在话者的语音的区间作为第4声信号输出到语音识 别装置,所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第9实施方式)
作为用于实施发明的最佳方式,说明了第1至第8实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第9实施方式的声处理装置。
以下,参照图20来说明本发明第9实施方式的声处理装置。
本实施方式的声处理装置130如图20所表示,包括:通信部件132,为 了接收表示远端的话者的语音的第1声信号,而经通信网133与外部设备136 进行通信;声信号输入部件141,输入该通信部件132接收到的第1声信号; 扬声器142,将第1声信号变换为表示远端的话者的语音的声音,输出变换 出的声音;话筒143,拾取近端的话者的语音,生成第2声信号;回波消除 器144;噪声抑制部件149,抑制回波消除器144输出的第3声信号的噪声分 量;声信号存储部件145;语音检测部件146;控制部件147;以及声信号输 出部件148。
通信部件132将声信号输出部件148输出的第4声信号经通信网133发 送到外部设备136。
此外,外部设备136包括:通信部件134,发送第1声信号,并且为了 从声处理装置130接收第4声信号而与声处理装置130进行通信;以及语音 处理部件135,处理该通信部件134接收到的第4声信号。
上述通信网133可以是电话线路或因特网(注册商标)等有线通信网、或 者电波或红外线等无线通信网。
接着,说明本实施方式的声处理装置130的工作。
声信号输入部件141经通信网133从语音处理部件135输入声信号。另 一方面,来自声信号输出部件148的信号经通信网133输出到语音处理部件 135。通信部件132及通信部件134与通信网133进行声信号的发送接收的控 制。
如上所述,本实施方式的声处理装置130即使在不能充分抑制回波分量 的环境下,也能够根据回波消除器144输出的第3声信号来比较准确地检测 话者的语音的始端。
此外,本实施方式的声处理装置130将存在话者的语音的区间的第3声 信号作为第4声信号来输出,所以能够排除残留回波。
再者,本实施方式的声处理装置130包括与外部设备136进行通信的通 信部件132,所以能够向外部设备输出第4声信号。
此外,在组合使用本实施方式的声处理装置130和语音识别装置的情况 下,声处理装置130将存在话者的语音的区间作为第4声信号输出到语音识 别装置,所以语音识别装置能够高效率地执行话者的语音的语音识别。
(第10实施方式)
作为用于实施发明的最佳方式,说明了第1至第9实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第10实施方式的声处理装置。
以下,参照图21来说明本发明第10实施方式的声处理装置。
本实施方式的声处理装置151如图21所表示,包括:声信号输入部件 161,输入第1声信号;以及通信部件154,为了将声信号输入部件161输入 的第1声信号经通信网153发送到外部设备156,而与外部设备156进行通 信。
外部设备156包括:通信部件152,为了接收第1声信号,而与声处理 装置151进行通信;扬声器162,将该通信部件152接收到的第1声信号变 换为声音,输出变换出的声音;以及话筒163,拾取话者的语音,生成第2 声信号。
外部设备的通信部件152将话筒163生成的第2声信号发送到声处理装 置151。另一方面,声处理装置151的通信部件154从外部设备156接收第2 声信号。
声处理装置151还包括:回波消除器164,抑制通信部件154接收到的 第2声信号的回波分量;声信号存储部件165;语音检测部件166;控制部件 167;以及声信号输出部件168。
上述通信网153可以是电话线路或因特网(注册商标)等有线通信网、或 者电波或红外线等无线通信网。
接着,说明本实施方式的声处理系统150的工作。
扬声器162经通信网153从回波消除器164输入声信号,输出声信号所 表示的语音。另一方面,来自话筒163的声信号经通信网153输出到回波消 除器164。通信部件152及通信部件154与通信网153进行声信号的发送接 收。
如上所述,本实施方式的声处理装置151即使在不能充分抑制回波分量 的环境下,也能够根据回波消除器164输出的第3声信号来比较准确地检测 话者的语音的始端。
此外,本实施方式的声处理装置151包括与具有扬声器和话筒的外部设 备进行通信的通信部件,通信部件向外部设备发送第1声信号,使外部设备 的扬声器输出第1声信号所表示的声音,并且接收外部设备的话筒生成的第 2声信号,所以能够抑制接收到的第2声信号的回波分量。
此外,在组合使用本实施方式的声处理装置151和语音识别装置的情况 下,声处理装置151将存在话者的语音的区间作为第4声信号输出到语音识 别装置,所以语音识别装置能够高效率地执行话者的语音的语音识别。
再者,也能够分离位于用户附近的扬声器162及话筒163和回波消除器 164,能够实现更便利的声处理,例如能够用具有扬声器162及话筒163的小 型终端来实现能可靠地进行回波抑制处理的声处理装置等。
(第11实施方式)
作为用于实施发明的最佳方式,说明了第1至第10实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第11实施方式的声处理装置。
以下,参照图22来说明本发明第11实施方式的声处理装置。
本实施方式的声处理装置170如图22所表示,包括:声信号输入部件 181;扬声器182;话筒183;自适应滤波器189,生成第1伪回波信号;以 及第2减法器195,从话筒183生成的第2声信号中减去自适应滤波器189 生成的第1伪回波信号。
此外,自适应滤波器189根据声信号输入部件181输入的第1声信号和 第2减法器195的减法结果来更新滤波器系数,生成与更新过的滤波器系数 相应的第1伪回波信号。
本实施方式的声处理装置170包括:第1声信号存储部171,为了输出 延迟了预先设定的延迟量的第1声信号,而存储话筒183生成的第1声信号; 第2声信号存储部172,为了输出延迟了预先设定的延迟量的第2声信号, 而存储话筒183生成的第2声信号;卷积处理部192,为了生成第2伪回波 信号,而执行卷积处理;第1减法器193,从第2声信号存储部172输出的 第2声信号中减去卷积处理部192生成的第2伪回波信号;以及系数传送部 191,判定自适应滤波器189更新过的滤波器系数是否稳定,在能够判定为稳 定的情况下,将更新过的滤波器系数传送到卷积处理部192。
此外,卷积处理部192执行第1声信号存储部171输出的第1声信号和 系数传送部191传送的滤波器系数之间的卷积处理,生成第2伪回波信号。
接着,说明本实施方式的声处理装置170的工作。
回波消除器174通过设置第1声信号存储部171及第2声信号存储部 172,等待自适应滤波器189估计出的滤波器系数充分收敛,来进行回波抑制 处理。即,在向回波消除器174输入信号后滤波器系数短时间内未收敛的情 况下,通过现有的回波抑制在输出信号后短时间内包含很多残留回波,但是 本实施方式的声处理装置170等待自适应滤波器系数收敛后消除回波,所以 能够抑制残留回波的产生。
如上所述,本实施方式的声处理装置170即使在不能充分抑制回波分量 的环境下,也能够根据回波消除器174输出的第3声信号来比较准确地检测 话者的语音的始端。
此外,本实施方式的声处理装置170的回波消除器174包括:第1声信 号存储部171,为了输出延迟了预先设定的延迟量的第1声信号,而存储话 筒183生成的第1声信号;以及第2声信号存储部172,为了输出延迟了预 先设定的延迟量的第2声信号,而存储话筒183生成的第2声信号;所以能 够等待自适应滤波器系数收敛后抑制回波分量,也能够抑制残留回波的产生。
此外,在组合使用本实施方式的声处理装置170和语音识别装置的情况 下,声处理装置170将存在话者的语音的区间作为第4声信号输出到语音识 别装置,所以语音识别装置能够高效率地执行话者的语音的语音识别。
其中,通过将第1至第10实施方式的声处理装置的回波消除器14置换 为本实施方式的声处理装置170的回波消除器174,能够更可靠地抑制回波 分量。
(第12实施方式)
作为用于实施发明的最佳方式,说明了第1至第11实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第12实施方式的声处理装置。
以下,参照图23来说明本发明第12实施方式的声处理装置。
本实施方式的声处理装置200如图23所表示,包括:声信号输入部件 211;扬声器212;话筒213;自适应滤波器219,生成第1伪回波信号;第1 学习数据存储部201,存储第1声信号;第2学习数据存储部202,与第1学 习数据存储部201存储第1声信号的定时同步来存储第2声信号;控制部203, 控制第1学习数据存储部201及第2学习数据存储部202的存储工作,使得 在检测出适合自适应滤波器219的学习的数据时,将该数据以相同的定时保 存或更新到第1学习数据存储部201及第2学习数据存储部202中;以及第 2减法器225,从话筒213生成的第2声信号中减去自适应滤波器219生成的 第1伪回波信号。
本实施方式的声处理装置200还包括:第1声信号存储部231,为了输 出延迟了预先设定的延迟量的第1声信号,而存储声信号输入部件211生成 的第1声信号;第2声信号存储部232,为了输出延迟了预先设定的延迟量 的第2声信号,而存储话筒213生成的第2声信号;卷积处理部222,为了 生成第2伪回波信号,而执行卷积处理;第1减法器223,从第2声信号存 储部232输出的第2声信号中减去卷积处理部222生成的第2伪回波信号; 以及系数传送部221,判定自适应滤波器219更新过的滤波器系数是否稳定, 在能够判定为稳定的情况下,将更新过的滤波器系数传送到卷积处理部222。
此外,卷积处理部222执行第1声信号存储部231输出的第1声信号和 系数传送部221传送的滤波器系数之间的卷积处理,生成第2伪回波信号。
接着,说明本实施方式的声处理装置200的工作。
控制部203进行控制,使得在检测出适合自适应滤波器219的学习的数 据时,将该数据以相同的定时保存或更新到第1学习数据存储部201及第2 学习数据存储部202中。自适应滤波器219根据第1学习数据存储部201及 第2学习数据存储部202中保存的数据,来重复进行估计滤波器系数的学习。 由此,用很少的数据也能得到收敛了的滤波器系数。其中,用第1学习数据 存储部201及第2学习数据存储部202中存储的数据学习到的滤波器系数有 效是在传递特性变化不大时,所以最好用控制部203尽可能地更新学习所使 用的数据。
如上所述,本实施方式的声处理装置200即使在不能充分抑制回波分量 的环境下,也能够根据回波消除器204输出的第3声信号来比较准确地检测 话者的语音的始端。
此外,本实施方式的声处理装置200的回波消除器204包括:第1声信 号存储部231,为了输出延迟了预先设定的延迟量的第1声信号,而存储话 筒213生成的第1声信号;以及第2声信号存储部232,为了输出延迟了预 先设定的延迟量的第2声信号,而存储话筒213生成的第2声信号;所以能 够等待自适应滤波器系数收敛后抑制回波分量,抑制残留回波的产生。
此外,在组合使用本实施方式的声处理装置200和语音识别装置的情况 下,声处理装置200将存在话者的语音的区间作为第4声信号输出到语音识 别装置,所以语音识别装置能够高效率地执行话者的语音的语音识别。
其中,通过将第1至第10实施方式的声处理装置的回波消除器14置换 为本实施方式的声处理装置的回波消除器204,能够更可靠地抑制回波分量。
(第13实施方式)
作为用于实施发明的最佳方式,说明了第1至第12实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第13实施方式的声处理系统。
以下,参照图24来说明本发明第13实施方式的声处理系统。
本实施方式的声处理装置240如图24所表示,包括:汽车导航装置242, 具有生成用于表示与导航有关的引导语音的第1声信号的声信号生成部件 261;以及声处理装置241。
声处理装置241包含:声信号输入部件251,从汽车导航装置242的声 信号生成部件261取得第1声信号;扬声器252,将声信号输入部件251取 得的第1声信号变换为声音,将变换出的声音作为汽车导航装置242的引导 语音来输出;话筒253,拾取扬声器252输出的声音和话者的语音,生成第2 声信号;回波消除器254,抑制第2声信号的回波分量,将抑制了回波分量 的第2声信号作为第3声信号来输出;声信号存储部件255,存储第3声信 号;语音检测部件256,从回波消除器254输出的第3声信号中检测话者的 语音;控制部件257,控制声信号存储部件255,以便将声信号存储部件255 存储的第3声信号内的、检测出话者的语音的区间的第3声信号从声信号存 储部件255作为第4声信号来输出。
在语音检测部件256检测出存在话者的语音的区间的始端时,控制部件 257将从该始端的时刻回溯了预先设定的时间的时刻以后声信号存储部件 255存储的第3声信号作为第4声信号来输出。另一方面,汽车导航装置242 还具有为了判定话者是否响应引导语音发出了特定的语音而执行声处理装置 241的声信号存储部件255输出的第4声信号的语音识别的语音识别部件 262;在汽车导航装置的语音识别部件262识别出话者的特定的语音时,汽车 导航装置的未图示的导航信息生成部件生成与特定的语音相应的导航信息。
此外,语音检测部件256根据回波消除器输出的第3声信号来生成用于 表示存在话者的语音的区间的始端的时刻的控制信号,输出到控制部件257 及语音识别部件262。
此外,在本实施方式的声处理系统240的工作中,除了将语音检测部件 256的控制信号输出到汽车导航装置242的语音识别部件262,本实施方式的 声处理系统240的语音检测部件256及控制部件257的工作与第1实施方式 的语音检测部件256及控制部件257的工作相同,省略本实施方式的声处理 系统240的工作的说明。
如上所述,本实施方式的声处理系统即使在不能充分抑制回波分量的环 境下,语音检测部件也能够从回波消除器输出的第3声信号中检测话者的语 音的始端,在回波消除器输出的第3声信号中比较准确地提取存在话者的语 音的区间,作为第4声信号来输出。
此外,在像本实施方式的声处理系统这样组合使用声处理装置和具有语 音识别部件的汽车导航装置的情况下,声处理装置将第4声信号输出到汽车 导航装置,所以能够高效率地执行话者的语音的语音识别,并且能够提高语 音识别性能。
(第14实施方式)
首先,说明本发明第14实施方式的声处理系统的结构。
作为用于实施发明的最佳方式,说明了第1至第13实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第14实施方式的声处理系统。
以下,参照图25来说明本发明第14实施方式的声处理系统。
本实施方式的声处理系统300如图25所表示,包括第1声处理装置310 和第2声处理装置330。这些第1及第2声处理装置310及330除了回波消 除器314及334,分别与第1实施方式的声处理装置10在结构上相同。
第1声处理装置310包括声信号输入部件311、扬声器312、话筒313、 回波消除器314、声信号存储部件315、语音检测部件316、控制部件317、 以及声信号输出部件318。另一方面,第2声处理装置330包括声信号输入 部件331、扬声器332、话筒333、回波消除器334、声信号存储部件335、 语音检测部件336、控制部件337、以及声信号输出部件338。
第1声处理装置310的话筒313拾取第1声处理装置310的扬声器312 输出的声音和第2声处理装置330的扬声器332输出的声音和话者的语音, 生成第2声信号。此外,第1声处理装置310的回波消除器314按照第1声 处理装置310的声信号输入部件311输入的第1声信号和第2声处理装置330 的声信号输入部件331输入的第1声信号来抑制第1声处理装置310的话筒 313生成的第2声信号的回波分量。
另一方面,第1声处理装置310的话筒333拾取第1声处理装置310的 扬声器312输出的声音和第2声处理装置330的扬声器332输出的声音和话 者的语音,生成第2声信号。此外,第2声处理装置330的回波消除器334 按照第1声处理装置310的声信号输入部件311输入的第1声信号和第2声 处理装置330的声信号输入部件331输入的第1声信号来抑制第2声处理装 置330的话筒333生成的第2声信号的回波分量。
此外,声处理系统300还包括第1及第2外部设备324及344。
第1外部设备324包含:声信号生成部件321,生成用于表示引导语音 的第1声信号;以及语音识别部件322,执行第1声处理装置310的声信号 输出部件318输出的第4声信号的语音识别。此外,第1声处理装置310的 声信号输入部件311从第1外部设备324的声信号生成部件321取得第1声 信号。另一方面,第2外部设备344包含:声信号生成部件341,生成用于 表示引导语音的第1声信号;以及语音识别部件342,执行第2声处理装置 330的声信号输出部件338输出的第4声信号的语音识别。此外,第2声处 理装置330的声信号输入部件331从第2外部设备344的声信号生成部件341 取得第1声信号。
第1声处理装置310的回波消除器314如图26所表示,包含:自适应滤 波器349,根据声信号输入部件311输入的第1声信号和话筒313生成的第2 声信号来估计话筒313生成的第2声信号的回波分量,生成用于表示估计出 的回波分量的伪回波信号;第1减法器350,生成用于表示话筒313生成的 第2声信号和自适应滤波器349生成的伪回波信号之差的差信号;自适应滤 波器359,根据声信号输入部件311输入的第1声信号和话筒313生成的第2 声信号来估计话筒313生成的第2声信号的回波分量,生成用于表示估计出 的回波分量的伪回波信号;第2减法器360,生成用于表示第1减法器350 生成的差信号和自适应滤波器359生成的伪回波信号之差的差信号;第1声 处理装置310的回波消除器314将第2减法器360生成的差信号作为第3声 信号来输出。
第2声处理装置330的回波消除器334也与第1声处理装置310的回波 消除器314同样,包含自适应滤波器349、第1减法器350、自适应滤波器 359、以及第2减法器360,第2声处理装置330的回波消除器334将第2减 法器生成的差信号作为第3声信号来输出。
接着,说明本实施方式的声处理系统300的工作。
在第1声处理装置310中,首先,第1外部设备324的声信号生成部件 321生成用于表示引导语音的第1声信号,从扬声器312输出引导语音。此 外,第2外部设备344的声信号生成部件341生成用于表示引导语音的第1 声信号,从扬声器332输出引导语音。另一方面,话筒313生成第2声信号。 接着,回波消除器314抑制第2声信号的回波分量,将抑制了回波分量的第 2声信号作为第3声信号来输出。声信号存储部件315逐次存储第3声信号。 此外,语音检测部件316从第3声信号中检测存在话者的语音的区间的始端。 将声信号存储部件315存储的第3声信号内的、从该始端回溯了预先设定的 时间的时刻以后声信号存储部件315存储的第3声信号依次作为第4声信号 来输出。接着,第1外部设备324的语音识别部件322执行第4声信号的语 音识别。
第2声处理装置330也与第1声处理装置310同样,第2外部设备344 的声信号生成部件341生成用于表示引导语音的第1声信号,从扬声器332 输出引导语音。此外,第1外部设备324的声信号生成部件321生成用于表 示引导语音的第1声信号,从扬声器312输出引导语音。另一方面,话筒333 生成第2声信号。接着,回波消除器334抑制第2声信号的回波分量,将抑 制了回波分量的第2声信号作为第3声信号来输出。声信号存储部件335逐 次存储第3声信号。此外,语音检测部件336从第3声信号中检测存在话者 的语音的区间的始端。将声信号存储部件335存储的第3声信号内的、从该 始端回溯了预先设定的时间的时刻以后声信号存储部件335存储的第3声信 号依次作为第4声信号来输出。接着,第2外部设备344的语音识别部件342 执行第4声信号的语音识别。
接着,将本实施方式的另一形态的声处理系统400示于图28。声处理系 统400是部分变更了图25所表示的声处理系统300的结构而成的。即,第1 声处理装置401包括与第2声处理装置402进行通信的通信部件412,执行 第1声信号的接收及第2声信号的发送。另一方面,第2声处理装置402包 括与第1声处理装置401进行通信的通信部件414,执行第1声信号的接收 及第2声信号的发送。因此,即使2个声处理装置未直接连接,也能够有效 地进行回波抑制处理。
例如,可以如图29所表示,将第1及第2声处理装置401及402中的一 个包含在电视机中,将第1及第2声处理装置401及402中的另一个包含在 遥控电视机的电视控制终端中。电视控制终端为了确认操作者是否希望变更 电视机的频道,而执行与操作者的会话,在操作者希望变更电视机的频道的 情况下,遥控电视机变更到操作者希望的频道。
电视控制终端在执行与操作者的会话时,与话者的语音一起来拾取从电 视机的扬声器312输出的音乐415及电视控制终端的引导语音,所以抑制了 话筒333生成的第2声信号内的、与从电视机的扬声器312输出的音乐415 及电视控制终端的引导语音有关的分量,只取出存在话者的语音的区间来执 行语音识别。
此外,如图30所表示,也可以将声处理系统400应用于多个机器人分别 与操作者进行对话的对话系统。
如上所述,本实施方式的声处理系统300即使在不能充分抑制回波分量 的环境下,第1声处理装置310及第2声处理装置330的各回波消除器314 及334也抑制扬声器312产生的回波分量和扬声器332产生的回波分量,各 语音检测部件316及336也检测存在话者的语音的区间的始端,所以能够在 第3声信号中比较准确地提取存在话者的语音的区间,作为第4声信号来输 出。
此外,在组合使用本实施方式的声处理装置和语音识别装置的情况下, 声处理装置将存在话者的语音的区间作为第4声信号输出到语音识别装置, 所以语音识别装置能够高效率地执行话者的语音的语音识别。
在本实施方式中,说明了包括2个声处理装置的声处理系统,但是在包 括3个以上的声处理装置的声处理系统中,也能够得到同样的效果。
此外,在本实施方式的声处理系统300中,第1声处理装置310及第2 声处理装置330也可以具有图27所表示的回波消除器364,来取代图26所 表示的回波消除器14。
也可以使得第1声处理装置310的回波消除器364如图27所表示,包含: 自适应滤波器369,根据声信号输入部件311输入的第1声信号和话筒313 生成的第2声信号来估计滤波器系数;卷积处理部372,根据自适应滤波器 369估计出的滤波器系数对第1声信号实施卷积处理,生成伪回波信号;系 数传送部371,判定自适应滤波器369估计出的滤波器系数是否稳定,在滤 波器系数稳定的情况下,向卷积处理部372传送自适应滤波器369估计出的 滤波器系数;第1减法器373,生成用于表示话筒313生成的第2声信号和 卷积处理部372生成的伪回波信号之差的差信号;自适应滤波器379,根据 声信号输入部件331输入的第1声信号和话筒313生成的第2声信号来估计 滤波器系数;卷积处理部382,根据自适应滤波器379估计出的滤波器系数 对第1声信号实施卷积处理,生成伪回波信号;系数传送部381,判定自适 应滤波器379估计出的滤波器系数是否稳定,在滤波器系数稳定的情况下, 向卷积处理部382传送自适应滤波器369估计出的滤波器系数;以及第2减 法器383,生成用于表示第1减法器373生成的差信号和卷积处理部382生 成的伪回波信号之差的差信号;回波消除器364将第2减法器383生成的差 信号作为第3声信号来输出。
(第15实施方式)
作为用于实施发明的最佳方式,说明了第1至第14实施方式的声处理装 置。然而,为了完成本申请的课题,也可以是第15实施方式的声处理系统。
以下,参照图31来说明本发明第15实施方式的声处理系统。
本实施方式的声处理系统420如图31所表示,构成笔记本型个人计算机 421的一部分。该个人计算机421包括扬声器422、话筒423、监视器433、 未图示的微处理器半导体存储器硬盘,执行作为应用程序而预先安装的 声处理程序。该声处理程序被存储在磁盘、光盘、半导体存储器等存储媒体 432上。
声处理程序包括:第1声信号生成步骤,生成第1声信号;第2声信号 取得步骤,从话筒423取得第2声信号;回波抑制步骤,根据第1声信号和 第2声信号来抑制第2声信号的回波分量,将抑制了回波分量的第2声信号 作为第3声信号来输出;声信号存储步骤,将第3声信号存储到硬盘上;语 音检测步骤,从回波抑制步骤输出的第3声信号中检测存在话者的语音的区 间的始端;控制步骤,进行控制,以便将硬盘上存储的第3声信号内的、从 存在话者的语音的区间的始端回溯了预先设定的时间的时刻以后的第3声信 号作为第4声信号从硬盘输出;以及语音识别步骤,执行从硬盘输出的第4 声信号的语音识别。
此外,回波抑制步骤包含:伪回波信号生成步骤,根据第1声信号和第 2声信号来估计第2声信号的回波分量,生成用于表示估计出的回波分量的 伪回波信号;以及差信号生成步骤,生成用于表示第2声信号取得步骤取得 的第2声信号和伪回波信号生成步骤生成的伪回波信号之差的差信号。
此外,在控制步骤中,将从存在话者的语音的区间的始端回溯了预先设 定的时间“Tm”的时刻以后硬盘上存储的第3声信号作为第4声信号从硬盘输 出。
语音检测步骤从第1声信号中取得与信号电平的变化、频率特性、发声 内容有关的信息,所以能够以比较高的精度来判定是否是话者的语音。
接着,说明本实施方式的声处理系统420的工作。
如图32所表示,首先,生成用于表示引导语音的第1声信号,从扬声器 422输出引导语音(步骤S11)。另一方面,话筒423生成包含表示话者语音的 语音分量和表示引导语音的回波的回波分量的第2声信号(步骤S12)。接着, 从话筒423取得第2声信号,抑制第2声信号的回波分量,将抑制了回波分 量的第2声信号作为第3声信号来输出(步骤S13)。逐次将第3声信号存储到 硬盘上(步骤S14)。此外,从第3声信号中检测存在话者的语音的区间的始端 (步骤S15)。将硬盘上存储的第3声信号内的、从该始端回溯了预先设定的时 间的时刻以后硬盘上存储的第3声信号依次作为第4声信号来输出(步骤 S16)。接着,开始从硬盘输出的第4声信号的语音识别(步骤S17)。
如上所述,在本实施方式的声处理系统420中,个人计算机421执行声 处理程序,所以能够以低成本来实现效率比较高的声处理装置。
其中,本实施方式的声处理系统420由个人计算机421来实现。然而, 也可以由手机来实现。此外,在经由网络的多个个人计算机之间,也可以实 现声处理系统。
如上所述,本实施方式的声处理系统即使在不能充分抑制回波分量的环 境下,也能够比较准确地提取存在话者的语音的区间,所以能够高效率地执 行提取出的区间的语音识别。
产业上的可利用性
如上所述,本发明的声处理装置具有能够缩短从回波消除器处理声信号 到输出的时间这一效果,作为使用回波消除器的声处理装置、方法、程序及 存储媒体等很有用。
QQ群二维码
意见反馈