语音识别设备和方法以及记录了语音识别程序的记录媒体

申请号 CN03123134.9 申请日 2003-04-17 公开(公告)号 CN1196103C 公开(公告)日 2005-04-06
申请人 日本先锋公司; 发明人 川添佳洋;
摘要 语音识别 设备100包括:语音分析器103,它提取划分成 帧 的自然发生语音的特征模式;关键字模型 数据库 (104,105)104,它预先存储代表要识别的多个关键字的特征模式的关键字;垃圾模型数据库(104,105)105,它预先存储要识别的无关紧要语音的分量的特征模式;以及或然率计算器106,它根据每个帧、关键字和无关紧要语音的特征值模式计算特征值的或然率。设备100根据每个帧与每个HMM相匹配的或然率而识别包含在自然发生语音中的关键字。
权利要求

1.一种用于识别在发出的自然发生语音中所包含的关键字中的至 少一个关键字的语音识别设备(100),其特征在于,所述设备包括:
提取装置(103),用于通过分析所述自然发生语音来提取一个自然 发生语音的特征值,该特征值是所述自然发生语音的语音成分的特征 值;
识别装置(106,107,108),用于通过根据所述自然发生语音的特征 值来辨认在所述自然发生语音中所包含的所述关键字和无关紧要语音 中的至少一个来识别所述关键字,所述无关紧要语音表示非关键字;
以及
数据库(105),其中预先存储着无关紧要语音分量的特征数据,所 述无关紧要语音分量的特征数据表示无关紧要语音分量的语音成分的 特征值,
其中识别装置(106,107,108)根据所提取的自然发生语音的特征 值和所存储的无关紧要语音分量的特征数据来辨认在自然发生语音中 所包含的无关紧要语音。
2.按照权利要求1的语音识别设备(100),其中在所述数据库(105) 中预先存储的所述无关紧要语音分量的特征数据是多个所述无关紧要 语音分量的语音成分的特征值的特征数据。
3.按照权利要求2的语音识别设备(100),其中在所述数据库(105) 中预先存储的所述无关紧要语音分量的特征数据代表该语音成分的特 征值的一个数据,它已经通过组合多个无关紧要语音分量的特征值而 得到。
4.按照权利要求2的语音识别设备(100),其中在所述数据库(105) 中预先存储的所述无关紧要语音分量的特征数据是多个所述无关紧要 语音分量的语音成分的特征值数据。
5.按照权利要求2到4的任一项的语音识别设备(100),在多个 所述无关紧要语音分量的特征数据被预先存储在所述数据库(105)中 的情形下,其中无关紧要语音分量的特征数据代表为作为语音的结构 分量的每种类型的语音声音而生成的语音成分的特征值的数据。
6.按照权利要求1到4的任一项的语音识别设备(100),其中在 所述数据库(105)中预先存储的无关紧要语音分量的特征数据代表音 素和音节中的至少一个的特征值的数据。
7.按照权利要求1到4的任一项的语音识别设备(100),还包括 获取装置,用于预先获取代表所述关键字的语音成分的特征值的关键 字特征数据,以及
其中识别装置(106,107,108)包括:
计算装置(106),用于计算表示所提取的自然发生语音的至少一部 分特征值与在所述数据库(105)中存储的所述无关紧要语音分量的特 征数据和所获取的关键字特征数据相匹配的概率的或然率;以及
识别装置(106,107,108),用于根据所计算的或然率辨认在自然发 生语音中所包含的所述关键字和所述无关紧要语音的至少一项。
8.一种用于识别在发出的自然发生语音中包含的关键字中的至少 一个关键字的语音识别方法,其特征在于,所述方法包括:
提取过程,用于通过分析所述自然发生语音来提取一个自然发生 语音的特征值,该特征值是所述自然发生语音的语音成分的特征值;
识别过程,用于通过根据所述自然发生语音的特征值来辨认在所 述自然发生语音中所包含的所述关键字和无关紧要语音的至少一个来 识别所述关键字,所述无关紧要语音表示非关键字;以及
获取过程,用于获取在数据库(105)中预先存储的无关紧要语音分 量的特征数据,所述无关紧要语音分量的特征数据指示无关紧要语音 分量的语音成分的特征值,
其中识别过程根据提取的自然发生语音的特征值和获取的无关紧 要语音分量的特征数据来辨认在自然发生语音中所包含的无关紧要语 音。
9.按照权利要求8的语音识别方法,其中所述获取过程获取在所 述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所述 无关紧要语音分量的特征数据是多个所述无关紧要语音分量的语音成 分的特征值的特征数据。
10.按照权利要求9的语音识别方法,其中所述获取过程获取在 所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所 述无关紧要语音分量的特征数据代表该语音成分的特征值的一个数 据,它已经通过组合多个无关紧要语音分量的特征值而得到。
11.按照权利要求9的语音识别方法,其中所述获取过程获取在 所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所 述无关紧要语音分量的特征数据具有多个无关紧要语音分量的语音成 分的特征值的数据。
12.按照权利要求9到11的任一项的语音识别方法,其中所述获 取过程获取在所述数据库(105)中预先存储的所述无关紧要语音分量 的特征数据,所述无关紧要语音分量的特征数据代表为作为语音的结 构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
13.按照权利要求8到11的任一项的语音识别方法,其中所述获 取过程获取在所述数据库(105)中预先存储的所述无关紧要语音分量 的特征数据,所述无关紧要语音分量的特征数据代表音素和音节中的 至少一个的特征值的数据。
14.按照权利要求8到11的任一项的语音识别方法,其中:
所述获取过程预先获取代表所述关键字的语音成分的特征值的关 键字特征数据,以及
所述识别过程包括:
计算过程,用于计算表示提取的自然发生语音的至少一部分特征 值与在所述数据库(105)中存储的所述无关紧要语音分量的特征数据 和获取的关键字特征数据相匹配的概率的或然率;以及
识别过程,用于根据所计算的或然率辨认在自然发生语音中所包 含的所述关键字和所述无关紧要语音的至少一个。

说明书全文

技术领域

发明涉及有关通过HMM(隐藏的尔可夫模型)方法进行语音识 别的技术领域,具体地,涉及有关识别自然发生的(spontaneous)语 音中的关键字的技术领域。

背景技术

近年来,开发了识别由人发出的自然发生语音的语音识别设备。 当人讲出预定的字时,这些设备从它们的输入信号识别讲出的字。
例如,配备有这样的语音识别设备的各种装置(诸如安装在汽车 上的、用于引导汽车移动的导航系统,和个人计算机)将允许用户无 需通过键盘开关进行人工选择操作来输入各种信息。
因此,例如即使在操作者正在使用他/她的双手驾驶汽车时的工作 环境下,操作者仍可以把想要的信息输入到导航系统。
典型的语音识别方法包括利用被称为HMM(隐藏的马尔可夫模型) 的概率模型的方法。
在语音识别中,自然发生的语音是通过把自然发生语音的特征值 的模式与事先准备的、代表被称为关键字的候选字的语音的特征值的 模式相匹配而被识别的。
具体地,在语音识别时,通过分析输入的自然发生语音,提取被 划分成预定的持续时间的分段的输入的自然发生语音的特征值,计算 在输入信号的特征值与预先存储在数据库中的、用HMM表示的关键字 的特征值之间的匹配程度(此后称为或然率),累积整个自然发生语 音的或然率,以及把具有最高或然率的关键字判定为识别的关键字。
因此,在语音识别中,关键字是根据由人发出的自然发生语音的 输入信号被识别的。
顺便说明,HMM是被表示为一组转移状态的统计源模型。它代表要 被识别的预定的语音(诸如关键字)的特征值。而且,HMM是根据事先 采样的多个语音数据生成的。
重要的是,这种语音识别能够怎样提取在自然发生语音中包含的 关键字。
除了关键字以外,自然发生语音通常包含无关紧要(extraneous) 的语音,即,先前已知不必识别的字(诸如在关键字之前和之后的“er” 或“please”),原则上,自然发生语音包含夹在无关紧要语音中间 的关键字。
传统上,语音识别常常利用“单字定位(word-spotting)”技术 来识别要被语音识别的关键字。
在单字定位技术中,不仅准备了代表关键字模型的HMM,而且也准 备了代表无关紧要语音模型(此后称为垃圾模型)的HMM,以及自然发 生的语音是通过识别其特征值具有最高或然率的关键字模型、垃圾模 型、或二者的组合而被识别的。

发明内容

然而,上述的用于识别自然发生的语音的设备易于误识别,因为 如果发出的是非预期的无关紧要语音,则该设备不能识别无关紧要语 音或不能正确地提取关键字。
鉴于以上问题,作出了本发明。本发明的目的是提供一种语音识 别设备,它能够达到高的语音识别性能而不增加无关紧要语音的特征 值的数据量。
本发明的以上的目的是通过本发明的语音识别设备达到的。一种 用于识别在发出的自然发生语音中所包含的关键字中的至少一个关键 字的语音识别设备配备有:提取装置,用于通过分析所述自然发生语 音来提取一个自然发生语音的特征值,该特征值是所述自然发生语音 的语音成分的特征值;识别装置,用于通过根据所述自然发生语音的 特征值来辨认在所述自然发生数据中包含的所述关键字和无关紧要语 音中的至少一项来识别所述关键字,所述无关紧要语音表示非关键 字;以及数据库,在其中预先存储着无关紧要语音分量的特征数据, 所述无关紧要语音分量的特征数据表示无关紧要语音分量的语音成分 的特征值,其中识别装置根据所提取的自然发生语音的特征值和所存 储的无关紧要语音分量的特征数据来辨认在自然发生语音中包含的无 关紧要语音。
按照本发明,在自然发生语音中所包含的无关紧要语音是根据所 提取的自然发生语音的特征值和存储的无关紧要语音分量的特征数据 而加以辨认的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数 据而加以辨认的,在识别无关紧要语音时,无关紧要语音可以通过使 用小量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音 而不用增加对于识别无关紧要语音所需要的数据量以及有可能改进提 取和识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别设备进一步被配备; 其中在所述数据库中预先存储的所述无关紧要语音的分量特征数据是 多个所述无关紧要语音分量的语音成分的特征值的特征数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据而辨认的,该特征数据是多个所述无关紧要语 音分量的语音成分的特征值的特征数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时, 有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备; 其中在所述数据库中预先存储的所述无关紧要语音分量的特征数据代 表该语音成分的特征值的一个数据,它已经通过组合多个无关紧要语 音分量的特征值而得到。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据被辨认的,该特征数据代表由组合多个无关紧 要语音分量的特征值得到的、语音成分的特征值的一个数据。
因此,因为在自然发生语音中的多个无关紧要语音可以根据存储 的无关紧要语音分量特征数据之一而辨认,在识别无关紧要语音时, 有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备; 其中在所述数据库中预先存储的所述无关紧要语音分量的特征数据是 多个所述无关紧要语音分量的语音成分的特征值数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据作为 多个所述无关紧要语音分量的语音成分的特征值数据的无关紧要语音 分量特征数据被辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一被辨认的以及可以防止无关紧要语音 的辨认精度在多个特征值被合成时会造成的恶化,在识别无关紧要语 音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备; 在多个所述无关紧要语音分量的特征数据被预先存储在所述数据库中 的情形下,无关紧要语音分量的特征数据代表为作为语音的结构分量 的每种类型的语音声音而生成的语音成分的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据被辨认的,该特征数据代表对于作为语音的结 构分量的各种类型的语音声音生成的语音成分的特征值的数据。
因此,因为无关紧要语音的辨认精度在多个特征值被合成时所造 成的恶化是可以防止的,所以在识别无关紧要语音时,有可能通过使 用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备; 其中在所述数据库中预先存储的无关紧要语音分量的特征数据代表音 素和音节中的至少一项的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表 音素和音节中至少一项的特征值的数据的无关紧要语音分量特征数据 被辨认的。
通常,有大量的要被识别的单字,包括无关紧要语音,但只有有 限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根 据以每个音素或音节被存储的无关紧要语音分量特征值被辨认的,所 以有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语 音分量特征值的数据量,以及有可能提高提取和识别关键字的精确 度。
在本发明的一个方面中,本发明的语音识别设备还配备有;获取 装置,用于预先获取代表所述关键字的语音成分的特征值的关键字特 征数据,其中识别装置包括:计算装置,用于计算表示所提取的自然 发生语音的至少一部分特征值与在所述数据库中存储的无关紧要语音 分量方特征数据和所获取的关键字特征数据相匹配的概率的或然率; 以及识别装置,用于根据所计算的或然率辨认在自然发生语音中所包 含的所述关键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值 与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率 的或然率;以及根据计算的或然率辨认在自然发生语音中包含的所述 关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关 紧要语音分量特征数据和关键字特征数据被辨认的,所以有可能正确 地辨认无关紧要语音,而不增加要辨认的无关紧要语音分量特征值的 数据量,以及有可能提高提取和识别关键字的精确度。
本发明的以上的目的是通过本发明的语音识别方法达到的。一种 用于识别在发出的自然发生语音中包含的关键字中的至少一个关键字 的语音识别方法包括以下过程:提取过程,通过分析所述自然发生语 音来提取一个自然发生语音的特征值,该特征值是所述自然发生语音 的语音成分的特征值;识别过程,通过根据所述自然发生语音的特征 数据来辨认在所述自然发生数据中所包含的所述关键字和无关紧要的 至少一项来识别所述关键字,所述无关紧要语音表示非关键字;以及 获取过程,用于获取在数据库中预先存储的无关紧要语音分量特征数 据,所述无关紧要语音分量的特征数据表示无关紧要语音分量的语音 成分的特征值,其中识别过程根据所提取的自然发生语音的特征值和 所获取的无关紧要语音分量的特征数据辨认在自然发生语音中所包含 的无关紧要语音。
按照本发明,在自然发生语音中包含的无关紧要语音是根据提取 的自然发生语音特征值和存储的无关紧要语音分量特征数据而辨认 的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数 据被辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小 量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不 用增加对于识别无关紧要语音所需要的数据量以及有可能提高提取和 识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别方法进一步被配备; 其中所述获取处理过程获取在所述数据库中预先存储的所述无关紧要 语音分量的特征数据,所述无关紧要语音分量的特征数据是多个所述 无关紧要语音分量的语音成分的特征值的特征数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据多个 所述无关紧要语音分量的语音成分的特征值的特征数据的无关紧要语 音分量特征数据而辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时, 有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备; 其中所述获取处理过程获取在所述数据库中预先存储的所述无关紧要 语音分量的特征数据,所述无关紧要语音分量的特征数据代表该语音 成分的特征值的一个数据,它已经通过组合多个无关紧要语音分量的 特征值而得到。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表 通过组合多个无关紧要语音分量的特征值得到的、语音成分的特征值 的一个数据的无关紧要语音分量特征数据而辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一而辨认的,在识别无关紧要语音时, 有可能通过使用小量数据正确地辨认无关紧要语音。
本发明的一个方面,本发明的语音识别方法进一步被配备;其中 所述获取过程获取在所述数据库中预先存储的所述无关紧要语音分量 的特征数据,所述无关紧要语音分量的特征数据是多个所述无关紧要 语音分量的语音成分的特征值数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据作为 多个所述无关紧要语音分量的语音成分的特征值数据的无关紧要语音 分量特征数据被辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一而辨认的以及可以防止无关紧要语音 的辨认精度在把多个特征值合成时会造成的恶化,在识别无关紧要语 音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备; 按照本发明的语音识别方法,其中所述获取过程获取在所述数据库中 预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分 量的特征数据代表为作为语音的结构分量的每种类型的语音声音而生 成的语音成分的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表 作为语音的结构分量的每种类型的语音声音生成的语音成分的特征值 的数据的无关紧要语音分量特征数据被辨认的。
因此,因为可以防止无关紧要语音的辨认精度在多个特征值被合 成时所造成的恶化,所以在识别无关紧要语音时,有可能通过使用小 量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备; 按照本发明的任一项的语音识别方法,其中所述获取过程获取在所述 数据库中预先存储的所述无关紧要语音分量的特征数据,所述无关紧 要语音分量的特征数据代表音素和音节中的至少一项的特征值的数 据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表 音素和音节中的至少一项的特征值的数据的无关紧要语音分量特征数 据被辨认的。
通常,有大量的要被识别的单字,包括无关紧要语音,但只有有 限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根 据以每个音素或音节被存储的无关紧要语音分量特征值被辨认的,有 可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分 量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
本发明的一个方面,本发明的语音识别方法进一步被配备;按照 本发明的任一项的语音识别方法,其中所述获取过程预先获取代表所 述关键字的语音成分的特征值的关键字特征数据,其中识别过程包 括:计算过程,用于计算表示所提取的自然发生语音的至少一部分特 征值与在所述数据库中存储的无关紧要语音分量的特征数据和所获取 的关键字特征数据相匹配的概率的或然率;以及识别过程,用于根据 所计算的或然率辨认在自然发生语音中所包含的所述关键字和所述无 关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值 与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率 的或然率;以及根据计算的或然率辨认在自然发生语音中包含的所述 关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关 紧要语音分量特征数据和关键字特征数据被辨认的,有可能正确地辨 认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数 据量,以及有可能提高提取和识别关键字的精确度。
本发明的以上的目的是通过本发明的记录媒体达到的。记录媒体 是其中记录有语音识别程序以便由计算机读出的记录媒体,被包括在 用于识别在发出的自然发生语音中包含的至少一个关键字的语音识别 设备的计算机,程序使得计算机用作为:提取装置,通过分析自然发 生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特 征值;识别装置,通过根据自然发生特征数据辨认在自然发生语音中 包含的所述关键字和无关紧要的至少一项而识别所述关键字,所述无 关紧要语音表示非关键字;以及获取装置,获取预先存储在数据库中 的无关紧要语音分量特征数据,所述无关紧要语音分量特征数据表示 无关紧要语音分量的语音成分的特征值,其中识别装置根据提取的自 然发生语音特征值和存储的无关紧要语音分量特征数据辨认在自然发 生语音中包含的无关紧要语音。
按照本发明,在自然发生语音中包含的无关紧要语音是根据提取 的自然发生语音特征值和存储的无关紧要语音分量特征数据被辨认 的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数 据被辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小 量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不 用增加对于识别无关紧要语音所需要的数据量以及有可能提高提取和 识别关键字的精确度。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获 取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征 数据,所述无关紧要语音分量特征数据是多个所述无关紧要语音分量 的语音成分的特征值的特征数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据被辨认的,该特征数据是多个所述无关紧要语 音分量的语音成分的特征值的特征数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时, 有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获 取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征 数据,所述无关紧要语音分量特征数据代表语音成分的特征值的一个 数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据被辨认的,该特征数据代表通过组合多个无关 紧要语音分量的特征值而得到的、语音成分的特征值的一个数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时, 有可能通过使用小量数据正确地辨认无关紧要语音。
本发明的一个方面,语音识别程序使得计算机用作为所述获取装 置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数 据,所述无关紧要语音分量特征数据是多个所述无关紧要语音分量的 语音成分的特征值数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据被辨认的,该特征数据是多个所述无关紧要语 音分量的语音成分的特征值数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的 无关紧要语音分量特征数据之一被辨认的以及可以防止无关紧要语音 的辨认精度在多个特征值被合成时所造成的恶化,在识别无关紧要语 音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获 取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征 数据,所述无关紧要语音分量特征数据代表对于作为语音的结构分量 的各种类型的语音声音生成的语音成分的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据被辨认的,该特征数据代表对于作为语音的结 构分量的每种类型的语音声音生成的语音成分的特征值的数据。
因此,因为可以防止无关紧要语音的辨认精度在多个特征值被合 成时所造成的恶化,在识别无关紧要语音时,有可能通过使用小量数 据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获 取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征 数据,所述无关紧要语音分量特征数据代表音素和音节中的至少一项 的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关 紧要语音分量特征数据被辨认的,该特征数据代表音素和音节中的至 少一项的特征值的数据。
通常,有大量的要识别的单字,包括无关紧要语音,但只有有限 的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根 据以各个音素或音节而被存储的无关紧要语音分量特征值被辨认的, 有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音 分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,语音识别程序使得计算机用作为:所述 获取装置,事先获取代表所述关键字的语音成分的特征值的关键字特 征数据,其中识别处理包括:计算装置,用于计算表示提取的自然发 生语音的至少部分特征值与被存储在所述数据库中的无关紧要语音分 量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及识 别装置,用于根据计算的或然率辨认在自然发生语音中包含的所述关 键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值 与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率 的或然率;以及根据计算的或然率辨认在自然发生语音中包含的所述 关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关 紧要语音分量特征数据和关键字特征数据被辨认的,所以有可能正确 地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值 的数据量,以及有可能提高提取和识别关键字的精确度。
附图说明
图1是显示按照本发明的第一实施例的语音识别设备的图,其中 使用基于HMM的语音语言模型;
图2是显示用于识别任意的自然发生语音的基于HMM的语音语言 模型的图;
图3A是显示用于无关紧要语音和关键字的任意组合的无关紧要语 音HMM的累积或然率的图;
图3B是显示用于无关紧要语音和关键字的任意组合的无关紧要语 音分量HMM的累积或然率的图;
图4是显示按照本发明的第一和第二实施例的语音识别设备的结 构的图;
图5是显示按照第一实施例的关键字识别处理的运行的流程图
图6是显示按照第二实施例的语音识别设备的结构的图,其中使 用了基于HMM的语音语言模型;
图7A是显示按照第二实施例的、特征矢量对无关紧要语音分量 HMM的输出概率的第一示例性的图;
图7B是显示按照第二实施例的、特征矢量对无关紧要语音分量 HMM的输出概率的第二示例性的图;
图8是显示按照第二实施例的、通过累计多个无关紧要语音分量 HMM而得到的无关紧要语音分量HMM的输出概率的图。

具体实施方式

现在参照附图所示的优选实施例描述本发明。
下面描述的实施例是其中把本发明应用到语音识别设备的实施 例。
[第一实施例]
图1到4是显示按照本发明的语音识别设备的第一实施例的图。
在本实施例中描述的无关紧要语音分量代表组成语音的基本语音 单元,诸如音素或音节,但为了便于以下说明起见,在本实施例中将 使用音节。
首先,参照图1和图2描述按照这个实施例的、基于HMM的语音 语言模型。
图1是显示按照本实施例的识别网络的基于HMM的语音语言模型 的图,以及图2是显示使用任意HMM的、用于识别任意的自然发生语 音的语音语言模型的图。
这个实施例假设代表基于HMM识别网络(诸如图1所示的识别网 络)的模型(此后称为语音语言模型),即,包含要识别的关键字的 语音语言模型10。
语音语言模型10包含关键字模型11,在它的两个末端,它与代表 无关紧要语音的分量的垃圾模型(此后称为无关紧要语音的分量模 型)12a和12b相联系。在要识别包含在自然发生语音的关键字的情形 下,包含在自然发生语音的关键字是通过把关键字与关键字模型11相 匹配而被识别的,以及包含在自然发生语音的无关紧要语音是通过把 无关紧要语音与无关紧要语音分量模型12a和12b相匹配而被识别 的。
实际上,关键字模型11和无关紧要语音分量模型12a与12b代表 一组状态,这些状态转移自然发生语音的每个任意的分段。统计源模 型“HMM”,是一个由稳定源的组合所表示的不稳定源,它组成自然发 生语音。
关键字模型11的HMM(此后称为关键字HMM)和无关紧要语音分 量模型12a与12b的HMM(此后称为无关紧要语音分量HMM)具有两种 类型的参量。一个参量是状态转移概率,它代表从一个状态到另一个 状态的状态转移,以及另一个参量是输出概率,它输出当从一个状态 到另一个状态的状态转移时将观察到一个矢量(对于每个的特征矢 量)的概率。因此,关键字模型11的HMM代表每个关键字的特征模式, 以及无关紧要语音分量HMM12a与12b代表每个无关紧要语音分量的特 征模式。
通常,由于即使相同的字或音节也会因为各种原因表现出声音的 不同,组成自然发生语音的语言声音会随说话人有很大的变化。然而, 即使是由不同的说话人发出的,相同的语言声音主要由特征谱包络和 它的时间变化来表征。这样的声音变化的时间系列模式的统计特性可 以由HMM精确地表示。
因此,正如下面描述的,按照本实施例,包含在自然发生语音中 的关键字是通过把输入的自然发生语音的特征值与关键字HMM和无关 紧要语音HMM进行匹配和计算或然率而识别的。
顺便地,或然率表示输入的自然发生语音的特征值与关键字HMM 和无关紧要语音HMM匹配的概率。
按照本实施例,HMM是每个关键字的语音成分的特征模式,或每个 无关紧要语音分量的语音成分的特征值。而且,HMM是具有代表在规则 的时间间隔内在每个频率上的功率的谱包络数据或从功率谱的对数的 逆傅立叶变换得到的倒频谱数据的概率模型。
而且,HMM是通过获取由很多人发出的每个音素的自然发生语音数 据,提取每个音素的特征模式,和根据提取的音素特征模式获取各个 音素的特征模式数据而创建的,以及事先存储在各个数据库中。
当包含在自然发生语音中的关键字通过使用这样的HMM被识别 时,要识别的自然发生语音被划分成预定的持续时间的分段,把每个 分段与每个预存储的HMM数据相匹配,然后根据匹配处理过程的结果 计算这些分段从一个状态到另一个状态的状态转移的概率,以辨认要 被识别的关键字。
具体地,在本实施例中,把各语音分段的特征值与预存储的HMM 数据的各个特征模式进行比较,计算各语音分段的特征值与HMM特征 模式匹配的或然率,并通过使用匹配过程(以后说明)计算代表对于 在所有的HMM之间的联系(即,在关键字与无关紧要语音之间的联系) 的概率的累积或然率,以及通过检测具有最高的或然率的HMM联系, 识别自然发生语音。
代表特征矢量的输出概率的HMM通常具有两个参量:状态转移概 率a和输出概率b,如图2所示。输入特征矢量的输出概率由多维正态 分布的组合概率给出,以及每个状态的或然率由(1)式给出:
b i ( x ) = 1 ( 2 π ) P | Σ i | exp ( - 1 2 ( x - μ i ) t Σ i - 1 ( x - μ i ) ) 公式.(1)
其中x是任意语音分段的特征矢量,∑i是协变矩阵,λ是混合比, μi是事先获取的特征矢量的平均矢量,以及P是任意语音分段的特征 矢量的维数。
图2是显示表示当任一个状态i改变到另一个状态(i+n)时的概率 的状态转移概率a,和相对于状态转移概率a的输出概率b。图2上的 每个曲线图显示在给定状态下的输入特征矢量将会输出的输出概率。
实际上,将以上公式(1)取对数的对数或然率常常被使用于语音 识别,如图2所示。
log b i ( x ) = - 1 2 log [ ( 2 π ) ] P | Σ i | - 1 2 ( x - μ i ) t Σ i - 1 ( x - μ i ) 公式.(2)
接着,参照图3说明作为垃圾模型的无关紧要语音分量HMM。
图3是显示在无关紧要语音和关键字的任意组合中无关紧要语音 HMM和无关紧要语音分量HMM的累积或然率的图。
如上所述,在传统的语音识别设备的情形下,由于无关紧要语音 模型,与关键字模型一样,由代表无关紧要语音的特征值的HMM组成, 为了辨认包含在自然发生语音中的无关紧要语音,被辨认的无关紧要 语音必须事先存储在数据库。
要辨认的无关紧要语音可包括除关键字以外的所有的语音,从不 构成关键字的单字到不具有语言内容的不可识别的语音。因此,为了 正确地识别被包含在自然发生语音帧的无关紧要语音,必须事先为大 量无关紧要语音准备好HMM。
因此,在传统的语音识别设备中,必须获取每个无关紧要语音的 特征值的数据,并把它存储在数据库,以便正确地识别包含在自然发 生语音中的无关紧要语音。因此,必须事先存储大量数据,但实际上 不可能得到用于存储数据的区域。
而且,在传统的语音识别设备中,要花费大量的劳动以生成要存 储在数据库等等中的大量数据。
另一方面,无关紧要数据也是一种语音,因此它包含诸如音节和 音素的分量,它们在数量上通常是有限的。
因此,如果被包含在自然发生语音中的无关紧要语音是根据无关 紧要语音分量被辨认的,则有可能减小要被准备的数据量以及有可能 正确地辨认每个无关紧要语音。
具体地,因为任何无关紧要语音可以通过组合诸如音节和音素的 分量而被组成,如果无关紧要语音是通过使用事先准备的这些分量的 数据而被辨认的,则有可能减小要准备的数据量以及有可能正确地辨 认每个无关紧要语音。
通常,识别包含在自然发生语音中的关键字的语音识别设备把自 然发生语音划分成在预定的时间间隔内的语音分段(如后面描述的), 计算每个语音分段与事先准备的垃圾模型(诸如无关紧要语音HMM)或 每个关键字模型(诸如关键字HMM)匹配的或然率,根据对每个无关紧 要语音HMM和每个关键字模型HMM的每个语音分段的计算出的或然 率,累积关键字与无关紧要语音的每个组合的或然率,以及由此计算 代表HMM联系的累积或然率。
当要识别包括在自然发生语音中的无关紧要语音的无关紧要HMM 没有像传统的语音识别设备那样事先准备时,在自然发生语音中相应 于无关紧要语音的那部分中的语音的特征值表现出与无关紧要语音 HMM和关键字HMM的匹配的低的或然率以及它们的低的累积或然率,这 将导致误识别。
然而,当语音分段与无关紧要语音分量HMM相匹配时,在自然发 生语音中的无关紧要语音的特征值表现出与代表无关紧要语音分量 HMM的特征值的准备的数据的匹配的高的或然率。因此,如果被包含在 自然发生语音中的关键字的特征值与关键字HMM数据相匹配,则被包 含在自然发生语音中的关键字与无关紧要语音的组合的累积或然率是 高的,这使得有可能正确地识别关键字。
例如,当表示被包含在自然发生语音中的无关紧要语音的垃圾模 型的无关紧要语音HMM事先准备好时,如图3(a)所示,这与在使用无 关紧要语音分量HMM的情形下的累积或然率没有差别,但当表示被包 含在自然发生语音中的无关紧要语音的垃圾模型的无关紧要语音HMM 没有事先准备好时,如图3(b)所示,与使用无关紧要语音分量HMM的 情形相比较,累积或然率是低的。
因此,由于本实施例通过使用无关紧要语音分量HMM来计算累积 或然率以及由此辨认包含在自然发生语音中的无关紧要语音,本实施 例能够通过使用小量数据正确地辨认无关紧要语音和识别关键字。
接着,参照图4,描述按照本实施例的语音识别设备的结构。
图4是显示按照本发明的第一实施例的语音识别设备的结构的 图。
如图4所示,语音识别设备100包括:话筒101,它接收自然发生 语音,并把它变换成电信号(此后称为语音信号);输入处理器102, 它从输入的语音信号中提取相应于语言声音的语音信号以及按预先设 置的时间间隔内分割帧;语音分析器103,它提取在每帧中的语音信号 的特征值;关键字模型数据库104,它预先存储代表要识别的多个关键 字的特征模式的关键字HMM;垃圾模型数据库105,它预先存储代表要 与关键字区分开的无关紧要语音的特征模式的无关紧要语音分量 HMM;或然率计算器106,它计算从每个帧提取的特征值与关键字HMM 和无关紧要语音分量HMM相匹配的或然率;匹配处理器107,它根据按 逐帧的HMM计算的或然率实施匹配过程(后面描述);以及确定装置 108,它根据匹配处理的结果确定包含在自然发生语音中的关键字。
语音分析器103用作为本发明的提取装置,关键字模型数据库104 和垃圾模型数据库105用作为本发明的数据库。或然率计算器106用 作为本发明的识别装置、计算装置和获取装置。匹配处理器109用作 为本发明的识别装置和计算装置。确定装置108用作为本发明的识别 装置。
在输入处理器102中,输入从话筒101输出的语音信号。输入处 理器102从输入的语音信号中提取代表自然发生语音的语音分段的语 音信号的那些部分,把语音信号的提取的那些部分按预定的持续时间 划分为时间间隔帧,以及把它们输出到语音分析器103。例如,一个帧 具有约10ms到20ms的持续时间。
语音分析器103逐帧地分析输入的语音信号,提取在每个帧中的 语音信号的特征值,以及把它输出到或然率计算器106。
具体地,语音分析器103提取代表在规则的时间间隔内在每个频 率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶变换得到的 倒频谱数据,作为按逐帧的语音成分的特征值,把提取的特征值变换 成矢量,以及把这些矢量输出到第一或然率计算器106。
关键字模型数据库104预先存储代表要被识别的关键字的特征值 的模式数据的关键字HMM。这些存储的多个关键字HMM的数据代表要识 别的多个关键字的特征值的模式。
例如,如果它在安装有导航系统的汽车中使用,则关键字模型数 据库104被设计成存储代表包括对于汽车的目的地名称或现在的位置 名称或设施名称(诸如餐馆名称)的语音信号的特征值的模式的HMM。
如上所述,按照本实施例,代表每个关键字的语音成分的特征模 式的HMM代表一个概率模型,该概率模型具有代表在规则的时间间隔 内在每个频率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶 变换得到的倒频谱数据。
因为关键字通常包含多个音素或音节,正如按照本实施例的 “present location(现在的位置)”或“destination(目的地)”的 情形,一个关键字HMM包含多个关键字分量HMM,以及或然率计算器 106逐帧地计算每个关键字分量HMM的特征值和或然率。
这样,关键字模型数据库104存储要识别的关键字的每个关键字 HMM,即,关键字分量HMM。
在垃圾模型数据库105中,预先存储HMM“无关紧要语音分量 HMM”,它是被使用来识别无关紧要语音的语言模型以及代表无关紧要 语音分量的特征值的模式数据。
按照本实施例,垃圾模型数据库105存储一个HMM,它代表无关紧 要语音分量的特征值。例如,如果存储一个基于音节的HMM的单位, 则这个无关紧要语音分量HMM包含覆盖所有的音节的特征的特征模 式,诸如日本假名,鼻音,有声辅音,和爆破音。
通常,为了生成对于每个音节的特征值的HMM,要预先获取由许多 人发出的每个音节的语音数据,提取每个音节的特征模式,以及根据 每个基于音节的特征模式得到每个音节的特征模式数据。然而,按照 本实施例,当生成语音数据时,根据所有的音节的语音数据生成所有 的特征模式的HMM,以及生成单个HMM(一种语言模型),它代表多个 字节的特征值。
因此,按照本实施例,根据生成的特征模式数据,生成具有所有 音节的特征模式的单个HMM(它是一种语言模型),以及把它变换成矢 量,以及预先存储在垃圾模型数据库105。
在或然率计算器106中,输入每个帧的特征矢量,以及或然率计 算器106根据每个帧输入的特征矢量通过在每个帧的每个输入的HMM 与存储在每个数据库中的HMM的每个特征值之间进行匹配而计算或然 率,以及把计算的或然率输出到匹配处理器107。
按照本实施例,或然率计算器106根据每个帧的每个特征值和存 储在关键字模型数据库104和垃圾模型数据库105中的HMM的特征值 来计算概率,包括相应于被存储在关键字模型数据库104和垃圾模型 数据库105中的每个HMM的每个帧的概率。
具体地,或然率计算器106逐帧地计算输出概率:相应于每个关 键字分量HMM的每个帧的输出概率和相应于无关紧要语音分量的每个 帧的输出概率。而且,它计算状态转移概率:从任意帧到下一个帧的 状态转移与从关键字分量HMM到另一个关键字分量HMM的状态转移相 匹配的状态转移概率,从任意帧到下一个帧的状态转移与从关键字分 量HMM到无关紧要语音分量的状态转移相匹配的状态转移概率,和从 任意帧到下一个帧的状态转移与从无关紧要语音分量HMM到关键字分 量HMM的状态转移相匹配的状态转移概率。然后,或然率计算器106 把这些计算的概率作为或然率输出到匹配处理器107。
顺便地,状态转移概率也包括从每个关键字分量HMM到同一个关 键字分量HMM的状态转移的概率和从无关紧要语音分量HMM到同一个 无关紧要语音分量HMM的状态转移的概率。
按照本实施例,或然率计算器106把对于每个帧计算的各个输出 概率和每个状态转移概率作为对于各个帧的各个或然率输出到匹配处 理器107。
在匹配处理器107中,输入逐帧的输出概率和每个状态转移概率。 匹配处理器107执行匹配处理,以便根据输入的每个输出概率与每个 状态转移概率,计算累积的或然率,这是每个关键字HMM和无关紧要 语音分量HMM的每个组合的或然率,以及把计算的累积的或然率输出 到确定装置108。
具体地,匹配处理器107对每个关键字计算累积或然率(如后面 描述),和计算不带有关键字的累积或然率,即,仅仅无关紧要分量 模型的累积或然率。
顺便地,后面将描述由匹配处理器107执行的匹配处理的细节。
在确定装置108中,输入由匹配处理器107计算的、每个关键字 的累积或然率,以及确定装置108向外部输出具有最高的累积的或然 率的关键字,确定它作为包含在外部自然发生语音中的关键字。
在确定关键字时,确定装置108也单独地使用无关紧要语音分量 模型的累积或然率。如果使用单独的无关紧要语音分量模型具有最高 的累积或然率,则确定装置108确定在自然发生的语言中没有包含关 键字并向外输出这个结果。
接着,将给出有关按照本实施例的匹配处理器107执行的匹配处 理的说明。
按照本实施例的匹配处理过程通过使用Viterbi算法计算关键字 模型与无关紧要语音分量模型的各个组合的累积或然率。
Viterbi算法是一种算法,它根据输入的每个给定的状态的输出 概率和从每个状态转换到另一个状态的转移概率来计算累积或然率, 然后输出其累积或然率是依据累积概率而被计算的组合。
通常,累积或然率首先通过累计在由每个帧的特征值代表的状态 与由每个HMM代表的状态的特征值之间的每个欧几里德距离而被计 算,然后,该累积或然率由计算累积的距离而得到计算。
具体地,Viterbi算法根据代表从任意状态i到下一个状态j的 转移的路径计算累积的概率,由此提取通过它可以发生状态转移的每 条路径,即,HMM的连接和组合。
在本实施例中,或然率计算器106通过从第一个划分的帧开始和 到最后一个划分的帧为止,逐个地匹配关键字模型或无关紧要语音分 量模型的输出概率和由此匹配对于输入的自然发生语音的帧的状态转 移概率,而计算每个输出概率和每个状态转移概率,计算从第一个划 分的帧和到最后一个划分的帧的关键字模型和无关紧要语音分量的任 意组合的累积或然率,确定在每个关键字模型/每个关键字模型与无关 紧要语音分量组合中具有最高的累积或然率的安排,以及把关键字模 型的确定的累积或然率逐个地输出到确定装置108。
例如,在要被识别的关键字是“present location(现在的位置)” 和“destination(目的地)”,以及进入的、输入自然发生语音是“er, present location”的情形下,按照本实施例的匹配处理过程将如下 地执行。
这里假设,无关紧要语音是“er”,垃圾模型数据库105包含代 表所有的无关紧要语音分量的特征的一个无关紧要语音分量HMM,关键 字数据库包含“present”和“destination”的每个音节的HMM,以 及由或然率计算器106计算的每个输出概率和状态转移概率已被输入 到匹配处理器107。
在这样的情形下,按照本实施例,Viterbi算法根据输出概率与 状态转移概率计算在对于关键字“present”与“destination”的关 键字和无关紧要语音分量的每个组合中所有的排列的累积或然率。
具体地,当任意自然发生语音被输入时,根据输出概率和状态转 移概率计算以下的每个组合的模式的累积或然率:对于关键字 “present”的“p-r-e-se-n-t ####”,“# p-r-e-se-n-t ###”,“## p-r-e-se-n-t ##”,“### p-r-e-se-n-t #”,和“#### p-r-e-se-n-t” 和对于关键字“destination”的“d-e-s-t-i-n-a-ti-o-n ####”,“# d-e-s-t-i-n-a-ti-o-n ###”,“## d-e-s-t-i-n-a-ti-o-n ##”,“### d-e-s-t-i-n-a-ti-o-n #”,和“#### d-e-s-t-i-n-a-ti-o-n”(其中 #表示无关紧要语音分量)。
Viterbi算法从每个关键字(在本例中是“present location” 和“destination”)的第一帧开始计算自然发生的语音所有各帧的所 有的组合模式的累积或然率。
而且,在计算对每个关键字的每个排列的累积或然率的过程中, Viterbi算法对于具有低的累积或然率的那些排列半途停止计算并确 定自然发生的语音与那些组合模式不相匹配。
具体地,在第一帧中,“p”的HMM(它是关键字“present location” 的关键字分量HMM)的或然率,或无关紧要语音分量HMM的或然率都包 括在累积或然率的计算中。在本例中,较高的累积或然率提供下一个 累积或然率的计算。在以上的例子中,无关紧要语音分量HMM的或然 率高于“p”的HMM的或然率,因此,对于“p-r-e-se-n-t ####”的累 积或然率的计算在“p”后终结。
因此,在这种类型的匹配处理过程中,对于每个关键字“present location”和“destination”只计算一个累积或然率。
接着,参照图5描述按照本实施例的关键字识别过程。
图5是显示按照本实施例的关键字识别过程的运行的流程图。
首先,当控制板或控制器(未示出)输入每个部分开始关键字识 别处理的指令和自然发生语音被输入话筒101(步骤S11)时,输入处 理器102从输入的语音信号提取部分的自然发生语音的语音信号(步 骤S12),把提取的语音信号划分成预定的持续时间的帧,以及把它们 逐帧输出到语音分析器103(步骤S13)。
然后,这个运行按逐帧的原则执行以下的处理过程。
首先,语音分析器103提取每个帧中输入语音信号的特征值,以 及把它输出到或然率计算器106(步骤S14)。
具体地,根据在每帧中的语音信号,语音分析器103按规则时间 间隔提取代表在每个频率上的功率的谱包络信息或从功率谱的对数的 逆傅立叶变换得到的倒频谱信息作为语音成分的特征值,把提取的特 征值变换成矢量,以及把矢量输出到或然率计算器106。
接着,或然率计算器106把输入帧的特征值与存储在关键字模型 数据库104中的每个HMM的特征值进行比较,计算相对于每个HMM的 帧的输出概率和状态转移概率(如上面描述的),以及把计算的输出 概率和状态转移概率输出到匹配处理器107(步骤S15)。
然后,或然率计算器106把输入帧的特征值与被存储在垃圾模型 数据库105中的无关紧要语音分量HMM的特征值进行比较,计算相对 于无关紧要语音分量HMM的帧的输出概率和状态转移概率(如上面描 述的),以及把计算的输出概率和状态转移概率输出到匹配处理器107 (步骤S16)。
接着,匹配处理器107在上述的匹配处理过程中计算每个关键字 的累积或然率(步骤S17)。
具体地,匹配处理器107累计每个关键字HMM和无关紧要语音分 量HMM的每个或然率,但最终只计算对于每个关键字的每个类型的最 高累积或然率。
然后,在控制器(未示出)的指令下,匹配处理器107确定给定 的帧是否最后的划分的帧(步骤S18)。如果匹配处理器107确定是最 后的划分的帧,则匹配处理器107把对于每个关键字的最高的累积或 然率输出到确定装置108(步骤S19)。否则,如果匹配处理器107没 有确定最后的划分的帧,则这个操作执行步骤S14的过程。
最后,根据每个关键字的累积或然率,确定装置108输出具有最 高的累积或然率的关键字作为包含在自然发生语音中的关键字(步骤 S20)。这结束该运行。
因此,按照本实施例,因为通过使用无关紧要语音分量HMM计算 累积或然率以及由此可识别包含在自然发生语音中的关键字,无关紧 要语音可被正确地辨认以及关键字可以通过使用比以前更小的数据量 被识别。
具体地,对于传统的语音识别设备,因为事先准备的垃圾模型是 无关紧要语音本身的HMM,为了正确地识别无关紧要语音,必须准备所 有可发出的无关紧要语音的语言模型。
然而,按照本实施例,因为包含在自然发生语音中的无关紧要语 音是根据自然发生语音的提取的特征值和存储的无关紧要语音分量 HMM被辨认的,可正确地辨认无关紧要语音以及可以使用比以前更小的 数据量识别关键字。
因为组成无关紧要语音的无关紧要语音分量可以通过一个无关紧 要语音分量HMM被辨认,每个无关紧要语音可以通过一个无关紧要语 音分量HMM被辨认
因此,自然发生语音可以通过使用小量数据被辨认,使得有可能 提高提取和识别关键字的精确度。
顺便地,虽然按照本实施例,无关紧要语音分量模型是根据音节 生成的,当然,它们可以根据音素或其他结构单元被生成。
而且,虽然按照本实施例,一个无关紧要语音分量HMM被存储在 垃圾模型数据库105,但代表无关紧要语音分量的特征值的HMM可以为 每组的多个的每种类型的音素、或每个元音、辅音被存储。
在这种情形下,在或然率计算过程中按逐帧地计算的特征值将是 每个无关紧要语音分量HMM和每个无关紧要语音分量的或然率。
而且,虽然按照本实施例,关键字识别处理过程是通过上述的语 音识别设备执行的,但语音识别设备可配备有计算机和记录媒体,以 及类似的关键字识别处理过程可以在计算机读出存储在记录媒体上的 关键字识别程序时被执行。
在执行关键字识别处理程序的这个语音识别设备上,可以使用DVD 或CD作为记录媒体。
在这种情形下,语音识别设备将配备有用于从记录媒体中读出程 序的读数装置。
[第二实施例]
图6到8是显示按照本发明的第二实施例的语音识别设备的图。
这个实施例与第一实施例的不同之处在于,不是用单个无关紧要 语音分量HMM,即不是用通过组合多个无关紧要语音分量的特征值得到 的和存储在垃圾模型数据库中的单个无关紧要语音分量模型,而是把 多个无关紧要语音分量HMM存储在垃圾模型数据库,每个无关紧要语 音分量HMM具有多个无关紧要语音分量的特征数据。在其他方面,这 个实施例的结构类似于第一实施例的结构。因此,与第一实施例相同 的部件用与相应部件相同的参考数字表示,以及将省略这些部件的说 明。
图6是显示按照本实施例的使用HMM的识别网络的语音语言模型 的图,图7是显示按照本实施例的无关紧要语音分量HMM的特征矢量 和输出概率的示例性的图。
图8是显示通过累计多个无关紧要语音分量HMM而得到的多个无 关紧要语音分量HMM的输出概率的图。
而且,按照本实施例,说明了要假设无关紧要语音的两个分量HMM 模型是存储在垃圾模型数据库中的。
在这里的语音语言模型20中,与第一实施例的情形一样,包含在 自然发生语音中的关键字和无关紧要语音是通过分别把关键字与关键 字模型21进行匹配和把无关紧要语音与每个无关紧要语音分量模型 22a和22b进行匹配而被辨认的,由此识别自然发生语音中的关键字。
按照第一实施例,一个无关紧要语音分量HMM是通过获取由多个 人发出的每个音素的语音数据,提取每个音素的特征模式,和根据提 取的每个音素的特征模式获得每个音素的特征模式数据而事先生成 的。然而,按照本实施例,一个无关紧要语音分量HMM是对于每组的 多个音素、元音、或辅音而生成的,以及生成的每个无关紧要语音分 量HMM被合并成一个或多个无关紧要语音分量HMM。
例如,通过合并根据获取的语音数据训练的八个无关紧要语音分 量HMM而得到的两个无关紧要语音分量HMM具有图7所示的特征。
具体地,如图8所示,八个HMM以如下方式,被合并成如图7(a) 和7(b)所示的两个HMM,即在其他HMM和特征矢量之间将没有干扰。
由此,按照本实施例,每个合并的特征矢量具有如图8所示的每 个原先的无关紧要语音分量HMM的特征。
具体地,按照本实施例的每个HMM的特征矢量(语音矢量)的输 出概率由公式(3)根据公式(2)给出。每个合并的无关紧要语音分 量HMM的特征矢量(语音矢量)的输出概率是使用根据每个计算所得 的原先的无关紧要语音分量HMM的计算出的输出概率的最大值而计算 的。
b i ( x ) max ( λ i 1 b i 1 ( x ) HMM 1 N , λ i 2 b i 2 ( x ) HMM 1 N , λ i 1 b i 1 ( x ) HMM 2 N , λ i 2 b i 2 ( x ) HMM 2 N ) 公式.(3)
按照本实施例,代表最大输出概率的HMM是与要识别的无关紧要 语音进行匹配的HMM,即,用来进行匹配的HMM,以及要计算它的或然 率。
最后得到的曲线图显示由语音分析器103分析的、输出概率与帧 的特征矢量的关系。
按照本实施例,无关紧要语音分量HMM是这样生成的,以及被存 储在垃圾模型数据库。
按照本实施例,或然率计算器106使用以上述方式生成的无关紧 要语音分量HMM、关键字HMM、和逐帧的特征值来逐帧地计算或然率。 计算的或然率被输出到匹配处理器107。
由此,按照本实施例,因为每个无关紧要语音分量HMM具有多个 无关紧要语音分量的语音成分的特征值,在第一实施例中当多个特征 值被合并成多个无关紧要语音分量HMM时会发生的识别精确度的恶化 可被避免,并且可正确地辨认无关紧要语音而不必增加存储在垃圾模 型数据库中的无关紧要语音分量HMM的数据量。
顺便地,虽然按照本实施例,无关紧要语音分量模型是根据音节 生成的,当然,它们可以根据音素或其他单元生成。
而且,代表无关紧要语音分量的特征值的HMM可以对每组中多个 各种类型的音素、或各个元音、和辅音被存储。
在这种情形下的或然率计算过程中,特征值是通过使用每个无关 紧要语音分量HMM和每个无关紧要语音分量的或然率逐帧计算的。
而且,虽然按照本实施例,关键字识别处理过程是通过上述的语 音识别设备执行的,但语音识别设备可配备有计算机和记录媒体,以 及类似的关键字识别处理过程可以在计算机读出存储在记录媒体上的 关键字识别程序时执行。
在执行关键字识别处理程序的这个语音识别设备中,DVD或CD可 用作为记录媒体。
在这种情形下,语音识别设备将配备有用于从记录媒体中读出程 序的读数装置。
QQ群二维码
意见反馈