首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 请求书 / 指定 / 使用口头话语验证语音输入的方法

使用口头话语验证语音输入的方法

阅读:777发布:2023-03-11

专利汇可以提供使用口头话语验证语音输入的方法专利检索,专利查询,专利分析的服务。并且一种验证语音输入的方法可包括确定接收到的 指定 一单词的用户口头话语的发音数据,并 语音识别 进一步的指定该单词的单个字符的用户口头话语。可为每个字符生成一N-best列表。可使用每个字符的N-best列表生成候选单词。可将所述发音数据与所述候选单词相比较以确定至少一个匹配。,下面是使用口头话语验证语音输入的方法专利的具体信息内容。

1.一种用于验证语音输入的方法,包括:确定接收到的指定一单词的用户口头话语的发音数据;语音识别进一步的指定该单词的单个字符的用户口头话语,其中为每个字符生成N-best列表;使用每个字符的N-best列表自动生成候选单词;以及将该单词的所述发音数据与所述候选单词相比较以确定至少一个匹配。
2.根据权利要求1的方法,还包括动态生成所述候选单词的语法,从而将所述发音数据与该语法相比较以确定匹配。
3.根据权利要求1的方法,其中,所述语音识别步骤还包括确定每个N-best列表的至少一个可选字符。
4.根据权利要求1的方法,其中,所述发音数据包括对应于所述用户口头话语的声音数据。
5.根据权利要求1的方法,其中,所述自动生成步骤包括根据容许的单词的字典基于所述N-best列表生成候选单词。
6.根据权利要求1的方法,其中,所述自动生成步骤包括使用所述N-best列表生成候选单词而没有来自容许的单词的词典的限制。
7.根据权利要求1的方法,还包括:首先确定单词域;以及将所述发音数据与该域的一组常用单词相比较以发现匹配。
8.一种处理语音输入的方法,包括:选择单词域;确定由接收到的用户口头话语指定的单词的发音数据;将该单词的该发音数据与该域的常用单词的列表相比较以发现匹配;如果发现匹配,则停止进一步的语音处理;以及如果没有发现匹配,则语音识别进一步的指定该单词的多个单个字符的用户口头话语,以便与所述发音数据相比较。
9.根据权利要求8的方法,其中,所述语音识别步骤还包括:为所述多个字符中的每一个确定一N-best列表;使用该些N-best列表自动生成候选单词;以及将所述发音数据与所述候选单词相比较以确定至少一个匹配。
10.根据权利要求9的方法,还包括将所述候选单词包括在语法内,从而将所述发音数据与该语法相比较以确定匹配。
11.根据权利要求9的方法,其中,所述确定N-best列表的步骤包括为所述多个字符中的每一个识别至少一个可选字符。
12.根据权利要求9的方法,其中,所述自动生成候选单词的步骤包括根据容许的单词的字典基于所述N-best列表生成候选单词。
13.根据权利要求9的方法,其中,所述自动生成候选单词的步骤包括使用所述N-best列表生成候选单词而没有来自容许的单词的词典的限制。
14.一种机器可读存储器,该存储器中存储有具有多个代码部分的计算机程序,这些代码部分可被机器执行以便使该机器执行前面的方法权利要求的任何方法的步骤。

说明书全文

使用口头话语验证语音输入的方法

技术领域

发明涉及语音识别系统,并尤其涉及消除向这种系统提供的语音输入的歧义。

背景技术

语音识别是指机器或程序将用户语音转化成易于被计算机处理的文本表示或字符串的能。一旦已如此转化语音,则可以多种不同的方式使用该信息。例如,语音识别技术允许计算机在命令和控制的情境中响应用户语音命令。在另一示例中,语音识别技术使得计算机可记录口授。
通常,语音识别系统(SRS)在接收到的语音输入时执行声学分析。生成与语音输入的发音有关的信息。然后,可将提供语音输入的语音表达的此数据与可识别单词的词汇表或一组定义的语法相比较以确定匹配。还使用统计语言模型来帮助此识别过程。统计语言模型提供了可在其中评估可能的识别结果的上下文。即,给定从用户的口头话语中获得的一个或多个单词的字符串,统计模型可提供在统计的确定性内关于字符串的下一个单词将是什么的指示。
就对包括多个单词的短语的识别而言,SRS已达到了可接受的准确度平。当评估单词短语时,其构成单词通常在声学上不同,并且因而可彼此区分。语言模型的使用提供了额外的将一个单词与另一个单词区分开的方法。但是,在其它情况下,例如当识别单个单词并尤其是专有名词或单个字符时,语音识别会比较不准确。这个事实的一个原因是生成所有难以识别的单词例如名字的语法即使可能也非常困难。另外,当识别单个单词时,上下文模型不会提供额外的洞见。
提出的一种识别这些较困难的单词的方法是要求用户拼写作为输入提供的单词。要求用户读出预期的单词的每个字母或字符。但是,字母输入会由于话语简短以及字母的声学混淆而有歧义。例如,在英语中难以区分字母F和S。其它混淆地类似的字母可包括B、C、D、E、G、P、T、V和Z。此外,类似于识别单个单词的情况,语言模型没有提供额外的用于消除单个字母的歧义的信息。
结果,必须使用其它方法消除拼写输入的歧义。通常,使用N-best匹配和对用户的询问的组合来消除歧义性。SRS询问用户对于每个说出的字母的可能识别结果是否正确。例如,对于每个识别的字母,可对用户进行如下的询问:“你说的是E吗?”,“你说的是B吗?”,“你说的是D吗?”等,询问沿与可能的识别结果相关联的通常混淆的字母的N-best列表继续下去,直到用户肯定地响应。这会继续进行直到拼写和识别了整个单词。
这种逐字母的、提问-回答式的消除歧义性的方法对于用户而言可能非常乏味并且耗时。拥有一种用于以克服了上述缺陷的方式识别和/或验证单词输入的技术将是有益的。

发明内容

本发明提供了一种用于识别和/或验证单词输入的解决方案。本发明的一个实施例可包括一种验证语音输入的方法。该方法可包括确定接收到的指定一单词的用户口头话语的发音数据,并语音识别进一步的指定该单词的单个字符的用户口头话语。可为每个字符生成N-best列表。该方法还可包括使用每个字符的N-best列表自动生成候选单词,并将该单词的发音数据与候选单词相比较以确定至少一个匹配。
本发明的另一实施例包括处理语音输入的方法,该方法包括选择单词域并确定接收到的用户口头话语指定的单词的发音数据。该方法还可包括将该单词的发音数据与该域的常用单词的列表相比较,以发现匹配。如果发现匹配,则可停止进一步的语音处理。如果没有发现匹配,则可识别进一步的指定该单词的多个单个字符的用户口头话语,以便与识别结果比较。
本发明的另一实施例可包括被编程以使得机器执行这里描述的各个步骤的机器可读存储器
附图说明
附图中示出了目前为优选的实施例;但是应理解,本发明并不局限于所示的精确安排和手段。
图1是示出根据这里公开的发明安排的消除用户语音输入的歧义的方法的流程图
图2是示出根据这里公开的发明安排的用于使用N-best列表生成候选单词的技术的示意图。

具体实施方式

本发明提供了一种用于识别用户语音输入以及消除其歧义的解决方案。根据这里公开的发明安排,可使用本发明来识别语音识别系统(SRS)传统上较难识别的那些单词。这样的单词可包括但不局限于专有名词包括名字、城市名等。本发明确定指定一单词的用户语音输入的发音数据。可接收并识别拼写了单词的逐字符字符的语音输入,该输入被称为拼写型输入。通常,可使用从拼写型输入识别的字符生成候选单词的语法。可将该语法与该单词的发音数据相比较以便验证。
图1是示出根据这里公开的发明安排的消除用户语音输入的歧义的方法100的流程图。方法100可在与用户通信的情境中由SRS执行。在一个实施例中,SRS可设置在用户的计算机系统内。例如,该计算机系统可实现为台式计算机系统、膝上计算机、个人数字助理等。可使用任何适于执行语音处理并具有合适的音频输入和输出能力的合适的计算机系统。在另一个实施例中,SRS可位于远程,可经由数据连接或语音连接访问,例如当在交互式语音响应(IVR)系统中实现时。
应理解,SRS可与文本到语音(TTS)系统或其它音频重放系统结合。这种系统与SRS合作使用允许向用户提供这里所述的声音提示。但是在其它安排中,例如在多模接口的情况下可通过视觉工具例如文本来提供提示。
在步骤105中,可要求用户提供一单词作为语音输入。在步骤110,SRS可接收到指定一单词的用户口头话语。在步骤115中,可记录用户口头话语以便进行进一步处理。在步骤120中,可处理用户口头话语以确定发音数据。更具体地,在语音识别的过程中,可对用户口头话语进行声学分析。在此过程期间,SRS可生成用户口头话语的发音数据和/或由用户口头话语指定的单词的语音表达。
步骤125-155包括本发明的任选特征,其提供了识别接收的单词的快速可选方案。一般而言,如果使用此任选过程识别出用户口头话语指定的单词,则不需要对用户输入进行进一步的消除歧义和/或语音处理。因此,在步骤125中,可识别或选择预期用户口头话语属于的特定域。
用户口头话语指定的单词可属于特定的词类或词域。例如,SRS可能询问用户用户的名字、用户所在的城市、产品的特定品牌等。例如,如果SRS询问用户的名字,该域可视具体情况而包括名或专有名称。如果SRS询问城市,则该域可包括城市名。这里公开的示例仅是为说明目的而提供的,因而并非旨在限制本发明的范围。
因此,在步骤130中,可识别选择的域中的常用单词的列表。更具体地,对于在SRS系统内指定的每个域,可包括常用单词的语法。常用单词的列表或语法可通过多种不同的技术例如统计处理文本语料库、分析用户随时间对特定问题的响应等中的任何一个来确定。不管确定常用单词的方式是什么,可选择指定这样的单词的对应于该域的语法。
在步骤135中,可将发音数据与常用单词的列表相比较。如已知的,SRS可包括常用单词中的每一个的发音。该发音可以是预先编程的,由SRS动态地生成的,或由TTS动态地生成并然后提供给SRS的。因此,可将该单词的发音数据与常用单词列表的发音数据相比较。
在任何情况下,在步骤140中,可确定该发音数据是否匹配该域的任何常用单词。如果确定了一个或多个匹配,则该方法可继续到步骤145。如果确定没有匹配,则该方法可继续到步骤160。在步骤145,可由用户确认匹配的一个或多个常用单词的拼写。例如,SRS可提供提示“你说的是Dave,拼写为D-A-V-E吗?”。在该提示中,可读出并然后拼写该单词。如果匹配多于一个单词,则可逐一地将每个单词呈现给用户,其中读出并拼写每个可能的单词。或者,如果SRS经由基于文本的提示与用户交互,则可将可能的或者匹配的单词显示为文本。在任何情况下,SRS可提示用户验证或选择匹配的常用单词中的特定一个单词。
在步骤150中,可接收这样的用户输入,其接受匹配单词中的一个或拒绝匹配单词。在步骤155中,可确定用户输入是接受一匹配单词还是拒绝匹配单词。如果用户数据接受一匹配单词,则由于已找到匹配,本方法结束。如果用户输入拒绝匹配单词,则方法可继续进行到步骤160。
在步骤160,SRS可提示用户逐字符地拼写在步骤110中的语音输入指定的单词。在步骤165中,可接收用户口头话语,该话语指定该单词的一字符。在步骤170中,可语音识别用户口头话语,并可确定接收到的用户口头话语的N-best匹配。如提到的,当接收在拼写单词的情况下指定单个字符的语音输入时,SRS可能容易混淆特定的字母、数字或符号。例如,如果用户说字母B,SRS可理解成B、V、E、D等。因此,SRS可确定对于接收的用户口头话语的最可能的匹配或识别结果。在此情况下,N-best列表将被局限于易混淆的字符即字母、数字和/或符号。N-best列表中指定的每个字符均可认为是候选字符。对于每个用户口头话语,候选字符可从最可能到最不可能排序。
在步骤175中,可确定是否将接收更多的指定字符的用户口头话语。如果是这样,则该方法可循环回到步骤165以接收和处理更多的用户口头话语。该方法100可继续循环直到用户已拼写完单词。当不再有字母剩余时,该方法可继续进行到步骤180。
在步骤180中,可通过使用在该单词的每个被识别的字符的N-best列表中指定的候选字符生成单词组合,来自动和动态地生成语法。当生成候选单词时,可从对应于第一被识别的字符的N-best列表选择第一字符,从对应于第二被识别的字符的N-best列表选择第二字符,等等。图2是示出如上所述地使用N-best列表生成候选单词的技术的示意图。
根据一个实施例,可生成候选单词而没有定义容许的单词的词典的限制。即,SRS可从N-best列表生成所有可能的字符排列(候选单词),只要遵守参照步骤180描述的准则即可。此技术可导致伪单词或不是实际单词的字符排列。在另一个实施例中,字符排列被局限于容许的单词的词典内定义的那些单词。这确保了将仅生成实际的单词或预定的伪单词。
在步骤185中,可将步骤120的发音数据与候选单词的语法比较。在一个安排中,SRS可被配置成生成该语法内的候选单词的发音数据。该发音数据可根据候选单词的拼写生成。在另一个安排中,SRS可将候选单词传递给TTS,该TTS可根据候选单词的拼写为该语法中的每个单词生成发音数据。如果在步骤190中发现一个匹配,则由于对照候选单词验证了可能的识别结果,该方法可结束。如果没有发现匹配,则在步骤195中,可执行其他的消除歧义性技术,例如传统的逐字母消除歧义性。
本发明提供了一种用于消除SRS的语音输入的歧义的解决方案。根据这里公开的发明安排,可处理指定一单词的用户口头话语,以确定该话语的发音数据。然后可将拼写该单词的语音输入提供给SRS。可通过从通过语音识别该单词的每个字符获得的N-best列表生成排列,自动和动态地生成语法。然后可将该单词的发音数据与候选单词的语法比较以便进行验证。本发明还提供了一种用于通过将识别结果与特定于域的常用单词的语法比较来快速确认可能的识别结果是否准确的技术。
本发明可在硬件软件或硬件和软件的组合中实现。本发明可以集中方式在一个计算机系统中实现,或以其中不同的元件分布在一些互连的计算机系统上的分布方式实现。适于执行这里公开的方法的任何类型的计算机系统或其它装置均适用。硬件和软件的典型组合是具有这样的计算机程序的通用计算机系统,该计算机程序当被加载和执行时控制该计算机系统从而该计算机系统执行这里描述的方法。
本发明还可包含在计算机程序产品内,该计算机程序产品包含能够实现这里所述的方法的所有特征,并且当被加载到计算机系统中时能够执行这些方法。在当前上下文中的计算机程序、软件应用和/或这些术语的其它变体是指这样一组指令的以任何语言、代码或符号表示的任何表达,该组指令旨在使具有信息处理能力的系统直接或在下面的操作中的任何一个或全部之后执行特定功能:a)转换到另一种语言、代码或符号;或b)以不同的物质形式再现。
本发明可体现为其它形式而不会背离本发明的精神或其基本属性。因此,应参照下面的权利要求而不是前面的说明来指示本发明的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈