首页 / 专利库 / 软件 / 软件 / 多种语音识别软件实例的使用

多种语音识别软件实例的使用

阅读:6发布:2021-08-29

专利汇可以提供多种语音识别软件实例的使用专利检索,专利查询,专利分析的服务。并且一种将 语音识别 软件 用于从与一个或一个以上 服务器 计算机(20)无线通信的手持式通信装置(10)接收 请求 动作的命令的方法。所述服务器计算机对产生解译的话音命令(50)的所记录话音命令文件(30)执行语音识别(40),如果 置信度 为高(60),那么所述系统自动地构建应用程序命令(80)或创建文本文件供传输到通信装置(70)。另一选择为,如果所述语音识别的置信度为低,那么将所记录的音频数据文件路由到电信服务雇用的人类抄录员,所述抄录员手动地审阅数字话音文件且构建所述应用程序命令或文本文件(90),一旦创建了所述应用程序命令,便将其传输到所述通信装置。,下面是多种语音识别软件实例的使用专利的具体信息内容。

1.一种将语音识别软件用于从无线通信装置接收的所记录音频数据的方法,其 包括:
接收从无线通信装置传送的所记录音频数据并将所述音频数据引导到运行语音 识别软件的多于一个并行服务器
从运行语音识别软件的每一服务器接收识别的置信度;及
路由具有最高置信度的识别结果供进一步处理。
2.如权利要求1所述的方法,其中运行接收所述相同音频数据的语音识别软件 的并行服务器的数目由系统管理员界定。
3.如权利要求1所述的方法,其中运行接收所述相同音频数据的语音识别软件 的并行服务器的数目由所述通信装置用户的选项控制。
4.如权利要求1所述的方法,其包含运行语音识别软件的一个或一个以上额外 服务器;且
其中所述一个或一个以上额外服务器基于所要处理的音频数据的类型对所述记 录的音频数据进行进一步处理。
5.如权利要求1所述的方法,其包含运行语音识别软件的一个或一个以上额外 服务器;且
其中所述一个或一个以上额外服务器基于所述通信装置用户的选项对所述记录 的音频数据进行进一步处理。

说明书全文

技术领域

发明涉及使用基于无线服务器的话音识别工具以通过话音命令控制各种无线 通信装置。

背景技术

话音控制式系统已存在并使用了许多年。所述系统(通常并入有驻存在受控装置 上的计算机硬件软件的组合)允许最终用户通过叙述口头命令来控制装置。所述口 头命令随后被转换成可控制电子装置的可执行命令。当今,可在分布在从计算机接口汽车、蜂窝式电话到其它手持式装置范围内的各种类型的技术中找到驱动话音控制式 装置的话音识别系统。
无线通信装置本身特别适合于话音控制。所述无线装置通常将蜂窝式电话、电子 邮件、联系人列表、日历、互联网web浏览、多媒体播放器和许多其它类似的电子应 用程序组合成单个电子包装,所述电子包装小得足以装入口袋或钱包中。与无线装置 的互相作用通常是通过附接到所述无线装置的小键盘来进行。由于所述键盘比标准键 盘小得多,因此经常发生可能是破坏性的错误。此外,所述装置(例如)通常是在驾 驶时使用,因此监视所述装置并手动输入命令不切合实际。最后,所述问题阻碍了将 装置用于其计划的用途。因此,需要能够使用话音控制而非键盘来控制无线装置。
现有无线通信装置相依于完全驻存在所述装置上的程序设计。所述系统的能受 到通常可用于移动话音控制式装置上的减小的存储器和计算功率的极大限制。然而, 语音识别准确度的质量不良,这在很大程度上是因为面对移动用户的环境挑战,例如, 背景噪声、用户口音和成本效率硬件,例如,不能提供高质量音频的麦克
美国专利第7,027,987("the'987专利)揭示一种话音介接到搜索引擎的方法。然而, 如同所述'987专利的发明人在其论文中报告的那样,在试验中仅有60%的时间能够达 到对口语单词的正确识别。参见,Alex Franz和Brian Milch.Searching the Web by Voice, Proc.19th International Conference on Computational Linguistics,1213-1217(2002)。
因此,需要一种可执行各种应用程序同时维持对口语单词的极高识别准确度的话 音控制式无线通信装置。

发明内容

无线通信装置接受来自最终用户的所记录音频数据。所述音频数据可呈请求动作 的命令的形式,所述动作通常在所述装置上手动地执行,例如,发送电子邮件、安排 约会时间、起始电话呼叫、搜索互联网、播放多媒体文件(例如,MP3歌曲)或请求 与新闻有关的信息(例如,体育比分或股票行情)。同样地,所述音频数据可为将被 转换成文本文件且保存为附注、信件或其它文本数据的文本。所述音频数据还原为呈 装置硬件支持的格式的数字话音文件,例如,wav、mp3、vnf文件或类似文件。所述 数字话音文件通过受保护或不受保护的无线通信发送到一个或一个以上服务器计算机 供进一步处理。所述服务器计算机通常由为所述通信装置提供电话和电子邮件接入的 相同电信服务来管理。一旦所述音频数据通过辨识,所述服务器便通过建造应用程序 命令或文本文件来处理所述数据并将所得信息发送到所述无线装置供正确地执行。
将所述音频数据运送到服务器供语音识别允许由更强大的语音引擎来处理请求。 然而,这样做并不能改善被解译数据的质量。如由许多研究和失败的系统所证明 (http://www.cs.berkeley.edu/%7Emilch/papers/gvs.pdf),如果音频的质量不良,那么最好 的语音识别也不能产生准确的结果。这致使用户停止使用所述系统。
因此,本发明通过以下方式来克服单词识别准确度的问题:不仅利用所述服务器 计算机的功率来执行语音识别,而且本发明还评估所述语音识别过程的置信度。如果 所述置信度高,那么所述系统自动地建造应用程序命令或创建文本文件供传输到所述 通信装置。另一选择为,如果所述语音识别的置信为低,那么将所记录的音频数据文 件路由到电信服务雇用的人类抄录员,所述抄录员手动地审阅数字话音文件并建造所 述应用程序命令或文本文件。一旦创建了所述应用程序命令,其便被传输到所述通信 装置。作为本发明的结果,已显示通信装置背景中的语音识别在90%以上的时间内是 准确的。
附图说明

具体实施方式

图1中显示一种用于无线通信装置的话音控制式系统。所述系统包括与一个或一 个以上服务器计算机20无线通信的手持式通信装置10。在最低程度上,通信装置10 具有运行程序(也称为应用程序)的能力。通信装置10还具有音频记录能力,例如, 麦克风,以便可记录来自用户呈话音命令形式的音频数据并将所述命令保存为记录的 话音命令文件30。
通信装置10的用户存取驻存在装置10上的话音命令应用程序,并向装置的麦克 风口述控制装置10的命令。装置10记录话音命令并创建记录的话音命令文件30。装 置10可视情况将记录的话音命令文件30存储在内部以供将来使用。然后,通信装置 10将记录的话音命令文件30以无线方式发送到服务器计算机20并等待服务器的响 应。
在接收到记录的话音命令文件30后,服务器计算机20执行一系列编程模以处 理记录的话音命令文件30。最初,服务器计算机20对记录的话音命令文件30执行语 音识别40,从而产生解译的话音命令50。在其中多个服务器运行并行语音识别过程的 情况下,所述系统将基于各种参数(包含但不限于个别服务器的活动)确定哪一服务 器计算机20引导记录的话音命令文件30来进行语音识别。服务器计算机20可视情况 将记录的话音命令文件30存储在内部以供将来使用。服务器计算机20评估语音识别 过程60的置信度以确定所述语音识别的准确度。如果所述置信度处在预定平或在所 述预定水平以上,那么服务器20将调用机器可读命令70的自动创建以创建应用程序 命令80。
另一方面,如果语音识别过程40的置信度低于预定水平,那么服务器20将记录 的话音命令文件30路由到人类抄录员以供手动审阅并创建机器可读命令90。
一旦创建了机器可读命令80,服务器计算机20便将应用程序命令80传输到通信 装置10。通信装置10将接收的应用程序命令80引导到合适的应用程序供执行。
通信装置10可为当今可得到的许多类似类型装置中的一者。典型的通信装置10 将能够运行各种应用程序,包含但不限于无线电话通信、无线电子邮件、日历、联系 人列表、无线互联网web浏览和多媒体呈现。所述应用程序是以本机装置硬件可支持 的语言写入,例如C++、Symbian、Java、Linux和类似语言。另外,装置10还可能能 够运行除装置厂家提供的应用程序以外的应用程序。
图2显示在通信装置上运行的话音命令应用程序。用户以各种方式,优选地通过 按下装置上的按钮(其起始应用程序100)来启动应用程序。所述应用程序提示用户 进行音频记录,例如,语言命令,其接收110并以装置支持的格式保存为记录的话音 命令文件130,例如,wav、mp3或vnf文件。可优选地基于硬件使用其它文件格式。 如果用户正记录话音命令,那么应用程序可视情况呈现可能命令105列表。
所述装置随后与服务器计算机建立无线数据连接并将记录的话音命令文件130传 输到所述服务器。所述连接可基于用户以及系统管理员的偏好而为受保护或不受保护 的通信。优选地,所述装置维持与服务器计算机的连接直到服务器响应140为止。偶 尔地,所述响应可花费太长时间且所述数据连接在接收到所述响应之前便终止。在所 述情况下,所述装置或服务器可在稍后重新建立通信以传输(或接收)呈应用程序命 令180形式的服务器响应并终止所述连接。
所述通信装置接收应用程序命令文件180并询问应用程序命令以确定通信装置必 须采取的动作150。基于应用程序命令文件180,将所述命令引导到适当的应用程序供 执行160。
此外,基于话音命令,可将对应用程序的执行引导到特定内容提供者。举例来说, 对互联网内容的请求可来自互联网上的若干个源。运行所述系统的电信服务可与互联 网内容提供者达成协定以将所有此类请求仅引导到所述互联网内容提供者。所述协定 可在财务上有益于电信服务。同样地,用户可选择将使用哪一互联网内容提供者且可 将所述提供者预定为此类请求的源。
当音频记录为话音命令时,所述话音命令优选地将具有为所有命令遵循的标准格 式。话音命令的标准化格式允许更容易地执行额外的命令。所述话音命令应以关键字 短语开始以识别命令的类型。关键字短语的实例包含但不限于“呼叫联系人”、“电 子邮件”、“搜索web”、“寻找电影”或“播放歌曲”。所述关键字短语基于话音 命令的类型而后跟额外的参数。举例来说,如果关键字短语为“呼叫联系人”,那么 额外的参数应为所述联系人的姓名。更详尽的实例可包含电子邮件命令,所述电子邮 件命令将包含多个额外的参数,例如,联系人姓名或电子邮件地址、主题和文本。某 些参数可以参数短语(例如,电子邮件话音命令的“主题”)为开始或在没有参数短 语的情况下简单地附加到关键字短语。如在关键字短语“呼叫联系人”之后的联系人 姓名中那样。
一旦用户向通信装置叙述了话音命令,所述装置便以适当的数字文件格式保存记 录的话音命令以供传输到服务器计算机。视情况,所述系统还可附加指示从其接收记 录的话音命令的通信装置的唯一装置识别符。基于所述唯一装置识别符,所述系统可 识别以下描述的额外有用信息。
如果通信装置上维持联系人列表,那么所述列表可与记录的视频文件一起周期性 地传输且维持在服务器计算机上。所保存的联系人列表用于增加语音转译的准确度。 语音识别过程使用所述列表来帮助需要来自联系人列表的输入的自动话音命令转译。 另外,如果将话音命令发送到人类抄录员供审阅,那么所述抄录员可存取特殊用户的 联系人列表,或可将所述联系人列表自动地呈现给所述人类抄录员。
当将所述联系人列表发送到服务器计算机时,便可视需要操纵所述列表。举例来 说,所述服务器计算机可管理具有中间名字的首字母和不具有中间名字的首字母两者 的联系人姓名,以使不具有中间名字的首字母的记录向后解析为具有中间名字的首字 母的记录。举例来说,如果用户在其联系人列表中请求其所具有的针对Robert Smith 的联系人,但在其数据库中所具有的唯一记录为Robert T.Smith,那么所述系统可找 出Robert T.Smith并将结果返回到所述用户。
图3显示对从通信装置传输的所记录话音命令文件的服务器计算机处理。所述服 务器计算机以及对话音命令的所有处理通常由为所述通信装置提供无线通信的电信服 务来控制。所述通信装置建立与服务器计算机的无线数据连接并将记录的话音命令文 件传输到服务器计算机200。所述服务器计算机对记录的话音命令文件230执行语音 识别210。可使用可在市场上购得的语音识别程序,例如,可从Nuance,Inc.,公司购得 的Dragon Naturally Speaking,或者可使用定制的语音识别程序。语音识别过程导致创 建解译的话音命令文件250。所述语音识别软件还应能够提供测量软件对话音命令准 确识别的确信程度的置信度。所述置信测量通常被并入识别过程中。
临界置信度(即,如果识别过程的置信不充足,那么必须执行的额外处理的置信 度水平)可由系统管理员或者系统自身来调节。如果由语音识别产生的置信度处在临 界置信度或在所述临界置信度以上,那么使用来自语音识别过程210的所解译话音命 令250自动地创建240应用程序命令280。相反,如果由语音识别产生的置信度低于 所述临界置信度,那么将记录的话音命令文件230路由到人类抄录员供手动创建机器 可读命令文件280。
机器可读命令文件80应呈标准格式的形式,例如,Xml。标准格式允许容易地包 含新的命令。举例来说,如果话音命令为“呼叫联系人Bob Jones”,那么所述系统便 将“呼叫联系人”识别为关键字短语并针对电话呼叫类型建造Xml代码(例如, call)。在知道命令类型后,所述系统接下来分析出姓名并创建Xml代 码(例如,Bob Jones)。因此,应用程序命令文件280将为 callBob Jones。其它格式已为所属技术领域的技术人员熟知且 可容易地替代Xml格式。
一旦创建了应用程序命令文件280,不管用来创建所述应用程序命令文件的过程 如何,所述服务器计算机都会通过建立的无线数据连接将文件280返回到通信装置。 如上所述,如果数据连接已终止,那么所述服务器计算机可重新建立连接以将文件280 传输到通信装置。
图4显示使用不同的并行语音识别过程而非单个语音识别过程的本发明的另一实 施例。所述方法的优点是不同语音识别系统的差异,从而可获得最准确的语音识别。 在完成所有语音识别过程310时,所述系统评估每一过程的置信度320。如果所述语 音识别过程310的置信度中的至少一者处在临界置信度或在临界置信度以上,那么所 述系统选择具有最高置信度的所解译话音命令文件340并基于解译的话音命令文件 395自动地创建应用程序命令390。如果没有一个过程产生处在临界置信度或者在临界 置信度以上的置信度,那么将记录的话音命令路由到人类抄录员供审阅并手动创建应 用程序命令360。
视情况,可能需要额外的面向内容的语音识别过程335。面向内容的语音识别过 程335是使用特殊词典(例如,法律词典)或特殊语言(例如,西班牙语词典)的过 程。基于初始语音识别过程310的结果,且假定所述语音识别过程在临界置信度320 以上,便可确定记录的话音命令需要由面向内容的语音识别过程335进行额外的处理。 同样地,可基于用户已挑选额外的面向内容的语音识别过程而调用额外的面向内容的 语音识别过程335。所述系统将能够确定特殊用户已基于经编码唯一识别符请求的额 外的面向内容的语音识别过程。
在本发明的一个实施例中,如果将记录的话音命令文件路由到人类抄录员,那么 所述系统将试图将所述记录的话音命令文件引导到最适当的抄录员。可基于用户界定 准则的数目来选择适当的抄录员。举例来说,所述系统可存取任一特殊抄录员的工作 负荷并将文件指派给最不忙碌的抄录员。另一选项是确定命令类型并将记录的话音命 令文件指派给最适合于特殊命令类型的抄录员。这在所述命令可需要大量键入的情况 下尤其有用,例如,通常将需要键入额外信息(例如,电子邮件的文本)的电子邮件 命令。因此,将具有大量键入要求的命令引导到已被识别为最好打字员的抄录员。
还可将记录的话音命令文件引导到已经历过创建所述话音命令的用户的抄录员。 由于唯一识别符是视情况附加到每一记录的话音命令文件,因此所述系统可确定哪一 抄录员先前已审阅过来自记录所述话音命令的用户的话音命令。由于地区性方言和口 音的原因,因此可能需要让同一抄录员审阅来自同一用户的话音命令。即,所述抄录 员熟悉用户的口音且将来的抄录对于所述抄录员更容易一些。
还可基于命令的时间性优先化所述命令。举例来说,与通常不需要立即响应的命 令(例如,用于发送电子邮件的命令)相比,需要立即响应的命令(例如,起始呼叫 的命令)将具有较高的优先权,且因此被指派给较快的抄录员。
一旦已将记录的话音命令文件路由到人类抄录员,便可向所述抄录员呈现包含针 对抄录员的视觉线索的自动屏幕,所述视觉线索包含用户的过去历史以及设计用以加 速由人类抄录员所做处理的其它速度技术。在抄录员已手动创建应用程序命令文件之 后,所述系统可提示抄录员更新用户的语音识别语法文件,这将在以下更详细描述的 辨识话音命令中帮助语音识别过程。
图5中显示另一实施例。在所述实施例中,用户记录将保存为(举例来说)附注、 信件、备忘录或提示项的文本信息,且将所得文本文件存储在通信装置410上。类似 于先前实施例,所述音频数据存储在记录的音频文件430中并被传输到服务器计算机 420。通过可创建文本文件450的语音识别服务器模块440处理记录的音频文件430。 服务器计算机420评估语音识别过程460的置信度以确定所述语音识别的准确度。如 果所述置信度处在预定水平或在所述预定水平以上,那么便将自动创建的文本文件 450输送到服务器模块480供传输到通信装置410。相反,如果语音识别过程440的置 信度低于预定水平,那么服务器420便将记录的音频文件430路由到人类抄录员470 供手动审阅并创建文本文件455。
不管用于创建文本文件450或455的方法如何,所述文本文件都会沿着已经建立 的无线数据连接来传输480。一旦返回到通信装置410,便可将所述文本文件保存在 所述通信装置上,并使用适合于显示文本数据的应用程序来显示,例如,笔记本计算 机或字处理器。
在另一实施例中,所述系统具有一个或一个以上应用程序接口,其可确定话音命 令的类型并将应用程序命令的创建引导到另一组织。以此方式,一个组织可构造对在 通信装置上运行的应用程序是唯一的其自己的话音命令集。这在一个组织具有可容易 存取的信息但不想或不能使所述信息用于运行所述系统的电信服务的情况下是有利 的。举例来说,销售组织可能想通过通信装置使其销售团队存取公司的机密信息,但 又不想所述信息被电信服务存取。当所述系统确定话音命令是所述特定类型命令中的 一者时,便将记录的话音命令文件输送到所述组织以创建应用程序命令文件。将优选 地使用所属技术领域的技术人员已知的任一众所周知的加密方法来加密所得的应用程 序命令文件。将经加密的应用程序命令文件输送回到电信服务供传输到所述通信装置。 一旦在所述通信装置上接收到经加密的应用程序命令,便将其引导到由所述组织提供 的通信装置上的唯一应用程序。
在又一实施例中,使用附加到记录的话音命令的通信装置的唯一识别符来识别叙 述所述话音命令的用户。因此,当服务器计算机接收来自通信装置的所记录话音命令 时,所述系统可确定用户是谁以及所述用户是否适合于由电信服务提供的话音命令服 务。另外,所述语音识别过程可存取经创建用于特定用户的用户语法文件。所述语法 文件含有用户的语音样式的实例且可用于帮助语音识别过程。特定用户的语法文件在 此项技术以及最易在市场上购得的语音识别系统的标准组件中众所周知。语法文件的 构造可由用户来执行,或者人类抄录员可如上所述创建语法文件。
相关申请交叉参者案
本申请案主张2005年8月9日申请的美国临时专利申请案第60/706,806号的优 先权和利益,所述申请案以引用的方式并入本文中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈