使用用户纠正的自动语音识别学习专利检索-改变主意电气和电子设备专利检索查询-专利查询网

使用用户纠正的自动语音识别学习

阅读：914发布：2020-05-13

专利汇可以提供使用用户纠正的自动语音识别学习专利检索，专利查询，专利分析的服务。并且一种自动语音识别系统识别用户对口述文本的改变，并推断这类改变是否源自用户改变他/她的主意，或者这类改变是否是识别错误的结果。如果检测到识别错误，则系统使用用户纠正的类型来修改其本身，以降低这类识别错误再次出现的机会。因此，该系统和方法提供了具有极少或没有额外用户交互的意义重大的语音识别学习。，下面是使用用户纠正的自动语音识别学习专利的具体信息内容。

权利要求

1.一种用自动语音识别系统学习的方法，其特征在于，所述方法包括：
检测对口述文本的改变；
推断所述改变是纠正还是编辑；以及
如果所述改变被推断为纠正，则选择性地从所述纠正的特性中学习，而无需额外的用户交互；
其中选择性地从所述纠正的特性中学习包括确定所纠正的单词是否在用户词典中，如果所述所纠正的单词在所述用户词典中，选择性地从所述纠正的特性中学习进一步包括确定用户的发音是否是所述系统已知的发音，并且如果所述用户的发音是所述系统已知的发音，提高一与现有发音相关联的概率。
2.如权利要求1所述的方法，其特征在于，推断所述改变是否为纠正包括检测所述用户是否从一备选列表中选择来作出所述改变。
3.如权利要求1所述的方法，其特征在于，推断所述改变是否为纠正包括测量口述和所述改变之间的时间量。
4.如权利要求1所述的方法，其特征在于，推断所述改变是否为纠正包括将所述口述文本和所述改变的文本的语音识别引擎得分进行比较。
5.如权利要求1所述的方法，其特征在于，推断包括检测所改变的单词的数量。
6.如权利要求1所述的方法，其特征在于，选择性地从所述纠正的特性中学习包括如果所述所纠正的单词尚未存在于所述用户词典中，则向所述词典添加所纠正的单词。
7.如权利要求6所述的方法，其特征在于：
如果所纠正的单词的确存在于所述用户词典中，则选择性地从所述纠正的特性中学习还包括，
确定所述用户的发音是否偏离于所述系统已知的现有发音；以及
选择性地学习所述发音。
8.如权利要求7所述的方法，其特征在于，确定所述用户的发音是否偏离于现有发音包括，如果至少一个上下文单词存在，则基于所述至少一个上下文单词作出波的强制对齐，所述波指数字化声音。
9.如权利要求7所述的方法，其特征在于，确定所述用户的发音是否偏离于现有发音包括在所述波中标识所纠正的单词的发音。
10.如权利要求9所述的方法，其特征在于，还包括基于所纠正的单词的可能发音和所述识别结果构建一点阵。
11.如权利要求10所述的方法，其特征在于，还包括至少部分地基于所述所标识的发音与现有发音之间的距离生成一置信度得分。
12.如权利要求10所述的方法，其特征在于，还包括至少部分地基于所述所标识的发音与现有发音的声学模型得分生成一置信度得分。
13.如权利要求11所述的方法，其特征在于，选择性地学习所述发音包括将所述置信度得分与一阈值进行比较。
14.如权利要求13所述的方法，其特征在于，选择性地学习所述发音还包括确定所述选择性地学习的发音是否出现了预先选择的次数。
15.如权利要求1所述的方法，其特征在于，选择性地从所述纠正的特性中学习包括向所述用户词典添加至少一个单词对。
16.如权利要求15所述的方法，其特征在于，至少一个单词对是临时地添加到所述用户词典的。
17.一种用自动语音识别系统学习的系统，其特征在于，所述系统包括：
用于检测对口述文本的改变的装置；
用于推断所述改变是纠正还是编辑的装置；以及
用于如果所述改变被推断为纠正，则选择性地从所述纠正的特性中学习，而无需额外的用户交互的装置；
其中用于选择性地从所述纠正的特性中学习的装置包括用于确定所纠正的单词是否在用户词典中的装置，以及用于如果所述所纠正的单词在所述用户词典中，选择性地从所述纠正的特性中学习进一步包括确定用户的发音是否是所述系统已知的发音的装置，以及用于如果所述用户的发音是所述系统已知的发音，提高一与现有发音相关联的概率的装置。
18.如权利要求17所述的系统，其特征在于，用于推断所述改变是否为纠正的装置包括用于检测所述用户是否从一备选列表中选择来作出所述改变的装置。
19.如权利要求17所述的系统，其特征在于，用于推断所述改变是否为纠正的装置包括用于测量口述和所述改变之间的时间量的装置。
20.如权利要求17所述的系统，其特征在于，用于推断所述改变是否为纠正的装置包括用于将所述口述文本和所述改变的文本的语音识别引擎得分进行比较的装置。
21.如权利要求17所述的系统，其特征在于，用于推断的装置包括用于检测所改变的单词的数量的装置。
22.如权利要求17所述的系统，其特征在于，用于选择性地从所述纠正的特性中学习的装置包括用于如果所述所纠正的单词尚未存在于所述用户词典中，则向所述词典添加所纠正的单词的装置。
23.如权利要求22所述的系统，其特征在于：
用于如果所纠正的单词的确存在于所述用户词典中，则选择性地从所述纠正的特性中学习的装置还包括，
用于确定所述用户的发音是否偏离于所述系统已知的现有发音的装置；以及用于选择性地学习所述发音的装置。
24.如权利要求23所述的系统，其特征在于，用于确定所述用户的发音是否偏离于现有发音的装置包括，用于如果至少一个上下文单词存在，则基于所述至少一个上下文单词作出波的强制对齐的装置，所述波指数字化声音。
25.如权利要求23所述的系统，其特征在于，用于确定所述用户的发音是否偏离于现有发音的装置包括用于在所述波中标识所纠正的单词的发音的装置。
26.如权利要求25所述的系统，其特征在于，所述系统还包括用于基于所纠正的单词的可能发音和所述识别结果构建一点阵的装置。
27.如权利要求26所述的系统，其特征在于，所述系统还包括用于至少部分地基于所述所标识的发音与现有发音之间的距离生成一置信度得分的装置。
28.如权利要求26所述的系统，其特征在于，所述系统还包括用于至少部分地基于所述所标识的发音与现有发音的声学模型得分生成一置信度得分的装置。
29.如权利要求27所述的系统，其特征在于，用于选择性地学习所述发音的装置包括用于将所述置信度得分与一阈值进行比较的装置。
30.如权利要求29所述的系统，其特征在于，用于选择性地学习所述发音的装置还包括用于确定所述选择性地学习的发音是否出现了预先选择的次数的装置。
31.如权利要求17所述的系统，其特征在于，用于选择性地从所述纠正的特性中学习的装置包括用于向所述用户词典添加至少一个单词对的装置。
32.如权利要求31所述的系统，其特征在于，至少一个单词对是临时地添加到所述用户词典的。

说明书全文

使用用户纠正的自动语音识别学习

技术领域

[0001] 本发明涉及计算机语音识别，尤其涉及训练计算机语音识别系统。

背景技术

[0002] 计算机系统对人类语音的快速且准确的识别长久以来都是计算机系统的开发者所寻求的目标。可从这一计算机语音识别(CSR)系统中获得的益处是丰富的。例如，作为向计算机系统键入文档的替代，人们可以简单地说出该文档的单词，CSR系统能够识别单词，并储存每一单词的字母，如同这些单词被键入一样。由于人们一般说话比打字快，这可以提高效率。同样，人们不再需要学习如何打字。计算机也可在其使用由于人的手被除打字以外的其它任务所占用而当前不实用的许多应用中使用。

[0003] 典型的CSR系统通过将说出的话语与词汇表中的每一单词的模型相比较来识别单词。其模型最佳地匹配话语的单词被识别为说出的单词。CSR系统可将每一单词模型化为组成该单词的音素序列。为识别话语，CSR系统标识其音素最佳地匹配该话语的单词序列。然而，这些音素可能不完全对应于组成单词的音素。由此，CSR系统通常使用一种概率分析来确定哪一单词最接近地对应于所标识的音素。

[0004] 当识别话语时，CSR系统将表示话语的模拟信号转换成更有用的形式用于进一步处理。CSR系统首先将模拟信号转换成数字形式。CSR系统然后向数字形式应用一种信号处理技术，如快速傅立叶变换(FFT)、线性预测编码(LPC)或滤波器组，以提取该话语的适当的参数表示。一种常用的表示是具有表示该话语在不同间隔上的频率和/或能带的FFT或LPC系数的“特征矢量”(称为“帧”)。间隔基于计算机系统的计算容量和识别过程的期望准确度可长可短。典型的间隔可以在10毫秒范围之内。即，CSR系统可对每10毫秒的话语生成一个特征矢量。每一帧通常为25ms长。因此，每10ms生成25ms长的帧。在连续的帧之间有重叠。

[0005] 为便于处理特征矢量，将每一特征矢量量化成有限数量(如，256)的“量化矢量”之一。即，CSR系统定义若干量化矢量，选择它们来表示特征矢量的典型或平均范围。CSR系统然后将每一特征矢量与量化矢量的每一个进行比较，并选择最接近类似该特征矢量的量化矢量来表示该特征矢量。每一量化矢量由一个数字(如，1到256之间)来唯一地表示，它被称为“码字”。当特征矢量被表示为量化矢量时，存在信息丢失，这是因为许多不同的特征矢量映射到同一量化矢量。为确保信息丢失不会严重地影响识别，CSR系统可定义上千或上百万个量化矢量。储存如此大量的量化矢量的定义所需的存储量是相当可观的。由此，为减少所需的存储量，CSR系统对特征矢量分段，并将每一分段量化成少量(如，256)的量化矢量之一。由此，每一特征矢量由每一分段的量化矢量(由码字标识)来表示。为解释的简明性，描述不分割特征矢量，并由此对每一特征矢量(或帧)仅有一个码字的CSR系统。

[0006] 如上所述，说出的话语通常不完全对应于单词的模型。找出精确的对应性的困难是由于语音中无法由单词模型完全并准确捕捉的巨大变化。例如，这些变化起因于说话者的口音、人们说话时的速度和音调、说话者的当前健康状况(如，感冒)、说话者的年龄和性别等等。使用概率技术的CSR系统比寻找精确对应性的技术更成功地准确识别语音。

[0007] 常用于语音识别的一个这样的概率技术是隐马尔可夫建模。CSR系统可对词汇表中的每一单词使用隐马尔可夫模型(“HMM”)。单词的HMM包括概率信息，从概率信息中可导出任一码字序列对应于该单词的概率。由此，为识别话语，CSR系统将话语转换成码字序列，然后使用每一单词的HMM来确定该单词对应于该话语的概率。CSR系统识别该话语为具有最高概率的单词。

[0008] HMM由状态图来表示。状态图是传统上用于确定系统在接收输入序列之后的状态。状态图包括状态以及源和目标状态之间的转移。每一转移具有一与其相关联的输入，该输入指示当系统接收该输入并处在源状态中时，系统将转移到目标状态。例如，这一状态图可由识别组成词汇表中的单词的每一码字序列的系统使用。当系统处理每一码字时，系统基于当前状态和正被处理的码字来确定下一状态。在这一示例中，状态图将具有对应于每一单词的某一最终状态。然而，如果表示了一个单词的多个发音，每一单词可具有多个最终状态。如果在处理码字之后，系统处于对应于单词的最终状态，则该码字序列将被识别为最终状态的单词。

[0009] 然而，HMM对每一码字具有与从一个状态到另一状态的每一转移相关联的概率。例如，如果HMM在状态2中，则某一码字将导致从当前状态到下一状态的转移的概率可以是
0.1，并且同一码字将导致从当前状态到不同的下一状态的转移的概率可以是0.2。类似地，不同的码字将导致从当前状态到下一状态的转移的概率可以是0.01。由于HMM具有与其状态图相关联的概率，对给定的码字序列的最终状态的确定只能按照概率来表达。由此，为确定码字序列的每一可能的最终状态的概率，需要标识HMM的状态图的每一可能的状态序列，并需要计算相关联的概率。每一这样的状态序列被称为状态路径。

[0010] 为确定码字序列表示音素的概率，CSR系统可生成概率点阵。音素的HMM的概率点阵表示码字序列的每一可能的状态路径的概率的计算。概率点阵包括对序列中的每一码字HMM可以处于的每一可能状态的节点。每一节点包含迄今为止所处理的码字将导致HMM处于与该节点相关联的状态的累加概率。特定码字的节点中的概率和指示迄今为止所处理的码字表示音素的前缀部分的似然性。

[0011] CSR系统的准确度部分地取决于每一音素的HMM的输出和转移概率的准确度。典型的CSR系统训练该CSR系统，使得输出和转移概率准确地反映平均说话者的语音。在训练过程中，CSR系统对于大量不同的单词从各种说话者收集码字序列。选择单词使得每一音素被说出大量的次数。根据这些码字序列，CSR系统对每一HMM计算输出和转移概率。用于计算这些概率的各种迭代方法是众所周知的。

[0012] 然而，这类训练技术的一个问题是这些平均HMM可能不能准确地模型化其语音模式不同于平均值的那些人的语音。一般而言，每个人具有不同于平均值的某些语音模式。因此，CSR系统允许说话者训练HMM以适合说话者的语音模式。在这一训练中，CSR系统通过使用由系统的实际用户说出的话语来细化(refine)HMM参数，如输出和转移概率，以及由码字表示的量化矢量。通过使用用户提供的数据以及从大量的说话者不相关数据中生成的信息和参数来导出经调节的参数。由此，概率反映了说话者相关特征。

[0013] CSR系统通常是通过向说话者呈现大量不同的预先选择的单词来训练的。选择这些单词以确保可收集对应于每一音素的语音的代表性样本。采用这一代表性样本，CSR系统可确保无法准确地反映该音素的说话者发音的任一HMM可被充分地调节。由于CSR系统按照概率来运作，提供的训练越多，随后的语音识别就越准确。然而，当完成了越来越多的训练时，对给定量的额外训练的识别准确度的提高程度会开始下降。而且，要求用户在训练时间上提供大量投入可能会减损用户的体验。

[0014] 因此，在号召用户训练系统的程度，和用户可有效地使用系统的程度之间有一个平衡。给定人类语言的复杂度，非常容易想象到，即使在大量的训练之后，系统也将偶然地产生错误。导致说出的话语不与单词的对应模型相匹配的另一原因是在单词为新单词时。一种可能的解决方案包括增大词汇表，这会降低识别准确度。另一种解决方案是通过在其中用户添加新单词的用户训练。现有系统允许用户通过使用诸如添加/删除单词对话框等允许用户添加或删除单词的用户界面，向合适的词典手动地添加具有他或她的发音的新单词，无论该词典是系统词典、销售商或应用词典还是用户专用词典。然而，当用户需要添加大量的单词时，这是麻烦的。也已知使用用户创作的文档和电子邮件来调节语言模型(LM)。
该方法是有局限的，因为发音并未被添加到词典，并且语言模型调节的质量很大程度上取决于源文档的过滤。

[0015] 由此，需要一种可从用户容易地学习新单词及其发音，而不需要相当大的用户干预的系统。实现这一目标将允许增强的自动语音识别系统学习，而不会通过需要不适当的训练工作来减损用户的体验。

发明内容

[0016] 一种自动语音识别系统识别用户对口述的文本的改变，并推断这些改变是源自用户改变他/她的主意，还是这些改变是纠正识别错误的结果。如果检测到从识别错误的纠正，则系统使用用户纠正的类型来修改其本身以降低这类识别错误再次出现的机会。因此，该系统和方法提供了有极少或没有额外的用户交互的意义重大的语音识别学习。附图说明

[0017] 图1是可在其中实践本发明的一个计算环境的框图。

[0018] 图2是可在其中实践本发明的一个替换计算环境的框图。

[0019] 图3是依照本发明的一个实施例用语音识别系统学习的方法的框图。

[0020] 图4是依照本发明的一个实施例用语音识别系统学习的方法的一部分的框图。

具体实施方式

[0021] 图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例，并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。

[0022] 本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。

[0023] 本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言，程序模块包括例程、程序、对象、组件、数据结构等等，执行特定的任务或实现特定的抽象数据类型。本发明也可以在分布式计算环境中实践，其中，任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块可以位于本地和远程计算机存储媒质中，包括存储器存储设备。

[0024] 参考图1，用于实现本发明的示例系统包括计算机110形式的通用计算装置。计算机110的组件可包括但不限于，中央处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。

[0025] 系统总线121可以是若干种总线结构类型的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限，这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线，也称为Mezzanine总线。

[0026] 计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质，包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限，计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失，可移动和不可移动媒质。计算机存储媒质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限，通信媒质包括有线媒质，如有线网络或直接连线连接，以及无线媒质，如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。

[0027] 系统存储器130包括易失和/或非易失存储器形式的计算机存储媒质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程，通常储存在ROM 131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

[0028] 计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例，图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156，如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口，如接口140连接到系统总线121，磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口，如接口150连接到系统总线121。

[0029] 图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。

[0030] 用户可以通过输入设备，如键盘162、麦克风163和定位设备161(通常指鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口，如视频接口190连接至系统总线121。除监视器之外，计算机也可包括其它外围输出设备，如扬声器197和打印机196，通过输出外围接口190连接。

[0031] 计算机110可以在使用到一个或多个远程计算机，如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其它公用网络节点，并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。

[0032] 当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或其它装置，用于通过WAN 173，如因特网建立通信。调制解调器172可以是内置或外置的，通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中，描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限，图1示出远程应用程序185驻留在远程计算机180上。可以理解，示出的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其它装置。

[0033] 图2是移动装置200的框图，它是一个示例性计算环境。移动装置200包括微处理器202，包括高速缓存203、存储器204、输入/输出(I/O)组件206以及用于与远程计算机或其它移动装置通信的通信接口208。在一个实施例中，上述组件被耦合，用于通过合适的总线210彼此通信。

[0034] 存储器204被实现为非易失电子存储器，如具有电池备份模块(未示出)的随机存取存储器(RAM)，使得当关闭移动装置200的总电源时，储存在存储器204中的信息也不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器，而存储器204的另一部分较佳地用于存储，如模拟盘驱动器上的存储。

[0035] 存储器204包括操作系统212、应用程序214以及对象存储216。在操作过程中，操作系统212较佳地由处理器202从存储器204中执行。在一个较佳的实施例中，操作系统212是可从微软公司购买的WINDOWS CE品牌的操作系统。操作系统212较佳地被设计成用于移动装置，并实现可由应用程序214通过一组展现的应用编程接口和方法来使用的数据库特征。对象存储216中的对象由应用程序214和操作系统212至少部分地响应于对所展现的应用编程接口和方法的调用来维护。

[0036] 通信接口208表示允许移动装置200发送和接收信息的众多设备和技术。仅举几个例子，设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动装置200也可以直接连接到计算机以与其交换数据。在这些情况下，通信接口208可以是红外收发器或串行或并行通信连接，它们所有都能够发送流信息。

[0037] 输入/输出组件206包括诸如触敏屏幕、按钮、滚轮和麦克风等各种输入设备，以及包括音频发生器、振荡装置和显示器的各种输出设备。上文列出的设备作为示例，并且不需要都存在于移动装置200上。另外，在本发明的范围之内，其它输入/输出设备可被附加到移动装置200上或在其上找到。

[0038] 本发明的各方面一般调节了自然用户交互以自动学习新单词、发音和单词对。一般而言，这是通过推断用户是否由于改变他或她的主意而修改文本，或者用户是否由于系统无法识别用户的语音而作出纠正来实现的。

[0039] 图3是依照本发明的一个实施例，自动从用户与系统的交互中学习的方法的流程图。该方法在块300开始，由系统识别用户对口述的文本的改变。这一改变一般是以下形式：用户从备选列表中选择一个新单词；用户重新口述单词或词组；用户删除某些单词；用户修改现有单词；或用户键入某些新单词。一旦识别到改变，控制传递到块302，系统推断用户是在作出实际的纠正，还是仅改变他或她的主意。可使用若干暗示或指示来通知该推断。例如，当用户从备选列表中选择时，用户正在作出纠正。另一示例是当原始口述和纠正的单词之间的声学特征相似时，用户正在作出纠正。另一方面，如果用户在自从口述了文本以来相对较长的时间之后作出改变，则用户可能正基于主意的改变来编辑。另外，如果用户改变口述的句子中大量的单词，则用户可能正在基于主意的改变来编辑。可任选地，系统可以简单地要求用户对用户的意图进行确认。

[0040] 为标识出现纠正的分段，说明性地使用动态时间规整(DTW)。然后，可将口述文本和纠正的文本的语音识别引擎得分进行比较。这使系统能够确定用户是在纠正到发音相似的单词，还是可能基于主意的改变编辑成一个新单词。如有需要，可使用附加的置信度得分或度量来改进纠正和编辑之间的推论。如果结果是系统确定用户仅改变他或她的主意，则控制通过线303返回到块300。

[0041] 在块304，系统参考词典来确定纠正的单词是否在词典中。如果纠正的单词不在用户词典中，则控制传递到块406，将该单词添加到词典中，并选择性地添加新发音以及相应地调节新发音和语言模型。确定是否添加新发音的过程也参考图4更详细地描述。在块306之后，控制返回到块300。

[0042] 然而，如果纠正的单词在用户词典中，则控制传递到块308，系统确定发音是否是新的。新发音可由新单词的发音，或现有单词的用户特殊发音引起。确定发音是否为新的过程将参考图4更详细地描述。如果发音是新发音，则控制传递到块310，可选择性地学习该新发音。在块310之后，控制返回到块300。

[0043] 如果发音不是新的，则控制从块308传递到块312。这是纠正的单词在用户词典中，并且纠正的单词的发音也已知的情况。在这一情况下，将单词对和/或词组添加到词典，或更新与纠正的文本相关联的语言模型得分，以提高单词被连接的机会。在大多数情况下，这是临时的改变，例如，持续一到两天。由此，如果“wavetow”被误识别为“wave too”，并由用户纠正，则系统自动将“wave two”临时添加到用户词典。“临时”在某种程度上动态地基于观察到该单词对的最近时刻，以及在过去观察到该对的相对频率。除添加单词对和/或词组之外，如果系统支持，也可提高新观察的已知发音的概率。尽管为最佳结果，图4中示出的所有步骤可在单个系统中实现，然而本发明的实施例可以在这些步骤不必要在单个系统中共存的情况下实践。在块312之后，控制返回到块300。

[0044] 图4是参考图3所描述的方法的一部分的图解视图。图4更详细地示出了块308和310。在块308内，块400首先操作以基于上下文单词强迫波(数字化声音)的对齐。上下文单词一般是在纠正的单词之前和之后的单个单词。例如，如果口述的句子是“This is a text.\period”，并且用户将“text”改为“test”，则使用“a test.\period”和对应的波来完成对齐，以确定每一单词的正确边界。一旦完成了强制的对齐并确定了边界，控制传递到块402，较佳地使用点阵标识纠正的单词的发音。点阵在由字母一语音(LTS)组件生成的可能发音上构建。这可以是可基于文本输入生成音素序列的任一合适的组件。点阵也使用识别结果中或来自基本音素识别器的音素序列来构造。如此构造的音素点阵使系统能够选择点阵中最佳的音素路径作为正确的发音。一旦选择了最佳音素，控制传递到块404，计算新标识的发音和现有发音之间的距离。

[0045] 在块404，使用音素混淆矩阵和动态时间规整来计算新标识的发音和现有发音之间的距离。也可使用可选的距离计算方法。例如，可基于新发音和现有发音上的声学模型得分来计算距离。较佳地将距离与预先选择或动态的阈值进行比较以确定是否应当学习该音素。由此，将仅学习其距离超出某一阈值的音素。

[0046] 在块406，系统确定是否应当添加新发音。这一决策较佳地基于从块404所计算的距离、最接近的现有发音、声学模型(AM)置信度以及新发音在用户口述中所出现的频率。基于这些因素选择性地决定是否要添加发音将有助于确保来自未对齐和/或对用户是否作出纠正的正确推断的错误将不会导致降低系统效率的学习。发音置信度计算的示例包括如下：

[0047] C(pron)＝1-(1-p(d，AM))f；以及

[0048] C(pron)＝1/[d/f/log(len1+len2)]

[0049] 其中，d是识别的发音和词典中最佳匹配之间的距离，f是发出同一识别的发音的频率，p(d，AM)是具有这一距离d和AM得分的发音是正确发音的概率。len1和len2分别是新发音和最接近发音中音素的长度。p(d，AM)用训练来学习。

[0050] 在块408，系统选择性地添加新发音。较佳地，如果在块406计算的置信度得分足够高，并且新发音在用户口述中出现了所选择的次数(N)，则添加该发音。

[0051] 通过向所计算的置信度得分应用阈值，依照本发明的一个实施例的系统将仅学习最小的量，以确保系统不被从源自用户仅改变他或她的主意的用户编辑中学习不适当地影响。

[0052] 尽管参考具体实施例描述了本发明，然而本领域的技术人员将认识到，可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。例如，尽管上文所描述的大部分集中在向系统添加信息以提高效率上，然而本发明的实施例也包括从系统中删除单词。

标题	发布/更新时间	阅读量
混合动力车辆及其控制方法	2020-05-14	348
插电混合动力车辆的控制装置	2020-05-29	108
一种汽车发动机怠速起停控制系统	2020-05-21	812
再起动车辆发动机的系统	2020-05-16	951
具有闭环速度同步控制方法的无刷电启动器系统	2020-05-24	287
用于控制起动马达的方法和系统	2020-05-18	935
支持实时操作和维护的装置、方法和系统	2020-06-08	698
使用用户纠正的自动语音识别学习	2020-05-12	937
用于混合动力汽车的方法和系统	2020-05-31	34
用于混合动力汽车的方法和系统	2020-06-01	61

使用用户纠正的自动语音识别学习

使用用户纠正的自动语音识别学习

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：