首页 / 专利库 / 人工智能 / 词性标注 / 使用互联网语料库的自动的上下文相关的语言校正和增强

使用互联网语料库的自动的上下文相关的语言校正和增强

阅读:239发布:2021-08-14

专利汇可以提供使用互联网语料库的自动的上下文相关的语言校正和增强专利检索,专利查询,专利分析的服务。并且一种计算机辅助语言校正系统,其包括使用互联网语料库的利用上下文特征序列功能的拼写校正功能、误用词校正功能、语法校正功能和词汇增强功能。,下面是使用互联网语料库的自动的上下文相关的语言校正和增强专利的具体信息内容。

1.一种计算机辅助语言校正系统,包括:
备选词生成器,基于输入句子,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,用于至少部分地基于互联网语料库,针对所述句子中的所述多个词中的每一个,在至少所述多个备选词中进行选择;以及
校正生成器,用于基于所述选择器做出的选择来提供校正输出。
2.根据权利要求1所述的计算机辅助语言校正系统,其中,所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
3.根据权利要求1所述的计算机辅助语言校正系统,其中,所述选择器用于,基于以下校正功能中的至少两个来做出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
4.根据权利要求3所述的计算机辅助语言校正系统,并且其中,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
5.根据权利要求2-4中的任意一项所述的计算机辅助语言校正系统并且其中:
由以下功能中的一个来提供所述输入句子:
词处理器功能;
机器翻译功能;
语音到文本转换功能;
光学字符识别功能;以及
即时通信功能;以及
所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
6.根据权利要求2-5中的任意一项所述的计算机辅助语言校正系统并且其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
7.根据权利要求2-6中的任意一项所述的计算机辅助语言校正系统并且其中,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
8.根据权利要求2-7中的任意一项所述的计算机辅助语言校正系统并且其中,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
9.根据权利要求1-8中的任意一项所述的计算机辅助语言校正系统并且其中,所述选择器包括基于上下文计分功能,用于至少部分地基于在互联网语料库中的上下文特征序列(CFS)出现的频率,来排序所述多个备选词。
10.根据权利要求9所述的计算机辅助语言校正系统并且其中,所述基于上下文计分功能还用于至少部分地基于在所述互联网语料库中的标准化CFS出现的频率,来排序所述多个备选词。
11.一种计算机辅助语言校正系统,包括以下各项中的至少一个:
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能;以及
与以下各项中的至少一个协作并且使用互联网语料库的上下文特征序列功能:所述拼写校正功能;所述误用词校正功能、语法校正功能和所述词汇增强功能。
12.根据权利要求11所述的计算机辅助语言校正系统并且其中,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
13.根据权利要求11或权利要求12所述的计算机辅助语言校正系统并且其中,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
14.根据权利要求11-13中的任意一项所述的计算机辅助语言校正系统并且包括以下各项中的至少两个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项中的至少两个进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
15.根据权利要求11-13中的任意一项所述的计算机辅助语言校正系统并且包括以下各项中的至少三个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项中的至少三个进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
16.根据权利要求11-13中的任意一项所述的计算机辅助语言校正系统并且包括:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项功能进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
17.根据权利要求11-16中的任意一项所述的计算机辅助语言校正系统并且其中,所述校正生成器包括校正语言生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
18.一种计算机辅助语言校正系统,包括:
备选词生成器,基于语言输入,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,用于至少部分地基于为所述语言输入中的所述多个词中的至少一些选择的所述多个备选词中的多个之间的关系,为所述语言输入中的所述多个词中的每一个,在至少所述多个备选词之间进行选择;以及
校正生成器,用于基于由所述选择器做出的选择,来提供校正输出。
19.根据权利要求18所述的计算机辅助语言校正系统并且其中,所述语言输入包括输入句子和输入文本中的至少一个。
20.根据权利要求18或权利要求19所述的计算机辅助语言校正系统并且其中,所述语言输入是语音并且所述生成器将语音中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
21.根据权利要求18或权利要求19所述的计算机辅助语言校正系统并且其中:
所述语言输入是以下各项中的至少一个:
文本输入;
光学字符识别功能的输出;
机器翻译功能的输出;以及
词处理功能的输出;以及
所述生成器将文本中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
22.根据权利要求18-21中的任意一项所述的计算机辅助语言校正系统并且其中,所述选择器,用于基于以下校正功能中的至少两个,做出所述选择:
拼写错误;
误用词校正;
语法校正;以及
词汇增强。
23.根据权利要求22所述的计算机辅助语言校正系统并且其中,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
24.根据权利要求18-20中的任意一项所述的计算机辅助语言校正系统并且其中,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
25.根据权利要求18-24中的任意一项所述的计算机辅助语言校正系统并且其中,所述选择器用于通过执行以下功能中的至少两个来做出所述选择:
选择包括比初始选择的所述语言输入中的所有所述多个词少的第一组词或词的组合;
之后对所述第一组词或词的组合的元素进行排序以建立选择的优先级;以及之后为了所述第一组词的元素,当在所述多个备选词之间选择时,选择其它词而不是所有所述多个词作为上下文来影响所述选择。
26.根据权利要求18-25中的任意一项所述的计算机辅助语言校正系统并且其中,所述选择器用于通过执行以下功能来做出所述选择:
当选择具有至少两个词的元素时,结合用于所述至少两个词彼此的所述多个备选词的每个来评估用于所述至少两个词的每个的所述多个备选词的每个。
27.根据权利要求18-26中的任意一项所述的计算机辅助语言校正系统并且其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
28.一种计算机辅助语言校正系统,包括:
误用词怀疑器,基于所述语言输入的上下文中词的合适度来评估语言输入中的至少大部分词;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,来提供校正输出。
29.根据权利要求28所述的计算机辅助语言校正系统并且还包括:
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中
所述校正生成器,用于基于所述检测器做出的选择,来提供所述校正输出。
30.根据权利要求28或29所述的计算机辅助语言校正系统并且还包括:
怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分中的至少一些被怀疑为误用词的程度。
31.根据权利要求28-30中的任意一项所述的计算机辅助语言校正系统并且其中,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,来提供校正文本输出。
32.根据权利要求28-31中的任意一项所述的计算机辅助语言校正系统并且其中,所述语言输入是语音并且所述选择器用于,基于以下校正功能中的至少一个,来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
33.一种计算机辅助语言校正系统,包括:
误用词怀疑器,用于评估语言输入中的词;
备选词生成器,为由所述怀疑器评估为怀疑词的、所述语言输入中的至少一些词生成多个备选词,所述语言输入中的词的所述多个备选词中的至少一个与互联网语料库中所述语言输入中的所述词的上下文特征一致;
选择器,用于在至少所述多个备选词之间进行选择;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
34.一种计算机辅助语言校正系统,包括:
误用词怀疑器,评估语言输入中的词并且识别怀疑的词;
备选词生成器,生成用于所述怀疑词的多个备选词;
选择器,根据多个选择标准对每个所述怀疑词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏值;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
35.一种计算机辅助语言校正系统,包括:
备选词生成器,基于输入为所述输入中的至少一个词生成多个备选词;
选择器,根据多个选择标准对每个所述至少一个词以及为此由所述备选词生成器生成的所述多个备选词中的多个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述至少一个词有利的偏值,所述偏值是指示提供了输入的人的不确定度的所述输入不确定度度量的函数;以及
校正生成器,用于基于所述选择器做出的选择,提供校正输出。
36.一种计算机辅助语言校正系统,包括:
不正确词怀疑器,评估语言输入中的词的至少大部分,所述怀疑器至少部分地响应于指示提供了输入的人的不确定度的输入不确定度度量,所述怀疑器提供怀疑的不正确词输出;以及
备用词生成器,为由所述怀疑的不正确词输出所识别的怀疑的不正确词生成多个备选词;
选择器,用于在每个怀疑的不正确词和由所述备选词生成器生成的所述多个备选词中进行选择;以及
用于基于所述选择器做出的选择,提供校正输出的校正生成器。
37.一种计算机辅助语言校正系统,包括:
接收多个词输入并且提供校正输出的拼写校正模、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个中的每一个包括:
备选词候选生成器,包括:
语音相似性功能,用于基于与所述输入中的词的语音相似性,提出备选词,并且用于指示语音相似性的度量;以及
字符串相似性功能,用于基于与所述输入中的词的字符串相似性,来提出备选词,并且指示用于每个备选词的字符串相似性的度量;以及
选择器,用于通过使用所述语音相似性和字符串相似性度量以及基于上下文选择功能,选择所述输出中的词或由所述备选词候选者生成器提出的备选词候选者。
38.一种计算机辅助语言校正系统,包括:
怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;
特征识别功能,用于识别包括所述怀疑词的特征;
备选词选择器,识别用于所述怀疑词的备选词;
特征出现功能,使用语料库并提供出现输出,关于在所述语料库中的使用频率来排序包括所述备选词的各种特征;以及
选择器,使用所述出现输出来提供校正输出,
所述特征识别功能包括特征过滤功能,所述特征过滤功能包括以下中的至少一个:
用于消除包含怀疑的错误的特征的功能;
用于消极地偏置包含在所述多个词输入的较早的校正迭代中引入的词并且具有在可信度预定的阈值以下的可信度的特征的功能;以及
用于消除包含在具有在预定的频率阈值之上的出现频率的另一个特征中所包含的特征的功能。
39.根据权利要求33-38中的任意一项所述的计算机辅助语言校正系统并且其中,所述选择器用于至少基于以下校正功能的两个来做该选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
40.根据权利要求39所述的计算机辅助语言校正系统并且其中,所述选择器用于基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
41.根据权利要求33-40中的任意一项所述的计算机辅助语言校正系统并且其中,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:
语法校正;以及
误用词校正;以及
词汇增强。
42.根据权利要求33-41中的任意一项所述的计算机辅助语言校正系统并且其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
43.根据权利要求33-34和37-42中的任意一项所述的计算机辅助语言校正系统并且其中,所述选择器还用于,至少部分地基于用户输入不确定度度量来做出所述选择。
44.根据权利要求43所述的计算机辅助语言校正系统并且其中,所述用户输入不确定度度量是基于提供了所述输入的人的不确定度的测量的函数。
45.根据权利要求33-44中的任意一项所述的计算机辅助语言校正系统并且其中,所述选择器还使用用户输入历史学习功能。
46.一种计算机辅助语言校正系统,包括:
怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;
特征识别功能,用于识别包括所述怀疑词的特征;
备选词选择器,识别用于所述怀疑词的备选词;
出现功能,使用语料库并提供出现输出,关于在所述语料库中的使用频率来排序包括所述备选词的特征;以及
校正输出生成器,使用所述出现输出以提供校正输出,
所述特征识别功能包括以下各项中的至少一个:
N-gram识别功能;以及
共同出现识别功能;以及
以下各项中的至少一个:
skip-gram识别功能;
switch-gram识别功能;以及
之前由用户使用的特征识别功能。
47.一种计算机辅助语言校正系统,包括:
语法错误怀疑器,基于在所述语言输入的上下文中词的适合度,评估语言输入中所述词的至少大部分;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
48.根据权利要求47所述的计算机辅助语言校正系统并且还包括:
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中,
所述校正生成器,用于基于由所述选择器做出的选择,提供所述校正输出。
49.根据权利要求47或48所述的计算机辅助语言校正系统并且还包括:
怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分中的至少一些被怀疑为包含语法错误的程度。
50.根据权利要求47-49中的任意一项所述的计算机辅助语言校正系统并且其中,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出。
51.一种计算机辅助语言校正系统,包括:
语法错误怀疑器,评估语言输入中的词;
备选词生成器,为由所述怀疑器评估为怀疑词的所述语言输入中的至少一些词生成多个备选词,用于所述语言输入中的词的所述多个备选词的至少一个与所述语言输入中的所述词的上下文特征一致;
选择器,用于在至少所述多个备选词之间进行选择;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
52.一种计算机辅助语言校正系统,包括:
语法错误怀疑器,评估语言输入中的词并且识别怀疑的词;
备选生成器,生成用于所述怀疑词的多个备选词;
选择器,根据多个选择标准对每个所述怀疑的词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏值;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
53.根据权利要求51或权利要求52所述的计算机辅助语言校正系统并且其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出。
54.一种包括各种备选词校正的基于上下文计分的计算机辅助语言校正系统,至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率。
55.根据权利要求54所述的计算机辅助语言校正系统并且还包括以下各项中的至少一个:
与所述基于上下文计分协作的
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能。
56.根据权利要求54或权利要求55所述的计算机辅助语言校正系统并且其中,所述基于上下文计分还至少部分地基于在互联网语料库中的标准化CFS出现的频率。
57.根据权利要求54-56中的任意一项所述的计算机辅助语言校正系统并且其中,所述基于上下文计分还至少部分地基于CFS重要性得分。
58.根据权利要求54-57中的任意一项所述的计算机辅助语言校正系统并且其中,所述CFS重要性得分是以下各项中的至少一个的函数:
词性标注和句子分析功能的操作;CFS长度;在CFS和CFS类型中的每个词的出现的频率。
59.一种包括词汇增强功能的计算机辅助语言校正系统,包括:
词汇挑战的词识别功能;
备选词词汇增强生成功能;以及
基于上下文计分功能,其至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率,
所述备选词词汇增强生成功能,其包括词典预处理功能,用于生成备选词词汇增强。
60.一种计算机辅助语言校正系统,包括:
备选词生成器,基于输入句子,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,为了所述句子中的所述多个词中的每一个,在至少所述多个备选词中选择;
可信度分配器,用于将可信度分配到来自所述多个备选词的选择的备选词;以及校正生成器,用于基于所述选择器做出的选择并且至少部分地基于所述可信度,提供校正输出。
61.根据权利要求60所述的计算机辅助语言校正系统并且其中,基于上下文特征序列(CFS)来评估所述多个备选词,并且所述可信度是基于以下参数中的至少一个:
选择的CFS的数量、类型和得分;
在CFS上下文中,所述多个备选词的出现的频率的统计显著性的测量;
基于每个所述CFS的优先选择度量和所述多个备选词的词相似性得分,选择所述多个备选词中的一个的一致性程度;
所述多个备选词中的所述一个的不基于上下文相似性得分在第一预定的最低阈值以上;以及
基于上下文数据可用性的程度,其由所述CFS的数量来指示,其中,所述CFS具有在第二预定最低阈值以上并且具有在第三预定阈值之上的优先选择得分。
62.一种计算机辅助语言校正系统,包括:
标点错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的所述词和标点中的至少一些,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
63.根据权利要求62所述的计算机辅助语言校正系统并且其中,所述校正生成器包括丢失标点校正功能、冗余标点校正功能和标点替换校正功能中的至少一个。
64.一种计算机辅助语言校正系统,包括:
语法元素错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的所述词中的至少一些,其中,所述语言输入的上下文合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
65.根据权利要求64所述的计算机辅助语言校正系统并且其中,所述校正生成器至少包括丢失语法元素校正功能、冗余语法元素校正功能和语法元素替换校正功能中的至少一个。
66.根据权利要求64或权利要求65所述的计算机辅助语言校正系统并且其中,所述语法元素是冠词、介词和连词中的一个。

说明书全文

使用互联网语料库的自动的上下文相关的语言校正和增强

[0001] 相关申请的参考
[0002] 参考2007年8月1日提交的、题目为“METHODS FOR CONTEXTSENSITIVE ERROR DETECTION AND CORRECTION”、申请号为60/953,209的美国临时专利申请,以引用方式将其公开并入本文,并且依照37CFR 1.78(a)(4)和(5)(i)要求其优先权。

技术领域

[0003] 本发明总体上涉及计算机辅助语言校正。

背景技术

[0004] 认为以下公开代表技术的当前状态:
[0005] 美国专利号为5,659,771;5,907,839;6,424,983;7,296,019;5,956,73925和4,674,065的专利
[0006] 美国公开专利申请号为2006/0247914和2007/0106937的申请。

发明内容

[0007] 本发明尝试提供用于计算机辅助语言校正的改进的系统和功能。
[0008] 因此,根据本发明的优选实施例提供了一种计算机辅助语言校正系统,其包括备选词生成器,基于输入句子,生成为所述句子中的多个词的中每一个提供多个备选词的基于文本的表示,选择器,用于至少部分地基于互联网语料库,针对所述句子中的所述多个词的每一个,在至少所述多个备选词中进行选择,以及校正生成器,用于基于所述选择器做出的选择来提供校正输出。
[0009] 优选地,所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:拼写校正、误用词校正、语法校正和词汇增强。
[0010] 根据本发明的优选实施例,所述选择器用于,基于以下校正功能中的至少两个来做出所述选择:拼写校正、误用词校正、语法校正和词汇增强。此外,所述选择器用于,基于校正的以下时间顺序中的至少一项来做出所述选择:先于误用词校正、语法校正和词汇增强的至少一个的拼写校正,以及先于词汇增强的误用词校正和语法校正。
[0011] 此外或可选地,由以下功能中的一个来提供所述输入句子:词处理器功能、机器翻译功能、语音到文本转换功能、光学字符识别功能,以及即时通信功能,并且所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:误用词校正、语法校正以及词汇增强。
[0012] 优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。此外或可选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
[0013] 根据本发明的优选实施例,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
[0014] 优选地,所述选择器包括基于上下文计分功能,用于至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率,排序所述多个备选词。此外,所述基于上下文计分功能,还用于至少部分地基于在所述互联网语料库中标准化CFS出现的频率,排序所述多个备选词。
[0015] 根据本发明的另一个优选实施例还提供了一种计算机辅助语言校正系统,其包括以下中的至少一个:拼写校正功能、误用词校正功能、语法校正功能、词汇增强功能,以及与以下各项中的至少一个协作并且使用互联网语料库的上下文特征序列功能:所述拼写校正功能;所述误用词校正功能、语法校正功能和所述词汇增强功能。
[0016] 优选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。此外或可选地,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
[0017] 根据本发明的优选实施例,所述计算机辅助语言校正系统包括以下各项中的至少两个:所述拼写校正功能、所述误用词校正功能、所述语法校正功能、所述词汇增强功能,并且所述上下文特征序列功能与以下各项中的至少两个进行协作并且使用互联网语料库:所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能。
[0018] 优选地,所述计算机辅助语言校正系统还包括以下各项中的至少三个:所述拼写校正功能、所述误用词校正功能、所述语法校正功能、所述词汇增强功能,并且所述上下文特征序列功能与以下各项中的至少三个进行协作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
[0019] 根据本发明的优选实施例,所述的计算机辅助语言校正系统还包括:所述拼写校正功能、所述误用词校正功能、所述语法校正功能,和所述词汇增强功能,并且所述上下文特征序列功能与以下各项功能进行协作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
[0020] 优选地,所述校正生成器包括校正语言生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,用于提供校正语言输出。
[0021] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,其包括:备选词生成器,基于语言输入,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;选择器,用于至少部分地基于为所述语言输入中的所述多个词中的至少一些选择的所述多个备选词中的多个之间的关系,为所述语言输入中的所述多个词中的每一个,在至少所述多个备选词之间进行选择;校正生成器,用于基于由所述选择器做出的选择,来提供校正输出。
[0022] 优选地,所述语言输入包括输入句子和输入文本中的至少一个。此外或可选地,所述语言输入是语音并且所述生成器将语音中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
[0023] 根据本发明的优选实施例,所述语言输入是以下各项中的至少一个:文本输入、光学字符识别功能的输出、机器翻译功能的输出,以及词处理功能的输出,并且所述生成器将文本中的所述语言输入转换为为语言输入中的多个词提供多个备选词的基于文本的表示。
[0024] 优选地,所述选择器,用于至少基于以下校正功能中的两个,做出所述选择:拼写错误、误用词校正、语法校正,以及词汇增强。此外,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正,以及先于词汇增强的误用词校正和语法校正。
[0025] 根据本发明的优选实施例,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:误用词校正、语法校正,以及词汇增强。
[0026] 优选地,所述选择器用于通过执行以下功能中的至少两个来做所述选择:选择包括比初始选择的所述语言输入中的所有所述多个词少的第一组词或词的组合;之后对所述第一组词或词的组合的元素进行排序以建立选择的优先级;之后为了所述第一组词的元素,当在所述多个备选词之间选择时,选择其它词而不是所有所述多个词作为上下文来影响所述选择。此外或可选地,所述选择器用于通过执行以下功能来做所述选择:当选择具有至少两个词的元素时,结合用于所述至少两个词彼此的所述多个备选词的每一个来评估用于所述至少两个词的每一个的所述多个备选词的每一个。
[0027] 根据本发明的优选实施例,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
[0028] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,其包括:误用词怀疑器,基于所述语言输入的上下文中词的合适度来评估语言输入中的至少大部分词;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
[0029] 优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词的至少一个提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个的每一个,在至少所述多个备选词中进行选择,并且其中,所述校正生成器,用于基于所述检测器做出的选择,提供所述校正输出。此外或可选地,所述的计算机辅助语言校正系统还包括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分的至少一些被怀疑为误用词的程度。
[0030] 根据本发明的优选实施例,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出。
[0031] 优选地,所述语言输入是语音并且所述选择器用于,基于以下校正功能的至少一个,做所述选择:误用词校正、语法校正,以及词汇增强。
[0032] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:误用词怀疑器,用于评估语言输入中的词;备选词生成器,为由所述怀疑器评估为怀疑词的、所述语言输入中的至少一些词生成多个备选词,所述语言输入中的词的所述多个备选词的至少一个与互联网语料库中所述语言输入中的所述词的上下文特征一致;选择器,用于在至少所述多个备选词之间进行选择;校正生成器,用于至少部分地基于由所述选择器做出的选择,用于提供校正输出。
[0033] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:误用词怀疑器,评估语言输入中的词并且识别怀疑的词;备选词生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择标准对每个所述怀疑词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏值;校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
[0034] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:备选词生成器,基于输入为所述输入中的至少一个词生成多个备选词;选择器,根据多个选择标准对每一个所述至少一个词以及为此由所述备选词生成器生成的所述多个备选词的多个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述至少一个词有利的偏值,所述偏值是指示提供了输入的人的不确定度的所述输入不确定度度量的函数;校正生成器,用于基于所述选择器做出的选择,提供校正输出。
[0035] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:不正确词怀疑器,评估语言输入中的词的至少大部分,所述怀疑器至少部分地响应于指示提供了输入的人的不确定度的输入不确定度度量,所述怀疑器提供怀疑的不正确词输出;
备用词生成器,为由所述怀疑的不正确词输出所识别的怀疑的不正确词生成多个备选词;
选择器,用于在每一个怀疑的不正确词和由所述备选词生成器生成的所述多个备选词中进行选择;用于基于所述选择器做出的选择,提供校正输出的校正生成器。
[0036] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:接收多个词输入并且提供校正输出的拼写校正模、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括:备选词候选生成器包括语音相似性功能,用于基于与所述输入中的词的语音相似性,提出备选词,并且用于指示语音相似性的度量;字符串相似性功能,用于基于与所述输入中的词的字符串相似性,来提出备选词,并且指示用于每一个备选词的字符串相似性的度量;选择器,用于通过使用所述语音相似性和字符串相似性度量以及基于上下文选择功能,选择所述输出中的词或由所述备选词候选者生成器提出的备选词候选者。
[0037] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词选择器,识别用于所述怀疑词的备选词;特征出现功能,使用语料库并提供出现输出,关于在所述语料库中的使用频率来排序包括所述备选词的各种特征;选择器,使用所述出现输出来提供校正输出,所述特征识别功能包括特征过滤功能,所述特征过滤功能包括以下中的至少一个:用于消除包含怀疑的错误的特征的功能;用于消极地偏置包含在所述多个词输入的较早的校正迭代中引入的词并且具有在可信度预定的阈值以下的可信度的特征的功能;用于消除包含在具有在预定的频率阈值之上的出现的频率的另一个特征中所包含的特征的功能。
[0038] 优选地,所述选择器用于至少基于以下校正功能的两个来做该选择:拼写校正、误用词校正、语法校正,以及词汇增强。此外,所述选择器用于基于校正的以下时间顺序中的至少一个来做出所述选择:先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;先于词汇增强的误用词校正和语法校正。
[0039] 根据本发明的优选实施例,所述语言输入是语音并且所述选择器是用于基于以下校正功能的至少一个来做所述选择:语法校正、误用词校正、词汇增强。
[0040] 优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
[0041] 根据本发明的优选实施例,所述选择器还用于,至少部分地基于用户输入不确定度度量来做所述选择。此外,所述用户输入不确定度度量是基于提供了所述输入的人的不确定度的测量的函数。此外或可选地,所述选择器还使用用户输入历史学习功能。
[0042] 根据本发明的优选实施例,还提供了一种计算机辅助语言校正系统,包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词选择器,识别用于所述怀疑词的备选词;出现功能,使用语料库并提供出现输出,关于在所述语料库中词的使用频率来排序包括所述备选词的特征,;校正输出生成器,使用所述出现输出以提供校正输出,所述特征识别功能包括以下各项中的至少一个:N-gram识别功能;共同出现识别功能;以下各项中的至少一个:skip-gram识别功能、switch-gram识别功能,以及之前由用户使用的特征识别功能。
[0043] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,基于在所述语言输入的上下文中词的适合度,评估语言输入中所述词的至少大部分;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
[0044] 优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基于所述语言输入,生成为在所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中的所述至少大部分词中的所述至少一个的每一个,在至少所述多个备选词中进行选择,并且其中,所述校正生成器,用于基于由所述选择器做出的选择,提供所述校正输出。
[0045] 根据本发明的优选实施例,所述的计算机辅助语言校正系统并且还包括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分的至少一些被怀疑为包含语法错误的程度。
[0046] 优选地,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出。
[0047] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,评估语言输入中的词;备选词生成器,为由所述怀疑器评估为怀疑词的所述语言输入中的至少一些词生成多个备选词,用于所述语言输入中的词的所述多个备选词的至少一个与所述语言输入中的所述词的上下文特征一致;选择器,用于在至少所述多个备选词之间进行选择;校正生成器,用于至少部分地基于由所述检测器做出的选择,提供校正输出。
[0048] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,评估语言输入中的词并且识别怀疑的词;备选生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择标准对每一个所述怀疑的词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏值;校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
[0049] 优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出。
[0050] 根据本发明的另一个优选实施例,还提供了一种包括各种备选词校正的基于上下文计分的计算机辅助语言校正系统,至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率。
[0051] 优选地,所述计算机辅助语言校正系统还包括以下各项中的至少一个:与所述基于上下文计分协作的拼写校正功能、误用词校正功能、语法校正功能,以及词汇增强功能。
[0052] 根据本发明的优选实施例,所述基于上下文计分还至少部分地基于在互联网语料库中的标准化CFS出现的频率。此外或可选地,所述基于上下文计分还至少部分地基于CFS重要性得分。此外,所述CFS重要性得分是以下各项中的至少一个的函数:词性标注和句子分析功能的操作;CFS长度;在CFS和CFS类型中的每一个词的出现的频率。
[0053] 根据本发明的另一个优选实施例,还提供了一种包括词汇增强功能的计算机辅助语言校正系统,包括:词汇挑战的词识别功能;备选词词汇增强生成功能;基于上下文计分功能,其至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率,所述备选词词汇增强生成功能,其包括词典预处理功能,用于生成备选词词汇增强。
[0054] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:备选词生成器,基于输入句子,生成为所述句子中的多个词的每一个提供多个备选词的基于文本的表示;选择器,为了所述句子中的所述多个词的每一个,在至少所述多个备选词中选择;可信度分配器,用于将可信度分配到来自所述多个备选词的选择的备选词;校正生成器,用于基于所述选择器做出的选择并且至少部分地基于所述可信度,提供校正输出。
[0055] 优选地,基于上下文特征序列(CFS)来评估所述多个备选词,并且所述可信度是基于以下参数中的至少一个:选择的CFS的数量、类型和得分;在CFS上下文中,所述多个备选词的出现的频率的统计显著性的测量;基于每一个所述CFS的优先选择度量和所述多个备选词的词相似性得分,选择所述多个备选词中的一个的一致性程度;所述多个备选词中的所述一个的不基于上下文相似性得分在第一预定的最低阈值以上;基于上下文数据可用性的程度,其由所述CFS的数量来指示,其中,所述CFS具有在第二预定最低阈值以上并且具有在第三预定阈值之上的优先选择得分。
[0056] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:标点错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的所述词和标点中的至少一些,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
[0057] 优选地,所述校正生成器包括丢失标点校正功能、冗余标点校正功能和标点替换校正功能中的至少一个。
[0058] 根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法元素错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的所述词中的至少一些,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
[0059] 优选地,所述校正生成器至少包括丢失语法元素校正功能、冗余语法元素校正功能和语法元素替换校正功能中的至少一个。此外或可选地,所述语法元素是冠词、介词和连词中的一个。附图说明
[0060] 结合附图,根据以下详细的描述,将更全面地懂得并理解本发明,其中:
[0061] 图1是用于根据本发明的优选实施例建造并操作的计算机辅助语言校正的系统和功能的简化的框图说明;
[0062] 图2是说明了图1的系统和功能中优选地使用的拼写校正功能的简化的流程图
[0063] 图3是说明了图1的系统和功能中优选地使用的误用词和语法校正功能的简化的流程图;
[0064] 图4是在图1的系统和功能中使用的、说明了词汇增强功能的简化的流程图;
[0065] 图5是说明了图1的系统和功能中优选地使用的上下文特征序列(CFS)功能的简化的框图;
[0066] 图6A是说明了根据本发明的优选实施例的图2的功能的拼写校正功能形成部分的简化的流程图;
[0067] 图6B是说明了根据本发明的优选实施例的图3的功能的误用词和语法校正功能形成部分的简化的流程图;
[0068] 图6C是说明了根据本发明的优选实施例的图4的功能的词汇增强功能形成部分的简化的流程图;
[0069] 图7A是说明了用于生成在图2和3的功能中有用的备选词校正的功能的简化的流程图;
[0070] 图7B是说明了用于生成在图4的功能中有用的备选词增强的功能的简化的流程图;
[0071] 图8是说明了用于在图2的拼写校正功能中有用的各种备选词增强的不基于上下文词的基于相似性计分和基于上下文计分(优选地使用互联网语料库)的功能的简化的流程图;
[0072] 图9是说明了用于在图3、10和11的误用词和语法校正功能以及在图4的词汇增强功能中有用的各种备选词校正的不基于上下文词的基于相似性计分和基于上下文计分(优选地使用互联网语料库)的功能的简化的流程图;
[0073] 图10是说明了丢失冠词、介词和标点校正功能的操作的简化的流程图;以及[0074] 图11是冗余冠词、介词和标点校正功能的操作的简化的流程图。

具体实施方式

[0075] 现在参照图1,其是用于根据本发明的优选实施例建造并操作的计算机辅助语言校正的系统和功能的简化的框图说明。如图1所示,从一个或多个源将校正文本提供给语言校正模块100,包括但并不限于:字处理功能102、机器翻译功能104、语音到文本转换功能106、光学字符识别功能108和任何其它文本源110,例如即时通信或互联网。
[0076] 语言校正模块100优选地包括拼写校正功能112、误用词和语法校正功能114以及词汇增强功能116。
[0077] 本发明的特定特征是拼写校正功能112、误用词和语法校正功能114以及词汇增强功能116中的每个都与上下文特征序列(CFS)功能118进行交互,所述上下文特征序列功能118使用互联网语料库120。
[0078] 为了本描述的目的,定义了上下文特征序列或CFS,其包括N-gram、skip-gram、共同出现、“之前由用户特征使用”和其组合,参照图5下文依次对其进行定义。应当注意,为了描述的简便和清楚,以下的大多数示例仅使用n-gram。应当理解本发明并不限于此。
[0079] 互联网语料库的使用很重要,因为它为极大量的上下文特征序列提供了显著的统计的数据,导致极为健壮的语言校正功能。在实践中,超过两个字的组合在传统的非互联网语料库中具有很少的统计,但是在互联网语料库中具有令人满意或良好的统计。
[0080] 互联网语料库通常通过在互联网上爬行并从网站页面收集文本、从万维网收集的自然语言文本的大量代表性示例。优选地,还收集动态文本,例如聊天记录、来自网络论坛的文本和来自博客的文本。收集的文本用于积累关于自然语言文本的统计。互联网语料库的大小可以是,例如一万亿(1,000,000,000,000)字或几万亿字,与其形成对照的是,更典型的语料库大小为20亿字。网络的小的示例(例如,网络语料库)包括100亿字,其显著地小于由搜索引擎(例如, )建立索引的网络文本的百分之一。本发明可以与网络的示例(例如,网络语料库)一起工作,但是优选地它对文本校正的任务使用网络的显著地大的样本。
[0081] 在以下两种方法中的一种中优选地使用互联网语料库:
[0082] 使用CFS作为搜索查询来使用一个或多个互联网搜索引擎。每个这种查询的结果的数量提供了该CFS的出现的频率。
[0083] 随着时间的过去,通过爬行并索引互联网来建立本地索引。每个CFS的出现的次数提供了CFS频率。本地索引以及搜索查询可以基于互联网的可选择的部分并且可以用这些选择的部分来识别。类似的,可以排除或适当地权衡互联网的部分,以校正在互联网使用与通用语言使用之间的异常。用这种方法,可以对从语言使用方面来说可靠的网站(例如,新闻和政府网站)给出比其它网站(例如,聊天或用户论坛)更高的权重。
[0084] 优选地,在开始的时候,将输入文本提供给拼写校正功能112,之后提供给误用词和语法校正功能114。输入文本可以是任何合适的文本并且在字处理的情况下优选地是文档的部分,例如句子。词汇增强功能116优选地在用户对文本的选择的情况下工作,其中所述本文已经被提供给拼写校正功能112并且提供给误用词和语法校正功能114。
[0085] 优选地,语言校正模块100提供了输出,所述输出包括带有每个校正的词或词的组的一个或多个建议的备选词的校正的文本。
[0086] 现在,参照图2,其是说明了图1的系统和功能中优选地使用的拼写校正功能的简化的流程图。如图2所示,拼写校正功能优选地包括以下步骤:
[0087] 识别输入文本中的拼写错误,优选地使用扩充了通常在互联网使用的专有名称和专有词的传统字典。
[0088] 将拼写错误分成簇(所述簇可以包括连续的或几乎连续的、具有拼写错误的单个或多个词)并且选择用于校正的簇。该选择尝试发现包含最大数量的校正基于上下文的数据的簇。优选地,选择具有在其附近正确拼写的词的最长序列或多个序列的簇。参照图6A,下文更详细地描述上述步骤。
[0089] 优选地基于参照图7A下文描述的算法,来生成用于每个簇的一个备选校正或优选地生成用于每个簇的多个备选校正;
[0090] 至少部分地不基于上下文的词基于相似性的计分和基于上下文的计分,优选地基于参照图8下文描述的拼写校正备选词计分算法,来优选地使用各种备选校正的互联网语料库;
[0091] 对于每个簇,基于上述得分来选择单个拼写校正并示出大多数优选备选的拼写校正;以及
[0092] 为每个误拼写的簇提供包括单个拼写校正的校正文本输出,所述校正文本输出代替了误拼写簇。
[0093] 根据以下示例的考虑,可以更好地理解图2的功能的操作:
[0094] 接收以下输入文本:
[0095] Physical ecudation can assits in strenghing muscles.Some students shouldeksersiv daily to inprove their strenth and helth becals thay ea so fate.[0096] 以下词被识别为拼写错误:
[0097] ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea应当注意,“fate”没有被识别为拼写错误,因为它出现在字典中。
[0098] 如表1所示,选择以下的簇:
[0099] 表1
[0100]簇# 簇
1 eksersiv
2 inprove their strenth
3 ecudation
4 assits in strenghing
5 helth becals thay ea
[0101] 关于簇2,应当注意,“their”是正确拼写,但是仍然包括在簇中,因为它被误拼写词包围。
[0102] 选择簇1“eksersiv”来校正,因为它具有在其附近正确拼写词的最长序列或多个序列。
[0103] 为误拼写词“eksersiv”生成以下备选校正:
[0104] excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,exertion,excised,exorcism.
[0105] 基于对误拼写词的发音和字符串的相似性,给出每个备选校正的不基于上下文词相似性得分,例如,如表2所示:
[0106] 表2
[0107]备选词 非上下文词相似性得分
excessive 0.90
备选词 非上下文词相似性得分
expressive 0.83
exercise 0.80
exorcism 0.56
[0108] 可以用各种方法来得出不基于上下文得分。一个示例是通过使用Levelnshtein距离算法,其可以在http://en.wikipedia.org/wiki/Levenshteindistance上找到。该算法可以意指字符串、词语音表达或其组合。
[0109] 如表3所示,基于在输入句子的上下文中其适合度,还给出每个备选词的上下文得分。在该示例中,其使用的上下文是“Some students shoulddaily”。
[0110] 表3
[0111]备选词 “Some students should 不基于上下文词的
daily”的 相似性得分
上下文得分
excessive 0.00 0.90
expressive 0.00 0.93
exercise 1.00 0.80
exorcism 0.00 0.56
excised 0.16 0.62
[0112] 上下文得分是参照图8按照下文描述来优选地得出的并且是基于互联网语料库中的上下文特征序列(CFS)频率。
[0113] 参照图8,按照下文描述的,基于上下文得分和不基于上下文相似性得分的组合,选择词“exercise”作为最佳备选词。
[0114] 以相似的方式来校正所有簇。拼写校正输入文本,根据本发明的优选实施例的以下的拼写校正是:
[0115] Physical education can assist in strengthening muscles.Somestudentsshould exercise daily to improve their strength and health because they are sofate.
[0116] 应当注意,在拼写校正输入文本中仍然有误用词。词“fate”需要通过参照图3下文描述的误用和语法校正算法来校正。
[0117] 现在参照图3,其是说明了图1的系统和功能中优选地使用的误用词和语法校正功能的简化的流程图。误用词和语法校正功能提供了拼写正确但在输入文本的上下文中是误用的词的校正,以及包括语法上不正确的词代替了语法上正确的词的使用、冗余词和丢词和标点的使用的语法错误的校正。
[0118] 如图3所示,误用词和语法校正功能优选地包括以下步骤:
[0119] 通过优选地评价输入句子的上下文内的词的至少大部分的适合度,来识别怀疑的误用词和具有从图2的拼写校正功能输出的拼写校正输入文本中的语法错误的词;
[0120] 将怀疑的误用词和具有语法错误的词分成簇,所述簇优选地是不重叠的;以及[0121] 选择用于校正的簇。识别、分组和选择步骤优选地基于参照图6B下文描述的算法。
[0122] 优选地基于参照图7A下文描述的备选校正生成算法,来为每个簇生成一个或优选地生成多个备选校正;
[0123] 基于参照图10下文描述的丢失的冠词、介词和标点校正算法,来为每个簇生成一个或优选地生成多个备选校正;
[0124] 基于参照图11下文描述的冗余的冠词、介词和标点校正算法,来为每个簇生成一个或优选地生成多个备选校正;
[0125] 优选地基于参照图9下文描述的误用词和语法校正备选词计分算法,至少部分地基于上下文和词的基于相似性来对各种备选校正计分;
[0126] 对于每个簇,也参照图9按照下文描述的上述计分,来选择单个误用词和语法校正并示出最优选的备选误用词和语法校正;以及
[0127] 为每个簇提供包括单个误用词和语法校正的拼写、误用词和语法校正文本输出,所述簇代替不正确的簇。
[0128] 优选地,计分包括:为此应用与多个备选词中的一个相比有利于怀疑的词的偏置,所述偏置是指示了提供输入的人的不确定度的输入不确定度的度量的函数。
[0129] 根据以下示例的考虑,可以更好地理解图3的功能的操作:
[0130] 接收以下输入文本:
[0131] I have money book
[0132] 将以下词识别为怀疑的误用词:
[0133] money,book
[0134] 生成以下簇:
[0135] money book
[0136] 以下是备选校正的示例,其为簇而生成(部分的列出):
[0137] money books;money back;money box;money bulk;money Buick;moneyebook;money bank;mini book;mummy book;Monet book;honey book;mannerlybook;mono book;
Monday book;many books;mini bike;mummy back;monkeybunk;Monday booked;Monarchy back;Mourned brook
[0138] 在表4中示出了使用互联网语料库基于上下文和不基于上下文词的基于相似性的得分的至少部分的上下文计分的结果:
[0139] 表4
[0140]簇 不基于上下文 上下文 总分
相似性得分 得分
money back 0.72 0.30 0.216
many books 0.84 1.00 0.840
mini bike 0.47 0.75 0.352
money box 0.79 0.40 0.316
money bank 0.65 0.50 0.325
Monday booked 0.70 0.50 0.350
monkey bunk 0.54 0.00 0.000
[0141] 可以理解,存在得到总分的各种方法。优选的总分是基于参照图9下文描述的算法。
[0142] 基于上述计分,选择备选词“many book”。因此,校正文本是:
[0143] I have many book
[0144] 现在参照图4,其是说明了图1的系统和功能中使用的词汇增强功能的简化的流程图。如图4所示,词汇增强功能优选地包括以下步骤:
[0145] 识别词汇挑战,其中所述词在从图3的误用词和语法校正功能输出的,在拼写、误用词和语法校正输入文本中,具有怀疑的不是最理想的词汇的使用;
[0146] 将词汇挑战分成簇,其优选的是不重叠的;
[0147] 选择用于校正的簇。识别、分组和选择步骤是优选地基于参照图6C下文描述的算法。
[0148] 优选地基于参照图7B下文描述的词汇增强生成算法,来为每个簇生成一个或优选地生成多个备选词汇增强;
[0149] 不基于上下文词的基于相似性的计分和上下文计分,优选地基于参照图9下文描述的词汇增强备选词计分算法,来优选地使用各种备选词汇增强的互联网语料库;
[0150] 对于每个簇,基于参照图9下文还描述的上述计分,来选择单个词汇增强并示出最优选的备选词汇增强;以及
[0151] 为每个不是最理想的词汇簇提供词汇增强建议。
[0152] 根据以下示例的考虑,可以更好地理解图4的功能的操作:
[0153] 提供以下的拼写、误用词和语法校正输入文本:
[0154] Wearing colorful clothes will separate us from the rest of the children in theschool.
[0155] 使用参照图6C下文描述的功能,为词汇增强选择以下簇:
[0156] separate
[0157] 使用参照图7B下文描述的功能,基于图7B中描述的预处理词汇数据库(部分的列表),来生成如表5所示的以下备选簇校正:
[0158] 表5
[0159]词 互联网语料库 预处理
中出现频率 丰富性得分
Furcated 1500 1.00
Disjoin 7800 0.97
Classify 1530500 0.93
Discriminate 1600400 0.91
Differentiate 1805600 0.90
Divide 4605800 0.88
Distinguish 4640900 0.88
Split 14003700 0.75
Branch 17106200 0.75
Separate 32765953 0.73
Break 39643000 0.72
Part 211805500 0.66
[0160]
[0161] 至少部分地基于输入文本的上下文内的词的合适度并且还基于备选词的词意与词汇挑战“separate”的相似度,使用互联网语料库来对各种备选词汇增强计分。
[0162] 使用参照图5下文描述的功能,生成以下的CFS(部分地列出):
[0163] ′will separate′,′separate us′,′clothes will separate′,′will separate us′,′separate us from′
[0164] 使用参照图9的阶段IIA下文描述的功能,为CFS的上述列表中的备选簇校正的部分列表生成在表6所示的互联网语料库中的出现频率的矩阵:
[0165] 表6
[0166]CFS/备选词簇校正 will separate clothes will separate
separate us will separate us from
separate us
Classify 18180 1270 0 0 0
Discriminate 6440 215 0 0 0
Differentiate 24420 8365 0 740 5555
[0167] 消除所有备选校正的出现的频率为零的所有CFS。在该示例中,消除以下feature-gram:
[0168] ′clothes will separate′
[0169] 所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS中的所有CFS。例如,消除以下feature-gram:
[0170] ′will separate′,′separate us′
[0171] 在该示例中,剩余的CFS是feature-gram:
[0172] ′will separate us′,′separate us from′
[0173] 使用参照图9在阶段IID和IIE中下文描述的最终优先选择得分,选择备选“differentiate”,增强的句子是:
[0174] Wearing colorful clothes will differentiate us from the rest of the children inthe school.
[0175] 现在参照图5,其是说明了在用于本发明的优选实施例的计算机辅助语言校正的系统和功能中有用的上下文特征序列(CFS)功能118(图1)的简化的框图。
[0176] CFS功能118优选地包括特征提取功能,其包括N-gram提取功能以及可选的至少一个skip-gram提取功能;switch-gram提取功能;共同出现提取功能;之前由用户使用的特征提取功能。
[0177] 术语N-gram是技术的已知术语,指代输入文本中的N个连续词的序列。N-gram提取功能可以使用传统的词性标注(part-of-speech tagging)和句子分析功能以避免生成基于语法考虑不期望在语料库(优选的是互联网语料库)中高频率出现的某种n-gram。
[0178] 为了本描述的目的,术语“skip-gram提取功能”意味着功能上用于提取“skip-gram”,所述“skip-gram”是修改的n-gram,所述n-gram省略了一些不重要的词或短语,例如形容词、副词、形容词短语和副词短语,或者所述n-gram仅包含具有预定的语法关系的词,例如主语-动词、动词-宾语、副词-动词或动词-时间短语。skip-gram提取功能可以使用传统的词性标注和句子分析功能来帮助确定在给定的上下文中可以跳过哪些词。
[0179] 对于本描述的目的,术语“switch-gram提取功能”意味着识别“switchgram”的功能,所述“switch-gram”是修改的n-gram,其中,转换一些词的出现顺序。switch-gram提取功能可以使用传统的词性标注和句子分析功能来帮助确定在给定的上下文中可以转换哪些词的出现顺序。
[0180] 为了本描述的目的,术语“共同出现提取功能”意味着识别在输入句子或包含多个输入句子的输入文档中的词的组合,所述功能具有用于在输入文本而不是在N-gram、switch-gram或skip-gram中包括的那些的输入文本词共同出现,以及指示到输入词和方向的距离,在此之后过滤除经常出现的词,例如介词、冠词、连词和其功能主要是起语法作用的其它词。
[0181] 为了本描述的目的,术语“之前由用户使用的特征提取功能”意味着识别用户在其它文档中使用的词,在此之后滤除经常出现的词,例如介词、冠词、连词和其功能主要是起语法作用的其它词。
[0182] 为了本描述的目的,N-gram、skip-gram、switch-gram和其组合被称为feature-gram。
[0183] 为了本描述的目的,N-gram、skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合被称为上下文特征序列或CFS。
[0184] 图5的功能优选地对输入文本中的单独的词或词的簇进行操作。
[0185] 根据以下示例的考虑,可以更好地理解图5的功能的操作:
[0186] 提供以下的输入文本:
[0187] Cherlock Homes the lead character and chief inspecter has been cold in bythe family doctor Dr Mortimer,to invesigate the death of sir Charles[0188] 对于输入文本中的簇“Cherlock Homes”,生成以下的CFS:
[0189] N-gram:
[0190] 2-gram:Cherlock Homes;Homes the
[0191] 3-gram:Cherlock Homes the;Homes the lead
[0192] 4-gram:Cherlock Homes the lead;Homes the lead character
[0193] 5-gram:Cherlock Homes the lead character
[0194] Skip-gram:
[0195] Cherlock Homes the character;Cherlock Homes the chiefinspecter;Cherlock Homes the inspecter;Cherlock Homes has been cold
[0196] Switch gram:
[0197] The lead character Cherlock Homes
[0198] 输入文本中的共同出现:
[0199] Character;inspector;investigate;death
[0200] 包含输入文本的文档中的共同出现:
[0201] Arthur Conan Doyle;story
[0202] 用户的其它文档中的共同出现:
[0203] mystery
[0204] 对于输入文本中的簇“cold”,生成以下的CFS:
[0205] N-gram:
[0206] 2-gram:been cold;cold in
[0207] 3-gram:has been cold;been cold in;cold in by
[0208] 4-gram:inspector has been cold;has been cold in;been cold in by[0209] 5-gram:chief inspector has been cold;inspector has been cold in;has beencold in by;been cold in by the;cold in by the family
[0210] Skip-gram:
[0211] cold in to investigate;Chedock has been cold;cold by the doctor;cold by DrMortimer;character has been cold
[0212] 基于以下中的至少一个,对每个CFS给出“重要性得分”,优选的是以下中的多于一个,并且最优选的是以下中的所有:
[0213] a、传统的词性标注和句子分析功能的操作。给包括多个分析树节点的CFS相对低的得分。CFS中包括的分析树节点的数量越多,该CFS的得分越低。
[0214] b、CFS的长度。CFS越长,得分越高。
[0215] c、在CFS而不是输入词中每个字的出现频率。这种词的出现频率越高,得分越低。
[0216] d、CFS的类型。例如,N-gram比共同出现优选。输入句子中的共同出现比输入文档中的共同出现优选,并且输入文档中的共同出现比“之前用户使用的特征”优选。
[0217] 参照上述示例,如表7所示为典型的得分;
[0218] 表7
[0219]CFS类型 CFS 得分
N-gram:2-gram Cherlock Homes 0.50
N-gram:2-gram Homes the 0.30
N-gram:3-gram Cherlock Homes the 0.70
N-gram:3-gram Homes the lead 0.70
N-gram:4-gram Cherlock Homes the lead 0.90
N-gram:4-gram Homes the lead character 0.90
N-gram:5-gram Cherlock Homes the lead character 1.00
Skip-gram Cherlock Homes the character 0.80
Skip-gram Cherlock Homes the chief inspecter 0.95
Skip-gram Cherlock Homes the inspecter 0.93
Skip-gram Cherlock Homes has been cold 0.93
CFS类型 CFS 得分
Switch gram The lead character Cherlock Homes 0.95
在输入文本中共同出现 Character 0.40
在输入文本中共同出现 Inspector 0.40
在输入文本中共同出现 Investigate 0.40
在输入文本中共同出现 Death 0.40
在包含输入文本的 Arthur Conan Doyle 0.50
文档中的共同出现:
在包含输入文本的 Story 0.30
文档中的共同出现:
在用户的其它文档中的共同出现 Mystery 0.20
[0220]
[0221] 基于互联网语料库中的CFS出现频率,为了各种备选簇校正的基于上下文的得分,参照图8和9下文描述的功能中使用这些CFS和它们的重要性得分。
[0222] 现在参照图6A,其是说明了用于识别输入文本中的误拼写词的功能;将误拼写词分成簇,其优选的是非重叠的;选择用于校正的簇。
[0223] 如图6A所示,通过使用扩充了通常在互联网使用的专有名称和专有词的传统的字典,来优选地执行对误拼写词的识别。
[0224] 通过将连续的或几乎连续的误拼写词分到带有具有语法关系的误拼写词的单个簇中,来优选地执行将误拼写词分成簇。
[0225] 通过尝试找到包含大量不怀疑的基于上下文数据的簇,来优选地执行选择用于校正的簇。优选地,选择具有在正确拼写词附近的最长序列或多个序列的簇。
[0226] 现在参照图6B,其是说明了用于识别在拼写校正输入文本中的怀疑的误用词和具有语法错误的词;将怀疑的误用词和具有语法错误的词分成簇,其优选的是不重叠的;选择用于校正的簇。
[0227] 按照以下来优选地执行识别怀疑的误用词:
[0228] 在拼写校正输入文本中为每个词生成feature-gram
[0229] 注意在语料库(优选的是互联网语料库)中的每个feature-gram的出现的频率;
[0230] 注意用于每个词的怀疑的feature-gram的数量。怀疑的feature-gram具有比它们的期望的频率显著地低的频率或者在最低频率阈值以下的频率。基于feature-gram的组成元素和其组合来估计feature-gram的期望频率。
[0231] 如果包含词的怀疑的feature-gram的数量超过预定的阈值,那么词受到怀疑。
[0232] 根据本发明的优选实施例,确定语料库(优选的是互联网语料库)中的拼写校正输入文本中的每个feature-gram的出现频率(FREQ F-G)。还确定在该语料库中拼写校正输入文本中的每个词的出现的频率(FREQ W),并且还确定没有该词的每个feature-gram的出现的频率(FREQ FG-W)。
[0233] 按照以下来计算每个feature-gram的出现的期望频率(EFREQ F-G):
[0234] EFREQ F-G=FREQ F-G-W*FREQ W/(在
[0235] 互联网语料库中的所有词的总频率)
[0236] 如果语料库(优选的是互联网语料库)中拼写校正输入文本中的每个feature-gram的出现的频率与每个feature-gram的期望的出现频率之比,即FREQ F-G/EFREQ F-G比预定的阈值小,或者如果FREQ F-G比另一个预定的阈值低,那么feature-gram将被认为是怀疑的feature-gram。包括在怀疑的feature-gram的每个词将被认为是怀疑的误用词或者具有怀疑的语法错误的词。
[0237] 根据以下示例的考虑,可以更好地理解:用于识别拼写校正输入文本中的怀疑的误用词和具有语法错误的词的图6B的功能的操作:
[0238] 提供以下拼写校正输入文本:
[0239] I have money book
[0240] feature-gram包括以下:
[0241] I;I have;I have money;I have money book
[0242] 表8指示了上述feature-gram的互联网语料库中的出现的频率:
[0243] 表8
[0244]词/频 1-GRAM 2-GRAMS 3-GRAMS 4-GRAMS

I I I have I have money I have money
2744650600 154980000 24600 book 0
Have have have money have money book
1500601100 390300 0
Money money money book
124877160 3100
Book book
164065000
[0245] 按照如下为每个2-gram计算期望的出现频率:
[0246] EFREQ F-G=(FREQ F-G-W*FREQ W)/(在
[0247] 互联网语料库中的所有词的总频率)
[0248] 例如,对于2-gram,
[0249] 2-gram(x,y)的期望的2-gram频率=(x的1-gram频率*y的1-gram频率)/在互联网语料库中词的数量。例如,一万亿(1,000,000,000,000)个词。
[0250] 按照如下来计算在语料库(优选的是互联网语料库)中拼写校正输入文本中的每个feature-gram的出现频率与每个feature-gram的期望的出现频率之比:
[0251] FREQ F-G/EFREQ F-G
[0252] 表9中示出了在语料库(优选的是互联网语料库)中拼写校正输入文本中的每个上述2-gram的出现频率与每个上述2-gram的期望的出现频率之比:
[0253] 表9
[0254]2-GRAMS FREQ F-G EFREQ F-G FREQ F-G/EFREQ F-G
I have 154980000 4118625.7 37.60
have money 390300 187390.8 2.08
money book 3100 20487.9 0.15
[0255]
[0256] 可以看出,“money book”的FREQ F-G比其期望的频率显著地低,因此FREQ F-G/EFREQ F-G可以被认为比预定阈值(例如,1)低,所以簇“money book”受到怀疑。
[0257] 可以看出,包括词“money book”的3-gram和4-gram都在互联网语料库中具有零频率。这也可以是认为“money book”受到怀疑的根据。
[0258] 按照如下优选地执行将怀疑的误用词和具有语法错误的词分到簇中:将连续或几乎连续的怀疑的误用词分到单个簇中;在它们自身之间具有语法关系的怀疑的误用词被分到相同的簇。
[0259] 通过尝试找到包含最大数量的不怀疑的上下文数据的簇,来优选地执行选择用于校正的簇。优选地,选择具有在其附近的不怀疑的词的最长序列或多个序列的簇。
[0260] 现在参照图6C,其是说明了用于识别在拼写、误用词和语法校正输入文本中具有怀疑的不是最理想的词汇的使用的词汇挑战;将词汇挑战分成簇,其优选的是不重叠的;选择用于校正的簇。
[0261] 按照如下优选地执行识别词汇挑战:
[0262] 对词典进行预处理以便为每个词分配语言丰富性得分,所述每个词指示了在等级中词的级别,其中,书面语言比口语更优选;其中,在互联网资源中,例如,文章和图书比聊天和论坛优选,并且其中,较少使用的词比更常使用的词更优选;
[0263] 还对词典进行预处理以基于之前预处理步骤和语法规则的结果来消除不太可能用于词汇增强的候选者;
[0264] 额外的预处理,其用于指示每个剩余的词、具有比输入词的语言丰富性得分高的词汇增强的候选者;以及
[0265] 检查拼写、误用词和语法校正输入文本中的每个词是否作为多个预处理词典中的剩余词出现,并且识别每个这种词,哪个作为剩余的词出现,哪个作为用于词汇增强的候选者出现。
[0266] 将词汇挑战分成簇(所述簇优选的是不重叠的)是可选的并且按照如下优选地执行:
[0267] 将连续的词汇挑战分到单个簇中;以及
[0268] 将具有语法关系的挑战的词分到相同的簇中。
[0269] 通过尝试找到包含最大数量的非词汇挑战的词的簇来优选地执行选择用于校正的簇。优选地,选择在其附近的非词汇挑战的词的最长序列或多个序列。
[0270] 现在参照图7A,其是说明了用于生成在图2和图3的功能中有用的簇的备选校正的功能。
[0271] 如果原始输入词是正确拼写的,那么它被认为是备选词。
[0272] 如图7A所示,对于簇中的每个词,以如下方式来初始地生成多个备选校正:
[0273] 来自字典的多个词,类似于簇中的每个词,都基于以字符串相似度来表示的、词的书写外观并基于发音或语音相似度来检索。该功能是已知的并且作为免费软件在互联网上是可用的,例如GNU Aspell和 Gspell。检索和优先词提供了第一多个备选校正。例如,给出的输入词feezix,基于相似的发音,将从字典检索到词“physics”,尽管它仅具有一个共同字符,即“i”。基于其字符串的相似度来检索词“felix”,尽管它并不具有相似的发音。
[0274] 可以通过使用基于已知的备选使用以及积累的用户输入的规则来生成额外的备选词。例如,u→you,r→are,Im→I am。
[0275] 可以基于语法规则(优选地使用预定义列表)来生成其它备选词。以下是几个示例:
[0276] 单数/复数规则:如果输入句子是“leaf fall off trees in the autumn”,那么生成复数备选词“leaves”。
[0277] 冠词规则:如果输入文本是“a old lady”,那么生成备选冠词“an”和“the”。
[0278] 介词规则:如果输入文本是“I am interested of football”,那么生成备选介词“in”、“at”、“to”、“on”、“through”等。
[0279] 动词变形规则:如果输入文本是“He leave the room”,那么生成备选动词变形“left”、“leaves”、“had left”等。
[0280] 合并词和拆分词规则:如果输入文本是“get a lot fitter”,那么生成备选词“a lot”。
[0281] 如果输入文本是“we have to wat ch out”,那么生成备选词“watch”。
[0282] 如果输入文本是“do many sittups”,那么生成备选词“sit ups”。
[0283] 本发明的优选实施例的特定特征是:使用上下文信息(例如,CFS以及更具体地说是feature-gram)来生成备选校正,并且不仅用于存储这种“上下文的检索”的备选校正。可以从现有的语料库(例如,互联网语料库)检索经常出现词的组合(例如,CFS以及更具体地说是feature-gram)。
[0284] 以下示例说明了本发明的该方面:
[0285] 如果输入句子是:“The cat has kts”,词“kts”可能与词“kittens”在发音或书写上不十分相似,由于缺少本发明的该方面,“kittens”可能不是备选词中的一个。
[0286] 根据本发明的该方面,通过在通常出现在n-gram“cat has”之后(即,在查询“cat has*”中发现作为*的所有词)的词的互联网语料库中查找,来检索以下的备选词:
[0287] nine lives;left;fleas ;dandruff;kittens;tapeworms;adopted ;retractile-claws;been;urinated;diarrhea;eaten;swallowed;hairballs;gone;
always been
[0288] 根据本发明的优选实施例,然后过滤“基于上下文检索的”备选词,以使得具有与原始词有某种发音或书写相似的基于上下文检索的备选词,在本发明的示例为“kts”,仅该词保留。在该示例中,检索到具有最相似的发音和书写的备选词“kittens”。
[0289] 其中通过外部系统(例如,光学字符识别、语音到文本或机器翻译系统)自动地生成输入文本,可以直接地从这种系统直接地接收额外的备选词。通常,在这种系统的操作的过程中生成这种额外备选词。例如,在机器翻译系统中,可以将外语词汇的备选翻译提供给本系统以作为备选词来使用。
[0290] 一旦生成了在簇中的每个词的所有备选词,通过确定各种备选词的所有可能组合并且随后基于在语料库(优选的是互联网语料库)中的备选词的出现频率来过滤组合,生成用于整个簇的簇备选词。
[0291] 以下示例是说明性的:
[0292] 如果输入簇是“money book”,并且用于词“money”的备选词是:
[0293] Monday;many;monkey
[0294] 并且用于词“book”的备选词是:
[0295] books;box;back
[0296] 生成以下的簇备选词:
[0297] money books;money box;money back;Monday books;Monday box;Monday back;many books;many box;many back;monkey books;monkey box;monkey back;many book;
monkey book;Monday book
[0298] 现在参照图7B,其是说明了用于生成簇的备选词增强的功能的简化的流程图,所述功能在图4的功能中有用。
[0299] 如在图7B中所示,以如下方式来初始地生成多个备选词增强:
[0300] 如果原始输入词拼写正确,它被认为是备选词。
[0301] 检索来自词典或其它词汇数据库(例如,在互联网上免费可用的Princeton WordNet,其与在簇中的每个词在语言上有关,作为同义词、超集或子集)的多个词。检索和优先词提供了第一多个备选词增强。
[0302] 通过使用基于已知的备选词使用以及积累的用户输入的规则来生成额外的备选词。
[0303] 本发明的优选实施例的特定特征是:使用上下文信息(例如,CFS以及更具体地说是feature-gram)来生成备选词增强,并且不仅用于存储这种“基于上下文的检索”的备选词增强。可以从现有的语料库(例如,互联网语料库)检索经常出现词的组合(例如,CFS以及更具体地说是feature-gram)。
[0304] 一旦生成了簇中的每个词的所有备选词,通过确定各种词的备选词的所有可能组合并且基于现有语料库(例如,互联网)中的得到的多个词的组合的出现频率来过滤组合,生成用于整个簇的备选词。
[0305] 以下示例是图7B的说明性的功能:
[0306] 提供了以下输入文本:
[0307] it was nice to meet you
[0308] 由语言数据库(例如,Princeton WordNet)来生成用于词“nice”的以下备选词(部分地列出):
[0309] pleasant,good,kind,polite,fine,decent,gracious,courteous,considerate,enjoyable,agreeable,satisfying,delightful,entertaining,amiable,friendly,elegant,precise,careful,meticulous
[0310] 通过应用预定的规则来生成用于词“nice”的以下备选词:
[0311] cool
[0312] 例如响应于查询(例如,“it was*to meet”),生成用于词“nice”的以下基于上下文检索的备选词:
[0313] great;apleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;exciting;agreed;fantastic;decided;inspiring
[0314] 现在参照图8,其是说明了用于在图2的拼写校正功能中有用的各种备选词增强的基于上下文和基于词相似性计分的功能的简化的流程图。
[0315] 如在图8中所示,各种备选词校正的基于上下文和基于词相似性的计分按照以下大体的阶段进行:
[0316] I、不基于上下文计分-按照词的书写外观和发音相似性,基于与输入文本中的簇的相似性来对各种簇备选词计分。
[0317] II、使用互联网语料库的基于上下文计分-基于提取的上下文特征序列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种簇备选词计分。该计分包括以下子阶段:
[0318] IIA、在参照图5按照上文描述提取的CFS的情况下,在由图7A的功能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行出现频率的分析。
[0319] IIB、具体地说是基于子阶段IIA的出现频率的分析结果来执行各种CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选择的CFS给出相对的权重。
[0320] IIC、将出现频率的度量分配到用于在子阶段IIB中的每个选择的CFS的每个备选校正。
[0321] IID、具体地说基于子阶段IIA的出现频率的分析结果、子阶段IIC的出现频率的度量、子阶段IIB的CFS选择和权重来生成备选簇校正的减少的组。
[0322] IIE、为了用作参考簇校正,从子阶段IID中的减少的组中选择在阶段I中具有最相似的不基于上下文的相似性得分的簇。
[0323] IIF、将出现频率的度量分配到用于在阶段IIB中的每个选择的CFS的子阶段IIE的参考簇校正。
[0324] IIG、将比率度量分配到在子阶段IIB中的每个选择的CFS,所述比率度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段IIE的参考簇的出现频率的度量之比。
[0325] III、基于阶段I的结果和阶段II的结果来选择最优选的备选簇校正。
[0326] IV、将可信度等级得分分配到最优选的备选簇校正。
[0327] 下文示出了在阶段II-IV中上文描述的功能的更为详细的描述:
[0328] 参照子阶段IIA,按照图5中上文描述来生成包括要被校正的簇的所有CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。
[0329] 生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。
[0330] 以下示例说明了出现频率矩阵的产生:
[0331] 提供以下输入文本:
[0332] I lik tw play outside a lot
[0333] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0334] lik tw
[0335] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0336] like to;like two;lick two;lack two;lack true;like true
[0337] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0338] ′lik tw;′I lik tw;′lik tw play′;′I lik tw play′;′lik tw play outside′;′I lik twplay outside′;′lik tw play outside a′
[0339] 使用参照阶段IIA上文描述的功能,为了在CFS的上述列表中的备选词簇校正的上述列表,生成在表10中所示的互联网语料库中的出现频率矩阵:
[0340] 表10
[0341]CFS/备 lik tw I lik tw lik tw I lik lik tw I lik tw lik tw
选词簇校 play tw play play play
正 play outside outside outside
like to 75094300 3097250 432200 80500 1000 330 0
like two 327500 2400 0 0 0 0 0
lick two 600 0 0 0 0 0 0
lack two 1800 100 0 0 0 0 0
lack true 3400 90 0 0 0 0 0
like true 27500 350 0 0 0 0 0
[0342]
[0343] 消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
[0344] ′lik tw play outside a′
[0345] 所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS:
[0346] ′lik tw′;′I lik tw′;′lik tw play′;′I lik tw play′;′lik tw play outside′
[0347] 在该示例中,仅剩余的CFS是feature-gram:
[0348] ′I lik tw play outside′
[0349] 得到的矩阵按照表11所示出现:
[0350] 表11
[0351]CFS/备选词 ′I lik tw play
簇校正 outside′
like to 330
like two 0
lick two 0
lack two 0
lack true 0
like true 0
[0352] 上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中,很明显,“like to”是优选的备选校正。可以理解,在现实中,选择通常不是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中做更为困难的选择的功能。
[0353] 返回考虑子阶段IIB,可选地,参照图5按照上文描述的,为每个剩余的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。
[0354] 在通常的情况下,类似于在子阶段IIC中上文描述的那样,生成标准化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩阵生成标准化频率矩阵。
[0355] 标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料库中各种备选校正的总体出现频率。
[0356] 以下示例说明了标准化出现频率矩阵的生成:
[0357] 提供以下输入文本:
[0358] footprints of a mysterious haund said to be six feet tall
[0359] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0360] haund
[0361] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0362] hound;hand;sound
[0363] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0364] ′a mysterious haund′;′haund said′
[0365] 使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成在表12所示的互联网语料库中的出现频率和标准化出现频率的矩阵:
[0366] 表12
[0367]
[0368] 可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高出现频率的“hand”。
[0369] 本发明的特定特征是,标准化出现频率(其抵消在各种备选校正的总体普及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出现频率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。在出现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。
[0370] 根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选择是有用的。下文描述了这些功能。
[0371] 在子阶段IID,消除根据以下两种度量的、不优选于另一个备选簇校正的每个备选簇校正:
[0372] i、具有比其它备选簇校正低的词相似性得分;以及
[0373] ii、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优选地具有较低的标准化的出现频率。
[0374] 以下示例说明了按照上文描述的备选校正的消除:
[0375] 提供了以下输入文本;
[0376] I leav un a big house
[0377] 使用参照图6A上文描述的功能,为校正选择以下簇:
[0378] leav un
[0379] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0380] leave in;live in;love in
[0381] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0382] ′I leav un a′;′leav un a big′
[0383] 使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表13所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
[0384] 表13
[0385]
[0386]
[0387] 在该示例中,如在表14中指示了备选簇校正的不基于上下文相似性得分:
[0388] 表14
[0389]备选词簇 相似性
校正 总分
leave in 0.9
live in 0.8
love in 0.7
[0390] 因为“love in”比“live in”具有较低的相似性得分以及较低的出现频率和较低的标准化出现频率,所以消除备选簇校正“love in”。因为“leave in”的相似性得分比“live in”的得分高,因此在该阶段不消除备选簇校正“leavein”。
[0391] 从上述可以理解,阶段IID的功能的操作的结果是减少的频率矩阵并且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。
[0392] 对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个来生成用于每个备选校正的最终优先选择得分:
[0393] 下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准化频率两者的函数。
[0394] A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例如,将按照如下来对各种备选簇校正计分:
[0395] 提供以下输入文本:
[0396] A big agle in the sky
[0397] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0398] agle
[0399] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0400] ogle;eagle;angel
[0401] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0402] ′big agle′;′agle in the sky′
[0403] 使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表15所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
[0404] 表15
[0405]
[0406] 在该示例中,如在表16中指示了备选簇校正的不基于上下文相似性得分:
[0407] 表16
[0408]备选词 详细性
簇校正 得分
ogle 0.97
eagle 0.91
angel 0.83
[0409] 因为′eagle′具有最大出现频率的CFS,所以选择备选词′eagle′。
[0410] B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平均出现频率函数。例如,将按照如下对各种备选校正计分:
[0411] 提供以下输入文本:
[0412] A while ago sthe lived 3 dwarfs
[0413] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0414] sthe
[0415] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0416] the;they;she;there
[0417] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0418] ′ago sthe lived′;′sthe lived 3′
[0419] 使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表17和18所示的互联网语料库中的出现频率、标准化出现频率和平均出现频率的矩阵:
[0420] 表17
[0421]
[0422] 表18
[0423]
[0424]
[0425] 应当注意,基于平均出现频率来选择“there”。
[0426] 在该示例中,如在表19中指示了备选簇校正的不基于上下文相似性得分:
[0427] 表19
[0428]备选词 相似性
簇校正 得分
the 0.97
they 0.86
she 0.88
there 0.67
[0429] 应当注意,不选择具有最高相似性得分的备选簇校正。
[0430] C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。
[0431] D、参照子阶段iiE-iiG按照上文描述的,通过任意一个或多个,并且更优选的以及最优选的是,关于在减少的矩阵或多个矩阵中的备选校正的所有以下操作,生成特定备选校正/CFS优先选择度量:
[0432] i、选择具有不基于上下文相似性最高的得分的备选簇校正作为参考簇。
[0433] ii、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考簇的出现频率函数之比来代替。
[0434] iii、进一步修改在ii中上文描述的类型的修改的矩阵,从而通过用于减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除最不优选的备选校正。
[0435] iv、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合适的CFS得分,来额外地修改在ii或iii中上文描述的类型的修改的矩阵。这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。
[0436] v、通过生成合适的比率的函数、比率的函数、出现频率和标准化的出现频率,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出现频率,来生成优选的函数。
[0437] E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。
[0438] 说明了这种修改的矩阵的使用的示例如下:
[0439] 提供以下输入文本:
[0440] I will be able to tach base with you next week
[0441] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0442] tach
[0443] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0444] teach;touch
[0445] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0446] ′ago to tach′;′to tach base′
[0447] 使用参照上述子阶段IIA和IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表20所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
[0448] 表20
[0449]
[0450]
[0451] 应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地使用参照子阶段IIG上文描述的比率度量。
[0452] 在该示例中,如在表21中指示了备选簇校正的不基于上下文相似性得分:
[0453] 表21
[0454]备选词 相似性
簇校正 得分
teach 0.94
touch 0.89
[0455] 可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach”的特征的出现频率的比率。
[0456] F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:
[0457] 1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所述至少一个特征具有比预定阈值高的CFS得分)的备选校正。
[0458] 2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比另一个预定阈值高的CFS得分)的备选校正。
[0459] 3、a、确定每个CFS的CFS得分;
[0460] b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;
[0461] c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求和;
[0462] d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求和;以及[0463] e、如果c中的和比d中的和低,那么滤除备选校正。
[0464] 以下示例说明了过滤上面描述的过滤功能。
[0465] 提供了以下输入文本:
[0466] I am faelling en love
[0467] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0468] faelling en
[0469] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0470] falling on;falling in;feeling on;feeling in
[0471] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0472] ′am faelling en′;′faelling en love′;′am faelling en love′;′I am faelling en′
[0473] 使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表22所示的互联网语料库中的出现频率的矩阵:
[0474] 表22
[0475]CFS/备选词簇 ′am ′faelling en ′am faelling ′I am
校正 faelling en′ love′ en love′ faelling en′
falling on 200 40 0 185
falling in 4055 341800 3625 3345
feeling on 435 70 0 370
feeling in 1035 1055 0 895
[0476] 消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。例如,消除以下feature-gram:
[0477] ′am faelling en′;′faelling en love′
[0478] 在该示例中,剩余的CFS是feature-gram:
[0479] ′am faelling en love′;′I am faelling en′
[0480] 在该示例中,如在表23中指示了备选簇校正的不基于上下文相似性得分:
[0481] 表23
[0482]备选词 相似性
簇校正 得分
falling on 0.89
falling in 0.89
feeling on 0.82
feeling in 0.82
[0483] 滤除备选校正“falling on”、“feeling on”和“feeling in”,因为对于CFS中的一个,它们的出现频率为0。
[0484] G、参照阶段III按照上文所讨论的,基于在A-E上文描述开发的最终优先选择度量,对在F中过滤后留下的备选校正建立排序。
[0485] H、如参照阶段IV上文讨论的,将可信度分配给选择的备选校正。基于以下参数中的一个或多个来计算该可信度:
[0486] a、按照在上述子阶段IIB中提供的选择的CFS的数量、类型和得分;
[0487] b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;
[0488] c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同意备选校正的选择的程度;
[0489] d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性得分(阶段I)。
[0490] e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈值具有优先选择的得分。
[0491] 如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预定阈值以下,那么引发基于备选校正的优选的列表的用户选择。
[0492] 以下示例是可信度得分的说明性使用:
[0493] 提供以下输入文本:
[0494] He was not feeling wehl when he returned
[0495] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0496] wehl
[0497] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0498] wale;well
[0499] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0500] ′was not feeling wehl′;′not feeling wehl when′;′feeling wehl when he′;′wehl when he returned′
[0501] 使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表24所示的互联网语料库中的出现频率的矩阵:
[0502] 表24
[0503]CFS/备选词 ′was not ′not feeling ′feeling wehl ′wehl when
簇校正 feeling wehl when′ when he′ he returened′
wehl′
Wale 0 0 0 0
Well 31500 520 100 140
[0504] 上述示例说明:根据在上述H中阐述的所有标准,选择′well′而不是′wale′,因为′well′具有高的可信度。
[0505] 在以下示例中,可信度有些低,这是由于以下事实:备选校正′back′具有比在CFS′bech in the summer′中的′beach′较高的出现频率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′较高的出现频率。基于标准H(c),选择带有中间可信度的备选校正′beach′。
[0506] 提供以下输入文本:
[0507] I like to work on the bech in the summer
[0508] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0509] bech
[0510] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0511] beach;beech;back
[0512] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0513] ′on the bech in′;′the bech in the′;′bech in the summer′[0514] 使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表25所示的互联网语料库中的出现频率的矩阵:
[0515] 表25
[0516]CFS/备选词 ′on the bech in′ ′the bech in ′bech in the
簇校正 the′ summer′
Beach 110560 42970 2670
CFS/备选词 ′on the bech in′ ′the bech in ′bech in the
簇校正 the′ summer′
Beech 50 55 0
Back 15300 10390 20090
[0517] 基于标准H(c),选择带有中间可信度的备选校正′beach′。
[0518] 在以下示例中,基于标准H(a),可信度更低:
[0519] 接收以下输入文本:
[0520] Exarts are restoring the British Museum′s round reading room
[0521] 使用参照图6A上文描述的功能,为了校正选择以下簇:
[0522] Exarts
[0523] 使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
[0524] Experts;Exerts;Exits
[0525] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0526] ′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′
[0527] 使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表26所示的互联网语料库中的出现频率的矩阵:
[0528] 表26
[0529]CFS/备选词 ′Exarts are′ ′Exarts are ′Exarts are ′Exarts are
簇校正 restoring′ restoring the′ restoring
the British′
Experts 62540 0 0 0
Exerts 140 0 0 0
Exists 8225 0 0 0
[0530] 消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
[0531] ′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring theBritish′
[0532] 在该示例中,仅剩余的CFS是feature-gram:
[0533] ′Exarts are′
[0534] 从上述示例看出,在过滤过程中存留的CFS是“exart are”。因此,可信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之外仅包括一个词,所述词是经常出现的词。
[0535] 现在参照图9,其是说明了在图3、10和11的误用词和预防校正功能中有用的并且也在图4的词汇增强功能中有用的各种备选词校正的基于上下文和词的基于相似性得分的功能的简化的流程图。
[0536] 如图9所示,各种备选词校正的基于上下文和词的基于相似性得分在以下大体的阶段中进行:
[0537] I、不基于上下文计分-按照词的书写外观和发音相似性,基于与输入文本中的簇的相似性来对各种簇备选词计分。
[0538] II、使用互联网语料库的基于上下文计分-基于提取的上下文特征序列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种簇备选词计分。该计分包括以下子阶段:
[0539] IIA、在参照图5按照上文描述提取的CFS的情况下,在由图7A或7B的功能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行出现频率的分析。
[0540] IIB、具体地说是基于子阶段IIA的出现频率的分析结果来执行各种CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选择的CFS给出相对的权重。
[0541] IIC、将出现频率的度量分配到用于在子阶段IIB中的每个选择的CFS的每个备选校正。
[0542] IID、具体地说基于子阶段IIA的出现频率的分析结果、子阶段IIC的出现频率的度量、子阶段IIB的CFS选择和权重来生成备选簇校正的减少的组。
[0543] IIE、选择输入簇作为参考簇校正来使用。
[0544] IIF、将出现频率的度量分配到用于在阶段IIB中的每个选择的CFS的子阶段IIE的参考簇校正。
[0545] IIG、将比率度量分配到在子阶段IIB中的每个选择的CFS,所述比率度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段IIB的参考簇的出现频率的度量之比。
[0546] III、基于阶段I的结果和阶段II的结果来选择最优选的备选簇校正。
[0547] IV、将可信度等级得分分配到最优选的备选簇校正。
[0548] IV、将可信度等级得分分配到最优选的备选簇校正。
[0549] 下文示出了在阶段II-IV中上文描述的功能的更为详细的描述:
[0550] 参照子阶段IIA,按照图5中上文描述来生成包括要被校正的簇的所有CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。
[0551] 生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。
[0552] 以下示例说明了出现频率矩阵的产生:
[0553] 提供以下输入文本:
[0554] I lick two play outside a lot
[0555] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0556] lick two
[0557] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0558] like to;like two;lick two;lack two;lack true;like true
[0559] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0560] ‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two playoutside’;‘I lick two play outside’;‘lick two play outside a’[0561] 使用参照阶段IIA上文描述的功能,为了在CFS的上述列表中的备选词簇校正的上述列表,生成在表27中所示的互联网语料库中的出现频率矩阵:
[0562] 表27
[0563]CFS/备 lick two I lick lick two I lick lick I lick lick
选词簇 two play two two two two
校正 play play play play
outside outside outside
like to 75094300 3097250 432200 80500 1000 330 0
like two 327500 2400 0 0 0 0 0
lick two 600 0 0 0 0 0 0
lack two 1800 100 0 0 0 0 0
lack true 3400 90 0 0 0 0 0
like true 27500 350 0 0 0 0 0
[0564] 消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
[0565] ‘lick two play outside a′
[0566] 所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS:
[0567] ‘lick two′;‘I lick two′;‘lick two play′;‘I lick two play′;‘lick two play outside′
[0568] 在该示例中,仅剩余的CFS是feature-gram:
[0569] ‘I lick two play outside′
[0570] 得到的矩阵按照表28所示出现:
[0571] 表28
[0572]CFS/备选词 ′I lick two play
簇校正 outside′
like to 330
CFS/备选词 ′I lick two play
簇校正 outside′
like two 0
lick two 0
lack two 0
lack true 0
like true 0
[0573] 上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中,很明显,“like to”是优选的备选校正。可以理解,在现实中,选择通常不是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中做更为困难的选择的功能。
[0574] 返回考虑子阶段II B,可选地,参照图5按照上文描述的,为每个剩余的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。
[0575] 在通常的情况下,类似于在子阶段II C中上文描述的那样,生成标准化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩阵生成标准化频率矩阵。
[0576] 标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料库中各种备选校正的总体出现频率。
[0577] 以下示例说明了标准化出现频率矩阵的生成:
[0578] 提供以下输入文本:
[0579] footprints of a mysterious[hound/hand]said to be six feet tall
[0580] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0581] hound
[0582] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0583] hound;hand;sound
[0584] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0585] ′a mysterious hound′;′hound said′
[0586] 使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成在表29所示的互联网语料库中的出现频率和标准化出现频率的矩阵:
[0587] 表29
[0588]
[0589]
[0590] 可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高出现频率的“hand”。
[0591] 本发明的特定特征是,标准化频率(其抵消在各种备选校正的总体普及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出现频率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。在出现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。
[0592] 根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选择是有用的。下文描述了这些功能。
[0593] 在子阶段IID,消除根据以下两种度量的、不优选于另一个备选簇校正的每个备选簇校正:
[0594] i、具有比其它备选簇校正低的词相似性得分;以及
[0595] ii、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优选地具有较低的标准化的出现频率。
[0596] 以下示例说明了按照上文描述的备选校正的消除:
[0597] 提供了以下输入文本;
[0598] I leave on a big house
[0599] 使用参照图6B上文描述的功能,为校正选择以下簇:
[0600] leave on
[0601] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0602] leave in;live in;love in;leave on
[0603] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0604] ′I leave on a′;′leave on a big′
[0605] 使用参照本文的阶段IIE上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表30所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
[0606] 表30
[0607]
[0608] 在该示例中,如在表31中指示了备选簇校正的不基于上下文相似性得分:
[0609] 表31
[0610]备选词簇 相似性
校正 总分
leave in 0.9
live in 0.8
love in 0.7
leave on 1.00
[0611] 因为“love in”比“live in”具有较低的相似性得分以及较低的出现频率和较低的标准化出现频率,所以消除备选簇校正“love in”。因为“leave in”的相似性得分比“live in”的得分高,因此在该阶段不消除备选簇校正“leavein”。
[0612] 从上述可以理解,阶段IID的功能的操作的结果是减少的频率矩阵并且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。
[0613] 对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个来生成用于每个备选校正的最终优先选择得分:
[0614] 下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准化频率两者的函数。
[0615] A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例如,将按照如下来对各种备选簇校正计分:
[0616] 提供以下输入文本:
[0617] I am vary satisfied with your work
[0618] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0619] vary
[0620] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0621] vary;very
[0622] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0623] ′am vary′;′vary satisfied′;′I am vary satisfied with′
[0624] 使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表32和33所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
[0625] 表32
[0626]
[0627] 表33
[0628]
[0629]
[0630] 可以看出,在该示例中,根据出现频率和标准化出现频率两者,“very”具有最高出现频率函数。
[0631] B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平均出现频率函数。例如,将按照如下对各种备选校正计分:
[0632] 提供以下输入文本:
[0633] A while ago the lived 3 dwarfs
[0634] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0635] the
[0636] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0637] the;they;she;there
[0638] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0639] ′ago sthe lived′;′sthe lived 3′
[0640] 使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表34和35所示的互联网语料库中的出现频率、标准化出现频率和平均出现频率的矩阵:
[0641] 表34
[0642]
[0643] 表35
[0644]
[0645]
[0646] 应当注意,尽管“there”具有其在矩阵中最大的出现频率的CFS,但是基于平均出现频率来选择“they”。
[0647] 在该示例中,如在表36中指示了备选簇校正的不基于上下文相似性得分:
[0648] 表36
[0649]备选词 相似性
簇校正 得分
the 1.00
they 0.86
she 0.76
there 0.67
[0650] 应当注意,不选择具有最高相似性得分的备选簇校正。
[0651] C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。
[0652] D、参照子阶段IIE-IIG按照上文描述的,通过任意一个或多个,并且更优选的以及最优选的是,关于在减少的矩阵或多个矩阵中的备选校正的所有以下操作,生成特定备选校正/CFS优先选择度量:
[0653] i、选择来自被旋转用于校正的原始输入文本的簇作为参考簇。
[0654] ii、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考簇的出现频率函数之比来代替。
[0655] iii、进一步修改在ii中上文描述的类型的修改的矩阵,从而通过用于减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除最不优选的备选校正。
[0656] iv、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合适的CFS得分,来额外地修改在ii或iii中上文描述的类型的修改的矩阵。这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。
[0657] v、通过将每个优先选择矩阵中的合适的比率或比率的函数乘以用户不确定度量的函数,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。用户输入不确定度量的一些示例包括:与在词处理器中执行的输入词或簇有关的编辑操作的数量,与文档的其它词有关的编辑操作;在词处理器中执行的输入词或簇的写入的时序,与文档的其它词的写入的有关时间以及在语音识别输入功能中执行的输入词或簇的说的时序,与该用户说的其它词有关的时间。用户输入不确定度度量提供了某用户如何选择该词的指示。该步骤得到参考簇的计算偏值并且由关于该簇的用户的确定度或不确定度的函数来修改。
[0658] vi、通过生成合适的比率的函数、比率的函数、出现频率和标准化的出现频率,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出现频率,来生成优选的函数。
[0659] E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。
[0660] 说明了这种修改的矩阵的使用的示例如下:
[0661] 提供以下输入文本:
[0662] I will be able to teach base with you next week
[0663] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0664] teach
[0665] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0666] teach;touch
[0667] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0668] ′ago to tach′;′to tach base′
[0669] 使用参照上述子阶段IIA和IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表37所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
[0670] 表37
[0671]
[0672] 应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地使用参照子阶段IIG上文描述的比率度量。
[0673] 在该示例中,如在表38中指示了备选簇校正的不基于上下文相似性得分:
[0674] 表38
[0675]备选词 相似性
簇校正 得分
Teach 1.00
touch 0.89
[0676] 可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach”的特征的出现频率的比率。
[0677] F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:
[0678] 1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所述至少一个特征具有比预定阈值高的CFS得分)的备选校正。
[0679] 2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比另一个预定阈值高的CFS得分)的备选校正。
[0680] 3、a、确定每个CFS的CFS得分;
[0681] b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;
[0682] c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求和;
[0683] d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求和;以及[0684] e、如果c中的和比d中的和低,那么滤除备选校正。
[0685] 以下示例说明了过滤上面描述的过滤功能。
[0686] 提供了以下输入文本,通常是由语音识别功能输入:
[0687] I want[two/to/too]item,please
[0688] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0689] [two/to/too]
[0690] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0691] too;to;two
[0692] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0693] ′I want two′;′want two items′
[0694] 使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表39所示的互联网语料库中的出现频率的矩阵:
[0695] 表39
[0696]CFS/ ′I want two′ ′want two items′
备选词簇
校正
Too 9900 0
To 18286300 0
CFS/ ′I want two′ ′want two items′
备选词簇
校正
two 8450 140
[0697] 尽管“to”具有一个CFS的最高出现频率,但是因为它对另一个CFS来说出现频率为零,所以滤除备选词校正“too”和“to”。
[0698] G、参照阶段III按照上文所讨论的,基于在A-E上文描述开发的最终优先选择度量,对在F中过滤后留下的备选校正建立排序。
[0699] H、如参照阶段IV上文讨论的,将可信度分配给选择的备选校正。基于以下参数中的一个或多个来计算该可信度:
[0700] a、按照在上述子阶段IIB中提供的选择的CFS的数量、类型和得分;
[0701] b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;
[0702] c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同意备选校正的选择的程度;
[0703] d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性得分(阶段I)。
[0704] e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈值具有优先选择的得分。
[0705] 如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预定阈值以下,那么引发基于备选校正的优选的列表的用户选择。
[0706] 以下示例是可信度得分的说明性使用:
[0707] 提供以下输入文本:
[0708] He was not feeling wale when he returned
[0709] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0710] wale
[0711] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0712] wale;well
[0713] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0714] ′was not feeling wale′;′not feeling wale when′;′feeling wale when he′;′walewhen he returned′
[0715] 使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表40所示的互联网语料库中的出现频率的矩阵:
[0716] 表40
[0717]CFS/备选词 ′was not ′not feeling ′feeling wale ′wale when
簇校正 feeling wale when′ when he′ he returened′
wale′
Wale 0 0 0 0
Well 31500 520 100 140
[0718] 上述示例说明:根据在上述H中阐述的所有标准,选择′well′而不是′wale′,因为′well′具有高的可信度。
[0719] 在以下示例中,可信度有些低,这是由于以下事实:备选校正′back′具有比在CFS′bech in the summer′中的′beach′较高的出现频率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′较高的出现频率。基于标准H(c),选择带有中间可信度的备选校正′beach′。
[0720] 提供以下输入文本:
[0721] I like to work on the beech in the summer
[0722] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0723] beech
[0724] 使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
[0725] beach;beech;back
[0726] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0727] ′on the beech in′;′the beech in the′;′beech in the summer′[0728] 使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表41所示的互联网语料库中的出现频率的矩阵:
[0729] 表41
[0730]CFS/备选词 ′on the beech ′the beech in ′beech in the
簇校正 in′ the′ summer′
Beach 110560 42970 2670
Beech 50 55 0
Back 15300 10390 20090
[0731] 基于标准H(c),选择带有中间可信度的备选校正′beach′。
[0732] 在以下示例中,基于标准H(a),可信度更低:
[0733] 接收以下输入文本:
[0734] Exarts are restoring the British Museum′s round reading room
[0735] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0736] Exarts
[0737] 使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
[0738] Experts;Exerts;Exits
[0739] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0740] ′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′
[0741] 使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表42所示的互联网语料库中的出现频率的矩阵:
[0742] 表42
[0743]CFS/备选词 ′Exarts are′ ′Exarts are ′Exarts are ′Exarts are
簇校正 restoring′ restoring restoring
the′ the British′
Experts 62540 0 0 0
Exerts 140 0 0 0
Exists 8225 0 0 0
[0744] 消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
[0745] ′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring theBritish′
[0746] 在该示例中,仅剩余的CFS是feature-gram:
[0747] ′Exarts are′
[0748] 从上述示例看出,在过滤过程中存留的CFS是“Exart are”。因此,可信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之外仅包括一个词,所述词是经常出现的词。
[0749] 以下示例说明了在上述阶段D和E中描述的最终优先选择得分度量的使用。
[0750] 提供了一些输入文本:
[0751] Some kids don′t do any sport and sit around doing nothing and getting fastso you will burn some calories and get a lot fitter if you exercise.[0752] 使用参照图6B上文描述的功能,为了校正选择以下簇:
[0753] fast
[0754] 使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
[0755] fat;fast
[0756] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0757] ′and getting fast′;′getting fast so′;′fast so you′;′fast so you will′
[0758] 使用参照本文的子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表43所示的互联网语料库中的出现频率的矩阵:
[0759] 表43
[0760]CFS/ ′and getting′ ′getting ′fast so ′fast so
备选词簇 fast so′ you′ you will′
校正
CFS重要性得分 0.8 0.8 0.05 0.2
Fast 280 20 6500 250
Fat 1960 100 1070 115
[0761] 在该示例中,在表44中指示了备选簇校正的不基于上下文得分:
[0762] 表44
[0763]备选词 相似性
簇校正 得分
fast 1
fat 0.89
[0764] 使用在上述阶段D和E中描述的最终优先选择得分度量,选择带有低可信度的备选词校正“fat”。
[0765] 现在参照图10,其是说明了丢失项目校正功能的操作的详细的流程图。丢失项目校正功能用于校正丢失的冠词、介词、标点和在输入文本中主要是语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的拼写校正输入文本进行操作。
[0766] 以如下方式优选地执行怀疑的丢失项目的识别:
[0767] 初始,生成用于拼写校正输入文本的feature-gram。确定在语料库(优选地是互联网语料库)中拼写校正输入中的每个feature-gram的出现频率(FREQ F-G)。
[0768] 按照如下来计算每个feature-gram的期望的出现频率(EFREQ F-G):
[0769] 假定feature-gram包含n个词,被识别为W1-Wn。
[0770] Wi代表feature-gram中的第i个词。
[0771] 给定的feature-gram的期望的出现频率被认为是基于feature-gram中的词分配到随后的词W1...W(n-1)的每个的两个连续的部分的该feature-gram的最高期望的频率。
[0772] 按照如下可以表示基于feature-gram中的词分配到随后的词Wi的两个连续的部分的feature-gram的期望的频率:
[0773] 关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互联网语料库中的所有词的总频率)
[0774] 计算基于feature-gram中的词分配到两个连续的部分的所有可能的每个feature-gram的期望的频率。
[0775] 如果关于Wi的FREQ F-G/EFREQ F-G比预定的阈值低,那么从以下方面来说:在该feature-gram中,在Wi与Wi+1之间有丢失的冠词、介词或标点,认为关于Wi的feature-gram是怀疑的。
[0776] 优选地通过尝试找到由最大量的不怀疑的上下文数据所包围的词的联结点,为了校正选择在拼写校正输入文本中的两个连续词之间的怀疑词联结点。优选地,选择在其附近具有不怀疑的词的联结点的最长序列或多个序列。
[0777] 优选地基于可能丢失的标点、冠词、介词、连词或其它项目(其通常不包括名词、动词或形容词)的预定义的组,为每个词联结点生成一个或优选地多个备选词插入。
[0778] 优选地基于参照图9和下文、上文描述的校正备选词计分算法,来提供各种备选词插入的至少部分地基于上下文和词的基于相似性得分。
[0779] 以下示例是说明性的:
[0780] 提供以下输入文本:
[0781] I can′t read please help me
[0782] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0783] I can′t read;can′t read please;read please help;please help me[0784] 使用参照上文描述的功能,为了通常像表45那样出现的feature-gram的上述列表,生成在互联网语料库中的出现频率的矩阵:
[0785] 表45
[0786]FEATURE-GRAM 出现的频率
I can’tread 5600
can’t read please 0
read please help 55
please help me 441185
[0787] 根据以下表示,为了关于feature-gram中的每个词Wi的每个feature-gram,计算期望的出现频率:
[0788] 关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互联网语料库中的所有词的总频率)
[0789] 在表46和47中可以看出一些这些计算的示例性的结果:
[0790] 表46
[0791]FEATURE- 出现的 关于“read”的 关于“read”的
GRAM 频率 期望的频率 FREQ F-G/关于
“read”的
EFREQ F-G
can’t read please 0 0 0
read please help 55 220 0.25
[0792]
[0793] 表47
[0794]FEATURE-GRAM 出现的频率
read 157996585
please help 1391300
[0795] 从上述结果可以看出,每个feature-gram的实际出现频率比其期望的出现频率低。这指示了怀疑缺少了项目,例如标点。
[0796] 生成在词“read”之后的备选插入的列表。该列表优选地包括标点、冠词、连词和介词的预定的列表。具体地说,它将包括句号“.”。
[0797] 备选的部分列表是:
[0798] ′read please′;′read.Please′;′read of please′;′read a please′[0799] 使用参照图5上文描述的功能,生成以下CFS:
[0800] ′I can′t read[?]′;′read[?]please help′;,[?]please help me′
[0801] 使用在图9的阶段IIA中描述的功能,为了CFS的上述列表中备选词簇校正的上述列表,生成表48中所示的互联网语料库中的出现频率的矩阵:
[0802] 当“.”包括在簇中时,对于在′.′之前和之后的文本分别地检索包括带有′.′的簇。即,feature-gram“can’t read.Please”将不生成,因为它包括两个分离的语法分析短语。
[0803] 表48
[0804]CFS/备选词 ‘can’t read[?]’ ‘can’t[?]please ‘[?]please help
簇校正 help’ me’
read please 0 0 0
*
read.Please 1093 0 357945
read of please 0 0 0
CFS/备选词 ‘can’t read[?]’ ‘can’t[?]please ‘[?]please help
簇校正 help’ me’
read a please 0 0 0
*
[0805] 当计算在语料库中词的出现频率时,从feature-gram的开始忽略了′.′。例如,“.Please help me”的频率等于“Please help me”的频率。
[0806] 使用在图9的阶段D和E中描述的功能,最终优先选择度量选择备选校正“read.Please”并且校正的输入文本是:
[0807] I can′t read.Please help me
[0808] 以下示例说明了增加丢失的介词的功能。
[0809] 提供以下输入文本:
[0810] I sit the sofa
[0811] 使用下文描述的功能,为了校正选择以下簇:
[0812] ′sit the′
[0813] 使用上文描述的功能,生成以下备选簇校正(部分地列出):
[0814] sit on the;sit of the;sit the
[0815] 使用参考图5上文描述的功能,生成以下CFS:
[0816] ′I sit the′;′sit the sofa′
[0817] 使用参照图9在子阶段IIA中描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表49所示的互联网语料库中的出现频率的矩阵:
[0818] 表49
[0819]CFS/备选词 ‘I sit[?]the’ ‘sit[?]the sofa’
簇校正
sit on the 26370 7400
sit of the 0 0
sit the 2100 0
[0820] 使用在图9的阶段IID和IIE中描述的功能,最终优先选择度量选择备选校正“sit on the”并且校正输入文本是:
[0821] I sit on the sofa.
[0822] 现在参照图11,其是说明了冗余项目校正功能的操作的详细的流程图。冗余项目校正功能用于校正冗余的冠词、介词、标点和在输入文本中主要具有语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的拼写校正输入文本进行操作。
[0823] 可以理解,图11的功能可以与图10的功能组合或者可选地与图10的功能并行地执行、在其操作之前或之后执行。
[0824] 以如下方式优选地执行怀疑的冗余项目的识别:
[0825] 执行关于拼写校正输入文本的搜索以识别属于可能的冗余标点、冠词、介词、连词的预定义的组的项目和其它项目(所述其它项目通常不包括名词、动词或形容词)。
[0826] 对于每个这种项目,为了误用词和语法校正、包含这种项目的拼写校正输入文本的所有部分,生成feature-gram。计算每个这种feature-gram和其中项目被忽略的对应的feature-gram的出现频率。
[0827] 如果其中项目被忽略的feature-gram的出现频率超过其中项目出现的对应的feature-gram的出现频率,那么项目被认为是怀疑的。
[0828] 优选地通过尝试找到由最长的不怀疑的上下文数据包围的项目,来选择用于校正的在误用词和语法校正、拼写校正输入文本中的怀疑的项。优选地,选择具有在其附近具有最长的不怀疑的词的序列或多个序列的项目。
[0829] 为每个怀疑的项目生成可能的项目删除。优选地基于参照图9和下文、上文描述的校正备选得分算法,来提供各种备选词的至少部分的基于上下文和词的基于相似性得分,即,项目的删除或项目的不删除。
[0830] 以下示例是说明性的。
[0831] 提供以下输入文本:
[0832] It is a nice,thing to wear.
[0833] 搜索输入文本来识别属于普通的冗余项目(例如,标点、介词、连词和冠词)的预定的列表的任意项目。
[0834] 在该示例中,逗号“,”被识别为属于这种列表。
[0835] 使用参照图5上文描述的功能,生成包括逗号“,”的、在表50所示的feature-gram并且还生成没有逗号的相同的feature-gram(部分地列出):
[0836] 表50
[0837]带有逗号的FEATURE-GRAM 没有逗号的FEATURE-GRAM
is a nice,thing is anice thing
a nice,thing to a nice thing to
nice,thing to wear nice thing to wear
[0838] 使用上文描述的功能,为了通常如表51所示出现的feature-gram的上述列表,生成互联网语料库中的出现频率的矩阵:
[0839] 表51
[0840]带有逗号的 带有逗号的 没有逗号的 没有逗号的
FEATURE-GRAM FEATURE-GRAM FEATURE-GRAM FEATURE-GRAM
的 的出现的频率
出现的频率
is a nice,thing 0 is anice thing 10900
a nice,thing to 0 a nice thing to 39165
nice,thing to wear 0 nice thing to wear 100
[0841] 如上述矩阵中所示,忽略“,”的feature-gram的出现频率超过出现“,”的对应的feature-gram的出现频率。因此,“,”被怀疑是冗余的。
[0842] 基于保留逗号和忽略逗号的以下备选词的基于上下文的得分,考虑逗号的可能的删除:
[0843] ′nice,′;′nice′
[0844] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0845] ′a nice,′;′nice,thing′;′is a nice,′;′a nice,thing′;′nice,thing to′
[0846] 使用参照图9上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表52所示的互联网语料库中的出现频率的矩阵:
[0847] 表52
[0848]CFS/备选词 ‘a nice’ ‘nice ‘is a ‘a nice, ‘nice,
簇校正 thing’ nice,’ thing’ thing to’
nice, 379400 0 37790 0 0
Nice 118092290 300675 1127040 69100 58630
[0849] 消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。例如,消除以下feature-gram:
[0850] ′a nice,′;′nice,thing′
[0851] 在该示例中,剩余的CFS是feature-gram:
[0852] ′is a nice,′;′a nice,thing′;′nice,thing to′
[0853] 使用在上述图9的阶段D和E中描述的最终优先选择得分,来选择没有逗号的备选校正“nice”。在逗号删除后的输入文本是:
[0854] It is a nice thing to wear
[0855] 以下示例说明了删除冗余冠词的功能。
[0856] 提供以下输入文本:
[0857] We should provide them a food and water
[0858] 使用参照图11上文描述的功能,为了校正选择以下簇:
[0859] a food
[0860] 使用参照图11上文描述的功能,生成以下备选簇校正(部分地列出):
[0861] a food;food
[0862] 使用参照图5上文描述的功能,生成以下CFS(部分地列出):
[0863] ′provide them a food′;′them a food and′;′a food and water′[0864] 使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表53所示的互联网语料库中的出现频率的矩阵:
[0865] 表53
[0866]CFS/备选词 ‘provide ‘them a ‘a food and
簇校正 them a food’ food and’ water’
a food 0 0 950
Food 790 12775 415620
[0867] 使用在图9中描述的计分功能,最终优先选择度量选择备选校正“food”并且校正输入文本是:
[0868] We should provide them food and water.
[0869] 本领域的技术人员应当理解,本发明并不限于特定地示出并且在上文描述的内容。而是,本发明的范围包括本领域的技术人员在阅读上述内容时想到的并且不在现有技术范围内的、上文描述和示出的各种特征的组合和子组合以及其修改。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈