首页 / 专利库 / 人工智能 / 词性标注 / 字典学习方法和字典学习装置

字典学习方法和字典学习装置

阅读:972发布:2021-08-30

专利汇可以提供字典学习方法和字典学习装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及 自然语言处理 领域。本发明公开了一种字典学习方法,所述字典学习方法包括以下步骤:从未标注的语料中学习词典和统计语言模型;利用统计语言模型来优化所述词典;并将优化后的词典、统计语言模型以及辅助词编码信息整合为小尺寸的字典。此外,还公开了一种字典学习装置,能够实现上述字典学习方法。,下面是字典学习方法和字典学习装置专利的具体信息内容。

1.一种字典学习方法,包括以下步骤:
a)将未标注的语料分割为词序列;
b)利用所述词序列创建统计语言模型,其中统计语言模型包括词 单元模型和词三元模型;
c)基于词三元模型计算困惑度,并判断是否是第一次计算困惑度 或者困惑度降低的数值大于第一阈值
d)在c)的结果是肯定的情况下根据词三元模型利用最大似然或者 根据词典使用最大匹配将语料重新分割为词序列并执行步骤b);
e)在c)的结果是否定的情况下基于统计语言模型来优化词典;
f)更新词单元模型,删除无效的词三元模型并执行步骤a),直到 词典不再变化;
g)将优化后的词典、统计语言模型以及辅助词编码信息整合为字 典;
其中步骤e)还包括:
根据第一出现计数阈值过滤出所有的三元词条和双元词 条,从而形成新候选词列表;
根据互信息阈值从新候选词列表中过滤出所有的候选词 作为第一候选词;
针对在新候选词列表中所有的第一候选词计算相对熵,并 按照相对熵降序顺序对第一候选词进行排序;
根据第二出现计数阈值过滤出所述词典中的所有词,从而 形成删除候选词列表;
将删除候选词列表中的每个词分割为另一词序列,所述另 一词序列中的每个词是所述词典中的词并作为第二候选词;
计算删除候选词列表中的所有第二候选词的相对熵,并按 照相对熵升序顺序对第二候选词进行排序;以及
确定应该添加的第一候选词的数量以及删除的第二候选 词的数量,并更新所述词典。
2.如权利要求1所述的字典学习方法,所述方法还包括步骤:
从词性已标注的语料中获得所述词典中每个词的词性信息和词性 双元模型;
将所述词性信息以及词性双元模型添加到所述字典中。
3.如权利要求1或2所述的字典学习方法,其中辅助词编码信 息包括汉字编码信息。
4.如权利要求1或2所述的字典学习方法,其中辅助词编码信 息包括非汉字编码信息。
5.如权利要求3所述的字典学习方法,其中汉字编码信息至少 包括拼音编码信息和笔画编码信息之一。
6.如权利要求1所述的字典学习方法,其中步骤a)根据下列等 式对未标注的语料进行分割:
S ^ { w 1 w 2 . . . w n s ^ } = arg max s P ( S { w 1 w 2 . . . w n s } ) ,
其中表示词序列w1w2… 表示所述词序 列的似然概率,最优的词序列是
7.如权利要求1所述的字典学习方法,其中步骤a)包括根据词 典利用最大匹配对语料进行分割。
8.如权利要求1所述的字典学习方法,其中根据下列等式计算 所有的候选词的互信息:
MI ( w 1 , w 2 . . . w n ) = f ( w 1 , w 2 . . . w n ) Σ i = 1 n f ( w i ) - f ( w 1 , w 2 . . . w n )
其中(w1,w2…wn)是词序列,f(w1,w2…wn)表示词序列(w1,w2…wn)的出 现频率,n等于2或3。
9.一种字典学习装置,包括:
用于学习字典的字典学习处理模
存储有未标注的语料的存储单元;
用于控制所述装置的各部分的控制单元;
其中,所述字典学习处理模块包括:
词典与统计语言模型学习单元,用于迭代地分割未标注的 语料,创建统计语言模型,并利用统计语言模型来优化词典;
字典整合单元,用于将优化后的词典、统计语言模型以及 辅助词编码信息整合为字典;
其中词典与统计语言模型学习单元通过执行下列处理来 学习词典与统计语言模型:
将未标注的语料分割为词序列;
利用所述词序列创建统计语言模型,其中统计语言模型包 括词单元模型和词三元模型;
通过词三元模型将所述语料重复分割为词序列,并利用词 序列创建统计语言模型,直到不是第一次计算困惑度以及困惑 度降低的数值小于第一阈值,其中基于词三元模型计算困惑 度;
利用统计语言模型来优化词典包括:
根据第一出现计数阈值过滤出所有的三元词条和双元词 条,从而形成新候选词列表;
根据互信息阈值将从新候选词列表中过滤出所有的候选 词作为第一候选词;
针对在新候选词列表中的所有的第一候选词计算相对熵, 并按照相对熵降序顺序对第一候选词进行排序;
根据第二出现计数阈值过滤出所述词典中的所有词,从而 形成删除候选词列表;
将删除候选词列表中的每个词分割为另一词序列,所述另 一词序列中的每个词是所述词典中的词并作为第二候选词;
针对删除候选词列表中的所有第二候选词计算相对熵,并 按照相对熵升序顺序对第二候选词进行排序;以及
确定应该添加的第一候选词的数量以及删除的第二候选 词的数量,并更新所述词典;以及
更新词单元模型,删除无效的词三元模型并将未标注的语 料分割为词序列,直到词典不再变化。
10.如权利要求9所述的字典学习装置,其中所述存储单元还存储 有词性已标注的语料,以及字典学习处理模块还包括:
词性学习单元,用于从词性已标注的语料中获得所述词典中每个词 的词性信息和词性双元模型;
以及字典整合单元将所述词性信息以及词性双元模型添加到字典 中。
11.如权利要求9所述的字典学习装置,其中辅助词编码信息包括 汉字编码信息。
12.如权利要求9所述的字典学习装置,其中辅助词编码信息包括 非汉字编码信息。
13.如权利要求11所述的字典学习装置,其中汉字编码信息至少 包括拼音编码信息和笔画编码信息之一。

说明书全文

技术领域

发明涉及一种自然语言处理,更具体地,涉及一种字典学习方法 和字典学习装置。

背景技术

随着计算机、PDA以及移动电话在中国的广泛应用,可以看出这些 装置的一个重要特征在于能够使用户实现中文输入。在中国目前的移动 终端市场,几乎每一个移动电话都提供利用数字键盘的输入方法。当前 最广泛使用的输入方法为T9以及iTap。利用这种输入方法,用户可以 使用十按键数字键盘输入汉字的拼音或笔画。附图8A-8B示出用于拼音 和笔画输入的示例键盘。该输入方法根据用户敲击的按键顺序给出汉字 预测。当用户输入一个汉字的拼音时,用户不需要按照最常规的输入方 法点击按键三到四次输入每个正确的字母。用户仅需要根据该汉字的拼 音点击一系列按键,则输入方法就会在一个候选列表中预测出正确的拼 音和正确的汉字。例如,用户想利用拼音“jin”输入“今”,他不需要 通过敲击“5”(代表“jkl”)1次来输入“j”,敲击“4”(代表 “ghi”)3次以及敲击“6”(代表“mno”)2次,然而,他仅需敲击 “546”,则输入方法将给出预测拼音“jin”以及对应的预测候选汉字 “进今金…”。图9A示出利用最传统的输入方法输入汉字“今”的T9 的输入序列。
对于当前的移动终端来说,用户必须逐字地输入汉字。虽然一些输 入方法宣称可以根据用户输入给出预测结果,但实际上,这些输入方法 是逐字地给出预测的。对于每个汉字,用户需要点击按键若干次,并至 少进行一次拼写核对。鉴于此,本发明的发明人提供一种可以给出句子 级以及词级的预测的系统。
如上所述,目前T9和iTap是移动终端上最为广泛使用的输入方法。 然而,这些输入方法的速度不能够令大多数的用户满意。需要多次点击 以及多次交互,即使仅输入单个汉字。
存在上述问题的主要原因在于应用中文输入方法的当前大部分数 字键盘仅仅是基于汉字的(US 20030027601)。这是因为在汉字中,在词 之间并不存在清晰的界限。此外,对词也没有明确的定义。因此,这些 输入方法选择将单个汉字看作是与其英文相对应的“词”。然而,这将不 可避免地导致依据单个汉字的数字序列的大量的冗余汉字,速度也因此 明显的降低。此外,由于仅能根据单个汉字获得预测,所以基于汉字的 输入方法在很大程度上限制了词预测的效果。也就是说,当前移动终端 中所采用的输入方法仅能够将用户输入的数字序列转换为汉字候选列 表。用户必须从候选列表中选出正确的汉字。用户不能够连续地输入一 个词或一个句子。
例如,用户想输入词“今天”。首先,用户使用数字键盘输入 “546”,其表示汉字“今”的拼音“jin”。然后,向用户显示候选列 表“进今金…”。其次,用户必须从该列表中选出正确的汉字“今”。 然后,向用户显示可以跟随在汉字“今”之后的候选列表“天日年…”。 用户必须从该列表中选出正确的汉字“天”。图9B示出输入汉字词“今 天”的T9的输入序列。
在PC平台中,存在基于PC键盘的多种高级快速输入方法,诸如微 软拼音,紫光拼音以及智能狂拼等。其中的一些方法可以给出句子级的 预测,所有的上述方法可以给出词级的预测。但是对于这些可以给出句 子级预测的方法来说,字典的尺寸太大。例如,微软拼音输入的字典大 小为20~70MB,智能狂拼所需要的存储空间达到100MB。它们都采用统 计语言模型(SLM)技术来形成可以进行句子预测的基于词的SLM(典型 地是词双元模型或词三元模型)。然而这种SLM使用了预定的词典并在字 典中存储了大量的词双元词条和词三元词条,字典的尺寸将会不可避免 地太大,从而不能够安装在移动终端上。此外,在移动终端平台上的预 测速度也非常慢。
另一个不利之处在于大多数的输入方法没有词典或仅包括预定的 词典。因此,不能够连续地输入在语言中频繁使用的多个重要的词和短 语,如“今天下午”。

发明内容

因此,考虑到上述问题提出本发明,以及本发明的目的是提供一种 字典(dictionary)学习方法和利用该字典学习方法的装置。此外,本 发明也提供一种输入方法以及一种使用该输入方法的用户终端装置。该 装置从语料中学习字典。学习的字典包括优化的词典(lexicon),该词 典包括多个从语料中学习的重要的词以及短语。然而,在该字典应用到 随后描述的输入方法中时,它还包括词性信息以及词性双元模型。用户 终端装置使用Patricia树(一种树状的数据结构)索引搜索字典。所述 装置接收用户输入并基于字典搜索的结果给出句子和词预测,所述词预 测包括当前候选词列表和预测候选词列表。向用户显示预测结果。所以, 用户通过连续地输入与词或句子相对应的数字序列可以输入词或句子。 从而用户不需要针对每个汉字输入数字序列并从候选词列表中选出正确 的汉字。因此输入速度得到了很大改善。
根据本发明,提供了一种字典学习方法,包括以下步骤:
a)将未标注的语料分割为词序列;
b)利用所述词序列创建统计语言模型,其中统计语言模型包括词 单元模型和词三元模型;
c)基于词三元模型计算困惑度,并判断是否是第一次计算困惑度 或者困惑度降低的数值大于第一阈值
d)在c)的结果是肯定的情况下根据词三元模型利用最大似然或者 根据词典使用最大匹配将语料重新分割为词序列并执行步骤b);
e)在c)的结果是否定的情况下基于统计语言模型来优化词典;
f)更新词单元模型,删除无效的词三元模型并执行步骤a),直到 词典不再变化;
g)将优化后的词典、统计语言模型以及辅助词编码信息整合为字 典;
其中步骤e)还包括:
根据第一出现计数阈值过滤出所有的三元词条和双元词 条,从而形成新候选词列表;
根据互信息阈值从新候选词列表中过滤出所有的候选词 作为第一候选词;
针对在新候选词列表中所有的第一候选词计算相对熵,并 按照相对熵降序顺序对第一候选词进行排序;
根据第二出现计数阈值过滤出所述词典中的所有词,从而 形成删除候选词列表;
将删除候选词列表中的每个词分割为另一词序列,所述另 一词序列中的每个词是所述词典中的词并作为第二候选词;
计算删除候选词列表中的所有第二候选词的相对熵,并按 照相对熵升序顺序对第二候选词进行排序;以及
确定应该添加的第一候选词的数量以及删除的第二候选 词的数量,并更新所述词典。
根据本发明,还提供了一种字典学习装置,包括:
用于学习字典的字典学习处理模
存储有未标注的语料的存储单元;
用于控制所述装置的各部分的控制单元;
其中,所述字典学习处理模块包括:
词典与统计语言模型学习单元,用于迭代地分割未标注的 语料,创建统计语言模型,并利用统计语言模型来优化词典;
字典整合单元,用于将优化后的词典、统计语言模型以及 辅助词编码信息整合为字典;
其中词典与统计语言模型学习单元通过执行下列处理来 学习词典与统计语言模型:
将未标注的语料分割为词序列;
利用所述词序列创建统计语言模型,其中统计语言模型包 括词单元模型和词三元模型;
通过词三元模型将所述语料重复分割为词序列,并利用词 序列创建统计语言模型,直到不是第一次计算困惑度以及困惑 度降低的数值小于第一阈值,其中基于词三元模型计算困惑 度;
利用统计语言模型来优化词典包括:
根据第一出现计数阈值过滤出所有的三元词条和双元词 条,从而形成新候选词列表;
根据互信息阈值将从新候选词列表中过滤出所有的候选 词作为第一候选词;
针对在新候选词列表中的所有的第一候选词计算相对熵, 并按照相对熵降序顺序对第一候选词进行排序;
根据第二出现计数阈值过滤出所述词典中的所有词,从而 形成删除候选词列表;
将删除候选词列表中的每个词分割为另一词序列,所述另 一词序列中的每个词是所述词典中的词并作为第二候选词;
针对删除候选词列表中的所有第二候选词计算相对熵,并 按照相对熵升序顺序对第二候选词进行排序;以及
确定应该添加的第一候选词的数量以及删除的第二候选 词的数量,并更新所述词典;以及
更新词单元模型,删除无效的词三元模型并将未标注的语 料分割为词序列,直到词典不再变化。
根据本发明的第一方面,提供了一种字典学习方法,所述方法包括 步骤:从未标注的语料中学习词典和统计语言模型;将所述词典,统计 语言模型以及辅助词编码信息整合为字典。
根据本发明的第二方面,所述字典学习方法还包括步骤:从词性已 标注的语料中获得所述词典中每个词的词性信息和词性双元模型;将所 述词性信息以及词性双元模型添加到字典中。
根据本发明的第三方面,提供了一种字典学习装置,其中所述装置 包括:用于学习字典的字典学习处理模块;存储有未标注的语料的存储 单元;用于控制所述装置的各部分的控制单元;其中,所述字典学习处 理模块包括词典与统计语言模型学习单元,用于从未标注的语料中学习 词典和统计语言模型;字典整合单元,用于将所述词典,统计语言模型 以及辅助词编码信息整合为字典。
根据本发明的第四方面,其中所述字典学习装置的存储单元还存储 有词性已标注的语料,以及字典学习处理模块还包括:词性学习单元, 用于从词性已标注的语料中获得所述词典中每个词的词性信息和词性双 元模型;以及字典整合单元将所述词性信息以及词性双元模型添加到字 典中。
根据本发明的第五方面,提供了一种用于处理用户输入的输入方 法,其中所述方法包括:接收步骤,用于接收用户输入;解译步骤,用 于将用户输入解译为编码信息或用户动作,其中基于字典预先获得字典 中的每个词的编码信息;用户输入预测与调整步骤,用于在接收到编码 信息和用户动作时,根据字典中的统计语言模型和词性双元模型利用词 典索引中的Patricia树给出句子与词预测,并根据用户动作调整句子和 词预测;显示步骤,用于显示句子和词预测的结果。
根据本发明的第六方面,提供了一种用于处理用户输入的用户终端 装置,其中所述装置包括:用户输入终端,用于接收用户输入;存储单 元,用于存储字典和包括Patricia树索引的字典索引;输入处理单元, 用于根据用户输入给出句子和词预测;以及显示器,用于显示句子和词 预测的结果;其中,输入处理单元包括:输入编码解译器,用于将用户 输入解译为编码信息或用户动作,其中基于字典预先获得字典中的每个 词的编码信息;用户输入预测与调整模块,用于在接收到编码信息和用 户动作时,根据字典中的统计语言模型和词性双元模型利用词典索引中 的Patricia树索引给出句子和词预测,并根据用户动作调整句子和词预 测。
根据本发明,通过利用具有小尺寸的字典可以给出句子级预测和词 级预测。其中所述的字典通过本发明第四方面的字典学习装置的学习处 理而获得。所述字典学习装置从语料中提取大量的重要信息,并将其以 特定内容和特定结构的形式保持,从而可以以非常小的尺寸进行存储。 与移动电话上的常规输入方法不同,本发明的基本输入单元是“词”。这 里所述的“词”也包括从语料中学习的“短语”。根据所述字典的内容和 结构,输入方法可以给出句子级和词级的预测。因此,与常规输入方法 例如T9和iTap相比较,输入速度增加。
虽然与基于PC的输入方法比较,例如与微软拼音比较,其中微软 拼音可以给出句子和词预测但是使用了尺寸较大的字典从而存储预定的 词典以及对应的大量的词双元词条或词三元词条,本发明学习的字典仅 在优化的词典中存储提取出的重要的语言信息以及对应词单元的字典。 因此,在字典中的所有信息对于语言处理来说都是必要的信息,这些信 息仅需要较小的存储成本。
如下详细地描述了本发明的优点:
1.可以学习包括优化的词典的字典。所述优化的字典包括从语料中 学习的多个重要的词和短语。
2.所述学习的字典包括优化的字典以及一些词性信息。帮助给出句 子和词预测的所述字典的尺寸非常小,从而能够在移动电话上使用。
3.利用Patricia树索引为字典编索引。所述Patricia树索引的使 用有助于快速地搜索词。因此,可以很容易地、快速地获得句子和词预 测。

附图说明

通过对参考附图的下列优选实施例的具体描述,本发明的上述特征 和优点将会变得非常明显,其中:
图1示出描述了本发明的字典学习装置和用户终端装置之间的关系 的示意图;
图2A示出了由字典学习装置学习的字典的示意结构的示例;
图2B示出了由字典学习装置学习的字典的示意结构的另一示例;
图3示出了根据本发明的字典学习装置的方框图
图4A示出了字典学习装置的字典学习处理模块的示例的详细的方 框图;
图4B示出了字典学习装置的字典学习处理模块的另一示例的详细 的方框图;
图5是一流程图,用于解释根据本发明的字典学习处理模块中的词 典与统计语言模型学习单元执行的学习词典以及统计语言模型的过程;
图6是根据本发明的词典优化的流程图;
图7示出根据本发明第一实施例的用户终端装置的方框图;
图8A-8D示出用户终端装置的四个常规键盘的示意框图;
图9A示出利用最常规的输入方法输入汉字“今”时T9的输入序列;
图9B示出利用最常规的输入方法输入汉字“今天”时T9的输入序 列;
图10示出在本发明的用户终端装置的输入处理单元的不同部分之 间的连接关系的方框图;
图11示出本发明的用户终端装置的显示器的用户界面的示例;
图12示出由本发明用户终端装置的字典加索引模块执行的构建 Patricia树索引的流程图;
图13示出本发明排序结果和Patricia树索引的示例;
图14示出由本发明用户终端装置的用户输入预测与调整模块执行 的用户输入预测以及调整的过程的流程图;
图15示出用户终端装置的输入序列的示例;
图16示出根据本发明第二实施例的用户终端装置的方框图。

具体实施方式

下面将参考附图1描述示出了本发明的字典学习装置和用户终端装 置之间的关系的示意图。字典学习装置1学习计算机可读字典2。用户 终端装置3使用字典2帮助用户输入文本。字典学习装置1和用户终端 装置3相互独立。字典学习装置1训练的字典2还可以用于其它的应用。 字典学习装置1使用特定的字典学习方法以及特定的字典结构,以构建 向用户提供快速输入的小尺寸的字典。
图2A示出了由字典学习装置学习的字典的示意结构的示例。在该 示例中,部分2包括多个词条(部分21)。所述的词条不仅用于“词”(例 如,“打扮”),而且是“短语”(例如,“打扮整齐”,“打扮整齐干净”)。 所述“短语”实际上是一复合词(由一序列的词构成)。为了避免在下述 描述中的不便,术语“词”指的是传统的“词”和传统的“短语”两者。 一些其它词的例子包括“今天”,“今天下午”,“今天下午八点”。部分 21包括词干(术语“词干”和本发明中所述的词的含义相同)(部分211), 词单元(部分212),该词所具有的若干词性(部分213)以及这些词性 的对应概率(部分214),一些辅助词编码信息(部分215)。部分215 可以是拼音(汉字的发音)编码信息或笔画编码信息或者是其它的编码 信息。将哪种类型的部分215添加到部分21中取决于字典的应用。在下 面描述的示例中,也可以不包括部分215。最后,部分22,即词性双元 模型也包含在该示例中。该部分也取决于应用并且可以不包括在其它的 示例中。正如对本领域的普通技术人员所显而易见的是字典2并不局限 于汉字,它可以是任何类型的字典。对于日语,字典的所有部分与汉字 相同,除了辅助词编码信息(部分215)应该是平假名编码信息而非拼 音编码信息。例如,对于词“今晚”,平假名编码信息是“こんばん”。 对于英语,字典的所有部分与汉字相同,除了应该省略辅助词编码信息, 因为英语单词编码信息就是该单词的字符序列。对于韩语,字典的所有 部分与汉字相同,除了辅助词编码信息(部分215)应该是韩语笔画编 码信息,而不是拼音编码信息。例如,对于词韩语笔画编 码信息是随后将描述由图4A所示的示例 装置如何学习该字典。
图2B示出了由字典学习装置学习的字典的示意结构的另一示例。 与图2A所示的示例相比较,在该示例中的字典不包括该词的词性(部分 213),这些词性的对应概率(部分214)以及词性双元模型(部分22)。 该字典的使用范围可以比第一示例的范围更广。它可以用在手写、语音 识别后处理、输入方法以及其它语言相关的应用中。随后将描述由图4B 所示的示例装置如何学习该字典。
下面将参考图3和图4A来描述学习图2A所示的字典的字典学习装 置1。如图3和图4A所示,字典学习装置1包括通过内部总线103连接 的CPU 101,附件102,存储器104以及硬盘105。存储器104存储操作 系统1041,字典学习处理模块1042以及其它的应用程序1043。硬盘105 存储语料1051,字典学习文件1052以及其它的文件(未示出)。由字典 学习装置1学习的字典2也存储在硬盘上。语料1051包括,例如,未标 注的语料12和词性已标注的语料13。字典学习文件1052包括词典11 和统计语言模型14。字典学习处理模块1042包括词典与统计语言模型 学习单元15,词性学习单元以及字典整合单元17。
由字典学习处理模块1042训练生成最后的字典2。字典学习处理模 块1042读取语料1051并将词典11以及统计语言模型14写在硬盘上并 在硬盘上输出最终的字典2。
词典11由词干的集合组成。起初,包括语言中的传统词的普通词 典可以用作词典11。词典与统计语言模型学习单元15将学习最终的词 典和统计语言模型,同时在此过程中对词典11进行优化。删除词典11 中的一些不重要的词以及添加一些重要的词和短语。未标注的语料12 是包括大量没有分割为词序列的文本但包括多个句子的文本语料(对于 英语,一个句子可以通过一些例如空格的“标记”而分割为“词”序列。 但是这些“词”仅仅是传统“词”,而不是包括了在本说明书中所称的“词” 的传统“短语”)。词典与统计语言模型学习单元15处理词典11以及未 标注的语料12,然后创建统计语言模型14(初始并不存在)。统计语言 模型14包括词三元模型141以及词单元模型142。然后,词典与统计语 言模型学习单元15使用统计语言模型14中的信息来优化词典11。词典 与统计语言模型学习单元15重复这一处理过程并创建最终的词典11以 及最终的词单元模型142。
词性已标注的语料13是利用对应词性标注词序列的语料。典型地, 可以手工创建该语料,但其规模受到了限制。词性学习单元16扫描词性 已标注的语料13的词序列。基于词典11,词性学习单元16为词典中的 每一个词统计词性信息。计数一个词的所有词性以及其对应概率(字典 2中的部分213)。对于词典11中没有在词序列中出现的词,手工地给予 该词一个词性以及给出其对应的概率1。在该过程中利用传统的双元模 型计算方法给出词性双元模型(字典2中的部分22)。
通过使用词单元模型142,词三元模型141,词典11,以及词性学 习单元16给出的一些词性信息,字典整合单元整合上述的所有数据并添 加一些应用程序所需的辅助词编码信息(字典2中的部分215),从而创 建图2A中所描述的最终的字典2。
下面将参考图3和图4B描述学习字典的字典学习装置的另一示例。 与图3和图4A所示的示例相比较,语料1051仅包括未标注的语料12。 字典学习处理模块1042不包括词性学习单元16。因此,在该示例中并 不考虑词性相关的信息。字典整合单元17将词三元模型141,词单元模 型142,词典11以及一些应用程序所需的辅助词编码信息(字典2中的 部分215)按顺序依次写入从而整合为如图2B所示的最后的字典2。
图5是一流程图,用于解释由词典与统计语言模型学习单元15执 行的学习词典以及统计语言模型的过程。首先,在步骤151将未标注的 语料12分割为词序列。对于该分词步骤存在多种不同的方法。第一种方 法是仅根据词典使用最大匹配来分割语料12。第二种方法是:在词单元 模型142存在的情况下,根据词单元模型142利用最大似然来分割语料 12;在词单元模型142不存在的情况下,根据词典利用最大匹配来分割 语料12。最大似然是一种分词的标准方法,如等式(1)所示:
S ^ { w 1 w 2 . . . w n s ^ } = arg max s P ( S { w 1 w 2 . . . w n s } ) - - - ( 1 )
在等式(1)中,表示词序列 表示 该词序列的似然概率。优化的词序列为
在步骤152,接收分割的词序列,以及利用常规的SLM创建方法创 建统计语言模型14,其中所述统计语言模型包括词三元模型141以及词 单元模型142。
在步骤153,使用步骤152中创建的词三元模型评价在步骤151产 生的词序列的困惑度(Perplexity)。如果是第一次计算困惑度,则处理 直接进行到步骤154。否则,将新获得的困惑度与旧的困惑度相比较。 如果新的困惑度降低的数值超过了预定的阈值,则处理进行到步骤154; 否则处理进行到步骤155。
在步骤154,根据新创建的词三元模型141利用最大似然或者根据 词典使用最大匹配来将语料12重新分割为词序列,并执行步骤152。
在步骤155,根据统计语言模型中的一些信息将一些新词添加到词 典中并从词典中删除一些不重要的词,从而优化了词典。在下面的段落 中将描述如何进行词典优化。一个新词通常是词三元模型141中的三元 词条或双元词条的词序列组成的新词。例如,如果“今天”,“下午”和 “八点”都是当前词典中的词,则双元词条“今天下午”或者三元词条 “今天下午八点”可能成为优化后的词典中的新词。如果这两个词都 被添加了,则优化后的词典应该包括词“今天下午”以及词“今天下 午八点”。
在步骤156,评价词典。如果在步骤155词典并没有改变(没有添 加新词也没有删除不重要的词),则词典与统计语言模型学习单元15停 止该处理。否则该处理进行到步骤157。
在步骤157,由于词三元模型141和词单元模型142与新创建的词 典不再对应,因此词三元模型141和词单元模型142不再有效。此时根 据新的词典更新词单元模型;从词三元模型得到新词的词单元出现概率; 并且删除要被删除的词单元词条。最后,删除词三元模型141并重复执 行步骤151。
图6示出了根据本发明的词典优化的流程图。当词典优化开始时, 存在两条要执行的路径。一条是执行步骤1551,另一条是执行步骤1554。 可以选择任何一条路径先执行。
首先,在步骤1551,利用出现计数阈值过滤出所有的三元词条(例 如“今天下午八点”)以及双元词条(例如“今天下午”),例如,在 语料中出现次数超过100的所有词条都被选择到新词候选列表中。由此 创建了一个新词候选列表。在步骤1552,通过互信息阈值过滤出所有的 候选词。如下定义了互信息:
MI ( w 1 , w 2 . . . w n ) = f ( w 1 , w 2 . . . w n ) Σ i = 1 n f ( w i ) - f ( w 1 , w 2 . . . w n ) - - - ( 2 )
其中f(w1,w2…wn)表示词序列(w1,w2…wn)的出现频率。这里(w1,w2…wn)作 为新候选词,n等于2或3。例如,对于w1今天,w2下午以及w3八点,候 选词“今天下午八点”的互信息是 从候选词列 表中删除互信息小于阈值的所有候选词。
在步骤1553,为新候选词列表中的每个候选词计算相对熵。如下定 义了相对熵:
D ( w 1 , w 2 , . . . , w n ) = f ( w 1 , w 2 , . . . , w n ) log [ P ( w 1 , w 2 , . . . , w n ) f ( w 1 , w 2 , . . . , w n ) ] - - - ( 3 )
其中P(w1,w2,…,wn)是当前词三元模型给出的词序列(w1,w2…wn)的似然概 率。然后在步骤1553,按照相对熵的降序顺序排序所有的候选词。
在进行到步骤1557之前,必须首先处理右边的路径(步骤1554~ 1556)。右边的路径是删除一些不重要的词(例如“革命委员会”)以及 一些“伪词”。当将一词序列添加为新词时,它可能是“伪词”(例如 “今天下”)。因此,需要删除一些词典词条。
在步骤1554,通过出现计数阈值过滤出所有的词,例如,在词典中 出现次数小于100的所有词都被选择到删除词候选列表中。由此创建了 一个包括要删除的候选词的删除候选词列表。
在步骤1555,将删除候选词列表中的每个词分割为其它的词序列。 例如,将“革命委员会”分割为“革命”,“委员会”。该分词方法与 步骤151或步骤154所描述的分词方法类似。可以使用这两个步骤中的 任何一种方法。
与步骤1553类似,在步骤1556计算每个候选词的相对熵。然后, 以相对熵的升序顺序排序所有的候选词。
在步骤1557,采用策略依据两个候选词列表来确定应该添加多少新 候选词以及应该删除多少候选词,所述候选词列表是:一个是有关新词 的列表,另一个是有关删除词的列表。所述策略可以是一个规则或多个 规则。例如,使用相对熵的阈值,或使用词典中的词的总数作为判断手 段,或者使用上述这两种判断手段。最后,更新该词典。
如何进行词典优化是非常重要的。在词典优化过程中,将初始仅是 一些词序列的重要的短语添加到词典中作为新词,因此,可以将在初始 的词单元模型中并不存在的一些重要的语言信息提取到最终的词单元模 型中。并且,从初始的词单元模型中删除一些不重要的语言信息。所以, 最终的词单元模型可以保持有小尺寸而在进行语言预测时却具有更好的 性能。这也是本发明能够提供一种小尺寸的词典的同时能在进行句子和 词的预测时具有良好性能的重要的原因。
图7示出了根据本发明第一实施例的用户终端装置的方框图。如图 7所示,由总线34连接处理器31,用户输入终端32,显示器33,RAM 35 以及ROM(闪存)36并使其交互作用。输入处理单元3601中包括输入编 码解译器362,字典加索引模块363,用户输入预测与调整模块364。在 ROM 36上装载有输入处理单元3601,字典2,字典索引366,操作系统 361以及其它的应用程序365。
图8A-8D示出本发明所采用的用户终端装置的四个常规键盘的示意 框图。用户输入终端32可以是任何类型的用户输入装置。如图8A所示, 一个示例的用户输入终端32是数字键盘,其中每个数字按键代表拼音编 码。按键321是数字“4”,代表拼音字符“g”或“h”或“i”。按键 322是功能键,用户可以使用这种按键进行一些动作。例如,点击该按 键若干次从而从候选列表中选出正确的候选词。所述的示例的用户输入 终端也可以应用于英文输入。因此每个数字按键代表若干字母表字符。 用户输入终端32的另一个例子是图8B所示的数字键盘,其中每个数字 按键代表若干笔画编码。在图8B中,按键321是数字“4”,代表笔画“、”。 用户输入终端32的第三个例子是日语输入所采用的数字键盘。在该例 中,每个数字按键代表若干平假名。在图8C中,按键321是数字“4”, 代表平假名“た”或“ち”或“つ”或“て”或“と”。用户输入终端 32的第四个例子是用于韩文输入的数字键盘。在该例中,每个数字键盘 代表若干韩语笔画。在图8D中,按键321是数字“4”,代表韩语 或或用户输入终端32的第五个例子是可以记录笔迹的触 摸板。通过某些触摸屏的笔可以记录用户的一些动作。
图10示出了图7所示的用户终端装置的输入处理单元中的不同部 分之间的连接关系的方框图。在用户输入预测与调整模块364工作之前, 字典加索引模块363读取字典2并将字典索引366加到ROM 36中。字典 索引366是基于对应词编码信息的字典2中的所有词条的索引。对于第 一个示例的用户输入终端32,词的编码信息是数字序列。例如,词“今 天”的拼音是“jintian”,所以其编码信息是“5468426”。对于第二 个示例的用户输入终端32,词的编码信息是数字序列。例如,词“今天” 的笔画是“/、、——/、”,因此其编码信息为“34451134”。 对于第三个示例的用户输入终端32,词的编码信息也是数字序列。例如, 词“今晚”的平假名是“こんばん”,因此编码信息是“205#0”。对于 第四个示例的用户输入终端32,词的编码信息是数字序列。例如,词 的韩语笔画是因此 编码信息为“832261217235”。对于第五个示例的用户输入终端32,词 的编码信息是Unicode(统一的字符编码标准)序列。例如,词“今天” 的Unicode是“(4ECA)(5929)”,所以编码信息为“(4ECA)(5929)”。
用户输入终端32接收用户输入并将其通过总线34发送到输入编码 解译器362。输入编码解译器362将用户输入解译为编码信息或用户动 作,并将其传送到用户输入预测与调整模块364。该编码信息可以是确 定的或者是随机的。对于第一个示例的用户输入终端32,输入编码解译 器362将每个按键点击解译为确定的数字代码(“0”~“9”),代表几 个可能的拼音字符(“a”~“z”)。对于第二个示例的用户输入终端 32,输入编码解译器362将每个按键点击解译为确定数字代码(“0”~ “9”),代表笔画字符(“—”~)。对于第三个示例的用户输入 终端32,输入编码解译器362将每个按键点击解译为确定数字代码 (“0”~“9”以及“#”),代表几个可能的平假名。对于第四个示例 的用户输入终端32,输入编码解译器362将每个按键点击解译为确定数 字代码(“0”~“9”),代表几个可能的韩语笔画。对于第五个示例的 用户输入终端32,输入编码解译器362将每个笔迹解译为随机变量,其 表示若干可能的Unicode以及对应概率。(输入编码解译器362可以是手 写识别引擎,其将笔迹识别为一组候选汉字以及对应的概率)。
用户输入预测与调整模块364接收由输入编码解译器362发送的已 解译的编码信息或用户动作。基于词典2和词典索引366,产生用户输 入结果并将其通过总线34发送到显示器33。显示器33向用户显示输入 方法产生的结果以及与该输入方法相关的其它信息。图11示出了用户终 端装置的显示器33的用户界面。
该显示器所显示的用户界面包括输入状态信息区域331以及输入结 果区域332。在区域331,显示了用户输入3311和输入方法状态3312。 区域3311指示已经由用户输入的当前数字序列。区域3312指示当前输 入方法是拼音的数字键盘输入方法。在区域332,显示了用户输入预测 与调整模块364给出的结果。句子预测3321是由用户输入预测与调整模 块364根据输入的数字序列3311的阴影部分(当前词部分)给出的所有 当前候选词的列表。在该列表中的所有候选词具有相同的词编码信息, 即,数字序列“24832”。当前的预测候选词3323是有关所有预测的当前 候选词的列表,预测候选词3323由用户输入预测与调整模块364根据输 入的数字序列3311的阴影部分(当前的词部分)给出。在该列表中所有 候选词的词编码信息的头五个数字具有相同的数字序列“24832”。(出发 点“248323426”,厨房“2483234”,出访“2483234”)。可以改变该 显示器33的用户界面的布局以及可以去除或改变每个组成部分。
图12示出了由字典加索引模块363执行的构建Patricia树索引的 流程图。在步骤3631,字典加索引模块363读取字典2。根据特定的用 户输入终端,给出每个词的编码信息。然后,在步骤3632,首先根据词 条的编码信息对词条进行排序。如果两个词条的编码信息是相同的,则 利用词单元进行排序。根据排序结果,构建该字典的Patricia树索引。 Patricia树索引可以存储大量的记录并提供对记录的快速连续的搜索。 最后,将Patricia树索引写入字典索引中。
图13示出了本发明排序结果和Patricia树索引的示例。通过上述 的Patricia树索引使用字典索引366,用户输入预测与调整模块364在 接收到新的用户输入动作时执行快速的词搜索。例如,首先给出“2”, 用户输入预测与调整模块364一步就可以搜索到节点“2”,并将该节点 记录在存储器中。在下一步,当输入“3”时,用户输入预测与调整模块 364仅一步就从节点“2”搜索到节点“23”。在每个节点中,可以很容 易地获得用于计算对应的候选词和预测候选词的信息。
图14示出由本发明用户终端装置1的用户输入预测与调整模块364 执行的用户输入预测以及调整的过程的流程图。在步骤3641,接收来自 输入编码解译器362的用户输入信息并判断该信息是用户动作还是编码 信息。如果是用户动作信息,则将执行步骤3648。否则将执行步骤3642。
在步骤3642,使用用户输入编码信息,并根据该编码信息沿字典索 引366的Patricia树索引向前递推一步。这意味着用户输入预测与调整 模块364存储了当前Patricia树节点的列表。当添加新的编码信息时, 使用列表中的节点作为起始点,步骤3642顺着Patricia树索引向前递 推一步以搜索新的Patricia树节点。如果新的编码信息为添加的初始编 码信息,则步骤3642从Patricia树的根节点开始。也就是说,对于图 13中的示例Patricia树,如果“2”为输入的初始编码信息,步骤3642 从根节点开始检索Patricia树中的新节点“2”。然后,将“2”和根节 点设置为当前的Patricia树节点。如果“3”为输入的第二编码信息, 在步骤3642,从当前节点“2”检索新节点“23”以及从当前节点中的 根节点检索新节点“3”。最后,将节点“23”,节点“3”以及根节点设 置为当前节点。
在步骤3643,如果没有搜索到新的节点,则处理进行到步骤3644。 这意味着该编码信息无效。否则,处理进行到步骤3645。
在步骤3644,忽略该编码信息并重置所有的结果和状态为未加入此 信息前的值。然后,处理返回到步骤3641等待下一用户输入信息。
在步骤3645,接收新的Patricia树节点,并将其设置为当前的 Patricia树节点。每个当前节点表示所有输入编码信息的可能的当前词 的集合。然后在该步骤进行句子预测,从而确定最有可能的词序列。最 有可能的词序列是最终的句子预测。例如,分别将“2”和“3”添加为 第一和第二用户输入编码信息。当前节点是“23”,“3”以及根节点。具 有编码信息“23”的词是仅具有一个词的词序列。这也是一种可能的句 子(“测”是可能的句子)。具有编码信息“3”的词可以在具有编码信息 “2”的词之后并形成两个词序列“2”-“3”。这是另一种可能的句子 (“阿恶”为可能的句子,“啊恶”也是可能的句子)。如何确定最可能 的句子可以表述为:给出编码序列I,找出与I相对应的最可能的词序 列根据等式(4)可以解决这一问题:
S ^ ( w 1 w 2 . . . w n s ^ ) = arg max s Σ i 1 POS w 1 , i 2 POS w 2 , . . . P ( S ( w 1 O i 1 w 2 O i 2 . . . w n s O i n s ) | I ) - - - ( 4 )
是词w1所具有的所有词性的集合。是词wn的词性之一。
由于需要使P(S)最大化,可以根据等式(5)求出P(S):
P ( S ) = P ( O i 1 ) P ( w 1 ) P ( O i 1 | w 1 ) P ( O i 1 ) P ( O i 2 | O i 1 ) P ( w 2 ) P ( O i 2 | w 2 ) P ( O i 2 )
                       (5)
. . . P ( O i n s | O i n s - 1 ) P ( w n s ) P ( O i n s | w n s ) P ( O i n s )
和分别是词性单元和词性双元。它们包含在词性双元模型 中(在图2示出的词典2的部分22)。P(w1)是词单元(字典2中的部分 212)。是一个词对应词性的概率(字典2的部分214)。
在步骤3646,确定在句子预测中的当前词。在步骤3646,根据该 词的Patricia树节点,推出当前候选词和预测的当前候选词。例如,假 设句子预测是“阿恶”,当前词是“恶”。则针对当前词的Patricia树 节点是节点“3”。因此,当前候选词列表仅包括一个词“恶”,而预测的 当前候选词列表中没有词。
最后,在步骤3647输出要显示的结果,处理返回到3641等待下一 个用户输入信息。
如果用户输入信息是用户动作,则步骤3648根据结果采取一些对 应的调整。例如,如果用户从当前候选词列表中选择第二个词,则应该 将句子预测中的当前词改变为根据所选择的词的新的当前词。例如,如 果用户根据该句子预测结果点击“F2”(意指OK),则将如图11所示的 句子预测3321发送到当前的用户应用程序,并清除区域332中的数字序 列331以及所有的结果。
图15示出使用图8A所示的键盘的用户终端装置的示例输入序列。 在该图中,用户通过第一示例的用户输入终端32使用拼音输入汉字“今 天下午”。
图16示出根据本发明第二实施例的用户终端装置的方框图。该实 施例示出两部分:用户终端装置和计算机。而图7所示的第一实施例仅 包括一个移动终端。这两个实施例之间的区别在于:第二实施例的用户 终端装置采用了计算机中的字典加索引模块363。字典加索引模块363 处理字典并将字典索引366输出到计算机的硬盘上。而将字典2和字典 索引366装载在用户终端装置的ROM(F1ash)中。可以通过用户输入终 端装置提供商所提供的工具进行装载处理。然后,用户输入预测与调整 模块364可以像第一实施例中的用户终端装置那样工作。
从上述可以看出,虽然已经详细的描述了示例性的实施例,本领域 的普通技术人员将会明白可能会有各种修改,添加以及替换,而不偏离 附后的权利要求书所要求的本发明的保护范围以及本发明的精髓。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈