首页 / 专利库 / 人工智能 / 语言建模 / n元语法模型 / 词串 / 一种基于搭配冲突的中文自动查错方法

一种基于搭配冲突的中文自动查错方法

阅读:789发布:2020-05-08

专利汇可以提供一种基于搭配冲突的中文自动查错方法专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种基于搭配冲突的中文自动查错方法,所述方法包括:扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,根据检查结果标记错误的词语,输出错误的词语,实现自动查错。所述方法还包括根据给定搭配 知识库 制定搭配检测规则,所述搭配检测规则包括相似 词串 识别规则、语境搭配规则、搭配冲突规则和搭配强度规则。本发明实施例所述基于搭配冲突的中文自动查错方法,对中文文本中的搭配错误识别率高,能有效识别利用局部的上下文没有办法识别的错词和需要远距离搭配特征才能判断的错词。,下面是一种基于搭配冲突的中文自动查错方法专利的具体信息内容。

1.一种基于搭配冲突的中文自动查错方法,所述方法包括:
扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果;
根据检查结果标记错误的词语,输出错误的词语。
2.根据权利要求1所述的基于搭配冲突的中文自动查错方法,其特征在于,所述方法还包括根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
所述相似词串识别规则为:如果两个词的相似函数值为真,则所述两个词为相似词串,否则两个词不相似;
所述语境搭配规则为:如果两个词的语境搭配函数值为真,则确定两个词存在搭配,否则两个词不存在搭配;
所述搭配冲突规则为:如果两个词的语境搭配函数值为假,其中一个词存在相似词使语境搭配函数值为真,则所述两个词语境搭配冲突;
所述搭配强度规则为:根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数值;
生成所述搭配知识库的索引,包括相似词串规则索引、语境搭配规则索引、搭配冲突规则索引和搭配强度规则索引。
3.根据权利要求2所述的基于搭配冲突的中文自动查错方法,其特征在于,所述扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,具体包括:
扫描句子,取得当前词所在句子的词集合;依次进行:
索引语境搭配规则对当前词和词集合中的词进行语境搭配检查,根据当前词和词集合中的词的语境搭配函数值获得是否存在搭配的检测结果;
索引相似词串规则对当前词进行相似词搭配检查,根据相似函数值获得当前词是否存在相似词的检测结果;
索引搭配冲突规则对当前词、当前词的相似词和词集合中的词进行搭配冲突检查,根据当前词和词集合中的词的语境搭配函数值,以及当前词的相似词和词集合中的词的语境搭配函数值获得是否存在搭配冲突检测结果;
索引搭配强度规则分别对当前词和词集合中的词进行搭配强度检查,以及对当前词的相似词和词集合中的词进行搭配强度检查,通过比较搭配强度值验证检测结果;
扫描结束后输出检测结果。

说明书全文

一种基于搭配冲突的中文自动查错方法

技术领域

[0001] 本发明实施例涉及中文文本自动校对技术领域,具体涉及一种基于搭配冲突的中文自动查错方法。

背景技术

[0002] 中文文本自动校对是自然语言处理的主要应用之一,中文文本自动校对分为中文自动查错和自动纠错两个步骤。目前,人工智能计算机的中文文本自动校对还是以自动查错为主,自动查错是指自动发现文本中的错误,随着互联网的发展,社交网络越来越普及,电子文本也越来越多,同时中文文本中用错的词也越来越多,如何自动发现文本中的用错的词也变得越来越重要。而文本中有些用错的词或错别字无法用邻近的上下文来发现,需要用一些搭配知识来发现。

发明内容

[0003] 为此,本发明实施例提供一种基于搭配冲突的中文自动查错方法,以解决现有技术中文文本自动校对以自动查错为主而导致的文本中有些用错的词或错别字无法用邻近的上下文来发现的问题。
[0004] 为了实现上述目的,本发明实施例提供如下技术方案:
[0005] 根据本发明实施例提供的一种基于搭配冲突的中文自动查错方法,所述方法包括:
[0006] 扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果;
[0007] 根据检查结果标记错误的词语,输出错误的词语,实现自动查错。
[0008] 进一步地,所述方法还包括根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
[0009] 所述相似词串识别规则为:如果两个词的相似函数值为真,则所述两个词为相似词串,否则两个词不相似;
[0010] 所述语境搭配规则为:如果两个词的语境搭配函数值为真,则确定两个词存在搭配,否则两个词不存在搭配;
[0011] 所述搭配冲突规则为:如果两个词的语境搭配函数值为假,其中一个词存在相似词使语境搭配函数值为真,则所述两个词语境搭配冲突;
[0012] 所述搭配强度规则为根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数;
[0013] 生成所述搭配知识库的索引,包括相似词串规则索引、语境搭配规则索引、搭配冲突规则索引和搭配强度规则索引。
[0014] 进一步地,所述扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,具体包括:
[0015] 扫描句子,取得当前词所在句子的词集合;依次进行:
[0016] 索引语境搭配规则对当前词和词集合中的词进行语境搭配检查,根据当前词和词集合中的词的语境搭配函数值获得是否存在搭配的检测结果;
[0017] 索引相似词串规则对当前词进行相似词搭配检查,根据相似函数值获得当前词是否存在相似词的检测结果;
[0018] 索引搭配冲突规则对当前词、当前词的相似词和词集合中的词进行搭配冲突检查,根据当前词和词集合中的词的语境搭配函数值,以及当前词的相似词和词集合中的词的语境搭配函数值获得是否存在搭配冲突检测结果;
[0019] 索引搭配强度规则分别对当前词和词集合中的词进行搭配强度检查,以及对当前词的相似词和词集合中的词进行搭配强度检查,通过比较搭配强度值验证检测结果;
[0020] 扫描结束后输出检测结果。
[0021] 本发明实施例具有如下优点:
[0022] 1、本发明实施例所述基于搭配冲突的中文自动查错方法,通过定义搭配冲突,利用搭配知识库来自动查错;
[0023] 2、本发明实施例所述基于搭配冲突的中文自动查错方法,利用相似词串识别规则、语境搭配规则、搭配冲突规则判断是否存在搭配冲突,通过比较搭配强度进行验证,并且根据验证结果对当前词进行标记,标记当前词是否存在错误,实现自动查错。
[0024] 3、本发明实施例所述基于搭配冲突的中文自动查错方法,对中文文本中的错误搭配识别率高,能有效识别利用局部的上下文没有办法识别的错词和需要远距离搭配特征才能判断的错词。附图说明
[0025] 为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0026] 本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
[0027] 图1为本发明实施例提供的一种基于搭配冲突的中文自动查错方法的流程图

具体实施方式

[0028] 以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029] 本发明实施例所述基于搭配冲突的中文自动查错方法包括:
[0030] 根据汉语的特点,利用搭配知识库,制定相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
[0031] 对句子依次扫描,利用相似词串识别规则、语境搭配规则、搭配冲突规则判断是否存在搭配冲突,通过比较搭配强度进行验证,并且根据验证结果对当前词进行标记,标记当前词是否存在错误,实现自动查错。
[0032] 本发明实施例所述基于搭配冲突的中文自动查错方法还包括:根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
[0033] 所述相似词串识别规则为:如果两个词的相似函数值为真,则所述两个词为相似词串,否则两个词不相似;
[0034] 所述语境搭配规则为:如果两个词的语境搭配函数值为真,则确定两个词存在搭配,否则两个词不存在搭配;
[0035] 所述搭配冲突规则为:如果两个词的语境搭配函数值为假,其中一个词存在相似词使语境搭配函数值为真,则所述两个词语境搭配冲突;
[0036] 所述搭配强度规则为:根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数;
[0037] 生成所述搭配知识库的索引,包括相似词串规则索引、语境搭配规则索引、搭配冲突规则索引和搭配强度规则索引。具体为:
[0038] 11)给定搭配知识库CollDic,根据汉语拼音相似和形相似制定相似词串识别规则;
[0039] 在中文文档中,汉字通过某个输入法输入到计算机中,如音输入法或形输入法,因此中文文档中的汉字用错一般都是音相似或形相似,词由一个或多个汉字构成,如果两个词对应位置的字音相同或音相似或形相似,那么这两个词为相似词串;
[0040] 所述相似词串识别规则为:计算相似词串的相似函数值,所述相似函数为Sim(W1,W2),则:
[0041] 如果Sim(W1,W2)=ture,则词语W1和词语W2相似;
[0042] 如果Sim(W1,W2)=false,则词语W1和词语W2不相似。
[0043] 12)给定搭配知识库CollDic,计算语境搭配函数,所述语境搭配函数为Coll(Wj,Wi),则:
[0044] 如果Coll(W1,W2)=ture,则词语W1和词语W2存在搭配;
[0045] 如果Coll(W1,W2)=false,则词语W1和词语W2不存在搭配;
[0046] 13)根据语境搭配函数的函数值制定搭配冲突规则,所述搭配冲突规则包括:
[0047] 对于给定句子S=W1W2...Wn,当相似函数值和语境搭配函数值同时满足如下条件时,为左语境搭配冲突:
[0048] Sim(Wi,Wi')=ture
[0049] Coll(Wj,Wi)=false(1≤j≤i-1)
[0050] Coll(W'i,Wj)=ture(1≤j≤i-1)
[0051] 其中Wi为句子中的第i个词,Wi'为Wi的相似词,此时Wj为出现在Wi的左边的词;
[0052] 当相似函数值和语境搭配函数值同时满足如下条件时,为右语境搭配冲突:
[0053] Sim(Wi,Wi')=ture
[0054] Coll(Wi,Wj)=false(i+1≤j≤n)
[0055] Coll(Wi',Wj)=ture(i+1≤j≤n)
[0056] 此时Wj为出现在Wi的右边的搭配词;
[0057] 14)根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数值,所述搭配强度规则,包括:
[0058] 计算两个词的搭配强度函数S(W1,W2)为:
[0059]
[0060] 其中Ri(W1,W2)表示词语W1和词语W2相距距离为i的频次,R(W1)表示词语W1的频次,R(W2)表示词语W2的频次,N为搭配训练语料中的词的总频次。
[0061] 词语W1和词语W2搭配强度函数值越大,表明两个词的搭配正确率越高。
[0062] 本发明提供的一种基于搭配冲突的中文自动查错方法,对于给定句子S=W1W2...Wn,扫描句子,对当前词Wi根据搭配知识库的搭配规则检查句子中的词语的搭配,取得当前词所在句子的词集合;依次进行:
[0063] 索引语境搭配规则对当前词和词集合中的词进行语境搭配检查,根据当前词和词集合中的词的语境搭配函数值获得是否存在搭配的检测结果;
[0064] 索引相似词串规则对当前词进行相似词搭配检查,根据相似函数值获得当前词是否存在相似词的检测结果;
[0065] 索引搭配冲突规则对当前词、当前词的相似词和词集合中的词进行搭配冲突检查,根据当前词和词集合中的词的语境搭配函数值,以及当前词的相似词和词集合中的词的语境搭配函数值获得是否存在搭配冲突检测结果;
[0066] 索引搭配强度规则分别对当前词和词集合中的词进行搭配强度检查,以及对当前词的相似词和词集合中的词进行搭配强度检查,通过比较搭配强度值验证检测结果;
[0067] 扫描结束后输出检测结果。
[0068] 具体包括:
[0069] 21)取得当前词Wi所在句子S中左边词集合LeftWordSet={Wi-k|1≤k<i}和右边词集合RightWordSet={Wi+k|1≤k≤n-k},索引搭配知识库的搭配冲突规则、索引语境搭配规则、相似词串规则和搭配强度规则,分别依次做如下判断:
[0070] 22)如果存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,并且存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,则当前词Wi是正确的词,满足语义搭配。
[0071] 23)如果存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,同时不存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,且不存在当前词Wi的相似词Wi'和右边词集合RightWordSet中的词与当前词Wi形成右搭配冲突,那么当前词Wi是正确词。
[0072] 24)如果不存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,同时存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,且不存在当前词Wi的相似词Wi'和左边词集合LeftWordSet中的词与当前词Wi形成左搭配冲突,那么当前词Wi是正确词;
[0073] 25)如果不存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,同时不存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,在左边词集合LeftWordSet和右边词集合RightWordSet中存在和当前词Wi的相似词Wi'的搭配,如果满足以下三个条件之一,则当前词Wi是错误的,其中满足条件的相似词Wi'即为其可能正确的词,对当前词Wi进行标记;条件一:
[0074]
[0075] 条件二:
[0076] S(Wi',Wi)>mi_threshold或S(Wi,Wi')>mi_threshold
[0077] 条件三:
[0078]
[0079] 其中,threshold为第一阈值,mi_threshold为第二阈值。
[0080] 26)如果存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数为真LeftColl(Wi,Wl)=ture,或者存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值RightColl(Wi,Wr)=ture,但是存在当前词Wi的相似词Wi',并且存在左搭配相似词Wl∈LeftWordSet,或右搭配相似词Wr∈RightWordSet,使得261)和262)两个条件满足,那么对当前词Wi提示错误。
[0081] 261)LeftColl(Wi',Wl')=ture或者RightColl(Wi',Wr')=ture
[0082] 262)S(Wi',Wl')>mi_threshold或者S(Wi',Wr')>mi_threshold[0083] 27)取当前词Wi的下一个词Wi+1,重复以上过程,直至到句子末尾,则结束整个判断,输出句子中标记错误的词。
[0084] 本发明实施例提出基于搭配冲突的中文自动查错方法,通过定义搭配冲突,利用搭配知识库来自动查错,能够发现用错的词或词语搭配冲突,实现自动查错。
[0085] 通过本发明实施例提出基于搭配冲突的中文自动查错方法检查1万行句子的测试语料,利用100万词的二元搭配词典,并人工构造测试语料句子中的搭配错误500处,检查结果召回率达到75%,准确率达到74%。
[0086] 虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈