首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 一种针对文本形近字错误的定位方法

一种针对文本形近字错误的定位方法

阅读:1033发布:2020-08-25

专利汇可以提供一种针对文本形近字错误的定位方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种针对文本形近字错误的 定位 方法,属于 自然语言处理 技术领域。首先将长句子切分为多个短句子,然后用汉字形近字库找出每个短句子中每个字对应的形近字,并与原字符组成候选字向量,利用常用字库将向量中的不常用字剔除,将所有字的候选字向量组成一个候选矩阵,从而得到每个短句子的候选字矩阵;其次将候选每个矩阵中的相邻向量 捆 绑成词,将组合成的正确词语加入到词语集合中,将不能组合成词的向量,提取里面的停用字加入到停用字集合中;再将相邻两个短句子的连接部分的字提取出来,并将其组合,如果存在词语,则加入到词语集合;最后将词语集合和停用字集合中的词与原文本对比,剔除这些词,剩下的则是错误词存在的 位置 。,下面是一种针对文本形近字错误的定位方法专利的具体信息内容。

1.一种针对文本形近字错误的定位方法,其特征在于:首先将长句子切分为多个短句子,然后用汉字形近字库找出每个短句子中每个字对应的形近字,并与原字符组成候选字向量,利用常用字库将向量中的不常用字剔除,将所有字的候选字向量组成一个候选矩阵,从而得到每个短句子的候选字矩阵;其次将候选每个矩阵中的相邻向量绑成词,将组合成的正确词语加入到词语集合中,将不能组合成词的向量,提取里面的停用字加入到停用字集合中;再将相邻两个短句子的连接部分的字提取出来,并将其组合,如果存在词语,则加入到词语集合;最后将词语集合和停用字集合中的词与原文本对比,在原文本中剔除这些词,剩下的则是错误词存在的位置
2.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于具体步骤为:
第一步:建立一个数据库,包含形近字库X,语料库Y,常用字库Q,停用词库T;
第二步:选取待处理样本句子A;
第三步:对句子A进行预处理,去除句子中的非字字符,得到新的字符串B=c1c2...cn,n为字符串B长度;
第四步:将字符串B进行切分,以字符串长度为m,对字符进行分割,得到g={n/m}个短字符串,(n/m)表示不小于这个数的最小整数,并将分割后的句子组合成一个短字符串矩阵L=[L1L2…Li],其中i=g,length(Li-1)=m,Li的长度取决于,当(n/m)能整除时,length(Li)=m,当(n/m)不能整除时,最后一个字符串Li的长度等于余数,L1=c1c2…cm,L2=cm+1cm+2…c2m;
第五步:将短字符串矩阵L=[L1L2…Li]中每一个短句子Li中的每个字,在形近字库X中查找出每个字对应的形近字,利用常用字库Q剔除形近字中的不常用字,得到Li的候选字向量矩阵;
第六步:将Li矩阵中的相邻向量排列组合,形成一系列词,判断这些词是否属于语料库Y,若不属于则剔除,得到L所有词语集合w={w1,w2,…wn},若有某个向量没有和相邻向量组合成词或者向量的长度为1,则将其与停用词库T比较,去除非停用字,得到停用字集合d={d1,d2…dn};
第七步:将Li的最后一个字符和Li+1的第一个字符提取出来,找出这两个字的形近字,若能组合成词,则将词语加入到集合w;
第八步:将词语集合w={w1,w2,…wn}中的每个词和停用字集合d={d1,d2…dn}中的每个停用字,与原句B对比,若这个词存在于原句B中,则在原句在B中剔除这个词,B中剩下的词则为句子中错误的词的位置。
3.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于:所述步骤三中,处理后的文本B是去除所有标点符号后的字符串。
4.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于:所述步骤四中,切分长度m为任意小于句子长度n的数。
5.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于:所述步骤五中,Li的每个候选字向量的长度取决于在去除不常用字后剩余形近字的个数。

说明书全文

一种针对文本形近字错误的定位方法

技术领域

[0001] 本发明涉及一种针对文本形近字错误的定位方法,属于自然语言处理技术领域。

背景技术

[0002] 当前,由于OCR文本识别技术的运用,在将纸质文本文字翻译成计算机文字时,经常会将一些文字识别错误,将其识别为其他字,而这些字大多为原字符的形近字,而在大量文本校对中,能快速找出文本中错别字的位置,是文本校对的前提条件。
[0003] 利用N-gram通过上下文的连接强度来定位文本中的错误位置是文本检错与校对的常用方法,分词是使用N-gram的前提条件,但是对于分词来说分词的准确性对文本的检错起到了决定性的作用,分词和计算概率本身消耗一定的时间,从准确性和检错速度上来说效率非常低。

发明内容

[0004] 本发明要解决的技术问题是提供一种针对文本形近字错误的定位方法,以用于解决文本检错时由于分词所带来的速度问题和分词结果的准确性问题,省去了分词和计算概率所消耗的时间,做到将文本中的错误位置快速定位,为下一步校对工作做好铺垫。
[0005] 本发明的技术方案是:一种针对文本形近字错误的定位方法,首先将长句子切分为多个短句子,然后用汉字形近字库找出每个短句子中每个字对应的形近字,并与原字符组成候选字向量,利用常用字库将向量中的不常用字剔除,将所有字的候选字向量组成一个候选矩阵,从而得到每个短句子的候选字矩阵;其次将候选每个矩阵中的相邻向量绑成词,将组合成的正确词语加入到词语集合中,将不能组合成词的向量,提取里面的停用字加入到停用字集合中;再将相邻两个短句子的连接部分的字提取出来,并将其组合,如果存在词语,则加入到词语集合;最后将词语集合和停用字集合中的词与原文本对比,在原文本中剔除这些词,剩下的则是错误词存在的位置。
[0006] 具体步骤为:
[0007] 第一步:建立一个数据库,包含形近字库X,语料库Y,常用字库Q,停用词库T;
[0008] 第二步:选取待处理样本句子A;
[0009] 第三步:对句子A进行预处理,去除句子中的非字字符,得到新的字符串B=c1c2...cn,n为字符串B长度;
[0010] 第四步:将字符串B进行切分,以字符串长度为m,对字符进行分割,得到g={n/m}个短字符串,(n/m)表示不小于这个数的最小整数,并将分割后的句子组合成一个短字符串矩阵L=[L1L2…Li],其中i=g,length(Li-1)=m,Li的长度取决于,当(n/m)能整除时,length(Li)=m,当(n/m)不能整除时,最后一个字符串Li的长度等于余数,L1=c1c2…cm,L2=cm+1cm+2…c2m;
[0011] 第五步:将短字符串矩阵L=[L1L2…Li]中每一个短句子Li中的每个字,在形近字库X中查找出每个字对应的形近字,利用常用字库Q剔除形近字中的不常用字,得到Li的候选字向量矩阵;
[0012] 第六步:将Li矩阵中的相邻向量排列组合,形成一系列词,判断这些词是否属于语料库Y,若不属于则剔除,得到L所有词语集合w={w1,w2,…wn},若有某个向量没有和相邻向量组合成词或者向量的长度为1,则将其与停用词库T比较,去除非停用字,得到停用字集合d={d1,d2…dn};
[0013] 第七步:将Li的最后一个字符和Li+1的第一个字符提取出来,找出这两个字的形近字,若能组合成词,则将词语加入到集合w;
[0014] 第八步:将词语集合w={w1,w2,…wn}中的每个词和停用字集合d={d1,d2…dn}中的每个停用字,与原句B对比,若这个词存在于原句B中,则在原句在B中剔除这个词,B中剩下的词则为句子中错误的词的位置。
[0015] 所述步骤三中,处理后的文本B是去除所有标点符号后的字符串。
[0016] 所述步骤四中,切分长度m为任意小于句子长度n的数。
[0017] 所述步骤五中,Li的每个候选字向量的长度取决于在去除不常用字后剩余形近字的个数。
[0018] 本发明的有益效果是:解决文本检错时由于分词所带来的速度问题和分词结果的准确性问题,省去了分词和使用N-gram计算概率时所消耗的时间,更能快速的检出文本的定位错误位置。附图说明
[0019] 图1是本发明的步骤流程图
[0020] 图2是本发明第四步的流程图。

具体实施方式

[0021] 下面结合(附图和)具体实施方式,对本发明作进一步说明。
[0022] 实施例1:如图1-2所示,一种针对文本形近字错误的定位方法,首先将长句子分为n个长度为m的短句子,然后用汉字形近字库找出每个短句子中每个字对应的形近字,并与原字符组成候选字向量,利用常用字库将向量中的不常用字剔除,将所有字的候选字向量组成一个候选矩阵,从而得到每个短句子的候选字矩阵;其次将候选每个矩阵中的相邻向量捆绑成词,将组合成的正确词语加入到词集合w,将不能组合成词的向量,提取里面的停用字加入到停用字集合d;再将相邻两个短句子的连接部分的字提取出来,并将其组合,如果存在词语,则加入到集合w;最后将集合w和集合d中的词与原文本对比,在原文本中剔除这些词,剩下的则是错误词存在的位置。
[0023] 所述步骤如下:
[0024] 第一步:建立一个数据库,里面包含形近字库X,语料库Y,常用字库Q,停用词库T。
[0025] 第二步:选取待处理样本句子A。
[0026] 第三步:对句子A进行预处理,去除句子中的非字字符,得到新的字符串B=c1c2...cn,n为字符串B长度。
[0027] 第四步:将字符串B进行切分,以字符串长度为m,对字符进行分割,得到g={n/m}个短字符串,(n/m)表示不小于这个数的最小整数,并将分割后的句子组合成一个短字符串矩阵L=[L1L2…Li],其中i=g,length(Li-1)=m,Li的长度取决于,当(n/m)能整除时,length(Li)=m,当(n/m)不能整除时,最后一个字符串Li的长度等于余数,L1=c1c2…cm,L2=cm+1cm+2…c2m。
[0028] 第五步:将短字符串矩阵L=[L1L2…Li],中每一个短句子Li中的每个字,在形近字库X中查找出每个字对应的形近字,利用常用字库Q剔除形近字中的不常用字,得到Li的候选字向量矩阵,例如c1的形近字[c1c11c12…c1j],则候选字向量矩阵为L1=[c1c11c12…c1j]…[cmcm1cm2…cmk]。
[0029] 第六步:将Li矩阵中的相邻向量排列组合,形成一系列词,判断这些词是否属于语料库Y,若不属于则剔除,得到L所有词语集合w={w1,w2,…wn},若有某个向量没有和相邻向量组合成词或者向量的长度为1,则将其与停用词库T比较,去除非停用字,得到停用字集合d={d1,d2…dn}。
[0030] 第七步:将Li的最后一个字符和Li+1的第一个字符提取出来,找出这两个字的形近字,看是否能组合成词,若能则将词语加入到集合w。
[0031] 第八步:将词语集合w={w1,w2,…wn}中的每个词和停用字集合d={d1,d2…dn}中的每个停用字,与原句B对比,若这个词存在于原句B中,则在原句在B中剔除这个词,B中剩下的词则为句子中错误的词的位置。
[0032] 所述步骤一中,形近字库X包含所有汉字的形近字,语料库Y是经过分词处理、统计后的语料,常用字库Q为一级字库和二级字库,停用词指的是功能词,没有实际意义,如‘的’‘我’‘是’‘为何’‘倘若’等,停用词库T中包含的就是这一类词
[0033] 所述步骤二中,所述输入句子A可以为长句,也可以为短句。
[0034] 所述步骤三中,处理后的文本B是去除所有标点符号后的字符串。
[0035] 所述步骤四中,切分长度m可以为任意小于句子长度n的数。
[0036] 所述步骤五中,Li的每个候选字向量的长度取决于在去除不常用字后剩余形近字的个数,所以每个向量的长度不一定相等。
[0037] 所述步骤六中所述的,Li矩阵中的相邻向量组合是以以下形式:例a=[aa1],b=[bb1]为Li中的两个相邻向量,组合的结果{ab,ab1,a1b,a1b1}。
[0038] 所述步骤六中所述的,没有组合成词的意思是组合的结果{ab,ab1,a1b,a1b1}中,没有正确词语,则判断a和b中是否有停用字,有则加入到停用字集合d。
[0039] 所述步骤七中所述,Li的最后一个字符和Li+1的第一个字符即分割短字符连接处,例L1=c1c2…cm,L2=cm+1cm+2…c2m,连接处的两个字符为{cm,cm+1},将这两个字的形近组合,如果存在词语则加入到词语集合w。
[0040] 实施例2:一种针对文本形近字错误的定位方法,所述方法的具体步骤如下:
[0041] Step1、建立一个数据库,里面包含形近字库X,语料库Y,常用字库Q,停用词库T。
[0042] Step2、选取待处理样本句子A,例‘简直不敢相信自己的眼晴。’错误字符为晴(睛)。
[0043] Step3、对句子A进行预处理,去除句子中的标点符号,得到新的字符串,B=‘简直不敢相信自己的眼晴’n=11为字符串B长度。
[0044] Step4、将B=‘简直不敢相信自己的眼晴’,以长度m=5进行分割,g={n/m},(n/m)表示不小于这个数的最小整数,则g=3,则L=[L1L2L3]=['简直不敢相','信自己的眼','晴'],L1、L2长度为5,L3的长度为1。
[0045] Step5、分别找出L1、L2、L3的候选字向量矩阵,比如L1的候选向量矩阵为['简筒','直','不下','敢散','相柜'],L2的候选向量矩阵为['信言','自旦且','己已巴','的','眼跟'],L3的候选向量矩阵为['晴睛']。
[0046] Step6、将每个矩阵中的相邻向量组合,例L1中的相邻向量组合为{简直,筒直,直不,直下,不敢,不散,下敢,下散,敢相,敢柜,散相,散柜},将里面词语与语料库中的词语对比,得出正确的词语{简直,不敢}并加入到w中,三个矩阵中正确的词为w={简直,不敢,自己},停用字d={的}。
[0047] Step7、将相邻两个短句子的连接词提取出来,在此句中连接词为[相信]、[眼晴],将他们每个字的形似字找出组成正确的词语有{相信,眼睛},将词加入到矩阵w,则w={简直,不敢,自己,相信,眼睛},d={的}
[0048] Step8、将w和d与原句B=‘简直不敢相信自己的眼晴’对比,剔除w和d中的词,B'=‘眼晴’,则定位出原句中错误词的位置‘简直不敢相信自己的<眼晴>’。
[0049] 以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈