专利汇可以提供一种针对文本形近字错误的定位方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种针对文本形近字错误的 定位 方法,属于 自然语言处理 技术领域。首先将长句子切分为多个短句子,然后用汉字形近字库找出每个短句子中每个字对应的形近字,并与原字符组成候选字向量,利用常用字库将向量中的不常用字剔除,将所有字的候选字向量组成一个候选矩阵,从而得到每个短句子的候选字矩阵;其次将候选每个矩阵中的相邻向量 捆 绑成词,将组合成的正确词语加入到词语集合中,将不能组合成词的向量,提取里面的停用字加入到停用字集合中;再将相邻两个短句子的连接部分的字提取出来,并将其组合,如果存在词语,则加入到词语集合;最后将词语集合和停用字集合中的词与原文本对比,剔除这些词,剩下的则是错误词存在的 位置 。,下面是一种针对文本形近字错误的定位方法专利的具体信息内容。
1.一种针对文本形近字错误的定位方法,其特征在于:首先将长句子切分为多个短句子,然后用汉字形近字库找出每个短句子中每个字对应的形近字,并与原字符组成候选字向量,利用常用字库将向量中的不常用字剔除,将所有字的候选字向量组成一个候选矩阵,从而得到每个短句子的候选字矩阵;其次将候选每个矩阵中的相邻向量捆绑成词,将组合成的正确词语加入到词语集合中,将不能组合成词的向量,提取里面的停用字加入到停用字集合中;再将相邻两个短句子的连接部分的字提取出来,并将其组合,如果存在词语,则加入到词语集合;最后将词语集合和停用字集合中的词与原文本对比,在原文本中剔除这些词,剩下的则是错误词存在的位置。
2.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于具体步骤为:
第一步:建立一个数据库,包含形近字库X,语料库Y,常用字库Q,停用词库T;
第二步:选取待处理样本句子A;
第三步:对句子A进行预处理,去除句子中的非字字符,得到新的字符串B=c1c2...cn,n为字符串B长度;
第四步:将字符串B进行切分,以字符串长度为m,对字符进行分割,得到g={n/m}个短字符串,(n/m)表示不小于这个数的最小整数,并将分割后的句子组合成一个短字符串矩阵L=[L1L2…Li],其中i=g,length(Li-1)=m,Li的长度取决于,当(n/m)能整除时,length(Li)=m,当(n/m)不能整除时,最后一个字符串Li的长度等于余数,L1=c1c2…cm,L2=cm+1cm+2…c2m;
第五步:将短字符串矩阵L=[L1L2…Li]中每一个短句子Li中的每个字,在形近字库X中查找出每个字对应的形近字,利用常用字库Q剔除形近字中的不常用字,得到Li的候选字向量矩阵;
第六步:将Li矩阵中的相邻向量排列组合,形成一系列词,判断这些词是否属于语料库Y,若不属于则剔除,得到L所有词语集合w={w1,w2,…wn},若有某个向量没有和相邻向量组合成词或者向量的长度为1,则将其与停用词库T比较,去除非停用字,得到停用字集合d={d1,d2…dn};
第七步:将Li的最后一个字符和Li+1的第一个字符提取出来,找出这两个字的形近字,若能组合成词,则将词语加入到集合w;
第八步:将词语集合w={w1,w2,…wn}中的每个词和停用字集合d={d1,d2…dn}中的每个停用字,与原句B对比,若这个词存在于原句B中,则在原句在B中剔除这个词,B中剩下的词则为句子中错误的词的位置。
3.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于:所述步骤三中,处理后的文本B是去除所有标点符号后的字符串。
4.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于:所述步骤四中,切分长度m为任意小于句子长度n的数。
5.根据权利要求1所述的针对文本形近字错误的定位方法,其特征在于:所述步骤五中,Li的每个候选字向量的长度取决于在去除不常用字后剩余形近字的个数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
自然语言处理模型训练方法、任务执行方法、设备及系统 | 2020-05-11 | 867 |
问答阅读理解模型获取方法、装置、电子设备及存储介质 | 2020-05-11 | 12 |
一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法 | 2020-05-12 | 729 |
基于画像的医学科普文章推荐方法及系统 | 2020-05-11 | 302 |
基于大数据的职业兴趣预测方法、装置、设备及存储介质 | 2020-05-14 | 475 |
一种基于句法模式和机器学习的开放式关系的抽取方法 | 2020-05-14 | 806 |
一种基于信用大数据的标签分类和定量分析方法 | 2020-05-11 | 914 |
基于中文小说文本的阅读器信息抽取方法及系统 | 2020-05-13 | 70 |
数据处理方法和装置 | 2020-05-14 | 430 |
基于多模态注意力机制的视频内容描述方法、系统、装置 | 2020-05-11 | 738 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。