专利汇可以提供一种未登录词的识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种未登录词的识别方法,属于计算机科学中的 自然语言处理 技术领域。在未登录词的检测阶段,先用多重规则过滤重复串集合,然后使用统计模型作为主体统计 框架 ,将尽可能多的特征融入到框架内,确保未登录词检测具有较高的准确率和召回率;在未登录词词性猜测阶段,基于统计模型框架,在通用特征的 基础 上,通过引入有效的新特征,来提高未登录词词性猜测的准确率。本方法对比 现有技术 ,不受内存规模的限制,扩大了未登录词的检测范围,有效减少了未登录词检测过程中的漏召问题,尤其适合用于大规模语料的未登录词的识别。,下面是一种未登录词的识别方法专利的具体信息内容。
1.一种未登录词的识别方法,其特征在于包括以下步骤:
步骤一、使用基于递增n-gram模型和散列数据结构,提取出语料的候选重复串;然后,对候选重复串进行过滤,以减少垃圾字串的生成,提高重复串提取效率;最后,使用外部排序方法取得最终的重复串集合,该集合用于构成未登录词的候选集,检测到的未登录词都来源于这个集合;
步骤二、对步骤一得到的重复串集合进行子父串归并、停用字(词)过滤、命名实体过滤和词典过滤;然后,使用统计模型对处理后的重复串集合进行检测,获得未登录词集合;
其中,所述命名实体过滤,是指将简单命名实体从候选词集合中预先滤去,其中,简单命名实体包括:时间、货币、人名以及地名;
步骤三、组合各种有效的内部特征,使用统计模型对经步骤二得到的未登录词集合中的词语进行词性猜测;
所述各种有效的内部特征是指用于统计模型训练和解码的特征,包括,未登录词的词条本身、组成字符、词缀、词长。
2.如权利要求1所述的一种未登录词的识别方法,其特征在于,所述步骤一中,对候选重复串进行过滤时,采用基于低频字符的全局剪枝算法和短串过滤长串的逐层剪枝方法实现。
3.如权利要求2所述的一种未登录词的识别方法,其特征在于,所述步骤一中,采用基于低频字符的全局剪枝算法对候选重复串进行过滤的方法如下:
假设∑是有限的字符集合,S是由∑中的字符所构成的有限字符序列,S=c1c2c3…cn,n为S的长度;S[i]表示S中一个字符,其中1≤i≤n;S[i,j]表示S中的一个字符串;C=S1#S2#S3…#Sm,表示由m个字符构成的语料,其中#是∑集合中的一个标点字符,表示文本结束;设R=c1c2…ck,1≤k≤n,并且R中不包含文本结束符#,如果在语料中至少存在两个位置p1和p2,使得S[p1…p1+k-1]=S[p2…p2+k-1]=R,则称R为语料C中的重复串;如果R出现的频率高于预先设定的阈值λ,则称R为高频重复串;
通过一次语料扫描,取得满足f(ci)<λ,ci∈∑条件的所有字符ci,并将包含ci的集合∑0作为剪枝字符集合;在重复串扫描过程中,对于重复串R中的任意字符cx,如果有cx∈∑0,即将重复串R滤掉,从而在字符层面上实现低频模式过滤。
4.如权利要求2所述的一种未登录词的识别方法,其特征在于,所述步骤一中,采用短串过滤长串的逐层剪枝方法对候选重复串进行过滤的方法如下:
设长度为k的字符串集合为Ω,频率低于阈值λ的垃圾串集合为,出现频率大于或等于阈值λ的重复串集合为由于对k≥2时有因此使用作为过滤集合,过滤原则是,对于X=ciR1或X=R2cj,当且时,X作为候选重复串,否则,将X作为垃圾串抛弃。
5.如权利要求1所述的一种未登录词的识别方法,其特征在于,所述步骤一中,使用外部排序方法取得最终的重复串集合的方法如下:
外部排序由两部分工作组成:数据的内部排序和外部归并;
通过使用基数排序来实现内部排序:用确定的整数编号来表示汉字字符,将重复串转化为与之具有相同长度的整型数组,建立起重复串与整型数组的一一映射关系;根据这种对应关系,即可实现对重复串的基数排序;
通过采用基于败者树的多路选择排序方法来实现外部归并。
6.如权利要求1所述的一种未登录词的识别方法,其特征在于,所述步骤二中,使用统计模型对处理后的重复串集合进行检测时,采用条件随机域模型或者最大熵模型之一作为未登录词标注模型,并综合运用候选重复串的语言知识特征和统计特征来提高检测效果;
其中,语言知识特征包括:重复串的串长、组成字符、前缀、后缀、双字后缀;统计特征选用被证明识别效果显著的统计特征:共现频率、互信息、色子矩阵、左(右)熵,为保证统计特征适应性,对统计特征进行归一化及离散化处理,确保统计模型对不同规模的语料都有可靠的标注效果;
在语言知识特征和统计特征的作用下,首先进行统计模型的训练,在此基础上,即可实现对候选词集合的标注和未登录词检测,最终获得未登录词集合。
7.如权利要求1所述的一种未登录词的识别方法,其特征在于,所述步骤三中,采用的统计模型是条件随机域模型或者最大熵模型之一。
8.如权利要求1所述的一种未登录词的识别方法,其特征在于,所述步骤三中,所述内部特征还包括汉字偏旁。
9.如权利要求8所述的一种未登录词的识别方法,其特征在于,当采用汉字偏旁作为内部特征时,对偏旁特征进行改进,即,在标注语料的基础上,通过聚类算法,对偏旁进行归类,以减少偏旁数量,从而体现偏旁与词性之间的稳定联系。
本发明涉及一种未登录词的识别方法,尤其适用于针对大规模语料的未登录词的识别,属于计算机科学中的自然语言处理技术领域(NLP)。
背景知识
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。在自然语言处理过程中,词是最小的语言单位。汉语在词之间没有特定标记,所以因此在进行自动处理时,需要预先进行中文分词。而未登录词的大量存在已经成为影响中文分词效果的技术瓶颈。未登录词识别(UWI)是从语料中自动检测和识别未在词典中出现过的词语的过程,是自然语言处理领域的一项重要基础技术,在中文自动分词、词典编撰、信息抽取、信息检索以及机器翻译等领域都有着广泛的应用需求。
从技术的角度讲,未登录词识别包含两个基本步骤:未登录词检测和未登录词词性猜测。
目前,研究人员已经开发了很多模型用于未登录词检测。近些年来,基于重复串的未登录词检测技术受到了广泛关注,在这方面也取得很多研究成果。基于重复串的未登录词检测原理是:首先在语料中提取频繁出现的重复串构成候选词集合,然后根据规则或统计特征从候选词集合中检测未登录词。
现有的基于重复串的未登录词识别方法存在以下缺陷:
(1)重复串提取算法受限于内存规模,处理的目标语料规模小,未登录词漏召严重,处理效率不高。虽然对规模大于内存容量情况也有一些算法,但效率不高,灵活性差,难以满足未登录词检测的实际要求。
(2)针对重复串集合的未登录词检测的效果不好;
(3)只针对未登录词识别的单个步骤,没有集成未登录词词性猜测算法,且未登录词词性猜测准确率尚有较大的提高空间。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种听写报读进度的控制方法及电子设备 | 2020-05-11 | 454 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
用于增强已标注样本的方法和设备 | 2020-05-11 | 934 |
一种基于边缘信息和语义信息的句子相似度计算方法 | 2020-05-12 | 742 |
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
关键词提取方法、装置及存储介质 | 2020-05-08 | 775 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
一种基于Bi-LSTM网络的无监督属性的抽取方法 | 2020-05-11 | 47 |
关键词提取方法、关键词提取装置及电子设备 | 2020-05-08 | 185 |
一种使用重叠拆分规则的文本序列标注算法 | 2020-05-14 | 365 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。