专利汇可以提供汉语依存树库中未登录词的处理方法专利检索,专利查询,专利分析的服务。并且本 发明 属于 计算语言学 的 自然语言处理 领域,公开了一种汉语依存树库中未登录词的处理方法,该方法包括步骤:A,利用同义词词林,查找未登录词的所有同义词;B,根据汉字字形特征,计算未登录词与其所有同义词之间的字形相似度;C,当未登录词与多个同义词的字形相似度相同时, 抽取 所映射的词及其对应的词性的信息量,改进字形相似度计算模型;D,抽取字形相似度最大的词为未登录词的最优映射词,作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下,令依存句法分析中的单元对 回升到 或 ,从而达到细化信息粒度,缓解数据稀疏问题,改进依存句法分析性能。,下面是汉语依存树库中未登录词的处理方法专利的具体信息内容。
1.一种汉语依存树库中未登录词的处理方法,其特征在于,所述方法包括以下步骤:
利用同义词词林,查找未登录词的所有同义词;
根据汉字字形特征,设计词语之间的字形相似度计算模型,计算未登录词及其所有同义词之间的字形相似度;
当未登录词存在多个同义词与之映射时,抽取所映射的词及其对应词性的信息量,改进字形相似度计算模型;
根据字形相似度,抽取未登录词的最优映射词,作为树库中对未登录词的解释。
2.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤A中,借助现有语义资源,寻找与树库中未登录词在语义上相同或相近或相关的所有词,作为未登录词的同义词。
3.如权利要求1和权利要求2所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤A中,选用了哈尔滨工业大学信息检索研究室扩展版的《同义词词林》作为语义资源,获取未登录词的同义词。
4.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤B中,汉字字形特征是指根据汉字是象形文字的特点,利用字形表征汉字字义,具体做法是全体汉字用一个向量表示,向量的维数即为全体汉字总数,向量的值或者说权重为某一特定单元中汉字出现的次数。
5.如权利要求1所述和权利要求4所述的汉语依存树库中未登录词的处理方法,其特征在于,字形相似度计算模型如下:
uwi代表未登录词,wj代表与未登录词uwi在同义词词林中5层编码均相等的词汇,n为全体汉字组成的向量的维数,k为全体汉字向量的元素位置,Cik表示未登录词uwi中第k个汉字的频次,Cjk表示词wj中第k个汉字的频次。
6.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,当存在多个同义词与未登录词字形相似度值相同时,引入词的频度信息来调整字形相似度计算模型,调整后的字形相似度计算模型如下:
其中,CPj表示已知词wj的词性在树库中的频次,Cwj表示词wj在树库中的频次,为避免频次为0的情况,对对数进行了数据加1平滑。
7.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,字形相似度最大的词作为未登录词的最优映射词,在树库中作为对未登录词的解释,其选择方式如下:
。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于计算机的自然语言句法结构解析方法和装置 | 2020-05-19 | 307 |
直数 | 2020-06-02 | 811 |
一种基于计算机的自然语言句法结构解析方法和装置 | 2020-05-15 | 840 |
一种基于计算机的自然语言句法结构解析的方法和装置 | 2020-05-18 | 387 |
基于搜索日志的中文人名自扩展识别方法 | 2020-05-14 | 875 |
汉语依存树库中未登录词的处理方法 | 2020-05-21 | 339 |
Automated account reconciliation method | 2020-05-23 | 150 |
Content aggregation method and apparatus for on-line purchasing system | 2020-06-05 | 677 |
METHOD AND APPARATUS FOR AUTOMATED TAG GENERATION FOR DIGITAL CONTENT | 2020-05-28 | 68 |
METHOD AND APPARATUS FOR PERFORMING FULL BI-DIRECTIONAL TRANSLATION BETWEEN A SOURCE LANGUAGE AND A LINKED ALTERNATIVE LANGUAGE | 2020-06-07 | 87 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。