专利汇可以提供一种基于隐马尔可夫模型的词义消歧方法专利检索,专利查询,专利分析的服务。并且基于隐 马 尔可夫模型的 词义消歧 方法,步骤如下:1)训练语料,利用SemEval-2007#task5的测试语料集合对待消歧的句子进行解析;再对该句子进行分词处理;2)分词后找到句子中的歧义词,提取目标歧义词及其左右两侧的分词;训练语料,计算语义类-词汇转移概率和语义类转移概率;3)从人工标注语料中提取包含歧义词的句子数,计算观测概率,计算歧义词左右两侧词汇的观测概率;4)利用前面语料训练出来的数值计算状态转移概率,提取到的初始状态概率、观测概率与状态转移概率,作为 隐马尔可夫模型 参数,将构建好的消歧模型,对测试语料中的语句进行消歧;5)利用相似度计算方法验证消歧结果的准确性。,下面是一种基于隐马尔可夫模型的词义消歧方法专利的具体信息内容。
1.基于隐马尔可夫模型的词义消歧方法,其特征是步骤如下:
步骤1 训练语料,利用SemEval-2007#task5的测试语料集合对待消歧的句子进行解析;再对该句子进行分词处理;
步骤2 分词后找到句子中的歧义词,提取目标歧义词及其左右两侧的分词;训练语料,计算语义类-词汇转移概率和语义类转移概率;
步骤3 从人工标注语料中提取包含歧义词wordk的句子数Num(Sentence(wordk)),以及该词汇wordk对应的语义为sensej的句子数Num(sensej,wordk),计算观测概率P(wordk|sensej),观测概率是词本身出现的概率,即在给定语义类sensej的前提下,产生词汇wordk的概率;以同样的方式计算歧义词左右两侧词汇的观测概率,由语料库确定语义状态集合S,状态集合S即是待消歧词语义的集合;
步骤4 利用前面语料训练出来的数值计算状态转移概率P(sensei|sensej),状态转移概率表示人工标注语料中语义类sensej出现在语义类sensei左侧的概率,也就是说在给定左侧词汇的语义类sensej的前提下,当前词汇的语义为sensei的概率,提取到的初始状态概率、观测概率与状态转移概率,作为隐马尔可夫模型参数λ,将构建好的消歧模型,对测试语料中的语句进行消歧;
步骤5 利用相似度计算方法验证消歧结果的准确性。
2.根据权利要求1所述的基于隐马尔可夫模型的词义消歧方法,其特征是步骤1中,利用哈工大人工语义标注语料作为训练语料估计隐马尔可夫模型参数,同时,将SemEval-
2007#task5作为测试集检验模型的优劣;
先将目标语句分词,在python中调用jieba函数包进行分词;
步骤2中,以歧义词为中心向两侧提取成对特征的词窗,表现的形式为Word-n,…Word-1,Word0,Word1,…,Wordn;其中,Word0为目标歧义词,Word-n与Wordn分别表示目标歧义词左右侧第n个词汇。
3.根据权利要求1所述的基于隐马尔可夫模型的词义消歧方法,其特征是步骤4中,隐马尔可夫模型λ=(S,W,A,B,π),S为包含有歧义词句子中所有词汇语义的集合,这里的语义代码是相互联系的,可以从一个语义转移到另一语义,即状态转移;W为包含有歧义词句子中所有词汇的集合;A=[aij]是状态转移概率矩阵;B=[bjk]是观测概率矩阵,即是观测状态产生隐藏状态的概率矩阵,也称为混淆矩阵;π为初始状态概率;
基于隐马尔可夫模型词义消歧方法是在已知模型λ=(S,W,A,B,π)、观测序列Wn=word1,word2,…,wordn,求解隐藏序列Sn=sense1,sense2,…,sensen,使得条件概率P(Sn|Wn)最大,故有:
隐马尔可夫中的两个关键参数观测概率矩阵B=[bjk]和状态转移矩阵A=[aij],是通过训练语料确定参数;
状态转移概率aij计算如下:
词汇wordk选择语义类sensek的观测概率bjk的计算如下:
在测试语料中,“同义词词林”涵盖大部分的歧义词,而每个歧义词都会对应语义类代码编码;词义消歧方法的性能评定是通过测试语料歧义词语义与词林语义编码的相似度计算进行确定。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于关联数据的自治数据湖构建系统及方法 | 2020-05-08 | 75 |
一种基于依存约束和知识的副词词义消歧方法和装置 | 2020-05-15 | 607 |
基于CRP聚类的词语多原型向量表示及词义消歧方法 | 2020-05-18 | 801 |
基于图像和文本语义相似度的图像语义消歧方法和装置 | 2020-05-20 | 53 |
一种信息处理的方法及服务器 | 2020-05-20 | 407 |
一种面向工程应用的领域语义网建模方法 | 2020-05-22 | 476 |
一种基于机器学习的中文商业文本预处理方法 | 2020-05-12 | 318 |
用于计算机学习和理解的体系结构和方法 | 2020-05-17 | 49 |
一种基于概念的语义识别方法及装置 | 2020-05-19 | 649 |
一种基于依存约束和知识的动词词义消歧方法和装置 | 2020-05-26 | 616 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。