首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 共指消解 / 一种基于混合进化算法的实例共指消解方法

一种基于混合进化算法的实例共指消解方法

阅读:542发布:2020-06-20

专利汇可以提供一种基于混合进化算法的实例共指消解方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于混合进化 算法 的实例 共指消解 方法,包括如下步骤过:步骤1)构建本体中概念与实例档案,确定相似度度量方案;步骤2)使用基于 进化算法 的实例共指消解技术获得最优的本体中实例匹配方案。本发明提出基于本体概念层匹配的实例集划分方案来降低待匹配的实例的规模,同时将实例共指消解问题建模为组合优化问题并设计混合进化算法求解,在保证实例匹配结果 质量 的前提下最大程度地降低了本体实例集规模对求解效率的影响。,下面是一种基于混合进化算法的实例共指消解方法专利的具体信息内容。

1.一种基于混合进化算法的实例共指消解方法,其特征在于,包括如下步骤:
步骤1)构建本体中的概念档案和实例档案,确定实例的相似度度量方案,具体包括如下步骤:
1.1)给定两个本体,两个本体分别包含有若干概念,每个概念包含有若干实例;两个本体均建立对应的概念档案和实例档案;
1.2)将一个本体中的概念与另一个本体中的概念进行配对形成概念对,配对的方法为:根据本体概念体系结构将相似的概念进行匹配;
1.3)使用MatchFmeasure评价方法评价匹配的两个概念,两个概念的相似度超过阈值,则确定两个概念匹配成为概念对;将形成概念对的两个概念进行实例相似度匹配;
步骤2)确定实例的相似度度量方案,进行实例相似度匹配:
2.1)将概念对中一个概念里的实例与另一个概念里的实例进行随机配对形成实例对;
2.2)判断相似的实例对:
使用电子词典度量技术判断形成实例对的两个实例的名称是否匹配:若两个实例是同义词,则相似度值取值为1;若一个实例为另一个实例的上位词则相似度值取值为0.5;若电子词典度量技术判断形成实例对的两个实例不匹配,则根据实例档案,使用基于语言的相似度度量技术判断形成实例对的两个实例是否匹配,具体方法如下:
其中,e1表示一个实例的实例档案,e2表示另一个实例的实例档案;sim(e1,e2)表示基于e1的两个实例之间的相似度计算函数;sim(e2,e1)表示基于e2的两个实例之间的相似度计算函数;|prof(e1)⌒prof(e2)|为e1和e2中相同元素的个数,|prof(e1)|为e1中元素的个数;
|prof(e2)|为e2中元素的个数;
若0≤|sim(e1,e2)-sim(e2,e1)|≤σ,σ=0.1,则确定形成实例对的两个实例匹配;
步骤3)使用基于进化算法的实例共指消解技术获得最优的实例匹配方案,包括如下步骤:
3.1)使用MatchFmeasure评价方法对每次实例对的匹配结果进行评价:
3.2)使用进化算法重复步骤2),使用MatchFmeasure评价方法评价每次本体中所有实例的匹配结果,直至得到最优解,最优解为两个本体最优的实例匹配方案。
2.如权利要求1所述的基于混合进化算法的实例共指消解方法,其特征在于,所述步骤
3)中的进化算法为混合进化算法。
3.如权利要求2所述的基于混合进化算法的实例共指消解方法,其特征在于,所述混合进化算法的适应度函数采用f-measure度量,遗传算子为赌轮盘算子,交叉算子为单点交叉算子。
4.如权利要求2所述的基于混合进化算法的实例共指消解方法,其特征在于,所述混合进化算法采用局部搜索算法。
5.如权利要求4所述的基于混合进化算法的实例共指消解方法,其特征在于,所述局部搜索算法为爬山算法。
6.如权利要求1所述的基于混合进化算法的实例共指消解方法,其特征在于,步骤1.1)中,实例档案中的实例周边实例的信息为通过LOD链接结构连接深度为2的周边实例的集合。

说明书全文

一种基于混合进化算法的实例共指消解方法

技术领域

[0001] 本发明属于计算机信息领域,具体地,本发明涉及一种基于混合进化算法的实例共指消解方法。

背景技术

[0002] 定义:
[0003] 本体:本体是一个三元组(C,P,I),其中C表示本体中的概念集合,P表示本体中的关系集合,I表示本体中的实例集合,是概念对应的实际数据对象。
[0004] 本体概念体系结构:用于表示本体中的概念和概念之间关系的数学模型。
[0005] 概念档案:指的是通过本体概念体系结构构建的概念信息集合,包括概念自身的信息和周边概念的信息。
[0006] 实例档案:指的是通过LOD链接结构构建的实例信息结合,包括实例自身的信息和该实例周边实例的信息
[0007] f-Measure:又称为f-Score,是IR(信息检索)领域的常用的一个评价标准。
[0008] MatchFmeasure:在本体匹配领域中,用于近似f-measure值的一种本体匹配结果的度量技术,该技术可以克服f-measure在计算过程中需要实现给出标准的结果的缺陷
[0009] 链接开放数据网(Linked Open Data,LOD)是实现语义网的里程碑。随着越来越多的数据集被公布和并依据已有的数据链接规则同LOD上数据集关联,这使得不同数据集中的共指链接变得越来越重要:这些链接能够实现分布在不同地区的相同实例对象的集成。但是,由于LOD中的由不同团 队开发的相同数据实例很可能用不同的识别符来标记,导致数据集间存在实例异质问题。如何消除数据集中的异质问题,即实例共指消解问题,成为LOD发展的关键。目前常用的技术有两种:
[0010] (1)基于本体的语义相似度度量技术
[0011] 基于本体的语义相似度度量技术通过两个本体实例中的信息来估计它们的相似程度。总的来说,目前已有的基于本体的语义相似度度量技术可以分为以下两类:1)基于边的语义相似度度量技术。该类技术通过两个实例在本体中的互相关联的强度来估计二者的相似程度,关联的强度通常是通过一个基于距离的相似度函数计算本体中实例间的距离来获得。例如,Rada等通过计算连接本体中两个实例的最短路径来估计二者的相似度值。2)基于节点的语义相似度度量技术。该类技术关注于评价本体中对于实例的定义信息,如实例自身的信息和实例的信息量。例如,Batet等通过计算两个实例自身相同属性与不同属性的比值来估计二者的相似程度;Resnik提出通过估计两个实例共同父实例的最大信息量来估计二者的相似程度。
[0012] (2)实例共指消解技术
[0013] 在R.Rada,H提出的经典模型中,关于两个实例是否共指同一个实例是通过集成两个实例所有属性对的相似度值来决定的。这一模型是实例共指消解领域大部分技术的基础。还有一种基于静态分析和推荐解析式的实例共指消解技术被提出并用于寻找相似的实例。ObjectCoref是一中基于半监督学习算法的自适应的系统,该系统可以通过静态的度量技术来区分不同的属性-值对。还有一种无监督的学习算法被提出以确定一些特殊的属性对。SERIMI是一种务监督的方法,该方法分为确定相似属性的选择阶段和确定相似属性值的识别阶段。Zhishi.links是一个分布式的系统,该系统 通过特殊的索引过程和字符串相似度度量技术来识别和过滤相似的实例对象。
[0014] 现有的基于本体的相似度度量技术的缺点如下:(1)基于边的语义相似度度量技术过分依赖本体的实例分类结构,简单的实例分类结构会极大影响该类相似度度量技术的准确性;(2)基于节点的语义相似度度量技术未能使用本体的实例分类结构中的信息、也无法处理同义词近义词的情况,对于实例描述简单或存在大量同义词近义词的描述情况,该类相似度度量技术的准确度不高。本发明提出的基于本体的相似度度量技术综合使用了本体分类结构信息、外部词典信息和本体中实例描述信息以提高相似度度量技术的普适性和语义识别能
[0015] 现有的实例共指消解技术在确定相同实例的过程中都没有考虑这些实例的上层本体结构,待处理的实例的规模过于庞大导致共指消解过程的效率低下。此外,现有的实例共指消解技术过于依赖实例间的关联关系,很差的实例体系结构会极大影响已有技术的有效性。

发明内容

[0016] 为解决上述问题,本发明提供了一种基于混合进化算法的实例共指消解方法。本发明提出基于本体概念层匹配的实例数据集划分方案来降低待处理的实例的规模,同时将实例共指消解问题建模为组合优化问题并设计混合进化算法求解,在保证实例匹配结果质量的前提下最大程度地降低了本体实例集规模对求解效率的影响。
[0017] 为达到上述技术效果,本发明的技术方案是:
[0018] 一种基于混合进化算法的实例共指消解方法,包括如下步骤:
[0019] 步骤1)构建本体中的概念档案和实例档案,确定实例的相似度度量方案,具体包括如下步骤:
[0020] 1.1)给定两个本体,两个本体分别包含有若干概念,每个概念包含有若干实例;两个本体均建立对应的概念档案和实例档案;
[0021] 1.2)将一个本体中的概念与另一个本体中的概念进行配对形成概念对,配对的方法为:根据本体概念体系结构将相似的概念进行匹配;
[0022] 1.3)使用MatchFmeasure评价方法评价匹配的两个概念,两个概念的相似度超过阈值,则确定两个概念匹配成为概念对;将形成概念对的两个概念进行实例相似度匹配;
[0023] 步骤2)确定实例的相似度度量方案,进行实例相似度匹配:
[0024] 2.1)将概念对中一个概念里的实例与另一个概念里的实例进行随机配对形成实例对;
[0025] 2.2)判断相似的实例对:
[0026] 使用电子词典度量技术判断形成实例对的两个实例的名称是否匹配:若两个实例是同义词,则相似度值取值为1;若一个实例为另一个实例的上位词则相似度值取值为0.5;若电子词典度量技术判断形成实例对的两个实例不匹配,则根据实例档案,使用基于语言的相似度度量技术判断形成实例对的两个实例是否匹配,具体方法如下:
[0027]
[0028]
[0029] 其中,e1表示一个实例的实例档案,e2表示另一个实例的实例档案;sim(e1,e2)表示基于e1的两个实例之间的相似度计算函数;sim(e2,e1)表示基于e2的两个实例之间的相似度计算函数;|prof(e1)⌒prof(e2)|为e1和e2中相同元素的个数,|prof(e1)|为e1中元素的个数;|prof(e2)|为e2中元素的个数;
[0030] 若0≤|sim(e1,e2)-sim(e2,e1)|≤σ,σ=0.1,则确定形成实例对的两个实例匹配;
[0031] 步骤3)使用基于进化算法的实例共指消解技术获得最优的实例匹配方案,包括如下步骤:
[0032] 3.1)使用MatchFmeasure评价方法对每次实例对的匹配结果进行评价:
[0033] 3.2)使用进化算法重复步骤2),使用MatchFmeasure评价方法评价每次本体中所有实例的匹配结果,直至得到最优解,最优解为两个本体最优的实例匹配方案。
[0034] 进一步的改进,所述步骤3)中的进化算法为混合进化算法。
[0035] 进一步的改进,所述混合进化算法的适应度函数采用f-measure度量,遗传算子为赌轮盘算子,交叉算子为单点交叉算子。
[0036] 进一步的改进,所述混合进化算法采用局部搜索算法。
[0037] 进一步的改进,所述局部搜索算法为爬山算法。
[0038] 进一步的改进,步骤1.1)中,实例档案中的实例周边实例的信息为通过LOD链接结构连接深度为2的周边实例的集合。
[0039] 本发明的优点:
[0040] 同现有的基于本体的语义相似度度量技术相比:
[0041] (1)无需调试任何参数,应用方便。
[0042] (2)综合使用本体分类结构信息、外部词典信息和本体中实例描述信息,普适性强、语义识别能力高。
[0043] (3)采用了新的非对称式度量结构,提高了语义识别能力。
[0044] 同现有的实例共指消解技术相比:
[0045] (1)通过本体概念层匹配结果来划分待匹配的实例数据集以缩小实例数据集规模、提高匹配的效率。
[0046] (2)首次将实例共指消解问题建模为组合优化问题并设计混合进化算法求解,降低对本体中实例体系结构的依赖,提高了技术的普适性和匹配结果的质量。

具体实施方式

[0047] 实施例1
[0048] (1)基于本体的语义相似度度量技术
[0049] 1)利用本体实例结构,构建实例档案。对于本体概念层的实例,集成其所有子实例的信息作为该实例的档案(即概念档案);对于本体实例层的实例,通过LOD链接集成其周边深度为2的邻居实例的信息作为该实例的档案(即实例档案);实例档案是某个实例对象中属性以及属性值的集合。本体可以划分为概念层和实例层两个部分,概念层描述的领域中某概念的定义方法或定义框架,而实例层利用概念层的定义框架描述具体的数据对象。本体中,概念和实例统称为实体(entity)。
[0050] 2)档案中实例的相似度值是通过基于电子词典Wordnet的度量技术来计算获取。具体地说,给定两个实例w1和w2,如果二者是同义词,那么相似度值等于1;如果w1是w2的上位词(或者w2是w1的上位词),那么相似度值等于0.5;否则通过基于语言的相似度度量技术SMOA来计算二者的相似度值:
[0051] 给定两个实例的实体e1和e2,则基于实体e1和e2的实例相似度值分别计算如下:
[0052]
[0053]
[0054] 其中|prof(e1)⌒prof(e2)|是实例e1和e2的档案中相同元素的个数,|prof(e1)|和|prof(e2)|分别是实例e1和e2中元素的个数。如果0≤|sim(e1,e2)-sim(e2,e1)|≤σ,σ=0.1,则e1和e2在语义上是相似的。通常σ的值应当相对较小以便当e1和e2在语义上相似时,反应出sim(e1,e2)和sim(e2,e1)的差异性。
[0055] 此外,基于混合进化算法的实例共指消解技术
[0056] 使用MatchFmeasure评价方法对概念档案间的匹配结果和实例档案间的匹配结果进行评价。
[0057] 求解上述评价方法的混合进化算法设计如下:
[0058]
[0059] 其中:(1)编码方案。每个个体长度为|entitySet1|+1,其中第1到|entitySet1|位的染色体取值范围为{-1,1,…,|entitySet2|},其中 值为-1则代表该染色体代表的实例没有同任何实例匹配上;第|entitySet1|+1位染色体代表用于过滤匹配结果的阈值,其取值范围为[0,1]。(2)适应度函数。适应度函数采用的是MatchFmeasure度量。(3)遗传算子。选择算子采用的是赌轮盘算子。交叉算子采用的是单点交叉算子。变异算子的设计中,第1
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈