首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 共指消解 / 一种面向百科网站的知识库融合方法

一种面向百科网站知识库融合方法

阅读:354发布:2020-05-18

专利汇可以提供一种面向百科网站知识库融合方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种面向百科 网站 的 知识库 融合方法,对目前影响 力 最大的百度百科、互动百科和中文维基百科的知识卡片(infobox)进行融合。该方法包含以下步骤:步骤1,获取百科网站关于同一实体的查询结果并进行预处理;步骤2,综合概念相似性、属性相似性及上下文相似性特征对百科网站中的实体建立映射关系;步骤3,对已建立映射关系的实体的知识卡片借助外部词典进行属性对齐;步骤4,对属性值存在冲突的属性,根据属性值是单值型和多值型设计单真值发现方案和多真值发现方案;步骤5,输出融合后的属性-属性值对。最终得到的三大百科知识卡片的去除冗余的高可靠性的关于实体的属性-属性值对。,下面是一种面向百科网站知识库融合方法专利的具体信息内容。

1.一种面向百科网站知识库融合方法,其特征在于,所述方法包括以下步骤:
(1)获取各百科网站关于同一实体的查询结果,并进行预处理;
(2)综合概念相似性、属性相似性及上下文相似性特征对百科网站中的实体建立映射关系;
(3)对已建立映射关系的实体的知识卡片借助外部词典进行属性对齐;
(4)对属性值存在冲突的属性,基于贝叶斯分析的方法来进行冲突消解;
(5)输出融合后的属性-属性值对。
2.根据权利要求1所述的面向百科网站的知识库融合方法,其特征在于,所述步骤1包括:
(11)基于百科网站针对一个实体查询返回的若干个候选实体,爬取候选实体的义项及对应候选实体页面中的标题、摘要、知识卡片、底部词条分类标签、摘要以及知识卡片中的锚文本;
(12)对于步骤11所获得的摘要,使用ICTCLAS分词器对其进行分词并去除停用词;
(13)将步骤11获取的百科知识卡片中的属性分为对象型、字符串型和数值型,并对数值属性进行归一化。
3.根据权利要求2所述的面向百科网站的知识库融合方法,其特征在于,所述步骤2包括:
(21)计算不同百科间候选实体的概念相似性,包括:
(211)通过下式将不同百科间各候选实体的概念都映射到外部词典《同义词词林扩展版》中:
其中wordi,wordj分别代表这组概念中的某一项在《同义词词林扩展版》中的可能的编码,(wordi-wordj)表示它们之间的距离,距离的具体计算方法为:如果词语A和B在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个词的相似度为0,Sim(A,B)=0;
如果词语A和B在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则A和B的相似性为 其中n是分支层的节点总数,k是两个分支间的距离;
(212)计算两组概念的相似性:
Simconcept(Entity1,Entity2)=∑c1∈C(Entity1)Max(Sim(c1,c2)),c2∈C(Entity2)其中Entity1,Entity2分别是两个不同百科网站中的待对齐实体,C(Entity1),C(Entity2)是它们按照步骤211获得的对应的概念集,c1代表Entity1相关的概念,c2代表Entity2相关的概念,概念相似性Sim(c1,c2)的具体计算方法为:如果概念c1和c2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个概念的相似度为0,Sim(c1,c2)=0;如果概念c1和c2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们相似性为 其中n是分支层的节点总数,k是两个分支间的距
离;
(22)计算不同百科间候选实体的属性相似性,包括:
(221)计算属性类别相似性,l1代表属性1的类别,l2代表Entity2的类别,类别相似性的具体计算方法为:如果类别l1和l2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个类别的相似度为0,Sim(l1,l2)=0;如果类别l1和l2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们的相似性为 其
中n是分支层的节点总数,k是两个分支间的距离;
(222)根据属性类别相似性计算同类别实体的属性相似性:
Simattribute(Entity1,Entity2)=∑a1∈Att(Entity1)Sim(a1,a2),a2∈Att(Entity2),sim(a1,a2)>θ
其中Att(Entity1)表示Entity1的属性集合,a1属于Entity1,Att(Entity2)表示Entity2的属性集合,a2属于Entity2,θ为阈值,Sim(a1,a2)表示属性名间的表象相似度,通过计算字符串距离得到;
(23)计算不同百科间候选实体的上下文相似性:
其中Simcontext是百科中候选实体的上下文相似性度量,实体Entity1与实体Entity2的上下文相似性度量采用实体Entity2的任一邻居实体分别与实体Entity1的每一个邻居实体进行比较,Max(Sim(a,b))表示取Entity2的邻居实体中与Entity1的邻居实体a相似性的最大值作为Entity2中的邻居实体与Entity1中邻居实体a的上下文相似性;
(24)根据步骤21、22、23的计算结果,根据下式计算不同百科网站间候选实体的相似性:
Sim(E1,E2)=a*simconcept(E1,E2)+b*Simattribute(E1,E2)+c*Simcontext(E1,E2)其中,a,b,c分别是概念相似性的权重,属性相似性的权重和上下文相似性的权重。
4.根据权利要求1所述的面向百科网站的知识库融合方法,其特征在于,所述步骤3包括:
(31)将各百科候选实体知识卡片的属性划分为对象型、字符串型和数值型,并对在同一数据源中的属性按类型进行分,属性类型识别使用NLPIR分词系统进行识别;
(32)在同类属性块间进行不同百科知识卡片的对齐:
如果属性名间的表象相似度大于第一阈值并且属性值相似度大于第二阈值,则认为该属性对共指,其中表象相似度使用字符串距离来计算;
在同类型属性对之间通过属性名在《同义词词林扩展版》中位置的比较来发现属性名之间是否存在同义关系,如果属性名间的表象相似度大于第三阈值,则将它们合并。
5.根据权利要求1所述的面向百科网站的知识库融合方法,其特征在于,所述步骤4包括:
(41)通过分过分层抽样的方法引入先验知识从而为各大百科分配可信度初始权重;
(42)通过贝叶斯分析的方式为待求真属性求出最可能为真的属性值;
(43)更新数据源的权重。
6.根据权利要求5所述的面向百科网站的知识库融合方法,其特征在于,所述步骤41包括:
(411)将所有存在冲突的属性值按照数据源-属性值的次序集中在一起,根据属性的冲突程度进行排序,冲突程度用信息熵来度量,其计算公式为:
其中 是为属性a提供属性值v的数据源数量,|Sa|是为属性a提供属性值的所有数据源的数量,V为属性值集合;
(412)依据属性值的冲突程度将属性分为三个层次,用α1、α2作为界值,Diff(a)<α1属于冲突小的属性,对应第一级求真难度,α1≤Diff(a)≤α2属于冲突中等的属性,对应第二级求真难度,Diff(a)>α2属于冲突程度大的属性,对应第三级求真难度,对这三个层次的属性分层进行随机取样,根据已知的真值和百科数据源所给值的情况来对数据源进行评分,其中对于单真值发现方法,初始权重只有精度,其计算公式为:
其中Vi表示数据源si为相应属性所提供的值,Vc表示这些值存在冲突的属性的正确属性值,Inter(Vi,Vc)是数据源si提供的正确属性值的个数,即对于存在冲突的属性中,数据源i提供了多少真值, 表示为该存在冲突的属性a提供了值的数据源的个数, 表示为属性a提供了正确属性值的数据源个数;
对于多真值发现,其计算方法为:
其中Vj为第j个属性的完整真值列表, 为数据源i提供的关于属性j的多值列表,对于数据源si,V′j是其它数据源提供的关于第j个属性的错误值集合, 表示
为数据源si提供的属性值列表与完整真值列表的交
集, 表示数据源si关于第j个属性时所得的准确性分数, 表示数据源si关于第j个属性的排除错误数值的正确率;
(413)通过分层抽样,对于单值属性数据源的准确性,其初始分数的计算公式为:
Pre(si)=w1·simple+w2·medium+w3·difficult
对于多值属性数据源的查准率和正确排除率,其初始分数的计算公式为:
其中, 分别是数据源si在第一级、第二级、第三
级求真难度获得的分数,其计算方式在(412)中已介绍,等级的划分用(411)中给出的信息熵来划分,w1,w2,w3分别为分配给三个等级的权重,Pre(si)表示数据源si在提供该属性值上的精度,表示数据源si提供的值是正确值的可能性分数,Tne(si)表示数据源si没有提供的属性值是错误值的可能性分数,Pre(si)和Tne(si)是数据源si的准确性与排除错误值的准确性的初始权重。
7.根据权利要求6所述的面向百科网站的知识库融合方法,其特征在于,所述步骤42包括:
(421)α(v)为属性值v为真的先验概率,其计算公式为:
其中 为所有为属性a提供原子属性值v的数据源集合,Sa为所有为属性a提供属性值的数据源集合;
(422)α′(v)为属性值v为真的后验概率,其计算公式为:
其中 是属性值v为真条件下各数据源的可靠概率, 是属性值v为
假条件下各数据源可靠的概率,其中
对于单值型属性,考虑所有提供其值和未提供其值的数据源的准确性, 和的计算公式分别为:
其中 为所有为属性a提供原子属性值v的数据源集合, 为所有没有为属性a提供属性值v的数据源的集合,单值型属性最后返回大于预先所设阈值的为真概率最大的属性值;
对于多真值属性返回的是大于所设阈值的一组原子值, 和 的计
算公式分别为;
其中 为所有为属性a提供属性值v的数据源集合, 为所有没有为属性a提供属性值v的数据源的集合。
8.根据权利要求7所述的面向百科网站的知识库融合方法,其特征在于,所述步骤43包括:
对于单真值发现方法,将数据源的准确性进行更新,计算方法公式为:
对于多真值发现方法,将数据源的准确性进行更新,并将数据源的对错误值的排除的准确性进行更新,其计算公式为:
其中|A(si)|为数据源si提供的属性值的个数。
9.根据权利要求3所述的面向百科网站的知识库融合方法,其特征在于,所述字符串距离包括编辑距离、Jaccard系数、余弦相似性、欧氏距离中的任一种。

说明书全文

一种面向百科网站知识库融合方法

技术领域

[0001] 本发明涉及知识库融合,具体涉及一种面向百科网站的知识库融合方法。

背景技术

[0002] 数据为王的大数据时代已到来,数据管理和知识工程也承担着愈加重要的色。知识库对于搜索、机器翻译和智能问答等应用具有重要支撑作用,为了高效地管理和获取所需知识,国内外很多学者都投入了知识库构建的研究,如国外的YAGO,DBpedia,Freebase,Nell,Knowledge Vault,国内的CN-DBpedia,Zhishi.me,XLORE等。
[0003] 目前知识库构建工作硕果累累,但这些构建完成的知识库大都是分散的、独立自治的,各自的知识体系结构和描述侧重点存在差异。例如YAGO的主要数据来源是Wikipedia,在此基础上增加了WordNet中的语义知识,YAGO2增加了GeoNames,但其覆盖范围仍很大程度上局限于Wikipedia中的知识;DBpedia也主要以Wikipedia中的半结构化的知识卡片作为主要的数据来源;Freebase是Google旗下的一个众包模式的知识库,其中超过70%的人物没有出生地和国籍,对于更特殊的属性的覆盖度之低可想而知;CN-DBpedia主要抽取百度百科中的知识来构建知识图谱;Zhishi.me进行了基于多百科数据源知识库构建的探索,从中文维基百科、百度百科、互动百科中抽取知识,截止至2019年4月,已从百度百科中抽取了14307056个实体,从互动百科中抽取了5521163个实体,从中文维基百科中抽取了903462个实体,但其更侧重于抽取而不是融合。知识库总体存在知识重复、不完整、质量参差不齐等问题,不同知识库的取长补短显得越来越重要。因此,为了更高效地获得和管理知识,对多个知识库进行融合、构建一个完整、可信度高、冗余度低的大知识库的方法的探索,具有重要的研究和实用意义。
[0004] 对于中文知识库的融合,为了得到更丰富、准确的实体信息,需要解决以下问题:(1)本地知识库中的实体名在其它知识库中常含有歧义。(2)表征相同的属性在不同知识库中的描述存在差异。(3)不同知识库对于同一对象的同一属性给出的值不一致。对于这些问题当前尚未有较好的解决方法。

发明内容

[0005] 发明目的:针对现有技术的问题,本发明提出一种面向百科网站的知识库融合方法,很好地解决了知识重复、不完整和不一致等问题,能够获得关于实体的更丰富、更准确的信息。
[0006] 技术方案:本发明提供一种面向百科网站的知识库融合方法,所述方法包括以下步骤:
[0007] (1)获取各百科网站关于同一实体的查询结果,并进行预处理;
[0008] (2)综合概念相似性、属性相似性及上下文相似性特征对百科网站中的实体建立映射关系;
[0009] (3)对已建立映射关系的实体的知识卡片借助外部词典进行属性对齐;
[0010] (4)对属性值存在冲突的属性,基于贝叶斯分析的方法来进行冲突消解;
[0011] (5)输出融合后的属性-属性值对。
[0012] 进一步地,所述步骤1包括:
[0013] (11)基于百科网站针对一个实体查询返回的若干个候选实体,爬取候选实体的义项及对应候选实体页面中的标题、摘要、知识卡片、底部词条分类标签、摘要以及知识卡片中的锚文本;
[0014] (12)对于步骤11所获得的摘要,使用ICTCLAS分词器对其进行分词并去除停用词;
[0015] (13)将步骤11获取的百科知识卡片中的属性分为对象型、字符串型和数值型,并对数值属性进行归一化。
[0016] 进一步地,所述步骤2包括:
[0017] (21)计算不同百科间候选实体的概念相似性,包括:
[0018] (211)通过下式将不同百科间各候选实体的概念都映射到外部词典《同义词词林扩展版》中:
[0019]
[0020] 其中wordi,wordj分别代表这组概念中的某一项在《同义词词林扩展版》中的可能的编码,(wordi-wordj)表示它们之间的距离,距离的具体计算方法为:如果词语A和B在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个词的相似度为0,Sim(A,B)=0;如果词语A和B在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则A和B的相似性为 其中n是分支层的节点总数,k是两个分支间的距离;
[0021] (212)计算两组概念的相似性:
[0022] Simconcept(Entity1,Entity2)=∑c1∈c(Entity1)Max(Sim(c1,c2)),c2∈C(Entity2)[0023] 其中Entity1,Entity2分别是两个不同百科网站中的待对齐实体,C(Entity1),C(Entity2)是它们按照步骤211获得的对应的概念集,c1代表Entity1相关的概念,c2代表Entity2相关的概念,概念相似性Sim(c1,c2)的具体计算方法为:如果概念c1和c2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个概念的相似度为0,Sim(cl,c2)=0;如果概念c1和c2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们相似性为 其中n是分支层的节点总数,k是两个分支间的距离;
[0024] (22)计算不同百科间候选实体的属性相似性,包括:
[0025] (221)计算属性类别相似性,l1代表属性1的类别,l2代表Entity2的类别,类别相似性的具体计算方法为:如果类别l1和l2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个类别的相似度为0,Sim(l1,l2)=0;如果类别l1和l2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们的相似性为其中n是分支层的节点总数,k是两个分支间的距离;
[0026] (222)根据属性类别相似性计算同类别实体的属性相似性:
[0027] Simattribute(Entity1,Entity2)=∑a1∈Att(Entity1)Sim(a1,a2),a2∈Att(Entity2),sim(a1,a2)>θ
[0028] 其中Att(Entity1)表示Entity1的属性集合,a1属于Entity1,Att(Entity2)表示Entity2的属性集合,a2属于Entity2,θ为阈值,Sim(a1,a2)表示属性名间的表象相似度,通过计算字符串距离得到;
[0029] (23)计算不同百科间候选实体的上下文相似性:
[0030]
[0031] 其中Simcontext是百科中候选实体的上下文相似性度量,实体Entity1与实体Entity2的上下文相似性度量采用实体Entity2的任一邻居实体分别与实体Entityl的每一个邻居实体进行比较,Max(Sim(a,b))表示取Entity2的邻居实体中与Entity1的邻居实体a相似性的最大值作为Entity2中的邻居实体与Entity1中邻居实体a的上下文相似性;
[0032] (24)根据步骤21、22、23的计算结果,根据下式计算不同百科网站间候选实体的相似性:
[0033] Sim(E1,E2)=a*Simconcept(E1,E2)+b*Simattribute(E1,E2)+c*Simcontext(E1,E2)[0034] 其中,a,b,c分别是概念相似性的权重,属性相似性的权重和上下文相似性的权重。
[0035] 进一步地,所述步骤3包括:
[0036] (31)将各百科候选实体知识卡片的属性划分为对象型、字符串型和数值型,并对在同一数据源中的属性按类型进行分,属性类型识别使用NLPIR分词系统进行识别;
[0037] (32)在同类属性块间进行不同百科知识卡片的对齐:
[0038] 如果属性名间的表象相似度大于第一阈值并且属性值相似度大于第二阈值,则认为该属性对共指,其中表象相似度使用字符串距离来计算;
[0039] 在同类型属性对之间通过属性名在《同义词词林扩展版》中位置的比较来发现属性名之间是否存在同义关系,如果属性名间的表象相似度大于第三阈值,则将它们合并。
[0040] 进一步地,所述步骤4包括:
[0041] (41)通过分过分层抽样的方法引入先验知识从而为各大百科分配可信度初始权重;
[0042] (42)通过贝叶斯分析的方式为待求真属性求出最可能为真的属性值;
[0043] (43)更新数据源的权重。
[0044] 有益效果:目前已有的百科知识库融合方法主要还是研究实体的对齐,关于实体属性的对齐以及属性值冲突解决的系统性研究尚不多见,本发明首次提出了根据实体属性进行对齐并对属性值冲突进行消除的系统性方案,在一定程度上解决了知识库融合过程中可能存在的一系列问题。本发明通过充分挖掘百科网站中实体的概念特征、属性特征、上下文特征这三个维度的特征来对实体进行消歧,以便为知识卡片建立起映射,在此过程中借助外部词典来进行语义消歧。为降低三大百科知识卡片的冗余度,本发明提出借助外部词典《同义词词林扩展版》来进行属性对齐,并对属性表达方式进行归一处理。针对三大百科可能为同一实体的同一属性提供不同属性值的问题,本发明提出基于贝叶斯分析的方法进行属性值冲突消解。最终得到三大百科知识卡片去除冗余的高可靠性的关于实体的属性-属性值对。附图说明
[0045] 图1为根据本发明实施例的知识库融合方法流程图

具体实施方式

[0046] 下面结合附图对本发明的技术方案作进一步说明。应当了解,以下提供的实施例仅是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的技术构思,本发明还可以用许多不同的形式来实施,并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。
[0047] 百科网站具有一个页面主要围绕一个实体进行全方面的介绍、在同一个百科网站中的页面的组织结构类似的,因此抽取难度较小、百科网站中实体页面内容的质量比较高等优点,是重要的知识来源。在一个实施例中,本发明提出一种对中文维基百科、百度百科、互动百科的知识卡片的内容进行融合,探索知识重复、不完整和不一致等问题的解决办法,以获得关于实体的更丰富、更准确的信息。如图1所示,本发明所提及的面向三大百科知识卡片融合的方法是按如下流程逐步进行的:首先将经过数据预处理后得到的三大百科关于同一实体的查询结果输入实体消歧模块,然后基于概念相似性、属性相似性和上下文相似性特征将三大百科对应的百科页面建立映射。随后,需要将建立映射的百科页面的知识卡片进行融合,本发明主要将知识卡片上的属性映射到《同义词词林扩展版》中,通过比较不同百科中的属性名在词典上的位置来进行属性对齐。最后,已经对齐的属性不同百科提供的属性值可能存在冲突,本发明通过基于贝叶斯分析的方法来进行冲突消解。
[0048] 参照图1,一种面向三大百科知识卡片融合的方法,包括以下步骤:
[0049] 步骤1,输入三大百科关于同一实体的查询结果。
[0050] 具体过程如下:
[0051] 步骤11,实体名称可能存在歧义,百科网站针对一个实体查询可能会返回若干个候选实体,爬取候选实体的义项及对应候选实体页面中的标题、摘要、知识卡片(infobox)、底部词条分类标签、摘要以及知识卡片中的锚文本。
[0052] 步骤12,对于步骤11所获得的摘要,使用允许添加自定义词典的中科院计算研究所公开的ICTCLAS分词器对其进行分词并去除停用词;
[0053] 步骤13,将步骤1获取的三大百科的知识卡片中的属性分为对象型、字符串型和数值型,并对数值属性进行归一化。
[0054] 步骤2,综合概念相似性、属性相似性及上下文相似性特征对三大百科网站中的实体建立映射关系。
[0055] 具体过程如下:
[0056] 步骤21,计算不同百科间候选实体的概念相似性。该方法对于候选实体概念的提取主要通过候选实体的词条标签和其义项中的概念特征的组合。将不同百科间各候选实体的概念都映射到外部词典《同义词词林扩展版中》,通过挖掘两组概念在《同义词词林扩展版》中的位置关系来计算它们概念的相似性。由于一个词可能有多个意思,而该词在表示不同语义时它的同义词也不同,因此《同义词词林扩展版》中一个词可能会有多个编码。该方法通过使这组概念特征的距离最小的原则来处理歧义问题,即要下式的值最小,从而将候选实体的概念成功映射到《同义词词林扩展版》中。
[0057]
[0058] 其中wordi,wordj分别代表这组概念中的某一项在《同义词词林扩展版》中的可能的编码,(wordi-wordj)表示它们之间的距离,距离的具体计算方法为:如果词语A和B在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个词的相似度为0,Sim(A,B)=0;如果词语A和B在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则A和B的相似性为 其中n是分支层的节点总数,k是两个分支间的距离。在成功将各百科候选实体的概念映射到《同义词词林扩展版》中后,两组概念的相似性计算方法如下:
[0059] Simconcept(Entity1,Entity2)=∑c1∈C(Entity1)Max(Sim(c1,c2)),c2∈C(Entity2)[0060] 其中Entity1,Entity2分别是两个不同百科网站中的待对齐实体,C(Entity1),C(Entity2)是它们按照上述方法获得的对应的概念集。c1代表Entity1相关的概念,c2代表Entity2相关的概念,概念相似性Sim(c1,c2)的具体计算方法为:如果概念c1和c2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个概念的相似度为0,Sim(c1,c2)=0;如果概念c1和c2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们相似性为 其中n是分支层的节点总数,k是两个分支间的距离。
[0061] 步骤22,计算不同百科间候选实体的属性相似性。该方法中的属性相似度比较主要分为属性类别相似性比较和属性值相似性比较两个部分。属性类别相似性比较是考虑到如果两个百科网站中候选实体的知识卡片中的属性表征类别相距甚远,那么这两个实体共指的可能性将降低。属性类别相似性比较同步骤21,具体地,l1代表属性1的类别,l2代表Entity2的类别,类别相似性计算方法为:如果类别l1和l2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个类别的相似度为0,Sim(l1,l2)=0;如果类别l1和l2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们的相似性为其中n是分支层的节点总数,k是两个分支间的距离。
[0062] 根据属性类别相似性计算同类别实体的属性相似性:
[0063] Simattribute(Entity1,Entity2)=∑a1∈Att(Entity1)Sim(a1,a2),a2∈Att(Entity2),sim(a1,a2)>θ
[0064] 其中Att(Entity1)表示Entity1的属性集合,a1属于Entity1,Att(Entity2)表示Entity2的属性集合,a2属于Entity2,θ为阈值,Sim(a1,a2)表示属性名间的表象相似度。
[0065] 属性值相似性比较的主要方法如下:如果属性名间的表象相似度大于阈值并且属性值相似度大于阈值,则认为该属性对共指,表象相似度度量一般通过简单的字符串距离计算,例如编辑距离或Jaccard系数、余弦相似性、欧氏距离等。
[0066] 步骤23,计算不同百科间候选实体的上下文相似性。该方法中的上下文关系主要通过提取百科实体的摘要和知识卡片中的锚文本中来获得,计算公式如下:
[0067]
[0068] 其中Simcontext是百科中候选实体的上下文相似性度量,实体Entity1与实体Entity2的上下文相似性度量采用实体Entity2的任一邻居实体分别与实体Entity1的每一个邻居实体进行比较,取相似性最大值作为Entity2中的该邻居与Entity1中邻居实体的相似性,然后进行求和。百科网站中候选实体的邻居主要是该实体页面中摘要和知识卡片中的锚文本所指向的实体。
[0069] 步骤24,计算不同百科网站间候选实体的相似性。根据步骤21,22,23,候选实体的基于多特征的相似性计算公式为:
[0070] Sim(E1,E2)=a*simconcept(E1,E2)+b*Simattribute(E1,E2)+c*Simcontext(E1,E2)[0071] 步骤3,对已建立映射关系的实体的知识卡片借助外部词典进行属性对齐。
[0072] 具体过程如下:
[0073] 步骤31,将各百科候选实体知识卡片的属性划分为对象型、字符串型和数值型,并对在同一数据源中的属性按类型进行分块,属性类型识别使用中科院开发的可添加用户自定义词典的NLPIR分词系统进行识别;
[0074] 步骤32,不同百科知识卡片的对齐只在同类属性块间进行,是否可对齐判断方法如下:
[0075] 如果属性名间的表象相似度大于阈值μ1并且属性值相似度大于阈值μ2,则认为该属性对共指,表象相似度度量使用字符串距离来计算;
[0076] 在同类型属性对之间通过属性名在《同义词词林扩展版》中位置的比较来发现属性名之间是否存在同义关系,如果属性名相似性大于阈值μ3,则认为其可以合并。
[0077] 步骤4,对属性值存在冲突的属性,根据属性值是单值型和多值型设计单真值发现方案和多真值发现方案。
[0078] 具体过程如下:
[0079] 步骤41,通过分过分层抽样的方法引入少量先验知识从而为各大百科分配可信度初始权重;
[0080] 所述步骤41的具体过程如下:
[0081] 步骤411,将所有存在冲突的属性值按照数据源-属性值的次序集中在一起,根据属性的冲突程度进行排序,冲突程度用信息熵来度量,其计算公式为:
[0082]
[0083] 其中 是为属性a提供属性值v的数据源数量,|Sa|是为属性a提供属性值的所有数据源的数量,V为属性值集合。
[0084] 步骤412,依据属性值的冲突程度将属性分为三个层次,用α1、α2作为界值,Diff(a)<α1属于冲突小的属性,求真难度较低,α1≤Diff(a)≤α2属于冲突中等的属性,求真难度中等,Diff(a)>α2属于冲突程度较大的属性,求真难度很大。然后对这三个层次的属性分层进行随机取样,通过官方数据或咨询专家的方式来人工确定真值,根据已知的真值和三大数据源所给值的情况来对数据源进行评分。在这里单真值发现和多真值发现需要进行区分,对于单真值发现方法,初始权重只有精度,其计算公式为:
[0085]
[0086] 其中Vi表示数据源si为相应属性所提供的值,Vc表示这些值存在冲突的属性的正确属性值,Inter(Vi,Vc)是数据源si提供的正确属性值的个数,即对于存在冲突的属性中,数据源i提供了多少真值, 表示为该存在冲突的属性a提供了值的数据源的个数, 表示为属性a提供了正确属性值的数据源个数。
[0087] 在多真值发现问题中,不仅要考察数据源的查准率,即由该数据源提供的属性值为真的概率,还要考察其排除错误值的准确率,即该数据源没有提供的属性值为错误值的概率,也就是排除错误的准确率,其计算方法为:
[0088]
[0089]
[0090] 其中Vj为第j个属性的完整真值列表, 为数据源i提供的关于属性j的多值列表,i i对于数据源si,V′j是其它数据源提供的关于第j个属性的错误值集合,TVj 表示V′j-(Vj -Inter(Vji,Vj)),Inter(Vji,Vj)为数据源si提供的属性值列表与完整真值列表的交集,Pre(Vji)表示数据源si关于第j个属性时所得的准确性分数,其原理为 Tne(Vji)表示数据源si关于第j个属性的排除错误数值的正确率,其原理为: 步骤413,通过分层抽样,最终对于单值属性数据源的准确性,其初始分数的计算公式为:
[0091] Pre(si)=w1·simple+w2·medium+w3·difficult
[0092] 对于多值属性数据源的查准率和正确排除率,其初始分数的计算公式为:
[0093]
[0094]
[0095] 其中, 分别是数据源si在求真难度简单、中等和难度较大三个层次获得的分数,其计算方式在(412)中已介绍,等级的划分用(411)中给出的信息熵来划分,w1,w2,w3分别为分配给三个等级的权重。Pre(si)表示数据源si在提供该属性值上的精度,表示数据源si提供的值是正确值的可能性分数,Tne(si)表示数据源si没有提供的属性值是错误值的可能性分数,Pre(si)和Tne(si)是数据源si的准确性与排除错误值的准确性的初始权重。
[0096] 步骤42,通过贝叶斯分析的方式为待求真属性求出最可能为真的属性值;
[0097] 所述步骤42的具体过程如下:
[0098] 步骤421,α(v)为属性值v为真的先验概率,其计算公式为:
[0099]
[0100] 其中 为所有为属性a提供原子属性值v的数据源集合,Sa为所有为属性a提供属性值的数据源集合。
[0101] 步骤422,α′(v)为属性值v为真的后验概率,其计算公式为:
[0102]
[0103] 其中 是属性值v为真条件下各数据源的可靠概率, 是属性值v为假条件下各数据源可靠的概率,单真值发现方案与多真值发现方案在这两个条件概率的计算方法上有所区别。
[0104] 对于单值型属性主要考虑所有提供其值和未提供其值的数据源的准确性。和 的计算公式分别为:
[0105]
[0106]
[0107] 其中 为所有为属性a提供原子属性值v的数据源集合, 为所有没有为属性a提供属性值v的数据源的集合。因可能存在所有数据源都没有能提供真值,因此对于单真值发现方案和多真值发现方案都应设置一定的阈值以避免把错误值当作真值输出。对于单值型属性最后返回的是大于预先所设阈值的为真概率最大的属性值。
[0108] 对于多真值属性返回的是大于所设阈值的一组原子值。因为其真值个数多于一个,此时不同数据源对于同一属性给出的属性值可能是相互补充的,这种情况下将综合考虑各个数据源提供知识的准确度和完整度,首先统计出所有不重复的值,考虑所有提供该值的数据源的准确率和未提供该值的数据源的排除错误值的准确性,通过贝叶斯分析依次计算每个值为真的后验概率, 和 的计算公式分别为;
[0109]
[0110]
[0111] 其中 为所有为属性a提供属性值v的数据源集合, 为所有没有为属性a提供属性值v的数据源的集合。
[0112] 步骤43,更新数据源的权重。
[0113] 所述步骤43的具体过程如下:
[0114] 对于单真值发现方法只需要将数据源的准确性进行更新,计算方法公式为:
[0115]
[0116] 对于多真值发现方法,不仅要将数据源的准确性进行更新,也需要将数据源的对错误值的排除的准确性进行更新,其计算公式为:
[0117]
[0118]
[0119] 其中|A(si)|为数据源si提供的属性值的个数。
[0120] 步骤5,经过步骤41-43可得出存在冲突的属性值中各候选属性值为真的概率,则对于单值型属性最后可得出最可能为真的候选属性值,对于多值性属性最后可得出最可能为真的一组属性值,从而输出融合后的属性-属性值对。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈