专利汇可以提供一种面向百科网站的知识库融合方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种面向百科 网站 的 知识库 融合方法,对目前影响 力 最大的百度百科、互动百科和中文维基百科的知识卡片(infobox)进行融合。该方法包含以下步骤:步骤1,获取百科网站关于同一实体的查询结果并进行预处理;步骤2,综合概念相似性、属性相似性及上下文相似性特征对百科网站中的实体建立映射关系;步骤3,对已建立映射关系的实体的知识卡片借助外部词典进行属性对齐;步骤4,对属性值存在冲突的属性,根据属性值是单值型和多值型设计单真值发现方案和多真值发现方案;步骤5,输出融合后的属性-属性值对。最终得到的三大百科知识卡片的去除冗余的高可靠性的关于实体的属性-属性值对。,下面是一种面向百科网站的知识库融合方法专利的具体信息内容。
1.一种面向百科网站的知识库融合方法,其特征在于,所述方法包括以下步骤:
(1)获取各百科网站关于同一实体的查询结果,并进行预处理;
(2)综合概念相似性、属性相似性及上下文相似性特征对百科网站中的实体建立映射关系;
(3)对已建立映射关系的实体的知识卡片借助外部词典进行属性对齐;
(4)对属性值存在冲突的属性,基于贝叶斯分析的方法来进行冲突消解;
(5)输出融合后的属性-属性值对。
2.根据权利要求1所述的面向百科网站的知识库融合方法,其特征在于,所述步骤1包括:
(11)基于百科网站针对一个实体查询返回的若干个候选实体,爬取候选实体的义项及对应候选实体页面中的标题、摘要、知识卡片、底部词条分类标签、摘要以及知识卡片中的锚文本;
(12)对于步骤11所获得的摘要,使用ICTCLAS分词器对其进行分词并去除停用词;
(13)将步骤11获取的百科知识卡片中的属性分为对象型、字符串型和数值型,并对数值属性进行归一化。
3.根据权利要求2所述的面向百科网站的知识库融合方法,其特征在于,所述步骤2包括:
(21)计算不同百科间候选实体的概念相似性,包括:
(211)通过下式将不同百科间各候选实体的概念都映射到外部词典《同义词词林扩展版》中:
其中wordi,wordj分别代表这组概念中的某一项在《同义词词林扩展版》中的可能的编码,(wordi-wordj)表示它们之间的距离,距离的具体计算方法为:如果词语A和B在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个词的相似度为0,Sim(A,B)=0;
如果词语A和B在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则A和B的相似性为 其中n是分支层的节点总数,k是两个分支间的距离;
(212)计算两组概念的相似性:
Simconcept(Entity1,Entity2)=∑c1∈C(Entity1)Max(Sim(c1,c2)),c2∈C(Entity2)其中Entity1,Entity2分别是两个不同百科网站中的待对齐实体,C(Entity1),C(Entity2)是它们按照步骤211获得的对应的概念集,c1代表Entity1相关的概念,c2代表Entity2相关的概念,概念相似性Sim(c1,c2)的具体计算方法为:如果概念c1和c2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个概念的相似度为0,Sim(c1,c2)=0;如果概念c1和c2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们相似性为 其中n是分支层的节点总数,k是两个分支间的距
离;
(22)计算不同百科间候选实体的属性相似性,包括:
(221)计算属性类别相似性,l1代表属性1的类别,l2代表Entity2的类别,类别相似性的具体计算方法为:如果类别l1和l2在《同义词词林扩展版》中的编码在第一层开始不一致,则认为这两个类别的相似度为0,Sim(l1,l2)=0;如果类别l1和l2在《同义词词林扩展版》中的编码在第i层开始不一致(i>1),则它们的相似性为 其
中n是分支层的节点总数,k是两个分支间的距离;
(222)根据属性类别相似性计算同类别实体的属性相似性:
Simattribute(Entity1,Entity2)=∑a1∈Att(Entity1)Sim(a1,a2),a2∈Att(Entity2),sim(a1,a2)>θ
其中Att(Entity1)表示Entity1的属性集合,a1属于Entity1,Att(Entity2)表示Entity2的属性集合,a2属于Entity2,θ为阈值,Sim(a1,a2)表示属性名间的表象相似度,通过计算字符串距离得到;
(23)计算不同百科间候选实体的上下文相似性:
其中Simcontext是百科中候选实体的上下文相似性度量,实体Entity1与实体Entity2的上下文相似性度量采用实体Entity2的任一邻居实体分别与实体Entity1的每一个邻居实体进行比较,Max(Sim(a,b))表示取Entity2的邻居实体中与Entity1的邻居实体a相似性的最大值作为Entity2中的邻居实体与Entity1中邻居实体a的上下文相似性;
(24)根据步骤21、22、23的计算结果,根据下式计算不同百科网站间候选实体的相似性:
Sim(E1,E2)=a*simconcept(E1,E2)+b*Simattribute(E1,E2)+c*Simcontext(E1,E2)其中,a,b,c分别是概念相似性的权重,属性相似性的权重和上下文相似性的权重。
4.根据权利要求1所述的面向百科网站的知识库融合方法,其特征在于,所述步骤3包括:
(31)将各百科候选实体知识卡片的属性划分为对象型、字符串型和数值型,并对在同一数据源中的属性按类型进行分块,属性类型识别使用NLPIR分词系统进行识别;
(32)在同类属性块间进行不同百科知识卡片的对齐:
如果属性名间的表象相似度大于第一阈值并且属性值相似度大于第二阈值,则认为该属性对共指,其中表象相似度使用字符串距离来计算;
在同类型属性对之间通过属性名在《同义词词林扩展版》中位置的比较来发现属性名之间是否存在同义关系,如果属性名间的表象相似度大于第三阈值,则将它们合并。
5.根据权利要求1所述的面向百科网站的知识库融合方法,其特征在于,所述步骤4包括:
(41)通过分过分层抽样的方法引入先验知识从而为各大百科分配可信度初始权重;
(42)通过贝叶斯分析的方式为待求真属性求出最可能为真的属性值;
(43)更新数据源的权重。
6.根据权利要求5所述的面向百科网站的知识库融合方法,其特征在于,所述步骤41包括:
(411)将所有存在冲突的属性值按照数据源-属性值的次序集中在一起,根据属性的冲突程度进行排序,冲突程度用信息熵来度量,其计算公式为:
其中 是为属性a提供属性值v的数据源数量,|Sa|是为属性a提供属性值的所有数据源的数量,V为属性值集合;
(412)依据属性值的冲突程度将属性分为三个层次,用α1、α2作为界值,Diff(a)<α1属于冲突小的属性,对应第一级求真难度,α1≤Diff(a)≤α2属于冲突中等的属性,对应第二级求真难度,Diff(a)>α2属于冲突程度大的属性,对应第三级求真难度,对这三个层次的属性分层进行随机取样,根据已知的真值和百科数据源所给值的情况来对数据源进行评分,其中对于单真值发现方法,初始权重只有精度,其计算公式为:
其中Vi表示数据源si为相应属性所提供的值,Vc表示这些值存在冲突的属性的正确属性值,Inter(Vi,Vc)是数据源si提供的正确属性值的个数,即对于存在冲突的属性中,数据源i提供了多少真值, 表示为该存在冲突的属性a提供了值的数据源的个数, 表示为属性a提供了正确属性值的数据源个数;
对于多真值发现,其计算方法为:
其中Vj为第j个属性的完整真值列表, 为数据源i提供的关于属性j的多值列表,对于数据源si,V′j是其它数据源提供的关于第j个属性的错误值集合, 表示
为数据源si提供的属性值列表与完整真值列表的交
集, 表示数据源si关于第j个属性时所得的准确性分数, 表示数据源si关于第j个属性的排除错误数值的正确率;
(413)通过分层抽样,对于单值属性数据源的准确性,其初始分数的计算公式为:
Pre(si)=w1·simple+w2·medium+w3·difficult
对于多值属性数据源的查准率和正确排除率,其初始分数的计算公式为:
其中, 分别是数据源si在第一级、第二级、第三
级求真难度获得的分数,其计算方式在(412)中已介绍,等级的划分用(411)中给出的信息熵来划分,w1,w2,w3分别为分配给三个等级的权重,Pre(si)表示数据源si在提供该属性值上的精度,表示数据源si提供的值是正确值的可能性分数,Tne(si)表示数据源si没有提供的属性值是错误值的可能性分数,Pre(si)和Tne(si)是数据源si的准确性与排除错误值的准确性的初始权重。
7.根据权利要求6所述的面向百科网站的知识库融合方法,其特征在于,所述步骤42包括:
(421)α(v)为属性值v为真的先验概率,其计算公式为:
其中 为所有为属性a提供原子属性值v的数据源集合,Sa为所有为属性a提供属性值的数据源集合;
(422)α′(v)为属性值v为真的后验概率,其计算公式为:
其中 是属性值v为真条件下各数据源的可靠概率, 是属性值v为
假条件下各数据源可靠的概率,其中
对于单值型属性,考虑所有提供其值和未提供其值的数据源的准确性, 和的计算公式分别为:
其中 为所有为属性a提供原子属性值v的数据源集合, 为所有没有为属性a提供属性值v的数据源的集合,单值型属性最后返回大于预先所设阈值的为真概率最大的属性值;
对于多真值属性返回的是大于所设阈值的一组原子值, 和 的计
算公式分别为;
其中 为所有为属性a提供属性值v的数据源集合, 为所有没有为属性a提供属性值v的数据源的集合。
8.根据权利要求7所述的面向百科网站的知识库融合方法,其特征在于,所述步骤43包括:
对于单真值发现方法,将数据源的准确性进行更新,计算方法公式为:
对于多真值发现方法,将数据源的准确性进行更新,并将数据源的对错误值的排除的准确性进行更新,其计算公式为:
其中|A(si)|为数据源si提供的属性值的个数。
9.根据权利要求3所述的面向百科网站的知识库融合方法,其特征在于,所述字符串距离包括编辑距离、Jaccard系数、余弦相似性、欧氏距离中的任一种。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种聚碳酸酯组合物及其制备方法 | 2020-05-11 | 1024 |
用于自然语言精准检索的结构化查询语句生成系统及方法 | 2020-05-16 | 672 |
一种文本解析方法及装置 | 2020-05-18 | 1010 |
沼液理化指标近红外光谱同步快速检测方法 | 2020-05-25 | 818 |
沼液理化指标近红外光谱同步快速检测方法 | 2020-05-15 | 37 |
一种用于公共安全领域大数据知识图谱的自动化构建方法 | 2020-05-23 | 651 |
基于动态图谱链接分析的领域搜索排序方法 | 2020-05-08 | 972 |
基于电网调度知识图谱的语音合成方法、系统及电子设备 | 2020-05-20 | 858 |
一种基于环保目标约束的电能替代策略实施的运行方法 | 2020-05-12 | 710 |
基于天地一体化信息的PM2.5浓度监测方法 | 2020-05-13 | 902 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。