首页 / 专利库 / 人工智能 / 数据库知识发现 / 一种融合MKD和KG的甲骨学知识图谱构建方法

一种融合MKD和KG的甲骨学知识图谱构建方法

阅读:405发布:2020-05-12

专利汇可以提供一种融合MKD和KG的甲骨学知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种融合MKD和KG的甲骨学知识图谱构建方法及系统,构建方法包括以下步骤:S1、分别对甲骨文文献、甲骨文 数据库 、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;S2、对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库、甲骨文本体库进行实体对齐和关系融合,构成融合图谱;S3、挖掘获取隐含语义关系;S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱。本发明中MKD以甲骨文文献为主要研究对象,KG以甲骨文语料为主要研究对象,将MKD和KG两类知识图谱相结合,通过实体对齐和关系融合,并结合隐含语义构建甲骨学知识图谱,从而发现显式的实体和关系背后隐藏的潜在实体和关系,知识关联强。,下面是一种融合MKD和KG的甲骨学知识图谱构建方法专利的具体信息内容。

1.一种融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,包括以下步骤:
S1、分别对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;
S2、对步骤S1中提取的实体以及实体之间的关系进行实体对齐和关系融合,构成融合图谱;
S3、基于本体推理和规则推理,挖掘获取隐含语义关系;
S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱。
2.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,步骤S1中甲骨文文献为甲骨学科学知识图谱的构建提供文献元数据信息,甲骨文文献模利用甲骨学科学知识图谱显示甲骨文知识关联、知识演化及知识群结构;实体为研究机构、学者、地点、人物、事件中的一种或多种;实体之间的关系为合作、被引、共现、为…提供依据、主体、分期、类组、材质、祭祀对象、继承中的一种或多种;采用共引、共词、聚类分析中的一种或多种方法提取实体以及实体之间的关系。
3.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,甲骨文本体库包括甲骨文文献本体、甲骨文内容本体和甲骨文常识本体;规则推理采用的是Drools开源规则引擎
4.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,关系融合为确定两个实体的关系是否表达同一种关系,或者是否是包含关系。
5.根据权利要求1所述的融合MKD和KG的甲骨学知识图谱构建方法,其特征在于,步骤S1中针对甲骨文文献,通过构建MKD,利用共引、共词和聚类分析方法提取实体及实体之间的关系;
其中共词方法采用Cosine函数法:
其中,Di=(d1i,d2i,...dni)T和Dj=(d1j,,d2j,,...dnj)T均是关键词集合;
针对甲骨文数据库,通过获取关系模型中的关系、元组、属性、域、关系模式提取实体及实体之间的关系;具体操作采用直接映射的方法,即表名映射为实体所属的概念;表记录映射为实体,其对应的表字段映射为实体的属性;表与表之间的外键映射为实体和实体之间的关系;
针对甲骨文文本,通过文本挖掘的方法获取命名实体,再基于依存句法提取实体和实体之间的关系;
针对甲骨文语料库,通过在甲骨文专家的指导下,利用人机交互的方式提取实体及实体之间的关系。
步骤S2中实体对齐主要是判断各个数据源中的两个实体是否是同一个实体,即等价实体;如果实体对在甲骨文文本中被记录为“=”,或在数据库中有相应字段记录为相等信息,或者在本体中标记为“isSame”关系,则这些实体对在相同或不同数据集中出现时,则直接判定为等价实体;
步骤S3中基于本体的推理,即利用甲骨文本体中已经定义好的关系,包括kind-of、instance-of、property-of、part-of、equivalence通用本体关系,以及甲骨学领域涉及的商王世系、占卜事件、地理位置、时间空间复杂的语义关系和公理进行推理,充分利用关系的传递性、自反性进行推理。
6.一种融合MKD和KG的甲骨学知识图谱构建系统,其特征在于,包括甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块、甲骨文本体库模块、规则库模块、实体及实体之间的关系提取模块、实体对齐及关系融合模块、隐含语义挖掘模块、甲骨学知识图谱组合模块,甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块的输出端与实体及实体之间的关系提取模块的输入端连接,实体及实体之间的关系提取模块、甲骨文本体库模块的输出端与实体对齐及关系融合模块的输入端连接,甲骨文本体库、规则库模块的输出端与隐含语义挖掘模块的输入端连接,实体对齐及关系融合模块、隐含语义挖掘模块的输出端与甲骨学知识图谱组合模块的输入端连接。

说明书全文

一种融合MKD和KG的甲骨学知识图谱构建方法

技术领域

[0001] 本发明属于甲骨文信息处理技术领域,具体涉及一种融合MKD和KG的甲骨学知识图谱构建方法。

背景技术

[0002] 甲骨文是现今已发现的成体系的最早文字,是中华民族传统文化的瑰宝,具有极高的文物价值、史料价值和研究价值。针对甲骨文的研究崭然成为一举世瞩目的国际性显学—甲骨学。近年来,从事甲骨学研究的学者越来越多,尤其是2017年11月甲骨文成功入选《世界记忆名录》后,甲骨学成为研究热点。但是甲骨学研究面临着许多问题,如学习难度大、学习周期长、知识关联性弱、知识共享程度低等问题,本专利拟通过构建甲骨学知识图谱来解决这些问题。
[0003] 构建甲骨学知识图谱的关键是实现各类数据源中实体发现和关系抽取。由于甲骨文的古籍特性,使得甲骨文的研究必须依赖大量的文献资料,而科学知识图谱(Mapping Knowledge Domains,简称MKD)在文献挖掘方面极具优势。但是,MKD的分析关系大多是直接或间接关联关系,且存在的语义解释性不佳的问题,无法表达甲骨学知识中深层次的语义关系,如甲骨文著录与甲骨片的关系、甲骨片与甲骨片的关系、商王世系关系、贞人与商王的关系、方国地理位置关系、祭祀对象关系等。而以Google为代表的知识图谱(Knowledge Graph,简称KG)是一个描述客观世界有关人物、地点和事物以及它们之间的关联关系的系统,其结点表示实体或概念,通过边连接实体/概念之间的语义关系,KG作为一种统一的方式体现知识定义和知识实体两个层次共同构成的知识系统,可以很好地弥补MKD的不足。
[0004] 因此,一种融合MKD和KG的甲骨学知识图谱构建方法亟待提出。

发明内容

[0005] 为解决现有技术存在的缺陷,本发明提供一种融合MKD和KG的甲骨学知识图谱构建方法。
[0006] 为了解决上述技术问题,本发明提供了如下的技术方案:
[0007] 本发明提供一种融合MKD和KG的甲骨学知识图谱构建方法,包括以下步骤:
[0008] S1、分别对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;
[0009] S2、对步骤S1中提取的实体以及实体之间的关系进行实体对齐和关系融合,构成融合图谱;
[0010] S3、基于本体推理和规则推理,挖掘获取隐含语义关系;
[0011] S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱
[0012] 作为本发明的一种优选技术方案,步骤S1中甲骨文文献为甲骨学科学知识图谱的构建提供文献元数据信息,甲骨文文献模利用甲骨学科学知识图谱显示甲骨文知识关联、知识演化及知识群结构;实体为研究机构、学者、地点、人物、事件中的一种或多种;实体之间的关系为合作、被引、共现、为…提供依据、主体、分期、类组、材质、祭祀对象、继承中的一种或多种;采用共引、共词、聚类分析中的一种或多种方法提取实体以及实体之间的关系。
[0013] 作为本发明的一种优选技术方案,甲骨文本体库包括甲骨文文献本体、甲骨文内容本体和甲骨文常识本体,规则推理采用的是Drools开源规则引擎
[0014] 作为本发明的一种优选技术方案,关系融合为确定两个实体的关系是否表达同一种关系,或者是否是包含关系。
[0015] 作为本发明的一种优选技术方案,步骤S1中针对甲骨文文献,通过构建MKD,利用共引、共词和聚类分析方法提取实体及实体之间的关系;
[0016] 其中共词方法采用Cosine函数法:
[0017]
[0018] 其中,Di=(d1i,d2i,...dni)T和Dj=(d1j,,d2j,,...dnj)T均是关键词集合;
[0019] 针对甲骨文数据库,通过获取关系模型中的关系、元组、属性、域、关系模式提取实体及实体之间的关系;具体操作采用直接映射的方法,即表名映射为实体所属的概念;表记录映射为实体,其对应的表字段映射为实体的属性;表与表之间的外键映射为实体和实体之间的关系;
[0020] 针对甲骨文文本,通过文本挖掘的方法获取命名实体,再基于依存句法提取实体和实体之间的关系;
[0021] 针对甲骨文语料库,通过在甲骨文专家的指导下,利用人机交互的方式提取实体及实体之间的关系。
[0022] 步骤S2中实体对齐主要是判断各个数据源中的两个实体是否是同一个实体,即等价实体;如果实体对在甲骨文文本中被记录为“=”,或在数据库中有相应字段记录为相等信息,或者在本体中标记为“isSame”关系,则这些实体对在相同或不同数据集中出现时,则直接判定为等价实体;
[0023] 步骤S3中基于本体的推理,即利用甲骨文本体中已经定义好的关系,包括kind-of、instance-of、property-of、part-of、equivalence通用本体关系,以及甲骨学领域涉及的商王世系、占卜事件、地理位置、时间空间复杂的语义关系和公理进行推理,充分利用关系的传递性、自反性进行推理。
[0024] 作为本发明的一种优选技术方案,本发明还提供一种融合MKD和KG的甲骨学知识图谱构建系统,包括甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块、甲骨文本体库模块、规则库模块、实体及实体之间的关系提取模块、实体对齐及关系融合模块、隐含语义挖掘模块、甲骨学知识图谱组合模块,甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块的输出端与实体及实体之间的关系提取模块的输入端连接,实体及实体之间的关系提取模块、甲骨文本体库模块的输出端与实体对齐及关系融合模块的输入端连接,甲骨文本体库、规则库模块的输出端与隐含语义挖掘模块的输入端连接,实体对齐及关系融合模块、隐含语义挖掘模块的输出端与甲骨学知识图谱组合模块的输入端连接。
[0025] 本发明的有益效果是:本发明中MKD以甲骨文文献为主要研究对象,KG以甲骨文语料为主要研究对象,将MKD和KG两类知识图谱相结合,通过实体对齐和关系融合,并结合隐含语义构建甲骨学知识图谱,从而体现显式的实体和关系背后隐藏的潜在实体和关系,知识关联强。附图说明
[0026] 图1是本发明一种融合MKD和KG的甲骨学知识图谱构建方法的工作流程图
[0027] 图2是本发明一种融合MKD和KG的甲骨学知识图谱构建系统的结构示意图。

具体实施方式

[0028] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0029] 为了达到本发明的目的,如图1所示,在本发明的其中一种实施方式中提供一种融合MKD和KG的甲骨学知识图谱构建方法,包括以下步骤:
[0030] S1、分别对甲骨文文献、甲骨文数据库、甲骨文文本、甲骨文语料库提取实体以及实体之间的关系;
[0031] S2、对步骤S1中提取的实体以及实体之间的关系进行实体对齐和关系融合,构成融合图谱;
[0032] S3、基于本体推理和规则推理对甲骨文本体库和规则库分别挖掘获取隐含语义关系;
[0033] S4、将隐含语义关系扩充到融合图谱中,最终构成甲骨学知识图谱
[0034] 具体的,步骤S1中甲骨文文献为甲骨学科学知识图谱的构建提供文献元数据信息,甲骨文文献模块利用甲骨学科学知识图谱显示甲骨文知识关联、知识演化及知识群结构;实体为研究机构、学者、地点、人物、事件中的一种或多种;实体之间的关系为合作、被引、共现、为…提供依据、主体、分期、类组、材质、祭祀对象、继承中的一种或多种;采用共引、共词、聚类分析中的一种或多种方法提取实体以及实体之间的关系。
[0035] 具体的,甲骨文本体库包括甲骨文文献本体、甲骨文内容本体和甲骨文常识本体。
[0036] 具体的,步骤S3中规则推理采用的是Drools开源规则引擎。
[0037] 具体的,关系融合为确定两个实体的关系是否表达同一种关系,或者是否是包含关系。如“文武丁”和“文丁”指的是同一位商王;“兰”和“Sarah Allan”指的是同一学者;当某一甲骨片被收录进不同的著录时,其甲骨片编号根据研究的需要往往是不同的,如《甲骨文合集补编》中第b00008片甲骨与《东京大学东洋文化研究所藏甲骨文字》中第d00123片甲骨是同一片甲骨;“Oracle Bone Collections in the United States”与“美国所藏甲骨录”指的是同一本著录,类似的情况还有著录的中文繁体与中文简体版本。
[0038] 步骤S1中针对甲骨文文献,通过构建MKD,利用共引、共词和聚类分析方法提取实体及实体之间的关系;
[0039] 其中共词方法采用Cosine函数法:
[0040]
[0041] 其中,Di=(d1i,d2i,...dni)T和Dj=(d1j,,d2j,,...dnj)T均是关键词集合;
[0042] 针对甲骨文数据库,通过获取关系模型中的关系、元组、属性、域、关系模式提取实体及实体之间的关系;具体操作采用直接映射的方法,即表名映射为实体所属的概念;表记录映射为实体,其对应的表字段映射为实体的属性;表与表之间的外键映射为实体和实体之间的关系;
[0043] 针对甲骨文文本,通过文本挖掘的方法获取命名实体,再基于依存句法提取实体和实体之间的关系;
[0044] 针对甲骨文语料库,通过在甲骨文专家的指导下,利用人机交互的方式提取实体及实体之间的关系。
[0045] 步骤S2中实体对齐主要是判断各个数据源中的两个实体是否是同一个实体,即等价实体;如果实体对在甲骨文文本中被记录为“=”,或在数据库中有相应字段记录为相等信息,或者在本体中标记为“isSame”关系,则这些实体对在相同或不同数据集中出现时,则直接判定为等价实体;
[0046] 步骤S3中基于本体的推理,即利用甲骨文本体中已经定义好的关系,包括kind-of、instance-of、property-of、part-of、equivalence通用本体关系,以及甲骨学领域涉及的商王世系、占卜事件、地理位置、时间空间复杂的语义关系和公理进行推理,充分利用关系的传递性、自反性进行推理。基于规则的推理需要在甲骨文专家的指导下书写相应的规则来弥补本体无法直接完成的推理,如甲骨学领域涉及的因果关系、甲骨字考释、甲骨文分期断代、残辞拟补;现以一则简单示例说明基于规则的推理:
[0047] 根据甲骨文领域知识,定义如下两条规则:
[0048] 规则1:贞人为商王占卜(用divinateFor表示占卜关系),因此是商王的臣子(用serveFor表示臣子关系)。
[0049] 规则2:身为同一在位商王的臣子,相互之间互为同僚(colleague)关系。
[0050] 上述规则形式化表示为:
[0051] Rule1:OBI:serveFor(X,Y):-OBI:divinateFor(X,Y)
[0052] Rule2:OBI:colleague(X,Z):-OBI:serveFor(X,Y),OBI:serveFor(Z,Y)。
[0053] 如图2所示,为了进一步地优化本发明的实施效果,在本发明的另一种实施方式中,本发明还提供一种融合MKD和KG的甲骨学知识图谱构建系统,包括甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块、甲骨文本体库模块、规则库模块、实体及实体之间的关系提取模块、实体对齐及关系融合模块、隐含语义挖掘模块、甲骨学知识图谱组合模块,甲骨文文献模块、甲骨文数据库模块、甲骨文文本模块、甲骨文语料库模块的输出端与实体及实体之间的关系提取模块的输入端连接,实体及实体之间的关系提取模块、甲骨文本体库模块的输出端与实体对齐及关系融合模块的输入端连接,甲骨文本体库、规则库模块的输出端与隐含语义挖掘模块的输入端连接,实体对齐及关系融合模块、隐含语义挖掘模块的输出端与甲骨学知识图谱组合模块的输入端连接。
[0054] 最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈