首页 / 专利库 / 人工智能 / 知识表示与推理 / 一种知识图谱的知识补全方法及装置

一种知识图谱的知识补全方法及装置

阅读:393发布:2020-05-16

专利汇可以提供一种知识图谱的知识补全方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种知识图谱的知识补全方法及装置,能够解决知识补全过程中存在的负例无意义和1-N关系难以处理的问题。方法包括:确定实体和关系对应的空间向量;根据实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。本发明涉及知识工程领域。,下面是一种知识图谱的知识补全方法及装置专利的具体信息内容。

1.一种知识图谱的知识补全方法,其特征在于,包括:
获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;
利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
2.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述获取知识图谱包括:
获取原始知识图谱;
构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。
3.根据权利要求2所述的知识图谱的知识补全方法,其特征在于,所述根据获取的知识图谱,输出实体和关系对应的空间向量包括:
根据处理得到的知识图谱,导出事实三元组,并通过随机替换事实三元组的头实体或者尾实体来构造负例;
根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式。
4.根据权利要求3所述的知识图谱的知识补全方法,其特征在于,所述根据处理得到的知识图谱,导出事实三元组包括:
根据处理得到的知识图谱,利用图形数据库导出事实三元组。
5.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱包括:
根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系,计算尾实体的能量,获取推理排名为前k的尾实体及其打分分数;
根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系,计算头实体的能量,获取推理排名为前k的头实体及其打分分数;
根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非候选集中的实体;
根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱。
6.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型包括:
根据导出的事实三元组,对TransE模型和双线性模型进行预训练;
将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器;
生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表示模型;
其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器,根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器的梯度参数。
7.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型包括:
对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体作为负例,依据当前形成的负例和导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
其中,利用第二知识表示模型进行实体链接预测时,移除不属于子概念关系特定的实体类型的候选实体。
8.一种知识图谱的知识补全装置,其特征在于,包括:
获取模,用于获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
第一确定模块,用于根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;
第一训练模块,用于利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
第二训练模块,用于对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;
第二确定模块,用于将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。

说明书全文

一种知识图谱的知识补全方法及装置

技术领域

[0001] 本发明涉及知识工程领域,特别是指一种知识图谱的知识补全方法及装置。

背景技术

[0002] 知识图谱经常以高结构化的形式表示,描述了现实世界中各种实体之间的 关系。目前,知识图谱已经广泛应用于各个领域,例如:自动问答、信息抽取 等领域。典型的知识图谱是由大量的三元组组成。虽然知识图谱可以提供高质 量的结构化数据,但是大多数公开的知识图谱,都是通过人工或者半自动的方 法构建的,这些图谱往往会存在数据稀疏的问题甚至大量实体之间的关系没有 被充分的挖掘出来,为了得到更加高质量的知识图谱,需将知识图谱进行知识 补全。
[0003] 知识补全的目标是补全知识图谱中缺失的事实,其中,每个事实都可表示 成一个形式为(头实体,关系,尾实体)的三元组。现有技术中,一般通过表 示学习的方法来进行知识补全,但是存在很多问题,例如,以基于翻译的嵌入 式(Translating Embedding,TransE)模型为例,对于负例的选取,通常所用 的方法是随机替换三元组的头实体或者尾实体构造负例,但是这种方法可能会 产生一个无意义的负例;TransE模型求嵌入的头实体向量加关系向量与尾实 体向量足够靠近,可以很好地处理1-1关系,但是在处理1-N关系时,存在多 个实体竞争一个向量空间点的现象,其中,N为大于1的整数。

发明内容

[0004] 本发明要解决的技术问题是提供一种知识图谱的知识补全方法及装置,以 解决现有技术所存在的利用TransE模型进行知识补全过程中存在的负例无意 义和1-N关系难以处理的问题。
[0005] 为解决上述技术问题,本发明实施例提供一种知识图谱的知识补全方法, 包括:
[0006] 获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;
[0007] 根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新 的关系,补全知识图谱;
[0008] 利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知 识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
[0009] 对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的 实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识 表示模型;
[0010] 将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成 式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
[0011] 进一步地,所述获取知识图谱包括:
[0012] 获取原始知识图谱;
[0013] 构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点 进行知识表示。
[0014] 进一步地,所述根据获取的知识图谱,输出实体和关系对应的空间向量包 括:
[0015] 根据处理得到的知识图谱,导出事实三元组,并通过随机替换事实三元组 的头实体或者尾实体来构造负例;
[0016] 根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入 表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式。
[0017] 进一步地,所述根据处理得到的知识图谱,导出事实三元组包括:
[0018] 根据处理得到的知识图谱,利用图形数据库导出事实三元组。
[0019] 进一步地,所述根据得到的实体和关系对应的空间向量,计算语义关系, 得到实体之间新的关系,补全知识图谱包括:
[0020] 根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系, 计算尾实体的能量,获取推理排名为前k的尾实体及其打分分数;
[0021] 根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系, 计算头实体的能量,获取推理排名为前k的头实体及其打分分数;
[0022] 根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较, 去掉非候选集中的实体;
[0023] 根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’的推 理实体补充其与头实体或尾实体之间的关系,补全知识图谱。
[0024] 进一步地,所述利用生成式对抗网络随机生成负例,并结合导出的事实三 元组训练第一知识表示模型包括:
[0025] 根据导出的事实三元组,对TransE模型和双线性模型进行预训练;
[0026] 将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别 器;
[0027] 生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负 例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表 示模型;
[0028] 其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负 例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和 正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训 练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器, 根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器 的梯度参数。
[0029] 进一步地,所述对得到的事实三元组进行概念分层,随机选择事实三元组 同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法, 训练第二知识表示模型包括:
[0030] 对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的 实体作为负例,依据当前形成的负例和导出的事实三元组,采用最大间隔方法, 训练第二知识表示模型;
[0031] 其中,利用第二知识表示模型进行实体链接预测时,移除不属于子概念关 系特定的实体类型的候选实体。
[0032] 本发明实施例还提供一种知识图谱的知识补全装置,包括:
[0033] 获取模,用于获取知识图谱,根据获取的知识图谱,输出实体和关系对 应的空间向量;
[0034] 第一确定模块,用于根据得到的实体和关系对应的空间向量,计算语义关 系,得到实体之间新的关系,补全知识图谱;
[0035] 第一训练模块,用于利用生成式对抗网络随机生成负例,并结合导出的事 实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和 判别器;
[0036] 第二训练模块,用于对得到的事实三元组进行概念分层,随机选择事实三 元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔 方法,训练第二知识表示模型;
[0037] 第二确定模块,用于将第二知识表示模型作为第一知识表示模型的判别器 输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标 知识表示模型。
[0038] 本发明的上述技术方案的有益效果如下:
[0039] 上述方案中,根据获取的知识图谱,输出实体和关系对应的空间向量;根 据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系, 补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组 训练第一知识表示模型,从而解决利用TransE模型进行知识补全过程中存在 的负例无意义问题;对得到的事实三元组进行概念分层,随机选择事实三元组 同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法, 训练第二知识表示模型,以确保训练时让正例和负例远离,从而有效避免多个 实体竞争同一个向量空间点的现象;将第二知识表示模型作为第一知识表示模 型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到目标知识 表示模型,这样,使用目标知识表示模型进行补全时,能够解决利用TransE 模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。附图说明
[0040] 图1为本发明实施例提供的知识图谱的知识补全方法的流程示意图;
[0041] 图2为本发明实施例提供的热犯表证的证性关系示意图;
[0042] 图3为本发明实施例提供的风热犯表证的属性示意图;
[0043] 图4为本发明实施例提供的基于TransE模型的中医知识表示和推理建模 示意图;
[0044] 图5为本发明实施例提供的G-TransE模型的实现流程示意图;
[0045] 图6为本发明实施例提供的基于TG-TransE模型补全中医知识图谱的实现 流程示意图。

具体实施方式

[0046] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附 图及具体实施例进行详细描述。
[0047] 本发明针对现有的利用TransE模型进行知识补全过程中存在的负例无意 义和1-N关系难以处理的问题,提供一种知识图谱的知识补全方法及装置。
[0048] 实施例一
[0049] 如图1所示,本发明实施例提供的知识图谱的知识补全方法,包括:
[0050] S101,获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间 向量;
[0051] S102,根据得到的实体和关系对应的空间向量,计算语义关系,得到实体 之间新的关系,补全知识图谱;
[0052] S103,利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练 第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;
[0053] S104,对得到的事实三元组进行概念分层,随机选择事实三元组同一子概 念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第 二知识表示模型;
[0054] S105,将第二知识表示模型作为第一知识表示模型的判别器输入,通过对 抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。
[0055] 本发明实施例所述的知识图谱的知识补全方法,根据获取的知识图谱,输 出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算 语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机 生成负例,并结合导出的事实三元组训练第一知识表示模型,从而解决利用 TransE模型进行知识补全过程中存在的负例无意义问题;对得到的事实三元组 进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导 出的事实三元组,采用最大间隔方法,训练第二知识表示模型,以确保训练时 让正例和负例远离,从而有效避免多个实体竞争同一个向量空间点的现象;将 第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络 优化第一知识表示模型,得到目标知识表示模型,这样,使用目标知识表示模 型进行补全时,能够解决利用TransE模型进行知识补全过程中存在的负例无 意义和1-N关系难以处理的问题。
[0056] 在前述知识图谱的知识补全方法的具体实施方式中,进一步地,所述获取 知识图谱包括:
[0057] 获取原始知识图谱;
[0058] 构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点 进行知识表示。
[0059] 本实施例中,构建属性图对知识图谱中利用率低的实体节点进行知识表示 方法上的提升,能够改善数据稀疏问题。例如:中医中的证性关系是描述证候 属性的,所以将证性表示为证候的属性,如“风热犯表证”的证性为“表、热、 外风”,如图2所示。为了解决数据稀疏问题,提升节点的知识表示方法,所 以把证性作为证候的属性,如图3所示。
[0060] 在前述知识图谱的知识补全方法的具体实施方式中,进一步地,所述根据 获取的知识图谱,输出实体和关系对应的空间向量包括:
[0061] 根据处理得到的知识图谱,导出事实三元组,并通过随机替换事实三元组 的头实体或者尾实体来构造负例;
[0062] 根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入 表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式。
[0063] 本实施例中,根据处理得到的知识图谱,可以利用图形数据库(neo4j) 导出事实三元组(h,r,t),导出的事实三元组即为训练所需的正例,其中,h、r、 t分别表示头实体、关系、尾实体。
[0064] 本实施例中,根据导出的事实三元组及构造的负例,应用基于TransE模 型的知识嵌入表示,输出实体和关系对应的空间向量可以包括以下步骤:
[0065] H11、根据导出的事实三元组及构造的负例,得到初始数据;
[0066] H12、将初始数据进行划分,得到训练集、验证集、实体集、关系集和测 试集;其中,利用训练集训练TransE模型,得到知识图谱的表示模型;
[0067] 本实施例中,对于TransE模型优劣的测试采取实体排名mean rank和准确 率hit@10两个指标。
[0068] 本实施例中,某些正确的三元组(正确的三元组就是非负例的三元组,即 正例三元组)可能在训练集中,是正确的知识,但是不在测试集中。这种情况 下,训练集中正确的三元组排名可能排在测试集三元组之上,但这不应该被记 为错误实例。所以对于TransE模型优劣的测试采取实体排名mean rank和准确 率hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为filt mean rank和filt hit@10两个指标,这样,一共可以使用以上四个指标(mean rank、 hit@10、filt mean rank、filt hit@10)来判断TransE模型优劣。
[0069] H13、首先用训练集训练TransE模型,然后根据TransE模型对验证集数 据进行预测得到的指标进行参数选择,综合在验证集上的训练效果和效率两方 面考虑,最后采用参数:随机梯度下降步长α=0.01,能量边界距离γ=1,向量 空间维度k=50,随机梯度下降算法中批处理次数batch=2400,距离衡量方法 d(.)为L1范数,并设置最大迭代次数为100轮。接着,利用上述参数(α=0.01, γ=1,k=50,batch=2400,d(.)为L1范数)对实体集和关系集进行训练,得到 的实体和关系对应的空间向量。最后利用得到的实体和关系对应的空间向量, 对测试集做实体预测,计算原始和过滤模式下各自的平均排名和准确率指标, 结果如表1所示:
[0070] 表1排名和准确率指标结果
[0071]
[0072] 本实施例中,TransE模型采用最大间隔方法,即正例和负例尽量远离。
[0073] 在前述知识图谱的知识补全方法的具体实施方式中,进一步地,如图4 所示,所述根据得到的实体和关系对应的空间向量,计算语义关系,得到实体 之间新的关系,补全知识图谱包括:
[0074] A11,根据得到的实体和关系对应的空间向量,选取事实三元组的头实体 和关系,采用TransE模型计算尾实体的能量,输出推理排名为前k位(topk) 的尾实体及其打分分数;
[0075] A12,根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体 和关系,采用TransE模型计算头实体的能量,输出推理排名为前k位(topk) 的头实体及其打分分数;
[0076] A13,根据实体的概念类型对推理的实体结果进行去噪处理,具体的:根 据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非 候选集中的实体;
[0077] 本实施例中,所述概念类型是指想要推理得到的实体对应的概念;例如: 针对“证症关系”,利用TransE模型,推理症状对应的证候,输出其推理结果。 选取其top30的实体预测结果(不包括指示图谱已有三元组知识),并去掉非 证候候选集的实体;即:将推理结果与证候候选集进行比较,若推理结果不在 证候候选集中,则去掉该推理结果。
[0078] A14,根据打分分数,确定推理得到的实体的置信度,取置信度排名为前 k’(topk’)的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱。
[0079] 本实施例中,针对“病位关系”、“症性关系”、“证性关系”,选取其top10 的实体推理结果(不包括知识图谱已有三元组知识),如表2所示,并去掉噪 声实体,采取专家打分法选择推理实体,采取专家评分的top1结果作为病位 关系、证性关系、症性关系的推理结果补充知识图谱,如表3所示。
[0080] 表2根据症状推理得到的部分证候
[0081]
[0082] 表3病位关系、证性关系、症性关系的推理结果
[0083]
[0084] 本实施例中,应用TransE模型,将事实三元组中的实体和关系映射成低 维空间的稠密向量,计算语义关系,从而推理发现新的知识,进行知识补全, 解决了知识图谱中某些知识缺失的问题。
[0085] 在前述知识图谱的知识补全方法的具体实施方式中,进一步地,所述利用 生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模 型包括:
[0086] 根据导出的事实三元组,对TransE模型和双线性模型进行预训练;
[0087] 将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别 器;
[0088] 生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负 例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表 示模型;
[0089] 其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负 例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和 正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训 练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器, 根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器 的梯度参数。
[0090] 本实施例中,利用生成式对抗网络随机生成负例,并结合导出的事实三元 组训练第一知识表示模型,所述第一知识表示模型为改进的知识表示模型 G-TransE,这样,考虑到利用TransE模型进行知识补全过程中存在的负例无 意义问题,本实施例基于对抗生成网络的思想,训练一个判别器来判断TransE 模型中的正例与负例,从而选择优质的负例(使边际损失最小)训练知识表示 模型G-TransE。
[0091] 具体可以包括以下步骤:
[0092] B11、将导出的事实三元组,划分为训练集、验证集和测试集;
[0093] B12、综合在验证集上的训练效果和效率两方面考虑,TransE模型采用参 数α=0.01,γ=1,k=50,batch=2400,d(.)为L1范数,并设置最大迭代次数为 100轮,进行预训练;
[0094] B13、双线性(DistMult)模型正则项权重λ集合{0.01,0.1,1,10},k=50, 其中,k表示向量空间维度;综合在验证集上的训练效果和效率两方面考虑, 最后采用参数λ=1,最大迭代次数为100轮;
[0095] B14、如图5所示,将预训练好的TransE模型作为生成器G,预训练好的 Dismult模型作为判别器D。生成器G计算随机生成的负例(通过随机替换事 实三元组的头实体或者尾实体来构造负例)的概率p分布,然后从生成器G 生成的负例中随机选取一个负例作为输出,并利用选取的负例的概率更新生成 器的梯度参数,将该输出是输入到判别器D,判别器D根据评分函数计算接 收到到的正例三元组和负例三元组的得分,图5中的2个d一个表示正例三元 组的得分,另一个表示负例三元组的得分;判别器D根据得到的正例三元组 和负例三元组的得分,确定边际损失,其中,判别器D的优化目标是最小化 正例和负例三元组的边际损失。
[0096] 本实施例中,生成器G和判别器D采用交替优化方式进行训练,直至判 别器D输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器G 和判别器D构成第一知识表示模型。
[0097] 本实施例中,判别器的优化目标是最小化正例和负例三元组的边际损失 LD:
[0098]
[0099] 本实施例中,T表示正例三元组集合;fD(h,r,t)表示判别器对正例三元组 的评分函数;fD(h',r,t')表示判别器对负例三元组的评分函数;(h',r,t')表示负例 三元组;pG(h',r,t'|h,r,t)表示生成器为正例三元组(h,r,t)生成一个样本概率分 布为pG(h',r,t'|h,r,t)的负例三元组;~表示相似符号。
[0100] 本实施例中,判别器D的目标是为优质的负例样本分配一个较小的距离, 也就是最大化负距离的期望:
[0101]
[0102] 对于此问题,采取的目标性形式是最大化给定样本概率分布的期望。用增 强学习的思想来解释,(h',r,t')即reward,reward就是从环境状态到奖励的 一个映射。使用策略梯度算法,可以得到RG的梯度,即生成器G的训练参数。 生成器G通过策略梯度算法力求最小化负例三元组的得分。
[0103] 本实施例中,对于G-TransE模型优劣的测试也采取实体排名mean rank 和准确率hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为 filt mean rank和filt hit@10两个指标。利用原始和过滤模式下各自的平均排名 和准确率指标来判断模型优劣,结果如表4所示:
[0104] 表4排名和准确率指标结果
[0105]
[0106] 本实施例中,对得到的事实三元组进行概念分层,随机选择事实三元组(正 例)同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔 方法,训练第二知识表示模型,其中,所述第二知识表示模型为改进的知识表 示模型T-TransE模型;具体可以包括以下步骤:
[0107] C11、对得到的事实三元组进行概念分层,随机选择正例同一子概念下的 实体作为负例,将C11中形成的负例和导出的事实三元组,划分为训练集和 测试集,其中,训练集用于训练得到T-TransE模型;
[0108] 本实施例中,以中医知识为例,中医知识分为中医生理、中医病理、中医 认识方法、中医辨证论治四个概念层,这四个概念层为知识图谱中的根节点。 中医生理的概念与实例共有2个子概念层;中医病理的概念与实例共有2个子 概念层;中医认识方法的概念与实例共有2个子概念层;中医辨证论治的概念 与实例共有4个子概念层。由于中医知识的四个根概念层相互独立,所以在四 个根概念层中属于同一层级的概念或者实例之间的关系,均可定义为同一种子 概念关系,即定义四种子概念关系集合Rsub={rsub1,rsub2,rsub3,rsub4}。将中医知识图谱 中的子概念关系拆分为4种不同层级的子概念。将同属于同一子概念的实体类 型标签记为Tsub={type1,type2...typen}。
[0109] 本实施例中,C11中的训练集和测试集数据中加入了子概念实体类型标签。
[0110] C12、做实体链接预测时,移除不属于子概念关系特定的实体类型的候选 实体,即在T-TransE模型测试中进行去噪处理;
[0111] C13、由于T-TransE模型针对实体类型限制提出,因而不做公共数据集验 证。构造三元组数量1000条的关系为子概念的三元组用于做子概念关系实体 链接预测。
[0112] 本实施例中,对于T-TransE模型优劣的测试也采取实体排名mean rank和 hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为filt mean rank和filt hit@10两个指标。利用原始和过滤模式下各自的平均排名和准确率 指标来判断模型优劣,结果如表5所示:
[0113] 表5排名和准确率指标结果
[0114]
[0115] 本实施例中,考虑到在处理1-N关系时,存在多个实体竞争一个向量空间 点的问题,当事实三元组在构造负例时,随机选择正例同一子概念下的实体替 换头实体或尾实体来构造负例,采用最大间隔方法,训练时让正例和负例尽量 远离,这样可以有效避免多个实体竞争同一个向量空间点的现象。
[0116] 本实施例中,将T-TransE模型作为G-TransE的判别器输入,通过对抗生 成式网络,优化T-TransE模型的知识表示,得到目标知识表示模型TG-TransE; 使用TG-TransE模型进行知识补全,可在一定程度上解决了数据稀疏问题,又 解决了TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处 理问题。
[0117] 本实施例中,如图6所示,利用TG-TransE模型将中医实体和关系映射为 低维稠密的空间向量;选取中医实体的头实体和关系,采用模型计算尾实体的 能量,输出其排名topk的尾实体及其打分;选取中医实体的尾实体和关系, 采用模型计算头实体的能量,输出其排名topk的头实体及其打分;根据实体 的概念类型对推理的实体结果进行去噪处理;专家打分评判预测结果给出推理 实体置信度;取置信度topk’的实体补充其与头实体或尾实体之间的关系,初 步补全中医知识图谱。
[0118] 本实施例中,打分是计算h+r与t之间的距离,或计算t+r与h之间的距离, 距离越近说明关系强度越强(weight),因此TG-TransE模型打分越低,证明 关系强度越强。也就是说,上述过程中的补全不仅包括了关系的补全,而且还 包括了关系强度的补全。
[0119] 本实施例中,可以将距离计算结果划分到不同的区间,每个区间对应一个 关系强度。
[0120] 本实施例中,对于TG-TransE模型优劣的测试也采取实体排名mean rank 和hit@10两个指标之外,还采取过滤掉训练集中正确的三元组,记为filt mean rank和filt hit@
10两个指标;利用原始和过滤模式下各自的平均排名和准确率 指标来判断模型优劣,结果如表6所示:
[0121] 表6排名和准确率指标结果
[0122]
[0123] 实施例二
[0124] 本发明还提供一种知识图谱的知识补全装置的具体实施方式,由于本发明 提供的知识图谱的知识补全装置与前述知识图谱的知识补全方法的具体实施 方式相对应,该知识图谱的知识补全装置可以通过执行上述方法具体实施方式 中的流程步骤来实现本发明的目的,因此上述知识图谱的知识补全方法具体实 施方式中的解释说明,也适用于本发明提供的知识图谱的知识补全装置的具体 实施方式,在本发明以下的具体实施方式中将不再赘述。
[0125] 本发明实施例还提供一种知识图谱的知识补全装置,包括:
[0126] 获取模块,用于获取知识图谱,根据获取的知识图谱,输出实体和关系对 应的空间向量;
[0127] 第一确定模块,用于根据得到的实体和关系对应的空间向量,计算语义关 系,得到实体之间新的关系,补全知识图谱;
[0128] 第一训练模块,用于利用生成式对抗网络随机生成负例,并结合导出的事 实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和 判别器;
[0129] 第二训练模块,用于对得到的事实三元组进行概念分层,随机选择事实三 元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔 方法,训练第二知识表示模型;
[0130] 第二确定模块,用于将第二知识表示模型作为第一知识表示模型的判别器 输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标 知识表示模型。
[0131] 本发明实施例所述的知识图谱的知识补全装置,根据获取的知识图谱,输 出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算 语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机 生成负例,并结合导出的事实三元组训练第一知识表示模型,从而解决利用 TransE模型进行知识补全过程中存在的负例无意义问题;对得到的事实三元组 进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导 出的事实三元组,采用最大间隔方法,训练第二知识表示模型,以确保训练时 让正例和负例远离,从而有效避免多个实体竞争同一个向量空间点的现象;将 第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络 优化第一知识表示模型,得到目标知识表示模型,这样,使用目标知识表示模 型进行补全时,能够解决利用TransE模型进行知识补全过程中存在的负例无 意义和1-N关系难以处理的问题。
[0132] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些 实体或操作之间存在任何这种实际的关系或者顺序。
[0133] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈