一种知识图谱的知识补全方法及装置专利检索-知识表示与推理人工智能专利检索查询-专利查询网

一种知识图谱的知识补全方法及装置

阅读：393发布：2020-05-16

专利汇可以提供一种知识图谱的知识补全方法及装置专利检索，专利查询，专利分析的服务。并且本发明提供一种知识图谱的知识补全方法及装置，能够解决知识补全过程中存在的负例无意义和1-N关系难以处理的问题。方法包括：确定实体和关系对应的空间向量；根据实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型；对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到用于知识补全的目标知识表示模型。本发明涉及知识工程领域。，下面是一种知识图谱的知识补全方法及装置专利的具体信息内容。

权利要求

1.一种知识图谱的知识补全方法，其特征在于，包括：
获取知识图谱，根据获取的知识图谱，输出实体和关系对应的空间向量；
根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；
利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，其中，所述生成式对抗网络包括：生成器和判别器；
对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；
将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到用于知识补全的目标知识表示模型。
2.根据权利要求1所述的知识图谱的知识补全方法，其特征在于，所述获取知识图谱包括：
获取原始知识图谱；
构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。
3.根据权利要求2所述的知识图谱的知识补全方法，其特征在于，所述根据获取的知识图谱，输出实体和关系对应的空间向量包括：
根据处理得到的知识图谱，导出事实三元组，并通过随机替换事实三元组的头实体或者尾实体来构造负例；
根据导出的事实三元组及构造的负例，应用基于TransE模型的知识嵌入表示，输出实体和关系对应的空间向量，其中，TransE表示翻译的嵌入式。
4.根据权利要求3所述的知识图谱的知识补全方法，其特征在于，所述根据处理得到的知识图谱，导出事实三元组包括：
根据处理得到的知识图谱，利用图形数据库导出事实三元组。
5.根据权利要求1所述的知识图谱的知识补全方法，其特征在于，所述根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱包括：
根据得到的实体和关系对应的空间向量，选取事实三元组的头实体和关系，计算尾实体的能量，获取推理排名为前k的尾实体及其打分分数；
根据得到的实体和关系对应的空间向量，选取事实三元组的尾实体和关系，计算头实体的能量，获取推理排名为前k的头实体及其打分分数；
根据实体的概念类型，将推理得到的实体与预先确定的候选集进行比较，去掉非候选集中的实体；
根据打分分数，确定推理得到的实体的置信度，取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系，补全知识图谱。
6.根据权利要求1所述的知识图谱的知识补全方法，其特征在于，所述利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型包括：
根据导出的事实三元组，对TransE模型和双线性模型进行预训练；
将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器；
生成器和判别器采用交替优化方式进行训练，直至判别器输出的正例和负例三元组的边际损失小于预设的阈值，得到的生成器和判别器构成第一知识表示模型；
其中，训练判别器时，固定生成器，利用生成器随机模拟产生样本作为负例，从事实三元组中采集正例，将负例和正例输入判别器，根据判别器输出和正负例标签来计算误差，利用误差反向传播算法来更新判别器的梯度参数；训练生成器时，固定判别器，利用生成器随机模拟产生负例，并输入到判别器，根据判别器输出和负例标签来计算误差，利用误差反向传播算法来更新生成器的梯度参数。
7.根据权利要求1所述的知识图谱的知识补全方法，其特征在于，所述对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型包括：
对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体作为负例，依据当前形成的负例和导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；
其中，利用第二知识表示模型进行实体链接预测时，移除不属于子概念关系特定的实体类型的候选实体。
8.一种知识图谱的知识补全装置，其特征在于，包括：
获取模块，用于获取知识图谱，根据获取的知识图谱，输出实体和关系对应的空间向量；
第一确定模块，用于根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；
第一训练模块，用于利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，其中，所述生成式对抗网络包括：生成器和判别器；
第二训练模块，用于对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；
第二确定模块，用于将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到用于知识补全的目标知识表示模型。

说明书全文

一种知识图谱的知识补全方法及装置

技术领域

[0001] 本发明涉及知识工程领域，特别是指一种知识图谱的知识补全方法及装置。

背景技术

[0002] 知识图谱经常以高结构化的形式表示，描述了现实世界中各种实体之间的关系。目前，知识图谱已经广泛应用于各个领域，例如：自动问答、信息抽取等领域。典型的知识图谱是由大量的三元组组成。虽然知识图谱可以提供高质量的结构化数据，但是大多数公开的知识图谱，都是通过人工或者半自动的方法构建的，这些图谱往往会存在数据稀疏的问题甚至大量实体之间的关系没有被充分的挖掘出来，为了得到更加高质量的知识图谱，需将知识图谱进行知识补全。

[0003] 知识补全的目标是补全知识图谱中缺失的事实，其中，每个事实都可表示成一个形式为(头实体,关系,尾实体)的三元组。现有技术中，一般通过表示学习的方法来进行知识补全，但是存在很多问题，例如，以基于翻译的嵌入式(Translating Embedding，TransE)模型为例，对于负例的选取，通常所用的方法是随机替换三元组的头实体或者尾实体构造负例，但是这种方法可能会产生一个无意义的负例；TransE模型力求嵌入的头实体向量加关系向量与尾实体向量足够靠近，可以很好地处理1-1关系，但是在处理1-N关系时，存在多个实体竞争一个向量空间点的现象，其中，N为大于1的整数。

发明内容

[0004] 本发明要解决的技术问题是提供一种知识图谱的知识补全方法及装置，以解决现有技术所存在的利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。

[0005] 为解决上述技术问题，本发明实施例提供一种知识图谱的知识补全方法，包括：

[0006] 获取知识图谱，根据获取的知识图谱，输出实体和关系对应的空间向量；

[0007] 根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；

[0008] 利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，其中，所述生成式对抗网络包括：生成器和判别器；

[0009] 对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；

[0010] 将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到用于知识补全的目标知识表示模型。

[0011] 进一步地，所述获取知识图谱包括：

[0012] 获取原始知识图谱；

[0013] 构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。

[0014] 进一步地，所述根据获取的知识图谱，输出实体和关系对应的空间向量包括：

[0015] 根据处理得到的知识图谱，导出事实三元组，并通过随机替换事实三元组的头实体或者尾实体来构造负例；

[0016] 根据导出的事实三元组及构造的负例，应用基于TransE模型的知识嵌入表示，输出实体和关系对应的空间向量，其中，TransE表示翻译的嵌入式。

[0017] 进一步地，所述根据处理得到的知识图谱，导出事实三元组包括：

[0018] 根据处理得到的知识图谱，利用图形数据库导出事实三元组。

[0019] 进一步地，所述根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱包括：

[0020] 根据得到的实体和关系对应的空间向量，选取事实三元组的头实体和关系，计算尾实体的能量，获取推理排名为前k的尾实体及其打分分数；

[0021] 根据得到的实体和关系对应的空间向量，选取事实三元组的尾实体和关系，计算头实体的能量，获取推理排名为前k的头实体及其打分分数；

[0022] 根据实体的概念类型，将推理得到的实体与预先确定的候选集进行比较，去掉非候选集中的实体；

[0023] 根据打分分数，确定推理得到的实体的置信度，取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系，补全知识图谱。

[0024] 进一步地，所述利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型包括：

[0025] 根据导出的事实三元组，对TransE模型和双线性模型进行预训练；

[0026] 将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器；

[0027] 生成器和判别器采用交替优化方式进行训练，直至判别器输出的正例和负例三元组的边际损失小于预设的阈值，得到的生成器和判别器构成第一知识表示模型；

[0028] 其中，训练判别器时，固定生成器，利用生成器随机模拟产生样本作为负例，从事实三元组中采集正例，将负例和正例输入判别器，根据判别器输出和正负例标签来计算误差，利用误差反向传播算法来更新判别器的梯度参数；训练生成器时，固定判别器，利用生成器随机模拟产生负例，并输入到判别器，根据判别器输出和负例标签来计算误差，利用误差反向传播算法来更新生成器的梯度参数。

[0029] 进一步地，所述对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型包括：

[0030] 对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体作为负例，依据当前形成的负例和导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；

[0031] 其中，利用第二知识表示模型进行实体链接预测时，移除不属于子概念关系特定的实体类型的候选实体。

[0032] 本发明实施例还提供一种知识图谱的知识补全装置，包括：

[0033] 获取模块，用于获取知识图谱，根据获取的知识图谱，输出实体和关系对应的空间向量；

[0034] 第一确定模块，用于根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；

[0035] 第一训练模块，用于利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，其中，所述生成式对抗网络包括：生成器和判别器；

[0036] 第二训练模块，用于对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；

[0037] 第二确定模块，用于将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到用于知识补全的目标知识表示模型。

[0038] 本发明的上述技术方案的有益效果如下：

[0039] 上述方案中，根据获取的知识图谱，输出实体和关系对应的空间向量；根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，从而解决利用TransE模型进行知识补全过程中存在的负例无意义问题；对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型，以确保训练时让正例和负例远离，从而有效避免多个实体竞争同一个向量空间点的现象；将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到目标知识表示模型，这样，使用目标知识表示模型进行补全时，能够解决利用TransE 模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。附图说明

[0040] 图1为本发明实施例提供的知识图谱的知识补全方法的流程示意图；

[0041] 图2为本发明实施例提供的风热犯表证的证性关系示意图；

[0042] 图3为本发明实施例提供的风热犯表证的属性示意图；

[0043] 图4为本发明实施例提供的基于TransE模型的中医知识表示和推理建模示意图；

[0044] 图5为本发明实施例提供的G-TransE模型的实现流程示意图；

[0045] 图6为本发明实施例提供的基于TG-TransE模型补全中医知识图谱的实现流程示意图。

具体实施方式

[0046] 为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

[0047] 本发明针对现有的利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题，提供一种知识图谱的知识补全方法及装置。

[0048] 实施例一

[0049] 如图1所示，本发明实施例提供的知识图谱的知识补全方法，包括：

[0050] S101，获取知识图谱，根据获取的知识图谱，输出实体和关系对应的空间向量；

[0051] S102，根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；

[0052] S103，利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，其中，所述生成式对抗网络包括：生成器和判别器；

[0053] S104，对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；

[0054] S105，将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到用于知识补全的目标知识表示模型。

[0055] 本发明实施例所述的知识图谱的知识补全方法，根据获取的知识图谱，输出实体和关系对应的空间向量；根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，从而解决利用 TransE模型进行知识补全过程中存在的负例无意义问题；对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型，以确保训练时让正例和负例远离，从而有效避免多个实体竞争同一个向量空间点的现象；将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到目标知识表示模型，这样，使用目标知识表示模型进行补全时，能够解决利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。

[0056] 在前述知识图谱的知识补全方法的具体实施方式中，进一步地，所述获取知识图谱包括：

[0057] 获取原始知识图谱；

[0058] 构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。

[0059] 本实施例中，构建属性图对知识图谱中利用率低的实体节点进行知识表示方法上的提升，能够改善数据稀疏问题。例如：中医中的证性关系是描述证候属性的，所以将证性表示为证候的属性，如“风热犯表证”的证性为“表、热、外风”，如图2所示。为了解决数据稀疏问题，提升节点的知识表示方法，所以把证性作为证候的属性，如图3所示。

[0060] 在前述知识图谱的知识补全方法的具体实施方式中，进一步地，所述根据获取的知识图谱，输出实体和关系对应的空间向量包括：

[0061] 根据处理得到的知识图谱，导出事实三元组，并通过随机替换事实三元组的头实体或者尾实体来构造负例；

[0062] 根据导出的事实三元组及构造的负例，应用基于TransE模型的知识嵌入表示，输出实体和关系对应的空间向量，其中，TransE表示翻译的嵌入式。

[0063] 本实施例中，根据处理得到的知识图谱，可以利用图形数据库(neo4j) 导出事实三元组(h,r,t)，导出的事实三元组即为训练所需的正例，其中，h、r、 t分别表示头实体、关系、尾实体。

[0064] 本实施例中，根据导出的事实三元组及构造的负例，应用基于TransE模型的知识嵌入表示，输出实体和关系对应的空间向量可以包括以下步骤：

[0065] H11、根据导出的事实三元组及构造的负例，得到初始数据；

[0066] H12、将初始数据进行划分，得到训练集、验证集、实体集、关系集和测试集；其中，利用训练集训练TransE模型，得到知识图谱的表示模型；

[0067] 本实施例中，对于TransE模型优劣的测试采取实体排名mean rank和准确率hit@10两个指标。

[0068] 本实施例中，某些正确的三元组(正确的三元组就是非负例的三元组，即正例三元组)可能在训练集中，是正确的知识，但是不在测试集中。这种情况下，训练集中正确的三元组排名可能排在测试集三元组之上，但这不应该被记为错误实例。所以对于TransE模型优劣的测试采取实体排名mean rank和准确率hit@10两个指标之外，还采取过滤掉训练集中正确的三元组，记为filt mean rank和filt hit@10两个指标，这样，一共可以使用以上四个指标(mean rank、 hit@10、filt mean rank、filt hit@10)来判断TransE模型优劣。

[0069] H13、首先用训练集训练TransE模型，然后根据TransE模型对验证集数据进行预测得到的指标进行参数选择，综合在验证集上的训练效果和效率两方面考虑，最后采用参数：随机梯度下降步长α＝0.01，能量边界距离γ＝1，向量空间维度k＝50，随机梯度下降算法中批处理次数batch＝2400，距离衡量方法 d(.)为L1范数，并设置最大迭代次数为100轮。接着，利用上述参数(α＝0.01， γ＝1，k＝50，batch＝2400，d(.)为L1范数)对实体集和关系集进行训练，得到的实体和关系对应的空间向量。最后利用得到的实体和关系对应的空间向量，对测试集做实体预测，计算原始和过滤模式下各自的平均排名和准确率指标，结果如表1所示：

[0070] 表1排名和准确率指标结果

[0071]

[0072] 本实施例中，TransE模型采用最大间隔方法，即正例和负例尽量远离。

[0073] 在前述知识图谱的知识补全方法的具体实施方式中，进一步地，如图4 所示，所述根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱包括：

[0074] A11，根据得到的实体和关系对应的空间向量，选取事实三元组的头实体和关系，采用TransE模型计算尾实体的能量，输出推理排名为前k位(topk) 的尾实体及其打分分数；

[0075] A12，根据得到的实体和关系对应的空间向量，选取事实三元组的尾实体和关系，采用TransE模型计算头实体的能量，输出推理排名为前k位(topk) 的头实体及其打分分数；

[0076] A13，根据实体的概念类型对推理的实体结果进行去噪处理，具体的：根据实体的概念类型，将推理得到的实体与预先确定的候选集进行比较，去掉非候选集中的实体；

[0077] 本实施例中，所述概念类型是指想要推理得到的实体对应的概念；例如：针对“证症关系”，利用TransE模型，推理症状对应的证候，输出其推理结果。选取其top30的实体预测结果(不包括指示图谱已有三元组知识)，并去掉非证候候选集的实体；即：将推理结果与证候候选集进行比较，若推理结果不在证候候选集中，则去掉该推理结果。

[0078] A14，根据打分分数，确定推理得到的实体的置信度，取置信度排名为前 k’(topk’)的推理实体补充其与头实体或尾实体之间的关系，补全知识图谱。

[0079] 本实施例中，针对“病位关系”、“症性关系”、“证性关系”，选取其top10 的实体推理结果(不包括知识图谱已有三元组知识)，如表2所示，并去掉噪声实体，采取专家打分法选择推理实体，采取专家评分的top1结果作为病位关系、证性关系、症性关系的推理结果补充知识图谱，如表3所示。

[0080] 表2根据症状推理得到的部分证候

[0081]

[0082] 表3病位关系、证性关系、症性关系的推理结果

[0083]

[0084] 本实施例中，应用TransE模型，将事实三元组中的实体和关系映射成低维空间的稠密向量，计算语义关系，从而推理发现新的知识，进行知识补全，解决了知识图谱中某些知识缺失的问题。

[0085] 在前述知识图谱的知识补全方法的具体实施方式中，进一步地，所述利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型包括：

[0086] 根据导出的事实三元组，对TransE模型和双线性模型进行预训练；

[0087] 将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器；

[0088] 生成器和判别器采用交替优化方式进行训练，直至判别器输出的正例和负例三元组的边际损失小于预设的阈值，得到的生成器和判别器构成第一知识表示模型；

[0089] 其中，训练判别器时，固定生成器，利用生成器随机模拟产生样本作为负例，从事实三元组中采集正例，将负例和正例输入判别器，根据判别器输出和正负例标签来计算误差，利用误差反向传播算法来更新判别器的梯度参数；训练生成器时，固定判别器，利用生成器随机模拟产生负例，并输入到判别器，根据判别器输出和负例标签来计算误差，利用误差反向传播算法来更新生成器的梯度参数。

[0090] 本实施例中，利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，所述第一知识表示模型为改进的知识表示模型 G-TransE，这样，考虑到利用TransE模型进行知识补全过程中存在的负例无意义问题，本实施例基于对抗生成网络的思想，训练一个判别器来判断TransE 模型中的正例与负例，从而选择优质的负例(使边际损失最小)训练知识表示模型G-TransE。

[0091] 具体可以包括以下步骤：

[0092] B11、将导出的事实三元组，划分为训练集、验证集和测试集；

[0093] B12、综合在验证集上的训练效果和效率两方面考虑，TransE模型采用参数α＝0.01，γ＝1，k＝50，batch＝2400，d(.)为L1范数，并设置最大迭代次数为 100轮，进行预训练；

[0094] B13、双线性(DistMult)模型正则项权重λ集合{0.01，0.1，1，10}，k＝50，其中，k表示向量空间维度；综合在验证集上的训练效果和效率两方面考虑，最后采用参数λ＝1，最大迭代次数为100轮；

[0095] B14、如图5所示，将预训练好的TransE模型作为生成器G，预训练好的 Dismult模型作为判别器D。生成器G计算随机生成的负例(通过随机替换事实三元组的头实体或者尾实体来构造负例)的概率p分布，然后从生成器G 生成的负例中随机选取一个负例作为输出，并利用选取的负例的概率更新生成器的梯度参数，将该输出是输入到判别器D，判别器D根据评分函数计算接收到到的正例三元组和负例三元组的得分，图5中的2个d一个表示正例三元组的得分，另一个表示负例三元组的得分；判别器D根据得到的正例三元组和负例三元组的得分，确定边际损失，其中，判别器D的优化目标是最小化正例和负例三元组的边际损失。

[0096] 本实施例中，生成器G和判别器D采用交替优化方式进行训练，直至判别器D输出的正例和负例三元组的边际损失小于预设的阈值，得到的生成器G 和判别器D构成第一知识表示模型。

[0097] 本实施例中，判别器的优化目标是最小化正例和负例三元组的边际损失 LD：

[0098]

[0099] 本实施例中，T表示正例三元组集合；fD(h,r,t)表示判别器对正例三元组的评分函数；fD(h',r,t')表示判别器对负例三元组的评分函数；(h',r,t')表示负例三元组；pG(h',r,t'|h,r,t)表示生成器为正例三元组(h，r，t)生成一个样本概率分布为pG(h'，r，t'|h，r，t)的负例三元组；～表示相似符号。

[0100] 本实施例中，判别器D的目标是为优质的负例样本分配一个较小的距离，也就是最大化负距离的期望：

[0101]

[0102] 对于此问题，采取的目标性形式是最大化给定样本概率分布的期望。用增强学习的思想来解释，(h'，r，t')即reward，reward就是从环境状态到奖励的一个映射。使用策略梯度算法，可以得到RG的梯度，即生成器G的训练参数。生成器G通过策略梯度算法力求最小化负例三元组的得分。

[0103] 本实施例中，对于G-TransE模型优劣的测试也采取实体排名mean rank 和准确率hit@10两个指标之外，还采取过滤掉训练集中正确的三元组，记为 filt mean rank和filt hit@10两个指标。利用原始和过滤模式下各自的平均排名和准确率指标来判断模型优劣，结果如表4所示：

[0104] 表4排名和准确率指标结果

[0105]

[0106] 本实施例中，对得到的事实三元组进行概念分层，随机选择事实三元组(正例)同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型，其中，所述第二知识表示模型为改进的知识表示模型T-TransE模型；具体可以包括以下步骤：

[0107] C11、对得到的事实三元组进行概念分层，随机选择正例同一子概念下的实体作为负例，将C11中形成的负例和导出的事实三元组，划分为训练集和测试集，其中，训练集用于训练得到T-TransE模型；

[0108] 本实施例中，以中医知识为例，中医知识分为中医生理、中医病理、中医认识方法、中医辨证论治四个概念层，这四个概念层为知识图谱中的根节点。中医生理的概念与实例共有2个子概念层；中医病理的概念与实例共有2个子概念层；中医认识方法的概念与实例共有2个子概念层；中医辨证论治的概念与实例共有4个子概念层。由于中医知识的四个根概念层相互独立，所以在四个根概念层中属于同一层级的概念或者实例之间的关系，均可定义为同一种子概念关系，即定义四种子概念关系集合Rsub＝{rsub1,rsub2,rsub3,rsub4}。将中医知识图谱中的子概念关系拆分为4种不同层级的子概念。将同属于同一子概念的实体类型标签记为Tsub＝{type1,type2...typen}。

[0109] 本实施例中，C11中的训练集和测试集数据中加入了子概念实体类型标签。

[0110] C12、做实体链接预测时，移除不属于子概念关系特定的实体类型的候选实体，即在T-TransE模型测试中进行去噪处理；

[0111] C13、由于T-TransE模型针对实体类型限制提出，因而不做公共数据集验证。构造三元组数量1000条的关系为子概念的三元组用于做子概念关系实体链接预测。

[0112] 本实施例中，对于T-TransE模型优劣的测试也采取实体排名mean rank和 hit@10两个指标之外，还采取过滤掉训练集中正确的三元组，记为filt mean rank和filt hit@10两个指标。利用原始和过滤模式下各自的平均排名和准确率指标来判断模型优劣，结果如表5所示：

[0113] 表5排名和准确率指标结果

[0114]

[0115] 本实施例中，考虑到在处理1-N关系时，存在多个实体竞争一个向量空间点的问题，当事实三元组在构造负例时，随机选择正例同一子概念下的实体替换头实体或尾实体来构造负例，采用最大间隔方法，训练时让正例和负例尽量远离，这样可以有效避免多个实体竞争同一个向量空间点的现象。

[0116] 本实施例中，将T-TransE模型作为G-TransE的判别器输入，通过对抗生成式网络，优化T-TransE模型的知识表示，得到目标知识表示模型TG-TransE；使用TG-TransE模型进行知识补全，可在一定程度上解决了数据稀疏问题，又解决了TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理问题。

[0117] 本实施例中，如图6所示，利用TG-TransE模型将中医实体和关系映射为低维稠密的空间向量；选取中医实体的头实体和关系，采用模型计算尾实体的能量，输出其排名topk的尾实体及其打分；选取中医实体的尾实体和关系，采用模型计算头实体的能量，输出其排名topk的头实体及其打分；根据实体的概念类型对推理的实体结果进行去噪处理；专家打分评判预测结果给出推理实体置信度；取置信度topk’的实体补充其与头实体或尾实体之间的关系，初步补全中医知识图谱。

[0118] 本实施例中，打分是计算h+r与t之间的距离，或计算t+r与h之间的距离，距离越近说明关系强度越强(weight)，因此TG-TransE模型打分越低，证明关系强度越强。也就是说，上述过程中的补全不仅包括了关系的补全，而且还包括了关系强度的补全。

[0119] 本实施例中，可以将距离计算结果划分到不同的区间，每个区间对应一个关系强度。

[0120] 本实施例中，对于TG-TransE模型优劣的测试也采取实体排名mean rank 和hit@10两个指标之外，还采取过滤掉训练集中正确的三元组，记为filt mean rank和filt hit@
10两个指标；利用原始和过滤模式下各自的平均排名和准确率指标来判断模型优劣，结果如表6所示：

[0121] 表6排名和准确率指标结果

[0122]

[0123] 实施例二

[0124] 本发明还提供一种知识图谱的知识补全装置的具体实施方式，由于本发明提供的知识图谱的知识补全装置与前述知识图谱的知识补全方法的具体实施方式相对应，该知识图谱的知识补全装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述知识图谱的知识补全方法具体实施方式中的解释说明，也适用于本发明提供的知识图谱的知识补全装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

[0125] 本发明实施例还提供一种知识图谱的知识补全装置，包括：

[0126] 获取模块，用于获取知识图谱，根据获取的知识图谱，输出实体和关系对应的空间向量；

[0127] 第一确定模块，用于根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；

[0128] 第一训练模块，用于利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，其中，所述生成式对抗网络包括：生成器和判别器；

[0129] 第二训练模块，用于对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型；

[0130] 第二确定模块，用于将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到用于知识补全的目标知识表示模型。

[0131] 本发明实施例所述的知识图谱的知识补全装置，根据获取的知识图谱，输出实体和关系对应的空间向量；根据得到的实体和关系对应的空间向量，计算语义关系，得到实体之间新的关系，补全知识图谱；利用生成式对抗网络随机生成负例，并结合导出的事实三元组训练第一知识表示模型，从而解决利用 TransE模型进行知识补全过程中存在的负例无意义问题；对得到的事实三元组进行概念分层，随机选择事实三元组同一子概念下的实体构造负例，并结合导出的事实三元组，采用最大间隔方法，训练第二知识表示模型，以确保训练时让正例和负例远离，从而有效避免多个实体竞争同一个向量空间点的现象；将第二知识表示模型作为第一知识表示模型的判别器输入，通过对抗生成式网络优化第一知识表示模型，得到目标知识表示模型，这样，使用目标知识表示模型进行补全时，能够解决利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。

[0132] 需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

[0133] 以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

标题	发布/更新时间	阅读量
一种基于知识表达模型的复杂曲面数字化制造方法	2020-05-16	181
一种基于PASP的多Agent信念协调方法	2020-05-18	522
一种甲骨文基础数据管理及智能知识服务平台及建设方法	2020-05-18	705
一种语音控制方法、装置、存储介质及智能家居系统	2020-05-19	631
一种基于农业大数据知识库管理系统及其功能设计方法	2020-05-17	373
基于应用本体的空间目标识别方法	2020-05-22	244
一种基于图谱表示学习的知识表示学习方法	2020-05-14	153
基于大数据的国际产能合作风险评估与决策服务系统	2020-05-25	817
一种电网企业财务健康诊断方法	2020-05-11	995
一种结合知识图谱和文本信息的相关公司挖掘方法	2020-05-20	335

一种知识图谱的知识补全方法及装置

一种知识图谱的知识补全方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：