一种基于深度强化学习的知识图谱自动生成方法专利检索-人工神经元人工神经网络机器学习人工智能人工智能专利检索查询-专利查询网

一种基于深度 强化学习的知识图谱自动生成方法

阅读：717发布：2020-05-14

专利汇可以提供一种基于深度强化学习的知识图谱自动生成方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于深度强化学习的知识图谱自动生成方法，通过将深度强化学习模型中隐藏层的权重和偏置作为三元组中的关系，将和关系连接的两个神经元作为三元组的主语和宾语，从而得到大量的三元组，然后构建特征表示矩阵和邻接矩阵，获得图神经网络中作为输入内容的知识图谱。上述方法不需要人工对环境特征的三元组进行标注，而且提取的环境特征和深度强化学习中设定的任务目标高度相关，具有较好的针对性。，下面是一种基于深度强化学习的知识图谱自动生成方法专利的具体信息内容。

权利要求

1.一种基于深度强化学习的知识图谱自动生成方法，其特征在于，包括：
S1、构建深度强化学习模型，所述深度强化学习模型包括动作输出神经网络和目标导向神经网络，所述动作输出神经网络包括输入层，隐藏层和动作输出层，所述隐藏层包括至少二个中间层；
S2、从隐藏层中提取三元组(主语，关系，宾语)；
S3、构建图神经网络，将提取到的三元组作为图神经网络的输入内容。
2.根据权利要求1所述的一种基于深度强化学习的知识图谱自动生成方法，其特征在于，所述每个中间层都包括若干个神经元，不同层之间的神经元之间通过权重和偏置连接，对所述权重和偏置进行结合计算得到一个能表示权重和偏置的值Z，将Z作为一个三元组中的关系，每一个Z都连接有两个神经元，将与Z连接的两个神经元和Z共同作为一组单位三元组。
3.根据权利要求2所述的一种基于深度强化学习的知识图谱自动生成方法，其特征在于，所述步骤S2包括提取隐藏层中每一条权重和偏置连接关系所代表的Z,获得隐藏层中所有三元组的表示U，将U作为步骤S3中图神经网络的输入。
4.根据权利要求2所述的一种基于深度强化学习的知识图谱自动生成方法，其特征在于，所述单位三元组的主语为靠近输入层的神经元，宾语为靠近动作输出层的神经元；
或所述单位三元组的主语为靠近动作输出层的神经元，宾语为靠近输入层的神经元。
5.根据权利要求1所述的一种基于深度强化学习的知识图谱自动生成方法，其特征在于，所述目标导向神经网络包括隐藏层神经元预测神经网络，动作预测神经网络；
所述隐藏层神经元预测神经网络的输入为当前时刻动作输出神经网络的输入以及当前时刻动作输出神经网络的动作输出，输出为对下一时刻动作输出神经网络的隐藏层每一个神经元数值的预测；
所述动作预测神经网络的输入为当前时刻和下一时刻动作输出神经网络隐藏层神经元的矩阵表示，输出为对当前时刻和下一时刻之间执行的动作的预测。

说明书全文

一种基于深度强化学习的知识图谱自动生成方法

技术领域

[0001] 本发明涉及机器学习技术领域，尤其是涉及一种基于深度强化学习的知识图谱自动生成方法。

背景技术

[0002] 知识图谱技术是近年来兴起的热门人工智能技术，它可以被广泛地应用在各种人工智能系统中，如人脸识别，语言生成等等。所谓的知识图谱是一个由大量的三元组(head，relation，tail)构成的集合，其中head和tail都是所谓的实体，他们分别对应主语和宾语，而relation则是主语和宾语之间的关系，这通常可以表达某种动作或关系，比如“奥巴马曾经在哥伦比亚上学”，我们就可以表达为三元组(奥巴马，学校，哥伦比亚大学)。

[0003] 从另一个角度说，这种三元组的集合可以构成一个多关系网络，其中实体是节点，关系是连边。由于连边可能有多种类型，比如学习，比如住所，比如父子等等，那么对应的连边也就有多种类型。

[0004] 目前主要存在四种构建知识图谱的方式，他们被分为手动方式(封闭的专家输入和开放的志愿者输入)和自动方式(自动半结构化和自动非结构化)两大类。目前人们利用最多的当然是自动构建方式，其中自动半结构化的构建方式就是用一些人工指定的规则或者正则表达式来进行模板匹配，从而从样本中提炼出实体关系三元组，而自动化非结构化的方式则利用机器学习等技术从大量样本中提取三元组关系，构建知识图谱。使用自动方式构建知识图谱有着人力成本低，自动化程度高，受人工错误设定干预较少的优点，如何利用机器学习来获取三元组关系构建知识图谱并且减少人工干预是当前热门的技术问题。

发明内容

[0005] 本发明所要解决的技术问题是提供一种利用深度强化学习提取三元组，人工干预较少，提取效果较好的知识图谱自动生成方法。

[0006] 本发明所采用的技术方案是，包括：

[0007] S1、构建深度强化学习模型，所述深度强化学习模型包括动作输出神经网络和目标导向神经网络，所述动作输出神经网络包括输入层，隐藏层和动作输出层，所述隐藏层包括至少二个中间层；

[0008] S2、从隐藏层中提取三元组(主语，关系，宾语)；

[0009] S3、构建图神经网络，将提取到的三元组作为图神经网络的输入内容。

[0010] 本发明的有益效果是：

[0011] (1)深度强化学习的隐藏层所提取的内容为环境特征表示，利用深度强化学习得到环境特征构建三元组，可以得到环境不同特征之间的关系，不需要人工对环境进行三元组标注，节省大量人力。

[0012] (2)深度强化学习所提取的环境特征通常与目标导向有关，使得利用深度强化学习提取环境特征所获得的知识图谱与目标导向有关，从而能够确定提取的知识图谱在使用者所期望的范围内。

[0013] 作为优先，所述每个中间层都包括若干个神经元，不同层之间的神经元之间通过权重和偏置连接，对所述权重和偏置进行结合计算得到一个能表示权重和偏置的值Z，将Z作为一个三元组中的关系，每一个Z都连接有两个神经元，将与Z连接的两个神经元和Z共同作为一组单位三元组，使用权重和偏置的综合表示作为关系，根据关系连接的神经元确立三元组，使得三元组提取到的内容是相互联系的两个环境特征以及两者间的关系。

[0014] 作为优先，所述步骤S2包括提取隐藏层中每一条权重和偏置连接关系所代表的Z,获得隐藏层中所有三元组的表示U，将U作为步骤S3中图神经网络的输入，提取隐藏层中所有的连接关系构成三元组集合，将三元组集合输入图神经网络中进行处理，使得图神经网络能够获得全面的知识图谱。

[0015] 作为优先，所述单位三元组的主语为靠近输入层的神经元，宾语为靠近动作输出层的神经元；

[0016] 或所述单位三元组的主语为靠近动作输出层的神经元，宾语为靠近输入层的神经元。

[0017] 作为优先，所述目标导向神经网络包括隐藏层神经元预测神经网络，动作预测神经网络；

[0018] 所述隐藏层神经元预测神经网络的输入为当前时刻动作输出神经网络的输入以及当前时刻动作输出神经网络的动作输出，输出为对下一时刻动作输出神经网络的隐藏层每一个神经元数值的预测；

[0019] 所述动作预测神经网络的输入为当前时刻和下一时刻动作输出神经网络隐藏层神经元的矩阵表示，输出为对当前时刻和下一时刻之间执行的动作的预测，通过计算对动作的预测，使得动作输出神经网络提取的环境特征与动作所能变化的环境有关，进一步加强了提取的知识图谱的针对性，使用对隐藏层的预测，使得使用者能够较好掌握当前深度强化学习网络对环境的掌握程度，当对隐藏层的预测和对动作的预测收敛时，说明深度强化学习网络对当前的环境掌握较好，保证提取的知识图谱符合实际情况。

具体实施方式

[0020] 本发明公开了一种基于深度强化学习的知识图谱自动生成方法，通过将深度强化学习模型中动作输出神经网络提取的环境特征表示作为三元组提取的依据，使得知识图谱的构建一方面不需要人工标注，节省了大量人力，一方面构建的知识图谱具有针对性，较好的过滤环境噪声。

[0021] 由于本发明的核心在于从动作输出神经网络中提取三元组，，因此，凡是具有特征提取功能的深度强化学习模型，都可以作为本发明的计算模型，包括但不限于BP神经网络，径向基神经网络，RNN神经网络，DNN神经网络，CNN神经网络等等。

[0022] 为了具体说明本发明，这里使用一个简单的猫狗图片分类模型进行说明，其中为了方便说明，将神经元数量做了最简化处理，在实际工作中往往使用更多的神经元数量：

[0023] 首先，构建一个基于ICM的深度强化学习模型和图神经网络分类模型；其中，该深度强化学习模型包括动作输出神经网络，环境特征预测神经网络，动作预测神经网络，该动作输出神经网络包括两个中间层，每个中间层有两个神经元，靠近输入层的神经元表示为靠近动作输出层的神经元表示为和之间的权重和偏置为和综合表示为 (包括但不限于相乘，也可以是加等等)，和之间的权重和偏置为和综合表示为和之间的权重和偏置为和综合表示为
和之间的权重和偏置为和综合表示为令t时刻采集到的环境参数为
St，两个中间层的环境特征表示为动作输出为at，输入的环境参数为对图片的观测，动作为对观测角度的调整；在环境特征预测神经网络中，输入为和at，输出为对t时刻的下一个时刻，即t+1时刻观测到的环境特征表示的预测在动作预测神经网络中，输入为和输出为对at的预测a′t，根据ICM模型，我们可以得到深度强化学习的奖励函数和损失函数，在具备奖励函数和损失函数后，对接值函数模型或策略函数模型，即可完成训练，该内容目前已在OpenAI发表的论文《Large-Scale Study of Curiosity-Driven Learning》中公开，在此不多赘述。训练完毕后的ICM深度强化学习模型，提取到的环境特征都是和自身的动作高度相关的，也就是说，该模型的动作为调整观测角度，提取到的环境特征为观测到的不同角度的图片的特征。当和的差异度趋于0且at和a′t的差异度趋于0时，说明该深度强化学习模型已采集完毕图片的相关信息，此时，即可调整图片角度，记录不同角度下隐藏层中神经元的值和权重与偏置的值，在本实施例中，共有4条关系，得到的三元组为
然后在这个基础上，对大量猫狗图片进行图片采集，获得大量三元组数据，在具备大量三元组数据之后，即可根据现有技术，构建节点特征矩阵和邻接矩阵，完成知识图谱构建，并将其作为输入，输入到图神经网络中，得到具有较好分类效果的分类模型(图神经网络具有哪怕使用初始化权重参数也仍然具有较好的分类效果的特性)。

[0024] 上述过程中，唯一需要设定的只有如何对动作进行规划以及如何设定外部奖励，使得深度强化学习模型能够较好的采集数据，将需要人工标注的三元组转化为通过深度强化学习的动作和外部奖励进行标注。另外，本实施例为了方便说明使用的是最简单的神经网络模型，为了增加神经元之间的连接关系，使用RNN神经网络，残差神经网络等，连接关系会更多，知识图谱的构建效果也会更好。

标题	发布/更新时间	阅读量
一种基于机器学习的棒束子通道热工水力特性预测方法	2020-05-08	476
一种基于神经网络的卫星外辐射源目标被动探测方法	2020-05-14	468
基于通信受限的神经网络系统远程状态估计方法及装置	2020-05-12	212
用于执行LSTM运算的装置和方法	2020-05-13	42
基于人工智能的对象推荐模型训练方法、推荐方法及装置	2020-05-11	106
一种东阿阿胶、福胶、鹿角胶定量研究的方法	2020-05-12	797
一种基于深度强化学习的知识图谱自动生成方法	2020-05-14	717
一种基于深度学习的司机、乘客行为分析与预警系统	2020-05-11	81
用于从具有变化显著性的带符号模拟电导对构建用于人工神经网络的突触权重的系统和方法	2020-05-15	781
一种基于神经网络的智能窗户调节方法及装置	2020-05-11	978

一种基于深度强化学习的知识图谱自动生成方法

一种基于深度强化学习的知识图谱自动生成方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：