首页 / 专利库 / 人工智能 / 机器学习 / 监督学习 / 基于联合学习的司法知识图谱构建方法

基于联合学习的司法知识图谱构建方法

阅读:403发布:2020-05-11

专利汇可以提供基于联合学习的司法知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种司法知识图谱构建方法,一种基于联合学习的司法知识图谱构建方法,包括以下步骤:(1)构建刑事司法领域本体,(2)搭建Seq2Seq神经网络模型,(3)提取犯罪情节三元组,(4)存储于图 数据库 。本发明一种基于联合学习的司法知识图谱构建方法和本体格式切实可行且结构清晰,具有参考价值,并且挖掘了犯罪情节以及量刑结果的关联信息,可以提升量刑建议的精准度,基于建立的司法知识图谱,可以面向司法业务的裁判文书知识推理和智能检索等方面中的应用。,下面是基于联合学习的司法知识图谱构建方法专利的具体信息内容。

1.一种基于联合学习的司法知识图谱构建方法,其特征在于包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
wc=reshape(vc)                                   (2)
式中,conv()表示卷积操作,cj表示第j个字的初始化向量, 表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc, 表示第i个词语的初始化向量, 表示第i个词语通过对字进行卷积操作得到的字符特征向量, 表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi)                           (4)
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量, 表示向量拼接操作, 表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
式中,LSTM()表示通过单向长短期记忆神经网络的计算, 表示第i个词通过基于卷积神经网络的编码层的特征向量, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量;
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、有期徒刑、无期徒刑和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为阿拉伯数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为阿拉伯数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。

说明书全文

基于联合学习的司法知识图谱构建方法

技术领域

[0001] 本发明涉及一种司法知识图谱构建方法,更具体地说,涉及一种基于联合学习的司法知识图谱构建方法。

背景技术

[0002] 知识图谱是用于描述海量实体、实体属性及实体间关系的有效工具。近年来随着互联网的发展,知识图谱得到了广泛的关注,相对于通用领域的知识图谱得到学术界和工业界的大量分析和研究,针对垂直领域的知识图谱构建方法相对较少。知识图谱的基本组成单位是“实体-关系-实体”三元组结构、或“实体-属性-属性值”三元组结构,通过关系将每个实体相互联系起来,构成网状的图谱结构。知识以知识图谱的形式表示,可以将难以理解的信息通过挖掘、分析和可视化的方式对知识及其逻辑关系进行展示,便于用户获取和理解概念及其联系。知识图谱构建方法一般分为自底向上的方法和自顶向下的方法。自底向上的方法流程是从海量的文本数据中提取出相关实体、属性以及实体之间的相互关系获取知识要素,然后通过实体链接、知识合并等过程,消除实体之间的歧义,为得到结构化的知识表示,通过数据驱动的方式自动化构建顶层的本体模式,这也是自底向上的构建方法关键所在,当前的通用领域知识图谱大多采用自底向上的方式进行构建。自顶向下的方法流程是先对知识图谱的本体和数据模式进行定义,然后根据定义的模式将实体等信息填充入知识库中,自顶向下的构建方法多用于垂直领域知识图谱的构建,需要利用一定的领域知识来指导定义本体结构,以及收集数据的领域范围等,然后通过命名实体识别和关系抽取等信息提取技术,实现对垂直领域知识图谱的构建。目前虽已涌现出许多通用领域的知识图谱构建方法,但针对于刑事司法领域的知识图谱构建方法的研究仍处在探索阶段。现在已有的针对司法领域的信息提取方法,多为通过构建规则的方式得到法律文书基本信息,将法律文书的各项内容结构化的表示出来,而没有对案件的情节内容进行更细致的挖掘,也没有提取出犯罪情节以及量刑结果的关联信息,因此无法进行量刑建议、类案推荐等方面的应用。

发明内容

[0003] 为了克服现有技术中存在的不足,本发明目的是提供一种基于联合学习的司法知识图谱构建方法。该方法基于司法领域的专业知识以及刑事判决书文本内容,利用自顶向下的构建方式,结合主流的神经网络深度学习算法和联合学习算法,对刑事判决书文本中涉及的三元组进行提取,并以图数据库的方式进行存储。
[0004] 为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种基于联合学习的司法知识图谱构建方法,包括以下步骤:
[0005] 步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
[0006] (a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
[0007] (b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
[0008] (c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模,以便后续的调用和读取;
[0009] 步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
[0010] (a)、确定Seq2Seq神经网络模型的整体结构,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
[0011] (b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
[0012]
[0013] wc=reshape(vc)   (2)
[0014]
[0015] 式中,conv()表示卷积操作,cj表示第j个字的初始化向量, 表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc,表示第i个词语的初始化向量, 表示第i个词语通过对字进行卷积操作得到的字符特征向量, 表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
[0016] 基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
[0017] hi=conv(wi)   (4)
[0018]
[0019] 式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量, 表示向量拼接操作,表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
[0020] (c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
[0021]
[0022] 式中,LSTM()表示通过单向长短期记忆神经网络的计算, 表示第i个词通过基于卷积神经网络的编码层的特征向量, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量;
[0023] (d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
[0024]
[0025] 式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
[0026] 步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
[0027] (a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
[0028] (b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
[0029] (c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
[0030] 步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
[0031] (a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
[0032] (b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、有期徒刑、无期徒刑和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为阿拉伯数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为阿拉伯数字;
[0033] (c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
[0034] 本发明有益效果是:一种基于联合学习的司法知识图谱构建方法,包括以下步骤:(1)构建刑事司法领域本体,(2)搭建Seq2Seq神经网络模型,(3)提取犯罪情节三元组,(4)存储于图数据库。本发明一种基于联合学习的司法知识图谱构建方法和本体格式切实可行且结构清晰,具有参考价值,并且挖掘了犯罪情节以及量刑结果的关联信息,可以提升量刑建议的精准度,基于建立的司法知识图谱,可以面向司法业务的裁判文书智能检索和类案推荐等方面中的应用。
附图说明
[0035] 图1是本发明方法步骤流程图
[0036] 图2是本发明中的Seq2Seq神经网络模型图。

具体实施方式

[0037] 下面结合附图对本发明作进一步说明。
[0038] 一种基于联合学习的司法知识图谱构建方法,包括以下步骤:
[0039] 步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
[0040] (a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
[0041] (b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
[0042] (c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
[0043] 步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
[0044] (a)、确定Seq2Seq神经网络模型的整体结构,如图2所示,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
[0045] (b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
[0046]
[0047] wc=reshape(vc)   (2)
[0048]
[0049] 式中,conv()表示卷积操作,cj表示第j个字的初始化向量, 表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc,表示第i个词语的初始化向量, 表示第i个词语通过对字进行卷积操作得到的字符特征向量, 表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
[0050] 基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
[0051] hi=conv(wi)   (4)
[0052]
[0053] 式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量, 表示向量拼接操作,表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
[0054] (c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
[0055]
[0056] 式中,LSTM()表示通过单向长短期记忆神经网络的计算, 表示第i个词通过基于卷积神经网络的编码层的特征向量, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量;
[0057] (d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
[0058]
[0059] 式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
[0060] 步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
[0061] (a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
[0062] (b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
[0063] (c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
[0064] 步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
[0065] (a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
[0066] (b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、有期徒刑、无期徒刑和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为阿拉伯数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为阿拉伯数字;
[0067] (c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈