专利汇可以提供基于联合学习的司法知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种司法知识图谱构建方法,一种基于联合学习的司法知识图谱构建方法,包括以下步骤:(1)构建刑事司法领域本体,(2)搭建Seq2Seq神经网络模型,(3)提取犯罪情节三元组,(4)存储于图 数据库 。本发明一种基于联合学习的司法知识图谱构建方法和本体格式切实可行且结构清晰,具有参考价值,并且挖掘了犯罪情节以及量刑结果的关联信息,可以提升量刑建议的精准度,基于建立的司法知识图谱,可以面向司法业务的裁判文书知识推理和智能检索等方面中的应用。,下面是基于联合学习的司法知识图谱构建方法专利的具体信息内容。
1.一种基于联合学习的司法知识图谱构建方法,其特征在于包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
wc=reshape(vc) (2)
式中,conv()表示卷积操作,cj表示第j个字的初始化向量, 表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc, 表示第i个词语的初始化向量, 表示第i个词语通过对字进行卷积操作得到的字符特征向量, 表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi) (4)
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量, 表示向量拼接操作, 表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
式中,LSTM()表示通过单向长短期记忆神经网络的计算, 表示第i个词通过基于卷积神经网络的编码层的特征向量, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量;
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵, 表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、有期徒刑、无期徒刑和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为阿拉伯数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为阿拉伯数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
步长预测方法、控制器、定位设备和可读存储介质 | 2020-05-08 | 1023 |
射频基因库系统及违法违规无线电波检测系统 | 2020-05-11 | 507 |
基于识别商品图像推荐商品的方法、装置和电子设备 | 2020-05-12 | 841 |
基于深度学习的具有自适应学习率的设备故障诊断方法 | 2020-05-08 | 747 |
FPGA电路的负载建模方法 | 2020-05-08 | 1016 |
一种基于深度置信网络的超短期风电功率预测方法 | 2020-05-13 | 883 |
基于CDBN-SVR的空气预热器转子变形软测量方法 | 2020-05-13 | 375 |
基于深度学习的文档自动归类及光学字符识别方法及系统 | 2020-05-08 | 424 |
一种特征权重自学习的睡眠质量检测关键脑区判定方法 | 2020-05-08 | 708 |
一种基于大数据技术的市场评估分析方法 | 2020-05-11 | 118 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。