相似文本确定方法、神经网络模型获得方法及相关装置专利检索-词性标注人工智能专利检索查询-专利查询网

相似文本确定方法、神经网络模型获得方法及相关装置

阅读：282发布：2020-05-12

专利汇可以提供相似文本确定方法、神经网络模型获得方法及相关装置专利检索，专利查询，专利分析的服务。并且本发明公开了一种相似文本确定方法、神经网络模型获得方法及相关装置，可以获得待处理的司法文本；对待处理的司法文本进行分词，获得词汇序列；获得词汇序列中各词汇的词汇向量构成的矩阵；将矩阵输入预设的神经网络模型中，获得预设的神经网络模型的部分或全部网络层输出的特征向量；将获得的各特征向量拼接为一个与待处理的司法文本对应的特征向量；根据待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从预设司法文本库中确定与待处理的司法文本相似的司法文本。本发明可以自动确定相似的司法文本，无需用户手动查找，方便快捷。，下面是相似文本确定方法、神经网络模型获得方法及相关装置专利的具体信息内容。

权利要求

1.一种相似文本确定方法，其特征在于，包括：
获得待处理的司法文本；
对所述待处理的司法文本进行分词，获得词汇序列；
获得所述词汇序列中各词汇的词汇向量构成的矩阵；
将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；
将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；
根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。
2.根据权利要求1所述的方法，其特征在于，所述获得所述词汇序列中各词汇的词汇向量构成的矩阵，包括：
对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；
按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵。
3.根据权利要求1所述的方法，其特征在于，所述预设的神经网络模型为卷积神经网络模型，所述卷积神经网络模型的输入为：词汇向量构成的矩阵，所述卷积神经网络模型的输出为：司法信息。
4.根据权利要求3所述的方法，其特征在于，所述司法信息包括：罪名、刑期、引用的法条中的至少一种，和/或，所述司法文本为：案情描述文本。
5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获得所述预设的神经网络模型的部分或全部网络层输出的特征向量，包括：
至少获得所述预设的神经网络模型的第一预设网络层输出的特征向量和第二预设网络层输出的特征向量，其中，所述第一预设网络层与所述预设的神经网络模型的输出层之间的层数小于第一预设层数，所述第二预设网络层与所述预设的神经网络模型的输入层之间的层数小于第二预设层数，所述第一预设网络层和所述第二预设网络层之间的层数大于第三预设层数。
6.一种神经网络模型获得方法，其特征在于，包括：
获得标注有司法信息的训练文本，所述训练文本为司法文本；
对所述训练文本进行分词，获得词汇序列；
获得所述词汇序列中各词汇的词汇向量构成的矩阵；
对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。
7.一种相似文本确定装置，其特征在于，包括：文本获得单元、序列获得单元、矩阵获得单元、第一向量获得单元、第二向量获得单元和相似确定单元，
所述文本获得单元，用于获得待处理的司法文本；
所述序列获得单元，用于对所述待处理的司法文本进行分词，获得词汇序列；
所述矩阵获得单元，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；
所述第一向量获得单元，用于将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；
所述第二向量获得单元，用于将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；
所述相似确定单元，用于根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。
8.一种神经网络模型获得装置，其特征在于，包括：文本获得模块、分词模块、矩阵获得模块和机器学习模块，
所述文本获得模块，用于获得标注有司法信息的训练文本，所述训练文本为司法文本；
所述分词模块，用于对所述训练文本进行分词，获得词汇序列；
所述矩阵获得模块，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；
所述机器学习模块，用于对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。
9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至5中任一项所述的相似文本确定方法，和/或，在所述程序运行时控制所述存储介质所在的设备执行如权利要求6所述的神经网络模型获得方法。
10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1至5中任一项所述的相似文本确定方法，和/或，所述程序运行时执行如权利要求
6所述的神经网络模型获得方法。

说明书全文

相似文本确定方法、神经网络模型获得方法及相关装置

技术领域

[0001] 本发明涉及司法文本处理技术领域，尤其涉及相似文本确定方法、神经网络模型获得方法及相关装置。

背景技术

[0002] 在司法领域，用户常需要查询与某个司法案件相似的其他司法案件的裁判文书。例如：法官想查看自己对某个司法案件的判决是否合适，就需要通过关键词从海量的裁判文书中进行查找，然后逐个查看裁判文书的具体内容来确定是否相似。

[0003] 从上述过程中可以看出，用户自行查询的方式十分繁琐，效率较低，因此急需一种可以快速确定相似裁判文书的方案。当然，除裁判文书外，其他司法文本，如起诉书、律师函等，用户也可能需要查找相似司法文本。

发明内容

[0004] 鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的相似文本确定方法、神经网络模型获得方法及相关装置，方案如下：

[0005] 一种相似文本确定方法，包括：

[0006] 获得待处理的司法文本；

[0007] 对所述待处理的司法文本进行分词，获得词汇序列；

[0008] 获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0009] 将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；

[0010] 将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；

[0011] 根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。

[0012] 可选的，所述获得所述词汇序列中各词汇的词汇向量构成的矩阵，包括：

[0013] 对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；

[0014] 按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵。

[0015] 可选的，所述预设的神经网络模型为卷积神经网络模型，所述卷积神经网络模型的输入为：词汇向量构成的矩阵，所述卷积神经网络模型的输出为：司法信息。

[0016] 可选的，所述司法信息包括：罪名、刑期、引用的法条中的至少一种，和/或，所述司法文本为：案情描述文本。

[0017] 可选的，所述获得所述预设的神经网络模型的部分或全部网络层输出的特征向量，包括：

[0018] 至少获得所述预设的神经网络模型的第一预设网络层输出的特征向量和第二预设网络层输出的特征向量，其中，所述第一预设网络层与所述预设的神经网络模型的输出层之间的层数小于第一预设层数，所述第二预设网络层与所述预设的神经网络模型的输入层之间的层数小于第二预设层数，所述第一预设网络层和所述第二预设网络层之间的层数大于第三预设层数。

[0019] 一种神经网络模型获得方法，包括：

[0020] 获得标注有司法信息的训练文本，所述训练文本为司法文本；

[0021] 对所述训练文本进行分词，获得词汇序列；

[0022] 获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0023] 对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。

[0024] 一种相似文本确定装置，包括：文本获得单元、序列获得单元、矩阵获得单元、第一向量获得单元、第二向量获得单元和相似确定单元，

[0025] 所述文本获得单元，用于获得待处理的司法文本；

[0026] 所述序列获得单元，用于对所述待处理的司法文本进行分词，获得词汇序列；

[0027] 所述矩阵获得单元，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0028] 所述第一向量获得单元，用于将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；

[0029] 所述第二向量获得单元，用于将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；

[0030] 所述相似确定单元，用于根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。

[0031] 一种神经网络模型获得装置，包括：文本获得模块、分词模块、矩阵获得模块和机器学习模块，

[0032] 所述文本获得模块，用于获得标注有司法信息的训练文本，所述训练文本为司法文本；

[0033] 所述分词模块，用于对所述训练文本进行分词，获得词汇序列；

[0034] 所述矩阵获得模块，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0035] 所述机器学习模块，用于对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。

[0036] 一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行上述的任一种相似文本确定方法，和/或，在所述程序运行时控制所述存储介质所在的设备执行上述的神经网络模型获得方法。

[0037] 一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的任一种相似文本确定方法，和/或，所述程序运行时执行上述的神经网络模型获得方法。

[0038] 借由上述技术方案，本发明提供的一种相似文本确定方法、神经网络模型获得方法及相关装置，可以获得待处理的司法文本；对所述待处理的司法文本进行分词，获得词汇序列；获得所述词汇序列中各词汇的词汇向量构成的矩阵；将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。本发明可以将司法文本的词汇向量矩阵输入神经网络模型中获得司法文本的特征向量，然后根据特征向量的相似度确定相似的司法文本。本发明可以自动确定相似的司法文本，无需用户手动查找，方便快捷。

[0039] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。附图说明

[0040] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

[0041] 图1示出了本发明实施例提供的一种相似文本确定方法的流程图；

[0042] 图2示出了本发明实施例提供的一种神经网络模型获得方法的流程图；

[0043] 图3示出了本发明实施例提供的一种相似文本确定装置的结构示意图；

[0044] 图4示出了本发明实施例提供的一种神经网络模型获得装置的结构示意图。

具体实施方式

[0045] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

[0046] 如图1所示，本发明实施例提供的一种相似文本确定方法，可以包括：

[0047] S100、获得待处理的司法文本；

[0048] 其中，司法文本可以为：裁判文书、起诉书、律师函等，也可以为裁判文书中的部分内容，如：案情描述文本。

[0049] S200、对所述待处理的司法文本进行分词，获得词汇序列；

[0050] 可选的，本发明可以使用多种分词工具进行分词获得词汇序列，如哈工大LTP、jieba等。除获得词汇序列外，本发明还可以对各词汇的词性进行识别，从而获得词性序列。

[0051] 例如采用哈工大LTP处理“小明酒后开车，把小红的车撞了。”，LTP返回的分词结果可以为[小明，酒后，开车，把，小华，的，车，撞，了]，词性序列为[nh,nt,v,wp,p,nh,u,n,v,u,wp]。

[0052] S300、获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0053] 其中，步骤S300可以具体包括：

[0054] 对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；

[0055] 按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵。

[0056] 具体的，本发明可以通过wordvector技术获得词向量。如果词汇不在wordvector的词汇表中，则使用指定的预设词向量进行表达。

[0057] 本发明可以使用一定维度的随机向量来表达词性，使词性特征化。例如对于共计30种词性[A1,A2,…,A30]，可以用向量a1表示A1，向量a2表示A2等。其中a1、a2等的维度为一个指定的固定值，例如20维，每一个维度都是一个随机生成的接近于0的小数。

[0058] 在获得词向量与词性向量后，将二者拼接即可形成词汇的向量化表达，即：词汇向量。词汇向量的维度为词向量的维度+词性向量的维度。对于待处理的司法文本中的每个词汇，都获得其词汇向量，再将待处理的司法文本中的每个词汇的词汇向量拼接起来，就形成一个矩阵。例如：当拼接后的词汇向量维度为120且待处理的司法文本中排列的词汇数量为200时，本发明可以生成一个维度为200*120的矩阵。为了后续卷积操作的方便，本发明可以将这个矩阵在词汇数量方向扩充至一个特定长度(例如600，形成600*120的矩阵)，扩充的部分通过补0进行处理。

[0059] 可以理解的是，上述矩阵包含了待处理的司法文本的特征信息。

[0060] S400、将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；

[0061] 其中，步骤S400可以具体包括：

[0062] 将所述矩阵输入预设的神经网络模型中，至少获得所述预设的神经网络模型的第一预设网络层输出的特征向量和第二预设网络层输出的特征向量，其中，所述第一预设网络层与所述预设的神经网络模型的输出层之间的层数小于第一预设层数，所述第二预设网络层与所述预设的神经网络模型的输入层之间的层数小于第二预设层数，所述第一预设网络层和所述第二预设网络层之间的层数大于第三预设层数。

[0063] 其中，所述预设的神经网络模型为卷积神经网络模型，所述卷积神经网络模型的输入为：词汇向量构成的矩阵，所述卷积神经网络模型的输出为：司法信息。

[0064] 可选的，所述司法信息包括：罪名、刑期、引用的法条中的至少一种。

[0065] 具体的，本发明实施例中的预设的神经网络模型可以通过图2所示方法训练得到。

[0066] 如图2所示，本发明实施例还提供了一种神经网络模型获得方法，可以包括：

[0067] S001、获得标注有司法信息的训练文本，所述训练文本为司法文本；

[0068] S002、对所述训练文本进行分词，获得词汇序列；

[0069] S003、获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0070] 步骤S002、S003分别与图1中步骤S200、S300相似，不再赘述。

[0071] S004、对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。

[0072] 其中，本发明可以使用迁移学习技术进行机器学习，迁移学习技术是一种机器学习方法，可以把为任务A开发的模型作为初始点，重新使用在为任务B开发模型的过程中。因此本发明可以将为司法信息预测开发的模型作为初始点，重新使用在为根据输入的词汇向量构成的矩阵输出特征向量的任务开发模型的过程中。

[0073] 在实际应用中，本发明可以基于tensorflow、mxnet、pytorch等深度学习框架训练神经网络模型。本发明可以采用多层卷积神经网络模型，其层数可以为1-10层。浅层(1-2层)的卷积神经网络模型生成的特征向量更有利于提取出文本中局部的关键信息，从而进行罪名和引用的法条的判决预测；而深层(3-10层)的卷积神经网络模型更有利于提取出文本全局的关键信息，从而进行刑期的判决预测。

[0074] 由于罪名和引用的法条和司法文本中的局部信息更加相关，因此本发明可以利用浅层卷积神经网络模型进行练罪名和引用的法条的预测。同时利用深层神经网络模型进行刑期的预测。

[0075] 在实际应用中，本发明可以首先进行用于预测判决的多层卷积神经网络模型的训练，本发明可以通过标注有罪名和引用的法条的司法文本对浅层卷积神经网络模型进行训练，从而得到可以根据司法文本输出罪名和引用的法条的浅层卷积神经网络模型。相应的，本发明可以通过标注有刑期的司法文本对深层卷积神经网络模型进行训练，从而得到可以根据司法文本输出刑期的深层卷积神经网络模型。在实际应用中，本发明可以对浅层卷积神经网络模型和深层卷积神经网络模型进行联合训练，从而获得一个可以输出罪名、刑期和引用的法条的多层卷积神经网络模型。

[0076] 在训练过程中，词汇向量、词性向量以及各层卷积核参数都可以随模型更新。本发明训练好的判决预测模型中不仅包含大量的词向量信息，也包含语义结构信息，兼顾了浅层卷积神经网络提取出的局部信息和深层卷积神经网络提取出的全局信息，达到更精确的模型效果。

[0077] S500、将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；

[0078] S600、根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。

[0079] 具体的，本发明实施例可以将特征向量的余弦相似度确定为特征向量的相似度，当两个司法文本的特征向量相似度高时，则这两个司法文本相似度也高。因此，本发明可以通过特征向量的相似度确定相似的司法文本。

[0080] 本发明实施例提供的一种相似文本确定方法，可以获得待处理的司法文本；对所述待处理的司法文本进行分词，获得词汇序列；获得所述词汇序列中各词汇的词汇向量构成的矩阵；将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。本发明可以将司法文本的词汇向量矩阵输入神经网络模型中获得司法文本的特征向量，然后根据特征向量的相似度确定相似的司法文本。本发明可以自动确定相似的司法文本，无需用户手动查找，方便快捷。

[0081] 与图1所示方法相对应，如图3所示，本发明实施例还提供了一种相似文本确定装置，可以包括：文本获得单元100、序列获得单元200、矩阵获得单元300、第一向量获得单元400、第二向量获得单元500和相似确定单元600。

[0082] 所述文本获得单元100，用于获得待处理的司法文本；

[0083] 其中，司法文本可以为：裁判文书、起诉书、律师函等，也可以为裁判文书中的部分内容，如：案情描述文本。

[0084] 所述序列获得单元200，用于对所述待处理的司法文本进行分词，获得词汇序列；

[0085] 可选的，本发明可以使用多种分词工具进行分词获得词汇序列，如哈工大LTP、jieba等。除获得词汇序列外，本发明还可以对各词汇的词性进行识别，从而获得词性序列。

[0086] 例如采用哈工大LTP处理“小明酒后开车，把小红的车撞了。”，LTP返回的分词结果可以为[小明，酒后，开车，把，小华，的，车，撞，了]，词性序列为[nh,nt,v,wp,p,nh,u,n,v,u,wp]。

[0087] 所述矩阵获得单元300，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0088] 其中，所述矩阵获得单元300，可以具体用于：

[0089] 对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵。

[0090] 具体的，本发明可以通过wordvector技术获得词向量。如果词汇不在wordvector的词汇表中，则使用指定的预设词向量进行表达。

[0091] 本发明可以使用一定维度的随机向量来表达词性，使词性特征化。例如对于共计30种词性[A1,A2,…,A30]，可以用向量a1表示A1，向量a2表示A2等。其中a1、a2等的维度为一个指定的固定值，例如20维，每一个维度都是一个随机生成的接近于0的小数。

[0092] 在获得词向量与词性向量后，将二者拼接即可形成词汇的向量化表达，即：词汇向量。词汇向量的维度为词向量的维度+词性向量的维度。对于待处理的司法文本中的每个词汇，都获得其词汇向量，再将待处理的司法文本中的每个词汇的词汇向量拼接起来，就形成一个矩阵。例如：当拼接后的词汇向量维度为120且待处理的司法文本中排列的词汇数量为200时，本发明可以生成一个维度为200*120的矩阵。为了后续卷积操作的方便，本发明可以将这个矩阵在词汇数量方向扩充至一个特定长度(例如600，形成600*120的矩阵)，扩充的部分通过补0进行处理。

[0093] 可以理解的是，上述矩阵包含了待处理的司法文本的特征信息。

[0094] 所述第一向量获得单元400，用于将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；

[0095] 其中，所述预设的神经网络模型可以为卷积神经网络模型，所述卷积神经网络模型的输入为：词汇向量构成的矩阵，所述卷积神经网络模型的输出为：司法信息。

[0096] 其中，所述司法信息可以包括：罪名、刑期、引用的法条中的至少一种，和/或，所述司法文本为：案情描述文本。

[0097] 其中，第一向量获得单元400可以具体用于：

[0098] 至少获得所述预设的神经网络模型的第一预设网络层输出的特征向量和第二预设网络层输出的特征向量，其中，所述第一预设网络层与所述预设的神经网络模型的输出层之间的层数小于第一预设层数，所述第二预设网络层与所述预设的神经网络模型的输入层之间的层数小于第二预设层数，所述第一预设网络层和所述第二预设网络层之间的层数大于第三预设层数。

[0099] 具体的，本发明实施例中的预设的神经网络模型可以通过图4所示装置训练得到。

[0100] 所述第二向量获得单元500，用于将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；

[0101] 所述相似确定单元600，用于根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。

[0102] 具体的，本发明实施例可以将特征向量的余弦相似度确定为特征向量的相似度，当两个司法文本的特征向量相似度高时，则这两个司法文本相似度也高。因此，本发明可以通过特征向量的相似度确定相似的司法文本。

[0103] 本发明实施例提供的一种相似文本确定装置，可以获得待处理的司法文本；对所述待处理的司法文本进行分词，获得词汇序列；获得所述词汇序列中各词汇的词汇向量构成的矩阵；将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。本发明可以将司法文本的词汇向量矩阵输入神经网络模型中获得司法文本的特征向量，然后根据特征向量的相似度确定相似的司法文本。本发明可以自动确定相似的司法文本，无需用户手动查找，方便快捷。

[0104] 与图2所示方法相对应，如图4所示，本发明实施例还提供了一种神经网络模型获得装置，可以包括：文本获得模块001、分词模块002、矩阵获得模块003和机器学习模块004。

[0105] 所述文本获得模块001，用于获得标注有司法信息的训练文本，所述训练文本为司法文本；

[0106] 所述分词模块002，用于对所述训练文本进行分词，获得词汇序列；

[0107] 所述矩阵获得模块003，用于获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0108] 其中，分词模块002、矩阵获得模块003分别与图3所示序列获得单元200、矩阵获得单元300相似，不再赘述。

[0109] 所述机器学习模块004，用于对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。

[0110] 其中，本发明可以使用迁移学习技术进行机器学习，迁移学习技术是一种机器学习方法，可以把为任务A开发的模型作为初始点，重新使用在为任务B开发模型的过程中。因此本发明可以将为司法信息预测开发的模型作为初始点，重新使用在为根据输入的词汇向量构成的矩阵输出特征向量的任务开发模型的过程中。

[0111] 在实际应用中，本发明可以基于tensorflow、mxnet、pytorch等深度学习框架训练神经网络模型。本发明可以采用多层卷积神经网络模型，其层数可以为1-10层。浅层(1-2层)的卷积神经网络模型生成的特征向量更有利于提取出文本中局部的关键信息，从而进行罪名和引用的法条的判决预测；而深层(3-10层)的卷积神经网络模型更有利于提取出文本全局的关键信息，从而进行刑期的判决预测。

[0112] 由于罪名和引用的法条和司法文本中的局部信息更加相关，因此本发明可以利用浅层卷积神经网络模型进行练罪名和引用的法条的预测。同时利用深层神经网络模型进行刑期的预测。

[0113] 在实际应用中，本发明可以首先进行用于预测判决的多层卷积神经网络模型的训练，本发明可以通过标注有罪名和引用的法条的司法文本对浅层卷积神经网络模型进行训练，从而得到可以根据司法文本输出罪名和引用的法条的浅层卷积神经网络模型。相应的，本发明可以通过标注有刑期的司法文本对深层卷积神经网络模型进行训练，从而得到可以根据司法文本输出刑期的深层卷积神经网络模型。在实际应用中，本发明可以对浅层卷积神经网络模型和深层卷积神经网络模型进行联合训练，从而获得一个可以输出罪名、刑期和引用的法条的多层卷积神经网络模型。

[0114] 在训练过程中，词汇向量、词性向量以及各层卷积核参数都可以随模型更新。本发明训练好的判决预测模型中不仅包含大量的词向量信息，也包含语义结构信息，兼顾了浅层卷积神经网络提取出的局部信息和深层卷积神经网络提取出的全局信息，达到更精确的模型效果。

[0115] 所述相似文本确定装置包括处理器和存储器，上述文本获得单元、序列获得单元、矩阵获得单元、第一向量获得单元、第二向量获得单元和相似确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

[0116] 所述神经网络模型获得装置包括处理器和存储器，上述文本获得模块、分词模块、矩阵获得模块和机器学习模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

[0117] 处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来确定相似的司法文本和/或获得神经网络模型。

[0118] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

[0119] 本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述相似文本确定方法和/或所述神经网络模型获得方法。

[0120] 本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述相似文本确定方法和/或所述神经网络模型获得方法。

[0121] 本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

[0122] 一种相似文本确定方法，包括：

[0123] 获得待处理的司法文本；

[0124] 对所述待处理的司法文本进行分词，获得词汇序列；

[0125] 获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0126] 将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；

[0127] 将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；

[0128] 根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。

[0129] 可选的，所述获得所述词汇序列中各词汇的词汇向量构成的矩阵，包括：

[0130] 对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；

[0131] 按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵。

[0132] 可选的，所述预设的神经网络模型为卷积神经网络模型，所述卷积神经网络模型的输入为：词汇向量构成的矩阵，所述卷积神经网络模型的输出为：司法信息。

[0133] 可选的，所述司法信息包括：罪名、刑期、引用的法条中的至少一种，和/或，所述司法文本为：案情描述文本。

[0134] 可选的，所述获得所述预设的神经网络模型的部分或全部网络层输出的特征向量，包括：

[0135] 至少获得所述预设的神经网络模型的第一预设网络层输出的特征向量和第二预设网络层输出的特征向量，其中，所述第一预设网络层与所述预设的神经网络模型的输出层之间的层数小于第一预设层数，所述第二预设网络层与所述预设的神经网络模型的输入层之间的层数小于第二预设层数，所述第一预设网络层和所述第二预设网络层之间的层数大于第三预设层数。

[0136] 一种神经网络模型获得方法，包括：

[0137] 获得标注有司法信息的训练文本，所述训练文本为司法文本；

[0138] 对所述训练文本进行分词，获得词汇序列；

[0139] 获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0140] 对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。

[0141] 本文中的设备可以是服务器、PC、PAD、手机等。

[0142] 本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

[0143] 一种相似文本确定方法，包括：

[0144] 获得待处理的司法文本；

[0145] 对所述待处理的司法文本进行分词，获得词汇序列；

[0146] 获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0147] 将所述矩阵输入预设的神经网络模型中，获得所述预设的神经网络模型的部分或全部网络层输出的特征向量；

[0148] 将获得的各特征向量拼接为一个与所述待处理的司法文本对应的特征向量；

[0149] 根据所述待处理的司法文本对应的特征向量分别与预设司法文本库中各司法文本对应的特征向量的相似度，从所述预设司法文本库中确定与所述待处理的司法文本相似的司法文本。

[0150] 可选的，所述获得所述词汇序列中各词汇的词汇向量构成的矩阵，包括：

[0151] 对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；

[0152] 按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的矩阵。

[0153] 可选的，所述预设的神经网络模型为卷积神经网络模型，所述卷积神经网络模型的输入为：词汇向量构成的矩阵，所述卷积神经网络模型的输出为：司法信息。

[0154] 可选的，所述司法信息包括：罪名、刑期、引用的法条中的至少一种，和/或，所述司法文本为：案情描述文本。

[0155] 可选的，所述获得所述预设的神经网络模型的部分或全部网络层输出的特征向量，包括：

[0156] 至少获得所述预设的神经网络模型的第一预设网络层输出的特征向量和第二预设网络层输出的特征向量，其中，所述第一预设网络层与所述预设的神经网络模型的输出层之间的层数小于第一预设层数，所述第二预设网络层与所述预设的神经网络模型的输入层之间的层数小于第二预设层数，所述第一预设网络层和所述第二预设网络层之间的层数大于第三预设层数。

[0157] 一种神经网络模型获得方法，包括：

[0158] 获得标注有司法信息的训练文本，所述训练文本为司法文本；

[0159] 对所述训练文本进行分词，获得词汇序列；

[0160] 获得所述词汇序列中各词汇的词汇向量构成的矩阵；

[0161] 对所述矩阵及标注的司法信息进行机器学习，获得神经网络模型，所述神经网络模型的输入为：词汇向量构成的矩阵，所述神经网络模型的输出为：司法信息，其中，所述神经网络模型的各网络层可根据输入的词汇向量构成的矩阵输出特征向量。

[0162] 本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0163] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0164] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0165] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0166] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

[0167] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

[0168] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0169] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

[0170] 本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0171] 以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

标题	发布/更新时间	阅读量
一种文本摘要和情感分类联合训练方法	2020-05-14	556
一种图像识别的英语作文跑题判断方法	2020-05-08	70
一种用于智能质检服务禁语的识别方法及系统	2020-05-08	805
一种基于Bi-LSTM网络的无监督属性的抽取方法	2020-05-11	47
非命名实体对象抽取方法、装置、电子设备及存储介质	2020-05-13	627
基于XML的领域要素提取配置语言系统	2020-05-08	55
一种公司形象提升系统的社交网络数据提取方法及系统	2020-05-11	985
一种面向金融事件的混合型因果关系发现方法	2020-05-11	513
业务问题提取方法及装置	2020-05-14	730
一种基于主题模型和语义分析的实体指称项识别方法	2020-05-11	651

相似文本确定方法、神经网络模型获得方法及相关装置

相似文本确定方法、神经网络模型获得方法及相关装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：