一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置专利检索-贝叶斯推理人工智能专利检索查询-专利查询网

一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置

阅读：141发布：2020-05-18

专利汇可以提供一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置专利检索，专利查询，专利分析的服务。并且本发明提供了一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置。其中包括基于事实判定链条的证据网络构建，证据权重的计算和基于贝叶斯网络的证据链条推理方法。证据来源分为原告证据、被告证据、司法鉴定证据和第三方证据等方面。首先，构建了多方证据关联网络，其中每个证据实体作为网络中的一个节点，基于证据要素之间的关联关系计算了网络中节点之间的相关概率。随后，基于事件判定链的证据类型，构建了基于贝叶斯网络的多方证据关联模型。最后，采用遗传算法对贝叶斯网网络进行了优化，得到可信证据链条。本发明可以从多方来源发现可信度最大证据链条，帮助司法人员从多方印证或者互相矛盾的证据中筛选可信证据链条。，下面是一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置专利的具体信息内容。

权利要求

1.一种基于贝叶斯网络的多方证据关联网络模型构建方法，其特征在于，包括以下步骤：
根据不同来源的证据抽取证据要素，形成证据要素库；
根据所述证据要素库中证据要素之间的关联关系，计算证据之间的相关概率；
基于历史案例样本构建事实判定链；
根据所述事实判定链将证据进行关联，并结合所述证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率。
2.根据权利要求1所述的方法，其特征在于，所述根据不同来源的证据抽取证据要素，包括：
建立证据要素模板；
通过自然语言抽取技术从不同来源的证据中抽取出文本数据信息；
将抽取的文本数据信息与所述证据要素模板中的相应内容进行匹配，利用程序自动化地抽取证据要素。
3.根据权利要求1所述的方法，其特征在于，所述证据之间的相关概率为证据之间的转移概率，计算证据转移概率的步骤包括：
利用司法知识库，采用基于规则的权重的定义，基于知识规则进行证据转移概率的设定，根据证据来源、证据类型、证据属性、证据印证规则、证据矛盾规则或者证据关联规则对证据转移概率进行推定；
利用海量历史司法文书，从中提取证据要素，采用基于历史数据的权重定义，基于最大共现概率或者最大熵原理，自动学习不同证据类型之间的相关性，计算多方、多类型证据的证据转移概率。
4.根据权利要求1所述的方法，其特征在于，所述基于历史案例样本构建事实判定链，包括：根据历史案件文书中的证据事实支持序列，利用时间序列分析、频繁序列挖掘以及规则学习技术多方面学习各个类型案件的诉讼请求的事实判定链。
5.根据权利要求1所述的方法，其特征在于，所述事实判定链以证据事实的关联规则的形式表示，以支持度和置信度作为关联规则兴趣度的两种度量，分别反映所发现的关联规则的有用性和确定性。
6.根据权利要求5所述的方法，其特征在于，所述支持度、置信度的计算方式如下：
事实链X→Y的支持度：
事实链X→Y的置信度：
其中，I表示总的证据事实集，P(X,Y)表示包含{X,Y}证据事实集的概率，P(I)表示总的证据事实集的概率，Num(X∪Y)表示含有{X,Y}的证据事实集的个数，Num(I)表示总的证据事实集中集合的个数。
7.根据权利要求5或6所述的方法，其特征在于，同时满足最小支持度阈值和最小置信度阈值的规则称为强规则，最小支持度阈值和最小置信度阈值由人工设定。
8.一种基于贝叶斯网络的多方证据关联网络模型构建装置，其特征在于，包括：
证据要素抽取模块，负责根据不同来源的证据抽取证据要素，形成证据要素库；
相关概率计算模块，负责根据所述证据要素库中证据要素之间的关联关系，计算证据之间的相关概率；
事实判定链构建模块，负责基于历史案例样本构建事实判定链；
网络模型构建模块，负责根据所述事实判定链将证据进行关联，并结合所述证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率。
9.一种基于多方证据关联网络模型的证据链提取方法，其特征在于，基于权利要求1～
7中任一权利要求所述方法构建的多方证据关联网络模型，通过遗传算法进行推理，寻找最优的证据链条。
10.一种基于多方证据关联网络模型的证据链提取装置，其特征在于，包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求9所述方法的指令。

说明书全文

一种基于贝叶斯网络的多方证据关联模型构建方法和证据链

提取方法及装置

技术领域

[0001] 本发明属于人工智能以及司法大数据领域，具体涉及一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置。

背景技术

[0002] 随着公众的法治意识的增强，人民群众的司法需求呈现出多元化特点，对知情的全面性、沟通的距离感、互动的及时性，都提出了新的要求。各级法院面临巨大的诉讼服务压力，有限的资源很难满足不同人群所有诉求。为社会公众提供便捷的诉讼服务是“智慧法院”建设的重要功能，而案件中多方证据的审查、证据链条的确定是诉讼服务的核心。

[0003] 近年来，人工智能在各个领域取得了广泛应用，利用人工智能技术对司法大数据的分析挖掘在智慧法院的建设中有重大意义。证据链条是判定诉讼请求是否合理的重要的依据，然而，证据来源于多方面，证据来源不可靠，有的证据之间存在互相矛盾；也有证据之间存在互相印证的关系。如何从多方证据中抽取最具可信度的证据是法官断案的重要依据。目前，对于诉讼过程中的多方证据存在相互矛盾或者相互印证的线索。通过关联分析确定证据链条的工作主要依赖于法官的人工判定。利用人工智能技术对电子卷宗和证据才来进行智能分析处理，从多源、嘈杂的证据集中自动推理出可信的证据链条供司法人员参考决策，可以有效提高法院诉讼服务的工作效率。

[0004] 让机器对多方证据建模并推理证据之间的可信关联关系是诉讼分析中的关键问题。据我们所知，目前尚没有针对证据链条进行自动推理的工作。许多推理问题基于规则判断的方法，而规则集通常复杂庞大，需要人工构建和动态维护。同时，基于规则的方法也无法支持动态、模糊的推理场景。而司法诉讼场中，证据异构多样、证据来源多样、证据关系复杂。基于规则的方法难以有效应对司法证据关系建模的挑战。

发明内容

[0005] 本发明针对上述问题，提供一种多方证据关联模型构建方法和证据链提取方法及装置，能够自动地从多方证据中抽取最具可信度的证据。

[0006] 贝叶斯网络可以以图模型模拟人的认知思维推理模式，其用一组条件概率函数以及有向无环图对不确定性的因果推理关系建模，因此其具有更高的实用价值。所以，本发明提出了一种基于贝叶斯网络的多方证据关联分析模型。

[0007] 本发明通过构建多方证据关联分析模型，为当事人诉讼提供个性化、智能化、精准化的风险评估和结果预测服务支撑。研究主要基于多方证据、裁判文书和电子卷宗等文书以及海量案件信息，从民事、刑事、行政不同类型案件进行证据的特征提取和规律描述，标记多方证据之间的逻辑关系，构建多方证据关联分析模型。

[0008] 本发明通过如下技术方案来解决问题：

[0009] (1)证据要素识别：对多方证据集进行电子化及OCR处理或者通过用户的交互式输入，形成电子证据集，抽取并归类有效证据信息，形成证据要素库。“证据要素”是指为保证证据真实性、合法性和有效性的多方面要素，如程序合法、内容完整要素，包括时间，地点，人物、过程等。

[0010] (2)司法知识抽取：对相关法律法规、电子卷宗、裁判文书中的法律要素进行标注及归类，结合司法专家参与，形成司法知识库。司法知识库随着司法体制的变化定期进行更新规则。在本专利中，需要用到司法知识库中的事实判定链条(据专家经验确定不同类型案件的事实判定链)。其中，“法律要素”是指法律的规则、原则和概念。

[0011] (3)构建多方证据关联网络，通过事实判定链条和证据来源等要素信息构建多方证据网络，在该网络中，每个节点表示一个证据，边的权重表示证据之间的相关概率。通过历史数据或者证据要素关系确定网络中边的权重，形成完整的贝叶斯网络。

[0012] (4)证据链条推理，基于上一步构建的多方证据关联图谱，通过遗传算法寻找最优的证据链条。

[0013] 具体来说，本发明采用的技术方案如下：

[0014] 第一方面，本发明提供一种基于贝叶斯网络的多方证据关联网络模型构建方法，包括以下步骤：

[0015] 根据不同来源的证据抽取证据要素，形成证据要素库；

[0016] 根据所述证据要素库中证据要素之间的关联关系，计算证据之间的相关概率；

[0017] 基于历史案例样本构建事实判定链；

[0018] 根据所述事实判定链将证据进行关联，并结合所述证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率。

[0019] 进一步地，所述根据不同来源的证据抽取证据要素，包括：

[0020] 建立证据要素模板；

[0021] 通过自然语言抽取技术从不同来源的证据中抽取出文本数据信息；

[0022] 将抽取的文本数据信息与所述证据要素模板中的相应内容进行匹配，利用程序自动化地抽取证据要素。

[0023] 进一步地，所述证据之间的相关概率为证据之间的转移概率，计算证据转移概率的步骤包括：

[0024] 利用司法知识库，采用基于规则的权重的定义，基于知识规则进行证据转移概率的设定，根据证据来源、证据类型、证据属性、证据印证规则、证据矛盾规则或者证据关联规则对证据转移概率进行推定；

[0025] 利用海量历史司法文书，从中提取证据要素，采用基于历史数据的权重定义，基于最大共现概率或者最大熵原理，自动学习不同证据类型之间的相关性，计算多方、多类型证据的证据转移概率。

[0026] 进一步地，所述基于历史案例样本构建事实判定链，包括：根据历史案件文书中的证据事实支持序列，利用时间序列分析、频繁序列挖掘以及规则学习技术多方面学习各个类型案件的诉讼请求的事实判定链。

[0027] 进一步地，所述事实判定链以证据事实的关联规则的形式表示，以支持度和置信度作为关联规则兴趣度的两种度量，分别反映所发现的关联规则的有用性和确定性。

[0028] 第二方面，本发明提供一种基于贝叶斯网络的多方证据关联网络模型构建装置，其包括：

[0029] 证据要素抽取模块，负责根据不同来源的证据抽取证据要素，形成证据要素库；

[0030] 相关概率计算模块，负责根据所述证据要素库中证据要素之间的关联关系，计算证据之间的相关概率；

[0031] 事实判定链构建模块，负责基于历史案例样本构建事实判定链；

[0032] 网络模型构建模块，负责根据所述事实判定链将证据进行关联，并结合所述证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率。

[0033] 第三方面，本发明提供一种基于多方证据关联网络模型的证据链提取方法，该方法基于上面所述基于贝叶斯网络的多方证据关联网络模型构建方法构建的多方证据关联网络模型，通过遗传算法进行推理，寻找最优的证据链条。

[0034] 第四方面，本发明提供一种基于多方证据关联网络模型的证据链提取装置，其包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行所述基于多方证据关联网络模型的证据链提取方法的指令。

[0035] 本发明的有益效果和贡献：

[0036] 针对证据材料具有多源性、规范不统一、内容不确定、难以量化建模的特点，本发明结合当事人诉讼风险评估与裁判结果预测的切实需求，创造性提出基于贝叶斯网络的多方证据关联分析模型。利用基于规则推理的贝叶斯算法，构建多方证据之间的关系图谱，并通过遗传算法进行关系优化，解决了因多源证据不确定性多而难以建模的难题，极大提升了证据间关联分析速度、精度和可解释性。附图说明

[0037] 图1为构建多方证据关联分析模型技术路线。

[0038] 图2为结构化证据要素抽取原理图。

[0039] 图3为事实判定链的示例图。

[0040] 图4为证据网络节点构建原理图。

[0041] 图5为构建证据相关权重的原理图。

[0042] 图6为多方关联证据网络示意图。

[0043] 图7为基于多方证据关联模型的证据链条推理图。

具体实施方式

[0044] 为了使本发明的目的、技术方案及优点更加清楚明白，下面将结合说明书附图对本发明技术方案和具体实施方法做进一步详细说明。

[0045] 图1为构建多方证据关联分析模型的技术路线。其具体实施方式包括以下步骤：

[0046] (1)抽取构建证据要素库

[0047] 根据不同来源的证据抽取证据要素，形成证据要素库。所述证据来源分为：原告证据、被告证据、司法鉴定证据和第三方证据等方面。

[0048] 结构化证据要素抽取原理如图2所示。通过自然语言抽取技术从PDF或TXT证据格式中，快速抽出纯文本数据信息，并除掉特殊控制信息。通过剔除语义噪音，利用触发词从文本中完成相关句子的筛选，根据匹配的模式，完成关键信息的抽取和证据要素的识别。在证据要素识别抽取过程中依赖于证据要素模板，需要人工建立，之后可以基于这些证据要素模板利用程序自动化地抽取证据要素。最终根据当事人的诉讼材料形成结构化的证据要素。

[0049] 具体地，证据要素模板包含是否程序合法、是否内容完整(包括时间，地点，人物、过程等)等一系列的证据要素。对于被抽取的电子证据，将该证据与证据模板中的自然语言问句相匹配，从而抽取证据要素。

[0050] (2)基于历史案例样本构建事实判定链

[0051] 基于历史案件材料，按照民事、刑事、行政等不同类型的案件与案由进行分类。并整理、提取每个案由的起诉书和双方证据材料以及裁判文书。利用律师与法律工作者和机器自动化处理结合的方式，根据不同案件提取证据特征、证据规则与证据类型并进行整理。

[0052] 根据历史案件文书中的证据事实支持序列，利用时间序列分析、频繁序列挖掘以及规则学习等现有技术多方面学习各个类型案件的诉讼请求的事实判定链。

[0053] 图3为事实判定链的示例图。在该示例中，“殴打-造成伤残-造成医疗花费-丧失劳动能力-引起精神创伤”等事实如果存在，就可以支持赔偿的起诉请求。而事实的判定需要证据的支持。在本发明中，事实判定链用于指导证据链的推理。

[0054] 获取的事实判定链以证据事实(从证据反映出来的事实)的关联规则(association rule)的形式表示，其中支持度(support)和置信度(confidence)是关联规则兴趣度的两种度量，分别反映所发现的关联规则的有用性和确定性。其实支持度和置性度两个数值计算的目的就是为了能从数值的角度去分析事实判定链所隐含的规则，比如毫无关系，又或者正相关和负相关。假如X，Y分别表示两个证据事实，其中支持度、置信度的计算方式如下：

[0055] 事实链X→Y的支持度：

[0056]

[0057] 其中，I表示总的证据事实集，Num()表示求证据事实集中特定证据事实集出现的次数。具体地，P(X,Y)表示包含{X,Y}证据事实集的概率，其中X,Y为两个证据事实，P(I)表示总的证据事实集的概率，Num(X∪Y)表示含有{X,Y}的证据事实集的个数，Num(I)表示总的证据事实集中集合的个数。

[0058] 事实链X→Y的置信度：

[0059]

[0060] 其中，Num()的含义同上，表示求证据事实集里特定证据事实集出现的次数。

[0061] 支持度通常用来删去那些无意义的事实判定链，置信度度量是通过关联规则进行推理，具有可靠性。对于给定的证据关联规则X→Y，置信度越高，Y在包含X的文书中出现的可能性就越大。即Y在给定X下的条件概率P(Y|X)越大。

[0062] 同时满足最小支持度阈值(Min_sup)和最小置信度阈值(Min_conf)的规则称为强规则，最小支持度阈值和最小置信度阈值可以人工设定。其实支持度就是证据事实X和证据事实Y同时发生的概率，置信度就是在证据事实X存在的情况下，证据事实Y存在的概率。通过这种方式，计算事实判定链的置信度、支持度。

[0063] 利用机器学习技术自动挖掘出的事实判定链存在偏差，以及在证据之间的关联关系确定方面，需要进行人工投入。根据专家经验确定证据关联，提高事实判定链的准确度，降低并优化规则生成的错误率。挖掘出民事、刑事、行政等不同类型的诉讼请求的诉讼支持链(能支持符合各类诉讼请求法规和原则的一系列事实证据链)，以及与法律知识图谱结合，用于构建司法知识库。图3给出了民事类案件的事实判定链示例，事实判定链可以有效支持诉讼请求。包含民事、刑事、行政等多种类型的事实判定链可以构成司法知识库。

[0064] (3)构建多方证据网络节点

[0065] 证据网络节点构建原理如图4所示，根据涉案文书类型，选定对应的事实判定链模板(针对于不同类型的事实判定链，利用知识图谱构建不同类型的事实判定链模板)。对于涉案文书通过分句、分词、句法分析、实体识别，实体关系的抽取NLP技术，模式识别和信息抽取方法对证据要素以及证据属性进行抽取。

[0066] 对于证据要素进行归类，将证据要素按照原告方面证据，被告方面证据，司法鉴定方面证据，以及第三方证据等进行分类。同时对于证据要素根据证据事实进行归类。

[0067] (4)确定多方证据之间的证据相关性，即证据转移概率

[0068] 证据之间的相关程度很大程度体现在证据要素的相关上，因此本发明研究基于证据要素的证据相关性，结合专家经验和历史数据，利用线性模型、神经网络回归等方式探寻证据要素关联和证据整体关联性的拟合规律。

[0069] 构建证据转移概率的原理如图5所示，包括：

[0070] a)利用司法知识库，采用基于规则的权重的定义，基于知识规则进行证据转移概率的设定。根据证据来源，证据类型，以及证据属性、证据印证规则、证据矛盾规则或者证据关联规则对证据转移概率进行推定。

[0071] b)利用海量历史司法文书，进行案件归并、证据识别提取，从中提取证据要素。基于最大共现概率或者最大熵等原理，采用基于历史数据的权重定义，自动学习不同证据类型之间的相关性，计算多方、多类型证据的转移概率。

[0072] 证据A对证据B的转移概率为：

[0073] P(A→B)＝P(B|A)

[0074] 其中，P(B|A)表示B在给定条件A发生的概率。

[0075] 根据上述公式，可以计算得到所有证据类型之间的转移概率，并且以状态转移矩阵记录。本发明，不同证据实体在历史数据中的证据转移概率即认为是贝叶斯网络中的节点权重。

[0076] 根据涉案文书类型，选定对应的事实判定链模板，对于证据实体进行归类。文本将证据要素分类原告方面证据，被告方面证据，司法鉴定方面证据，以及第三方证据等进行分类。同时对于证据要素根据证据事实进行归类。

[0077] (5)构建多方证据关联网络模型

[0078] 多方证据关联网络示意图如图6所示，其构建过程如下：在第(3)步骤和第(4)的基础上，从当前案例中识别证据要素，对证据进行归类。根据事实判定链将多方证据进行关联，初步形成多方证据网络。利用证据权重设定规则或者基于历史数据统计的证据转移权重构建概率化的多方证据关联网络模型。通常可用贝叶斯推理网构建。

[0079] 其中，“证据权重设定规则”是指对于不同类型的证据，根据重要性赋予合适的权重。

[0080] 其中，“基于历史数据统计的证据转移权重”是指根据历史数据统计，计算出证据转移的先验概率。

[0081] (6)基于多方证据关联模型的推理

[0082] 基于多方证据关联模型的证据链条推理流程如图7所示。

[0083] 多方多类的弱证据推理主要采用贝叶斯证据网络，试图从多类、多个互相印证或者互相矛盾的证据中，寻求最可信，最有说服力的证据链条，期望能使得多个弱证据组合出可信证据链，发挥强证据的作用。

[0084] 基于具备多方证据和证据转移概率的多方证据关联模型，利用遗传算法等优化方法对多方证据关联网络进行推理，计算出全部证据链条的概率值，探寻最有可信的证据链条。

[0085] 一般情况先，多变量非独立联合条件概率分布有如下求取公式：

[0086] P(X1,X2，...，xn)＝P(x1)P(x2|x1)P(x3|x1，x2)...P(xn|x1，x2，...xn-1)[0087] 其中，X1，X2，…Xn-1，Xn表示n个随机变量，P(Xn|X1，X2，…Xn-1)表示在X1，X2，…Xn-1发生的条件下，xn发生的概率。

[0088] 而在贝叶斯网络中，由于其性质，任意随机变量组合的联合条件概率分布被化简成:

[0089]

[0090] 其中Parents表示xi的直接前驱节点的联合，概率值可以从相应状态转移矩阵中查到。根据贝叶斯网络，计算所有可能组合的证据链概率值，可以选取概率最大的证据链作为最优可信证据链条。

[0091] 基于最优可信证据链可以为诉讼风险分析，诉讼结果预测以及证据合理性提供必要的量化特征和客观的解释。对于证据矛盾以及不合理的地方做出辅助判断。

[0092] 本发明的方案可以通过软件的方式实现，也可以通过硬件的方式来实现。比如本发明的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明的方法。

[0093] 具体地，本发明的一个实施例提供一种基于贝叶斯网络的多方证据关联网络模型构建装置，其包括：

[0094] 证据要素抽取模块，负责根据不同来源的证据抽取证据要素，形成证据要素库；

[0095] 相关概率计算模块，负责根据所述证据要素库中证据要素之间的关联关系，计算证据之间的相关概率；

[0096] 事实判定链构建模块，负责基于历史案例样本构建事实判定链；

[0097] 网络模型构建模块，负责根据所述事实判定链将证据进行关联，并结合所述证据之间的相关概率，采用贝叶斯网络构建多方证据关联网络模型，其中每个节点表示一个证据，边的权重表示证据之间的相关概率。

[0098] 具体地，本发明的另一个实施例提供一种基于多方证据关联网络模型的证据链提取装置，其包含一计算机，所述计算机包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行前文所述本发明方法的指令。

[0099] 具体地，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

[0100] 本发明未详细阐述的部分可以采用本领域技术人员的公知技术实现。

[0101] 上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

标题	发布/更新时间	阅读量
一种基于大数据挖掘的公共政策分析模型部署方法及其系统	2020-05-14	608
基于机理相关分析贝叶斯网络的化工过程故障诊断方法	2020-05-16	314
一种基于改进贝叶斯统计判断中医证候的方法	2020-05-11	694
一种故障率非恒定的配电系统可靠性评估方法	2020-05-18	1002
一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置	2020-05-18	141
基于大数据的压缩机故障诊断方法	2020-05-13	166
一种基于语素划分和人工神经网络的智能装配工艺设计方法	2020-05-16	853
一种基于贝叶斯神经网络的卫星异常检测方法	2020-05-17	397
一种基于威胁的UUV应急决策方法	2020-05-12	300
一种基于互信息和多块信息提取的PCA故障监测方法	2020-05-16	311