技术领域
[0001] 本
发明涉及
数据处理技术领域,尤其涉及一种警方案卷事理图谱构建方法、电子装置及存储介质。
背景技术
[0002] 公安案卷是公安机关在办理各类案件过程中形成的法律文书和证据资料,根据一定的顺序和要求组装后形成的案卷,案卷一般包括诉讼卷 (一般称正卷)和侦查工作卷(一般称副卷)。在案件侦查过程中,大多通过人工方式
整理警方案卷,分析案情,效率低、且浪费大量人
力和时间。
发明内容
[0003] 有鉴于此,有必要提供一种警方案件事理图谱构建方法、电子装置及存储介质,可提取案卷中的事理关系,并建立对应的事理图谱,有利于快速分析案情脉络、梳理作案动机。
[0004] 本发明的第一方面提供一种案卷事理图谱构建方法,应用于电子装置中,所述方法包括:
[0005] 将案卷进行预处理以生成电子文本;
[0006] 提取所述电子文本中的事理关系,所述事理关系包括顺承关系以及因果关系之中至少一种;以及
[0007] 根据所述事理关系建立事理图谱,所述事理图谱包括顺承关系图谱以及因果关系图谱之中至少一种。
[0008] 优选地,所述“提取所述电子文本中的事理关系”包括:
[0009] 将所述电子文本划分为长句;
[0010] 基于预设的事理关系模板,提取所述长句中的事理关系以生成事理关联部分;
[0011] 将所述事理关联部分进行短句处理以生成目标短句;
[0012] 提取所述目标短句中谓词性短语;
[0013] 根据所述谓词性短语在所述长句中出现的顺序生成每一个长句的谓词性短语有序集合;
[0014] 将所述谓词性短语有序集合以滑窗方式构造事理关系事件对;以及
[0015] 将所述事理关系事件对进行汇总以生成事理事件库。
[0016] 优选地,所述“将所述电子文本划分为长句”包括:
[0017] 以第一符号为划分依据,将所述电子文本划分为短语,其中,所述第一符号表示句子结尾;以及
[0018] 判断所述短语所含中文字符个数是否大于预设数量;
[0019] 如果所述短语所含中文字符个数大于预设数量,确定所述短语为长句。
[0020] 优选地,所述“基于预设的事理关系模板,提取所述长句中的事理关系以生成事理关联部分”包括:
[0021] 基于预设的顺承关系模板,提取所述长句中的顺承关系以生成所述事理关联部分,所述事理关联部分包括顺承前事件以及顺承后事件。
[0022] 优选地,所述“基于预设的事理关系模板,提取所述长句中的事理关系以生成事理关联部分”包括:
[0023] 基于预设的因果关系模板,按照因果关系规则提取所述长句中的因果关系以生成所述事理关联部分,所述事理关联部分包括原因事件以及结果事件,其中,所述因果关系模板包括表示因果关系的词语,所述因果关系包括由果溯因、由因到果、因果居中式、居中式精确、前端式模糊、居中式模糊、前端式精确、由果溯因居中式模糊中至少一种。
[0024] 优选地,所述“将所述事理关联部分进行短句处理以生成目标短句”包括:
[0025] 以第二符号为划分依据,将所述事理关联部分划分为短句,其中,所述第二符号表示句子间隔;以及
[0026] 确定内容为非空的短句为所述目标短句。
[0027] 优选地,当所述顺承关系模板包括表示顺承关系的词语时,所述“提取所述长句中的顺承关系以生成所述事理关联部分,所述事理关联部分包括顺承前事件以及顺承后事件”包括:
[0028] 采用正则表达式确
定位于所述顺承关系的词语前半部分的长句为顺承前事件及位于所述顺承关系的词语后半部分的长句为顺承后事件;
[0029] 当所述顺承关系模板包括时间先后规则时,所述“提取所述长句中的顺承关系以生成所述事理关联部分”包括:
[0030] 按照时间先后顺序确定时间先的事理关联部分为顺承前事件以及时间后的事理关联部分为顺承后事件。
[0031] 优选地,所述谓词性短语有序集合包括多个事件对,每一个事件对包括前关联事件以及后关联事件,所述“将所述谓词性短语有序集合以滑窗方式构造事理关系事件对”包括:
[0032] 查找第一个事件对,确定所述第一个事件对的后关联事件;
[0033] 以所述第一个事件对的后关联事件为检索目标,遍历所有事件对判断能否找到以所述第一个事件对的后关联事件为前关联事件的事件对;
[0034] 如果能找到以所述第一个事件对的后关联事件为前关联事件的事件对,确定所述事件对的后关联事件,并继续遍历其他事件对判断能否找到以所述事件对的后关联事件为前关联事件的事件对,直至未找到以所述事件对的后关联事件为前关联事件的事件或者所有事件对完成判断;以及
[0035] 如果未找到以所述第一个事件对的后关联事件为前关联事件的事件对,顺序选择下一个事件对,继续确定所述下一个事件对的后关联事件,遍历其他事件对判断能否找到以所述下一个事件对的后关联事件为前关联事件的事件对,直至能找到以所述下一个事件对的后关联事件为前关联事件的事件对或者所有事件对完成判断。
[0036] 本发明的第二方面提供一种电子装置,所述电子装置包括:
[0037] 处理器;以及
[0038]
存储器,所述存储器中存储有多个程序模
块,所述多个程序模块由所述处理器加载并执行上述的案卷事理图谱构建方法。
[0039] 本发明的第三方面提供一种存储介质,其上存储有至少一条计算机指令,所述指令由处理器并加载执行上述的案卷事理图谱构建方法。
[0040] 上述案卷事理图谱构建方法、电子装置及存储介质可提取案卷中的事理关系,并建立对应的事理图谱,有利于快速分析案情脉络、梳理作案动机,为警方破案提供帮助。
附图说明
[0041] 为了更清楚地说明本发明
实施例或
现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0042] 图1是本发明较佳实施例提供的电子装置的结构示意图。
[0043] 图2是本发明较佳实施例提供的案卷事理图谱构建系统的结构示意图。
[0044] 图3是本发明较佳实施例提供的案卷的电子文本的示意图。
[0045] 图4是本发明较佳实施例提供的案卷的事理图谱的示意图。
[0046] 图5是本发明较佳实施例提供的案卷事理图谱构建方法的
流程图。
[0047] 图6是本发明较佳实施例提供的案卷事理图谱构建方法中提取所述电子文本中的事理关系的流程图。
[0048] 主要元件符号说明
[0049]电子装置 1
处理器 10
案卷事理图谱构建系统 100
预处理模块 101
提取模块 102
建立模块 103
存储器 20
计算机程序 30
[0050] 如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
[0051] 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本
申请的实施例及实施例中的特征可以相互组合。
[0052] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的
说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
[0054] 请参阅图1所示,为本发明电子装置较佳实施例的结构示意图。
[0055] 所述电子装置1包括,但不仅限于,处理器10、存储器20以及存储在所述存储器20中并可在所述处理器10上运行的计算机程序30,例如案卷事理图谱构建程序。所述处理器10执行所述计算机程序30时实现上述案卷事理图谱构建方法实施例中的步骤,例如图5所示的步骤 S10~S30。或者,所述处理器10执行所述计算机程序30时实现案卷事理图谱构建系统实施例中各模块/单元的功能,例如图2中的模块101- 103。
[0056] 示例性的,所述计算机程序30可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器 10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序 30在所述电子装置1中的执行过程。例如,所述计算机程序30可以被分割成图2中的预处理模块101、提取模块102以及建立模块103。各模块具体功能参见案卷事理图谱构建系统实施例中各模块的功能。
[0057] 所述电子装置1可以是电脑、
服务器等计算设备。本领域技术人员可以理解,所述示意图仅仅是电子装置1的示例,并不构成对电子装置1 的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子装置1还可以包括输入输出设备、网络接入设备、总线等。
[0058] 所称处理器10可以是中央处理单元(Central Processing Unit, CPU),还可以是其他通用处理器、数字
信号处理器(Digital Signal Processor,DSP)、专用集成
电路(Application Specific Integrated Circuit,ASIC)、现成可编程
门阵列(Field-Programmable Gate Array, FPGA)或者其他
可编程逻辑器件、分立门或者晶体管逻辑器件、分立
硬件组件等。通用处理器可以是
微处理器或者所述处理器10也可以是任何常规的处理器等,所述处理器10是所述电子装置1的控制中心,利用各种
接口和线路连接整个电子装置1的各个部分。
[0059] 所述存储器20可用于存储所述计算机程序30和/或模块/单元,所述处理器10通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述电子装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储
操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子装置1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速
随机存取存储器,还可以包括
非易失性存储器,例如
硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字 (Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0060] 请参阅图2所示,本发明案卷事理图谱构建系统较佳实施例的功能模块图。
[0061] 在一些实施例中,案卷事理图谱构建系统100运行于所述电子装置1 中。所述案卷事理图谱构建系统100可以包括多个由程序代码段所组成的功能模块。案卷事理图谱构建系统100中的各个程序段的程序代码可以存储于电子装置1的存储器20中,并由所述至少一个处理器10所执行,以实现案卷事理图谱构建功能。
[0062] 本实施例中,案卷事理图谱构建系统100根据其所执行的功能,可以被划分为多个功能模块。参阅图2所示,所述功能模块可以包括预处理模块101、提取模块102以及建立模块103。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器20中。可以理解的是,在其他实施例中,上述模块也可为
固化于所述处理器10中的程序指令或
固件(firmware)。
[0063] 所述预处理模块101,用于将案卷进行预处理以生成电子文本(如图 3所示)。
[0064] 例如,通过OCR、音频识别等技术将案卷转化为电子文本。所述案卷包括口供、手写笔录、印刷打印件等记录案件信息的纸本文件、音频或者视频文件。
[0065] 所述提取模块102,用于提取所述电子文本中的事理关系,所述事理关系包括顺承关系以及因果关系之中至少一种。
[0066] 所述建立模块103,用于根据所述事理关系建立事理图谱。所述事理图谱包括顺承关系图谱以及因果关系图谱之中至少一种。
[0067] 请参阅图5所示,是本发明提供的案卷事理图谱构建方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
[0068] 步骤S10,将案卷进行预处理以生成电子文本(如图3所示)。
[0069] 例如,通过OCR、音频识别等技术将案卷转化为电子文本。所述案卷包括口供、手写笔录、印刷打印件等记录案件信息的纸本文件、音频或者视频文件。
[0070] 步骤S20,提取所述电子文本中的事理关系,所述事理关系包括顺承关系以及因果关系之中至少一种。
[0071] 请参阅图6所示,其中,所述提取所述电子文本中的事理关系包括:
[0072] 步骤S21,将所述电子文本划分为长句。
[0073] 在本较佳实施例中,所述将所述电子文本划分为长句包括:
[0074] a1:以第一符号为划分依据,将所述电子文本划分为短语。
[0075] 所述第一符号表示句子结尾,例如,所述第一符号可以包括:句号、感叹号、问号、冒号、分号、省略号等。
[0076] 例如,将所述电子本文A:“某年8月2日晚上10点左右,因为准备庆祝生日,王某和李某、刘某等相约去某酒吧,并于晚上11点半,到达某酒吧包间内。某年8月3日凌晨1点,李某和刘某发生争执,之后李某便独自离开酒吧,准备回家,回家途中,李某仍觉心中不悦。”划分为长句A1:“某年8月2日晚上10点左右,因为准备庆祝生日,王某和李某、刘某等相约去某酒吧,并于晚上11点半,到达某酒吧包间内”以及长句A2:“某年8月3日凌晨1点,李某和刘某在包间内发生争执,之后李某便独自离开酒吧,准备回家,回家途中,李某仍觉心中不悦”。
[0077] a2:判断所述短语所含中文字符个数是否大于预设数量。
[0078] 所述预设数量可为,例如,3个。
[0079] a3:如果所述短语所含中文字符个数大于预设数量,确定所述短语为长句。
[0080] a4:如果所述短语所含中文字符个数小于预设数量,确定所述短语不是长句。此时,因为所述短语过短,例如,所述短语可能为:你好,谢谢,不客气,对不起等词语,不包含事理关系,因此,不需进行处理。
[0081] 步骤S22,基于预设的事理关系模板,提取所述长句中的事理关系以生成事理关联部分。
[0082] 在本较佳实施例中,所述事理关系模板包括顺承关系模板。所述顺承关系模板包括表示顺承关系的词语,例如,[[又,再,才,并],[进而]],[[首先,第一],[其次,然后]],[[首先,先是],[再,又,还,才]],[[一方面],[另一方面,又,也,还]]等。
[0083] 在本较佳实施例中,所述基于预设的事理关系模板,提取所述长句中的事理关系以生成事理关联部分包括:基于预设的顺承关系模板,提取所述长句中的顺承关系以生成所述事理关联部分,所述事理关联部分包括顺承前事件以及顺承后事件。
[0084] 在本较佳实施例中,所述提取所述长句中的顺承关系以生成所述事理关联部分,所述事理关联部分包括顺承前事件以及顺承后事件包括:采用正则表达式确定位于所述顺承关系的词语前半部分的长句为顺承前事件及位于所述顺承关系的词语后半部分的长句为顺承后事件。例如,如果所述长句满足正则表达式:(.*)(其次|然后|之后|接着|随后|接下来)(.*),确定前半部分的长句为顺承前事件,以及确定后半部分的长句为顺承后事件。
[0085] 例如,提取长句A2:“某年8月3日凌晨1点,李某和刘某在包间内发生争执,之后李某便独自离开酒吧,准备回家,回家途中,李某仍觉心中不悦”中的顺承关系以生成所述事理关联部分,所述事理关联部分包括顺承前事件:“某年8月3日凌晨1点,李某和刘某在包间内发生争执”以及顺承后事件:“李某便独自离开酒吧,准备回家,回家途中,李某仍觉心中不悦”。
[0086] 可以理解,所述案卷中包括时间信息,所述顺承关系模板还包括时间先后规则。所述提取所述长句中的顺承关系以生成所述事理关联部分,所述事理关联部分包括顺承前事件以及顺承后事件包括:按照时间先后顺序确定时间先的事理关联部分为顺承前事件以及时间后的事理关联部分为顺承后事件。例如:所述长句为2016年5月7日20时许,事件A,2016年5月7日21时14分,事件B。将2016年5月7日20时以及2016年5月7日21时14分格式化生成日期型变量后,按照时间先后规则,确定第一个时间后面的事件A为顺承前事件,确定第二个时间后面的事件B为顺承后事件。
[0087] 在另一较佳实施例中,所述事理关系模板包括因果关系模板,所述因果关系模板包括表示因果关系的词语。
[0088] 所述基于预设的事理关系模板,提取所述长句中的事理关系以生成事理关联部分包括:基于预设的因果关系模板,提取所述长句中的因果关系以生成所述事理关联部分,所述事理关联部分包括原因事件以及结果事件。
[0089] 所述提取所述长句中的因果关系以生成所述事理关联部分,所述事理关联部分包括原因事件以及结果事件包括:按照因果关系规则提取所述长句中的因果关系,根据所述因果关系规则确定所述原因事件以及所述结果事件,其中,所述因果关系包括由果溯因、由因到果、因果居中式、居中式精确、前端式模糊、居中式模糊、前端式精确、由果溯因居中式模糊中至少一种。
[0090] 当因果关系规则为由果溯因时,所述因果关系模板包括由果溯因的词语,例如,[之?所以,因为],[之?所以,由于],[之?所以,缘于]。如果所述长句满足正则表达式:r\s?(之?所以)/[p|c]+\s(.*)(因为|由于|缘于)/[p|c]+\s(.*),确定前半部分的长句为结果事件,以及确定后半部分的长句为原因事件。
[0091] 当因果关系规则为由由因到果时,所述因果关系模板包括由因到果的词语,例如,[因为,从而],[因为,为此],[既然,所以],[因为,为此],[由于,为此],[除非,才],[只有,才],[由于,以至于],[既然,却],[如果,那么],[如果,则],[由于,从而],[既然?,就],[既然?,因此],[如果,就],[只要,就],[因为,所以],[由于,于是],[因为,因此],[由于,故],[因为,以致于?],[因为,以致],[因为,因而], [由于,因此],[因为,于是],[由于,致使],[因为,致使],[由于,以致于?],[因为,故],[因为?,以至于?],[由于,所以],[因为,故而], [由于,因而]],如果所述长句满足正则表达式: \s?(word[0])/[p|c]+\s(.*)(word[1])/[p|c]+\s(.*),确定前半部分的长句为原因事件,以及确定后半部分的长句为结果事件。
[0092] 当因果关系规则为由因果居中式时,所述因果关系模板包括因果居中式的词语,例如,于是、所以、故、致使、以致[于]、因此、以至 [于]、从而、因而,如果所述长句满足正则表达式:r(.*)[,,]+.*(于是| 所以|故|致使|以致于?|因此|以至于?|从而|因而)/[p|c]+\s(.*),确定前半部分的长句为原因事件,以及确定后半部分的长句为结果事件。
[0093] 当因果关系规则为居中式精确时,所述因果关系模板包括居中式精确的词语,例如,牵动、导向、使动、导致、勾起、引入、指引、使、予以、产生、促成、造成、引导、造就、促使、酿成、引发、渗透、促进、引起、诱导、引来、促发、引致、诱发、推进、诱致、推动、招致、影响、致使、滋生、归于、作用、使得、决定、攸关、令人、引出、浸染、带来、挟带、触发、关系、渗入、诱惑、波及、诱使。如果所述长句满足正则表达式:r(.*)\s+(牵动|已致|导向|使动|导致|勾起|引入| 指引|使|予以|产生|促成|造成|引导|造就|促使|酿成|引发|渗透|促进|引起|诱导|引来|促发|引致|诱发|推进|诱致|推动|招致|影响|致使|滋生|归于|作用|使得|决定|攸关|令人|引出|浸染|带来|挟带|触发|关系|渗入|诱惑|波及|诱使)/[d|v]+\s(.*),确定前半部分的长句为原因事件,以及确定后半部分的长句为结果事件。
[0094] 当因果关系规则为前端式模糊时,所述因果关系模板包括前端式模糊的词语,例如,为了、依据、为、按照、因、因为、按、依赖、照、比、凭借、由于。如果所述长句满足正则表达式:r\s?(为了|依据|按照|因为|因|按|依赖|凭借|由于)/[p|c]+\s(.*)[,,]+(.*),确定前半部分的长句为结果事件,以及确定后半部分的长句为原因事件。
[0095] 当因果关系规则为居中式模糊时,所述因果关系模板包括居中式模糊的词语,例如,以免、以便、为此、才,如果所述长句满足正则表达式:r(.*)(以免|以便|为此|才)\s(.*),确定前半部分的长句为结果事件,以及确定后半部分的长句为原因事件。
[0096] 当因果关系规则为前端式精确时,则所述因果关系模板包括当因果关系规则为前端式模糊时,则所述因果关系模板包括前端式模糊的词语,例如,既[然]、因[为]、如果、由于、只要,如果所述长句满足正则表达式:r\s?(既然?|因|因为|如果|由于|只要)/[p|c]+\s(.*)[,,]+(.*),确定前半部分的长句为结果事件,以及确定后半部分的长句为原因事件。
[0097] 当因果关系规则为由果溯因居中式模糊时,所述因果关系模板包括由果溯因居中式模糊的词语,例如,根源于、取决、来源于、出于、取决于、缘于、在于、出自、起源于、来自、发源于、发自、源于、根源于、立足[于]。如果所述长句满足正则表达式:r(.*)(根源于|取决|来源于| 出于|取决于|缘于|在于|出自|起源于|来自|发源于|发自|源于|根源于|立足|立足于)/[p|c]+\s(.*),确定前半部分的长句为结果事件,以及确定后半部分的长句为原因事件。
[0098] 例如,提取长句A1:“某年8月2日晚上10点左右,因为准备庆祝生日,王某和李某、刘某等相约去某酒吧,并于晚上11点半,到达某酒吧包间内”中的因果关系以生成所述事理关联部分,所述事理关联部分包括原因事件:“准备庆祝生日”以及结果事件:“王某和李某、刘某等相约去某酒吧,并于晚上11点半,到达某酒吧包间内”。
[0099] 步骤S23,将所述事理关联部分进行短句处理以生成目标短句。可以理解,所述事理关联部分包括顺承前事件以及顺承后事件、或者原因事件以及结果事件。
[0100] 在本较佳实施例中,所述将所述事理关联部分进行短句处理以生成目标短句包括:
[0101] b1:以第二符号为划分依据,将所述关联部分划分为短句,所述第二符号表示句子间隔。
[0102] 例如,所述第二符号包括:逗号、顿点等,可以理解,所述第二符号还可以包括连接关系的词语,例如,和、与、及、且、跟等。
[0103] 例如,将长句A1中结果事件:“王某和李某、刘某等相约去某酒吧,并于晚上11点半,到达某酒吧包间内”进行短句处理以生成目标短句“王某和李某、刘某等相约去某酒吧”,“并于晚上11点半”以及“到达某酒吧包间内”,而长句A1中原因事件:“准备庆祝生日”直接生成目标短句“准备庆祝生日”。
[0104] 将长句A2中顺承前事件:“某年8月3日凌晨1点,李某和刘某在包间内发生争执”进行短句处理以生成目标短句“某年8月3日凌晨1 点”“李某和刘某在包间内发生争执”,而长句A2中顺承后事件“李某便独自离开酒吧,准备回家,回家途中,李某仍觉心中不悦”则生成目标短句“李某便独自离开酒吧”,“准备回家”“回家途中”以及“李某仍觉心中不悦”。
[0105] b2:确定内容为非空的短句为所述目标短句。在本较佳实施例中,所述确定内容为非空的短句为所述目标短句包括:确定并删除内容为空的短句,确定删除后的短句为目标短句。例如,所述内容为空的短句仅包括标点符号而不包括其他词语,例如,所述短句仅包括省略号,确定所述短句内容为空,删除所述短句。
[0106] 步骤S24,提取所述目标短句中谓词性短语。
[0107] 在本较佳实施例中,所述提取所述目标短句中谓词性短语具体包括:
[0108] c1:将所述目标短句进行分词。
[0109] 所述将所述目标短句进行分词可为,例如,采用朴素贝叶斯的分词方法将所述目标短句进行分词。
[0110] c2:将分词后的所述目标短句进行
词性标注。
[0111] 所述将分词后的所述目标短句进行词性标注可为,例如,采用SVM (
支持向量机)的词性标注方法将分词后的所述目标短句进行词性标注。
[0112] c3:根据所述词性标注,确定所有满足动宾关系的目标短句为所述谓词性短语。
[0113] 所述满足动宾关系为满足动词+名词/形容词关系。
[0114] 例如,提取所述目标短句“准备庆祝生日”、“到达某酒吧包间内”、“李某和刘某在包间内发生争执”以及“李某便独自离开酒吧”中谓词性短语“庆祝#生日”、“达到#酒吧”、“发生#争执”、以及“离开#酒吧”。
[0115] 步骤S25,根据所述谓词性短语在所述长句中出现的顺序生成每一个长句的谓词性短语有序集合。
[0116] 例如,根据谓词性短语“庆祝#生日”、“达到#某酒吧”、“发生# 争执”、“离开#酒吧”在所述长句A中出现的顺序生成谓词性短语有序集合,所述谓词性短语有序集合包括因果事件对{庆祝#生日、达到#酒吧}、以及顺承事件对{发生#争执、离开#酒吧}。
[0117] 步骤S26,将所述谓词性短语有序集合以滑窗方式构造事理关系事件对。
[0118] 在本较佳实施例中,所述谓词性短语有序集合包括多个事件对,每一个事件对包括后关联事件以及前关联事件,所述“将所述的谓词性短语有序集合以滑窗方式构造事理关系事件对”包括:
[0119] 查找第一个事件对,确定所述第一个事件对的后关联事件;
[0120] 以所述第一个事件对的后关联事件为检索目标,遍历所有事件对判断能否找到以所述第一个事件对的后关联事件为前关联事件的事件对;
[0121] 如果能找到以所述第一个事件对的后关联事件为前关联事件的事件对,确定所述事件对的后关联事件,并继续遍历其他事件对判断能否找到以所述事件对的后关联事件为前关联事件的事件对,直至未找到以所述事件对的后关联事件为前关联事件的事件或者所有事件对完成判断;以及
[0122] 如果未找到以所述第一个事件对的后关联事件为前关联事件的事件对,顺序选择下一个事件对,继续确定所述下一个事件对的后关联事件,遍历其他事件对判断能否找到以所述下一个事件对的后关联事件为前关联事件的事件对,直至未能找到以所述下一个事件对的后关联事件为前关联事件的事件或者所有事件对完成判断。
[0123] 例如,所述谓词性短语有序集合包括多个事件对:{A、B}、{B、 C}、{D、E}、{C、E},此时,每一个事件对包括前关联事件(A、B、 C、D),以及后关联事件(B、C、E、E),所述步骤“将所述的谓词性短语有序集合以滑窗方式构造事理关系事件对”具体包括:
[0124] 查找第一个事件对{A、B},确定所述第一个事件对{A、B}的后关联事件B。
[0125] 以所述第一个事件对{A、B}的后关联事件B为检索目标,遍历所有事件对判断能否找到以所述第一个事件对{A、B}的后关联事件B为前关联事件的事件对。
[0126] 找到以所述第一个事件对{A、B}的后关联事件B为前关联事件的事件对{B、C},确定所述事件对的后关联事件C,并继续遍历所有事件对判断能否找到以所述事件对{B、C}的后关联事件C为前关联事件的事件对。
[0127] 找到以所述事件对{B、C}的后关联事件C为前关联事件的事件对 {C、E},确定所述事件对的后关联事件E,并继续遍历所有事件对判断能否找到以所述事件对{C、E}的后关联事件E为前关联事件的事件对;
[0128] 未找以所述事件对{C、E}的后关联事件E为前关联事件的事件对,顺序选择下一个事件对,继续确定所述下一个事件对{D、E}的后关联事件E,遍历所有事件对判断能否找到以所述下一个事件对{D、E}的后关联事件E为前关联事件的事件对,此时所有事件对完成判断,构造事理关系事件对结束。
[0129] 如此,通过如果能找到以所述第一个事件对的后关联事件为前关联事件的事件对确定后关联事件并根据所述事件对的后关联事件进行判断,及如果未找到以所述第一个事件对的后关联事件为前关联事件的事件对顺序选择下一个事件对并根据所述下一个事件对的后关联事件进行判断替换进行处理,将所述谓词性短语有序集合以滑窗方式构造事理关系事件对。
[0130] 可以理解,所述前关联事件以及所述后关联事件为顺承前事件以及顺承后事件或者因果前事件以及因果后事件。
[0131] 步骤S27,将所述事理关系事件对进行汇总以生成事理事件库。
[0132] 将所述事理关系事件对进行汇总包括存储所有事件对以及事件对之间的关联,例如,所述事理事件库包括事件对{A、B}、事件对{B、C}以及事件对{A、B}与事件对{B、C}之间的关联。
[0133] 步骤S30,根据所述事理关系建立事理图谱。所述事理图谱包括顺承关系图谱以及因果关系图谱之中至少一种。
[0134] 图4所示为根据顺承关系建立的顺承关系图谱,在本较佳实施例中,所述根据所述顺承关系建立顺承关系图谱包括:
[0135] d1:显示所述事理事件库中的事件对,例如,所述事件对包括: {庆祝#生日、来到#酒吧}、{来到#酒吧、发生#争执}、{发生#争执、离开#酒吧}。
[0136] d2:显示所述事件对之间的关联,例如,生成带箭头的线段连接事件对{庆祝#生日、来到#酒吧}与事件对{来到#酒吧、发生#争执}以及生成带箭头的线段连接事件对{来到#酒吧、发生#争执}与事件对{发生# 争执、离开#酒吧}。
[0137] 所述电子装置1集成的模块/单元如果以
软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、
只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和
专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0138] 上述案卷事理图谱构建方法、电子装置及计算机可读存储介质,可提取案卷中的事理关系,并建立对应的事理图谱,有利于快速分析案情脉络、梳理作案动机,为警方破案提供帮助。
[0139] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附
权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由同一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
[0140] 最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行
修改或等同替换,而不脱离本发明技术方案的精神和范围。