首页 / 专利库 / 人工智能 / 互联网语言学 / 一种智能警情督导处理系统及方法

一种智能警情督导处理系统及方法

阅读:656发布:2020-05-14

专利汇可以提供一种智能警情督导处理系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种智能警情督导处理系统及方法,属于语义识别领域,所述系统包括警情语义输入单元、警情训练生成模型单元、法律法规语义检索单元、警情分类检索单元和警情分类及处理法律集显示单元。通过本发明能够指导或自动纠正相关的警情归类错误,实现更准确的案件归类上报,在文档语义层面实现了相关警情的法律法规的推送督导。本发明还针对警情领域中存在的语料 不平衡 情况提取了一种特定领域同义词表生成方法和语料增广,从而提升了语议分析理解的准确率,提升了警情的归类的规范性。,下面是一种智能警情督导处理系统及方法专利的具体信息内容。

1.一种智能警情督导处理系统,其特征在于,包括警情语义输入单元、警情训练生成模型单元、法律法规语义检索单元、警情分类检索单元和警情分类及处理法律集显示单元,所述警情语义输入单元与警情训练生成模型单元连接,所述警情训练生成模型单元分别与法律法规语义检索单元和警情分类检索单元连接,所述警情分类及处理法律集显示单元分别与法律法规语义检索单元和警情分类检索单元的输出端连接,所述警情语义输入单元用于供接警电话输入警情语义,并提取警情语义中的定长字符输入警情训练生成模型单元和法律法规语义检索单元,所述警情训练生成模型单元用于把增广数据输入到深度神经网络模型进行训练,生成相关的表示语义句子向量模型和警情分类模型,句子向量模型对警情语义中的定长字符进行句向量处理得到警情语义句向量,警情分类模型对警情语义中的定长字符进行警情分类处理得到警情分类关键字,所述法律法规语义检索单元用于采用句子向量模型获取法律法规的句向量集S,并存在在数据资料库中,将警情语义句向量通过局部敏感hash函数或向量夹余弦度量对比句向量集S,获取距离小于d的法规集R,所述警情分类检索单元用于警情分类类别作为关键字,检索出数据中相关的出警流程,所述警情分类及处理法律集显示单元用于通过网络协议推送警情分类和法规定集R到执法终端显示,实现处警的规范化。
2.根据权利要求1所述的一种智能警情督导处理系统,其特征在于:所述警情训练生成模型单元包括神经网络训练模型模、句子向量模型生成模块和警情分类模型模块,所述神经网络训练模型模块分别与句子向量模型生成模块和警情分类模型模块连接,所述神经网络训练模型模块用于以增广数据为输入进行训练生成句子向量模型生成模块和警情分类模型模块,所述句子向量模型生成模块用于对警情语义中的定长字符进行句向量处理得到警情语义句向量,所述警情分类模型模块用于对警情语义中的定长字符进行警情分类处理得到警情分类关键字。
3.根据权利要求1所述的一种智能警情督导处理系统,其特征在于:所述法律法规语义检索单元包括句向量编码生成模块和法律法规语义对比模块,所述句向量编码生成模块和法律法规语义对比模块连接,所述句向量编码生成模块对句向量进行编码生成具有由编码序号的句向量,所述法律法规语义对比模块根据编码序号的句向量进行输入与《中华人民共和国刑法》中的每条法律法规进行对比生成句向量集S,并存在在数据资料库中。
4.根据权利要求1所述的一种智能警情督导处理系统,其特征在于:所述警情分类检索单元包括警情分类存储模块和警情流程检索模块,所述警情分类存储模块与警情流程检索模块连接,所述警情分类存储模块用于汇总警情分类类别的关键字,所述警情流程检索模块用于根据关键字检索出相关的出警流程。
5.一种智能警情督导处理方法,其特征在于:所述方法包括如下步骤:
步骤1:生成警情领域同义词表;
步骤2:生成公安领域警情语料增广数据;
步骤3:把增广数据输入神经网络模型进行训练,生成相关的表示语义句子向量模型和警情分类模型;
步骤4:接警人员通过警情语义输入单元输入警情语义,并根据同义词表提取警情语义中的定长字符;
步骤5:把警情语义中的定长字符输入句子向量模型和警情分类模型取得表示该警情语义句向量和警情分类类别;
步骤6:获取的警情分类类别作为关键字,检索出数据中相关的处警流程;
步骤7:使用句子向量模型获取《中华人民共和国刑法》每条法规的句向量集S,并存在在数据资料库中;
步骤8:把生成的警情语义句向量通过局部敏感hash函数或向量夹角余弦度量对比句向量集S,获取距离小于d的法规集R;
步骤9:通过网络协议推送警情分类和法规定集R到执法终端,实现处警的规范化。
6.根据权利要求5所述的一种智能警情督导处理方法,其特征在于:所述步骤1的具体过程为:
步骤1.1:通过互联网获取公开的《中华人民共和国刑法》基本文本语料集D;
步骤1.2:使用分词工具对语料集D进行分词,全用尺寸为3,步长为1窗口获得二元语言学训练数据
步骤1.3:将二元语言学训练数据进行Word2Vec模型训练得到词向量表示;
步骤1.4:计算每两个词向量vi,vj间的夹角余值作为两个词的相似度,获得相似度量矩阵;
步骤1.5:通过度量获取与词vi最邻近的3个词即vi的3个同义词得到警情领域的同义词表。
7.根据权利要求5所述的一种智能警情督导处理方法,其特征在于:所述步骤2的具体过程为:
步骤2.1:输入一条警情语料,判断该类语料数量n是否大于等于100条;
步骤2.2:如果n小于100,直接采样输出该语料,如果n大于等于100执行下一步。
步骤2.3:对输入的语料进行分词,获得该语料情的分词表;
步骤2.4:等概率生成[0,1,2,3,4]中的一个随机变量N,如N=0采用同义词替换法该语料情的分词表中的3个单词生成新语料;如N=1在句子中找到一个随机词的随机同义词,将该同义词插入句子中的随机位置生成新语料;如N=2随机选择分词表里的两个单词交换位置生成新语料;如N=3随机删除分词表中的1个单词生成新语料;如N=4直接输出该语料。

说明书全文

一种智能警情督导处理系统及方法

技术领域

[0001] 本发明涉及语义识别领域,尤其涉及一种智能警情督导处理系统及方法。

背景技术

[0002] 随着人工智能自然语言处理技术的不断发展,以及警用领域数据的不断丰富,建设智能化指挥系统要求实现警情的智能处理分析,如何实现警情的智能督导成为了现阶段的一种挑战。
[0003] 在传统的警司督导模式下,督导人员90%的时间在手动核查非规范化的结构数据上,难以依据现有的法律法规进行规范化处理归档。基于人工智能、自然语言处理的警情智能督导模型成为了有效手段。
[0004] 目前常见的自然语言处理的语义模型需要在较好的平衡的语料上进学习的,要花费大量的人要对语料进行充分的整理,然而在警情领域大案,要案数是非常少的,语料非常不平衡,而这类警情的处理又是重中之重。针对警情领域的语料不平衡这一问题,提出了相关的语料增广方法以自动生成平衡的警情语料。
[0005] 尽管很多机器学习,自然语言处理模型已经能在语义识别上的研究已经取得了不少成果,但仍然缺少对特定领域应用性研究,本发明针对警情领域进行了特定的研究,实现了句子层面的语义向量编码,警情的自动分类以及相关法律法规的语义匹配,从面实现警情智能化督导。

发明内容

[0006] 本发明的目的在于提供一种智能警情督导处理系统及方法,以解决现有警情预判语料不平衡的技术问题。
[0007] 一种智能警情督导处理系统,包括警情语义输入单元、警情训练生成模型单元、法律法规语义检索单元、警情分类检索单元和警情分类及处理法律集显示单元,所述警情语义输入单元与警情训练生成模型单元连接,所述警情训练生成模型单元分别与法律法规语义检索单元和警情分类检索单元连接,所述警情分类及处理法律集显示单元分别与法律法规语义检索单元和警情分类检索单元的输出端连接,所述警情语义输入单元用于供接警电话输入警情语义,并提取警情语义中的定长字符输入警情训练生成模型单元和法律法规语义检索单元,所述警情训练生成模型单元用于把增广数据输入到深度神经网络模型进行训练,生成相关的表示语义句子向量模型和警情分类模型,句子向量模型对警情语义中的定长字符进行句向量处理得到警情语义句向量,警情分类模型对警情语义中的定长字符进行警情分类处理得到警情分类关键字,所述法律法规语义检索单元用于采用句子向量模型获取法律法规的句向量集S,并存在在数据资料库中,将警情语义句向量通过局部敏感hash函数或向量夹余弦度量对比句向量集S,获取距离小于d的法规集R,所述警情分类检索单元用于警情分类类别作为关键字,检索出数据中相关的出警流程,所述警情分类及处理法律集显示单元用于通过网络协议推送警情分类和法规定集R到执法终端显示,实现处警的规范化。
[0008] 进一步地,所述警情训练生成模型单元包括神经网络训练模型模、句子向量模型生成模块和警情分类模型模块,所述神经网络训练模型模块分别与句子向量模型生成模块和警情分类模型模块连接,所述神经网络训练模型模块用于以增广数据为输入进行训练生成句子向量模型生成模块和警情分类模型模块,所述句子向量模型生成模块用于对警情语义中的定长字符进行句向量处理得到警情语义句向量,所述警情分类模型模块用于对警情语义中的定长字符进行警情分类处理得到警情分类关键字。
[0009] 进一步地,所述法律法规语义检索单元包括句向量编码生成模块和法律法规语义对比模块,所述句向量编码生成模块和法律法规语义对比模块连接,所述句向量编码生成模块对句向量进行编码生成具有由编码序号的句向量,所述法律法规语义对比模块根据编码序号的句向量进行输入与《中华人民共和国刑法》中的每条法律法规进行对比生成句向量集S,并存在在数据资料库中。
[0010] 进一步地,所述警情分类检索单元包括警情分类存储模块和警情流程检索模块,所述警情分类存储模块与警情流程检索模块连接,所述警情分类存储模块用于汇总警情分类类别的关键字,所述警情流程检索模块用于根据关键字检索出相关的出警流程。
[0011] 一种智能警情督导处理方法,所述方法包括如下步骤:
[0012] 步骤1:生成警情领域同义词表;
[0013] 步骤2:生成公安领域警情语料增广数据;
[0014] 步骤3:把增广数据输入神经网络模型进行训练,生成相关的表示语义句子向量模型和警情分类模型;
[0015] 步骤4:接警人员通过警情语义输入单元输入警情语义,并根据同义词表提取警情语义中的定长字符;
[0016] 步骤5:把警情语义中的定长字符输入句子向量模型和警情分类模型取得表示该警情语义句向量和警情分类类别;
[0017] 步骤6:获取的警情分类类别作为关键字,检索出数据中相关的处警流程;
[0018] 步骤7:使用句子向量模型获取《中华人民共和国刑法》每条法规的句向量集S,并存在在数据资料库中;
[0019] 步骤8:把生成的警情语义句向量通过局部敏感hash函数或向量夹角余弦度量对比句向量集S,获取距离小于d的法规集R;
[0020] 步骤9:通过网络协议推送警情分类和法规定集R到执法终端,实现处警的规范化。
[0021] 进一步地,所述步骤1的具体过程为:
[0022] 步骤1.1:通过互联网获取公开的《中华人民共和国刑法》基本文本语料集D;
[0023] 步骤1.2:使用分词工具对语料集D进行分词,全用尺寸为3,步长为1窗口获得二元语言学训练数据
[0024] 步骤1.3:将二元语言学训练数据进行Word2Vec模型训练得到词向量表示;
[0025] 步骤1.4:计算每两个词向量vi,vj间的夹角余值作为两个词的相似度,获得相似度量矩阵;
[0026] 步骤1.5:通过度量获取与词vi最邻近的3个词即vi的3个同义词得到警情领域的同义词表。
[0027] 进一步地,所述步骤2的具体过程为:
[0028] 步骤2.1:输入一条警情语料,判断该类语料数量n是否大于等于100条;
[0029] 步骤2.2:如果n小于100,直接采样输出该语料,如果n大于等于100执行下一步。
[0030] 步骤2.3:对输入的语料进行分词,获得该语料情的分词表;
[0031] 步骤2.4:等概率生成[0,1,2,3,4]中的一个随机变量N,如N=0采用同义词替换法该语料情的分词表中的3个单词生成新语料;如N=1在句子中找到一个随机词的随机同义词,将该同义词插入句子中的随机位置生成新语料;如N=2随机选择分词表里的两个单词交换位置生成新语料;如N=3随机删除分词表中的1个单词生成新语料;如N=4直接输出该语料。
[0032] 本发明采用了上述技术方案,本发明具有以下技术效果:
[0033] 本发明能够指导或自动纠正相关的警情归类错误,实现更准确的案件归类上报,在文档语义层面实现了相关警情的法律法规的推送督导,针对警情领域中存在的语料不平衡情况提取了一种特定领域同义词表生成方法和语料增广,从而提升了语议分析理解的准确率,提升了警情的归类的规范性。附图说明
[0034] 图1为本发明系统结构框图
[0035] 图2为本发明语料增广处理流程图
[0036] 图3为本发明同义词表生成处理流程图。
[0037] 图4为本发明夹角余值的度量矩阵图。
[0038] 图5为本发明一级警情分布图。
[0039] 图6为本发明二级警情分布图。

具体实施方式

[0040] 为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
[0041] 请参阅图1,本发明提供一种智能警情督导处理系统,包括警情语义输入单元、警情训练生成模型单元、法律法规语义检索单元、警情分类检索单元和警情分类及处理法律集显示单元。所述警情语义输入单元与警情训练生成模型单元连接。警情训练生成模型单元分别与法律法规语义检索单元和警情分类检索单元连接。警情分类及处理法律集显示单元分别与法律法规语义检索单元和警情分类检索单元的输出端连接。警情语义输入单元用于供接警电话输入警情语义,并提取警情语义中的定长字符输入警情训练生成模型单元和法律法规语义检索单元。警情训练生成模型单元用于把增广数据输入到深度神经网络模型进行训练,生成相关的表示语义句子向量模型和警情分类模型,句子向量模型对警情语义中的定长字符进行句向量处理得到警情语义句向量,警情分类模型对警情语义中的定长字符进行警情分类处理得到警情分类关键字。法律法规语义检索单元用于采用句子向量模型获取法律法规的句向量集S,并存在在数据资料库中,将警情语义句向量通过局部敏感hash函数或向量夹角余弦度量对比句向量集S,获取距离小于d的法规集R,所述警情分类检索单元用于警情分类类别作为关键字,检索出数据中相关的出警流程。警情分类及处理法律集显示单元用于通过网络协议推送警情分类和法规定集R到执法终端显示,实现处警的规范化。
[0042] 警情领域同义词表通过对《中华人民共和国刑法》文本数据进行分词处理,并通过word2vec模型的训练,生成每个单词的词向量数据,再通过夹角余弦度量每两个单词间的距离值,生成相关的度量矩阵,由度量矩阵生成距离每个单词小于d的同义词表。
[0043] 使用增广的警情语料,通过深度学习的神经网络模型生成了用于语义表示的句向量模型和警情分类模型,即智能警情模型单元。通过输入警情文本到智能警情模型单元,得到表达该警情语义的句向量和识别出的警情类别。
[0044] 句向量再进一步对比数据资料库中样同样方法已经生成好的每条刑法的句向量编码数据进行比对,检索出与警情句向量小于d的相关法律法规。
[0045] 智能警情模型单元识别出的警情类别则作为关键字用于检索资料库中存储的处警流程。最后装置通过网络协议把检索出的相关法律法规,处警流程推送的执法终端进行相关的督导办案。
[0046] 本发明研究了公安领域警情分类的分布情况,相关的研究统计数据结果。如图5-6所示。
[0047] 本发明针对不平衡的警情语料库,提出了相关的语料”同义词替换、随机插入、随机交换、随机删除、放回采样”增广方法,大幅提升了警情分类的准确率。
[0048] 警情训练生成模型单元:通过输入警情语料训练生成句子向量模型和警情分类模型,句子向量模型生成的句向量编码用于表达警情语义,警情分类模型用于对警情进行分类及该类别的概率值。
[0049] 法律法规语义检索单元:使用句子向量模型生成的句向量编码与数据资料库中的每条法规句向量集S进行语义比对,获取距离小于d的法规集R。
[0050] 警情分类检索单元:用警情分类模型识别出的“警情类别”作为关键字检索数据库里的处警流程。
[0051] 警情分类及处理法律集显示单元:通过网络协议推送警情分类各法规集R到执法终端。
[0052] 所述警情训练生成模型单元包括神经网络训练模型模块、句子向量模型生成模块和警情分类模型模块,所述神经网络训练模型模块分别与句子向量模型生成模块和警情分类模型模块连接,所述神经网络训练模型模块用于以增广数据为输入进行训练生成句子向量模型生成模块和警情分类模型模块,所述句子向量模型生成模块用于对警情语义中的定长字符进行句向量处理得到警情语义句向量,所述警情分类模型模块用于对警情语义中的定长字符进行警情分类处理得到警情分类关键字。
[0053] 所述法律法规语义检索单元包括句向量编码生成模块和法律法规语义对比模块,所述句向量编码生成模块和法律法规语义对比模块连接,所述句向量编码生成模块对句向量进行编码生成具有由编码序号的句向量,所述法律法规语义对比模块根据编码序号的句向量进行输入与《中华人民共和国刑法》中的每条法律法规进行对比生成句向量集S,并存在在数据资料库中。
[0054] 所述警情分类检索单元包括警情分类存储模块和警情流程检索模块,所述警情分类存储模块与警情流程检索模块连接,所述警情分类存储模块用于汇总警情分类类别的关键字,所述警情流程检索模块用于根据关键字检索出相关的出警流程。
[0055] 一种智能警情督导处理方法,所述方法包括如下步骤:
[0056] 步骤1:生成警情领域同义词表,如图2-4所示。
[0057] 步骤1.1:通过互联网获取公开的《中华人民共和国刑法》基本文本语料集D;
[0058] 步骤1.2:使用分词工具对语料集D进行分词,全用尺寸为3,步长为1窗口获得二元语言学训练数据;
[0059] 步骤1.3:将二元语言学训练数据进行Word2Vec模型训练得到词向量表示;
[0060] 步骤1.4:计算每两个词向量vi,vj间的夹角余值作为两个词的相似度,获得相似度量矩阵;具体的计算公式是:
[0061] 这里也可以使用别的相似度量方法,如:欧几里得距离、明可夫斯基距离、曼哈顿距离、切比夫距离、哈拉诺比斯距离、皮尔森相关系数。
[0062] 步骤1.5:通过度量获取与词vi最邻近的3个词即vi的3个同义词得到警情领域的同义词表。
[0063] 步骤2:生成公安领域警情语料增广数据,如图3所示。
[0064] 步骤2.1:输入一条警情语料,判断该类语料数量n是否大于等于100条;
[0065] 步骤2.2:如果n小于100,直接采样输出该语料,如果n大于等于100执行下一步。
[0066] 步骤2.3:对输入的语料进行分词,获得该语料情的分词表;
[0067] 步骤2.4:等概率生成[0,1,2,3,4]中的一个随机变量N,如N=0采用同义词替换法该语料情的分词表中的3个单词生成新语料;如N=1在句子中找到一个随机词的随机同义词,将该同义词插入句子中的随机位置生成新语料;如N=2随机选择分词表里的两个单词交换位置生成新语料;如N=3随机删除分词表中的1个单词生成新语料;如N=4直接输出该语料。
[0068] 主要特征有以下方法:
[0069] 同义词替换
[0070] 从句子中随机选择不是停用词的n个单词。用随机选择的一个同义词替换每个单词生成新语料。
[0071] 随机插入
[0072] 在句子中找到一个随机词的随机同义词。将该同义词插入句子中的随机位置生成新语料。
[0073] 随机交换
[0074] 随机选择句子中的两个单词并交换位置生成新语料
[0075] 随机删除
[0076] 对于句子中的每个单词,以概率p随机删除它。
[0077] 放回采样
[0078] 对于分类数量少于30条的警情,采用数据放回重采样的方法增加该分类的语料数量。
[0079] 步骤3:把增广数据输入神经网络模型进行训练,生成相关的表示语义句子向量模型和警情分类模型。
[0080] 步骤4:接警人员通过警情语义输入单元输入警情语义,并根据同义词表提取警情语义中的定长字符。
[0081] 步骤5:把警情语义中的定长字符输入句子向量模型和警情分类模型取得表示该警情语义句向量和警情分类类别。
[0082] 步骤6:获取的警情分类类别作为关键字,检索出数据中相关的处警流程。
[0083] 步骤7:使用句子向量模型获取《中华人民共和国刑法》每条法规的句向量集S,并存在在数据资料库中。
[0084] 步骤8:把生成的警情语义句向量通过局部敏感hash函数或向量夹角余弦度量对比句向量集S,获取距离小于d的法规集R。
[0085] 步骤9:通过网络协议推送警情分类和法规定集R到执法终端,实现处警的规范化。
[0086] 本发明公开了一种基于句子层面的语义分析警情督导方法和装置。研究了接处警领域里警情的分布情况,发现了现实中接警员在一级警情“治安案件”,“刑事案件”,二级警情“抢夺”,“抢劫”等分类中存在高错误率的情况,通过本发明能够指导或自动纠正相关的警情归类错误,实现更准确的案件归类上报,在文档语义层面实现了相关警情的法律法规的推送督导。本发明还针对警情领域中存在的语料不平衡情况提取了一种特定领域同义词表生成方法和语料增广,从而提升了语议分析理解的准确率,提升了警情的归类的规范性。
[0087] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0088] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈