首页 / 专利库 / 人工智能 / 数据库知识发现 / 一种面向公共安全事件的多源异构数据知识图谱构建方法

一种面向公共安全事件的多源异构数据知识图谱构建方法

阅读:149发布:2020-05-13

专利汇可以提供一种面向公共安全事件的多源异构数据知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种面向公共安全事件的多源异构数据知识图谱构建方法,与 现有技术 相比解决了公共安全事件涉及数据量太大难以归纳分析的 缺陷 。本发明包括以下步骤: 基础 数据的获取;对公共安全事件多源异构数据进行实体识别及关系 抽取 ;构建公共安全事件骨干实体知识图谱;构建公共安全事件的多源异构数据知识图谱。本发明通过对多源异构数据的处理,对公共安全事件的表达在各个方面都有数据 支撑 ,利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高。,下面是一种面向公共安全事件的多源异构数据知识图谱构建方法专利的具体信息内容。

1.一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,包括以下步骤:
11)基础数据的获取:获取公共安全事件多源异构数据;
12)对公共安全事件多源异构数据进行实体识别及关系抽取
13)构建公共安全事件骨干实体知识图谱:根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱;
14)构建公共安全事件的多源异构数据知识图谱:根据公共安全事件所属部提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。
2.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤:
21)对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分;
22)对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为
5层结构。
3.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述构建公共安全事件骨干实体知识图谱包括以下步骤:
31)根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体};
32)对结构化数据进行图映射或者D2R数据转换,得到三元组数据;
33)对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据;
34)对非结构化数据进行实体关系提取,得到三元组数据;
35)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体;
36)使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
4.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述构建公共安全事件的多源异构数据知识图谱包括以下步骤:
41)对公共安全事件所属部门所提供资料数据进行分,利用主题模型LDA对数据库中实体进行聚类,得到K个主题;
42)将每个实体映射到K维主题空间,用主题向量进行表示;
43)对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重;
44)利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
5.根据权利要求2所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述的双向LSTM神经网络模型5层结构设置方法如下:
51)设定第一层为输入层:将句子输入到模型中;
52)设定第二层为Embedding层:将每个词映射到低维空间;
53)设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
531)输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
532)遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
533)细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
534)输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
535)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
ht=ottanh(ct);
54)设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT,
其中 dw为词向量的维度;
55)设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出。

说明书全文

一种面向公共安全事件的多源异构数据知识图谱构建方法

技术领域

[0001] 本发明涉及数据语义分析技术领域,具体来说是一种面向公共安全事件的多源异构数据知识图谱构建方法。

背景技术

[0002] 自2012年谷歌发布知识图谱以来,知识图谱一直因其强大的事件表达能、关系联系能力、信息快速搜索能力和知识推理能力,被广泛应用于各种人工智能方向,例如问答机器人、智能搜索引擎等。知识图谱是语义网络和数据库的结合,由海量的三元组数据(实体,关系,实体)组成,实体与关系之间是有方向的,这种形式可以快速获取与事物相关的所有知识。
[0003] 在公共安全领域,由于公共安全事件数据是从各个渠道获取,导致数据包含结构型数据、半结构化数据和非结构型数据,而且数据的质量不同,很难达到对公共安全事件的完好表达。
[0004] 那么,如何将知识图谱应用于公共安全事件,以知识图谱强大的事件表达、关系互联以及知识推理能力实现公共安全事件的技术展示,已经成为急需解决的技术问题。

发明内容

[0005] 本发明的目的是为了解决现有技术中公共安全事件涉及数据量太大难以归纳分析的缺陷,提供一种面向公共安全事件的多源异构数据知识图谱构建方法来解决上述问题。
[0006] 为了实现上述目的,本发明的技术方案如下:
[0007] 一种面向公共安全事件的多源异构数据知识图谱构建方法,包括以下步骤:
[0008] 基础数据的获取:获取公共安全事件多源异构数据;
[0009] 对公共安全事件多源异构数据进行实体识别及关系抽取
[0010] 构建公共安全事件骨干实体知识图谱:根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱;
[0011] 构建公共安全事件的多源异构数据知识图谱:根据公共安全事件所属部提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。
[0012] 所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤:
[0013] 对公共安全事件多源异构数据利用bert模型进行实体识别,
[0014] 使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分;
[0015] 对公共安全事件多源异构数据进行关系抽取:
[0016] 使用双向LSTM神经网络模型加入Attention机制方法对对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构。
[0017] 所述构建公共安全事件骨干实体知识图谱包括以下步骤:
[0018] 根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体};
[0019] 对结构化数据进行图映射或者D2R数据转换,得到三元组数据;
[0020] 对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据;
[0021] 对非结构化数据进行实体关系提取,得到三元组数据;
[0022] 将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体;
[0023] 使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
[0024] 所述构建公共安全事件的多源异构数据知识图谱包括以下步骤:
[0025] 对公共安全事件所属部门所提供资料数据进行分,利用主题模型LDA对数据库中实体进行聚类,得到K个主题;
[0026] 将每个实体映射到K维主题空间,用主题向量进行表示;
[0027] 对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
[0028] 实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
[0029] sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
[0030] 其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重;
[0031] 利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
[0032] 所述的双向LSTM神经网络模型5层结构设置方法如下:
[0033] 设定第一层为输入层:将句子输入到模型中;
[0034] 设定第二层为Embedding层:将每个词映射到低维空间;
[0035] 设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
[0036] 其中LSTM层包含四个部分:
[0037] 输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
[0038] 遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
[0039] 细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
[0040] gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
[0041] 输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
[0042] 输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
[0043] ht=ottanh(ct);
[0044] 设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
[0045] 将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
[0046] 其Attention层得到的权重矩阵由下面的方式得到:
[0047] M=tanh(H)
[0048] α=softmax(wTM)
[0049] r=HαT,
[0050] 其中 dw为词向量的维度;
[0051] 设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子将表示如下:
[0052] h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
[0053] 有益效果
[0054] 本发明的一种面向公共安全事件的多源异构数据知识图谱构建方法,与现有技术相比通过对多源异构数据的处理,对公共安全事件的表达在各个方面都有数据支撑,利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高;通过利用地理知识原理对公共安全事件的表达有一个完整的,包含时间和空间属性实体的构建知识图谱的方法,进一步完善知识图谱的准确;通过使用公共安全领域的专业知识来获得知识图谱,可以进行高效、准确的知识推理,进一步完善公共安全事件知识图谱的专业性。
[0055] 本发明将公共安全事件的海量大数据变为三元组形式,对公共安全事件的表达得到提升,进一步利用知识图谱的知识推理能力,对公共安全事件进行分析判断。附图说明
[0056] 图1为本发明的方法顺序图。

具体实施方式

[0057] 为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
[0058] 如图1所示,本发明所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,包括以下步骤:
[0059] 第一步,基础数据的获取:获取公共安全事件多源异构数据。
[0060] 第二步,对公共安全事件多源异构数据进行实体识别及关系抽取。
[0061] 利用获取到的公共安全事件多源异构数据,从中提取实体和关系,针对结构化的数据,通过建立数据库中概念和知识图谱中的本体的映射关系得到相关的规则抽取器进行抽取,对于半结构化数据则是建立相关模板抽取器进行抽取,而对于非结构化数据,则可以先根据结构化数据和半结构化数据所建立的知识图谱进行训练集的抽取,利用深度学习方法来训练出相应的公共安全知识表达抽取器。其具体步骤如下:
[0062] (1)对公共安全事件多源异构数据利用bert模型进行实体识别,
[0063] 使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,这使得该模型对于公共安全领域极为敏感。因为bert在实体识别方面有下游接口,所以只要加入起始和结束的符号,对于最后BERT每个位置的输出都加入一个线性的分类器就可以了。不过在使用bert的时候,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分。
[0064] (2)对公共安全事件多源异构数据进行关系抽取:
[0065] 使用双向LSTM神经网络模型加入Attention机制方法对对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构。
[0066] 双向LSTM神经网络模型5层结构设置方法如下:
[0067] A1)设定第一层为输入层:将句子输入到模型中;
[0068] A2)设定第二层为Embedding层:将每个词映射到低维空间;
[0069] A3)设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
[0070] 其中LSTM层包含四个部分:
[0071] A31)输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
[0072] A32)遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
[0073] A33)细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
[0074] gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
[0075] A34)输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
[0076] A35)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
[0077] ht=ottanh(ct);
[0078] A4)设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
[0079] 将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
[0080] 其Attention层得到的权重矩阵由下面的方式得到:
[0081] M=tanh(H)
[0082] α=softmax(wTM)
[0083] r=HαT,
[0084] 其中 dw为词向量的维度;
[0085] A5)设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子表示如下:
[0086] h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
[0087] 第三步,构建公共安全事件骨干实体知识图谱。根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱。其具体步骤如下:
[0088] (1)根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体}。
[0089] 对公共安全事件知识图谱进行构建,先构建公共安全事件的本体知识库,就是数据的模式信息。根据公共安全数据中的一些数据模式形式,提取本体知识,构建公共安全事件的本体库。通过公共安全事件的本体库,可以快速分析数据是否是关于公共安全事件。
[0090] (2)对结构化数据进行图映射或者D2R数据转换,得到三元组数据。
[0091] (3)对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据。
[0092] (4)对非结构化数据进行实体关系提取,得到三元组数据。
[0093] (5)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体。
[0094] (6)使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
[0095] 第四步,构建公共安全事件的多源异构数据知识图谱。
[0096] 根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。其具体步骤如下:
[0097] (1)对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题。
[0098] (2)将每个实体映射到K维主题空间,用主题向量进行表示。
[0099] (3)对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
[0100] 实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
[0101] sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
[0102] 其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重。
[0103] (4)利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
[0104] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈