专利汇可以提供一种面向公共安全事件的多源异构数据知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种面向公共安全事件的多源异构数据知识图谱构建方法,与 现有技术 相比解决了公共安全事件涉及数据量太大难以归纳分析的 缺陷 。本发明包括以下步骤: 基础 数据的获取;对公共安全事件多源异构数据进行实体识别及关系 抽取 ;构建公共安全事件骨干实体知识图谱;构建公共安全事件的多源异构数据知识图谱。本发明通过对多源异构数据的处理,对公共安全事件的表达在各个方面都有数据 支撑 ,利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高。,下面是一种面向公共安全事件的多源异构数据知识图谱构建方法专利的具体信息内容。
1.一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,包括以下步骤:
11)基础数据的获取:获取公共安全事件多源异构数据;
12)对公共安全事件多源异构数据进行实体识别及关系抽取;
13)构建公共安全事件骨干实体知识图谱:根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱;
14)构建公共安全事件的多源异构数据知识图谱:根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。
2.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤:
21)对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分;
22)对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为
5层结构。
3.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述构建公共安全事件骨干实体知识图谱包括以下步骤:
31)根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体};
32)对结构化数据进行图映射或者D2R数据转换,得到三元组数据;
33)对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据;
34)对非结构化数据进行实体关系提取,得到三元组数据;
35)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体;
36)使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
4.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述构建公共安全事件的多源异构数据知识图谱包括以下步骤:
41)对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题;
42)将每个实体映射到K维主题空间,用主题向量进行表示;
43)对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重;
44)利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
5.根据权利要求2所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述的双向LSTM神经网络模型5层结构设置方法如下:
51)设定第一层为输入层:将句子输入到模型中;
52)设定第二层为Embedding层:将每个词映射到低维空间;
53)设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
531)输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
532)遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
533)细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
534)输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
535)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
ht=ottanh(ct);
54)设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT,
其中 dw为词向量的维度;
55)设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
互联网中欺诈团伙关系的挖掘与排查方法及其系统 | 2020-05-16 | 5 |
一种基于计算机视觉技术的网络综合态势预测方法 | 2020-05-11 | 480 |
一种相识文本自动扩展的系统及其方法 | 2020-05-12 | 174 |
供应链金融的风险分析方法、装置、计算终端及存储介质 | 2020-05-14 | 947 |
大数据风控管理系统 | 2020-05-08 | 562 |
一种面向在线教育的实时反作弊检测和预警方法 | 2020-05-14 | 770 |
精神疾病影像学自动化报告系统及其方法 | 2020-05-12 | 365 |
一种应用于政务舆情分析平台 | 2020-05-15 | 636 |
一种基于积分制的阅读评价方法及系统 | 2020-05-13 | 290 |
基于知识库的物业管理综合监管系统及其构建方法 | 2020-05-13 | 107 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。