首页 / 专利库 / 地基 / 基础 / 化工事故新闻采集方法及机器可读存储介质

化工事故新闻采集方法及机器可读存储介质

阅读:13发布:2021-09-19

专利汇可以提供化工事故新闻采集方法及机器可读存储介质专利检索,专利查询,专利分析的服务。并且本 发明 提供一种化工事故新闻采集方法及机器可读存储介质,属于化工事故调查与研究领域。所述化工事故新闻采集方法包括:根据预配置的关于化工事故的故障树,确定数据检索条件;发送检索 请求 至 搜索引擎 服务器 ,其中所述检索请求包括所述数据检索条件;从所述搜索引擎服务器接收响应于所述检索请求的事故新闻链接集合;从所述事故新闻链接集合中筛选出与所述故障树相匹配的目标事故新闻链接;以及根据所述目标事故新闻链接,采集并存储化工事故新闻。由此,能够自动化搜索获取事故新闻资源,并实现了对应于故障树的化工事故新闻的针对性采集。,下面是化工事故新闻采集方法及机器可读存储介质专利的具体信息内容。

1.一种化工事故新闻采集方法,包括:
根据预配置的关于化工事故的故障树,确定数据检索条件;
发送检索请求搜索引擎服务器,其中所述检索请求包括所述数据检索条件;
从所述搜索引擎服务器接收响应于所述检索请求的事故新闻链接集合;
从所述事故新闻链接集合中筛选出与所述故障树相匹配的目标事故新闻链接;以及根据所述目标事故新闻链接,采集并存储化工事故新闻。
2.根据权利要求1所述的方法,其特征在于,所述根据预配置的化工事故故障树确定数据检索条件包括:
求解所述故障树的最小割集,并基于所述最小割集确定关于故障树的扩展割集;
对所述扩展割集作分词处理,以得出相应的分词结果;以及
基于所述分词结果组合数据检索条件。
3.根据权利要求2所述的方法,其特征在于,所述对所述扩展割集作分词处理以得出相应的分词结果包括:
对所述扩展割集中的词汇进行词性分析;以及
从该词汇中提取出名词性成分,并根据该名词性成分生成所述分词结果。
4.根据权利要求1所述的方法,其特征在于,所述从所述事故新闻链接集合中筛选出与所述故障树相匹配的目标事故新闻链接包括:
确定所述故障树的扩展割集,并计算所述扩展割集所对应的第一特征向量
获取所述事故新闻链接集合中各个事故新闻链接所对应的化工事故新闻,并计算该化工事故新闻所对应的第二特征向量;
基于余弦相似度计算模型,计算所述第一特征向量与所述第二特征向量之间的语义距离;
从所述事故新闻链接集合中选取所计算的所述语义距离小于预定阈值的事故新闻链接作为所述目标事故新闻链接。
5.根据权利要求4所述的方法,其特征在于,所述从所述事故新闻链接集合中筛选出与所述故障树相匹配的目标事故新闻链接包括:
基于文档主题生成模型,提取出与所述故障树匹配的事故案例中的主题词汇;
基于所提取的所述主题词汇,建立主题词典;
基于所述主题词典,分别从所述扩展割集和所述化工事故新闻中对应提取第一词汇特征和第二词汇特征;以及
根据所述第一词汇特征和所述第二词汇特征,从所述事故新闻链接集合中筛选出所述目标事故新闻链接。
6.根据权利要求5所述的方法,其特征在于,所述第一特征向量和所述第二特征向量的计算步骤包括:
基于词向量计算模型,确定与所述第一词汇特征相对应的所述第一特征向量和与所述第二词汇特征相对应的所述第二特征向量,其中所述词向量计算模型是以预存储的事故案例为基础而被训练的。
7.根据权利要求6所述的方法,其特征在于,所述词向量计算模型包括word2vec模型。
8.根据权利要求1所述的方法,其特征在于,所述根据所述目标事故新闻链接采集并存储化工事故新闻包括:
根据所筛选出的所述目标事故新闻链接构建待抓取队列;
抓取并解析所述待抓取队列中的目标事故新闻链接所对应的化工事故新闻中的事故相关信息;
确定与所述事故相关信息相对应的在所述故障树中的事故节点
将所抓取的所述目标事故新闻链接所对应的所述化工事故新闻与所确定的所述故障树中的所述事故节点关联存储。
9.根据权利要求8所述的方法,其特征在于,在所述抓取并解析所述待抓取队列中的目标事故新闻链接所对应的化工事故新闻中的事故相关信息之后,该方法还包括:
记录经抓取的所述待抓取队列中的目标事故新闻链接,以避免重复抓取所述待抓取队列中的同一目标事故新闻链接。
10.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-9中任一项所述的化工事故新闻采集方法。

说明书全文

化工事故新闻采集方法及机器可读存储介质

技术领域

[0001] 本发明涉及化工事故调查与研究领域,具体地涉及一种化工事故新闻采集方法及机器可读存储介质。

背景技术

[0002] 危化品具有易燃、易爆、有毒、有害等危险因素,其事故具有易发性、突发性、连续性及扩散性、危害形式特殊、救援难度大、事故原因复杂、经济损失大、人员伤亡重、社会影响广泛等特点。
[0003] 获知化工事故、研究化工事故是吸取事故教训进而预防事故的基础,但目前国内对事故的获知非常不及时,还处于被动的状态,多以获取事故通报的形式对事故进行掌握了解。事故研究也主要以安全评价、现场环境检测报警为主,监控、管理及事故影响因素(经济、区域、天气等)相关数据未及时得到综合利用,缺乏分析事故历史信息大数据、未建立事故及其影响因素数据体系、未形成专业高效的事故信息集成系统,还依靠人工手动查询收集,尚不具备事故实时监测与梳理事故信息采集的有效手段。
[0004] 另外,由于网络爬虫系统的不精确性,以及没有针对性等特点,然而互联网却上充斥着各种信息,且这些信息并大多不是我们所需要的。例如,即使在搜索引擎(例如百度、谷歌等)上基于关键词搜索也会出现大量的无关信息,更没有对事故进行分类整理
[0005] 如何提供一种通用性的新闻采集的技术方案,使得石化安全管理人员可以有针对性地对化工事故类新闻进行增量式的采集,以增加新的事故新闻信息是目前业界亟待解决的技术难题。

发明内容

[0006] 本发明实施例的目的是提供一种化工事故新闻采集方法及机器可读存储介质,用以至少解决现有技术中无法实现事故新闻信息针对性采集的问题。
[0007] 为了实现上述目的,本发明实施例提供一种化工事故新闻采集方法,包括:根据预配置的关于化工事故的故障树,确定数据检索条件;发送检索请求至搜索引擎服务器,其中所述检索请求包括所述数据检索条件;从所述搜索引擎服务器接收响应于所述检索请求的事故新闻链接集合;从所述事故新闻链接集合中筛选出与所述故障树相匹配的目标事故新闻链接;以及根据所述目标事故新闻链接,采集并存储化工事故新闻。
[0008] 可选的,所述根据预配置的化工事故故障树确定数据检索条件包括:求解所述故障树的最小割集,并基于所述最小割集确定关于故障树的扩展割集;对所述扩展割集作分词处理,以得出相应的分词结果;以及基于所述分词结果组合数据检索条件。
[0009] 可选的,所述对所述扩展割集作分词处理以得出相应的分词结果包括:对所述扩展割集中的词汇进行词性分析;以及从该词汇中提取出名词性成分,并根据该名词性成分生成所述分词结果。
[0010] 可选的,所述从所述事故新闻链接集合中筛选出与所述故障树相匹配的目标事故新闻链接包括:确定所述故障树的扩展割集,并计算所述扩展割集所对应的第一特征向量;获取所述事故新闻链接集合中各个事故新闻链接所对应的化工事故新闻,并计算该化工事故新闻所对应的第二特征向量;基于余弦相似度计算模型,计算所述第一特征向量与所述第二特征向量之间的语义距离;从所述事故新闻链接集合中选取所计算的所述语义距离小于预定阈值的事故新闻链接作为所述目标事故新闻链接。
[0011] 可选的,所述从所述事故新闻链接集合中筛选出与所述故障树相匹配的目标事故新闻链接包括:基于文档主题生成模型,提取出与所述故障树匹配的事故案例中的主题词汇;基于所提取的所述主题词汇,建立主题词典;基于所述主题词典,分别从所述扩展割集和所述化工事故新闻中对应提取第一词汇特征和第二词汇特征;以及根据所述第一词汇特征和所述第二词汇特征,从所述事故新闻链接集合中筛选出所述目标事故新闻链接。
[0012] 可选的,所述第一特征向量和所述第二特征向量的计算步骤包括:基于词向量计算模型,确定与所述第一词汇特征相对应的所述第一特征向量和与所述第二词汇特征相对应的所述第二特征向量,其中所述词向量计算模型是以预存储的事故案例为基础而被训练的。
[0013] 可选的,所述词向量计算模型包括word2vec模型。
[0014] 可选的,所述根据所述目标事故新闻链接采集并存储化工事故新闻包括:根据所筛选出的所述目标事故新闻链接构建待抓取队列;抓取并解析所述待抓取队列中的目标事故新闻链接所对应的化工事故新闻中的事故相关信息;
[0015] 确定与所述事故相关信息相对应的在所述故障树中的事故节点;将所抓取的所述目标事故新闻链接所对应的所述化工事故新闻与所确定的所述故障树中的所述事故节点关联存储。
[0016] 可选的,在所述抓取并解析所述待抓取队列中的目标事故新闻链接所对应的化工事故新闻中的事故相关信息之后,该方法还包括:记录经抓取的所述待抓取队列中的目标事故新闻链接,以避免重复抓取所述待抓取队列中的同一目标事故新闻链接。
[0017] 另一方面,本发明提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请上述任一项化工事故新闻采集方法。
[0018] 通过上述技术方案,基于由故障树所确定的数据检索条件在搜索引擎中搜索确定事故新闻链接集合,能够自动化搜索获取事故新闻资源;另一方面,通过进一步过滤筛选出与故障树相匹配的目标事故新闻链接,并根据该目标事故新闻链接采集并存储化工事故新闻,使得所采集并存储的化工事故新闻紧密贴合于该故障树,实现了对应于故障树的化工事故新闻的针对性采集。
[0019] 本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明
[0020] 附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
[0021] 图1是本发明一实施例的化工事故新闻采集方法的流程图
[0022] 图2是本发明一实施例的化工事故新闻采集方法中数据检索条件的构建流程图;
[0023] 图3是本发明一实施例的化工事故新闻采集方法中确定目标事故新闻链接的流程图;
[0024] 图4是本发明一实施例的化工事故新闻采集方法中关联存储故障树和化工事故新闻的流程图;
[0025] 图5是本发明一实施例的化工事故新闻采集方法的原理示意图;
[0026] 图6是本发明一实施例的事故数据检索约束条件生成过程的原理示意图;
[0027] 图7是本发明一实施例的事故新闻信息的筛选过程的原理示意图;
[0028] 图8是面向危化品事故的实时数据监控系统用户界面截图;
[0029] 图9是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

[0030] 以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
[0031] 如图1所示,本发明一实施例的化工事故新闻采集方法,包括:
[0032] S11、根据预配置的关于化工事故的故障树,确定数据检索条件。
[0033] 本发明实施例的方法可以应用在各种终端设备上,其可以是通用的终端设备,例如手机或电脑;其也还可以是专用的终端设备,例如专用于实现化工事故采集功能的专业设备,且以上都属于本发明的保护范围内。以及,通过该终端设备可适用于企业及政府实时监测化学品事故,及时动态跟踪化学品事故新闻、自动采集化学品事故关键要素,便于开展事故调查与研究。
[0034] 其中,故障树是一种特殊的倒立树状逻辑因果关系图,它用事件符号、逻辑符号和转移符号描述系统中各种事件之间的因果关系。关于化工事故的故障树可以是由专家分析了各种类型的化学品事故所得到的故障树,并将其预先配置在设备中;另外,该故障树也可以是通用的故障树,并将其预先配置到设备中,在此对其应不加以限定。
[0035] 具体的,关于该数据检索条件的构建方式可以通过如图2所示的流程来实现:S111、求解故障树的最小割集,并基于该最小割集确定关于故障树的扩展割集,其中最小割集是引起顶上事件发生的基本事件的最低限度的集合,扩展割集是最小割集基本事件及各事件演化得到各阶段状态事件的集合。也就是说扩展割集是包含最小割集所包含的基本事件,及由各基本事件演化得到的各局部上层事件的集合。S112、对该扩展割集作分词处理,以得出相应的分词结果。S113、基于分词结果组合数据检索条件。示例性地,关于S112中的分词结果的生成方式,其具体可以是通过对扩展割集中的词汇进行词性分析,并从该词汇中提取出名词性成分,并根据该名词性成分生成分词结果。由此,自动生成对应于故障树的数据检索条件。
[0036] S12、发送检索请求至搜索引擎服务器,其中该检索请求包括数据检索条件。
[0037] 关于该搜索引擎服务器的类型在此应不加以限定,其可以是各种类型或服务商(例如百度、谷歌等)所运营的服务器,其能够响应于所输入的关键词反馈响应的搜索结果。
[0038] S13、从搜索引擎服务器接收响应于检索请求的事故新闻链接集合。
[0039] 其中,由于数据检索条件是基于故障树所确定的,因此当将其作为关键词输入至搜索引擎服务器时,从该搜索引擎服务器能够接收到其所反馈的事故新闻链接集合。但是,由于搜索引擎服务器的网络爬虫系统的不精确性,使得搜索引擎所反馈的该事故新闻链接集合中会出现大量的无关信息。
[0040] S14、从事故新闻链接集合中筛选出与该故障树相匹配的目标事故新闻链接。
[0041] 其中,通过在检索所命中的事故新闻链接集合中筛选出目标事故新闻链接,由此将无关信息从事故新闻链接集合中分离出去。具体的,目标事故新闻链接可以通过如图3所示的流程来确定的:S141、确定故障树的扩展割集,并计算扩展割集所对应的第一特征向量。S142、获取事故新闻链接集合中各个事故新闻链接所对应的化工事故新闻,并计算该化工事故新闻所对应的第二特征向量。关于特征向量的计算过程,其可以是通过以下方式来实现的:首先,基于文档主题生成模型,提取出与故障树匹配的事故案例中的主题词汇;然后,基于所提取的主题词汇,建立主题词典;之后,基于该主题词典分别从扩展割集和化工事故新闻中对应提取第一词汇特征和第二词汇特征,以及,基于词向量计算模型确定与第一词汇特征相对应的第一特征向量和与第二词汇特征相对应的第二特征向量,其中词向量计算模型是以预存储的事故案例为基础而被训练的,例如该词向量计算模型可以是word2vec模型等。S143、基于余弦相似度计算模型,计算第一特征向量与第二特征向量之间的语义距离。S144、从事故新闻链接集合中选取所计算的语义距离小于预定阈值的事故新闻链接作为目标事故新闻链接;其中,关于该预定阈值的大小可以是通过经验或专家知识所推定的,在此应不限定。由此,通过对故障树和事故新闻所对应的特征向量作语义距离分析,并通过阈值过滤,能保证所筛选出的事故新闻在语义相似度上最贴合于故障树,实现了仅存储与故障树扩展割集相关度高的事故新闻。
[0042] S15、根据目标事故新闻链接,采集并存储化工事故新闻。
[0043] 由此,可以将目标事故新闻链接所对应的网页中的化工事故新闻进行采集和存储,实现了针对性地采集关于故障树的化工事故新闻。
[0044] 优选的,在存储方式上,还可以是对化工事故新闻的存储方式进行优化,例如可以是通过如图4所示的流程来实现更优化的在故障树和化工事故新闻之间关联存储:S151、根据所筛选出的目标事故新闻链接构建待抓取队列;S152、抓取并解析待抓取队列中的目标事故新闻链接所对应的化工事故新闻中的事故相关信息;优选的,为了避免重复抓取待抓取队列中的同一目标事故新闻链接,可以是记录经抓取的待抓取队列中的目标事故新闻链接,例如可以是以逐一抓取的方式抓取链接,然后每抓取一次便相应地记录一次该已被抓取的目标事故新闻链接;S153、确定与事故相关信息相对应的在故障树中的事故节点;S154、将所抓取的目标事故新闻链接所对应的化工事故新闻与所确定的故障树中的事故节点关联存储。由此,将化工事故新闻与故障树节点建立数据关联。
[0045] 在本发明实施例中,使用由专家分析各种类型的化学品事故得到的故障树为切入点,以化学品事故故障树的扩展割集中的名称性词语为数据检索的约束条件,可以针对特定的事故案例进行有针对性的采集,解决了普通爬虫程序无法有针对性的对事故新闻进行采集不足。随着事故故障树的不断添加,以及时间的推移,爬虫系统会针对用户选中的故障树中的故障事件进行实时、增量式的爬取。另外,可以是基于神经网络设计了事故新闻筛选程序,将扩展割集以及事故新闻进行向量表示,并计算它们之间的语义距离,仅存储关联度较大的事故新闻,最大程度的做到对事故文本的精确筛选,解决了爬虫获取数据结果不准确的问题,实现了对化学品事故实时数据监控与危化品事故自动采集。
[0046] 在一些优选的实施方式中,在化工事故新闻采集设备中可以配置多个故障树,并且可以针对该多个故障树中的每一者都分别实施上述的化工事故新闻采集方法,由此实现了对不同故障树爬取的事故新闻区分存储与统计,可以大幅提高事故获取的准确率和效率,为深入事故调查和研究提供了数据支持。
[0047] 如图5所示,本发明实施例的化工事故新闻采集方法,其包括:步骤1:面向不同搜索引擎的数据请求格式设计数据请求器;步骤2:将扩展割集中的名词性词语进行筛选,并提交到数据请求器,等待服务器相应;步骤3:对服务器返回的数据进行分析,筛选出要抓取的事故新闻链接,加入到爬虫待抓取队列;步骤4:逐个抓取爬虫待抓取队列中的事故新闻链接,并解析页面信息;步骤5:将已抓取的事故链接进行存储,防止重复抓取;步骤6:将爬取的网页中的事故新闻相关信息解析出来,执行步骤6,筛选页面中的指定事故链接加入到待抓取队列,并执行步骤4;步骤7:将事故新闻信息存入事故新闻数据库,并与检索的事故节点以及节点所在故障树建立关联。
[0048] 如图6所示,本发明实施例中的事故数据检索约束条件生成过程,其中包括:步骤1:求解故障树的最小割集;步骤2:基于最小割集求解故障树的扩展割集;步骤3:对故障树扩展割集中的故障事件进行分词处理;步骤4:对扩展割集中的词汇进行词性分析,提取其中的名词性成分;步骤5:将提取的词汇组合成数据检索的输入条件。
[0049] 如图7所示,本发明实施例中的事故新闻信息的筛选过程,其中包括:步骤1:使用已整理好的所有事故案例,对word2vec向量表示模型进行训练,得到化学品事故类信息的向量空间;步骤2:基于LDA主题模型提取出已整理好的与故障树匹配的事故案例中的主题词汇,建立化学品事故领域的主题词典;步骤3:以步骤2中的主题词典为基础,对扩展割集以及爬虫获取的事故新闻进行分词处理,并保留长度大于1的词语,作为扩展割集与事故新闻所包含的特征;步骤4、使用步骤1训练的word2vec模型,分别对步骤3中提取的特征进行向量表示,求出分别对应的特征向量;步骤5、通过余弦相似度发方法,计算扩展割集与事故新闻特征向量间的语义距离;步骤6:根据预先设置好的语义距离值,仅存储小于阀值的事故新闻。如图8所示,通过本发明实施例,能够统计出不同种类的化工事故的发生情况,实现对诸如中毒、火灾、爆炸或泄漏等化工事故的实时数据监控。
[0050] 参见图9示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图,其中计算机系统包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中,还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
[0051] 以下部件连接至I/O接口905:包括键盘鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0052] 特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
[0053] 以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
[0054] 另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
[0055] 本发明实施例另一方面提供一种机器可读存储介质(未示出),该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请上述任一项化工事故新闻采集的方法。
[0056] 以及,本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0057] 此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明实施例所公开的内容。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈