一种对工业事故记录文本进行挖掘的方法专利检索-词性标注人工智能专利检索查询-专利查询网

一种对工业事故记录文本进行挖掘的方法

阅读：931发布：2020-05-17

专利汇可以提供一种对工业事故记录文本进行挖掘的方法专利检索，专利查询，专利分析的服务。并且本发明结合目前已有的自然语言算法与设计出一种高性能，高准确率的适合于工业事故事件分析的文本挖掘算法。使用了目前自然语言处理领域最先进的成果。该方法针对工业领域事故数据设计，能够充分发掘数据的潜在价值，同时节省大量的人力成本。，下面是一种对工业事故记录文本进行挖掘的方法专利的具体信息内容。

权利要求

1.A.数据预处理：首先从四十万条数据中选取三千条进行人工标注以获得训练连数据集。首先需要对其进行数据清理，去掉其中的空字段与特殊字符。这样就得到了训练样本。
B.使用BERT-BiLSTM-CRF-NER训练命名实体识别模型：BERT的全称是(Bidirectional Encoder Representations from Transformers)是谷歌开源的一种新的预训练词向量的方法，它在各种下游的自然语言处理任务中都取得了目前最好的成绩。在本文中，我们结合使用谷歌开源的中文预训练BERT模型与双向的LSTM模型进行命名实体识别任务。从事故事件文本中提取出'事故类别','生产作业环节','生产作业环节子分类','生产阶段','工程技术服务(钻井作业)','人员疲劳'，'风险屏障','原因因素','管理因素'等实体信息。
C.使用Stanfordcorenlp进行命名实体识别：Stanfordcorenlp是由斯坦福大学开源的一套Java NLP工具，提供诸如：词性标注(part-of-speech(POS)tagger)、命名实体识别(named entity recognizer(NER))、情感分析(sentiment analysis)等功能。
Stanfordcorenlp本身可对文本中的机构名称，设施名称与事故类别进行识别，这与本文的研究内容高度契合。并且，经过多次实验发现Stanfordcorenlp对现有事故事件记录中的事故类别的识别准确率达到了百分之八十以上。故在采用自训练的BERT-BiLSTM-CRF-NER命名实体是识别模型的同时，采用Stanfordcorenlp作为补充提高识别准确率。
D.结合使用SVM与LDA主题模型进行文本分类：SVM的中文名时称支持向量机。SVM对多维度，非线性的数据做分类或回归会比较高效率。高效率的意思是，用同样数据量得到更高准确率，或者用更少数据量得到同样准确率。但是SVM 算法复杂，缺点是当数据量增加时，计算时间是指数增长的。如果使用云计算资源，就不是问题了。LDA的中文名称是隐含狄利克雷分布。使用该算法可以找出文档所属主题，针对每个文档产生一个文档主题分布向量。首先利用LDA产生每个文档的主题分布向量，使用该向量来代表该文档的特征。然后使用这部分数据来训练SVM。
E.使用fasttext进行文本分类：fasttext是由facebook公司开源的一个文本分类器，fasttetx没有采用深度学习的架构，因此具有很高的训练速度。同时具有比拟深度学习文本分类的性能，即具有与深度学习相当的准确率与召回率。
F.集成学习综合结果：采用集成学习的思想，综合考虑SVM与fasttext的结果来得出最终分类结果。结合使用模糊逻辑与行业术语词典提取文本中所需的信息。将原始文本进行分词后，通过与专业字典进行模糊匹配进而得到分类信息。

说明书全文

一种对工业事故记录文本进行挖掘的方法

背景技术

[0001] 随着社会的发展与人民生活水平的提高，安全问题已经引起了越来越多的重视。为了防止同类型事故的多次发生、科学的指导安全工作的进行并有针对性的加强薄弱环节的安全防护，对历史上发生过的事故事件进行分析就变得至关重要。事故事件的记录信息中隐藏着本行业事故事件发生的规律。对事故事件记录进行合理的挖掘可以洞悉工业事故的原因，有针对性的进行防治。进入二十世纪以来，各行各业已经积累了大量的事故事件记录。但这些数据大多是非结构化的文本数据，无法直接用来进行统计分析。而靠人工来对百万级别的数据进行标注的成本过于庞大并不切实际。幸运的是近年来自然语言处理技术迅猛发展，许多知名公司与高校都发布了许多高性能的自然语言处理算法。本发明结合目前已有的自然语言算法与设计出一种高性能，高准确率的适合于工业事故事件分析的文本挖掘算法。

发明内容

[0002] 本发明结合目前已有的自然语言算法与设计出一种高性能，高准确率的适合于工业事故事件分析的文本挖掘算法。使用了目前自然语言处理领域最先进的成果。该方法针对工业领域事故数据设计，能够充分发掘数据的潜在价值，同时节省大量的人力成本。附图说明

[0003] 图1是本发明的工作流程图。

[0004] 图2是本发明的程序运行图。

具体实施方式

[0005] 我们使用了目前最先进自然语处理技术对四十万条石油行业的事故事件数据进行了深度分析挖掘。原始数据以excel表格的形式存储，并存在大量的空字段。

[0006] A.数据预处理：首先从四十万条数据中选取三千条进行人工标注以获得训练连数据集。首先需要对其进行数据清理，去掉其中的空字段与特殊字符。

[0007] 这样就得到了训练样本。

[0008] B.使用BERT-BiLSTM-CRF-NER训练命名实体识别模型：BERT的全称是(Bidirectional Encoder Representations from Transformers)是谷歌开源的一种新的预训练词向量的方法，它在各种下游的自然语言处理任务中都取得了目前最好的成绩。在本文中，我们结合使用谷歌开源的中文预训练BERT模型与双向的LSTM模型进行命名实体识别任务。从事故事件文本中提取出'事故类别','生产作业环节','生产作业环节子分类','生产阶段','工程技术服务(钻井作业)','人员疲劳'，'风险屏障','原因因素','管理因素'等实体信息。

[0009] C.使用Stanfordcorenlp进行命名实体识别：Stanfordcorenlp是由斯坦福大学开源的一套JavaNLP工具，提供诸如：词性标注(part-of-speech(POS)tagger)、命名实体识别(named entityrecognizer(NER))、情感分析(sentiment analysis)等功能。Stanfordcorenlp本身可对文本中的机构名称，设施名称与事故类别进行识别，这与本文的研究内容高度契合。并且，经过多次实验发现Stanfordcorenlp对现有事故事件记录中的事故类别的识别准确率达到了百分之八十以上。故在采用自训练的BERT-BiLSTM-CRF-NER命名实体是识别模型的同时，采用Stanfordcorenlp作为补充提高识别准确率。

[0010] D.结合使用SVM与LDA主题模型进行文本分类：SVM的中文名时称支持向量机。SVM对多维度，非线性的数据做分类或回归会比较高效率。高效率的意思是，用同样数据量得到更高准确率，或者用更少数据量得到同样准确率。但是SVM算法复杂，缺点是当数据量增加时，计算时间是指数增长的。如果使用云计算资源，就不是问题了。LDA的中文名称是隐含狄利克雷分布。使用该算法可以找出文档所属主题，针对每个文档产生一个文档主题分布向量。首先利用LDA产生每个文档的主题分布向量，使用该向量来代表该文档的特征。然后使用这部分数据来训练SVM。

[0011] E.使用fasttext进行文本分类：fasttext是由facebook公司开源的一个文本分类器，fasttetx没有采用深度学习的架构，因此具有很高的训练速度。同时具有比拟深度学习文本分类的性能，即具有与深度学习相当的准确率与召回率。

[0012] F.集成学习综合结果：采用集成学习的思想，综合考虑SVM与fasttext的结果来得出最终分类结果。结合使用模糊逻辑与行业术语词典提取文本中所需的信息。将原始文本进行分词后，通过与专业字典进行模糊匹配进而得到分类信息。

标题	发布/更新时间	阅读量
一种听写报读进度的控制方法及电子设备	2020-05-11	454
基于XML的领域要素提取配置语言系统	2020-05-08	55
用于增强已标注样本的方法和设备	2020-05-11	934
一种基于边缘信息和语义信息的句子相似度计算方法	2020-05-12	742
一种电商产品竞争分析方法及系统	2020-05-14	221
关键词提取方法、装置及存储介质	2020-05-08	775
一种视频文本摘要生成方法及装置	2020-05-08	687
一种基于Bi-LSTM网络的无监督属性的抽取方法	2020-05-11	47
关键词提取方法、关键词提取装置及电子设备	2020-05-08	185
一种使用重叠拆分规则的文本序列标注算法	2020-05-14	365

一种对工业事故记录文本进行挖掘的方法

一种对工业事故记录文本进行挖掘的方法

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：