首页 / 专利库 / 人工智能 / 词性标注 / 一种对工业事故记录文本进行挖掘的方法

一种对工业事故记录文本进行挖掘的方法

阅读:931发布:2020-05-17

专利汇可以提供一种对工业事故记录文本进行挖掘的方法专利检索,专利查询,专利分析的服务。并且本 发明 结合目前已有的自然语言 算法 与设计出一种高性能,高准确率的适合于工业事故事件分析的 文本挖掘 算法。使用了目前 自然语言处理 领域最先进的成果。该方法针对工业领域事故数据设计,能够充分发掘数据的潜在价值,同时节省大量的人 力 成本。,下面是一种对工业事故记录文本进行挖掘的方法专利的具体信息内容。

1.A.数据预处理:首先从四十万条数据中选取三千条进行人工标注以获得训练连数据集。首先需要对其进行数据清理,去掉其中的空字段与特殊字符。这样就得到了训练样本。
B.使用BERT-BiLSTM-CRF-NER训练命名实体识别模型:BERT的全称是(Bidirectional Encoder Representations from Transformers)是谷歌开源的一种新的预训练词向量的方法,它在各种下游的自然语言处理任务中都取得了目前最好的成绩。在本文中,我们结合使用谷歌开源的中文预训练BERT模型与双向的LSTM模型进行命名实体识别任务。从事故事件文本中提取出'事故类别','生产作业环节','生产作业环节子分类','生产阶段','工程技术服务(钻井作业)','人员疲劳','险屏障','原因因素','管理因素'等实体信息。
C.使用Stanfordcorenlp进行命名实体识别:Stanfordcorenlp是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech(POS)tagger)、命名实体识别(named entity recognizer(NER))、情感分析(sentiment analysis)等功能。
Stanfordcorenlp本身可对文本中的机构名称,设施名称与事故类别进行识别,这与本文的研究内容高度契合。并且,经过多次实验发现Stanfordcorenlp对现有事故事件记录中的事故类别的识别准确率达到了百分之八十以上。故在采用自训练的BERT-BiLSTM-CRF-NER命名实体是识别模型的同时,采用Stanfordcorenlp作为补充提高识别准确率。
D.结合使用SVM与LDA主题模型进行文本分类:SVM的中文名时称支持向量机。SVM对多维度,非线性的数据做分类或回归会比较高效率。高效率的意思是,用同样数据量得到更高准确率,或者用更少数据量得到同样准确率。但是SVM算法复杂,缺点是当数据量增加时,计算时间是指数增长的。如果使用计算资源,就不是问题了。LDA的中文名称是隐含狄利克雷分布。使用该算法可以找出文档所属主题,针对每个文档产生一个文档主题分布向量。首先利用LDA产生每个文档的主题分布向量,使用该向量来代表该文档的特征。然后使用这部分数据来训练SVM。
E.使用fasttext进行文本分类:fasttext是由facebook公司开源的一个文本分类器,fasttetx没有采用深度学习的架构,因此具有很高的训练速度。同时具有比拟深度学习文本分类的性能,即具有与深度学习相当的准确率与召回率。
F.集成学习综合结果:采用集成学习的思想,综合考虑SVM与fasttext的结果来得出最终分类结果。结合使用模糊逻辑与行业术语词典提取文本中所需的信息。将原始文本进行分词后,通过与专业字典进行模糊匹配进而得到分类信息。

说明书全文

一种对工业事故记录文本进行挖掘的方法

背景技术

[0001] 随着社会的发展与人民生活平的提高,安全问题已经引起了越来越多的重视。为了防止同类型事故的多次发生、科学的指导安全工作的进行并有针对性的加强薄弱环节的安全防护,对历史上发生过的事故事件进行分析就变得至关重要。事故事件的记录信息中隐藏着本行业事故事件发生的规律。对事故事件记录进行合理的挖掘可以洞悉工业事故的原因,有针对性的进行防治。进入二十世纪以来,各行各业已经积累了大量的事故事件记录。但这些数据大多是非结构化的文本数据,无法直接用来进行统计分析。而靠人工来对百万级别的数据进行标注的成本过于庞大并不切实际。幸运的是近年来自然语言处理技术迅猛发展,许多知名公司与高校都发布了许多高性能的自然语言处理算法。本发明结合目前已有的自然语言算法与设计出一种高性能,高准确率的适合于工业事故事件分析的文本挖掘算法。

发明内容

[0002] 本发明结合目前已有的自然语言算法与设计出一种高性能,高准确率的适合于工业事故事件分析的文本挖掘算法。使用了目前自然语言处理领域最先进的成果。该方法针对工业领域事故数据设计,能够充分发掘数据的潜在价值,同时节省大量的人成本。附图说明
[0003] 图1是本发明的工作流程图
[0004] 图2是本发明的程序运行图。

具体实施方式

[0005] 我们使用了目前最先进自然语处理技术对四十万条石油行业的事故事件数据进行了深度分析挖掘。原始数据以excel表格的形式存储,并存在大量的空字段。
[0006] A.数据预处理:首先从四十万条数据中选取三千条进行人工标注以获得训练连数据集。首先需要对其进行数据清理,去掉其中的空字段与特殊字符。
[0007] 这样就得到了训练样本。
[0008] B.使用BERT-BiLSTM-CRF-NER训练命名实体识别模型:BERT的全称是(Bidirectional Encoder Representations from Transformers)是谷歌开源的一种新的预训练词向量的方法,它在各种下游的自然语言处理任务中都取得了目前最好的成绩。在本文中,我们结合使用谷歌开源的中文预训练BERT模型与双向的LSTM模型进行命名实体识别任务。从事故事件文本中提取出'事故类别','生产作业环节','生产作业环节子分类','生产阶段','工程技术服务(钻井作业)','人员疲劳','险屏障','原因因素','管理因素'等实体信息。
[0009] C.使用Stanfordcorenlp进行命名实体识别:Stanfordcorenlp是由斯坦福大学开源的一套JavaNLP工具,提供诸如:词性标注(part-of-speech(POS)tagger)、命名实体识别(named entityrecognizer(NER))、情感分析(sentiment analysis)等功能。Stanfordcorenlp本身可对文本中的机构名称,设施名称与事故类别进行识别,这与本文的研究内容高度契合。并且,经过多次实验发现Stanfordcorenlp对现有事故事件记录中的事故类别的识别准确率达到了百分之八十以上。故在采用自训练的BERT-BiLSTM-CRF-NER命名实体是识别模型的同时,采用Stanfordcorenlp作为补充提高识别准确率。
[0010] D.结合使用SVM与LDA主题模型进行文本分类:SVM的中文名时称支持向量机。SVM对多维度,非线性的数据做分类或回归会比较高效率。高效率的意思是,用同样数据量得到更高准确率,或者用更少数据量得到同样准确率。但是SVM算法复杂,缺点是当数据量增加时,计算时间是指数增长的。如果使用计算资源,就不是问题了。LDA的中文名称是隐含狄利克雷分布。使用该算法可以找出文档所属主题,针对每个文档产生一个文档主题分布向量。首先利用LDA产生每个文档的主题分布向量,使用该向量来代表该文档的特征。然后使用这部分数据来训练SVM。
[0011] E.使用fasttext进行文本分类:fasttext是由facebook公司开源的一个文本分类器,fasttetx没有采用深度学习的架构,因此具有很高的训练速度。同时具有比拟深度学习文本分类的性能,即具有与深度学习相当的准确率与召回率。
[0012] F.集成学习综合结果:采用集成学习的思想,综合考虑SVM与fasttext的结果来得出最终分类结果。结合使用模糊逻辑与行业术语词典提取文本中所需的信息。将原始文本进行分词后,通过与专业字典进行模糊匹配进而得到分类信息。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈