专利汇可以提供一种对工业事故记录文本进行挖掘的方法专利检索,专利查询,专利分析的服务。并且本 发明 结合目前已有的自然语言 算法 与设计出一种高性能,高准确率的适合于工业事故事件分析的 文本挖掘 算法。使用了目前 自然语言处理 领域最先进的成果。该方法针对工业领域事故数据设计,能够充分发掘数据的潜在价值,同时节省大量的人 力 成本。,下面是一种对工业事故记录文本进行挖掘的方法专利的具体信息内容。
1.A.数据预处理:首先从四十万条数据中选取三千条进行人工标注以获得训练连数据集。首先需要对其进行数据清理,去掉其中的空字段与特殊字符。这样就得到了训练样本。
B.使用BERT-BiLSTM-CRF-NER训练命名实体识别模型:BERT的全称是(Bidirectional Encoder Representations from Transformers)是谷歌开源的一种新的预训练词向量的方法,它在各种下游的自然语言处理任务中都取得了目前最好的成绩。在本文中,我们结合使用谷歌开源的中文预训练BERT模型与双向的LSTM模型进行命名实体识别任务。从事故事件文本中提取出'事故类别','生产作业环节','生产作业环节子分类','生产阶段','工程技术服务(钻井作业)','人员疲劳','风险屏障','原因因素','管理因素'等实体信息。
C.使用Stanfordcorenlp进行命名实体识别:Stanfordcorenlp是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech(POS)tagger)、命名实体识别(named entity recognizer(NER))、情感分析(sentiment analysis)等功能。
Stanfordcorenlp本身可对文本中的机构名称,设施名称与事故类别进行识别,这与本文的研究内容高度契合。并且,经过多次实验发现Stanfordcorenlp对现有事故事件记录中的事故类别的识别准确率达到了百分之八十以上。故在采用自训练的BERT-BiLSTM-CRF-NER命名实体是识别模型的同时,采用Stanfordcorenlp作为补充提高识别准确率。
D.结合使用SVM与LDA主题模型进行文本分类:SVM的中文名时称支持向量机。SVM对多维度,非线性的数据做分类或回归会比较高效率。高效率的意思是,用同样数据量得到更高准确率,或者用更少数据量得到同样准确率。但是SVM算法复杂,缺点是当数据量增加时,计算时间是指数增长的。如果使用云计算资源,就不是问题了。LDA的中文名称是隐含狄利克雷分布。使用该算法可以找出文档所属主题,针对每个文档产生一个文档主题分布向量。首先利用LDA产生每个文档的主题分布向量,使用该向量来代表该文档的特征。然后使用这部分数据来训练SVM。
E.使用fasttext进行文本分类:fasttext是由facebook公司开源的一个文本分类器,fasttetx没有采用深度学习的架构,因此具有很高的训练速度。同时具有比拟深度学习文本分类的性能,即具有与深度学习相当的准确率与召回率。
F.集成学习综合结果:采用集成学习的思想,综合考虑SVM与fasttext的结果来得出最终分类结果。结合使用模糊逻辑与行业术语词典提取文本中所需的信息。将原始文本进行分词后,通过与专业字典进行模糊匹配进而得到分类信息。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种听写报读进度的控制方法及电子设备 | 2020-05-11 | 454 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
用于增强已标注样本的方法和设备 | 2020-05-11 | 934 |
一种基于边缘信息和语义信息的句子相似度计算方法 | 2020-05-12 | 742 |
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
关键词提取方法、装置及存储介质 | 2020-05-08 | 775 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
一种基于Bi-LSTM网络的无监督属性的抽取方法 | 2020-05-11 | 47 |
关键词提取方法、关键词提取装置及电子设备 | 2020-05-08 | 185 |
一种使用重叠拆分规则的文本序列标注算法 | 2020-05-14 | 365 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。