首页 / 专利库 / 人工智能 / 词性标注 / 一种针对电力巡检文本的错误识别方法

一种针对电巡检文本的错误识别方法

阅读:765发布:2020-05-11

专利汇可以提供一种针对电巡检文本的错误识别方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种针对电 力 巡检文本的错误识别方法。本发明首先利用 自然语言处理 技术, 抽取 与电力设备 健康状态 相关的关键信息。其次通过神经网络语言模型,结合实际巡检文本特点加入筛选规则,将关键信息的表述整合为规范化表述,并寻找各个关键信息之间的联系。然后,以关键信息树的形式对所有关键信息及其联系进行表示,并将新录入的电力巡检文本映射为已构建的关键信息树中的对应结点。最后,总结新录入的电力巡检文本可能存在的错误类型,针对巡检文本在关键信息树中的映射结果制定搜索策略,以识别电力巡检文本中存在的错误。本发明具有良好的可解释性,且能有效避免数据偏斜的影响,在电力巡检文本的错误识别上具有可行性和有效性。,下面是一种针对电巡检文本的错误识别方法专利的具体信息内容。

1.一种针对电巡检文本的错误识别方法,其特征在于该方法包括以下步骤:
步骤1:利用自然语言处理技术,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,并对关键信息进行归类,具体是:
(1)利用条件随机场模型,并加入电力词典进行辅助,对现有语料库中的所有巡检文本进行词切分,将每一条巡检文本的各个词进行分隔;
(2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的词性进行标注;
(3)在词性标注基础上,抽取出具有名词、动词、形容词、副词和量词词性的词,并将具有名词词性的词归为设备与部件信息,将具有动词词性的词归为现象与状态信息,将具有形容词和副词词性的词归为定性描述信息,将具有量词词性的词归为定量描述信息;
(4)对照国家电网公司输变电设备缺陷用语规范,将代表设备与部件信息的词进一步划分为代表设备信息的词和代表部件信息的词;
最终将巡检文本语料库中提取出来的关键信息划分为五类,即设备、部件、现象与状态、定性描述、定量描述;
步骤2:基于神经网络模型,并结合实际的电力巡检文本特点加入筛选规则,对经过归类的关键信息进行整合,具体是:
(1)利用深度学习领域的神经网络语言模型,将步骤1中切分出的每个词作为神经网络语言模型的标签,该词在巡检文本中的相邻两个词作为神经网络语言模型的输入,通过神经网络语言模型的输出和标签的比对,对神经网络语言模型进行调整和迭代训练,最终利用神经网络语言模型将语料库中所有巡检文本包含的词转化为200维的词向量;
(2)计算各个词对应的词向量之间的欧式距离,从而刻画出所有词两两之间的语义相似度,经过参数寻优,将欧式距离小于6的词向量所对应的词进行两两合并,形成多个词对;
(3)在每个词对中,检查词对的两个词的词性是否一致,若不一致则将词对删去;
(4)在剩余的词对中,检查词对的两个词是否有在语料库的同一条巡检文本中共现,若是则将词对删去;
(5)将所有含有相同词的词对合并为一个词集合,从而将表述不同但含义相同的信息整合在同一个词集合中,最终形成若干个词集合,并在每个词集合中任意取一个词作为该词集合中其他词的规范化表述;
步骤3:利用机器学习方法,寻找所有关键信息两两之间的联系,具体是:
(1)确定各类关键信息联系的形式,信息的联系通过结点的上下级关系体现,规定:1)设备类信息为部件类信息的上级;2)部件类信息之间存在上下级关系;3)部件类信息为现象与状态类信息的上级;4)现象与状态类信息为定性描述类信息的上级;5)现象与状态类信息为定量描述类信息的上级;
(2)对步骤1中提取出的所有关键信息之间的联系进行两两判别;除了对于两个均属于部件类的关键信息需要判别其是否存在联系和上下级关系以外,对于其他满足上述1)3)4)
5)类型的两个关键信息,由于其上下级关系已确定,只要判别其是否存在联系即可;
步骤4:基于关键信息两两之间的联系,构建关键信息树,具体是:
(1)从一个根结点出发,将所有设备类信息作为该根结点的子结点;
(2)按照步骤3中设备类信息和部件类信息的联系判别结果,对于每一个设备类信息,将与其存在联系的所有部件类信息作为其子结点;
(3)按照步骤3中部件类信息之间的联系判别结果,将存在联系的部件类信息按照上下级关系进行连结,其中下级信息作为上级信息的子结点;
(4)按照步骤3中部件类信息和现象与状态类信息的联系判别结果,对于每一个部件类信息,将与其存在联系的所有现象与状态类信息作为其子结点;
(5)按照步骤3中现象与状态类信息和定性描述类信息、定量描述类信息的联系判别结果,对于每一个现象与状态类信息,将与其存在联系的所有定性描述类信息、定量描述类信息作为其子结点;
步骤5:对新录入的电力巡检文本进行处理,并将每一条巡检文本映射到已构建的关键信息树中,具体是:
(1)利用条件随机场模型并借助电力词典,对新录入巡检文本进行词切分;
(2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的进行词性标注;
(3)基于词性标注的结果,抽取出每一条巡检文本的关键信息;
(4)对于每一条巡检文本,查找其每个关键信息是否在步骤2最后产生的若干个词集合之中出现,若有关键信息出现在某个词集合中,则将该关键信息替换为该词集合的规范化表述;
(5)对于规范化后的每一条巡检文本,在步骤4构建的关键信息树中,标注与巡检文本包含的所有关键信息对应的结点,从而将巡检文本映射为关键信息树中的若干个结点;
步骤6:通过分析电力巡检文本的记录方式和内容,总结实际工作中新录入的电力巡检文本可能存在的错误类型,电力巡检文本可能存在以下错误类型:
(1)设备信息有误,包括: 设备信息缺失;设备信息过多;
(2)部件信息有误,包括: 部件信息缺失;部件信息有歧义; 部件信息矛盾; 部件信息与设备信息不对应;
(3)现象与状态信息有误,包括: 现象与状态信息缺失;现象或状态信息与部件信息不对应;
(4)定性描述信息有误;
(5)定量描述信息有误;
步骤7:根据步骤5中电力巡检文本映射到关键信息树的对应结点,利用基于树的搜索方法,实现对电力巡检文本中存在的错误的识别,具体是:
(1)从关键信息树的根结点出发,采用广度优先搜索算法,搜索根结点的所有子结点,即所有设备类结点;如果设备类结点中,被标记的结点为0个,则输出设备信息缺失;如果设备类结点中,被标记的结点数大于等于2个,则输出设备信息过多;如果设备类结点中,被标记的结点为1个,则继续进行第(2)步检查;
(2)从每个设备类结点出发,采用广度优先搜索算法,遍历所有部件类结点;如果所有部件类结点中,被标记的结点为0个,则输出部件信息缺失;否则,继续进行第(3)步检查;
(3)令集合A为空集,再将所有被标记的部件类结点表示的部件信息加入到集合A中;然后从被标记的设备类结点出发,采用深度优先搜索算法,搜索从被标记设备类结点到各个最下级部件类结点的所有路径,并统计每条路径包含的被标记部件类结点的部件信息;
设一共搜索到p条路径,每条路径包含的被标记部件类结点的部件信息形成一个集合,则一共得到p个集合;如果p个集合均为空集,则输出部件信息与设备信息不对应;如果p个集合不全为空集,且没有集合与集合A相等,则输出部件信息矛盾;如果p个集合中有且仅有
1个集合与集合A相等,则继续进行第(4)步检查;如果p个集合中有大于等于2个集合与集合A相等,则输出部件信息有歧义;
(4)从每个部件类结点出发,采用广度优先搜索算法,遍历所有现象与状态类结点;如果所有现象与状态类结点中,被标记的结点为0个,则输出现象与状态信息缺失;否则,继续进行第(5)步检查;
(5)令集合B为空集,再将所有被标记的现象与状态类结点表示的现象与状态信息加入到集合B中;同时,通过第(3)步的检查,确保最下级部件类结点中只有唯一的一个结点被标记,此结点的所有子结点表示的现象与状态信息组成集合C;如果B⊆C,则继续进行第(6)步检查;否则输出现象或状态信息与部件信息不对应;
(6)从每个现象与状态类结点出发,采用广度优先搜索算法,遍历所有定性描述类结点;如果所有定性描述类结点中,被标记的结点为0个,则直接进行第(8)步检查;否则,继续进行第(7)步检查;
(7)令集合D为空集,再将所有被标记的定性描述类结点表示的定性描述信息加入到集合D中;同时,从被标记的最下级部件类结点出发,采用广度优先搜索算法,搜索所有被标记的现象与状态类结点,再从这些被标记的现象与状态类结点出发,采用广度优先搜索算法,遍历所有定性描述类结点,所有定性描述类结点表示的定性描述信息组成集合E;如果D⊆E,则继续进行第(8)步检查;否则输出定性描述信息有误;
(8)从每个现象与状态类结点出发,采用广度优先搜索算法,遍历所有定量描述类结点;如果所有定量描述类结点中,被标记的结点为0个,则输出“巡检文本正确”的提示;否则,继续进行第(9)步检查;
(9)令集合F为空集,再将所有被标记的定量描述类结点表示的定量描述信息加入到集合F中;同时,从被标记的最下级部件类结点出发,采用广度优先搜索算法,搜索所有被标记的现象与状态类结点,再从这些被标记的现象与状态类结点出发,采用广度优先搜索算法,遍历所有定量描述类结点,所有定量描述类结点表示的定量描述信息组成集合G;如果F⊆G,则输出“巡检文本正确”的提示;否则输出定量描述信息有误。
2.根据权利要求1所述的一种针对电力巡检文本的错误识别方法,其特征在于:步骤3中关键信息之间的联系判别时采用基于机器学习的支持向量机模型,支持向量机模型的训练集取自国家电网公司输变电设备缺陷用语规范,对于待判别联系的两个关键信息,其输入支持向量机模型的特征选为两个关键信息在电力巡检文本中的相对位置,以及两者之间间隔词的词性和数量。

说明书全文

一种针对电巡检文本的错误识别方法

技术领域

[0001] 本发明属于电力系统领域,具体地说是一种针对电力巡检文本的错误识别方法。

背景技术

[0002] 在电力系统的日常巡检过程中,需要记录大量关于电力设备状态的文本。这些巡检文本作为第一手资料,其包含的信息直接关系到电力设备健康状态评估与检修决策的准确性。然而,由于巡检人员的知识和经验局限,时常会在记录巡检文本时出现人为错误,如信息遗漏、前后信息矛盾等问题,从而影响了后续的电力设备状态评价等一系列工作。
[0003] 手持移动智能终端设备在电力巡检文本录入过程的应用,为这一问题的解决提供了硬件条件。如果在终端设备中加入识别录入巡检文本中存在的错误的功能,在现场录入信息有错误时给出提示,就可以从源头上保证巡检文本的质量
[0004] 对于电力文本的错误识别问题,各种相关研究提出了不同的识别方法。一些研究采用文本数据中的冗余信息进行双重验证,以检测电力文本的信息矛盾现象。一些研究进一步地提出了结合领域知识、冗余信息和数据统计的方法,进行错误信息的识别。此外,一些研究采用基于机器学习的分类模型,从电力文本语料库中学习相应的规律,再用于新文本的正误分类,以实现电力文本的错误识别。
[0005] 然而,具体针对电力巡检文本时,由于巡检文本的信息量有限,绝大多数文本不会包含冗余信息,故难以利用单条文本信息的冗余进行错误识别;而数据统计和机器学习是基于数据驱动的方法,可解释性较差,难以直观地反映巡检文本中包含的各个关键信息之间的联系,且错误识别的效果容易受到数据特征(如数据偏斜度)的影响。因此,上述研究方法的可行性和准确性不尽如人意。

发明内容

[0006] 本发明所要解决的技术问题是针对电力巡检文本中存在的错误,提出一种在巡检文本录入过程中进行错误识别的方法。
[0007] 本发明的主要技术构思:
[0008] 首先,利用自然语言处理技术,包括词切分、词性标注等,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,包括文本中所记录的电力设备和部件,部件的现象与状态以及对应的定性与定量描述等。再根据词性标注结果,结合国家电网公司输变电设备缺陷用语规范(以下简称“用语规范”)将关键信息归类,即分为设备、部件、现象与状态、定性描述、定量描述5类。
[0009] 其次,借助于神经网络方法,并结合实际的电力巡检文本特点加入相关规则,对经过归类的关键信息进行整合,将表述不同、含义相同的信息整合为同一个规范化的表述。再利用机器学习方法,寻找各个关键信息之间的联系,并将所有关键信息及其联系整理为关键信息树,该关键信息树包含了所有在正确巡检文本语料库中出现的关键信息。
[0010] 然后,对新录入的电力巡检文本进行处理,包括词切分、词性标注、关键信息抽取、关键信息整合等,再将每一条巡检文本映射到已构建的关键信息树中。
[0011] 最后,通过分析电力巡检文本的记录方式和内容,总结实际工作中新录入的电力巡检文本可能存在的错误类型,例如:关键信息缺失、信息歧义、信息前后矛盾等。再利用基于树的搜索方法,对照电力巡检文本可能存在的错误类型,针对巡检文本在关键信息树中的映射结果制定搜索策略,以识别出巡检文本中存在的具体错误。
[0012] 本发明采用以下具体步骤:
[0013] 步骤1:利用自然语言处理技术,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,并对关键信息进行归类。具体方法为:
[0014] (1)利用条件随机场(Conditional Random Field,CRF)模型,并加入电力词典进行辅助,对现有语料库中的所有巡检文本进行词切分,将每一条巡检文本的各个词进行分隔;
[0015] (2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的词性进行标注;
[0016] (3)在词性标注的基础上,抽取出具有名词、动词、形容词、副词和量词词性的词,并将具有名词词性的词归为设备与部件信息,将具有动词词性的词归为现象与状态信息,将具有形容词和副词词性的词归为定性描述信息,将具有量词词性的词归为定量描述信息;
[0017] (4)对照用语规范,将代表设备与部件信息的词进一步划分为代表设备信息的词和代表部件信息的词。
[0018] 最终将巡检文本语料库中提取出来的关键信息划分为5类,即设备、部件、现象与状态、定性描述、定量描述。
[0019] 步骤2:基于神经网络模型,并结合实际的电力巡检文本特点加入筛选规则,对经过归类的关键信息进行整合。具体方法为:
[0020] (1)利用深度学习领域的神经网络语言模型(Neural Network Language Model,NNLM),将步骤1中切分出的每个词作为NNLM的标签,该词在巡检文本中的相邻两个词作为NNLM的输入,从而通过NNLM的输出和标签的比对,对NNLM进行调整和迭代训练,最终利用NNLM将语料库中所有巡检文本包含的词转化为200维的词向量;
[0021] (2)计算各个词对应的词向量之间的欧式距离,从而刻画出所有词两两之间的语义相似度。两个200维词向量v1、v2之间的欧式距离为:
[0022]
[0023] 其中,v1i、v2i分别代表词向量v1、v2的第i个元素(i=1,2,…,200),经过参数寻优,将欧式距离小于6的词向量所对应的词进行两两合并,形成多个词对;
[0024] (3)在每个词对中,检查词对的两个词的词性是否一致,若不一致则将词对删去;
[0025] (4)在剩余的词对中,检查词对的两个词是否有在语料库的同一条巡检文本中共现,若是则将词对删去;
[0026] (5)将所有含有相同词的词对合并为一个词集合,从而将表述不同但含义相同的信息整合在同一个词集合中,最终形成若干个词集合,并在每个词集合中任意取一个词作为该词集合中其他词的规范化表述。
[0027] 步骤3:利用机器学习方法,寻找所有关键信息两两之间的联系。
[0028] 首先确定各类关键信息联系的形式。由于在树结构中,信息的联系通过结点的上下级关系体现,因此需要规定电力巡检文本包含的5类关键信息的上下级关系。根据电力领域知识,规定:1)设备类信息为部件类信息的上级;2)部件类信息之间存在上下级关系;3)部件类信息为现象与状态类信息的上级;4)现象与状态类信息为定性描述类信息的上级;5)现象与状态类信息为定量描述类信息的上级。
[0029] 然后,对步骤1中提取出的所有关键信息之间的联系进行两两判别。除了对于两个均属于部件类的关键信息需要判别其是否存在联系和上下级关系以外,对于其他满足上述1)3)4)5)类型的两个关键信息,由于其上下级关系已确定,只要判别其是否存在联系即可。
判别时采用基于机器学习的支持向量机(Support Vector Machine,SVM)模型,SVM模型的训练集取自用语规范,对于待判别联系的两个关键信息,其输入SVM模型的特征选为两个关键信息在电力巡检文本中的相对位置,以及两者之间间隔词的词性和数量。
[0030] 步骤4:基于关键信息两两之间的联系,构建关键信息树。具体方法为:
[0031] (1)从一个根结点出发,将所有设备类信息作为该根结点的子结点;
[0032] (2)按照步骤3中设备类信息和部件类信息的联系判别结果,对于每一个设备类信息,将与其存在联系的所有部件类信息作为其子结点;
[0033] (3)按照步骤3中部件类信息之间的联系判别结果,将存在联系的部件类信息按照上下级关系进行连结,其中下级信息作为上级信息的子结点;
[0034] (4)按照步骤3中部件类信息和现象与状态类信息的联系判别结果,对于每一个部件类信息,将与其存在联系的所有现象与状态类信息作为其子结点;
[0035] (5)按照步骤3中现象与状态类信息和定性描述类信息、定量描述类信息的联系判别结果,对于每一个现象与状态类信息,将与其存在联系的所有定性描述类信息、定量描述类信息作为其子结点。
[0036] 步骤5:对新录入的电力巡检文本进行处理,并将每一条巡检文本映射到已构建的关键信息树中。具体方法为:
[0037] (1)利用CRF模型并借助电力词典,对新录入巡检文本进行词切分;
[0038] (2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的进行词性标注;
[0039] (3)基于词性标注的结果,抽取出每一条巡检文本的关键信息;
[0040] (4)对于每一条巡检文本,查找其每个关键信息是否在步骤2最后产生的若干个词集合之中出现,若有关键信息出现在某个词集合中,则将该关键信息替换为该词集合的规范化表述;
[0041] (5)对于规范化后的每一条巡检文本,在步骤4构建的关键信息树中,标注与巡检文本包含的所有关键信息对应的结点,从而将巡检文本映射为关键信息树中的若干个结点。
[0042] 步骤6:通过分析电力巡检文本的记录方式和内容,总结实际工作中新录入的电力巡检文本可能存在的错误类型。经分析,一条规范的电力巡检文本必须明确记录所检查的电力设备、部件及其对应的现象或状态,还可能包括对现象或状态的定性描述和定量描述。在实际工作中,由于人为知识和经验的局限,电力巡检文本可能存在以下错误类型:
[0043] (1)设备信息有误。包括:
[0044] ①设备信息缺失(错误ID:01)。即电力巡检文本中未出现任何关于电力设备的信息;
[0045] ②设备信息过多(错误ID:02)。即电力巡检文本中出现了2个及以上的电力设备信息。不同设备的检查情况应分别进行记录,故每条巡检文本应当只包含一种电力设备。
[0046] (2)部件信息有误。包括:
[0047] ①部件信息缺失(错误ID:03)。即电力巡检文本中未出现任何关于具体部件的信息;
[0048] ②部件信息有歧义(错误ID:04)。为提高记录效率,巡检人员可能在巡检文本记录过程中出现“越级记录”的情况,例如将“隔离开关主刀均压环变形”记录为“隔离开关均压环变形”。在不引起歧义的情况下,采用这种记录方式的巡检文本应视为正确文本。但是,如果“越级记录”造成了歧义,例如将“隔离开关主刀分合闸指示不清”记录为“隔离开关分合闸指示不清”,由于“分合闸指示”在隔离开关的“主刀”和“地刀”上均存在,故此时巡检文本存在歧义,则会导致部件信息不明确,此时巡检文本应视为错误文本;
[0049] ③部件信息矛盾(错误ID:05)。即由于误记了部件信息,造成部件信息之间出现矛盾。例如“隔离开关地刀定位销锈蚀严重”中,由于“定位销”是位于“主刀”的部件,“地刀”上没有装设“定位销”,故“地刀”与“定位销”出现部件信息矛盾;
[0050] ④部件信息与设备信息不对应(错误ID:06)。例如“隔离开关油箱漏油严重”中,“隔离开关”不包含“油箱”这一部件,故部件“油箱”与设备“隔离开关”不对应。
[0051] (3)现象与状态信息有误。包括:
[0052] ①现象与状态信息缺失(错误ID:07)。即电力巡检文本中未出现任何关于电力设备部件的现象或状态的信息;
[0053] ②现象或状态信息与部件信息不对应(错误ID:08)。例如“避雷器外绝缘锈蚀”中,“外绝缘”不会出现“锈蚀”现象,故现象“锈蚀”与部件“外绝缘”不对应,实际情况可能为外绝缘破损或变色等其他情况。
[0054] (4)定性描述信息有误(错误ID:09)。定性描述信息不是必须记录的信息,可视具体的部位、现象和状态等情况而定,但如果记录了定性描述信息,则需要和现象与状态信息相对应,否则会造成巡检文本意义不清。
[0055] (5)定量描述信息有误(错误ID:10)。定量描述信息不是必须记录的信息,可视具体的部位、现象和状态等情况而定,但如果记录了定量描述信息,则需要和现象与状态信息相对应,否则会造成巡检文本意义不清。
[0056] 步骤7:根据步骤5中电力巡检文本映射到关键信息树的对应结点,利用基于树的搜索方法,实现对电力巡检文本中存在的错误的识别。具体方法为:
[0057] (1)从关键信息树的根结点出发,采用广度优先搜索(Breadth First Search,BFS)算法,搜索根结点的所有子结点,即所有设备类结点。如果设备类结点中,被标记的结点为0个,则输出错误ID:01,表示设备信息缺失;如果设备类结点中,被标记的结点数大于等于2个,则输出错误ID:02,表示设备信息过多;如果设备类结点中,被标记的结点为1个,则继续进行第(2)步检查;
[0058] (2)从每个设备类结点出发,采用BFS算法,遍历所有部件类结点。如果所有部件类结点中,被标记的结点为0个,则输出错误ID:03;否则,继续进行第(3)步检查;
[0059] (3)令集合A为空集,再将所有被标记的部件类结点表示的部件信息加入到集合A中(重复的信息只加入一次)。然后从被标记的设备类结点出发,采用深度优先搜索(Depth First Search,DFS)算法,搜索从被标记设备类结点到各个最下级部件类结点(子结点为现象与状态类结点的部件类结点)的所有路径,并统计每条路径包含的被标记部件类结点的部件信息。设一共搜索到p条路径,每条路径包含的被标记部件类结点的部件信息形成一个集合,则一共得到p个集合。如果p个集合均为空集,则输出错误ID:06;如果p个集合不全为空集,且没有集合与集合A相等,则输出错误ID:05;如果p个集合中有且仅有1个集合与集合A相等,则继续进行第(4)步检查;如果p个集合中有大于等于2个集合与集合A相等,则输出错误ID:04;
[0060] (4)从每个部件类结点出发,采用BFS算法,遍历所有现象与状态类结点。如果所有现象与状态类结点中,被标记的结点为0个,则输出错误ID:07;否则,继续进行第(5)步检查;
[0061] (5)令集合B为空集,再将所有被标记的现象与状态类结点表示的现象与状态信息加入到集合B中(重复的信息只加入一次)。同时,通过第(3)步的检查,可以确保最下级部件类结点中只有唯一的一个结点被标记,此结点的所有子结点表示的现象与状态信息组成集合C。如果 则继续进行第(6)步检查;否则输出错误ID:08;
[0062] (6)从每个现象与状态类结点出发,采用BFS算法,遍历所有定性描述类结点。如果所有定性描述类结点中,被标记的结点为0个,则直接进行第(8)步检查;否则,继续进行第(7)步检查;
[0063] (7)令集合D为空集,再将所有被标记的定性描述类结点表示的定性描述信息加入到集合D中(重复的信息只加入一次)。同时,从被标记的最下级部件类结点出发,采用BFS算法,搜索所有被标记的现象与状态类结点,再从这些被标记的现象与状态类结点出发,采用BFS算法,遍历所有定性描述类结点,所有定性描述类结点表示的定性描述信息组成集合E(重复的信息只计一次)。如果 则继续进行第(8)步检查;否则输出错误ID:09;
[0064] (8)从每个现象与状态类结点出发,采用BFS算法,遍历所有定量描述类结点。如果所有定量描述类结点中,被标记的结点为0个,则输出“巡检文本正确”的提示;否则,继续进行第(9)步检查;
[0065] (9)令集合F为空集,再将所有被标记的定量描述类结点表示的定量描述信息加入到集合F中(重复的信息只加入一次)。同时,从被标记的最下级部件类结点出发,采用BFS算法,搜索所有被标记的现象与状态类结点,再从这些被标记的现象与状态类结点出发,采用BFS算法,遍历所有定量描述类结点,所有定量描述类结点表示的定量描述信息组成集合G(重复的信息只计一次)。如果 则输出“巡检文本正确”的提示;否则输出错误ID:10。
[0066] 本发明的有益效果:本发明提出的方法有良好的可解释性,可以直观表示出电力巡检文本中包含的关键信息及其之间的联系,且能有效避免数据偏斜的影响,在电力巡检文本的错误识别上具有可行性和有效性。附图说明
[0067] 图1电力巡检文本关键信息树局部图。

具体实施方式

[0068] 本发明针对电力巡检文本中存在的错误,提出在巡检文本录入过程中进行错误识别的方法。首先,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,并将关键信息归类。其次,将关键信息的表述整合为规范化表述,并寻找各个关键信息之间的联系,再将所有关键信息及其联系整理为关键信息树。然后,对新录入的电力巡检文本进行处理,并将其映射到已构建的关键信息树中。最后,总结实际工作中新录入的电力巡检文本可能存在的错误类型,再针对巡检文本在关键信息树中的映射结果,利用基于树的搜索方法,识别出巡检文本中存在的错误。具体步骤如下:
[0069] 步骤1:利用自然语言处理技术,从大量现有的正确巡检文本语料库中抽取与电力设备健康状态相关的关键信息,并对关键信息进行归类。具体方法为:
[0070] (1)利用条件随机场(Conditional Random Field,CRF)模型,并加入电力词典进行辅助,对现有语料库中的所有巡检文本进行词切分,将每一条巡检文本的各个词进行分隔;
[0071] (2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的词性进行标注;
[0072] (3)在词性标注的基础上,抽取出具有名词、动词、形容词、副词和量词词性的词,并将具有名词词性的词归为设备与部件信息,将具有动词词性的词归为现象与状态信息,将具有形容词和副词词性的词归为定性描述信息,将具有量词词性的词归为定量描述信息;
[0073] (4)对照用语规范,将代表设备与部件信息的词进一步划分为代表设备信息的词和代表部件信息的词。
[0074] 最终将巡检文本语料库中提取出来的关键信息划分为5类,即设备、部件、现象与状态、定性描述、定量描述。
[0075] 步骤2:基于神经网络模型,并结合实际的电力巡检文本特点加入筛选规则,对经过归类的关键信息进行整合。具体方法为:
[0076] (1)利用深度学习领域的神经网络语言模型(Neural Network Language Model,NNLM),将步骤1中切分出的每个词作为NNLM的标签,该词在巡检文本中的相邻两个词作为NNLM的输入,从而通过NNLM的输出和标签的比对,对NNLM进行调整和迭代训练,最终利用NNLM将语料库中所有巡检文本包含的词转化为200维的词向量;
[0077] (2)计算各个词对应的词向量之间的欧式距离,从而刻画出所有词两两之间的语义相似度。两个200维词向量v1、v2之间的欧式距离为:
[0078]
[0079] 其中,v1i、v2i分别代表词向量v1、v2的第i个元素(i=1,2,…,200),经过参数寻优,将欧式距离小于6的词向量所对应的词进行两两合并,形成多个词对;
[0080] (3)在每个词对中,检查词对的两个词的词性是否一致,若不一致则将词对删去;
[0081] (4)在剩余的词对中,检查词对的两个词是否有在语料库的同一条巡检文本中共现,若是则将词对删去;
[0082] (5)将所有含有相同词的词对合并为一个词集合,从而将表述不同但含义相同的信息整合在同一个词集合中,最终形成若干个词集合,并在每个词集合中任意取一个词作为该词集合中其他词的规范化表述。
[0083] 步骤3:利用机器学习方法,寻找所有关键信息两两之间的联系。首先确定各类关键信息联系的形式。由于在树结构中,信息的联系通过结点的上下级关系体现,因此需要规定电力巡检文本包含的5类关键信息的上下级关系。根据电力领域知识,规定:1)设备类信息为部件类信息的上级;2)部件类信息之间存在上下级关系;3)部件类信息为现象与状态类信息的上级;4)现象与状态类信息为定性描述类信息的上级;5)现象与状态类信息为定量描述类信息的上级。然后,对步骤1中提取出的所有关键信息之间的联系进行两两判别。除了对于两个均属于部件类的关键信息需要判别其是否存在联系和上下级关系以外,对于其他满足上述1)3)4)5)类型的两个关键信息,由于其上下级关系已确定,只要判别其是否存在联系即可。判别时采用基于机器学习的支持向量机(Support Vector Machine,SVM)模型,SVM模型的训练集取自用语规范,对于待判别联系的两个关键信息,其输入SVM模型的特征选为两个关键信息在电力巡检文本中的相对位置,以及两者之间间隔词的词性和数量。
[0084] 步骤4:基于关键信息两两之间的联系,构建关键信息树。具体方法为:
[0085] (1)从一个根结点出发,将所有设备类信息作为该根结点的子结点;
[0086] (2)按照步骤3中设备类信息和部件类信息的联系判别结果,对于每一个设备类信息,将与其存在联系的所有部件类信息作为其子结点;
[0087] (3)按照步骤3中部件类信息之间的联系判别结果,将存在联系的部件类信息按照上下级关系进行连结,其中下级信息作为上级信息的子结点;
[0088] (4)按照步骤3中部件类信息和现象与状态类信息的联系判别结果,对于每一个部件类信息,将与其存在联系的所有现象与状态类信息作为其子结点;
[0089] (5)按照步骤3中现象与状态类信息和定性描述类信息、定量描述类信息的联系判别结果,对于每一个现象与状态类信息,将与其存在联系的所有定性描述类信息、定量描述类信息作为其子结点。
[0090] 步骤5:对新录入的电力巡检文本进行处理,并将每一条巡检文本映射到已构建的关键信息树中。具体方法为:
[0091] (1)利用CRF模型并借助电力词典,对新录入巡检文本进行词切分;
[0092] (2)借助最大熵模型,结合每个词在巡检文本中的上下文信息以及电力词典中的信息,对经过切分后的各个词的进行词性标注;
[0093] (3)基于词性标注的结果,抽取出每一条巡检文本的关键信息;
[0094] (4)对于每一条巡检文本,查找其每个关键信息是否在步骤2最后产生的若干个词集合之中出现,若有关键信息出现在某个词集合中,则将该关键信息替换为该词集合的规范化表述;
[0095] (5)对于规范化后的每一条巡检文本,在步骤4构建的关键信息树中,标注与巡检文本包含的所有关键信息对应的结点,从而将巡检文本映射为关键信息树中的若干个结点。
[0096] 步骤6:通过分析电力巡检文本的记录方式和内容,总结实际工作中新录入的电力巡检文本可能存在的错误类型。经分析,一条规范的电力巡检文本必须明确记录所检查的电力设备、部件及其对应的现象或状态,还可能包括对现象或状态的定性描述和定量描述。在实际工作中,由于人为知识和经验的局限,电力巡检文本可能存在以下错误类型:
[0097] (1)设备信息有误。包括:
[0098] ①设备信息缺失(错误ID:01)。即电力巡检文本中未出现任何关于电力设备的信息;
[0099] ②设备信息过多(错误ID:02)。即电力巡检文本中出现了2个及以上的电力设备信息。不同设备的检查情况应分别进行记录,故每条巡检文本应当只包含一种电力设备。
[0100] (2)部件信息有误。包括:
[0101] ①部件信息缺失(错误ID:03)。即电力巡检文本中未出现任何关于具体部件的信息;
[0102] ②部件信息有歧义(错误ID:04)。为提高记录效率,巡检人员可能在巡检文本记录过程中出现“越级记录”的情况,例如将“隔离开关主刀均压环变形”记录为“隔离开关均压环变形”。在不引起歧义的情况下,采用这种记录方式的巡检文本应视为正确文本。但是,如果“越级记录”造成了歧义,例如将“隔离开关主刀分合闸指示不清”记录为“隔离开关分合闸指示不清”,由于“分合闸指示”在隔离开关的“主刀”和“地刀”上均存在,故此时巡检文本存在歧义,则会导致部件信息不明确,此时巡检文本应视为错误文本;
[0103] ③部件信息矛盾(错误ID:05)。即由于误记了部件信息,造成部件信息之间出现矛盾。例如“隔离开关地刀定位销锈蚀严重”中,由于“定位销”是位于“主刀”的部件,“地刀”上没有装设“定位销”,故“地刀”与“定位销”出现部件信息矛盾;
[0104] ④部件信息与设备信息不对应(错误ID:06)。例如“隔离开关油箱漏油严重”中,“隔离开关”不包含“油箱”这一部件,故部件“油箱”与设备“隔离开关”不对应。
[0105] (3)现象与状态信息有误。包括:
[0106] ①现象与状态信息缺失(错误ID:07)。即电力巡检文本中未出现任何关于电力设备部件的现象或状态的信息;
[0107] ②现象或状态信息与部件信息不对应(错误ID:08)。例如“避雷器外绝缘锈蚀”中,“外绝缘”不会出现“锈蚀”现象,故现象“锈蚀”与部件“外绝缘”不对应,实际情况可能为外绝缘破损或变色等其他情况。
[0108] (4)定性描述信息有误(错误ID:09)。定性描述信息不是必须记录的信息,可视具体的部位、现象和状态等情况而定,但如果记录了定性描述信息,则需要和现象与状态信息相对应,否则会造成巡检文本意义不清。
[0109] (5)定量描述信息有误(错误ID:10)。定量描述信息不是必须记录的信息,可视具体的部位、现象和状态等情况而定,但如果记录了定量描述信息,则需要和现象与状态信息相对应,否则会造成巡检文本意义不清。
[0110] 步骤7:根据步骤5中电力巡检文本映射到关键信息树的对应结点,利用基于树的搜索方法,实现对电力巡检文本中存在的错误的识别。具体方法为:
[0111] (1)从关键信息树的根结点出发,采用广度优先搜索(Breadth First Search,BFS)算法,搜索根结点的所有子结点,即所有设备类结点。如果设备类结点中,被标记的结点为0个,则输出错误ID:01,表示设备信息缺失;如果设备类结点中,被标记的结点数大于等于2个,则输出错误ID:02,表示设备信息过多;如果设备类结点中,被标记的结点为1个,则继续进行第(2)步检查;
[0112] (2)从每个设备类结点出发,采用BFS算法,遍历所有部件类结点。如果所有部件类结点中,被标记的结点为0个,则输出错误ID:03;否则,继续进行第(3)步检查;
[0113] (3)令集合A为空集,再将所有被标记的部件类结点表示的部件信息加入到集合A中(重复的信息只加入一次)。然后从被标记的设备类结点出发,采用深度优先搜索(Depth First Search,DFS)算法,搜索从被标记设备类结点到各个最下级部件类结点(子结点为现象与状态类结点的部件类结点)的所有路径,并统计每条路径包含的被标记部件类结点的部件信息。设一共搜索到p条路径,每条路径包含的被标记部件类结点的部件信息形成一个集合,则一共得到p个集合。如果p个集合均为空集,则输出错误ID:06;如果p个集合不全为空集,且没有集合与集合A相等,则输出错误ID:05;如果p个集合中有且仅有1个集合与集合A相等,则继续进行第(4)步检查;如果p个集合中有大于等于2个集合与集合A相等,则输出错误ID:04;
[0114] (4)从每个部件类结点出发,采用BFS算法,遍历所有现象与状态类结点。如果所有现象与状态类结点中,被标记的结点为0个,则输出错误ID:07;否则,继续进行第(5)步检查;
[0115] (5)令集合B为空集,再将所有被标记的现象与状态类结点表示的现象与状态信息加入到集合B中(重复的信息只加入一次)。同时,通过第(3)步的检查,可以确保最下级部件类结点中只有唯一的一个结点被标记,此结点的所有子结点表示的现象与状态信息组成集合C。如果 则继续进行第(6)步检查;否则输出错误ID:08;
[0116] (6)从每个现象与状态类结点出发,采用BFS算法,遍历所有定性描述类结点。如果所有定性描述类结点中,被标记的结点为0个,则直接进行第(8)步检查;否则,继续进行第(7)步检查;
[0117] (7)令集合D为空集,再将所有被标记的定性描述类结点表示的定性描述信息加入到集合D中(重复的信息只加入一次)。同时,从被标记的最下级部件类结点出发,采用BFS算法,搜索所有被标记的现象与状态类结点,再从这些被标记的现象与状态类结点出发,采用BFS算法,遍历所有定性描述类结点,所有定性描述类结点表示的定性描述信息组成集合E(重复的信息只计一次)。如果 则继续进行第(8)步检查;否则输出错误ID:09;
[0118] (8)从每个现象与状态类结点出发,采用BFS算法,遍历所有定量描述类结点。如果所有定量描述类结点中,被标记的结点为0个,则输出“巡检文本正确”的提示;否则,继续进行第(9)步检查;
[0119] (9)令集合F为空集,再将所有被标记的定量描述类结点表示的定量描述信息加入到集合F中(重复的信息只加入一次)。同时,从被标记的最下级部件类结点出发,采用BFS算法,搜索所有被标记的现象与状态类结点,再从这些被标记的现象与状态类结点出发,采用BFS算法,遍历所有定量描述类结点,所有定量描述类结点表示的定量描述信息组成集合G(重复的信息只计一次)。如果 则输出“巡检文本正确”的提示;否则输出错误ID:10。
[0120] 应用例
[0121] 选取某电网公司2015-2016年的6080条关于变电一次设备的电力巡检文本,并人工对其中正确和有误的文本进行标注,得到5462条正确文本和618条错误文本。随机选出2731条正确文本和309条错误文本作为训练集,其余的2731条正确文本和309条错误文本作为测试集。用训练集的2731条正确文本作为巡检文本语料库,构建巡检文本的关键信息树,关键信息树的局部示意图如图1。然后基于关键信息树,对测试集的3040条巡检文本进行错误识别。同时,采用两种常用的机器学习分类模型,即SVM模型和逻辑回归(Logistic Regression,LR)模型,与本发明的模型进行对照。用训练集的所有巡检文本对SVM模型和LR模型进行训练后,同样采用这两种模型分别对测试集的3040条巡检文本进行错误识别。最终得到各种模型的巡检文本错误识别混淆矩阵如表1所示。
[0122] 表1各种模型的巡检文本错误识别混淆矩阵
[0123]
[0124] 注:每个模型的错误识别混淆矩阵均为2行2列,其中第m行第n列表示“实际属于类别m而被判别为类别n”的巡检文本数量(类别1表示“错误文本”,类别2表示“正确文本”),如SVM模型中第1行第2列的值为107,表示有107条实际是错误的巡检文本被该模型误识别为正确文本。
[0125] 从图1可以看出,运用本发明的方法可以实现电力巡检文本关键信息树的自动构建,并通过树的层级结构,将电力巡检文本中包含的关键信息及其之间的联系进行直观的表示。从表1中各种模型的对比可以看出,相比于本发明的模型,基于机器学习的SVM和LR模型更倾向于将错误的巡检文本判别为正确文本(模型的混淆矩阵中第1行第2列的数值更大),这是由于通常情况下电力巡检文本中正确文本的数量明显多于错误文本的数量,即巡检文本的数据偏斜度较大,而机器学习模型容易受到数据特征的影响,从而使判别结果出现偏差。同时,相对于两种机器学习模型,本发明模型的文本正误判别准确率更高(混淆矩阵的第1行第1列和第2行第2列的数值之和更大),说明本发明的方法具有更高的判别准确性。
[0126] 进一步地,采用常用的衡量检测模型效果的指标:查准率、查全率和F值,对本发明模型和两个对照模型的错误识别效果进行评价。其中,查准率反映错误识别的精确程度,其定义为:
[0127]
[0128] 查全率反映错误识别的全面程度,其定义为:
[0129]
[0130] F值为综合指标,综合反映错误识别的精确程度和全面程度,其定义为:
[0131]
[0132] 根据各个模型所对应的混淆矩阵,计算各个模型的查准率、查全率和F值,得到结果如表2所示。
[0133] 表2电力巡检文本错误识别结果统计
[0134] 模型 查准率 查全率 F值本发明模型 90.49% 95.47% 92.91%
SVM模型 68.24% 65.37% 66.78%
LR模型 92.96% 21.36% 34.74%
[0135] 由表2可见,本发明模型相对于机器学习模型,在查全率和F值上有显著的优势,且查准率、查全率和F值均在90%以上。尽管LR模型有较高的查准率,但并不意味着其识别效果好,因为即使只识别出测试集中的一条错误文本,而将其他文本全部判别为正确文本,也能取得100%的查准率,但显然这种判别结果表明模型对错误文本的识别能力很差,因此查全率和F值将会很低。
[0136] 同时,考虑到实际应用中,电力巡检文本的错误识别功能用于在巡检人员输入巡检文本后给出错误提示,故本发明模型的高查全率意味着能识别出绝大部分的错误巡检文本并给出提示,虽然识别为错误的文本中可能还包括部分正确文本(查准率不为100%,即“误报错”),但这些正确文本在给出提示后可以被人为纠正;相反,LR模型即使查准率很高,但其低查全率意味着很多错误文本未被识别出来(即“漏报错”),从而不会给出错误提示,也无法再由人工进行纠正。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈