首页 / 专利库 / 人工智能 / 深层模型 / 一种组合深度学习和概念图谱的电力故障事件抽取方法

一种组合深度学习概念图谱的电故障事件抽取方法

阅读:271发布:2020-05-11

专利汇可以提供一种组合深度学习概念图谱的电故障事件抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种组合 深度学习 和 概念图 谱的电 力 故障事件 抽取 方法,在特征选取阶段,摒弃复杂的特征设计,只选用 基础 的分布式语义词向量特征、依存句法结构特征和 位置 特征,在此基础上使用基于中文知识图谱的概念图谱实现电力故障文本的概念扩展。使用长短期记忆循环神经网络,自动进行特征学习,并以模型训练的结果替代原始特征,并作为触发词识别和事件元素识别的基础。在元素识别阶段,将事件元素识别任务转换为触发词-实体、触发词-触发词的关系抽取任务,结合动态多 池化 卷积神经网络 进行训练,同时识别出简单事件和复杂事件的事件元素。根据电力领域特征制定规则,对识别结果进行进一步的优化。该发明方法简单,执行效率与准确率高。,下面是一种组合深度学习概念图谱的电故障事件抽取方法专利的具体信息内容。

1.一种组合深度学习概念图谱的电故障事件抽取方法,其特征在于,包括以下步骤:
步骤1:定义电网故障事件触发词以及电网故障事件元素;
步骤2:电网故障事件触发词和电网故障事件的特征词提取;
步骤3:事件元素抽取与事件生成。
2.根据权利要求1所述的组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于:步骤1中所述电网故障事件都由触发词和事件元素构成,触发词只能有一个,可以是一个词或由多个词构成,事件元素根据事件类型的不同可能有一个或多个,每个事件元素可以是一个词或是另一个事件;
而每个触发词和事件元素都可能被不同的事件共享,即一个词可能在多个不同类型的事件中扮演触发词或事件要素的色;
步骤1中所述电网故障事件元素用于记录电网故障信息,具体包括:设备信息、故障信息、故障处置、故障原因及其它;
所述设备信息为:设备名称、电压等级、设备类型、故障元件类型、故障元件、厂站1-n名称、所属地区、所属调度、设备型号、设备厂家、设备额定容量、投运时间、线路长度、是否同杆并架、是否电缆、是否紧凑型杆塔;
所述故障信息为:故障时间、故障相别、保护与安控动作情况、重合闸情况、直流再启动情况、停运类型、厂站1-n测距、厂站1-n天气、厂站1-n人员到站时间、综合智能告警是否正确推出、告警源、故障详细情况,所述故障详细情况汇总故障发生、处置、恢复等全过程详细情况,应至少包括发生日期、时间、故障设备名称、故障相别、故障后果等关键故障信息;
所述故障处置为:故障影响及处置、恢复时间、设备消缺情况、巡线任务、故障原因/巡线结果;
所述故障原因为:一段描述造成故障的文字;
所述其它部分(可选)包括:故障性质分类、故障原因分类、关联故障。
3.根据权利要求1所述的组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于:步骤2中所述电网故障事件触发词和电网故障事件的特征词提取具体为:
首先对原始的实验语料进行预处理,接着使用分布式语义词向量结合依存句法结构特征和电网元素特征,生成向量形式的语义表示;
使用组合的深度学习模型进行触发词抽取,具体为:
由长短期记忆循环神经网络抽取含有时序语义的深层特征,再接着用卷积神经网络完成触发词和事件类别的同步抽取;
使用概念图谱对故障文本和电力文献数据进行扩展,构建电力故障特征词-概念语义网络;其中概念图谱可以选对中文Dbpedia、中文Probase+或二者相结合的版本;
对于上述内容,将其转换成向量形式,形成4个方面的向量:词向量、依存句法结构特征、其它电网事件相关的特征向量,以及通过概念图谱扩展的电力故障特征词-概念语义网络向量;
具体如下:
采用的是Distributed Representation方式表达词向量、电网相关特征及概念图谱,使用基于神经网络的word2vec,使用skipgram模型作为学习框架,选取最大窗口为11来训练;
采用GDep进行依存句法分析,提取依存句法特征;
采用循环神经网络提取深层特征,采用卷积神经网络抽取触发词,也就说说在提取基本语义特征生成输入向量之后,先使用循环神经网络进一步提取句子的时序特征,将得到的深层特征作为卷积神经网络的输入;
这里的循环神经网络使用长短期记忆(LSTM)结构,系统由两个相反的循环神经网络并列组成,再将两个网络的输出进行拼接,得到最终代表句子的深层特征;
输入向量X=(x1,x2,...,xn)代表当前训练的句子,对句子中的每个词xi逐个训练,对于每一步训练的xi,需要计算出隐藏向量αi,αi是基于当前输入向量xi和上一步的隐藏向量αi-1获得的,使用非线性转移函数θ:αi=θ(xi,αi-1);
每次的循环从句子的第一个词到句子末尾结束,从而得到每个句子的隐藏特征为RNN->(x1,x2,…,xn)=(α1,α2,…,αn);
这样的循环机制使得对于每个αi,都可以得到从句子的第一个词到当前词间的所有语义特征;
需要训练第二个RNN网络,以获取当前词之后的语义信息;
这个RNN网络与第一个RNN结构相同,只是从每个句子的最后一个词开始反向训练,直到句子的第一个词结束,可以得到隐藏特征RNN<-(xn,xn-1,…,x1)=(α'n,α'n-1,…,α'1);
最后是一个连接层,将两个网络中训练的隐藏层进行连接,得到真正需要的深层特征H,H=(h1,h2,…,hn),hi=(αi,α'i);
电力故障特征词-概念语义网络向量也采用LSTM-RNN的方式生成,它由4个部分组成:
单词-单词子网络(TWW),表示单词与单词的相互影响力;
概念-概念子网络(TCC),表示概念与概念的相互影响力;
单词-概念子网络(TWC),表示目标单词与候选概念的可能性;
概念-单词子网络(TCW)表示目标概念与对应单词的可能性;接下来,需要对这四个子网络进行节点和关系边的构建;
将整个语义网络表示为T=(V,B);
V=VW∪VC表示图中的顶点集合,其中VW表示单词向量集合,其大小为nW=|VW|;
VC表示候选概念集合,大小为nC=|VC|;
B=BWW∪BWC∪BCC∪BCW表示图中的边集合,其中BWW表示单词与单词之间的关系边,BCC表示概念与概念之间的关系边,BCW和BWC表示单词与概念相互之间的关系边;
综合来看T=TWW+TWC+TCC+TCW,从而可以得到网络矩阵:
对T进行进一步的拆分,可以理解为网络中所有顶点与边的集合,表示为T=(VWW,BWW)∪(VWC,BWC)∪(VCC,BCC)∪(VCW,BCW);
使用共现分析的方法来计算特征之间的相关性;
使用的是Jaccard指数,也称为并交比,能够根据特征之间的共现频率来比较数据集的相似性和多样性的统计量:
其中,A和B分别代表特征词A和B,|A∩B|表示A和B在短文本中共同出现的次数,|A|表示特征词A在短文本中出现的次数,|B|表示特征词B在短文本中出现的次数;
在短文本中引入共现的概念后,通过在语义网络中计算特征词与特征词之间的共现指数就可以对它们之间的关联度进行量化,接下来将依次介绍四个子网络:
单词-单词子网络(TWW):
TWW=(VWW,BWW)表示目标短文本所有单词之间的相关性,该网络中的顶点由当前短文本所有单词组成,表示为{wi|wi∈VW,i=1,2,...,nW},各顶点之间由关系边相连,关系边是指无向加权线段,TWW[i][j]表示短文本中实例wi和wj的共现概率,公式如下:
其中,wi和wj表示当前短文本中的单词,J(wi,wj)是公式(F-2)提到的Jaccard函数,表示两个单词的共现指数,分母表示单词wi与其他单词的共现指数之和,目的是进行归一化处理,得到相关性的概率;
将距离衰减机制加入到单词网络中,引入了距离衰减因子λ∈[0,1]到TWW矩阵中,以减少距离过长的单词之间产生噪音信息,设定两个单词之间的距离为n=|j-i|-1;
当λ趋近于1时,将考虑更广泛的上下文,两个词之间的相关性受距离因素的影响大,适用于长文本;当λ趋近于0时,两个词之间的相关性受距离因素的影响较小,更适合短文本,具体如下:
此外,研究发现单词与概念之间的关系能够辅助调整TWW的结果,当某一个概念能够同时被短文本中多个单词映射时,可以说明它们是有相关性的,提出了单词惩罚函数τ(wi,wj,cm),判断概念cm是否能同时映射到实例wi和wj:
得到最终的TWW:
概念-概念子网络(TCC):
TCC=(VCC,BCC)表示目标短文本的所有候选概念之间的相关性;
网络中的关系边为无向加权线段,顶点集合由所有候选概念组成,表示为{ci|ci∈VC,i=1,2,...,nC};
TCC[i][j]可以通过统计短文本的候选概念集中每两个概念ci和cj的共现指数并进行归一化处理来获得;由于概念集合与文本中单词之间距离无关,因此不考虑距离因素,公式如下:
其中,ci和cj表示候选概念集中的概念,J(ci,cj)表示短文本中的两个候选概念的共现指数,分母 表示短文本中的候选概念ci与每一个候选概念的共现指数之和;
提出了概念惩罚函数σ(ci,cj,wm),目的是希望通过单词与概念的关系来辅助调整概念的权重,公式如下:
得到最终TCC:
单词-概念子网络(TWC):
TWC=(VWC,BWC)表示目标短文本的单词与其候选概念之间的相关性,该网络中的顶点由单词和候选概念组成,关系边为单向加权指针线段,由单词指向概念;
TWC[i][j]可以理解为在给定短文本中出现实例wi时可联想到概念cj的可能性,公式如下:
其中,freq(wi,cj)表示在Probase+概念图谱中统计出的单词wi与概念cj相关的统计频数,可以直接获得;分母表示与单词wi相关的所有概念的统计频数之和;
提出了单词-概念惩罚函数y(wi,cj,wm),公式如下:
最终TWC:
概念-单词子网络(TCW):
TCW=(VCW,BCW)表示短文本的概念与概念相关的所有实例之间的相关性,即在得到的候选概念中ci能被映射到实例wj的可能性,网络中的关系边为单指向加权指针线段,由概念指向单词,关系边的两个顶点分别为概念与其映射出的单词:
其中,freq(ci,wj)可以从Probase+概念图谱中获取,表示概念ci与其实例单词wj的统计频数,分母表示与概念ci相关的所有映射出的实例单词的统计频数之和,加入距离衰减因子后得到公式:
提出了概念-单词惩罚函数z(ci,wj,cm),若概念ci与实例wj不同能同时映射到概念cm,则赋予惩罚值0,公式如下:
得到最终TCW:
四个语义网络已全部构建完成;
经过以上步骤,获取了句子的深层特征,语料中的每个句子W(w1,w2,…,wn)对应着深层特征H(h1,h2,…,hn),依然是每个词对应一个特征向量,向量hi即对应每个单词wi;
在触发词抽取阶段,将触发词识别任务视为多分类问题;
前面已经得到了语料的候选触发词词典,触发词抽取过程是对每个句子的每个候选触发词进行遍历,依次判断当前候选词是否为句子的触发词;
训练以句子为单位,将深层特征H和当前候选词的位置j作为模型的输入向量,经过模型的的卷积、池化等操作,进一步对上下文特征进行提取,最后接softmax分类器进行多分类;
如果分类结果是非事件标签,则当前候选词不是触发词,否则候选词为触发词,且对应的分类标签为该事件的事件类型,卷积神经网络的训练流程包括卷积、池化和分类。
4.根据权利要求1所述的组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于:步骤3中所述事件元素抽取与事件生成为:
结合上文中得到的深层特征与触发词,采用动态多池化卷积神经网络,对简单事件和复杂事件的事件元素进行同时抽取;
根据抽取出的关系对类别,将事件整理成简单事件和复杂事件,最后根据电网故障领域特征对结果进行后处理,后处理主要是根据一些电网领域应用的常识性规则,将完全不合理的特征过滤掉,并在此基础上生成格式化的事件。

说明书全文

一种组合深度学习概念图谱的电故障事件抽取方法

技术领域

[0001] 本发明涉及电力和计算机应用,尤其涉及一种组合深度学习和概念图谱的电力故障事件抽取方法。

背景技术

[0002] 随着新能源、分布式电源的发展,以及电力下游应用的日益丰富,电网运行的不确定性显著增强,传统的基于机理及物理建模的在线安全分析功能的调度模式已经逐渐不能满足电网的要求,充分挖掘调度规程、故障预案、调度日志等电网运行文本,利用自然语言处理技术、知识图谱技术及相应的大数据分析技术,挖掘上述数据中的经验规则,将对大型混联电网电网态势感知、智能决策和辅助调度具有十分重要的作用。然而,目前的自然语言处理技术和知识图谱技术虽然在实体和关系识别方面已经取得了一定的研究进展,但针对形成经验规则最重要的领域事件特别是电网领域事件,目前并没有获得较大的突破。
[0003] 在电力和电网领域的自然语言处理还没有开展系统和深层次的研发,目前的研发主要集中于电力文本的实体识别,对于电力故障事件识别方面,无论从研究和应用的度仍然处于空白,限制了电力文本对电网智能决策和辅助调度的应用支撑

发明内容

[0004] 针对上述问题,本发明提出了一种组合深度学习和概念图谱的电力故障事件抽取方法。
[0005] 本发明的技术方案为一种组合深度学习和概念图谱的电力故障事件抽取方法,其特征在于,包括以下步骤:
[0006] 步骤1:定义电网故障事件触发词以及电网故障事件元素;
[0007] 步骤2:电网故障事件触发词和电网故障事件的特征词提取;
[0008] 步骤3:事件元素抽取与事件生成;
[0009] 作为优选,步骤1中所述电网故障事件都由触发词和事件元素构成,触发词只能有一个,可以是一个词或由多个词构成,事件元素根据事件类型的不同可能有一个或多个,每个事件元素可以是一个词或是另一个事件;
[0010] 而每个触发词和事件元素都可能被不同的事件共享,即一个词可能在多个不同类型的事件中扮演触发词或事件要素的角色;
[0011] 步骤1中所述电网故障事件元素用于记录电网故障信息,具体包括:设备信息、故障信息、故障处置、故障原因及其它;
[0012] 所述设备信息为:设备名称、电压等级、设备类型、故障元件类型、故障元件、厂站1-n名称、所属地区、所属调度、设备型号、设备厂家、设备额定容量、投运时间、线路长度、是否同杆并架、是否电缆、是否紧凑型杆塔;
[0013] 所述故障信息为:故障时间、故障相别、保护与安控动作情况、重合闸情况、直流再启动情况、停运类型、厂站1-n测距、厂站1-n天气、厂站1-n人员到站时间、综合智能告警是否正确推出、告警源、故障详细情况,所述故障详细情况汇总故障发生、处置、恢复等全过程详细情况,应至少包括发生日期、时间、故障设备名称、故障相别、故障后果等关键故障信息;
[0014] 所述故障处置为:故障影响及处置、恢复时间、设备消缺情况、巡线任务、故障原因/巡线结果;
[0015] 所述故障原因为:一段描述造成故障的文字;
[0016] 所述其它部分(可选)包括:故障性质分类、故障原因分类、关联故障;
[0017] 作为优选,步骤2中所述电网故障事件触发词和电网故障事件的特征词提取具体为:
[0018] 首先对原始的实验语料进行预处理,接着使用分布式语义词向量结合依存句法结构特征和电网元素特征,生成向量形式的语义表示;
[0019] 使用组合的深度学习模型进行触发词抽取,具体为:
[0020] 由长短期记忆循环神经网络抽取含有时序语义的深层特征,再接着用卷积神经网络完成触发词和事件类别的同步抽取;
[0021] 使用概念图谱对故障文本和电力文献数据进行扩展,构建电力故障特征词-概念语义网络;其中概念图谱可以选对中文Dbpedia、中文Probase+或二者相结合的版本;
[0022] 对于上述内容,将其转换成向量形式,形成4个方面的向量:词向量、依存句法结构特征、其它电网事件相关的特征向量,以及通过概念图谱扩展的电力故障特征词-概念语义网络向量;
[0023] 具体如下:
[0024] 采用的是Distributed Representation方式表达词向量、电网相关特征及概念图谱,使用基于神经网络的word2vec,使用skipgram模型作为学习框架,选取最大窗口为11来训练;
[0025] 采用GDep进行依存句法分析,提取依存句法特征;
[0026] 采用循环神经网络提取深层特征,采用卷积神经网络抽取触发词,也就说说在提取基本语义特征生成输入向量之后,先使用循环神经网络进一步提取句子的时序特征,将得到的深层特征作为卷积神经网络的输入;
[0027] 这里的循环神经网络使用长短期记忆(LSTM)结构,系统由两个相反的循环神经网络并列组成,再将两个网络的输出进行拼接,得到最终代表句子的深层特征;
[0028] 输入向量X=(x1,x2,...,xn)代表当前训练的句子,对句子中的每个词xi逐个训练,对于每一步训练的xi,需要计算出隐藏向量αi,αi是基于当前输入向量xi和上一步的隐藏向量αi-1获得的,使用非线性转移函数θ:αi=θ(xi,αi-1);
[0029] 每次的循环从句子的第一个词到句子末尾结束,从而得到每个句子的隐藏特征为RNN->(x1,x2,…,xn)=(α1,α2,…,αn);
[0030] 这样的循环机制使得对于每个αi,都可以得到从句子的第一个词到当前词间的所有语义特征;
[0031] 需要训练第二个RNN网络,以获取当前词之后的语义信息;
[0032] 这个RNN网络与第一个RNN结构相同,只是从每个句子的最后一个词开始反向训练,直到句子的第一个词结束,可以得到隐藏特征RNN<-(xn,xn-1,…,x1)=(α'n,α'n-1,…,α'1);
[0033] 最后是一个连接层,将两个网络中训练的隐藏层进行连接,得到真正需要的深层特征H,H=(h1,h2,…,hn),hi=(αi,α'i);
[0034] 电力故障特征词-概念语义网络向量也采用LSTM-RNN的方式生成,它由4个部分组成:
[0035] 单词-单词子网络(TWW),表示单词与单词的相互影响力;
[0036] 概念-概念子网络(TCC),表示概念与概念的相互影响力;
[0037] 单词-概念子网络(TWC),表示目标单词与候选概念的可能性;
[0038] 概念-单词子网络(TCW)表示目标概念与对应单词的可能性。接下来,需要对这四个子网络进行节点和关系边的构建;
[0039] 将整个语义网络表示为T=(V,B);
[0040] V=VW∪VC表示图中的顶点集合,其中VW表示单词向量集合,其大小为nW=|VW|;
[0041] VC表示候选概念集合,大小为nC=|VC|;
[0042] B=BWW∪BWC∪BCC∪BCW表示图中的边集合,其中BWW表示单词与单词之间的关系边,BCC表示概念与概念之间的关系边,BCW和BWC表示单词与概念相互之间的关系边;
[0043] 综合来看T=TWW+TWC+TCC+TCW,从而可以得到网络矩阵:
[0044]
[0045] 对T进行进一步的拆分,可以理解为网络中所有顶点与边的集合,表示为T=(VWW,BWW)∪(VWC,BWC)∪(VCC,BCC)∪(VCW,BCW);
[0046] 使用共现分析的方法来计算特征之间的相关性;
[0047] 使用的是Jaccard指数,也称为并交比,能够根据特征之间的共现频率来比较数据集的相似性和多样性的统计量:
[0048]
[0049] 其中,A和B分别代表特征词A和B,|A∩B|表示A和B在短文本中共同出现的次数,|A|表示特征词A在短文本中出现的次数,|B|表示特征词B在短文本中出现的次数;
[0050] 在短文本中引入共现的概念后,通过在语义网络中计算特征词与特征词之间的共现指数就可以对它们之间的关联度进行量化,接下来将依次介绍四个子网络:
[0051] 单词-单词子网络(TWW):
[0052] TWW=(VWW,BWW)表示目标短文本所有单词之间的相关性,该网络中的顶点由当前短文本所有单词组成,表示为{wi|wi∈VW,i=1,2,...,nW},各顶点之间由关系边相连,关系边是指无向加权线段,TWW[i][j]表示短文本中实例wi和wj的共现概率,公式如下:
[0053]
[0054] 其中,wi和wj表示当前短文本中的单词,J(wi,wj)是公式(F-2)提到的Jaccard函数,表示两个单词的共现指数,分母表示单词wi与其他单词的共现指数之和,目的是进行归一化处理,得到相关性的概率。
[0055] 将距离衰减机制加入到单词网络中,引入了距离衰减因子λ∈[0,1]到TWW矩阵中,以减少距离过长的单词之间产生噪音信息,设定两个单词之间的距离为n=|j-i|-1;
[0056] 当λ趋近于1时,将考虑更广泛的上下文,两个词之间的相关性受距离因素的影响大,适用于长文本;当λ趋近于0时,两个词之间的相关性受距离因素的影响较小,更适合短文本,具体如下:
[0057]
[0058] 此外,研究发现单词与概念之间的关系能够辅助调整TWW的结果,当某一个概念能够同时被短文本中多个单词映射时,可以说明它们是有相关性的,提出了单词惩罚函数τ(wi,wj,cm),判断概念cm是否能同时映射到实例wi和wj:
[0059]
[0060] 得到最终的TWW:
[0061]
[0062] 概念-概念子网络(TCC):
[0063] TCC=(VCC,BCC)表示目标短文本的所有候选概念之间的相关性;
[0064] 网络中的关系边为无向加权线段,顶点集合由所有候选概念组成,表示为{ci|ci∈VC,i=1,2,...,nC};
[0065] TCC[i][j]可以通过统计短文本的候选概念集中每两个概念ci和cj的共现指数并进行归一化处理来获得。由于概念集合与文本中单词之间距离无关,因此不考虑距离因素,公式如下:
[0066]
[0067] 其中,ci和cj表示候选概念集中的概念,J(ci,cj)表示短文本中的两个候选概念的共现指数,分母 表示短文本中的候选概念ci与每一个候选概念的共现指数之和;
[0068] 提出了概念惩罚函数σ(ci,cj,wm),目的是希望通过单词与概念的关系来辅助调整概念的权重,公式如下:
[0069]
[0070] 得到最终TCC:
[0071]
[0072] 单词-概念子网络(TWC):
[0073] TWC=(VWC,BWC)表示目标短文本的单词与其候选概念之间的相关性,该网络中的顶点由单词和候选概念组成,关系边为单向加权指针线段,由单词指向概念;
[0074] TWC[i][j]可以理解为在给定短文本中出现实例wi时可联想到概念cj的可能性,公式如下:
[0075]
[0076] 其中,freq(wi,cj)表示在Probase+概念图谱中统计出的单词wi与概念cj相关的统计频数,可以直接获得;分母表示与单词wi相关的所有概念的统计频数之和。
[0077] 提出了单词-概念惩罚函数y(wi,cj,wm),公式如下:
[0078]
[0079] 最终TWC:
[0080]
[0081] 概念-单词子网络(TCW):
[0082] TCW=(VCW,BCW)表示短文本的概念与概念相关的所有实例之间的相关性,即在得到的候选概念中ci能被映射到实例wj的可能性,网络中的关系边为单指向加权指针线段,由概念指向单词,关系边的两个顶点分别为概念与其映射出的单词:
[0083]
[0084] 其中,freq(ci,wj)可以从Probase+概念图谱中获取,表示概念ci与其实例单词wj的统计频数,分母表示与概念ci相关的所有映射出的实例单词的统计频数之和,加入距离衰减因子后得到公式:
[0085]
[0086] 提出了概念-单词惩罚函数z(ci,wj,cm),若概念ci与实例wj不同能同时映射到概念cm,则赋予惩罚值0,公式如下:
[0087]
[0088] 得到最终TCW:
[0089]
[0090] 四个语义网络已全部构建完成;
[0091] 经过以上步骤,获取了句子的深层特征,语料中的每个句子W(w1,w2,…,wn)对应着深层特征H(h1,h2,…,hn),依然是每个词对应一个特征向量,向量hi即对应每个单词wi;
[0092] 在触发词抽取阶段,将触发词识别任务视为多分类问题;
[0093] 前面已经得到了语料的候选触发词词典,触发词抽取过程是对每个句子的每个候选触发词进行遍历,依次判断当前候选词是否为句子的触发词;
[0094] 训练以句子为单位,将深层特征H和当前候选词的位置j作为模型的输入向量,经过模型的的卷积、池化等操作,进一步对上下文特征进行提取,最后接softmax分类器进行多分类;
[0095] 如果分类结果是非事件标签,则当前候选词不是触发词,否则候选词为触发词,且对应的分类标签为该事件的事件类型,卷积神经网络的训练流程包括卷积、池化和分类;
[0096] 作为优选,步骤3中所述事件元素抽取与事件生成为:
[0097] 结合上文中得到的深层特征与触发词,采用动态多池化卷积神经网络,对简单事件和复杂事件的事件元素进行同时抽取;
[0098] 根据抽取出的关系对类别,将事件整理成简单事件和复杂事件,最后根据电网故障领域特征对结果进行后处理,后处理主要是根据一些电网领域应用的常识性规则,将完全不合理的特征过滤掉,并在此基础上生成格式化的事件;
[0099] 本发明发明方法简单,执行效率与准确率高。附图说明
[0100] 图1:为本发明电力故障事件抽取流程图
[0101] 图2:为本发明电网事件触发词和特征词提取技术框架;
[0102] 图3:为本发明事件元素与事件生成技术框架。

具体实施方式

[0103] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0104] 本发明提供的技术方案针对电力故障文本特征选取合适的知识图谱与机器学习方法达到实现对故障文本准确抽取的目的。图1为本发明方法流程图。
[0105] 本方法的输入内容包括:电网故障事件的文本(或称为电网故障语料),文本型电网文献数据(例如应急故障预案、演练档案、调度规章制定等)和概念图谱。
[0106] 输出内容包括:结构化的电网故障事件文本。
[0107] 下面结合图1至图3介绍本发明的具体实施方式为一种组合深度学习和概念图谱的电力故障事件抽取方法,具体包括以下步骤:
[0108] 步骤1:定义电网故障事件触发词以及电网故障事件元素;
[0109] 所有类型事件都由触发词和事件元素构成,触发词只能有一个,可以是一个词或由多个词构成,事件元素根据事件类型的不同可能有一个或多个,每个事件元素可以是一个词或是另一个事件;
[0110] 而每个触发词和事件元素都可能被不同的事件共享,即一个词可能在多个不同类型的事件中扮演触发词或事件要素的角色;
[0111] 步骤1中所述电网故障事件元素用于记录电网故障信息,具体包括:设备信息、故障信息、故障处置、故障原因及其它;
[0112] 所述设备信息为:设备名称、电压等级、设备类型、故障元件类型、故障元件、厂站1-n名称、所属地区、所属调度、设备型号、设备厂家、设备额定容量、投运时间、线路长度、是否同杆并架、是否电缆、是否紧凑型杆塔;
[0113] 所述故障信息为:故障时间、故障相别、保护与安控动作情况、重合闸情况、直流再启动情况、停运类型、厂站1-n测距、厂站1-n天气、厂站1-n人员到站时间、综合智能告警是否正确推出、告警源、故障详细情况,所述故障详细情况汇总故障发生、处置、恢复等全过程详细情况,应至少包括发生日期、时间、故障设备名称、故障相别、故障后果等关键故障信息;
[0114] 所述故障处置为:故障影响及处置、恢复时间、设备消缺情况、巡线任务、故障原因/巡线结果;
[0115] 所述故障原因为:一段描述造成故障的文字;
[0116] 所述其它部分(可选)包括:故障性质分类、故障原因分类、关联故障;
[0117] 步骤2:电网故障事件触发词和电网故障事件的特征词提取;
[0118] 首先对原始的实验语料进行预处理(例如:将文档转成TXT格式,去掉停用词等自然语言处理的一些预处理过程。),接着使用分布式语义词向量结合依存句法结构特征和电网元素特征,生成向量形式的语义表示;使用组合的深度学习模型进行触发词抽取,具体为:
[0119] 由长短期记忆循环神经网络抽取含有时序语义的深层特征,再接着用卷积神经网络完成触发词和事件类别的同步抽取;
[0120] 使用概念图谱对故障文本和电力文献数据进行扩展,构建电力故障特征词-概念语义网络;其中概念图谱可以选对中文Dbpedia、中文Probase+或二者相结合的版本;
[0121] 对于上述内容,将其转换成向量形式,形成4个方面的向量:词向量、依存句法结构特征、其它电网事件相关的特征向量(例如:故障设备、所属调度、故障时间、故障相别、故障性质分类等),以及通过概念图谱扩展的电力故障特征词-概念语义网络向量。
[0122] 具体思路如下:
[0123] 采用的是Distributed Representation方式表达词向量、电网相关特征及概念图谱,使用基于神经网络的word2vec,使用skipgram模型作为学习框架,选取最大窗口为11来训练。
[0124] 采用GDep进行依存句法分析,提取依存句法特征。采用循环神经网络提取深层特征,采用卷积神经网络抽取触发词。也就说说在提取基本语义特征生成输入向量之后,不直接使用卷积神经网络进行触发词抽取,而是先使用循环神经网络进一步提取句子的时序特征,将得到的深层特征作为卷积神经网络的输入。这里的循环神经网络使用长短期记忆(LSTM)结构,系统由两个相反的循环神经网络并列组成,再将两个网络的输出进行拼接,得到最终代表句子的深层特征。
[0125] 输入向量X=(x1,x2,...,xn)代表当前训练的句子,对句子中的每个词xi逐个训练,对于每一步训练的xi,我们需要计算出隐藏向量αi,αi是基于当前输入向量xi和上一步的隐藏向量αi-1获得的,使用非线性转移函数θ:αi=θ(xi,αi-1)。每次的循环从句子的第一个词到句子末尾结束,从而得到每个句子的隐藏特征为RNN->(x1,x2,…,xn)=(α1,α2,…,αn)[0126] 这样的循环机制使得对于每个αi,都可以得到从句子的第一个词到当前词间的所有语义特征,但是这样的特征对于事件触发词和事件元素的判断是不够充分的,要想获取完整的上下文特征,还需要知道当前词之后的词对当前词的语义造成的影响。为了解决这个问题,我们需要训练第二个RNN网络,以获取当前词之后的语义信息。这个RNN网络与第一个RNN结构相同,只是从每个句子的最后一个词开始反向训练,直到句子的第一个词结束,可以得到隐藏特征RNN<-(xn,xn-1,…,x1)=(α'n,α'n-1,…,α'1).
[0127] 最后是一个连接层,将两个网络中训练的隐藏层进行连接,得到我们真正需要的深层特征H,H=(h1,h2,…,hn),hi=(αi,α'i)。
[0128] 电力故障特征词-概念语义网络向量也采用LSTM-RNN的方式生成,它由4个部分组成:
[0129] 单词-单词子网络(TWW),表示单词与单词的相互影响力;
[0130] 概念-概念子网络(TCC),表示概念与概念的相互影响力;
[0131] 单词-概念子网络(TWC),表示目标单词与候选概念的可能性;
[0132] 概念-单词子网络(TCW)表示目标概念与对应单词的可能性。接下来,需要对这四个子网络进行节点和关系边的构建。
[0133] 将整个语义网络表示为T=(V,B)。V=VW∪VC表示图中的顶点集合,其中VW表示单词向量集合,其大小为nW=|VW|;VC表示候选概念集合,大小为nC=|VC|。B=BWW∪BWC∪BCC∪BCW表示图中的边集合,其中BWW表示单词与单词之间的关系边,BCC表示概念与概念之间的关系边,BCW和BWC表示单词与概念相互之间的关系边。综合来看T=TWW+TWC+TCC+TCW,从而可以得到网络矩阵。
[0134]
[0135] 对T进行进一步的拆分,可以理解为网络中所有顶点与边的集合,表示为T=(VWW,BWW)∪(VWC,BWC)∪(VCC,BCC)∪(VCW,BCW)。
[0136] 为了分析在一句话中单词与单词之间、概念与概念之间的关系,本文使用共现分析的方法来计算特征之间的相关性。一般来说,两个特征的共现频率越高,它们的相关性越强,通过分析这种关系,可以发现特征项在短文本中的关联性。本文使用的是Jaccard指数,也称为并交比,能够根据特征之间的共现频率来比较数据集的相似性和多样性的统计量。由于Jaccard指数对高频词和低频词的共现并无过于明显的区分,因此,它更适用于特征较为稀疏的短文本中。
[0137]
[0138] 其中,A和B分别代表特征词A和B,|A∩B|表示A和B在短文本中共同出现的次数,|A|表示特征词A在短文本中出现的次数,|B|表示特征词B在短文本中出现的次数。
[0139] 在短文本中引入共现的概念后,通过在语义网络中计算特征词与特征词之间的共现指数就可以对它们之间的关联度进行量化,接下来将依次介绍四个子网络:
[0140] 单词-单词子网络(TWW):
[0141] TWW=(VWW,BWW)表示目标短文本所有单词之间的相关性,该网络中的顶点由当前短文本所有单词组成,表示为{wi|wi∈VW,i=1,2,...,nW},各顶点之间由关系边相连,关系边是指无向加权线段,TWW[i][j]表示短文本中实例wi和wj的共现概率,公式如下:
[0142]
[0143] 其中,wi和wj表示当前短文本中的单词,J(wi,wj)是公式(F-2)提到的Jaccard函数,表示两个单词的共现指数,分母表示单词wi与其他单词的共现指数之和,目的是进行归一化处理,得到相关性的概率。
[0144] 同时,考虑到一对彼此远离的词往往相关性较差,因此可以考虑将距离衰减机制加入到单词网络中。本文引入了距离衰减因子λ∈[0,1]到TWW矩阵中,以减少距离过长的单词之间产生噪音信息,设定两个单词之间的距离为n=|j-i|-1。当λ趋近于1时,将考虑更广泛的上下文,两个词之间的相关性受距离因素的影响大,适用于长文本;当λ趋近于0时,两个词之间的相关性受距离因素的影响较小,更适合短文本。与公式(3-3)合并后如下:
[0145]
[0146] 此外,研究发现单词与概念之间的关系能够辅助调整TWW的结果,当某一个概念能够同时被短文本中多个单词映射时,可以说明它们是有相关性的,根据此思想提出了单词惩罚函数τ(wi,wj,cm),判断概念cm是否能同时映射到实例wi和wj。
[0147]
[0148] 得到最终的TWW:
[0149]
[0150] 概念-概念子网络(TCC):
[0151] TCC=(VCC,BCC)表示目标短文本的所有候选概念之间的相关性。网络中的关系边为无向加权线段,顶点集合由所有候选概念组成,表示为{ci|ci∈VC,i=1,2,...,nC}。TCC[i][j]可以通过统计短文本的候选概念集中每两个概念ci和cj的共现指数并进行归一化处理来获得。由于概念集合与文本中单词之间距离无关,因此不考虑距离因素,公式如下:
[0152]
[0153] 其中,ci和cj表示候选概念集中的概念,J(ci,cj)表示短文本中的两个候选概念的共现指数,分母 表示短文本中的候选概念ci与每一个候选概念的共现指数之和。
[0154] 考虑到在短文本中某个单词能够关联的概念越多,越能说明这些概念有重要的意义,反过来,如果一个单词关联的概念越少,则能说明这些概念可能与文本不相关。根据此思想提出了概念惩罚函数σ(ci,cj,wm),目的是希望通过单词与概念的关系来辅助调整概念的权重,公式如下:
[0155]
[0156] 得到最终TCC:
[0157]
[0158] 单词-概念子网络(TWC):
[0159] TWC=(VWC,BWC)表示目标短文本的单词与其候选概念之间的相关性,该网络中的顶点由单词和候选概念组成,关系边为单向加权指针线段,由单词指向概念。TWC[i][j]可以理解为在给定短文本中出现实例wi时可联想到概念cj的可能性,公式如下:
[0160]
[0161] 其中,freq(wi,cj)表示在Probase+概念图谱中统计出的单词wi与概念cj相关的统计频数,可以直接获得;分母表示与单词wi相关的所有概念的统计频数之和。
[0162] 同时,研究发现单词与概念之间的关系能够辅助调整TWC的值,当单词wi和概念cj能够同时映射到单词wm时,说明它们的关系越密切。根据此思想提出了单词-概念惩罚函数y(wi,cj,wm),公式如下:
[0163]
[0164] 最终TWC:
[0165]
[0166] 概念-单词子网络(TCW):
[0167] TCW=(VCW,BCW)表示短文本的概念与概念相关的所有实例之间的相关性,即在得到的候选概念中ci能被映射到实例wj的可能性,网络中的关系边为单指向加权指针线段,由概念指向单词,关系边的两个顶点分别为概念与其映射出的单词。
[0168]
[0169] 其中,freq(ci,wj)可以从Probase+概念图谱中获取,表示概念ci与其实例单词wj的统计频数,分母表示与概念ci相关的所有映射出的实例单词的统计频数之和,加入距离衰减因子后得到公式:
[0170]
[0171] 根据前文的经验,希望概念与单词之间的关系也能够辅助调整TCW的值,据此提出了概念-单词惩罚函数z(ci,wj,cm),若概念ci与实例wj不同能同时映射到概念cm,则赋予惩罚值0,公式如下:
[0172]
[0173] 得到最终TCW:
[0174]
[0175] 四个语义网络已全部构建完成;
[0176] 经过以上步骤,我们获取了句子的深层特征,语料中的每个句子W(w1,w2,…,wn)对应着深层特征H(h1,h2,…,hn),依然是每个词对应一个特征向量,向量hi即对应每个单词wi。在触发词抽取阶段,将触发词识别任务视为多分类问题。前面已经得到了语料的候选触发词词典,触发词抽取过程是对每个句子的每个候选触发词进行遍历,依次判断当前候选词是否为句子的触发词。训练以句子为单位,将深层特征H和当前候选词的位置j作为模型的输入向量,经过模型的的卷积、池化等操作,进一步对上下文特征进行提取,最后接softmax分类器进行多分类。如果分类结果是非事件标签,则当前候选词不是触发词,否则候选词为触发词,且对应的分类标签为该事件的事件类型。卷积神经网络的训练流程包括卷积、池化和分类;
[0177] 图2描述整个抽取过程。
[0178] 步骤3:事件元素抽取与事件生成;
[0179] 结合上文中得到的深层特征与触发词,采用动态多池化卷积神经网络,对简单事件和复杂事件的事件元素进行同时抽取,简单事件指由单一事件解发词表达的事件,复杂事件是指简单事件所形成的事件关系或事件链;然后根据抽取出的关系对类别,将事件整理成简单事件和复杂事件,最后根据电网故障领域特征对结果进行后处理,后处理主要是根据一些电网领域应用的常识性规则,将完全不合理的特征过滤掉,并在此基础上生成格式化的事件。具体流程如图3所示。
[0180] 在这个步骤中,在以下3个方面与一般的自然语言处理流程稍有差异:
[0181] 在元素识别阶段,不对事件类型做区别处理,每个句子的候选词表中同时包含实体和触发词,对候选词表进行遍历,逐个判断其与已知触发词的关系。对于简单事件而言,只有主题关系和无关系两类,关系对只可能是触发词-实体;对于复杂事件而言,存在主题关系、目标关系和无关系,关系对可能是触发词-实体和触发词-触发词。在识别出所有关系对后,根据每个触发词的关系对类别和个数,分别将其整理为简单事件、绑定事件和复杂事件。最终将各类型事件进行合并,形成最终抽取事件的集合。
[0182] 元素抽取的过程中,需要使用到第2步获得的触发词标注和代表原始语料的深层特征,使用动态多池化卷积神经网络模型进行关系对的抽取。卷积神经网络模型与第2步使用的结构相同,包括卷积、池化、分类的过程,而这里的分类是判断当前句子中已识别出的触发词与每个词的关系,共存在主题关系、目标关系、无关系三个类别。
[0183] 在池化的过程中,使用了动态多池化的方式。为了抽取出最重要的特征,传统的最大池化是在一个池化区选取一个最大值作为特征代表,但对于事件抽取任务来说,传统的最大池化并不能充分的获取到所有的特征信息,因为在事件抽取的任务中,一个句子中可能含有不止一个事件,而且一个事件元素可能在不同触发词形成的事件中,扮演的不同的角色。所以为了更准确的抽取,必须根据句子结构具体分析,以抽取出更加充分的信息。本文使用动态多池化的方式进行抽取,将每个特征区根据触发词和当前事件元素候选词为边界分成3个部分,对每个部分进行最大池化。
[0184] 应当理解的是,本说明书未详细阐述的部分均属于现有技术
[0185] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈