首页 / 专利库 / 软件 / 网络抓取 / 一种面向装备体系论证评估的智能查询方法

一种面向装备体系论证评估的智能查询方法

阅读:783发布:2020-05-12

专利汇可以提供一种面向装备体系论证评估的智能查询方法专利检索,专利查询,专利分析的服务。并且一种面向装备体系论证评估的智能查询方法,首先构建装备体系论证评估知识图谱,前端界面中输入查询问题,语义解析模 块 利用神经网络模型 抽取 输入的查询问题中的实体和关系,进行查询问题的意图识别,转化为查询语句之后,搜索知识图谱并返回答案至前端界面以显示。本方法实现了装备体系论证评估的智能查询,减少人 力 搜索及分析文献的时间,提高效率,加快论证评估 进程 ;智能处理非结构化及半结构化的军事文本数据,极大减少人工构建知识图谱的工作量;模型智能识别问题查询意图,提高提问方式的 自由度 高;支持模型离线化调用,可移植性高。,下面是一种面向装备体系论证评估的智能查询方法专利的具体信息内容。

1.一种面向装备体系论证评估的智能查询方法,其特征在于:
所述智能查询方法中,首先构建装备体系论证评估知识图谱,前端界面中输入查询问题,语义解析模利用神经网络模型抽取输入的查询问题中的实体和关系,进行查询问题的意图识别,转化为查询语句之后,搜索知识图谱并返回答案至前端界面以显示。
2.根据权利要求1所述的一种面向装备体系论证评估的智能查询方法,其特征在于:所述建立知识图谱包括如下步骤:
步骤1,数据抓取:导入军事文献资料,并进行数据清洗过滤;
步骤2,本体设计:利用Protege进行本体设计,所述本体是对装备体系论证评估领域的结构化描述,本体元素主要有类别、对象属性、数值属性等,其中类别主要为武器装备和其对应的信息等;
步骤3,数据结构化:对抓取得到的非结构化和半结构化数据进行处理,利用基于BiLSTM+CRF的命名实体识别模型,提取出军事装备中对应的实体,利用Seq2Seq的关系抽取模型抽取实体之间的关系,实现数据结构化;
步骤4,Rdf数据转换:将结构化处理之后的知识数据转为三元组形式的Rdf数据;
步骤5,Jena框架搭建:基于Jena框架构建装备评估论证知识图谱,转化之后的Rdf数据存放于Tdb数据库中,Fuseki作为Sparql服务器提供交互式查询接口,可通过Sparql进行知识库查询。
3.根据权利要求2所述的一种面向装备体系论证评估的智能查询方法,其特征在于:所述步骤1中资料导入,具体为通过网络爬虫从军事网站抓取非结构化和半结构化的信息,信息主要包括装备的名称,类型,作战参数等,获取信息并导入之后,进行数据清洗,过滤数据中的图片及表格等非文本数据。
4.根据权利要求2所述的一种面向装备体系论证评估的智能查询方法,其特征在于:所述步骤2中,利用Protege进行本体设计,具体为:
步骤2-1,定义类和类公理;
根据装备体系论证评估的相关概念,定义类的概念层次结构;
步骤2-2,定义属性及属性公理;
定义类的属性,对类表示的概念进行描述,属性主要包括对象属性和数据属性,对象属性连接了类中包含的个体,数据属性连接了个体及其具体的取值;
定义属性的性质,属性的性质决定了属性的类型,进一步描述了类中包含的个体之间,个体与其取值之间的关系,包括反转属性,函数属性,反函数属性,传递属性,对称属性;
定义域和值域,限定属性的使用范围。
5.根据权利要求2所述的一种面向装备体系论证评估的智能查询方法,其特征在于:所述建立知识图谱的步骤3中,所述命名实体识别模型采用基于BiLSTM+CRF的神经网络模型,抽取军事装备中对应的命名实体,对应训练数据,采用BIOES的标签对数据集进行标注;
所述基于BiLSTM+CRF的神经网络模型的输入为每个字符经过embedding之后的词向量,词向量通过Word2vec训练得到,词向量输入双向LSTM层,该层自动提取句子特征,并输入CRF层;
通过下式计算CRF层输出的句子得分:
上式中,X为原始句子,n为句子中的字符长度,y为预测的序列结果,A为转移矩阵,Aij表示标签i转移直标签j的概率得分,P为发射矩阵,表示Pij表示第i个字符的标签为j的概率得分,S(X,y)表示句子X的序列标签为y的分值,通过softmax转化以后概率为:
上式中Yx表示所有可能的标签序列,需要寻找能使上式中概率P最大化的标签序列y,利用标签序列y所对应的BIOES标签,从字符序列中获得命名实体。
6.根据权利要求2所述的一种面向装备体系论证评估的智能查询方法,其特征在于:所述建立知识图谱的步骤3中利用Seq2Seq的关系抽取模型抽取命名实体之间的关系,具体地,采用基于Seq2Seq结构的神经网络模型,从文本中抽取装备命名实体之间的关系;
基于Seq2Seq结构的神经网络模型由编码器解码器组成,编码器由一个双向LSTM网络构成,字符序列的词向量作为编码器的输入,编码器输出中间语义向量C,并作为输入传入解码器,解码器由一个单向LSTM网络构成,输出序列以“Start”占位符开始,以“End”占位符结束,并输出关系类型;
在编码阶段,当前时间的隐藏状态由上一时间的状态和当前时间的输入决定,如以下公式所示:
ht=f(ht-1,xt)
上式中t表示在某一个时刻,t-1则是该时刻的上一个时刻;
获得了编码器在各个时间段的隐藏层以后,再将隐藏层的信息汇总,生成最后的语义向量,可直接将最后的隐藏层作为语义向量C,如以下公式所示:
C=hn
或者根据所有隐藏层的状态进行转换以后得到,如以下公式所示:
C=q(h1,h2,h3,...,hn)
在解码阶段,输出解码序列Y=(yStart,yr,yEnd),yr表示模型输出的关系类型,需要求得使的下式中概率P最大化的序列Y,并以序列Y中的yr作为最终的目标类型。
P(Y)=ΠP(y|{yStart,yr,yEnd,C})。
7.根据权利要求1所述的一种面向装备体系论证评估的智能查询方法,其特征在于:所述语义解析模块,解析输入问题的语义,利用基于attention机制的意图识别及槽值填充模型,填补问题中的空槽,取槽值作为问题中的命名实体,并识别问题意图,确认问题对应的命名实体关系类型。
8.根据权利要求7所述的一种面向装备体系论证评估的智能查询方法,其特征在于:所述基于attention机制的意图识别及槽值填充模型进行语义解析,模型对槽值填充和意图识别过程进行联合建模,采用编码器-解码器结构,双向LSTM网络接收问题输入,对于每一个时间i,前向和后向网络的隐藏层状态合并后,作为编码器隐藏层状态hi:
在解码器端输出状态的计算方式如下:
Si=f(si-1,yi-1,hi,ci)
在每个解码步骤i,Si为当前解码器状态,Si-1为前一时间解码器状态、yi为前一时间解码器输出标签,hi为该时间下编码器隐藏状态,ci为该时间下上下文向量;
上下文向量的计算公式如下:
通过编码器隐藏层状态h和注意权重a加权求和得到;
注意力权重的计算公式如下:
ei,k=g(wh,e,si-1,hk)
对于槽值填充,利用softmax公式计算每一个标签y的概率:
上式中h为编码器的隐藏层状态,c为槽值上下文向量,w为对应权重;
对于意图识别,利用softmax公式计算每一个类别y的概率:
上式中h为编码器的隐藏层状态,c为意图上下文向量,w为对应权重。

说明书全文

一种面向装备体系论证评估的智能查询方法

技术领域

[0001] 本发明涉及信息技术领域,具体涉及一种面向装备体系论证评估的智能查询方法。

背景技术

[0002] 装备体系论证评估是指对武器装备的国内外现状、发展趋势、装备能、作战运用模式等以数据为支撑的知识进行全面地、深入地、综合地分析,需要花费大量的精力,查找、翻阅不同文献来获取必要信息。

发明内容

[0003] 针对上述问题,本发明提出一种面向装备体系论证评估的智能查询方法。
[0004] 一种面向装备体系论证评估的智能查询方法,首先构建装备体系论证评估知识图谱,前端界面中输入查询问题,语义解析模利用神经网络模型抽取输入的查询问题中的实体和关系,进行查询问题的意图识别,转化为查询语句之后,搜索知识图谱并返回答案至前端界面以显示。
[0005] 进一步地,建立知识图谱包括如下步骤:
[0006] 步骤1,数据抓取:导入军事文献资料,并进行数据清洗过滤;
[0007] 步骤2,本体设计:利用Protege进行本体设计,本体是对装备体系论证评估领域的结构化描述,本体元素主要有类别、对象属性、数值属性等,其中类别主要为武器装备和其对应的信息等;
[0008] 步骤3,数据结构化:对抓取得到的非结构化和半结构化数据进行处理,利用基于BiLSTM+CRF的命名实体识别模型,提取出军事装备中对应的实体,利用Seq2Seq的关系抽取模型抽取实体之间的关系,实现数据结构化;
[0009] 步骤4,Rdf数据转换:将结构化处理之后的知识数据转为三元组形式的Rdf数据;
[0010] 步骤5,Jena框架搭建:基于Jena框架构建装备评估论证知识图谱,转化之后的Rdf数据存放于Tdb数据库中,Fuseki作为Sparql服务器提供交互式查询接口,可通过Sparql进行知识库查询。
[0011] 进一步地,步骤1中资料导入,具体为通过网络爬虫从军事网站抓取非结构化和半结构化的信息,信息主要包括装备的名称,类型,作战参数等,获取信息并导入之后,进行数据清洗,过滤数据中的图片及表格等非文本数据。
[0012] 进一步地,步骤2中,利用Protege进行本体设计,具体为:
[0013] 步骤2-1,定义类和类公理;
[0014] 根据装备体系论证评估的相关概念,定义类的概念层次结构;
[0015] 步骤2-2,定义属性及属性公理;
[0016] 定义类的属性,对类表示的概念进行描述,属性主要包括对象属性和数据属性,对象属性连接了类中包含的个体,数据属性连接了个体及其具体的取值;
[0017] 定义属性的性质,属性的性质决定了属性的类型,进一步描述了类中包含的个体之间,个体与其取值之间的关系,包括反转属性,函数属性,反函数属性,传递属性,对称属性;
[0018] 定义域和值域,限定属性的使用范围。
[0019] 进一步地,建立知识图谱的步骤3中,命名实体识别模型采用基于BiLSTM+CRF的神经网络模型,抽取军事装备中对应的命名实体,对应训练数据,采用BIOES的标签对数据集进行标注;
[0020] 基于BiLSTM+CRF的神经网络模型的输入为每个字符经过embedding之后的词向量,词向量通过Word2vec训练得到,词向量输入双向LSTM层,该层自动提取句子特征,并输入CRF层;
[0021] 通过下式计算CRF层输出的句子得分:
[0022]
[0023] 上式中,X为原始句子,n为句子中的字符长度,y为预测的序列结果,A为转移矩阵,Aij表示标签i转移直标签j的概率得分,P为发射矩阵,表示Pij表示第i个字符的标签为j的概率得分,S(X,y)表示句子X的序列标签为y的分值,通过softmax转化以后概率为:
[0024]
[0025] 上式中Yx表示所有可能的标签序列,需要寻找能使上式中概率P最大化的标签序列y,利用标签序列y所对应的BIOES标签,从字符序列中获得命名实体。
[0026] 进一步地,建立知识图谱的步骤3中利用Seq2Seq的关系抽取模型抽取命名实体之间的关系,具体地,采用基于Seq2Seq结构的神经网络模型,从文本中抽取装备命名实体之间的关系;
[0027] 基于Seq2Seq结构的神经网络模型由编码器解码器组成,编码器由一个双向LSTM网络构成,字符序列的词向量作为编码器的输入,编码器输出中间语义向量C,并作为输入传入解码器,解码器由一个单向LSTM网络构成,输出序列以“Start”占位符开始,以“End”占位符结束,并输出关系类型;
[0028] 在编码阶段,当前时间的隐藏状态由上一时间的状态和当前时间的输入决定,如以下公式所示:
[0029] ht=f(ht-1,xt)
[0030] 上式中t表示在某一个时刻,t-1则是该时刻的上一个时刻;
[0031] 获得了编码器在各个时间段的隐藏层以后,再将隐藏层的信息汇总,生成最后的语义向量,可直接将最后的隐藏层作为语义向量C,如以下公式所示:
[0032] C=hn
[0033] 或者根据所有隐藏层的状态进行转换以后得到,如以下公式所示:
[0034] C=q(h1,h2,h3,...,hn)
[0035] 在解码阶段,输出解码序列Y=(yStart,yr,yEnd),yr表示模型输出的关系类型,需要求得使的下式中概率P最大化的序列Y,并以序列Y中的yr作为最终的目标类型。
[0036] P(Y)=ΠP(y|{yStart,yr,yEnd,C})
[0037] 进一步地,语义解析模块,解析输入问题的语义,利用基于attention机制的意图识别及槽值填充模型,填补问题中的空槽,取槽值作为问题中的命名实体,并识别问题意图,确认问题对应的命名实体关系类型。
[0038] 进一步地,基于attention机制的意图识别及槽值填充模型进行语义解析,模型对槽值填充和意图识别过程进行联合建模,采用编码器-解码器结构,双向LSTM网络接收问题输入,对于每一个时间i,前向和后向网络的隐藏层状态合并后,作为编码器隐藏层状态hi:
[0039]
[0040] 在解码器端输出状态的计算方式如下:
[0041] Si=f(si-1,yi-1,hi,ci)
[0042] 在每个解码步骤i,Si为当前解码器状态,Si-1为前一时间解码器状态、yi为前一时间解码器输出标签,hi为该时间下编码器隐藏状态,ci为该时间下上下文向量;
[0043] 上下文向量的计算公式如下:
[0044]
[0045] 通过编码器隐藏层状态h和注意力权重a加权求和得到;
[0046] 注意力权重的计算公式如下:
[0047]
[0048] ei,k=g(wh,e,si-1,hk)
[0049] 对于槽值填充,利用softmax公式计算每一个标签y的概率:
[0050]
[0051] 上式中h为编码器的隐藏层状态,c为槽值上下文向量,w为对应权重;
[0052] 对于意图识别,利用softmax公式计算每一个类别y的概率:
[0053]
[0054] 上式中h为编码器的隐藏层状态,c为意图上下文向量,w为对应权重。
[0055] 本发明达到的有益效果为:实现装备体系论证评估的智能查询,减少人力搜索及分析文献的时间,提高效率,加快论证评估进程;智能处理非结构化及半结构化的军事文本数据,极大减少人工构建知识图谱的工作量;模型智能识别问题查询意图,提高提问方式的自由度高;支持模型离线化调用,可移植性高。附图说明
[0056] 图1为本发明实施例中智能查询方法的流程示意图。
[0057] 图2为本发明实施例中命名实体识别模型的结构示意图。
[0058] 图3为本发明实施例中关系抽取模型的结构示意图。
[0059] 图4为本发明实施例中意图识别及槽值填充模型的结构示意图。

具体实施方式

[0060] 下面结合说明书附图对本发明的技术方案做进一步的详细说明。
[0061] 一种面向装备体系论证评估的智能查询方法,首先构建装备体系论证评估知识图谱,前端界面中输入查询问题,语义解析模块利用神经网络模型抽取输入的查询问题中的实体和关系,进行查询问题的意图识别,转化为查询语句之后,搜索知识图谱并返回答案至前端界面以显示。
[0062] 建立知识图谱包括如下步骤:
[0063] 步骤1,数据抓取:导入军事文献资料,并进行数据清洗过滤。资料导入具体为通过网络爬虫从军事网站抓取非结构化和半结构化的信息,信息主要包括装备的名称,类型,作战参数等,获取信息并导入之后,进行数据清洗,过滤数据中的图片及表格等非文本数据。
[0064] 步骤2,本体设计:利用Protege进行本体设计,本体是对装备体系论证评估领域的结构化描述,本体元素主要有类别、对象属性、数值属性等,其中类别主要为武器装备和其对应的信息等。如:歼0,中国分别对应飞行器类别和国家类别,对象属性表示类别之间的关系,如:“歼10的生产国家是中国”表示飞行器类别和国家类别之间的关系,数值属性表示类别的具体参数,如:“歼10的最大飞行速度为2.2赫”表示飞行器类别的最大飞行速度这一数值属性。
[0065] 步骤3,数据结构化:对抓取得到的非结构化和半结构化数据进行处理,利用基于BiLSTM+CRF的命名实体识别模型,提取出军事装备中对应的实体,利用Seq2Seq的关系抽取模型抽取实体之间的关系,实现数据结构化。
[0066] 步骤4,Rdf数据转换:将结构化处理之后的知识数据转为三元组形式的Rdf数据。如“歼10最大飞行速度为2.2马赫”表示为“<歼10><2.2马赫>”。
[0067] 步骤5,Jena框架搭建:基于Jena框架构建装备评估论证知识图谱,转化之后的Rdf数据存放于Tdb数据库中,Fuseki作为Sparql服务器提供交互式查询接口,可通过Sparql进行知识库查询。
[0068] 步骤2中,利用Protege进行本体设计,具体为:
[0069] 步骤2-1,定义类和类公理。
[0070] 根据装备体系论证评估的相关概念,定义类的概念层次结构,例如“飞行器”类,“火炮”类等,并确定类间的关系,包括超类,子类等,例如“飞行器”为超类,“战斗机”类为子类。
[0071] 步骤2-2,定义属性及属性公理。
[0072] 定义类的属性,对类表示的概念进行描述,属性主要包括对象属性和数据属性,对象属性连接了类中包含的个体,数据属性连接了个体及其具体的取值。
[0073] 定义属性的性质,属性的性质决定了属性的类型,进一步描述了类中包含的个体之间,个体与其取值之间的关系,包括反转属性,函数属性,反函数属性,传递属性,对称属性。
[0074] 定义域和值域,限定属性的使用范围,例如属性“制造国家是”可以规定其定义域为“国家”类中包含的所有个体,值域为“飞行器”类中包含的所有的个体。
[0075] 建立知识图谱的步骤3中,命名实体识别模型采用基于BiLSTM+CRF的神经网络模型,抽取军事装备中对应的命名实体,例如“歼10的最大飞行速度是2.2马赫”中需要抽取的实体为“歼10”和“2.2马赫”。对应训练数据,采用BIOES的标签对数据集进行标注。例句中“歼10”被标注成“BIE”,其中“歼”对应“B”,表示实体的开始字符,“1”对应“I”,表示实体的中间字符,“0”对应“E”,表示实体的结束字符,问句中其他不需要抽取的字符标注为“O”。
[0076] 模型的网络结构如图2所示,基于BiLSTM+CRF的神经网络模型的输入为每个字符经过embedding之后的词向量,词向量通过Word2vec训练得到,词向量输入双向LSTM层,该层自动提取句子特征,并输入CRF层。
[0077] 通过下式计算CRF层输出的句子得分:
[0078]
[0079] 上式中,X为原始句子,n为句子中的字符长度,y为预测的序列结果,A为转移矩阵,Aij表示标签i转移直标签j的概率得分,P为发射矩阵,表示Pij表示第i个字符的标签为j的概率得分,S(X,y)表示句子X的序列标签为y的分值,通过softmax转化以后概率为:
[0080]
[0081] 上式中Yx表示所有可能的标签序列,需要寻找能使上式中概率P最大化的标签序列y,利用标签序列y所对应的BIOES标签,从字符序列中获得命名实体。
[0082] 建立知识图谱的步骤3中利用Seq2Seq的关系抽取模型抽取命名实体之间的关系,具体地,采用基于Seq2Seq结构的神经网络模型,从文本中抽取装备命名实体之间的关系。并与rdf数据对应,例如“歼10的最大飞行速度是2.2马赫”中需要抽取的关系“最大飞行速度”,对应三元组“<歼10><2.2马赫>”中的MaxSpeed。
[0083] 基于Seq2Seq结构的神经网络模型如图3所示,由编码器和解码器组成,编码器由一个双向LSTM网络构成,字符序列的词向量作为编码器的输入,编码器输出中间语义向量C,并作为输入传入解码器,解码器由一个单向LSTM网络构成,输出序列以“Start”占位符开始,以“End”占位符结束,并输出关系类型。例如图3中,字符序列“最大飞行速”的词向量作为编码器的输入,编码器输出中间语义向量C,并作为输入传入解码器,解码器由一个单向LSTM网络构成,输出序列以“Start”占位符开始,以“End”占位符结束,并输出关系类型“MaxSpeed”。
[0084] 在编码阶段,当前时间的隐藏状态由上一时间的状态和当前时间的输入决定,如以下公式所示:
[0085] ht=f(ht-1,xt)
[0086] 上式中t表示在某一个时刻,t-1则是该时刻的上一个时刻。
[0087] 获得了编码器在各个时间段的隐藏层以后,再将隐藏层的信息汇总,生成最后的语义向量,可直接将最后的隐藏层作为语义向量C,如以下公式所示:
[0088] C=hn
[0089] 或者根据所有隐藏层的状态进行转换以后得到,如以下公式所示:
[0090] C=q(h1,h2,h3,...,hn)
[0091] 在解码阶段,输出解码序列Y=(yStart,yr,yEnd),yr表示模型输出的关系类型,需要求得使的下式中概率P最大化的序列Y,并以序列Y中的yr作为最终的目标类型。
[0092] P(Y)=ΠP(y|{yStart,yr,yEnd,C})
[0093] 语义解析模块,解析输入问题的语义,利用基于attention机制的意图识别及槽值填充模型,填补问题中的空槽,取槽值作为问题中的命名实体,并识别问题意图,确认问题对应的命名实体关系类型。
[0094] 基于attention机制的意图识别及槽值填充模型进行语义解析,模型网络结构如图4所示,模型对槽值填充和意图识别过程进行联合建模,采用编码器-解码器结构,双向LSTM网络接收问题输入,对于每一个时间i,前向和后向网络的隐藏层状态合并后,作为编码器隐藏层状态hi。
[0095]
[0096] 在解码器端输出状态的计算方式如下:
[0097] Si=f(si-1,yi-1,hi,ci)
[0098] 在每个解码步骤i,Si为当前解码器状态,Si-1为前一时间解码器状态、yi为前一时间解码器输出标签,hi为该时间下编码器隐藏状态,ci为该时间下上下文向量。
[0099] 上下文向量的计算公式如下:
[0100]
[0101] 通过编码器隐藏层状态h和注意力权重a加权求和得到。
[0102] 注意力权重的计算公式如下:
[0103]
[0104] ei,k=g(wh,e,si-1,hk)
[0105] 对于槽值填充,利用softmax公式计算每一个标签y的概率:
[0106]
[0107] 上式中h为编码器的隐藏层状态,c为槽值上下文向量,w为对应权重。
[0108] 对于意图识别,利用softmax公式计算每一个类别y的概率:
[0109]
[0110] 上式中h为编码器的隐藏层状态,c为意图上下文向量,w为对应权重。
[0111] 以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈