首页 / 专利库 / 图形技术 / 知识可视化 / 基于知识图谱分析的装备试验体系规划决策的方法及系统

基于知识图谱分析的装备试验体系规划决策的方法及系统

阅读:197发布:2020-05-08

专利汇可以提供基于知识图谱分析的装备试验体系规划决策的方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于知识图谱分析的装备试验体系规划决策的方法和系统,以任务模板的方式对试验信息进行采集并结构化入库,得到原始试验数据,对原始试验数据进信息预处理,得到知识数据;利用 自然语言处理 对知识数据进行信息 抽取 、知识融合,构建试验知识图谱,并呈现 可视化 的试验知识图谱;采用 机器学习 ,对试验知识图谱进行 文本挖掘 后,输出试验体系规划决策。本发明通过将试验信息进一步组织和抽象成试验知识,进行知识实体 节点 之间关联以及与元数据的关联挖掘,最终以知识节点的多属性关联为 基础 ,构建了多源异构试验知识图谱并进行图谱的可视化呈现,为试验体系规划决策提供有 力 支撑 。,下面是基于知识图谱分析的装备试验体系规划决策的方法及系统专利的具体信息内容。

1.一种基于知识图谱分析的装备试验体系规划决策的方法,其特征在于,包括以下步骤:
试验信息抽取融合步骤:以任务模板的方式对试验信息进行采集并结构化入库,得到原始试验数据,对原始试验数据进信息预处理,得到知识数据;
知识图谱构建步骤:利用自然语言处理对知识数据进行信息抽取、知识融合,构建试验知识图谱,并呈现可视化的试验知识图谱;
试验体系智能规划步骤:采用机器学习,对试验知识图谱进行文本挖掘后,输出试验体系规划决策。
2.根据权利要求1所述的基于知识图谱分析的装备试验体系规划决策的方法,其特征在于,所述试验信息抽取融合步骤包括:
信息采集步骤:结合多线程和分布式的定向采集方式,采集得到原始试验数据;
信息清洗步骤:区分原始试验数据中的结构化数据和非结构化数据,分别设立清洗规则,对原始试验数据进行检查和错误清理,得到修正数据,并形成清理数据日志;
信息转换步骤:对修正数据的语义表达、数据类型、数据长度、数据精度中的任一项或任多项设定统一规则,依据统一规则对修正数据进行数据转化;
要素标记步骤:明确原始试验数据中的属性要素信息,抽取属性要素信息中的关键信息,适用关键信息对原始试验数据进行标记。
3.根据权利要求1所述的基于知识图谱分析的装备试验体系规划决策的方法,其特征在于,所述知识图谱构建步骤包括:
信息抽取步骤:利用自然语言处理对知识数据进行信息抽取,减少信息冗余,消除信息矛盾,得到抽取后数据,所述信息抽取包括实体抽取、属性抽取、关系抽取中的任一项或任多项;
知识融合步骤:对抽取后数据与知识图谱进行融合,将得到的知识进行合并,形成试验分析数据;
构建可视步骤:对试验分析数据进行本体构建、词汇收集、文本分词处理后形成备用知识三元组,进行试验知识图谱的绘制并可视化展示。
4.根据权利要求1所述的基于知识图谱分析的装备试验体系规划决策的方法,其特征在于,所述试验体系智能规划步骤包括:
需求分解步骤:接收装备试验的任务需求的输入,利用知识图谱对任务需求进行自顶向下分解,得到需求分解信息;
信息聚合步骤:以装备试验的基础单元数据自底向上聚合,得到聚合信息;
体系输出步骤:结合需求分析信息和聚合信息,形成与装备试验目的相匹配的试验体系要素,基于试验体系要素形成试验体系规划决策。
5.根据权利要求2所述的基于知识图谱分析的装备试验体系规划决策的方法,其特征在于,所述属性要素信息包括原始试验数据中产生时间、标题、修改时间、来源、所属分类、可信程度、作者信息中的任一项或任多项。
6.一种基于知识图谱分析的装备试验体系规划决策的系统,其特征在于,包括以下模
试验信息抽取融合模块:以任务模板的方式对试验信息进行采集并结构化入库,得到原始试验数据,对原始试验数据进信息预处理,得到知识数据;
知识图谱构建模块:利用自然语言处理对知识数据进行信息抽取、知识融合,构建试验知识图谱,并呈现可视化的试验知识图谱;
试验体系智能规划模块:采用机器学习,对试验知识图谱进行文本挖掘后,输出试验体系规划决策。
7.根据权利要求6所述的基于知识图谱分析的装备试验体系规划决策的系统,其特征在于,所述试验信息抽取融合模块包括:
信息采集模块:结合多线程和分布式的定向采集方式,采集得到原始试验数据;
信息清洗模块:区分原始试验数据中的结构化数据和非结构化数据,分别设立清洗规则,对原始试验数据进行检查和错误清理,得到修正数据,并形成清理数据日志;
信息转换模块:对修正数据的语义表达、数据类型、数据长度、数据精度中的任一项或任多项设定统一规则,依据统一规则对修正数据进行数据转化;
要素标记模块:明确原始试验数据中的属性要素信息,抽取属性要素信息中的关键信息,适用关键信息对原始试验数据进行标记。
8.根据权利要求6所述的基于知识图谱分析的装备试验体系规划决策的系统,其特征在于,所述知识图谱构建模块包括:
信息抽取模块:利用自然语言处理对知识数据进行信息抽取,减少信息冗余,消除信息矛盾,得到抽取后数据,所述信息抽取包括实体抽取、属性抽取、关系抽取中的任一项或任多项;
知识融合模块:对抽取后数据与知识图谱进行融合,将得到的知识进行合并,形成试验分析数据;
构建可视模块:对试验分析数据进行本体构建、词汇收集、文本分词处理后形成备用知识三元组,进行试验知识图谱的绘制并可视化展示。
9.根据权利要求6所述的基于知识图谱分析的装备试验体系规划决策的系统,其特征在于,所述试验体系智能规划模块包括:
需求分解模块:接收装备试验的任务需求的输入,利用知识图谱对任务需求进行自顶向下分解,得到需求分解信息;
信息聚合模块:以装备试验的基础单元数据自底向上聚合,得到聚合信息;
体系输出模块:结合需求分析信息和聚合信息,形成与装备试验目的相匹配的试验体系要素,基于试验体系要素形成试验体系规划决策。
10.根据权利要求7所述的基于知识图谱分析的装备试验体系规划决策的系统,其特征在于,所述属性要素信息包括原始试验数据中产生时间、标题、修改时间、来源、所属分类、可信程度、作者信息中的任一项或任多项。

说明书全文

基于知识图谱分析的装备试验体系规划决策的方法及系统

技术领域

[0001] 本发明涉及计算机信息处理技术领域,具体地,基于大数据自然语言处理,涉及一种基于知识图谱分析的装备试验体系规划决策的方法及系统。

背景技术

[0002] 随着武器系统的发展,武器装备种类越来越多,其试验流程也日益复杂,试验体系和试验过程仅靠人工编排已不能满足现代军事试验的要求。随着战争形态向信息化转变和以信息技术为核心的高技术武器装备发展,军队靶场的试验需求发生了许多新的变化,靶场发展面临新的挑战和机遇。
[0003] 军队靶场试验体系研究目前还处于“单打斗”状态,停留在一个个“点”上,还未形成“面”和“体”,距离真正意义上“体系”还有相当距离。迎接面临的新挑战,就要以体系工程理论方法为指导,走出机械化的思维模式,确立信息化的科学发展理念树立信息时代军队靶场试验体系科学发展新思路。
[0004] 为了使试验规划更加科学合理有效,将知识图谱技术应用于试验体系规划和试验过程规划过程具有重要的意义。以知识图谱为代表的知识工程技术应用是解决该难题的方法之一。知识是对信息的进一步组织和抽象,符合人类活动的语义和逻辑。因此,相对于信息,知识能更直接地指导人的决策和行动,从而弥补信息优势向决策优势转换中的缺失,即信息优势首先转换为知识优势,然后再由知识优势转换为决策优势。
[0005] 知识图谱是谷歌公司于2012年提出的一种用于增强其搜索引擎功能的辅助知识库,它将普通Web网页链接转变为实体概念链接,使得信息检索由基于关键字的模糊匹配转变成基于语义的知识匹配,用户不必浏览大量网页,就能够准确定位所需要的信息。科学是现代社会的驱动,科学评价是改善和提升科学质量的重要途径。
[0006] 目前国外对基于知识图谱研究主要用于科学评价和学科分类。其中Pino-Díaz提出一个可视化评价战略研究网络的新方法,并将其应用于“西班牙对保护区的研究”中,通过国内与国际数据,使用二维图和三维图展示,认为知识图谱可以评价知识、促进知识发现和利于知识决策。Medina等人运用网络理论,具体使用引证网络,可视化识别对特定种子期刊最重要的相关期刊,并认为与传统的期刊分类系统不同,该图谱具有新视和新的应用。Nerur从作者共引分析的角度进行了分析,识别出了连接不同领域的关键人物,并通过多维尺度分析的方法将知识结构展示在二维空间当中,并同样分3个时间段进行到了图谱的绘制。相较于国外的研究,国内的知识图谱研究起步较晚,但到目前为止,已经有一些不同领域的学者使用知识图谱的相关研究方法,并取得了一定的研究成果。陈悦和王续琨等人以AMJ、AMR以及ASQ等10种管理学的重要期刊为分析对象,利用共引分析以及共现分析绘制了管理学领域的知识图谱,识别出了组织行为理论、组织结构理论以及战略管理理论这三大主导理论。
[0007] 专利文献CN105787105A公开了一种基于迭代模型的中文百科知识图谱分类体系构建方法,提出了通过迭代的方式将知识图谱分类体系中实体节点和类目节点进行特征计算,再利用新的类目特征重新判断实体节点和类目之间的关系,直到实体节点和类目节点关系不再变化,该方法的侧重点在于介绍构建通用的分类体系,在试验体系运用上具有一定的局限性。
[0008] 专利文献CN107679157A公开了一种自动编码方法,通过预先完成编码规则的定义,再确定待编码对象在分类体系中的位置,即可自动生成编码,从而降低人的劳动强度,减少人为错误。但是没有充分计算出信息文本中的语义关联,从而在进行体系规划时具有一定的片面性。

发明内容

[0009] 针对现有技术中的缺陷,本发明的目的是提供一种基于知识图谱分析的装备试验体系规划决策的方法及系统。
[0010] 根据本发明提供的一种基于知识图谱分析的装备试验体系规划决策的方法,包括以下步骤:
[0011] 试验信息抽取融合步骤:以任务模板的方式对试验信息进行采集并结构化入库,得到原始试验数据,对原始试验数据进信息预处理,得到知识数据;
[0012] 知识图谱构建步骤:利用自然语言处理对知识数据进行信息抽取、知识融合,构建试验知识图谱,并呈现可视化的试验知识图谱;
[0013] 试验体系智能规划步骤:采用机器学习,对试验知识图谱进行文本挖掘后,输出试验体系规划决策。
[0014] 优选地,所述试验信息抽取融合步骤包括:
[0015] 信息采集步骤:结合多线程和分布式的定向采集方式,采集得到原始试验数据;
[0016] 信息清洗步骤:区分原始试验数据中的结构化数据和非结构化数据,分别设立清洗规则,对原始试验数据进行检查和错误清理,得到修正数据,并形成清理数据日志;
[0017] 信息转换步骤:对修正数据的语义表达、数据类型、数据长度、数据精度中的任一项或任多项设定统一规则,依据统一规则对修正数据进行数据转化;
[0018] 要素标记步骤:明确原始试验数据中的属性要素信息,抽取属性要素信息中的关键信息,适用关键信息对原始试验数据进行标记。
[0019] 优选地,所述知识图谱构建步骤包括:
[0020] 信息抽取步骤:利用自然语言处理对知识数据进行信息抽取,减少信息冗余,消除信息矛盾,得到抽取后数据,所述信息抽取包括实体抽取、属性抽取、关系抽取中的任一项或任多项;
[0021] 知识融合步骤:对抽取后数据与知识图谱进行融合,将得到的知识进行合并,形成试验分析数据;
[0022] 构建可视步骤:对试验分析数据进行本体构建、词汇收集、文本分词处理后形成备用知识三元组,进行试验知识图谱的绘制并可视化展示。
[0023] 优选地,所述试验体系智能规划步骤包括:
[0024] 需求分解步骤:接收装备试验的任务需求的输入,利用知识图谱对任务需求进行自顶向下分解,得到需求分解信息;
[0025] 信息聚合步骤:以装备试验的基础单元数据自底向上聚合,得到聚合信息;
[0026] 体系输出步骤:结合需求分析信息和聚合信息,形成与装备试验目的相匹配的试验体系要素,基于试验体系要素形成试验体系规划决策。
[0027] 优选地,所述属性要素信息包括原始试验数据中产生时间、标题、修改时间、来源、所属分类、可信程度、作者信息中的任一项或任多项。
[0028] 根据本发明提供的一种基于知识图谱分析的装备试验体系规划决策的系统,包括以下模
[0029] 试验信息抽取融合模块:以任务模板的方式对试验信息进行采集并结构化入库,得到原始试验数据,对原始试验数据进信息预处理,得到知识数据;
[0030] 知识图谱构建模块:利用自然语言处理对知识数据进行信息抽取、知识融合,构建试验知识图谱,并呈现可视化的试验知识图谱;
[0031] 试验体系智能规划模块:采用机器学习,对试验知识图谱进行文本挖掘后,输出试验体系规划决策。
[0032] 优选地,所述试验信息抽取融合模块包括:
[0033] 信息采集模块:结合多线程和分布式的定向采集方式,采集得到原始试验数据;
[0034] 信息清洗模块:区分原始试验数据中的结构化数据和非结构化数据,分别设立清洗规则,对原始试验数据进行检查和错误清理,得到修正数据,并形成清理数据日志;
[0035] 信息转换模块:对修正数据的语义表达、数据类型、数据长度、数据精度中的任一项或任多项设定统一规则,依据统一规则对修正数据进行数据转化;
[0036] 要素标记模块:明确原始试验数据中的属性要素信息,抽取属性要素信息中的关键信息,适用关键信息对原始试验数据进行标记。
[0037] 优选地,所述知识图谱构建模块包括:
[0038] 信息抽取模块:利用自然语言处理对知识数据进行信息抽取,减少信息冗余,消除信息矛盾,得到抽取后数据,所述信息抽取包括实体抽取、属性抽取、关系抽取中的任一项或任多项;
[0039] 知识融合模块:对抽取后数据与知识图谱进行融合,将得到的知识进行合并,形成试验分析数据;
[0040] 构建可视模块:对试验分析数据进行本体构建、词汇收集、文本分词处理后形成备用知识三元组,进行试验知识图谱的绘制并可视化展示。
[0041] 优选地,所述试验体系智能规划模块包括:
[0042] 需求分解模块:接收装备试验的任务需求的输入,利用知识图谱对任务需求进行自顶向下分解,得到需求分解信息;
[0043] 信息聚合模块:以装备试验的基础单元数据自底向上聚合,得到聚合信息;
[0044] 体系输出模块:结合需求分析信息和聚合信息,形成与装备试验目的相匹配的试验体系要素,基于试验体系要素形成试验体系规划决策。
[0045] 与现有技术相比,本发明具有如下的有益效果:
[0046] 1、运用知识图谱技术使得试验数据在语义层面上自动综合关联,实现多类型、多领域试验数据的融合共享,从而有力的支撑战场态势全局视图。
[0047] 2、使底层的数据/信息面向不同的功能域,根据战场空间和作战阶段的变化,根据各个功能要素的职能任务对数据信息进行动态组织融合,提供精确的信息保障能力,满足高时效的指挥作业要求。
[0048] 3、对历史、实时的试验信息进行全维度的汇聚,更深层次的关联以及更多样式挖掘,进一步提升试验管理的智能化平,为指挥员科学决策提供支撑。附图说明
[0049] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0050] 图1为本发明的体系结构示意图;
[0051] 图2为本发明的系统流程示意图;
[0052] 图3为本发明的系统忘了拓扑图;
[0053] 图4为本发明的试验信息清洗转换流程示意图;
[0054] 图5为本发明的试验信息分词解码图;
[0055] 图6为本发明的事件抽取示例示意图;
[0056] 图7为本发明的试验体系知识图谱示意图。

具体实施方式

[0057] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0058] 随着武器系统的发展,武器装备种类越来越多,试验流程也日益复杂,试验体系和试验过程仅靠人工编排已不能满足现代军事试验的要求。为了使试验规划更加科学合理有效,本发明提出了将知识图谱技术应用于试验体系规划和试验过程规划。通过将试验信息进一步组织和抽象成试验知识,利用自然语言处理技术对试验数据进行语义层面上的信息抽取,同时针对试验中的知识实体节点和元数据,进行知识实体节点之间关联以及与元数据的关联挖掘,最终以知识节点的多属性关联为基础,构建了多源异构试验知识图谱并进行图谱的可视化呈现,为试验体系规划决策提供有力支撑。
[0059] 本发明要解决的技术问题体现在以下几点:
[0060] (1)试验信息抽取融合:试验信息是整个试验体系规划的基础,本发明通过以任务模板的方式对试验信息进行定向采集并结构化入库,并结合多线程和分布式采集等技术,对试验信息进行采集、清洗、整合、同步监测等,试验信息抽取融合是为了构建试验体系知识图谱做准备。
[0061] (2)装备试验体系的知识图谱构建:知识图谱的构建不仅对于试验体系的理解与规划有着极大的作用,也对知识节点之间的关联、追踪及可视化有着巨大的帮助作用。在构建知识图谱的过程中,如何快速有效的从大量的规则和不规则数据值中挖掘出有价值的知识信息以及信息的融合去冗余,成为构建装备试验体系知识图谱的关键,也是知识图谱构建工具研制的核心。本方法中的装备试验体系知识图谱构建主要是利用自然语言处理技术对试验数据进行语义层面上的信息抽取,例如实体抽取、属性抽取、关系抽取等。其次是针对试验中的知识实体节点和元数据,进行知识实体节点之间关联以及与元数据的关联挖掘,最终以知识节点的多属性关联为基础,构建多源异构试验知识图谱并进行图谱的可视化呈现的工具。
[0062] (3)试验体系智能规划:体系智能规划是整个系统中的高层应用,它直接向用户提供了体系自动分类、体系智能规划决策等功能。本发明中试验体系分析方法是在基于试验信息特征的基础上融合了自然语言处理技术中的众多算法,包括检索、分类、聚类和推荐以及语义相似度计算等算法,解决了人工进行试验分类,人工编排试验体系的难点痛点。
[0063] 根据本发明提供的一种基于知识图谱分析的装备试验体系规划决策的方法,包括以下步骤:
[0064] 试验信息抽取融合步骤:以任务模板的方式对试验信息进行采集并结构化入库,得到原始试验数据,对原始试验数据进信息预处理,得到知识数据;
[0065] 知识图谱构建步骤:利用自然语言处理对知识数据进行信息抽取、知识融合,构建试验知识图谱,并呈现可视化的试验知识图谱;
[0066] 试验体系智能规划步骤:采用机器学习,对试验知识图谱进行文本挖掘后,输出试验体系规划决策。
[0067] 具体地,所述试验信息抽取融合步骤包括:
[0068] 信息采集步骤:结合多线程和分布式的定向采集方式,采集得到原始试验数据;
[0069] 信息清洗步骤:区分原始试验数据中的结构化数据和非结构化数据,分别设立清洗规则,对原始试验数据进行检查和错误清理,得到修正数据,并形成清理数据日志;
[0070] 信息转换步骤:对修正数据的语义表达、数据类型、数据长度、数据精度中的任一项或任多项设定统一规则,依据统一规则对修正数据进行数据转化;
[0071] 要素标记步骤:明确原始试验数据中的属性要素信息,抽取属性要素信息中的关键信息,适用关键信息对原始试验数据进行标记。
[0072] 具体地,所述知识图谱构建步骤包括:
[0073] 信息抽取步骤:利用自然语言处理对知识数据进行信息抽取,减少信息冗余,消除信息矛盾,得到抽取后数据,所述信息抽取包括实体抽取、属性抽取、关系抽取中的任一项或任多项;
[0074] 知识融合步骤:对抽取后数据与知识图谱进行融合,将得到的知识进行合并,形成试验分析数据;
[0075] 构建可视步骤:对试验分析数据进行本体构建、词汇收集、文本分词处理后形成备用知识三元组,进行试验知识图谱的绘制并可视化展示。
[0076] 具体地,所述试验体系智能规划步骤包括:
[0077] 需求分解步骤:接收装备试验的任务需求的输入,利用知识图谱对任务需求进行自顶向下分解,得到需求分解信息;
[0078] 信息聚合步骤:以装备试验的基础单元数据自底向上聚合,得到聚合信息;
[0079] 体系输出步骤:结合需求分析信息和聚合信息,形成与装备试验目的相匹配的试验体系要素,基于试验体系要素形成试验体系规划决策。
[0080] 具体地,所述属性要素信息包括原始试验数据中产生时间、标题、修改时间、来源、所属分类、可信程度、作者信息中的任一项或任多项。
[0081] 根据本发明提供的一种基于知识图谱分析的装备试验体系规划决策的系统,包括以下模块:
[0082] 试验信息抽取融合模块:以任务模板的方式对试验信息进行采集并结构化入库,得到原始试验数据,对原始试验数据进信息预处理,得到知识数据;
[0083] 知识图谱构建模块:利用自然语言处理对知识数据进行信息抽取、知识融合,构建试验知识图谱,并呈现可视化的试验知识图谱;
[0084] 试验体系智能规划模块:采用机器学习,对试验知识图谱进行文本挖掘后,输出试验体系规划决策。
[0085] 具体地,所述试验信息抽取融合模块包括:
[0086] 信息采集模块:结合多线程和分布式的定向采集方式,采集得到原始试验数据;
[0087] 信息清洗模块:区分原始试验数据中的结构化数据和非结构化数据,分别设立清洗规则,对原始试验数据进行检查和错误清理,得到修正数据,并形成清理数据日志;
[0088] 信息转换模块:对修正数据的语义表达、数据类型、数据长度、数据精度中的任一项或任多项设定统一规则,依据统一规则对修正数据进行数据转化;
[0089] 要素标记模块:明确原始试验数据中的属性要素信息,抽取属性要素信息中的关键信息,适用关键信息对原始试验数据进行标记。
[0090] 具体地,所述知识图谱构建模块包括:
[0091] 信息抽取模块:利用自然语言处理对知识数据进行信息抽取,减少信息冗余,消除信息矛盾,得到抽取后数据,所述信息抽取包括实体抽取、属性抽取、关系抽取中的任一项或任多项;
[0092] 知识融合模块:对抽取后数据与知识图谱进行融合,将得到的知识进行合并,形成试验分析数据;
[0093] 构建可视模块:对试验分析数据进行本体构建、词汇收集、文本分词处理后形成备用知识三元组,进行试验知识图谱的绘制并可视化展示。
[0094] 具体地,所述试验体系智能规划模块包括:
[0095] 需求分解模块:接收装备试验的任务需求的输入,利用知识图谱对任务需求进行自顶向下分解,得到需求分解信息;
[0096] 信息聚合模块:以装备试验的基础单元数据自底向上聚合,得到聚合信息;
[0097] 体系输出模块:结合需求分析信息和聚合信息,形成与装备试验目的相匹配的试验体系要素,基于试验体系要素形成试验体系规划决策。
[0098] 本发明提供的基于知识图谱分析的装备试验体系规划决策的系统,可以通过基于知识图谱分析的装备试验体系规划决策的方法的步骤流程实现。本领域技术人员可以将基于知识图谱分析的装备试验体系规划决策的方法理解为所述基于知识图谱分析的装备试验体系规划决策的系统的优选例。
[0099] 本发明的优势体现在以下三个方面,一是构建试验体系全局视图的需要。随着我军试验数据信息的获取手段不断丰富,各试验平台获取的数据体量越来越大,试验数据信息的拓展为包含文字、数据库、格式报、图像、语音、视频等多种类型,试验数据积累的速度越来越快,知识图谱技术能够使得试验数据在语义层面上自动综合关联,实现多类型、多领域试验数据的融合共享,从而有力的支撑战场态势全局视图;二是支撑面向智能化试验分类的需要。传统的数据组织方法缺乏基于语义匹配的动态数据分类能力,这使得各个作战要素看到的数据分类完全统一。知识图谱技术能够使底层的数据/信息面向不同的功能域,根据战场空间和作战阶段的变化,根据各个功能要素的职能任务对数据信息进行动态组织融合,提供精确的信息保障能力,满足高时效的指挥作业要求;三是提试验体系规划智能决策水平的需要。未来试验流程乃至体系规划决策越来越多地依赖于对海量试验信息的快速分析和高效处理,知识图谱技术能够对历史、实时的试验信息进行全维度的汇聚,更深层次的关联以及更多样式挖掘,进一步提升试验管理的智能化水平,为指挥员科学决策提供支撑。
[0100] 如图1所示,采用自底向上、多层次的结构来进行数据分析。本发明对海量试验数据展开分析和挖掘,在深入研究装备试验体系的基础上,结合了试验体系规划流程和试验数据特征,采用了自然语言处理算法,给出了面向试验体系规划的知识图谱构建框架。构建框架过程中运用到以下三点:
[0101] (1)试验信息抽取融合
[0102] 试验信息抽取融合负责对采集的试验信息进行检查、清理、转换和标注,去除数据中的错误,并进行转换和标注后入库。主要包含试验信息清洗,试验信息转换,试验信息要素标引三个流程。
[0103] 试验信息清洗步骤具体如下:①分析试验数据结构确定结构化数据和非结构试验数据的清洗规则,规则库中的规则以试验数据规范体系为基础,是数据进行检查和错误清理的依据。规则库管理实现对规则库的管理与维护。转换规则库给出了无法直接映射关系的数据表列的处理函数,并包括一些其他格式转换功能,比如不同日期格式的转换,不同精度数据类型的转换等。②通过ocr识别、正则表达式等方法将不完整、重复和错误的试验数据转化为满足数据规范要求的试验数据。主要包括问题数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等,并对数据修正过程进行数据管理记录,形成数据清理日志。
[0104] 试验信息转换步骤具体如下:①对试验数据的语义表达、数据类型、数据长度、数据精度等方面进行统一。②通过自定义试验数据转换函数将清洗后的数据转化为具有统一格式。③制定任务进行数据转换。
[0105] 试验信息要素标引步骤具体如下:①明确试验数据产生时间、标题、修改时间、来源、所属分类、可信程度、作者、属性信息等内容。②抽取针试验信息中的关键词、摘要等信息。③对试验数据进行标注和编码。
[0106] (2)试验体系知识图谱构建
[0107] 试验体系知识图谱构建不仅对于试验体系理解与规划有着极大的作用,也对试验节点之间的关联、追踪及可视化有着巨大的帮助作用。在构建试验体系知识图谱的过程中,如何快速有效的从大量的规则和不规则数据值中挖掘出有价值的知识信息以及信息的融合去冗余,成为构建知识图谱的关键,也是试验知识图谱构建工具研制的核心,本问中的试验知识图谱构建主要是利用自然语言处理技术对试验数据进行语义层面上的信息抽取,例如实体抽取、属性抽取、关系抽取等。其次是针对试验信息中的知识实体节点和元数据,进行知识实体节点之间关联以及与元数据的关联挖掘,最终以知识节点的多属性关联为基础,构建多源异构试验体系知识图谱并进行试验体系的可视化呈现。该方法主要包括试验信息融合和试验体系知识图谱构建等主要流程。
[0108] 试验信息融合步骤具体如下:①对试验信息进行共指消解以及实体消歧的工作,以减少试验信息的数据冗余以及消除相关的矛盾部分。②对处理好的试验数据和构建好的知识图谱进行融合,这一部分将会涉及实体链接的工作。同时对试验信息进行可信度分析。③将得到的知识进行合并,也就是从不同来源的试验数据对现有知识图谱进行补全得出更全面的试验分析数据。
[0109] 试验体系知识图谱步骤具体如下:①实现知识节点的有序化组织,利用基本的自然语言处理技术实现无序无规信息向有序有规信息的转换,保证对知识节点的有效利用,能够自动挖掘知识节点属性真值,丰富知识节点标引内容,为后续关联提供基础。②建立一套行之有效的规范以及该规范的管控体系,实现从管理到查询到综合分析的全面管控,管理层次从接口到ETL处理、业务逻辑处理、结果展现处理和指标的方方面面。构成数据仓库应用系统的核心和基础。做到开发者能严格遵守规范,维护者和使用者有规范可查,有力的保障数据仓库的健壮性和可维护性。对数据仓库的层次结构、主题域划分,各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。能够清晰的展现各层次结构之间的数据流程,图形化展现各对象之间的关系,展现数据的来源。③实现知识节点的关联分析,可基于试验信息抽取术语、词频统计、装备词频统计以及事件属性等信息,对知识节点进行试验分类关联分析、试验流程关联分析等操作。根据明显的相关类别,对相关知识节点进行属性标引,并对相关性较高的知识节点进行关联标引,能够基于知识节点属性,自动将语义相近或相同的实体属性自动关联。④建立试验知识本体。采取人工建模结合Protégé软件工具的形式完成对试验领域本体概念与属性的刻画与定义。⑤构建试验体系词汇表,对试验知识本体库进行适当补充。⑥将试验知识存入图数据库。⑦在完成对试验领域知识进行本体构建、词汇收集、文本分词处理、形成备用知识三元组的基础上,融合试验领域固有且已在实践中被证明正确性的理论进行试验知识图谱的绘制。
[0110] (3)试验体系智能规划
[0111] 为了实现试验体系智能规划,本文采用了以自然语言处理为主的技术,涉及到机器学习、神经网络和深度学习等前沿技术,涵盖了众多文本挖掘分析算法,包括实现检索、摘要、分类、聚类、推荐以及语义相似度计算等等众多子任务所需要的算法。试验体系智能规划是对试验知识图谱的高层应用,主要流程如下所示:①以靶场试验的任务需求为输入,利用知识图谱对任务进行“自顶向下”的分解。②在靶场基本单元以及基础设施的自同步行为上,遵循“由底向上”的聚合原则进行资源的聚合与调整。③以“试验能力”为纽带联结“由顶向下”的分解工作和“由底向上”的综合集成工作。④形成与体系使命匹配的试验体系要素。
[0112] 试验体系规划知识图谱分析系统流程图如图2所示,数据采集模块把原始试验数据经过预处理后存入原始试验数据库中,随后通过自然语言技术对试验数据进行抽取和信息融合,构建出符合试验体系特征的知识图谱。最后,根据试验体系知识图谱对体系规划提出推荐规划和流程制定。
[0113] 本发明研究在系统物理体系结构设计中,考虑到知识图谱构建大量运用了深度学习模型,所以大量的算法实现适于在Linux+Python的独立服务器中运行,提供算法实现接口和知识访问接口;而把和用户交互比较多的功能放在Windows+Java的服务器上运行,二者通过服务接口访问。原型系统部署如图3所示。
[0114] 如图4所示,试验信息采集处理作为多源试验信息的采集入口,支持多线程以任务模板的形式对指定的URL进行增量数据采集,同时支持批量导入非结构化和结构化的试验数据,还支持选择源数据库,通过定义表字段和字段映射实现数据的抽取转换,从源数据库将数据迁移到目的数据库,最后实现多源异构数据的融合,统一存储在最后的目的数据库,方便后续试验信息融合分析引擎的处理知识图谱工具的挖掘和分析。
[0115] 使用特征模板抽取其特征,如图5所示,例如希望让模型预测“北”字的标签分布,可能抽取字特征“字特征_北”,前字特征“前字特征_爱”,组合特征“前字字组合_爱_北”等等不同的特征及其组合。将此类特征输入模型预测出每个位置的标签概率分布,例如每个BMES标签表示一个预测出的概率值。最后使用维特比算法计算出最可能的标签序列,黑色事件中表示的路径,这会使得我们的系统最终得出“SSBEBMES”的标签序列,也就是对应分词结果“我/爱/北京/天安/。
[0116] 事件抽取如图6所示,“试飞”为事件的触发词,所触发的事件类别为飞机,子类别为飞机试飞。事件的三个组成元素“歼-20”、“2011年”、“成都”,分别对应着该(飞机/飞机试飞)事件模版中的三个元素标签,即:实体、时间以及地点。
[0117] 知识图谱构建如图7所示,在完成对试验领域知识进行本体构建、词汇收集、文本分词处理、形成备用知识三元组的基础上,融合试验领域固有且已在实践中被证明正确性的理论,就可以从进行知识图谱的绘制。知识图谱是一张由许多三元组以“节点-边-节点”小单元相互连接交错形成的“大网”。在完成三元组收集之后,把这些小单元组织起来,并将重复的节点合并,将同一实体对应的边连接到知识图谱中对应的同一节点上。将收集到的三元组数据利用Gephi软件,以实体为节点,关系为边,实现从RDF数据到知识图谱的可视化过程。为了使得基于试验体系知识图谱具有较为清晰明了的结构从而便于进一步的应用与挖掘,在绘制知识图谱的过程中需要对其进行适当的简化与去冗余。
[0118] 具体实施如下:
[0119] (1)基于正态分布的异常数据清洗实现
[0120] 如果数据服从正态分布,在 原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值 之外的值x出现的概率为属于极个别的小概率事件,其中u为设定值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。拿刚刚举的例子来说,在实际情报分析中,如果系统在接收一组战斗机的最大起飞重量的数据时,例如歼-20的最大起飞重量为30吨,F-22的最大起飞重量为25吨,F-35的最大起飞重量为40吨,由此我们可以得到战斗机的最大起飞重量平均在30吨左右,假设有一条记录表示苏-35的起飞重量有100吨,由于100要大于平均值30的三倍,所以这条记录会被判定为异常数据。
[0121] (2)基于模型检测的异常数据清洗
[0122] 首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象。这种检测方法适用于对容易分类的数据进行清洗,例如在对装备进行分类划分时,有空军装备,海军装备,陆军装备,如果这个时候突然来了一条数据是非武器数据,例如玩具枪,那么这条数据将不属于刚刚分类的三个类别中的任何一个,所以被判别为异常数据。这个方式简单实用,当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。但是当我们系统需要处理多元数据,可用的选择少一些时,并且对于高维数据,基于模型的检测的效果可能就会不理想。
[0123] (3)实体属性抽取
[0124] 属性抽取指的是在文本中抽取一个已知实体和与这个实体相关联的非实体数据,抽出的数据形式是(实体,属性描述,属性值)这样的三元组形式。和关系抽取类似但却不完全相同,因为关系抽取是抽取两个已知实体之间的联系。
[0125] 例如:歼-20的最大飞行速度是1000千米每小时。
[0126] 在这句话中,已知军事实体是“歼-20”,这里与其相关的属性是速度属性,属性值是“1000千米每小时”。针对于这句话,属性抽取就是要抽出(歼-20,最大飞行速度,1000千米每小时)这样的三元组。
[0127] 由于军事词会有很多的别名,如果只是按照正式的描述词来进行数据回标的话,会造成回标得到的训练数据会很少。在实体链中,我们已经从军事数据情报或网络上提取到了军事实体的别名列表。因此,在进行回标的时候,回标实体也可以利用别名列表,增加回标数据的数目。在模型训练的时候,我们不再是采用单一的CRF模型来进行序列标注,而是采用现有的最先进的序列标注模型——Bi-LSTM+CRF,提高训练模型的效果。
[0128] (4)基于RNN的术语抽取
[0129] 术语抽取使用针对任务的特征提取方法,对句子中每一个词的相应窗口信息利用特征模板进行特征抽取。然后使用双向LSTM对句子中的词序列的每个位置,预测出各个标签的隐状态表示,通过CRF模型计算出每个位置的标签概率分部,使用维特比算法解码出最可能的序列标注结果,并解码出最终的军事术语序列。这里使用的模型增加了CRF层,在如此类标签有强烈的依赖关系的任务中,通过CRF算法的结合可以较大的提高整体模块的准确率。
[0130] (5)基于Blocking和SNM的重复检测算法
[0131] 输入:数据集D,排序关键字K,相似度阈值Φ,初始窗口大小W
[0132] 输出:重复记录集合
[0133] 开始
[0134] 输入数据集,排序键和阈值Φ
[0135] 根据排序键对数据集进行排序
[0136] 逐条对窗口内的记录进行比较,计算相似度。若相似度大于阈值Φ,则判定是重复记录,否则判定非重复记录
[0137] 调整窗口大小,若仍有数据未检测,则回到步骤2,否则继续Blocking技术检测重复。
[0138] 适应窗口大小公式如式(2.1)所示,块大小如式(2.2)所示:
[0139]
[0140] 其中Wn表示窗口的大小,Wc表示当前窗口大小,Φ为相似度阈值,W1表示窗口的第一条记录,Wn表示窗口的最后一条记录,dist()为两记录的差异性。
[0141]
[0142] 其中b表示重复块的数量,N表示数据集中总的记录数。
[0143] 在对重复记录进行统计清洗时,存在一个主要问题就是依赖于对整个待清洗的数据集的排序问题,这个排序需要根据某些主键或者数据属性进行排序,通过排序后的可能会让相似的记录排在临近的位置,例如对网络爬取的数据按照爬取时间排序,这样很可能描述同一个时间的新闻舆情都是在差不多同个时间段之内发布的,这样在对这些开源网络情报中相似的数据进行去重处理时,描述同一件事情的新闻舆情就会被排列在相近的位置。这样在进行数据清洗时可以大大减少处理时间。但是并不是所有的数据都适用于这个方法,对于一些不适合排序或者无法排序的数据,如果存在相同的记录,我们就需要用另一个方法来清洗出这些重复数据。
[0144] (6)CNN模型
[0145] 在投入到上图CNN模型训练之前,我们将采用预训练的词向量(WE)加上位置特征(PF)作为每个词语的向量表达。需要说明的是,位置特征表示该词语到预测词的距离。比如“欧洲”到“赞助”的距离为5。在实际训练中,PF向量随机产生,形成查询表(Lookup),在训练的过程中达到最优化。对于CNN模型,我们将采用窗口为{2,3}的两种卷积核(图示模型的窗口尺寸为3)对词组含义进行提取。每种规格的卷积核(Convolution)将产生300张特征图(feature map),最后进入最大池化层(Max-pooling)形成向量C_3。
[0146] 按照上述方法,最后连结的向量O=[B_V,F_V,C_2,C_3],接着使用softmax函数对每个候选触发词xi进行分类:
[0147]
[0148] softmaxi表示多分类过程中,将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类;C1为触发事件类型(包括None事件类型即非触发词)。
[0149] 本方案采用的训练方法为随机梯度下降法,优化方法为交叉熵优化。公式如下:
[0150]
[0151] loss表示神经网络输出结果和真实值的差值,C2代表触发词触发事件类别个数,Pc(w)由softmax给出,表示词语w被预测为触发事件类型为c的触发词概率。 表示是否真实情况为词语w为c类型,是为1,不是为0。S表示样本个数,T表示样本总数,w表示神经元本身的偏置个数,s每个神经元偏置数,在训练过程中,随机初始化参数并形成U(-0.01,0.01)的均匀分布。
[0152] 本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
[0153] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈