首页 / 专利库 / 银行与财务事项 / 别名映射 / 基于知识图谱理念和技术的工程图谱数据信息管理方法

基于知识图谱理念和技术的工程图谱数据信息管理方法

阅读:427发布:2020-05-12

专利汇可以提供基于知识图谱理念和技术的工程图谱数据信息管理方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了基于知识图谱理念和技术的工程图谱数据信息管理方法, 数据仓库 的工程对象 数据库 选用Neo4j图数据库作为数据库 软件 平台,Neo4j与传统的关系型数据库不同,Neo4j主要通过 节点 和关系来存储数据,每个节点可以标注Label,类似于表,可以分别建立索引。与关系型数据库不同,节点之间的关系(类比为表之间的关系)同样作为物理对象存储,从而避免多表查询的笛卡尔积问题,极大提高关联检索的性能。且本 专利 同时对基于以知识图谱理念和ISO15926标准,采用Neo4j技术的工程对象数据仓库设计方法中的将对象作为节点并通过节点和节点之间的关系来分类、关联、存储数据的方法进行保护。,下面是基于知识图谱理念和技术的工程图谱数据信息管理方法专利的具体信息内容。

1.基于知识图谱理念和技术的工程图谱数据信息管理方法,其特征在于:所述数据仓库的工程建设数据仓库从数据类型上划分,可以分为工程对象数据库和工程文件数据库。
工程对象数据仓库用于存储和管理产生于工程建设期,包括设计、采购、施工,遵循数字化移交规范,为生产运维服务的静态历史数据。
2.根据权利要求1所述的基于知识图谱理念和技术的工程图谱数据信息管理方法,其特征在于:包括以下步骤:
1).工程建设数据仓库主要分为两个部分:工程对象数据库和工程文件数据库。
2).工程对象数据库和工程文件数据库之间通过一致的文件指针进行内联交互,建立统一的工程建设数据仓库逻辑模型。
3).数据仓库的工程对象数据仓库逻辑模型符合ISO15926的国际标准。其核心为工程对象及关联关系,通过复杂的对象组织来映射工程对象的原生原貌。
4).单个工程对象的核心定义包括两个部分:Id和Context。工程对象Id是项目范围内工程建设期赋予工程对象的唯一编号,如设备位号;在工程对象数据库中,关联关系可以对工程对象进行若干维度的描述。如对象类型、文档、系统外主数据、生命周期属性集等。同时,每一种关联关系在相对的方向上有对应的称谓。
其中关联关系包括以下内容:
a.对象类型:每个对象与类型之间的关系不受限制,即每个对象可以有多个类型,从而支持每个对象在不同业务维度的类型表述。
b.工程实体与文档的关系:设备、仪表、管线等工程实体频繁被工程文件引用。其关系通过Refers表达,其在正反两个方向的表述分别为:工程实体被文档引用,文档引用了工程实体。
c.与系统外主数据的关系:组织机构、场站、设备、文档等工程对象与系统外主数据体现为别名(Alias)关系。如:EPC设计文档编号与外发文档编号之间,西南油气田主数据系统场站编号与EPC建设期场站编号等。且在数据仓库的工程建设数据仓库的逻辑模型中,只要形成了别名关系,数据仓库的内部工程对象ID与系统外主数据是完全等价的。
d.工程实体与数据集对象之间的关系:每个工程实体在建设期的各阶段,会产生不同的数据集。如设计阶段的工艺信息、施工阶段的安装调试信息。数据仓库的通过工程实体与数据集的关联,全方位存储和管理工程建设期数据。
e.文档对象与文件之间的关系:每个文档对象有若干个具象化的文件表达,如编号为PO-63871-SC的文档,可以包括多个具体格式化的电子文件,如用于采购的PDF格式,用于竣工交付的电子扫描格式等。

说明书全文

基于知识图谱理念和技术的工程图谱数据信息管理方法

技术领域

[0001] 本发明涉及数据信息管理技术领域,具体为基于知识图谱理念和技术的工程图谱数据信息管理方法。

背景技术

[0002] 流程工业为重资产行业,工程建设期时间长,移交文件类型复杂、数量多、数据量大,而且全部是需要长期保存和随时提供的成果文件。在传统以文档为中心的信息化管理方式中,工厂建设和运维期间对文档的使用既取决于文档本身的质量,也取决于人对文档的理解。甚至,对于某些特殊格式文件,还需要具备专业的软件操作技能。在这种情况下,工厂的建设和运维人员很难及时准确地得到所需信息,对于海量文档中存在的不完整、不准确、不一致的问题,也难以发现并修正。
[0003] 作为数字化移交的基础,流程行业的工程建设需要一种以对象为核心的数据仓库,它应该包含工程对象数据库和工程文件数据库。其中工程建设数据仓库中管理的工程对象数量多,数据量大,同一个数据还会有多个来源,并且相互之间关联度极高。
[0004] 在服务于生产运营业务过程中,工程对象数据仓库必须能够向业务应用提供高性能的广度和深度关联检索,例如设备检维修业务场景下,需要从数据仓库的工程建设数据仓库中一次性调取:设备及零部件、工艺、模型、供应商信息、施工安装记录等一系列结构和非结构化数据,涉及3级以上的深度,5维以上的广度。至于工程文件数据库应具备如下特性:提供全面的安全性保障(例如:文件访问控制、类型安全控制、备份机制、快速恢复机制);为了满足生产运营业务的各类应用场景,文件数据库应支持高性能流式传输,以及分布式缓存机制;工程文件数据库在存储和管理方面应具备灵活的扩展机制,按当前128个项目数量测算,工程文件库应满足TB级文件存储能。随着工程项目的增加,移交文件数据量会逐步增长,未来应满足PB级别的文件存储和管理。

发明内容

[0005] 本发明的目的以“文档”为中心的信息化管理方式,工厂建设和运维期间对文档的使用既取决于文档本身的质量,也取决于人对文档的理解。以“对象”为中心的信息化管理方式,可以极大地改善文档为中心所带来的问题。
[0006] 为实现上述目的,本发明提供如下技术方案:基于知识图谱理念和技术的工程图谱数据信息管理方法,所述数据仓库的工程建设数据仓库从数据类型上划分,可以分为工程对象数据库和工程文件数据库。工程对象数据仓库用于存储和管理产生于工程建设期,包括设计、采购、施工,遵循数字化移交规范,为生产运维服务的静态历史数据。
[0007] 优选的,基于知识图谱理念和技术的工程图谱数据信息管理方法,包括以下步骤:
[0008] 1).工程建设数据仓库主要分为两个部分:工程对象数据库和工程文件数据库。
[0009] 2).工程对象数据库和工程文件数据库之间通过一致的文件指针进行内联交互,建立统一的工程建设数据仓库逻辑模型。
[0010] 3).数据仓库的工程对象数据仓库逻辑模型符合ISO15926的国际标准。其核心为工程对象及关联关系,通过复杂的对象组织来映射工程对象的原生原貌。
[0011] 4).单个工程对象的核心定义包括两个部分:Id和Context。工程对象Id是项目范围内工程建设期赋予工程对象的唯一编号,如设备位号;在工程对象数据库中,关联关系可以对工程对象进行若干维度的描述。如对象类型、文档、系统外主数据、生命周期属性集等。同时,每一种关联关系在相对的方向上有对应的称谓。
[0012] 其中关联关系包括以下内容:
[0013] a.对象类型:每个对象与类型之间的关系不受限制,即每个对象可以有多个类型,从而支持每个对象在不同业务维度的类型表述。
[0014] b.工程实体与文档的关系:设备、仪表、管线等工程实体频繁被工程文件引用。其关系通过Refers表达,其在正反两个方向的表述分别为:工程实体被文档引用,文档引用了工程实体。
[0015] c.与系统外主数据的关系:组织机构、场站、设备、文档等工程对象与系统外主数据体现为别名(Alias)关系。如:EPC设计文档编号与外发文档编号之间,西南油气田主数据系统场站编号与EPC建设期场站编号等。且在数据仓库的工程建设数据仓库的逻辑模型中,只要形成了别名关系,数据仓库的内部工程对象ID与系统外主数据是完全等价的。
[0016] d.工程实体与数据集对象之间的关系:每个工程实体在建设期的各阶段,会产生不同的数据集。如设计阶段的工艺信息、施工阶段的安装调试信息。数据仓库的通过工程实体与数据集的关联,全方位存储和管理工程建设期数据。
[0017] e.文档对象与文件之间的关系:每个文档对象有若干个具象化的文件表达,如编号为PO-63871-SC的文档,可以包括多个具体格式化的电子文件,如用于采购的PDF格式,用于竣工交付的电子扫描格式等。
[0018] 与现有技术相比,本发明的有益效果是:
[0019] 1、数据仓库的工程对象数据库选用Neo4j图数据库作为数据库软件平台,Neo4j与传统的关系型数据库不同,Neo4j主要通过节点和关系来存储数据,每个节点可以标注Label,类似于表,可以分别建立索引。与关系型数据库不同,节点之间的关系(类比为表之间的关系)同样作为物理对象存储,从而避免多表查询的笛卡尔积问题,极大提高关联检索的性能。
[0020] 2、本专利同时对基于以知识图谱理念和ISO15926标准,采用Neo4j技术的工程对象数据仓库设计方法中的将对象作为节点并通过节点和节点之间的关系来分类、关联、存储数据的方法进行保护。附图说明
[0021] 图1为本发明工程建设数据仓库概念模型图;
[0022] 图2为本发明数据仓库的工程建设数据仓库逻辑模型图;
[0023] 图3为本发明工程对象数据库物理模型图。

具体实施方式

[0024] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025] 请参阅图1-3,本实施方案中:基于知识图谱理念和技术的工程图谱数据信息管理方法,数据仓库的工程建设数据仓库从数据类型上划分,可以分为工程对象数据库和工程文件数据库。工程对象数据仓库用于存储和管理产生于工程建设期,包括设计、采购、施工,遵循数字化移交规范,为生产运维服务的静态历史数据。
[0026] 其中,工程对象数据库管理的“对象”可以是任何一个与工程/工厂有关的东西。对象可以是一个代表了实际存在的设备的位号(例如、管道或),或是一份文件(例如三维模型、工艺流程图),或是生命周期中的一个事件(如变更,事故,维检修)。与对象相关联的是整个项目的各类数据,例如工程数据(规格书、PID图纸和轴测图等);项目管理数据(成本信息等);资源数据(工作包和材料规格等)。对于西南油气田主数据管理系统中与工程建设期相关的主数据,数据仓库的工程对象数据库提供对齐和融合。工程对象数据库和工程文件数据库构成了数据仓库的系统数据库的总体框架
[0027] 以“对象”为中心的资产信息管理方式代替传统以“文档”为中心的信息化管理方式。工程建设数据仓库以“对象”为中心的信息化管理方式,可以极大地改善文档为中心所带来的问题。文档是非结构化的,固定表达形式的,依赖于个人的经验和专业技能,而对象是结构化的,是可以被系统所“理解”的,并以多样化的表达形式直观呈现出来,供不同人员使用的。领先采用图数据库技术,对细粒度资产对象及其多维度关系网络采用图模型存储管理,建立分布式可伸缩存储扩展机制,提升关系查询和OLAP效率。
[0028] 然后利用图数据模型,对设备资产建设期不同阶段的状态、属性及关联对象、文件、图表等以时间切片为单元进行双向链表(有向图)组织,支持生命周期中任意时间点上设备资产状态的快速回滚查询、朔源分析与关联挖掘等。采用Neo4j作为工程对象数据库的软件平台,具有如下优点:对细粒度资产对象及其多维度关系网络采用图模型存储管理,建立分布式可伸缩存储扩展机制,提升关系查询和OLAP效率;利用图数据模型,对设备资产生命周期不同阶段的状态、属性及关联对象、文件、图表等以时间切片为单元进行双向链表(有向图)组织,支持生命周期中任意时间点上设备资产状态的快速回滚查询、朔源分析与关联挖掘等。Neo4j与传统的关系型数据库不同,Neo4j主要通过节点和关系来存储数据,每个节点可以标注Label,类似于表,可以分别建立索引。与关系型数据库不同,节点之间的关系(类比为表之间的关系)同样作为物理对象存储,从而避免多表查询的笛卡尔积问题,极大提高关联检索的性能。
[0029] 基于知识图谱理念和技术的工程图谱数据信息管理方法,包括以下步骤:
[0030] 1).工程建设数据仓库主要分为两个部分:工程对象数据库和工程文件数据库。
[0031] 2).工程对象数据库和工程文件数据库之间通过一致的文件指针进行内联交互,建立统一的工程建设数据仓库逻辑模型。
[0032] 3).数据仓库的工程对象数据仓库逻辑模型符合ISO15926的国际标准。其核心为工程对象及关联关系,通过复杂的对象组织来映射工程对象的原生原貌。
[0033] 4).单个工程对象的核心定义包括两个部分:Id和Context。工程对象Id是项目范围内工程建设期赋予工程对象的唯一编号,如设备位号;在工程对象数据库中,关联关系可以对工程对象进行若干维度的描述。如对象类型、文档、系统外主数据、生命周期属性集等。同时,每一种关联关系在相对的方向上有对应的称谓。
[0034] 其中关联关系包括以下内容:
[0035] a.对象类型:每个对象与类型之间的关系不受限制,即每个对象可以有多个类型,从而支持每个对象在不同业务维度的类型表述。其中,工程对象Id在项目范围内唯一,但在整个数据仓库的工程建设数据仓库中不一定是唯一的。这是由于不同项目的设备位号有时会重复。为了区分不同项目的设备位号,数据仓库的工程对象的唯一标识由Id和Context共同组成。Context是层级化的。
[0036] b.工程实体与文档的关系:设备、仪表、管线等工程实体频繁被工程文件引用。其关系通过Refers表达,其在正反两个方向的表述分别为:工程实体被文档引用,文档引用了工程实体。
[0037] c.与系统外主数据的关系:组织机构、场站、设备、文档等工程对象与系统外主数据体现为别名(Alias)关系。如:EPC设计文档编号与外发文档编号之间,西南油气田主数据系统场站编号与EPC建设期场站编号等。且在数据仓库的工程建设数据仓库的逻辑模型中,只要形成了别名关系,数据仓库的内部工程对象ID与系统外主数据是完全等价的。
[0038] d.工程实体与数据集对象之间的关系:每个工程实体在建设期的各阶段,会产生不同的数据集。如设计阶段的工艺信息、施工阶段的安装调试信息。数据仓库的通过工程实体与数据集的关联,全方位存储和管理工程建设期数据。
[0039] e.文档对象与文件之间的关系:每个文档对象有若干个具象化的文件表达,如编号为PO-63871-SC的文档,可以包括多个具体格式化的电子文件,如用于采购的PDF格式,用于竣工交付的电子扫描格式等。其中,文档对象的类型派生自基础类型Document,文件的类型则为File,无论是文档还是文件,都对应着数据仓库的工程对象数据库中的唯一对象。其中,类型为File的唯一对象,其全局编号(Context+Id)作为文件指针,与电子文件库保持一致。针对工程对象库高性能广度和深度关联检索需求,数据仓库的工程对象数据库选用Neo4j图数据库作为数据库软件平台,Neo4j在节点和关系存储及管理上的特性与工程对象数据库的需求高度匹配。
[0040] 说明,第一点:工程对象数据库使用以下Label来区分数据存储:
[0041] Instance Class:表示该节点为某一工程对象类型的定义。
[0042] Attribute Class:表示该节点为某一属性类型的定义
[0043] Instance:表示该节点为具体的工程对象。
[0044] Attribute:表示该节点为具体的工程对象属性。
[0045] Value:表示该节点为工程对象的属性值。
[0046] Association Type:表示该节点为业务逻辑关联关系定义。
[0047] Template:表示该节点为移交数据模板。如果一个数据节点同时与两个[0048] Template产生关系,表示这两个移交模板中包含了相同的工程对象,该工程对象在数据仓库的中的数据为两个移交模板的并集。删除任一模板,都不能从数据仓库的数据库中删除该工程对象,只有该工程对象关联的所有模板被删除后,才能删除该对象。
[0049] 第二点:工程对象数据库使用一下内置关系来定义物理模型。
[0050] is a template of:工程对象、属性、值来自移交模板。
[0051] is classified as:工程对象被定义为类型。
[0052] is an attribute of:该属性属于工程实体。
[0053] is an value of:该值属于工程实体的属性。
[0054] 在工程对象数据库的物理结构中,工程对象(Instance  A)与工程对象(InstanceB)之间的关系不属于数据仓库的内置关联关系,而是由数据库管理员或业务管理员根据移交规范或业务逻辑模型在Association Type类型的节点中扩展的。如IDT(别名关系),IRF(引用关系)等。
[0055] 数据仓库的工程文件库兼容NAS、NTFS、SharePoint等其他文件系统。SharePoint单服务器场在确保以上安全性、稳定性、高可用性的需求下,最高可以存储2PB非结构化数据。通过部署更多的服务器场并建立场联合,可以进一步满足海量文件存储需求。
[0056] 数据仓库的工程文件库通过分布式电子文件服务提供文件索引、文件流的读取和写入功能。各业务应用可以通过分布式电子文件服务实现与数据仓库的的文件交互。
[0057] 数据仓库的工程文件库可以从物理上划分出多个内容库实例和电子文件服务,建立相互独立的文件传输通道。将部分实例专门服务于建设期文件移交过程,部分实例专门服务于生产运维各APP的归档查询,可以有效地满足生产运维期各类应用对文件的性能要求。
[0058] 工程文件库用于存储和管理文件对象指向的非结构化内容实体,例如图文档、三维模型等非结构化数据。这些文件实体在工程对象库中都保留了唯一的指针对象。
[0059] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈