首页 / 专利库 / 图形技术 / 可视化 / 知识可视化 / 知识图谱的数据处理方法及服务器

知识图谱的数据处理方法及服务器

阅读:181发布:2020-05-11

专利汇可以提供知识图谱的数据处理方法及服务器专利检索,专利查询,专利分析的服务。并且本 申请 提供一种知识图谱的 数据处理 方法及 服务器 ,该方法包括:获取待处理原数据;根据所述待处理原数据及当前知识图谱,确定所述待处理原数据是否在所述当前知识图谱中具有对应的实体;若是,根据所述待处理原数据对所述当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据所述待处理原数据在所述当前知识图谱中新建对应的实体,并根据所述待处理原数据对新建的所述实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人 力 成本。,下面是知识图谱的数据处理方法及服务器专利的具体信息内容。

1.一种知识图谱的数据处理方法,其特征在于,包括:
获取待处理原数据;
根据所述待处理原数据及当前知识图谱,确定所述待处理原数据是否在所述当前知识图谱中具有对应的实体;
若是,根据所述待处理原数据对所述当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;
若否,根据所述待处理原数据在所述当前知识图谱中新建对应的实体,并根据所述待处理原数据对新建的所述实体进行知识补全处理,获得新知识图谱。
2.根据权利要求1所述的方法,其特征在于,根据所述待处理原数据及当前知识图谱,确定所述待处理原数据是否在所述当前知识图谱中具有对应的实体,包括:
按行遍历所述待处理原数据,对于其中的每行数据,根据预设实体规则,判断其中需要建立实体的项;
对于每个需要建立实体的项,判断所述项在所述当前知识图谱中是否具有对应的实体。
3.根据权利要求2所述的方法,其特征在于,对于每个需要建立实体的项,判断所述项在所述当前知识图谱中是否具有对应的实体,包括:
获取所述项对应的唯一属性;
根据所述项对应的唯一属性,查询所述当前知识图谱中是否存在具有与所述唯一属性相同的属性且与所述项属于相同类型的实体;
若有,则表示所述项在所述当前知识图谱中存在对应的实体;
若无,则表示所述项在所述当前知识图谱中不存在对应的实体。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述项对应的唯一属性所对应的索引信息;
所述根据所述项对应的唯一属性,查询所述当前知识图谱中是否存在具有与所述唯一属性相同的属性且与所述项属于相同类型的实体,包括:
根据所述项对应的唯一属性及所述索引信息,查询所述当前知识图谱中是否存在具有与所述唯一属性相同的属性且与所述项属于相同类型的实体。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若根据所述待处理原数据确定第一实体和第二实体之间具有预设关系,则从所述新知识图谱中查询所述第一实体连接的各边所指向的第三实体;
根据各第三实体的唯一标识及所述第二实体的唯一标识,判断所述第一实体与所述第二实体之间是否存在对应的边;
若存在,则根据所述待处理原数据对所述第一实体与所述第二实体之间的边进行知识补全更新处理;
若不存在,则根据所述待处理原数据建立所述第一实体与所述第二实体之间的边,并进行知识补全处理。
6.根据权利要求5所述的方法,其特征在于,所述根据各第三实体的唯一标识及所述第二实体的唯一标识,判断所述第一实体与所述第二实体之间是否存在对应的边,包括:
若第三实体的唯一标识与所述第二实体的唯一标识相同,则确定所述第一实体与所述第二实体之间存在对应的边。
7.根据权利要求2所述的方法,其特征在于,所述按行遍历所述待处理原数据,对于其中的每行数据,根据预设实体规则,确定其中需要建立实体的项,包括:
按行遍历所述待处理原数据,并去掉不需要的表头内容;
对于其中需要的每行数据,根据预设实体规则,确定其中需要建立实体的项。
8.根据权利要求1所述的方法,其特征在于,所述获取待处理原数据,包括:
获取原始表格数据;
对所述原始表格数据进行预处理,获得预设格式的文本数据;
将所述预设格式的文本数据作为所述待处理原数据。
9.根据权利要求8所述的方法,其特征在于,所述对所述原始表格数据进行预处理,获得预设格式的文本数据,包括:
对于所述原始表格数据中字段内容为空的部分,采用预设特殊字进行填充处理,获得处理后表格数据;
采用分隔符&将所述表格数据转换成所述预设格式的文本数据。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对知识图谱按照预设分类规则进行分类整合,获得分类后的知识图谱。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对知识图谱进行可视化展示处理。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述方法还包括:
根据当前知识图谱及预设挖掘规则,挖掘各实体之间的隐含关系;
根据挖掘的各实体之间的隐含关系,对所述当前知识图谱进行补全更新处理。
13.一种服务器,其特征在于,包括:
获取模,用于获取待处理原数据;
确定模块,用于根据所述待处理原数据及当前知识图谱,确定所述待处理原数据是否在所述当前知识图谱中具有对应的实体;
处理模块,用于:
若是,根据所述待处理原数据对所述当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据所述待处理原数据在所述当前知识图谱中新建对应的实体,并根据所述待处理原数据对新建的所述实体进行知识补全处理,获得新知识图谱。

说明书全文

知识图谱的数据处理方法及服务器

技术领域

[0001] 本申请涉及互联网技术领域,尤其涉及一种知识图谱的数据处理方法及服务器。

背景技术

[0002] 随着大数据人工智能的飞速发展,知识图谱作为人工智能技术的重要组成部分,因其强大的语义处理、互联组织、信息检索以及知识推理能,已被广泛应用于金融、农业、电商、医疗电子、交通等领域。知识图谱是一张巨大的语义网络图,通过节点(或顶点)表示实体或者概念、通过边表示关系来描述真实世界中存在的各种实体或者概念以及其关系。
[0003] 随着大数据技术的深度应用,公共安全领域也开启了新的纪元。通过有效地整合各类数据、构建多维分析模型等方式,提升了情报洞察、分析研判、侦查打击以及指挥管理的能力。目前,公安机关已经拥有大量多源异构数据,但是这些数据之间的关联关系却难以理清,导致数据的有效性差。
[0004] 因此,如何提高公安数据的有效性,有效提高办事效率,降低时间和人力成本,成为亟需解决的技术问题。发明内容
[0005] 本申请提供一种知识图谱的数据处理方法及服务器,以解决现有技术原始数据有效性差等缺陷
[0006] 本申请第一个方面提供一种知识图谱的数据处理方法,包括:
[0007] 获取待处理原数据;
[0008] 根据所述待处理原数据及当前知识图谱,确定所述待处理原数据是否在所述当前知识图谱中具有对应的实体;
[0009] 若是,根据所述待处理原数据对所述当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;
[0010] 若否,根据所述待处理原数据在所述当前知识图谱中新建对应的实体,并根据所述待处理原数据对新建的所述实体进行知识补全处理,获得新知识图谱。
[0011] 本申请第二个方面提供一种服务器,包括:
[0012] 获取模,用于获取待处理原数据;
[0013] 确定模块,用于根据所述待处理原数据及当前知识图谱,确定所述待处理原数据是否在所述当前知识图谱中具有对应的实体;
[0014] 处理模块,用于:
[0015] 若是,根据所述待处理原数据对所述当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据所述待处理原数据在所述当前知识图谱中新建对应的实体,并根据所述待处理原数据对新建的所述实体进行知识补全处理,获得新知识图谱。
[0016] 本申请第三个方面提供一种电子设备,包括:至少一个处理器和存储器
[0017] 所述存储器存储计算机执行指令;
[0018] 所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
[0019] 本申请第四个方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一个方面以及第一个方面各种可能的设计所述的方法。
[0020] 本申请提供的知识图谱的数据处理方法及服务器,通过获取待处理原数据(即新增的原数据),根据所述待处理原数据及当前知识图谱,确定所述待处理原数据是否在所述当前知识图谱中具有对应的实体,若是,根据所述待处理原数据对所述当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据所述待处理原数据在所述当前知识图谱中新建对应的实体,并根据所述待处理原数据对新建的所述实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。附图说明
[0021] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022] 图1为本申请实施例基于的处理系统的架构示意图;
[0023] 图2为本申请一实施例提供的知识图谱的数据处理方法的流程示意图;
[0024] 图3为本申请另一实施例提供的知识图谱的数据处理方法的流程示意图;
[0025] 图4为本申请一实施例提供的知识图谱分类整合的示例性示意图;
[0026] 图5为本申请一实施例提供的公安知识图谱的可视化效果示意图;
[0027] 图6A为本申请一实施例提供的公安知识图谱构建的整体架构示意图之实体部分;
[0028] 图6B为本申请一实施例提供的公安知识图谱构建的整体架构示意图之边部分;
[0029] 图7为本申请一实施例提供的服务器的结构示意图;
[0030] 图8为本申请一实施例提供的电子设备的结构示意图。
[0031] 通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

[0032] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0033] 首先对本申请所涉及的名词进行解释:
[0034] ElasticSearch:是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch用于计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
[0035] JanusGraph:是一个开源的分布式图数据库。它具有很好的扩展性,通过多机集群可支持存储和查询数百亿的顶点和边的图数据。JanusGraph是一个事务数据库,支持大量用户高并发地执行复杂的实时图遍历。
[0036] cassandra:是一套开源分布式NoSQL数据库系统,是一个混合型的非关系的数据库。
[0037] 本申请实施例提供的知识图谱的数据处理方法,适用于基于多源异构数据补充或更新知识图谱的应用场景,比如公安机关已经拥有的大量多源异构数据,构建并完善获得完整的公安知识图谱。如图1所示,为本申请实施例基于的处理系统的架构示意图。该处理系统可以包括服务器和终端,相关人员可以通过终端与服务器的交互,实现知识图谱建模及相关定义,比如实体标签定义、边标签定义、实体属性定义、边属性定义等等。在构建了基本的知识图谱模型后,后续服务器即可以基于该知识图谱模型,根据新增的原数据对知识图谱进行知识补全更新。服务器可以获取待处理原数据(即新增的原数据),根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。
[0038] 可选地,服务器可以实时或定时进行上述的处理过程,及时对新增的原数据补充到知识图谱中。
[0039] 此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
[0040] 下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
[0041] 本申请一实施例提供一种知识图谱的数据处理方法,用于对知识图谱进行补全或更新处理。本实施例的执行主体为服务器。
[0042] 如图2所示,为本实施例提供的知识图谱的数据处理方法的流程示意图,该方法包括:
[0043] 步骤101,获取待处理原数据。
[0044] 具体的,待处理原数据是经过预处理后的文本数据。服务器可以读取待处理原数据,获取其中的相关数据。预处理可以包括对原始表格数据进行空值填充及格式转换等等。
[0045] 示例性的,以公安机关的原始表格数据为例,比如原始表格数据有案件.xlsx、小区居民.xlsx。如表1所示,为案件.xlsx的示意性表格,如表2 所示,为小区居民.xlsx的示意性表格。
[0046] 表1
[0047] 案件类型 案件编号 嫌疑人 联系电话 案发地 受害人 …case_type case_id sus_name sus_phone case_place vic_name   抢劫 123***789 张* 152****5741 浙江** **  
…            
[0048] 表2
[0049]姓名 性别 身份证号 联系电话1 联系电话2 小区名 …
person_name gender person_id phone1 phone2 res_name  
韩* 男   152****5741   **花园  
…            
[0050] 从上述原始表格数据可以看出,表内有很多字段的内容为空,在用 JanusGraph图数据库创建知识图谱过程中会经常性报错,因此,需要对字段内容为空的进行处理,比如可以用“无”或“空”字来填充。在将多源异构的原始表格数据用于构建知识图谱时,还需要对多源异构的原始表格数据进行格式转换,获得统一格式的文本数据。比如要对表格内每一列字段内容进行处理,将制表符采用分隔符来代替。由于原始表格数据中含有很多符号,因此分隔符的选择也很重要。为了避免与原始表格数据中的符号冲突,选择& 符号作为分隔符。实现的效果如下:
[0051]抢劫 123***789 张* 152****5741 浙江** 马**  
[0052] 将上述原始表格数据转换为文本txt内容为:
[0053] 抢劫&123***789&张*&152****5741&浙江**&马**&无
[0054] 步骤102,根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体。
[0055] 具体的,在获取到待处理原数据后,需要判断待处理原数据中是否有当前知识图谱中尚不存在的实体,若有尚不存在的实体,则需要创建对应的实体,若都已存在,需要判断待处理原数据中是否有当前知识图谱中尚不存在的其他信息,若有则进行补全或更新。
[0056] 其中,当前知识图谱是指当前之前根据已有原始数据已经构建好的知识图谱,待处理原数据是当前产生的新增原数据。
[0057] 当前知识图谱的构建过程具体可包括:1、原始数据的预处理;2、知识图谱数据建模预定义。具体可以包括:定义实体标签、定义边标签、定义实体属性、定义边属性、建立索引等。3、知识图谱建模。其中,知识图谱数据建模预定义可以根据实际需求进行定义,为后续知识图谱建模打好基础
[0058] 基于新增的待处理原数据对当前知识图谱进行知识扩充、补全及更新。
[0059] 示例性的,可以读取待处理原数据,比如经过预处理得到的txt文档,以案件文本case.txt为例,通过对case.txt一行一行遍历操作,以&分隔符取文本中相关数据。还可以根据实际需求去掉文本中非数据的中应为表头内容,比如上述的原始表格数据(表1和表2)中的前两行也会转换到文本中,但其为非数据的表头内容,在读取文本数据时,可以去掉。
[0060] 可以根据预设实体规则来确定待处理原数据中需要建立实体的项,比如人需要建立人实体、手机号需要建立手机号实体、身份证号需要建立身份证号实体、车需要建立车实体等等。
[0061] 以建立手机号实体为例,若在遍历待处理原数据过程中,对于其中一行来说,具有一项内容为手机号,则需要建立手机号实体,但是首先需要判断该手机号在当前知识图谱中是否已经具有对应的实体,若已经具有对应的实体,则不需要建立该手机号实体,若不具有,才需要建立该手机号实体,从而保证知识图谱中实体的唯一性。
[0062] 对于手机号实体,具体的手机号是手机号实体的唯一属性,为了保证实体唯一性,实体的唯一属性不能为空。当手机号不为空时,可以采用该手机号在当前知识图谱中查询是否存在该手机号实体。
[0063] 在知识图谱中,每个实体在创建时,都会为其产生一个唯一标识,比如实体ID。对该实体赋予的相关内容,比如人实体1对应的实体唯一标识为0001,为该人实体1赋予属性:姓名张三、性别男、手机号1、身份证号1等均为该人实体1的属性。其中,身份证号1为该人实体1的唯一属性。每个属性也可以有对应的属性标识,比如属性ID。即,属性可以是以键值对形式存在。
[0064] 而对于其中的手机号,既可以作为人实体的属性存在,也可以作为手机实体的唯一属性存在。其他属性内容也可以适用这种情况,可以根据实际情况设置。
[0065] 步骤103,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱。
[0066] 具体的,若待处理原数据在当前知识图谱中已经具有对应的实体,则根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,从而获得新知识图谱,新知识图谱可以作为下一轮处理的当前知识图谱。
[0067] 其中,进行知识补全更新,是指对实体的属性进行知识补全。比如遍历到待处理原数据中的某一行时,其内容为:抢劫&123***789&张*&4*岁 &152****5741&浙江**&马**&无,需要建立手机号实体1,对应属性为:姓名张*、手机号152****5741、案件类型抢劫、案发地浙江**、受害人马**,若当前知识图谱中,手机号实体1已经存在,但是手机号实体1的属性中只有手机号152****5741,则需要对该手机号实体1进行属性知识补全,将其他属性补全到当前知识图谱中,获得新知识图谱。再比如,该手机号实体1的属性中有手机号152****5741和年龄3*岁,还需要基于待处理原数据对属性年龄3*岁进行更新,更新方式可以为用
4*岁替换3*岁,也可以是保留3*岁,增加4*岁,还可以标记更新时间。
[0068] 步骤104,若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。
[0069] 具体的,若待处理原数据在当前知识图谱中不具有对应的实体,则根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。
[0070] 示例性的,当前知识图谱中,手机号实体1不存在,则需要新建手机号实体1,并基于待处理原数据对该手机号实体1进行属性知识补全更新处理。具体的属性知识补全更新处理与上述类似,在此不再赘述。
[0071] 本实施例提供的知识图谱的数据处理方法,通过获取待处理原数据(即新增的原数据),根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。
[0072] 本申请另一实施例对上述实施例提供的方法做进一步补充说明。
[0073] 如图3所示,为本实施例提供的知识图谱的数据处理方法的流程示意图。
[0074] 作为一种可实施的方式,在上述实施例的基础上,可选地,根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,包括:
[0075] 步骤1021,按行遍历待处理原数据,对于其中的每行数据,根据预设实体规则,判断其中需要建立实体的项。
[0076] 步骤1022,对于每个需要建立实体的项,判断项在当前知识图谱中是否具有对应的实体。
[0077] 具体的,在获取到待处理原数据后,可以对待处理原数据按行进行遍历操作,对于其中的每行数据,可以根据预设实体规则来判断其中需要建立实体的项。预设实体规则可以是对于人需要建立人实体、对于手机号需要建立手机号实体、对于车需要建立车实体等等。具体可以根据实际需求设置。
[0078] 在确定了需要建立实体的项后,需要对该项进行判断,判断其在当前知识图谱中是否已经存在对应的实体,若存在则无需建立实体,只需要对实体进行属性知识补全更新处理即可,若不存在,则需要对该项在当前知识图谱中建立对应的实体,并基于该项的待处理原数据对建立的对应的实体进行属性知识补全更新处理。
[0079] 示例性的,以建立手机号实体为例,若在遍历待处理原数据过程中,对于其中一行来说,具有一项内容为手机号,则需要建立手机号实体,但是首先需要判断该手机号在当前知识图谱中是否已经具有对应的实体,若已经具有对应的实体,则不需要建立该手机号实体,若不具有,才需要建立该手机号实体,从而保证知识图谱中实体的唯一性。
[0080] 可选地,对于每个需要建立实体的项,判断项在当前知识图谱中是否具有对应的实体,包括:
[0081] 步骤2011,获取项对应的唯一属性。
[0082] 步骤2012,根据项对应的唯一属性,查询当前知识图谱中是否存在具有与唯一属性相同的属性且与项属于相同类型的实体。
[0083] 步骤2013,若有,则表示项在当前知识图谱中存在对应的实体。
[0084] 步骤2014,若无,则表示项在当前知识图谱中不存在对应的实体。
[0085] 具体的,在知识图谱中,每个实体在创建时,都会为其产生一个唯一标识,比如实体ID。对该实体赋予的相关内容,比如人实体1对应的实体唯一标识为0001,为该人实体1赋予属性:姓名张三、性别男、手机号1、身份证号1等均为该人实体1的属性。其中,身份证号1为该人实体1的唯一属性。每个属性也可以有对应的属性标识,比如属性ID。即,属性可以是以键值对形式存在。
[0086] 在判断某需要建立实体的项在当前知识图谱中是否具有对应的实体时,可以获取该项对应的唯一属性,根据该项对应的唯一属性,查询当前知识图谱中是否存在具有与该项对应的唯一属性相同的属性且与该项属于相同类型的实体,若有,则表示该项在当前知识图谱中存在对应的实体,若没有,则表示该项在当前知识图谱中不存在对应的实体。其中,类型是指实体的分类,可以通过定义实体标签来确定实体的分类,类型可以包括:人实体、手机号实体、车实体、身份证号实体等等,具体可以根据实际需求设置。
[0087] 示例性的,对于手机号实体,具体的手机号是手机号实体的唯一属性,可以根据具体手机号在当前知识图谱中查询是否存在该手机号实体。比如遍历到待处理原数据中的某一行时,其内容为:抢劫&123***789&张*&40岁 &152****5741&浙江**&马**&无,可以确定需要建立手机号实体的项为 152****5741,则可以获取该项对应的唯一属性(即152****5741),根据 152****5741在当前知识图谱中查找是否存在具有相同属性的手机号实体,若存在则表示当前知识图谱中存在该项对应的手机号实体,若不存在则表示当前知识图谱中不存在该项对应的手机号实体。
[0088] 可选地,该方法还包括:
[0089] 步骤2021,获取项对应的唯一属性所对应的索引信息。
[0090] 根据项对应的唯一属性,查询当前知识图谱中是否存在具有与唯一属性相同的属性且与项属于相同类型的实体,包括:
[0091] 步骤2022,根据项对应的唯一属性及索引信息,查询当前知识图谱中是否存在具有与唯一属性相同的属性且与项属于相同类型的实体。
[0092] 具体的,还可以对知识图谱建立索引,以提高检索查询效率。JanusGraph 支持索引用以提升查询处理速度,通常图查询可以从它们的属性标识的实体或边的列表开始遍历的,索引使在大图中进行全局检索的时候变得非常高效。如果缺少索引的时候,JanusGraph也可以进行全图扫描以找到希望的顶点(即实体)。当然这样也能返回正确的结果,但是全图扫描非常低效,会降低整个生产环境的系统性能。
[0093] 实体的索引信息是由实体属性来声明索引,可以加快检索查询速度。
[0094] 比如当某项是对应手机号实体,需要判断该项在当前知识图谱中是否已经存在对应的手机号实体时,需要根据该项对应的唯一属性(即具体的手机号)去当前知识图谱中进行查询,如果建立有索引,比如在当前知识图谱中建立有手机号实体的唯一属性与具体存储区域的对应关系,则可以根据该项对应的唯一属性到手机号实体唯一属性对应的区域查询即可,而不必遍历当前知识图谱中的其他实体区域。比如当前知识图谱是存储在数据库中,手机号实体的唯一属性是一列,根据该项对应的唯一属性在当前知识图谱中该列中查询即可,不必查询其他列。
[0095] 作为另一种可实施的方式,在上述实施例的基础上,可选地,该方法还包括:
[0096] 步骤2031,若根据待处理原数据确定第一实体和第二实体之间具有预设关系,则从新知识图谱中查询第一实体连接的各边所指向的第三实体。
[0097] 步骤2032,根据各第三实体的唯一标识及第二实体的唯一标识,判断第一实体与第二实体之间是否存在对应的边。
[0098] 步骤2033,若存在,则根据待处理原数据对第一实体与第二实体之间的边进行知识补全更新处理。
[0099] 步骤2034,若不存在,则根据待处理原数据建立第一实体与第二实体之间的边,并进行知识补全更新处理。
[0100] 具体的,在建立了实体,并保证了实体唯一性的基础上,还需要对各实体之间的关系(用知识图谱中的边表示)进行补充更新。需要先确定两实体之间是否具有一定的关系,若有则确定需要建立两实体之间的边,在建立边之前,还需要判断在知识图谱(若是在上述获得新知识图谱后,则指新知识图谱)中是否已具有相应的边。若已有,则无需建立,若尚没有相应的边,则需要建立两实体之间的边。以第一实体和第二实体为例,具体可以从新知识图谱中查询第一实体连接的各边所指向的第三实体,根据各第三实体的唯一标识及第二实体的唯一标识来判断第一实体与第二实体之间是否存在对应的边。
[0101] 示例性的,以手机号实体与人实体之间创建边phone_person为例,前面已经对手机号实体进行唯一性处理和知识补全更新处理,建立边时需要以两实体已经在知识图谱中存在,且进行了唯一性处理和知识补全更新处理。具体的,首先需要判断人实体在知识图谱中是否存在,且人实体的唯一属性身份证号不能为空;判断指向该人实体(即第一实体)的边phone_person是否已经在知识图谱中存在,如果不存在,直接在人实体和手机号实体之间建立边phone_person,如果存在,则判断以边phone_person指向人实体的手机号实体(即第三实体)在知识图谱中是否存在,若存在,可以以列表的形式查出知识图谱中所有满足上述条件的手机号实体(即第三实体),遍历各第三实体,判断各第三实体的唯一标识与第二实体的唯一标识是否相同,若有一个第三实体的唯一标识与第二实体的唯一标识相同,则该第三实体即为该第二实体,也即第一实体与第二实体之间的边已经存在。若各第三实体的唯一标识与第二实体的唯一标识都不相同,则确定知识图谱中不存在第一实体和第二实体之间的边,则可以直接在知识图谱中建立第一实体和第二实体之间的边,保证边的唯一性。
[0102] 可选地,根据各第三实体的唯一标识及第二实体的唯一标识,判断第一实体与第二实体之间是否存在对应的边,包括:
[0103] 步骤2041,若第三实体的唯一标识与第二实体的唯一标识相同,则确定第一实体与第二实体之间存在对应的边。
[0104] 若确定第一实体与第二实体之间存在对应的边,则还需要根据待处理原数据对第一实体和第二实体之间的边进行知识补全更新处理,若确定第一实体与第二实体之间不存在对应的边,则建立第一实体与第二实体之间的边,并对建立的边进行知识补全处理。
[0105] 对边进行知识补全处理具体是对边进行属性知识补全更新处理。
[0106] 边的属性是指赋予两实体之间的关系的具体内容,比如边的标签(是同事、朋友、同学、所属、出行、哥哥等等)、边的头和尾、边建立时间等等,具体可以根据实际需求设置。
[0107] 示例性的,手机号实体1—边1—>人实体1,边1的属性可以包括:边标签为所属(即手机号实体1属于人实体1),建立时间为2019年11月11 日12点20分40秒,头为手机实体1,尾为人实体1。这里只是示例性说明,并非对本申请的限定,具体可以根据实际需求设置,不限于上述内容。
[0108] 可选地,与实体类似,也可以建立边的索引,在查找边时,可以提高查询速度,提高处理效率,具体索引也可以根据边的属性来声明索引,在此不再赘述。
[0109] 作为另一种可实施的方式,在上述实施例的基础上,可选地,按行遍历待处理原数据,对于其中的每行数据,根据预设实体规则,确定其中需要建立实体的项,包括:
[0110] 步骤2051,按行遍历待处理原数据,并去掉不需要的表头内容。
[0111] 步骤2052,对于其中需要的每行数据,根据预设实体规则,确定其中需要建立实体的项。
[0112] 具体的,在将原始表格数据转换成待处理原数据时,原始表格中的表头也被转换到了待处理原数据中,而这些表头数据是不需要的非数据,需要去掉。
[0113] 示例性的,读取经过数据预处理得到的txt文档,以案件文本case.txt 为例。通过对案件文本case.txt一行一行遍历操作,以&为分隔符取文本中相关数据,然后去掉文本中非数据的中英文表头内容如下:
[0114] new File("data/public_secture_KG/case.txt").eachLine{//一行一行遍历操作
[0115] l->p=l.split("&");//p[i]代表第i列数据
[0116] if((p[0]=="case_type")||(p[0]=="案件类型")){// 去掉文档前两行内容[0117] }
[0118] 作为另一种可实施的方式,在上述实施例的基础上,可选地,获取待处理原数据,包括:
[0119] 步骤1011,获取原始表格数据。
[0120] 步骤1012,对原始表格数据进行预处理,获得预设格式的文本数据。
[0121] 步骤1013,将预设格式的文本数据作为待处理原数据。
[0122] 可选地,对原始表格数据进行预处理,获得预设格式的文本数据,包括:
[0123] 步骤2061,对于原始表格数据中字段内容为空的部分,采用预设特殊字进行填充处理,获得处理后表格数据。
[0124] 步骤2062,采用分隔符&将表格数据转换成预设格式的文本数据。
[0125] 具体的,原始表格数据中通常有很多字段的内容为空,在用JanusGraph 图数据库创建知识图谱过程中会经常性报错,因此,需要对字段内容为空的进行处理,比如可以用“无”或“空”字来填充。在将多源异构的原始表格数据用于构建知识图谱时,还需要对多源异构的原始表格数据进行格式转换,获得统一格式的文本数据。比如要对表格内每一列字段内容进行处理,将制表符采用分隔符来代替。由于原始表格数据中含有很多符号,因此分隔符的选择也很重要。为了避免与原始表格数据中的符号冲突,选择&符号作为分隔符。实现的效果如下:
[0126]抢劫 123***789 张* 152****5741 浙江** 马**  
[0127] 将上述原始表格数据转换为文本txt内容为:
[0128] 抢劫&123***789&张*&152****5741&浙江**&马**&无
[0129] 作为另一种可实施的方式,在上述实施例的基础上,可选地,该方法还可以包括:
[0130] 步骤2071,对知识图谱按照预设分类规则进行分类整合,获得分类后的知识图谱。
[0131] 这里知识图谱可以是当前知识图谱或者新知识图谱,也可以是任意时刻或阶段的知识图谱,具体不做限定,只要是知识图谱即可。
[0132] 示例性的,以公安知识图谱为例,构建好的公安知识图谱实体之间没有层次性,不能直观地把握整个知识图谱框架,因此可以以人、地、事、物、组织、身份等划分层结构整合公安知识图谱,比如划分6层结构进行整合。可以集合同一类型的实体。以车实体为例,实体1(车牌号:鲁A1**654),实体2(车牌号:鲁B1**674),实体3(车牌号:鲁A1**554)等等,可以通过标签label或其他特殊属性把所有实体集合在一起,新建一个大类实体,通过关系belonging2连接在一起。
[0133] 如图4所示,为本实施例提供的知识图谱分类整合的示例性示意图。
[0134] 作为另一种可实施的方式,在上述实施例的基础上,可选地,该方法还可以包括:
[0135] 步骤2081,对知识图谱进行可视化展示处理。
[0136] 具体的,可以通过对知识图谱进行可视化展示处理,展示出知识图谱,使相关人员可以明了各实体之间的关系,比如公安知识图谱,主要由案件、人、车、手机、酒店等实体和居住、出行、同事、过户等关系(边)组成,可以使公安人员清晰明了地看出人、案件、地点等之间的关系。如图5所示,为本实施例提供的公安知识图谱的可视化效果示意图。
[0137] 作为另一种可实施的方式,在上述实施例的基础上,可选地,该方法还可以包括:
[0138] 步骤2091,根据当前知识图谱及预设挖掘规则,挖掘各实体之间的隐含关系。
[0139] 步骤2092,根据挖掘的各实体之间的隐含关系,对当前知识图谱进行补全更新处理。
[0140] 具体的,在知识图谱中可能两实体之间还存在隐藏关系,不能直接发现,因此,可以预设挖掘规则,基于当前知识图谱挖掘各实体之间的隐含关系,根据挖掘的各实体之间的隐含关系,对当前知识图谱进行补全更新处理。
[0141] 示例性的,案件2涉及到嫌疑人4,嫌疑人4曾居住过酒店1,住客1也是同时间居住在酒店1,可以推理出住客1与案件相关的可能性较大;案件1 与案件2表面没有联系,但通过案件1涉及到嫌疑人2,案件2涉及到车辆4,并且车辆4所属嫌疑人2,这就说明两案件之间存在相关关系;案件1的受害人1的朋友人4,案件1涉及到的车辆1所属人4,说明人4与案件1相关,等等。
[0142] 作为一种示例性的实施方式,可选地,如图6A所示,为本实施例提供的公安知识图谱构建的整体架构示意图之实体部分,如图6B所示,为本实施例提供的公安知识图谱构建的整体架构示意图之边部分。图6B与图6A具有连续关系,两者结合构成了公安知识图谱构建的整体架构。主要包括原始数据的预处理,公安知识图谱的预处理,实体label(即实体标签)、边label (即边标签)、实体属性及边属性和索引的建立,实体的构建,实体属性的补全更新,实体之间边的构建、边属性的补全更新等。构建完成的公安知识图谱可以保证实体的唯一性和边的唯一性,可以对已有知识图谱进行知识补全更新。公安知识图谱构建的具体步骤如下:
[0143] 1、原始数据的预处理
[0144] 原始数据(即原始表格数据)如上表1和表2所示。从公安的数据可以看出,表内很多字段的内容为空,用JanusGraph图数据库在创建知识图谱过程中会经常性报错,这就需要对字段内容为空的做处理,可以用“无”字来替换。要对表格内每一列字段内容做处理,采用什么样的分隔符要根据具体的应用场景来定,比如表格内没有逗号,直接对.csv文件做处理,但是公安数据里面含有很多符号,经过深入研究分析,确定采用&符号来做分隔符,最后实现的效果如下:
[0145]抢劫 123***789 张* 152****5741 浙江** 马**  
[0146] 上述表格内容转为文本txt内容为:
[0147] 抢劫&123***789&张*&152****5741&浙江**&马**&无
[0148] 2、知识图谱数据建模预定义
[0149] 每个JanusGraph都有一个schema(可以称为图谱模型),该schema由 edge labels(边标签),property keys(属性值),和vertex(顶点或实体)组成。JanusGraph的schema可以显示(明确)定义,也可以隐式定义。
[0150] 2.1、定义实体label(即实体标签)
[0151] 实体标签是用于确定实体的类型的,比如张三、李四等实体标签是人,也就是说是人实体;鲁A1**1、鲁1*1等实体标签是车即是车实体;*信、* 尔、*力等实体标签是单位等。具体可以根据实际需求设置。
[0152] 要创建实体标签,需调用makeVertexLabel(String).make()打开的图形或管理事务,并提供顶点标签(即实体标签)的名称作为参数,顶点标签名称在图表中必须是唯一的。
[0153] 2.2、定义边label(即边标签)
[0154] 边标签用于确定边的类型,边的类型如同学、同事、居住地、哥哥等等。
[0155] 要定义边标签,需在打开的图形或管理事务上调用MakeEdgeLabel (String),并提供边标签的名称作为参数。边标签名称在图中必须唯一。方法会返回一个允许定义边标签多样性builder。边标签的多样性定义了具有该标签的边的多样性约束,既一对顶点(即实体)间的最大边个数。 JanusGraph支持如下的多样性:
[0156] MULTI:任意一对的顶点间允许多个标签相同的边。
[0157] SIMPLE:任意一对顶点之间只允许一条此类标签的边。
[0158] MANY2ONE:在图形中的任何顶点上最多允许此标签的一个输出边,但不限制输入边个数。ONE2MANY:在图形中的任何顶点上最多允许此标签的一个输入边,但不限制输出边。
[0159] ONE2ONE:在图表的任何顶点上最多允许此标签的一个输入边和一个输出边。
[0160] 2.3、实体及边属性的定义
[0161] 使用cardinality(Cardinality)定义与任何给定的顶点的键关联的值允许的基数。
[0162] 基数的设置:
[0163] SINGLE:对于此键,每个元素最多允许一个值。
[0164] LIST:允许每个元素的任意数量的值用于此类键。
[0165] SET:允许多个但不重复的值用于此类键。
[0166] 2.4、索引的建立
[0167] JanusGraph支持索引用以提升查询处理速度,大多数图查询都是从它们的属性标识的顶点或边的列表开始遍历的,索引使在大图中进行全局检索的时候变得非常高效。如果缺少索引的时候,JanusGraph将进行全图扫描以找到希望的顶点。当然这样也能返回正确的结果,但是全图扫描非常低效,会降低整个生产环境的系统性能。
[0168] 索引是由实体属性和边属性来声明索引的。
[0169] 3、公安知识图谱建模
[0170] 3.1、3.1建模预处理
[0171] 读取经过数据预处理得到的txt文档,以案件文本case.txt为例。通过对案件文本case.txt一行一行遍历操作,以&为分隔符取文本中相关数据,然后去掉文本中非数据的中英文表头内容。
[0172]
[0173] 3.2、实体唯一性和知识补全及更新
[0174] 利用实体唯一标识判断知识图谱库中是否存在,如果存在,根据需求做属性补全、属性更新、保留原始和现在的属性;如果不存在,新建实体。
[0175] 以构建手机号实体为例来完成实体唯一性的处理和实体知识补全和实体知识更新:
[0176] 首先,手机号内容不能为空,因为手机号实体的唯一属性就是手机号,即if(p[6]!="无"){};接下来要采用gremlin查询语言,用带索引的手机实体唯一属性值查询图谱数据库中是否存在该实体:
[0177]
[0178] 如果不成立,说明图谱数据库中不存在属性phone_number==p[6]的手机号实体,接下来就要创建新的手机号实体:
[0179] v11=graph.addVertex(label,'phone',’vertex_label’,’phone’, 'vertex_date',t1,'phone_number',p[6]);
[0180] 需要说明的是,实体唯一性处理的方法基本类似,有特殊情况要根据实际需求做特殊处理,比如构建人实体,虽然身份证号是实体人的唯一标识,但考虑到后面的知识融合,身份证号不存在但姓名存在也需要创建新的实体,唯一不同就是该情况实体不需要查重只需创建新实体。
[0181] 3.3、边唯一性和知识补全及更新
[0182] 以手机号实体与人实体之间创建边phone_person为例来完成两实体之间边唯一性的处理和边的知识补全及知识更新。前面已经对手机号实体做唯一性处理和知识补全及知识更新,做边唯一性处理的前提是两实体已经在图数据库(即知识图谱所存储的数据库)上存在,只需考虑人身份证号不为空& 人实体在图谱库(即图数据库)中存在且已经对人实体属性做了知识补全和知识更新。但同样要满足如下:
[0183]
[0184] 首先,判断指向人实体的边phone_person是否存在,如果不存在直接在人实体、手机号实体之间建边phone_person,如果存在就判断以边 phone_person指向人实体的手机号实体是否存在,如果存在就以列表的形式查出所有满足条件的手机号实体。
[0185]
[0186] 其次,遍历所有满足条件的手机号实体,如果通过人实体-边 phone_person-手机号实体的唯一标识id与图谱库中属性phone_number== p[6]的手机号实体的唯一标识id相等,说明人实体、手机号实体之间已经存在边phone_person,然后以列表的形式查出图谱库中所有满足条件的边。遍历图谱库中所有的手机号实体,如果都不相等,说明不存在满足条件的边,两实体之间要重新建立边phone_person。具体如下:
[0187]
[0188]
[0189] 最后,通过遍历满足条件的所有边,如果以边phone_person查询到的人实体的唯一标识id与当前人实体的唯一标识id相等,对边属性做知识补全和知识更新。
[0190]
[0191] 3.4、以人、地、事等6层结构整合图谱
[0192] 构建好的公安知识图谱实体之间没有层次性,不能直观的把我整个知识图谱框架,这就需要集合同一类型的实体。以车实体为例,实体1(车牌号:鲁A1**654),实体2(车牌号:鲁B1**674),实体3(车牌号:鲁A1**554) 等等,可以通过label或其他特殊属性把所有实体集合在一起,新建一个大类实体,通过关系belonging2连接在一起。如下:
[0193]
[0194] 不存在就新建大类实体:v21=graph.addVertex(label,'car','NAME',' 车','vertex_date',t1);
[0195] 同理,车辆实体属于6层结构中的物,新建物类实体,把车辆实体通过边belonging2连接在一起。
[0196]
[0197] 不存在就新建物实体:
[0198] v41=graph.addVertex(label,'Material','NAME','物',' vertex_date',t1);
[0199] 4、基于图谱的推理查询
[0200] 4.1、公安知识图谱可视化
[0201] 公安知识图谱主要由案件、人、车、手机、酒店等实体和居住、出行、同事、过户等关系组成。可以通过将公安知识图谱进行可视化展示,使相关人员能够更便捷明了地了解案件所有关联情况。具体的可视化效果图示意图如上所示,在此不再赘述。
[0202] 4.2、知识推理技术
[0203] 从知识图谱中可能不能直接发现两实体之间存在的隐含关系,因此可以通过知识推理技术挖掘实体之间的隐藏关系,进而更进一步明确实体之间的联系。例如案件2涉及到嫌疑人4,嫌疑人4曾居住过酒店1,住客1也是同时间居住在酒店1,可以推理出住客1与案件相关的可能性较大;案件1与案件2表面没有联系,但通过案件1涉及到嫌疑人2,案件2涉及到车辆4,并且车辆4所属嫌疑人2,这就说明两案件之间存在相关关系;案件1的受害人1的朋友人4,案件1涉及到的车辆1所属人4,说明人4与案件1相关。
[0204] 4.3、图谱功能分析
[0205] 能够帮助公安机关绘制人、车、案件三个维度的关系网并构建成知识图谱,使得刑侦人员能够快速把握嫌疑人间显性与隐性关联,迅速掌握破案线索,可以协助公安刑侦和其他警种在破案时事半功倍。能够帮助公安刑侦人员实现同住分析、同行分析、话单关系分析、物流关系分析、案件关联分析、车辆关系分析和多维关系分析等。
[0206] 需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。
[0207] 本实施例提供的知识图谱的数据处理方法,通过获取待处理原数据(即新增的原数据),根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。还可以补充各实体之间的关系,使得知识图谱更加完善。还可以建立索引,提高查询效率。还可以对原始表格数据进行预处理,实现多源异构数据用于知识图谱的构建,提高数据的可用性和有效性。还可以对知识图谱进行分类整合,有效体现知识图谱中各实体的层次性。还可以对知识图谱进行可视化展示,更有助于相关人员了解各实体之间的关联性,提高办事效率。此外,还可以根据当前知识图谱挖掘各实体之间的隐含关系,进一步帮助相关人员找出各实体之间的关联性。
[0208] 本申请再一实施例提供一种服务器,用于执行上述实施例的方法。
[0209] 如图7所示,为本实施例提供的服务器的结构示意图。该服务器30包括获取模块31、确定模块32和处理模块33。
[0210] 其中,获取模块,用于获取待处理原数据;确定模块,用于根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体;处理模块,用于:若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。
[0211] 关于本实施例中的服务器,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0212] 根据本实施例提供的服务器,通过获取待处理原数据(即新增的原数据),根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。
[0213] 本申请又一实施例对上述实施例提供的服务器做进一步补充说明。
[0214] 作为一种可实施的方式,在上述实施例的基础上,可选地,确定模块,具体用于:
[0215] 按行遍历待处理原数据,对于其中的每行数据,根据预设实体规则,判断其中需要建立实体的项;
[0216] 对于每个需要建立实体的项,判断项在当前知识图谱中是否具有对应的实体。
[0217] 可选地,确定模块,具体用于:
[0218] 获取项对应的唯一属性;
[0219] 根据项对应的唯一属性,查询当前知识图谱中是否存在具有与唯一属性相同的属性且与项属于相同类型的实体;
[0220] 若有,则表示项在当前知识图谱中存在对应的实体;
[0221] 可选地,获取模块,还用于获取项对应的唯一属性所对应的索引信息;
[0222] 确定模块,具体用于:
[0223] 根据项对应的唯一属性及索引信息,查询当前知识图谱中是否存在具有与唯一属性相同的属性且与项属于相同类型的实体。
[0224] 可选地,处理模块,还用于:
[0225] 若根据待处理原数据确定第一实体和第二实体之间具有预设关系,则从新知识图谱中查询第一实体连接的各边所指向的第三实体;
[0226] 根据各第三实体的唯一标识及第二实体的唯一标识,判断第一实体与第二实体之间是否存在对应的边;
[0227] 若存在,则根据待处理原数据对第一实体与第二实体之间的边进行知识补全更新处理;
[0228] 若不存在,则根据待处理原数据建立第一实体与第二实体之间的边,并进行知识补全处理。
[0229] 可选地,处理模块,具体用于:
[0230] 若第三实体的唯一标识与第二实体的唯一标识相同,则确定第一实体与第二实体之间存在对应的边。
[0231] 可选地,确定模块,具体用于:
[0232] 按行遍历待处理原数据,并去掉不需要的表头内容;
[0233] 对于其中需要的每行数据,根据预设实体规则,确定其中需要建立实体的项。
[0234] 作为另一种可实施的方式,在上述实施例的基础上,可选地,获取模块,具体用于:
[0235] 获取原始表格数据;
[0236] 对原始表格数据进行预处理,获得预设格式的文本数据;
[0237] 将预设格式的文本数据作为待处理原数据。
[0238] 可选地,获取模块,具体用于,对原始表格数据进行预处理,获得预设格式的文本数据,包括:
[0239] 对于原始表格数据中字段内容为空的部分,采用预设特殊字进行填充处理,获得处理后表格数据;
[0240] 采用分隔符&将表格数据转换成预设格式的文本数据。
[0241] 作为另一种可实施的方式,在上述实施例的基础上,可选地,处理模块,还用于:
[0242] 对知识图谱按照预设分类规则进行分类整合,获得分类后的知识图谱。
[0243] 作为另一种可实施的方式,在上述实施例的基础上,可选地,处理模块,还用于:
[0244] 对知识图谱进行可视化展示处理。
[0245] 作为另一种可实施的方式,在上述实施例的基础上,可选地,处理模块,还用于:
[0246] 根据当前知识图谱及预设挖掘规则,挖掘各实体之间的隐含关系;
[0247] 根据挖掘的各实体之间的隐含关系,对当前知识图谱进行补全更新处理。
[0248] 关于本实施例中的服务器,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0249] 需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。
[0250] 根据本实施例的服务器,通过获取待处理原数据(即新增的原数据),根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。还可以补充各实体之间的关系,使得知识图谱更加完善。还可以建立索引,提高查询效率。还可以对原始表格数据进行预处理,实现多源异构数据用于知识图谱的构建,提高数据的可用性和有效性。还可以对知识图谱进行分类整合,有效体现知识图谱中各实体的层次性。还可以对知识图谱进行可视化展示,更有助于相关人员了解各实体之间的关联性,提高办事效率。此外,还可以根据当前知识图谱挖掘各实体之间的隐含关系,进一步帮助相关人员找出各实体之间的关联性。
[0251] 本申请再一实施例提供一种电子设备,用于执行上述实施例提供的方法。该电子设备可以为服务器。
[0252] 如图8所示,为本实施例提供的电子设备的结构示意图。该电子设备50 包括:至少一个处理器51和存储器52;
[0253] 存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上任一实施例提供的方法。
[0254] 根据本实施例的电子设备,通过获取待处理原数据(即新增的原数据),根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。
[0255] 本申请又一实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上任一实施例提供的方法。
[0256] 根据本实施例的计算机可读存储介质,通过获取待处理原数据(即新增的原数据),根据待处理原数据及当前知识图谱,确定待处理原数据是否在当前知识图谱中具有对应的实体,若是,根据待处理原数据对当前知识图谱中对应的实体进行知识补全更新处理,获得新知识图谱;若否,根据待处理原数据在当前知识图谱中新建对应的实体,并根据待处理原数据对新建的实体进行知识补全处理,获得新知识图谱。实现了知识图谱的动态补全及更新,提高原数据的可用性、有效性,有效提高办事效率,降低时间和人力成本。
[0257] 在本申请所提供的几个实施例中,应该理解到,所揭露的装置(如服务器)和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0258] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0259] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0260] 上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0261] 本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0262] 最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈