首页 / 专利库 / 电脑编程 / 应用程序域 / 数据管理方法、装置、存储介质及系统

数据管理方法、装置、存储介质及系统

阅读:0发布:2020-09-30

专利汇可以提供数据管理方法、装置、存储介质及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开一种数据管理方法,由元数据系统执行,该方法包括:响应于 数据仓库 的离线数据任务产出结果表,对结果表执行数据 质量 校验任务,得到校验结果;判断所述校验结果是否为校验失败;响应于校验结果为校验失败,确定校验失败的任务 节点 ,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点;响应于判定所述校验失败的任务节点配置有第一告警方式,向所述数据仓库发送中断 信号 ,以使所述数据仓库中断所述离线数据任务的执行。本发明提供的数据管理方法能够提高数据管理效率,防止下游任务出现 雪 崩效应,避免出现大面积的数据问题。同时本发明还提供数据管理装置、存储介质及系统。,下面是数据管理方法、装置、存储介质及系统专利的具体信息内容。

1.一种数据管理方法,其特征在于,所述方法应用于元数据系统,所述方法包括:
响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果;
判断所述校验结果是否为校验失败;
响应于所述校验结果为校验失败,确定校验失败的任务节点,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点;及
响应于判定所述校验失败的任务节点配置有所述第一告警方式,向所述数据仓库发送中断信号,以使所述数据仓库中断所述离线数据任务的执行。
2.如权利要求1所述的数据管理方法,其特征在于,所述响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果,包括:
响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,确定与所述结果表对应的预先配置的至少一条数据质量校验规则;及根据所述至少一条数据质量校验规则对所述结果表进行数据质量校验,得到校验结果;
其中,所述元数据血缘关系包括表和任务的血缘关系、以及表和表的血缘关系。
3.如权利要求2所述的数据管理方法,其特征在于,所述至少一条数据质量校验规则包括:通用规则、自定义表级规则和自定义字段规则;
则所述响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,确定与所述结果表对应的预先配置的至少一条数据质量校验规则,包括:
响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,查询与所述结果表对应的预先配置的所述自定义表级规则和所述自定义字段规则;所述自定义表级规则包括非SQL型自定义规则和SQL型自定义规则;
将通用规则放入第一队列;
将所述非SQL型自定义规则放入第二队列;
将所述SQL型自定义规则放入第三队列;
将自定义字段规则放入第四队列;
其中,所述第一队列、第二队列和第三队列能够并发执行。
4.如权利要求3所述的数据管理方法,其特征在于,所述根据所述至少一条数据质量校验规则对所述结果表进行数据质量校验,得到校验结果,包括:
依次从所述非SQL型自定义规则、所述SQL型自定义规则、所述通用规则和所述自定义字段规则对应的四个队列中取出每个队列中的一条规则对所述结果表进行校验,得到校验结果。
5.如权利要求1-4任一项所述的数据管理方法,其特征在于,所述方法还包括:
响应于所述校验结果为校验失败,根据预先配置的告警渠道和表的资产等级确定告警对象,并对所述告警对象进行告警。
6.如权利要求1-4任一项所述的数据管理方法,其特征在于,所述方法还包括:
在对所述结果表执行数据质量校验任务时收集所述结果表的信息;
通过所述元数据血缘关系将离线数据任务定位至所述结果表,以确定用于生产所述结果表的所述离线数据任务所消耗的集群资源;
采用可视化工具对所述结果表的信息、所述集群资源与所述校验结果进行展示。
7.如权利要求1-4任一项所述的数据管理方法,其特征在于,所述方法还包括:
通过定时异步任务对数据规范规则进行检查,得到检查结果;
根据所述检查结果向对应业务域负责人发送通知;
其中,所述通过定时异步任务对数据规范规则进行检查,包括:
检查关键字段是否配置数据质量校验规则;
对表的命名规则和分区规则进行检查。
8.一种数据管理装置,其特征在于,所述数据管理装置应用于元数据系统,所述装置包括:
数据质量校验模,用于响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果;
校验结果判断模块,用于判断所述校验结果是否为校验失败;
告警方式判断模块,用于响应于所述校验结果为校验失败,确定校验失败的任务节点,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点;及
任务中断模块,用于响应于判定所述校验失败的任务节点配置有所述第一告警方式,向所述数据仓库发送中断信号,以使所述数据仓库中断所述离线数据任务的执行。
9.一种存储介质,其特征在于,所述存储介质包括存储的计算机程序,所述计算机程序运行时控制所述存储介质所耦合设备实现如权利要求1-7中任意一项所述的数据管理方法。
10.一种数据管理系统,包括一个或多个处理器;存储器;以及
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述计算机程序包括用于执行如权利要求1至7中任意一项所述的数据管理方法。

说明书全文

数据管理方法、装置、存储介质及系统

技术领域

[0001] 本发明涉及数据仓库技术领域,尤其涉及数据管理方法、装置、存储介质及系统。

背景技术

[0002] 数据仓库是拥有海量数据的公司不可缺少的一环,是为了进一步挖掘数据资源、为了决策需要而产生的。在这个过程中必然涉及到数据的采集,清洗,整合等等一系列操作,那么在面向数据的过程中,伴随着数据开发,必然离不开数据管理。
[0003] 发明人在实施本发明的过程中发现,现有技术存在如下缺陷:在进行数据管理的时候,仓库开发人员往往需要花费大量的精去关注一些用于检查数据质量的其他系统或者是额外开发数据质量检查任务;而且,这种方式的数据管理,其实属于后知后觉的方式,当数据质量出现问题的时候,其不能在第一时间感知数据质量问题,容易导致崩效应,出现大面积的数据问题。

发明内容

[0004] 基于此,本发明实施例提出了一种数据管理方法、装置、存储介质及系统,能够提高数据管理效率,防止下游任务出现雪崩效应,避免出现大面积的数据问题。
[0005] 本发明实施例提供的数据管理方法应用于元数据系统,所述方法包括:
[0006] 响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果;
[0007] 判断所述校验结果是否为校验失败;
[0008] 响应于所述校验结果为校验失败,确定校验失败的任务节点,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点;
[0009] 响应于判定所述校验失败的任务节点配置有所述第一告警方式,向所述数据仓库发送中断信号,以使所述数据仓库中断所述离线数据任务的执行。
[0010] 在一种可选的实施方式中,所述响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果,包括:
[0011] 响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,确定与所述结果表对应的预先配置的至少一条数据质量校验规则;及
[0012] 根据所述至少一条数据质量校验规则对所述结果表进行数据质量校验,得到校验结果;
[0013] 其中,所述元数据血缘关系包括表和任务的血缘关系、以及表和表的血缘关系。
[0014] 在一种可选的实施方式中,所述至少一条数据质量校验规则包括:通用规则、自定义表级规则和自定义字段规则;
[0015] 则所述响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,确定与所述结果表对应的预先配置的至少一条数据质量校验规则,包括:
[0016] 响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,查询与所述结果表对应的预先配置的所述自定义表级规则和所述自定义字段规则;所述自定义表级规则包括非SQL型自定义规则和SQL型自定义规则;
[0017] 将通用规则放入第一队列;
[0018] 将所述非SQL型自定义规则放入第二队列;
[0019] 将所述SQL型自定义规则放入第三队列;
[0020] 将自定义字段规则放入第四队列;
[0021] 其中,所述第一队列、第二队列和第三队列能够并发执行。
[0022] 在一种可选的实施方式中,所述根据所述至少一条数据质量校验规则对所述结果表进行数据质量校验,得到校验结果,包括:
[0023] 依次从所述非SQL型自定义规则、所述SQL型自定义规则、所述通用规则和所述自定义字段规则对应的四个队列中取出每个队列中的一条规则对所述结果表进行校验,得到校验结果。
[0024] 在一种可选的实施方式中,所述方法还包括:
[0025] 响应于所述校验结果为校验失败,根据预先配置的告警渠道和表的资产等级确定告警对象,并对所述告警对象进行告警。
[0026] 在一种可选的实施方式中,所述方法还包括:
[0027] 在对所述结果表执行数据质量校验任务时收集所述结果表的信息;
[0028] 通过所述元数据血缘关系将离线数据任务定位至所述结果表,以确定用于生产所述结果表的所述离线数据任务所消耗的集群资源;
[0029] 采用可视化工具对所述结果表的信息、所述集群资源与所述校验结果进行展示。
[0030] 在一种可选的实施方式中,所述方法还包括:
[0031] 通过定时异步任务对数据规范规则进行检查,得到检查结果;
[0032] 根据所述检查结果向对应业务域负责人发送通知;
[0033] 其中,所述通过定时异步任务对数据规范规则进行检查,包括:
[0034] 检查关键字段是否配置数据质量校验规则;
[0035] 对表的命名规则和分区规则进行检查。
[0036] 本发明实施例还提供一种数据管理装置,该装置应用于元数据系统。该装置包括:
[0037] 所述数据管理装置应用于元数据系统,所述装置包括数据质量校验模、校验结果判断模块、告警方式判断模块和任务中断模块。
[0038] 数据质量校验模块用于响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果;
[0039] 校验结果判断模块用于判断所述校验结果是否为校验失败;
[0040] 告警方式判断模块用于响应于所述校验结果为校验失败,确定校验失败的任务节点,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点;
[0041] 任务中断模块用于响应于判定所述校验失败的任务节点配置有所述第一告警方式,向所述数据仓库发送中断信号,以使所述数据仓库中断所述离线数据任务的执行。
[0042] 作为上述方案的改进,
[0043] 本发明另一实施例对应提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,所述计算机程序运行时控制所述存储介质所耦合设备实现如上述任一实施例所述的数据管理方法。
[0044] 本发明另一实施例对应提供了数据管理系统,包括一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述计算机程序包括用于执行如上述任一实施例所述的数据管理方法。
[0045] 相对于现有技术,本发明具有如下突出的有益效果:本发明实施例提供了数据管理方法、装置、存储介质及系统,其中,所述方法应用于元数据系统,其通过对数据仓库的离线数据任务所产出的结果表进行数据质量校验,将数据仓库的生产过程中开发人员所关注的数据质量问题通过元数据系统呈现出来。开发人员无需主动去关注数据质量等问题,而是由元数据系统主动驱动,大大提高数据仓库人员开发的效率,避免了数据仓库开发人员在进行数据管理时效率低下却花费大量的精力,并且容易产生数据问题的情况。数据校验的过程结合元数据系统,使得开发人员能够较为全面、自动化地感知到数据的问题。该方法还通过判断校验失败的任务节点是否配置有第一告警方式来确定所述任务节点是否为关键任务节点,并在确定任务节点为关键节点时向所述数据仓库发送中断信号,以使所述数据仓库反向中断所述离线数据任务的执行,防止下游任务出现雪崩效应,避免出现大面积的数据问题。附图说明
[0046] 图1是本发明提供的一实施方式的数据管理方法的流程示意图;
[0047] 图2是本发明提供的一实施方式的步骤S110的流程示意图;
[0048] 图3是本发明提供的又一实施方式的数据管理方法的流程示意图;
[0049] 图4是本发明提供的又一实施方式的数据管理方法的流程示意图;
[0050] 图5是本发明提供的又一实施方式的数据管理方法的流程示意图;
[0051] 图6是本发明提供的一实施方式的数据管理装置的结构示意图;
[0052] 图7是本发明提供的一实施方式的数据管理系统的结构示意图。

具体实施方式

[0053] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054] 参见图1,其是本发明提供的一实施方式的数据管理方法的流程示意图,所述数据管理方法应用于元数据系统。
[0055] 元数据(Meta Data)是指描述数据的数据,通常由信息结构的描述组成,随着技术的发展元数据内涵有了非常大的扩展,比如UML模型、数据交易规则、用Java,.NET,C++等编写的APIs、业务流程和工作流模型、产品配置描述和调优参数以及各种业务规则、术语和定义等。元数据还应该包括对各种新数据类型的描述,如对位置、名字、用户点击次数、音频、视频、图片、各种无线感知设备数据和各种监控设备数据等的描述等。元数据通常分为业务元数据、技术元数据和操作元数据等。业务元数据主要包括业务规则、定义、术语、术语表、运算法则和系统使用业务语言等,主要使用者是业务用户。技术元数据主要用来定义信息供应链(Information Supply Chain,ISC)各类组成部分元数据结构,具体包括各个系统表和字段结构、属性、出处、依赖性等,以及存储过程、函数、序列等各种对象。操作元数据是指应用程序运行信息,比如其频率、记录数以及各个组件的分析和其它统计信息等。
[0056] 元数据系统,亦称作元数据管理系统,该平台能够对元数据进行管理。
[0057] 本实施例提供的数据管理方法包括:
[0058] 步骤S110、响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果;
[0059] 步骤S120、判断所述校验结果是否为校验失败;
[0060] 步骤S130、响应于所述校验结果为校验失败,确定校验失败的任务节点,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点;
[0061] 步骤S140、响应于判定所述校验失败的任务节点配置有所述第一告警方式,向所述数据仓库发送中断信号,以使所述数据仓库中断所述离线数据任务的执行。
[0062] 在每天的数据仓库生产过程中,每个涉及到产出表的离线数据任务,在本发明中,将离线数据任务产出的表称作结果表。数据仓库执行完数据任务后以通过HTTP的方式调用元数据系统的接口触发与离线数据任务产出的结果表相关的数据质量校验任务。
[0063] 可选的,第一告警方式可以是电话告警等方式。
[0064] 具体地,所述方法还包括:响应于判定所述校验失败的任务节点配置有所述第一告警方式,对所述数据离线任务的相关人员进行电话告警。电话告警可用于说明不处理问题可能引起下游数据失败的情况。通过电话告警,可供该任务的相关人员及时处理问题,便于在处理问题后恢复数据任务的执行,从而使得元数据系统与数据仓库之间形成闭环,整体流畅运行。
[0065] 进一步,所述方法还包括:响应于判定所述校验失败的任务节点配置没有第一告警方式,则所述任务节点不是关键任务节点,此时可采用所述第一告警方式通知相关人员,便于开发人员后续跟进处理。即根据任务节点的重要程度作出不同处理,提高灵活性,保证离线数据任务的处理效率。
[0066] 本实施例提供的数据管理方法应用于元数据系统,其通过对数据仓库的离线数据任务所产出的结果表进行数据质量校验,将数据仓库的生产过程中开发人员所关注的数据质量问题通过元数据系统呈现出来。开发人员无需主动去关注数据质量等问题,而是由元数据系统主动驱动,大大提高数据仓库人员开发的效率,避免了数据仓库开发人员在进行数据管理时效率低下却花费大量的精力,并且容易产生数据问题的情况。数据校验的过程结合元数据系统,使得开发人员能够较为全面、自动化地感知到数据的问题。该方法还通过判断校验失败的任务节点是否配置有第一告警方式来确定所述任务节点是否为关键任务节点,并在确定任务节点为关键节点时向所述数据仓库发送中断信号,以使所述数据仓库反向中断所述离线数据任务的执行,防止下游任务出现雪崩效应,避免出现大面积的数据问题。
[0067] 参见图2,其是本发明提供的一实施方式的步骤S110的流程示意图,与上述实施例提供的步骤S110~步骤S140不同的是,在本实施例中,步骤S110包括:
[0068] 步骤S1101、响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,确定与所述结果表对应的预先配置的至少一条数据质量校验规则;
[0069] 步骤S1102、根据所述至少一条数据质量校验规则对所述结果表进行数据质量校验,得到校验结果。
[0070] 其中,所述元数据血缘关系包括表和任务的血缘关系、以及表和表的血缘关系。
[0071] 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系,血缘关系便是用来表达数据之间的这种关系。数据库、表和字段,是数据的存储结构。不同类型的数据,有不同的存储结构。存储结构决定了血缘关系的层次结构。
[0072] 基于元数据血缘关系,保证数据质量校验规则与结果表的对应性,便于灵活为不同的结果表配置不同的数据质量校验规则;根据至少一条数据质量校验规则对结果表进行校验,有利于更全面地找到数据质量问题。
[0073] 可选的,所述至少一条数据质量校验规则包括:通用规则、自定义表级规则和自定义字段规则;
[0074] 则步骤S1101包括:
[0075] 响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,查询与所述结果表对应的预先配置的所述自定义表级规则和所述自定义字段规则;自定义表级规则包括非SQL(结构化查询语言,Structured Query Language)自定义校验规则和SQL型自定义规则;
[0076] 将通用规则放入第一队列;
[0077] 将所述非SQL型自定义规则放入第二队列;
[0078] 将所述SQL型自定义规则放入第三队列;
[0079] 将自定义字段规则放入第四队列;
[0080] 其中,所述第一队列、第二队列和第三队列能够并发执行。
[0081] 需要说明的是,自定义表级规则、自定义字段规则皆为自定义的校验规则,相对于通用规则来说,自定义的校验规则可根据开发人员的需求进行自定义配置。在其他实施方式中,自定义表级规则还可以只包括非SQL型自定义规则和SQL型自定义规则中的一种。
[0082] 进一步,所述根据所述至少一条数据质量校验规则对所述结果表进行数据质量校验,得到校验结果,包括:
[0083] 依次从非SQL型自定义规则、SQL型自定义规则、通用规则和自定义字段规则对应的四个队列中取出每个队列中的一条规则对所述结果表进行校验,得到校验结果。
[0084] 为了不影响离线数据任务的进行,采取熟知的生产者-消费者的异步执行的方式依次消费掉队列中的任务。具体地,每次将一个数据质量校验规则放入一个队列的时候会执行Java的ExecutorService类的excute()方法,excute()方法会向任务工厂里注册一个任务,需要传入一个worker参数,worker参数定义了消费的方法,这样拿到任务的worker会进工厂里取出队列的一条校验规则执行校验。
[0085] 每一个Worker等待到消费的权利时,会依次从非SQL型自定义规则、SQL型自定义规则、通用规则和自定义字段规则四个队列中取出每个队列中的一条规则进行校验,这样可以确保worker数和校验的任务数一致,也就是所有的校验任务都会被确保最终消费掉。
[0086] 根据通用规则对结果表进行检验时,元数据系统会根据库名表名访问HDFS文件系统取出结果表的一些元信息,比如大小,行数等等。然后分别进行全量校验和增量校验,两种校验分别按照一定的算法和之前的数据进行比较,全面得出表的数据校验情况。
[0087] 自定义表级校验规则分为SQL型和非SQL型是为了满足数仓人员不同的需求,数据仓库开发人员可提前在元数据系统上表的质量校验模块录入自定义表级规则。元数据系统提供了不同的比较方式、比较周期、比较内容、比较范围等不同的配置,当配置还不满足需求时,则可以通过自定义SQL方式直接取出自己想要的结果进行内容比较,元数据系统根据配置的比较周期自动选择presto或者druid的查询引擎进行查询。
[0088] 对于自定义字段校验规则,数据仓库同样可以提前在元数据系统上录入规则,例如可以配置枚举、唯一、非空等规则,执行校验任务的时候会根据配置自动生成查询sql,在presto里进行查询,得到查询结果后进行规则校验。
[0089] 参见图3,其是本发明提供的又一实施方式的数据管理方法的流程示意图。与上述实施例提供的步骤S110~步骤S140不同的是,在本实施例中,所述数据管理方法还包括:
[0090] 步骤S150,响应于所述校验结果为校验失败,根据预先配置的告警渠道和表的资产等级确定告警对象,并对所述告警对象进行告警。
[0091] 需要说明的是,本实施例并不严格按照步骤S110~S140的顺序执行,例如步骤S140与步骤S150可以并行执行。
[0092] 具体地,所述校验结果包括通用规则校验结果、自定义表级规则校验结果和自定义字段规则校验结果。对于通用规则校验,如果校验成功则直接记录至通用规则校验结果,如果失败,则自动将失败的内容通过邮件发送给表的相关告警接受人,然后记录至通用规则校验结果,存储于元数据系统中,便于相关人员获取相关任务的校验情况,以及处理校验失败的数据质量问题。对于自定义字段规则校验和表级自定义规则校验,如果校验失败,则根据校验过程生成校验问题报告并分配给相关处理人员。对于校验失败的情况,还可以将校验问题报告录入Jira系统(项目与事务跟踪工具),该系统属于开发人员日常需要关注的系统来处理数据质量问题,而元数据系统通过将这一过程自动化,开发人员最后只需要关注Jira处理问题单即可。
[0093] 参见图4,其是本发明提供的又一实施方式的数据管理方法的流程示意图。与上述实施例提供的步骤S110~步骤S140不同的是,在本实施例中,所述数据管理方法还包括:
[0094] 步骤S160,在对所述结果表执行数据质量校验任务时收集所述结果表的信息;
[0095] 步骤S170,通过所述元数据血缘关系将离线数据任务定位至所述结果表,以确定用于生产所述结果表的所述离线数据任务所消耗的集群资源;
[0096] 步骤S180,采用可视化工具对所述结果表的信息、所述集群资源与所述校验结果进行展示。
[0097] 需要说明的是,本实施例并不严格按照步骤S110~S140的顺序执行,例如步骤S160与步骤S110可以并行执行。
[0098] 具体地,可建立数据质量看板,将可视化工具呈现于数据质量看板。
[0099] 该可视化工具可以包括用于展示数据趋势的图表。在上述校验的过程中,元数据系统收集了表的分区大小、行数,全表大小、行数,字段的枚举分布情况等等过程元数据,并将这些数据归档到不同的mysql表里。采用可视化工具能够将结果表的信息更直观地展示给用户,有助于发现隐藏的数据问题,方便数据仓库开发人员感知问题和排查问题。
[0100] 在执行离线数据任务和数据质量校验任务的同时,数据任务所依赖的Hive或者spark引擎亦会记录数据任务的过程元数据,如吞吐耗时,gc时间等等,这些信息都会被推送到元数据系统的mysql库,通过定时的离线任务方式,结合元数据血缘关系,将任务定位到表,便能得到生产每个表的数据任务所花费的集群资源。可选的,可采用一定的算法,将集群资源折算为金额,作为成本结果,然后采用可视化工具对成本结果进行展示。数据仓库开发人员在关注数据趋势的同时,也能关注到表的计算成本变化,便于数据仓库开发人员更直观地感受任务所消耗的集群资源,从而推动数据仓库人员优化相关的数据任务逻辑,减少消耗的资源。
[0101] 参见图5,其是本发明提供的又一实施方式的数据管理方法的流程示意图。与上述实施例提供的步骤S110~步骤S140不同的是,在本实施例中,所述数据管理方法还包括:
[0102] 步骤S190、通过定时异步任务对数据规范规则进行检查,得到检查结果;
[0103] 步骤S200、根据所述检查结果向对应业务域负责人发送通知。
[0104] 具体地,步骤S190包括:
[0105] 检查关键字段是否配置数据质量校验规则;
[0106] 对表的命名规则和分区规则进行检查。
[0107] 需要说明的是,步骤S190还可以包括对其他规范规则进行检查的步骤,可根据实际需求配置,此处不再列举。
[0108] 该实施方式实现数据规范的自动检查,避免因数据不规范而导致雪崩效应。
[0109] 参见图6,其是本发明提供的一实施方式的数据管理装置的结构示意图。本发明实施例提供的数据管理装置1包括:数据质量校验模块210、校验结果判断模块220、告警方式判断模块230与任务中断模块240。
[0110] 数据质量校验模块210用于响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果。
[0111] 校验结果判断模块220用于判断所述校验结果是否为校验失败。
[0112] 告警方式判断模块230用于响应于所述校验结果为校验失败,确定校验失败的任务节点,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点。
[0113] 任务中断模块240用于响应于判定所述校验失败的任务节点配置有所述第一告警方式,向所述数据仓库发送中断信号,以使所述数据仓库中断所述离线数据任务的执行。
[0114] 需要说明的是,该实施例中的数据质量校验模块210可以用于执行上述实施例中的步骤S110,校验结果判断模块220可以用于执行上述实施例中的步骤S120,告警方式判断模块230可以用于执行上述实施例中的步骤S130,任务中断模块240可以用于执行上述实施例中的步骤S140。
[0115] 可选的,数据质量校验模块210包括质量校验规则确定单元与校验任务执行单元。
[0116] 质量校验规则确定单元用于响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,确定与所述结果表对应的预先配置的至少一条数据质量校验规则。
[0117] 校验任务执行单元用于根据所述至少一条数据质量校验规则对所述结果表进行数据质量校验,得到校验结果;
[0118] 其中,元数据血缘关系包括表和任务的血缘关系、以及表和表的血缘关系。
[0119] 可选的,所述至少一条数据质量校验规则包括:通用规则、自定义表级规则和自定义字段规则;
[0120] 则质量校验规则确定单元包括:
[0121] 查询子单元,用于响应于数据仓库的离线数据任务产出结果表,基于预先根据所述离线数据任务获得的元数据血缘关系,查询与所述结果表对应的预先配置的所述自定义表级规则和所述自定义字段规则;所述自定义表级规则包括非SQL型自定义规则和SQL型自定义规则;
[0122] 第一子单元,用于将通用规则放入第一队列;
[0123] 第二子单元,用于将所述非SQL型自定义规则放入第二队列;
[0124] 第三子单元,用于将所述SQL型自定义规则放入第三队列;
[0125] 第四子单元,用于将自定义字段规则放入第四队列。其中,所述第一队列、第二队列和第三队列能够并发执行。
[0126] 可选的,校验任务执行单元包括:
[0127] 规则消费子单元,用于依次从非SQL型自定义规则、SQL型自定义规则、通用规则和自定义字段规则对应的四个队列中取出每个队列中的一条规则对所述结果表进行校验,得到校验结果。
[0128] 可选的,所述装置还包括:
[0129] 告警单元,用于响应于所述校验结果为校验失败,根据预先配置的告警渠道和表的资产等级确定告警对象,并对所述告警对象进行告警。
[0130] 可选的,所述装置还包括:
[0131] 收集单元,用于在对所述结果表执行数据质量校验任务时收集所述结果表的信息;
[0132] 集群资源确定单元,用于通过所述元数据血缘关系将离线数据任务定位至所述结果表,以确定用于生产所述结果表的所述离线数据任务所消耗的集群资源;
[0133] 可视化展示单元,用于采用可视化工具对所述结果表的信息、所述集群资源与所述校验结果进行展示。
[0134] 可选的,所述装置还包括:
[0135] 规则检测模块,用于通过定时异步任务对数据规范规则进行检查,得到检查结果;
[0136] 通知模块,用于根据所述检查结果向对应业务域负责人发送通知;
[0137] 具体地,所述规则检测模块包括:
[0138] 校验规则检测子单元,用于检查关键字段是否配置数据质量校验规则;
[0139] 规范规则校验子单元,用于对表的命名规则和分区规则进行检查。
[0140] 作为上述方案的改进,本发明对应提供了一种系统的优选实施例,参见图7,其是本发明提供的一实施方式的数据管理系统的结构示意图,所述系统包括一个或多个处理器301、存储器302、以及一个或多个计算机程序303。其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述计算机程序包括用于执行如上述任一实施例所述的数据管理方法。
[0141] 示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述系统中的执行过程。例如,所述计算机程序可以被分割成数据质量校验模块210,用于响应于数据仓库的离线数据任务产出结果表,对所述结果表执行数据质量校验任务,得到校验结果;校验结果判断模块220,用于判断所述校验结果是否为校验失败;告警方式判断模块230,用于响应于所述校验结果为校验失败,确定校验失败的任务节点,并判断校验失败的任务节点是否配置有第一告警方式;所述第一告警方式用于指示所述任务节点是否为关键任务节点;任务中断模块240,用于响应于判定所述校验失败的任务节点配置有所述第一告警方式,向所述数据仓库发送中断信号,以使所述数据仓库中断所述离线数据任务的执行。
[0142] 所述系统可以是桌上型计算机、笔记本、台式电脑或端系统等计算设备。所述系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是系统的示例,并不构成对系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述系统还可以包括输入输出设备、网络接入设备、总线等。
[0143] 所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述系统的控制中心,利用各种接口和线路连接整个系统的各个部分。
[0144] 所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0145] 其中,所述系统集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一存储介质中,该计算机程序运行时控制所述存储介质所在设备实现如上述任一实施例所述的数据管理方法。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0146] 需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的用户出行关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0147] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈