技术领域
[0001] 本
发明涉及AI优化数据治理技术,属于数据治理领域,具体为一种AI优化数据治理的方法。
背景技术
[0002] 现用的很多数据系统,因历史建设原因,都是某一领域的烟囱式建设,大多属于数据
孤岛,无法进行互联互通,因此很难进行各系统间的数据关联性挖掘、数据血缘关系分析,使数据价值大大降低,因此催生了数据治理系统。
[0003] 数据治理即是将各种数据统一
抽取,并经过各种自定义的技术方式发现数据之间的关联关系,并形成统一的对外提供服务的数据资源池。数据治理的整体目标是提高数据
质量,保证数据的安全性,实现数据资源在各个组织机构部
门的共享和整合。数据治理,对各种不同的数据源进行常规的数据提取、转换、清洗、去重、补全、关联、融合、对比、标识等操作后,生成统一的原始库,资源库,主题库,专题库等,并对外提供统一的数据资源目录服务。
[0004] 目前的数据治理大多使用标准的ETL,只通过关键字以及业务规则进行合并,没有语义方面的融合,同时无智能的策略配置模板,使得目前数据治理方面的智能化程度不高,从而导致数据的关联程度不够。现有的数据治理技术,根据不同的行业应用场景,对于ETL多采用技术元数据(例如
数据库表定义)中的key来进行,无法进行同义词转换比较以及数据的语义相关性分析。
现有技术方案,普遍具有定制开发、实现复杂的特点,对于技术开发人员、业务使用人员要求较高。
[0005] 本
申请提出一种结合AI的智能数据治理的方法,同时结合预制的策略模板和AI学习后自动更新策略模板,在数据经过ETL处理之后,当不满足数据质量的情况下,不直接采用丢弃的方式,而是采取智能回环反馈,重新进行ETL的处理,并且根据系统上线后大量数据的训练结果,将适合本行业的优化后的ETL策略进行内置保存,避免为每个行业定制化的开发,同时为了平衡效率和准确性,可以自主调整最大回环次数。该方案已经在多个实际项目中运用。并且取得良好效果
[0006] 为此,提出一种AI优化数据治理的方法。
发明内容
[0007] 本发明的目的在于提供一种AI优化数据治理的方法,本申请提案通过将AI技术引入到数据治理中,实现了提升数据质量,提高数据之间的关联关系和血缘关系的挖掘,并提供统一策略模板库,通过AI学习,丰富各行业数据治理的策略模板。
[0008] 并创新性的引入了分类学习、函数学习、回归等技术,动态调整数据质量评估标准的转换规则和各维度权重,避免人为经验干扰过重的问题。
[0009] 为实现上述目的,本发明提供如下技术方案:AI
数据采集处理、AI优化元数据和智能数据质量评估管理;
[0010] AI数据采集处理包括:数据接入、数据转换、数据加载、策略模板保存和数据质量评估管理;
[0011] AI优化元数据包括:技术元数据和业务元数据;
[0012] 智能数据质量评估管理为采用AI定义转换规则,提取数据质量评估维度。
[0013] 优选的,技术元数据包括:数据库表结构、转换规则,数据历史记录。
[0014] 优选的,业务元数据包括:业务含义、数据标准,指标含义,度量方法。
[0015] 优选的,智能数据质量评估管理的指标包括:完整性、规范性、一致性、准确性、唯一性和时效性。
[0016] 优选的,AI定义转换规则采用
机器学习中的分类学习、函数学习、回归技术,将通过提取有效的数据质量评估指标,根据技术元数据和业务元数据的映射和融合,动态调整智能数据质量评估管理指标的权重系数,进而改善转换规则和数据质量评估维度,并随着数据量和业务期望逐渐变化,使数据质量提升方案动态更新。
[0017] 与现有技术相比,本发明的有益效果是:
[0018] 本申请提案通过将AI技术引入到数据治理中,实现了提升数据质量,提高数据之间的关联关系和血缘关系的挖掘,并提供统一策略模板库,通过AI学习,丰富各行业数据治理的策略模板。
[0019] 并创新性的引入了分类学习、函数学习、回归等技术,动态调整数据质量评估标准的转换规则和各维度权重,避免人为经验干扰过重的问题。
附图说明
[0020] 图1为本发明AI优化数据治理方法流程示意图;
[0021] 图2为本发明的AI优化元数据流程示意图。
具体实施方式
[0022] 下面将结和本发明
实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023] 请参阅图1-2,本发明提供一种技术方案:
[0024] AI数据采集处理、AI优化元数据和智能数据质量评估管理;AI数据采集处理包括:数据接入、数据转换、数据加载、策略模板保存和数据质量评估管理;AI优化元数据包括:技术元数据和业务元数据;智能数据质量评估管理为采用AI定义转换规则,提取数据质量评估维度。
[0025] 一、AI数据采集处理具体为:对接抽取上来的待加工的数据,采用智能ETL处理,并引入了策略和机器学习进行反馈回环
[0026] 提取:通过采集上的数据和条件函数的依赖,生成策略,并将重复多余的数据进行筛选清除。
[0027] 转换:通过策略将缺失的数据补充完整,将错误的数据纠正或者删除(也就是去噪),最后
整理成为我们可以进一步加工、使用的数据。
[0028] 加载(清洗):将数据按需进行排列,同时利用用户反馈的策略训练模型,结合AI
深度学习技术,进一步更新策略并回环反馈,并将符合要求的模板进行分门别类的保存,最后将满足要求的数据输入到后续数据质量评估模
块中。
[0029] 二、AI优化元数据为:元数据描述数据的数据,即数据特征的相关信息,本方案将元数据按用途分成技术元数据和业务元数据。技术元数据包括:数据库表结构、转换规则,数据历史记录;业务元数据包括:业务含义、数据标准,指标含义,度量方法。
[0030] (1)AI对半结构化数据关键信息的提取
[0031] 本方案利用NLP等AI技术,采集半结构化数据的元数据,实现元数据的最初业务词库的构建,根据元数据库配置映射规则,不断提升数据质量。
[0032] (2)AI技术维护元数据
[0033] 本方案利用相似性分析等AI技术,消除在元数据存储或数据字典中重复、不一致的元数据,并通过元数据质量规则设定,提出可靠的质疑
阈值。确保元数据的数据质量。
[0034] (3)AI技术实现元数据的整合
[0035] 本方案利用
关联性分析等AI技术,进行业务元数据和技术元数据的映射,实现智能化监控关键
节点和优化节点的作用,解决诸如质量控制和语义筛选方面的问题,从而提升入库元数据的质量。
[0036] 三、智能数据质量评估管理
[0037] 数据质量是保证数据应用的
基础,衡量数据质量的指标体系包括:
[0038] 完整性:数据是否缺失;规范性:数据是否按照要求的规则存储;一致性:数据的值是否存在信息含义上的冲突;准确性:数据是否正确;唯一性:数据是否是重复的;时效性:数据是否及时反映客观事实。
[0039] 本方案采用AI定义转换规则,提取数据质量评估维度。具体为采用机器学习中的分类学习、函数学习、回归等技术,将通过提取有效的数据质量评估指标(上述的6个指标),根据技术元数据和业务元数据的映射和融合,动态调整6个指标的权重系数,进而改善转换规则和数据质量评估维度,并随着数据量和业务期望的逐渐变化,使数据质量提升方案动态更新。
[0040] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、
修改、替换和变型,本发明的范围由所附
权利要求及其等同物限定。