首页 / 专利库 / 诊断设备和程序 / 洗入 / 一种清洗对比入库方法

一种清洗对比入库方法

阅读:25发布:2020-05-12

专利汇可以提供一种清洗对比入库方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种清洗对比入库方法,该方法应用于 大数据 互联网环境中,该系统包括多数据来源,多个 数据采集 单元,缓存 服务器 ,统一 数据处理 平台, 数据仓库 ,上位机;该清洗对比入库方法对数据作并行采集和处理,去除明显不合理和明显矛盾的数据,进行自动数据值补全,重复数据删除等清洗处理。本发明所采用的清洗方法智能化程度高,人为参与程度较低,能够自动化的进行大数据清洗,能够针对不同的用户作个性化的数据清理,在用户进行数据获取时对上位 机身 份作鉴权,提高了安全性。,下面是一种清洗对比入库方法专利的具体信息内容。

1.一种清洗对比入库方法,其特征在于,该方法包括如下步骤:
(1)数据采集单元基于针对数据来源的采集策略通过互联网进行数据获取,为采集到的数据设置来源属性和时间戳,将数据集合关联于本次采集的序列编号保存到缓存服务器中相应的位置,然后发送采集完成指令给统一处理平台,采集完成指令中携带有本次采集的序列编号;
(2)缓存服务器保存来自不同数据来源的数据,并基于统一处理平台的请求将特定数据采集单元采集的匹配所请求序列编号的数据集合发送给统一处理平台;
(3)统一数据处理平台接收来自于缓存服务器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,统一数据处理平台向缓存服务器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;
(4)统一数据处理平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;
(5)统一数据处理平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的上位机可能有不同的格式要求,需要针对不同的上位机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;
(6)统一数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;
(7)统一数据处理平台对数据集合进行缺失补全;
(8)统一数据处理平台找出相似重复的数据以便去重;
(9)在从一上位机所要求的数据来源获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该上位机;
(10)上位机访问数据仓库获取所需数据;数据仓库对上位机身份进行验证,当验证通过后,允许上位机基于获取的保存位置进行处理后的数据集合的获取。
2.根据权利要求1所述的清洗对比入库方法,其特征在于,为不同的数据来源设置不同的数据采集周期。
3.根据权利要求1‐2任意一项所述的清洗对比入库方法,其特征在于,通过监控获取针对数据来源的数据产生高峰时间段,在高峰时间段过去后进行数据采集。
4.根据权利要求1‐3任意一项所述的清洗对比入库方法,其特征在于,数据来源在满足预设条件后,进行主动的数据推送。
5.根据权利要求4所述的清洗对比入库方法,其特征在于,预设条件是:在数据量达到预设值后进行主动的数据推送。
6.根据权利要求4所述的清洗对比入库方法,其特征在于,预设的时间周期达到后进行主动的数据推送。
7.根据权利要求1所述的清洗对比入库方法,其特征在于,支持全量数和增量数据清洗。
8.根据权利要求1所述的清洗对比入库方法,其特征在于,支持大数据文件的清洗导入。
9.根据权利要求1所述的清洗对比入库方法,其特征在于,支持自定义数据的清洗规则。
10.根据权利要求1所述的清洗对比入库方法,其特征在于,支持并行的数据采集和处理。

说明书全文

一种清洗对比入库方法

【技术领域】

[0001] 本发明属于数据清洗领域,尤其涉及清洗对比入库方法。【背景技术】
[0002] 数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。
[0003] 现有技术中的数据清洗方法都比较简单,仅能够进行一些常见的数据清洗,清洗后数据删除率较高,由于智能程度不高,清洗过程需要大量的人为参与,用户体验较低,此外,现有的数据清洗计数不能有效的利用现有的数据资源,数据采集和处理不是并行的,不能进行大数据清理,不能针对不同的用户作个性化的数据清理。基于上述诸多问题,现在亟需一种新的清洗对比入库方法,不依赖于用户自身的能,可以进行自动化的、高安全性、高并行的数据清洗。【发明内容】
[0004] 为了解决现有技术中的上述问题,本发明提出了一种清洗比对入库方法。
[0005] 一种清洗比对入库方法,该方法目的是保证数据的质量,提高数据的价值。解决了以下问题:第一、找出相似重复的数据以便去重;第二,对不同来源的数据进行匹配;第三,使数据标准化;第四,支持全量数据清洗导入;第五,指出增量数据清洗导入;第六,支持大数据文件的清洗导入;第七,支持准确的异常数据报告功能;第八,支持自定义数据的清洗规则。
[0006] 本发明采用的技术方案如下:一种清洗对比入库方法,其特征在于,该方法包括如下步骤:
[0007] (1)数据采集单元基于针对数据来源的采集策略通过互联网进行数据获取,为采集到的数据设置来源属性和时间戳,将数据集合关联于本次采集的序列编号保存到缓存服务器中相应的位置,然后发送采集完成指令给统一处理平台,采集完成指令中携带有本次采集的序列编号;
[0008] (2)缓存服务器保存来自不同数据来源的数据,并基于统一处理平台的请求将特定数据采集单元采集的匹配所请求序列编号的数据集合发送给统一处理平台;
[0009] (3)统一数据处理平台接收来自于缓存服务器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,统一数据处理平台向缓存服务器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;
[0010] (4)统一数据处理平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;
[0011] (5)统一数据处理平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的上位机可能有不同的格式要求,需要针对不同的上位机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;
[0012] (6)统一数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;
[0013] (7)统一数据处理平台对数据集合进行缺失补全;
[0014] (8)统一数据处理平台找出相似重复的数据以便去重;
[0015] (9)在从一上位机所要求的数据来源获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该上位机;
[0016] (10)上位机访问数据仓库获取所需数据;数据仓库对上位机身份进行验证,当验证通过后,允许上位机基于获取的保存位置进行处理后的数据集合的获取;
[0017] 进一步的,为不同的数据来源设置不同的数据采集周期。
[0018] 进一步的,通过监控获取针对数据来源的数据产生高峰时间段,在高峰时间段过去后进行数据采集。
[0019] 进一步的,数据来源在满足预设条件后,进行主动的数据推送。
[0020] 进一步的,预设条件是:在数据量达到预设值后进行主动的数据推送。
[0021] 进一步的,预设的时间周期达到后进行主动的数据推送。
[0022] 进一步的,支持全量数和增量数据清洗。
[0023] 进一步的,支持大数据文件的清洗导入。
[0024] 进一步的,支持自定义数据的清洗规则。
[0025] 进一步的,支持并行的数据采集和处理。
[0026] 本发明的有益效果包括:清洗后数据删除率明显降低,智能化程度高,人为参与程度较低,能够自动化的进行大数据清洗,数据采集和处理是并行的,大大提高了清洗效率,针对不同的用户作个性化的数据清理,在用户进行数据获取时对上位机身份作鉴权,提高了安全性。【附图说明】
[0027] 此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
[0028] 图1是本发明所应用的清洗对比入库系统结构图。【具体实施方式】
[0029] 下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
[0030] 参见附图1,是本发明所应用的一种清洗比对入库系统,该系统包括多数据来源,多个数据采集单元,缓存服务器,统一数据处理平台,数据仓库,上位机;
[0031] 基于上述系统,下面对本发明的一种清洗比对入库方法进行详细说明。
[0032] (1)数据采集单元基于针对数据来源的采集策略通过互联网进行数据获取,为采集到的数据设置来源属性和时间戳,将数据集合关联于本次采集的序列编号保存到缓存服务器中相应的位置,然后发送采集完成指令给统一处理平台,采集完成指令中携带有本次采集的序列编号;
[0033] 由于不同的数据来源其数据的产生都有一定的规律性,其产生的数据都有一定的特点;同一个数据采集单元并行负责多个数据来源的数据采集,不能对多个数据来源进行并行的实时采集,这样采集效率会很低,统一处理平台进行数据获取和处理的效率也会很低,需要结合不同数据来源的数据产生规律来更新针对该数据来源的数据采集策略;针对不同的数据来源其采集策略是不同的;针对数据来源的采集策略可以设置为:为不同的数据来源设置不同的数据采集周期;还可设置为,通过监控获取针对数据来源的数据产生高峰时间段,在高峰时间段过去后进行数据采集;还可设置为:数据来源在满足预设条件后,进行主动的数据推送,预设条件是:在数据量达到预设值后,或预设的时间周期达到后等;
[0034] (2)缓存服务器保存来自不同数据来源的数据,并基于统一处理平台的请求将特定数据采集单元采集的匹配所请求序列编号的数据集合发送给统一处理平台;缓存服务器中为每个数据采集单元分配独立的存储区域,同一数据采集单元采集的数据集合按照采集序列编号的顺序保存在同一存储区域中;在数据采集单元对其对应存储区域进行存储时,如果该存储区域用尽,则判断位于存储区域头部的数据集合对应的序列编码是否已经无效,如果是,则直接从该头部区域开始存储,覆盖该无效序列编码对应的数据集合,如果否,则向缓存服务器申请临时存储区域进行存储,在申请临时存储区域失败的情况下,暂停针对当次序列编号的数据集合的存储;
[0035] 优选的:当序列编码对应的数据集合过了保留时间期限后则标记为无效;
[0036] 优选的:序列编号随着采集次数的增加而增加;
[0037] 优选的:该临时存储区域在物理上邻接该存储区域;
[0038] (3)统一数据处理平台接收来自于缓存服务器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,统一数据处理平台向缓存服务器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;
[0039] 优选的:统一数据处理平台中包含多个并行处理设备,多个并行处理设备可以并行的对多个采集单元采集的数据集合进行处理,也可以同时处理同一采集单元采集的数据集合;
[0040] 统一数据处理平台可以一次性获取多个序列编号的数据集合,并同时对该多个序列编号的数据集合进行处理;
[0041] (4)统一数据处理平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;
[0042] 当数据集合处理完毕后,将该数据集合的数据签名保存到历史数据签名表中;
[0043] 数据签名基于该数据集合的数据值获取,可以采用常见的签名算法,此处不再详述;
[0044] (5)统一数据处理平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的上位机可能有不同的格式要求,需要针对不同的上位机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;
[0045] 数据格式内容的不一致和输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可;但由于不同的上位机对数据格式的要求可能不同,允许上位机设置自己要求的标准化规则;
[0046] 检查每条数据记录,如果一条数据记录中的某个数据值是正确的,但是其格式不正确,则根据上位机要求的标准化规则中针对数据值对应的字段的标准化要求对该字段值进行修改;例如:日期填写格式不正确,民族填写方式不符合要求等。
[0047] 如果一条数据记录中的某个字段值是错误的,不能进行标准化,通过错误字段值的重填,可以最快速的做数据记录的更改,同时这种更改的可靠性也是比较高的;例如:姓名写了性别,身份证号写了手机号等等,均属这种问题;当一个数据记录中的一个字段值和其字段不符时,确定字段值是错误的,确定一条记录中的所有错误字段值,针对每个错误字段值,遍历该数据记录中的其它错误字段值对应的字段,如果该个错误字段值满足该其它错误字段值对应的字段中的一个字段要求,则将该个错误字段值填写到该一个字段中,将该一个字段中的字段值回写到该该个错误字段值对应的字段中,直到该一条数据记录中的每个错误字段值均处理完毕;
[0048] (6)统一数据处理平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;具体的:遍历所有的数据字段值,根据数据字段的取值范围确定明显不合理字段值,将该不合理字段值删除;删除后该字段的字段值设置为缺失值;对于一条数据记录中存在明显的矛盾的一对字段值,根据一个字段值对另一字段值进行修改;
[0049] 优选的:根据关键字段值对另一字段值做修改;例如:根据身份证字段值对年龄字段值作修改;关键字段值可以有统一数据处理平台设置或者由用户设置;例如:设置身份证号码、手机号码、姓名字段为关键字段;
[0050] 例如:有人填表时候瞎填,年龄200岁,年收入100000万,这些值都可以明确的判定为不合理值;有些字段是可以互相验证的,如:身份证号是1101031980XXXXXXXX,然后年龄填18岁,这明显是矛盾的;
[0051] (7)统一数据处理平台对数据集合进行缺失补全;具体的:统一数据处理平台对数据集合中的所有数据记录做遍历,找出其中存在字段缺失的数据记录,针对存在字段缺失的数据记录先进行计算补全,对于经过计算补全后仍然存在字段缺失的数据记录,将其保存在补全缓存中;对于补全缓存中的每条数据记录,根据当前数据记录中的关键字段值到本地缓存中进行全部数据集合的查找,根据查找到的数据记录对当前数据记录中的缺失字段进行补全,如果查找到多个匹配的数据字段,则根据时间戳的先后选择数据记录进行补全;如果在本地缓存中没有找到匹配的数据记录,则根据将该关键字段值发送到缓存服务器中,缓存服务器接收该关键数据字段值并查找匹配的数据记录,将匹配的数据记录发送给统一数据处理平台用于对当前数据记录进行补全;如果在缓存服务器中没有找到匹配的数据记录,在允许人工补全的情况下,将该数据记录发送给上位机进行人工补全;如果不允许人工补全,判断该当前数据记录中字段值的缺失率,如果缺失率大于第一缺失阈值,则将该条数据记录做删除处理,同时更新数据删除计数值,如果缺失率小于等于第一缺失阈值,则对缺失字段填充默认字段值;
[0052] 例如:对于生日字段,可以通过身份证号码字段进行计算补全;还可以当前数据记录中的所有数据记录的该字段值的均值、中位数、众数等填充缺失值;
[0053] 优选的:关键字段值可以为一个或者多个,关键字段值可以由平台、数据采集单元或用户来设置;
[0054] 优选的:统一数据处理平台可以将关键字段值发送到一个或者多个缓存服务器中进行查找;
[0055] 优选的:将所有需要进行人工补全的数据集合统一发送到上位机进行人工补全;
[0056] (8)统一数据处理平台找出相似重复的数据以便去重;具体的:统一数据处理平台计算两条数据记录之间的相似度,如果相似度S小于第一相似度阈值TS,则认为该两条数据记录是重复数据,根据该两条数据记录的置信度B选择一条数据记录进行删除;采用公式(1)计算两条数据记录之间的相似度;
[0057]
[0058] 其中,第一相似度阈值TS可以由不同的用户根据需求来设置;
[0059] B=w1×(当前时间-数据记录获取时间)+w2×数据来源置信度+w3*(1-字段值缺失率)公式(2)
[0060] 其中,数据来源的置信度可以根据该数据来源历史清洗处理中问题数据记录比率来设置;问题数据记录比率是指同一数据来源中经过(5)~(8)中任一步骤处理的数据记录数目占总的数据记录的数目的比值;字段值缺失率是指该条数据记录中存在缺失的字段占总字段数的比率;w1~w3为权重值,由统一处理平台来预设;
[0061] 优选的,删除置信度较低的一条数据记录;
[0062] (9)在从一上位机所要求的数据来源获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该上位机;
[0063] 异常数据报告中包括所处理的数据集合及其获取数据来源,数据采集单元的采集时间,被丢弃的数据集合及其丢弃原因,明显不合理和明显矛盾的数据记录条数,缺失补全的数据记录条数,标准化处理的数据记录条数,重复删除的数据记录条数,总的数据字段缺失率等;
[0064] (10)上位机访问数据仓库获取所需数据;数据仓库对上位机身份进行验证,当验证通过后,允许上位机基于获取的保存位置进行处理后的数据集合的获取;
[0065] 该清洗比对入库方法还包括如下步骤:
[0066] (11)在数据处理过程中,统一处理平台支持增量数据清洗导入;具体的:在数据处理过程中,如果上位机下达增量数据清洗导入的消息,统一处理平台向数据采集单元发送增量数据获取的请求,数据采集单元将增量数据发送到统一处理平台,统一处理平台将该增量数据保存到本地缓存中最后一数据集合后,等待统一处理平台对该增量数据的处理;如果数据处理已经完成,上位机下达增量数据清洗导入的消息,统一处理平台向数据采集单元发送增量数据获取的请求,数据采集单元将增量数据发送到统一处理平台,统一处理平台将该增量数据保存到本地缓存中,针对该增量数据执行步骤(4)~(8)的一个或者多个的处理;处理完毕后将该处理后的数据集合发送到数据仓库中,并通知下达消息的上位机获取增量数据处理结果,同时将该处理后的数据集合的保存位置以及针对该增量数据集合处理的异常数据报告发送给该上位机;
[0067] (12)统一数据处理平台支持大数据文件的清洗导入;用户可以直接将大数据文件发送给统一数据处理平台,上位机也可以直接向统一数据处理平台发送大数据文件,统一数据处理平台在接收到大数据文件后,将文件内的数据记录保存到本地缓存中,执行步骤(4)~(8)的一个或者多个,并将处理结果发送给用户或者上位机;
[0068] (13)统一数据处理平台支持自定义数据的清洗规则;用户可以通过统一数据处理平台设置或修改清洗规则,还可以通过上位机下发数据清洗规则;统一处理平台按照用户设置的规则对目标数据集合进行清洗;通过清洗规则的设置不仅可以提供用户所需的标准化格式,还可以设置清洗的深度,清洗过程中的各项阈值,清洗必选或跳过的步骤,是否允许人工补全等;设置深度清洗时,清洗规则较为严格,可以设置较高的阈值要求,并完成完整的清洗步骤等;而对于宽松的清洗规则,则对应于浅度清洗,设置较低的阈值要求同时可以选择完成部分清洗步骤等;
[0069] 本发明的清洗比对入库方法和系统,能够找出相似重复的数据以便去重、对不同来源的数据进行匹配、进行数据集合的去矛盾、补全和标准化、支持全量数和增量数据清洗,支持大数据文件的清洗导入、支持自定义数据的清洗规则、支持并行的数据采集和处理。
[0070] 以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈