首页 / 专利库 / 制造过程 / 汽车制造商 / 一种与汽车相关的多源数据的整合存储系统及方法

一种与汽车相关的多源数据的整合存储系统及方法

阅读:559发布:2020-08-23

专利汇可以提供一种与汽车相关的多源数据的整合存储系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种与 汽车 相关的多源数据的整合存储系统及整合存储方法,该系统中通过数据初步处理部将多源数据 整理 为关系型数据,从而为后续的进一步筛选处理做好准备,再通过属性合规处理部和属性深度处理部对所述关系型数据的各个属性作出进一步清洗处理,将其中不符合要求的数据 修改 成规范数据,删除其中无法修改成规范数据的数据和错误数据,即去掉了不合规及非法的数据,并将清洗后形成纯净的可用的数据存储在只读系统中,从而使得所述多源数据变为可用的数据。,下面是一种与汽车相关的多源数据的整合存储系统及方法专利的具体信息内容。

1.与汽车相关的多源数据的整合存储系统,其特征在于,该系统包括原始数据部(001)、数据初步处理部(002)、初步数据存储部(003)、数据清理处理部(004)和只读系统部(005);
其中,所述原始数据部(001)用于存放获取的数据,并将获取到的数据传输给数据初步处理部(002);
所述数据初步处理部(002)用于将原始数据部(001)中的数据转化为关系型数据,并将之存储在初步数据存储部(003)中;
所述初步数据存储部(003),其用于存储经数据初步处理部(002)处理过的数据,并将该数据传递给数据清理处理部(004);所述初步数据存储部(003)中存储的数据所具有的属性包括车辆牌号、排量、品牌、车辆识别码等;
所述数据清理处理部(004)包括:
属性合规处理部(041),其用于检查并处理来自初步数据存储部(003)数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和
属性深度处理部(042),其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部(005);
所述只读系统部(005)用于存储经过数据清理处理部(004)处理后的数据。
2.根据权利要求1所述的多数据源整合存储系统,其特征在于,
所述数据初步处理部(002)包括:
常规数据处理(021),其用于处理来自原始数据部(001)的常规数据,非常规数据处理模块(022),其用于处理来自原始数据部(001)的非常规数据;和数据判断分类模块(023),其用于接收原始数据部(001)传出的数据,判断该接收到的数据是常规数据或者非常规数据,将常规数据传递给常规数据处理模块(021),将非常规数据传递给非常规数据处理模块(022)。
3.根据权利要求2所述的多数据源整合存储系统,其特征在于,
所述常规数据为存储在常规文件中的数据,所述常规文件包括excl文件;
或者,所述常规文件包括数据库导出文件;
或者,所述常规文件包括有固定分隔符的文本文件。
4.根据权利要求1所述的多数据源整合存储系统,其特征在于,
所述属性合规处理部(041)包括:
车辆牌号合规处理部(0411),其用于检验和/或转换车辆牌号数据的长度,还用于检验数据的第一个字符是否为有效的省份简称,检验数据的第二个字符是否为有效的地区代码,并将长度为7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或删除;
排量合规处理部(0412),其用于检验和/或转换排量数据,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;
品牌合规处理部(0413),其用于检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;和
车辆识别码合规处理部(0414),其用于检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除。
5.根据权利要求4所述的多数据源整合存储系统,其特征在于,
车辆牌号合规处理部(0411)检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时将该车辆牌号数据移动到数据回收站,继续检验下一个车辆牌号数据,待车辆牌号都检验完毕后,检验数据回收站中的车辆牌号,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;
排量合规处理部(0412)检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;
品牌合规处理部(0413)检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据;
车辆识别码合规处理部(0414)检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据。
6.根据权利要求1所述的多数据源整合存储系统,其特征在于,
所述属性深度处理部(042)包括:
车辆牌号深度处理部(0421),其用于检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部(005);
排量深度处理部(0422),其用于检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部(005);
品牌深度处理部(0423),其用于检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部(005);和
车辆识别码深度处理部(0424),其用于检验车辆识别码数据中的第1-3位是否为有效的世界制造商识别代码、第4-8位是否为合法的车辆特征代码、第9位是否为合法的校验位、第10-11位是否为数字或字母、第12-17位是否为合法的数字,并将判断结果都为“是”的车辆识别码数据标记成具有深层次合规性的数据,并传输至只读系统部(005)。
7.根据权利要求1所述的多数据源整合存储系统,其特征在于,
所述只读系统部(005)在导入来自数据清理处理部(004)的数据时处于读写状态,在完成数据导入后自动回置为只读状态。
8.一种与汽车相关的多数据源整合存储方法,其特征在于,该方法包括如下步骤:
步骤1,通过原始数据部(001)存放外部的多源数据,并将其中的数据传输给数据初步处理部(002);
步骤2,通过数据初步处理部(002)将原始数据部(001)中的数据转化为关系型数据,并将之存储在初步数据存储部(003)中:
步骤3,通过初步数据存储部(003)存储经数据初步处理部(002)处理过的数据,并将该数据传递给数据清理处理部(004);所述初步数据存储部(003)中存储的数据所具有的属性包括车辆牌号、排量、品牌等;
步骤4,通过数据清理处理部(004)检查并处理来自初步数据存储部(003)数据的合规性和深层次合规性,并将符合要求的数据传输至只读系统部(005);
步骤5,通过只读系统部(005)存储经过数据清理处理部(004)处理后的数据,以便随时调用。
9.根据权利要求8所述的多数据源整合存储方法,其特征在于,
在步骤4中,通过如下子步骤检查并处理来自初步数据存储部(003)数据的合规性:
子步骤1,通过车辆牌号合规处理部(0411)检验和/或转换车辆牌号数据的长度、检验车辆牌号数据的第一个字符是否为有效的省份简称、检验车辆牌号数据的第二个字符是否为有效的地区代码,并将长度为7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或删除;
优选地,车辆牌号合规处理部(0411)检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时将该车辆牌号数据移动到数据回收站,继续检验下一个车辆牌号数据,待每一个车辆牌号数据都检验完毕后,检验数据回收站中的车辆牌号数据,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;
子步骤2,通过排量合规处理部(0412)检验和/或转换排量数据,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;
优选地,排量合规处理部(0412)检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;
子步骤3,通过品牌合规处理部(0413)检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;
优选地,品牌合规处理部(0413)检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据;
子步骤4,通过车辆识别码合规处理部(0414)检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除;
优选地,车辆识别码合规处理部(0414)检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据。
10.根据权利要求8所述的多数据源整合存储方法,其特征在于,
在步骤4中,通过如下子步骤检查并处理来自初步数据存储部(003)数据的深层次合规性:
子步骤a,通过车辆牌号深度处理部(0421)检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部(005);
子步骤b,通过排量深度处理部(0422)检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部(005);
子步骤c,通过品牌深度处理部(0423)检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部(005);
子步骤d,通过车辆识别码深度处理部(0424)检验车辆识别码数据中的第1-3位是否为有效的世界制造商识别代码、第4-8位是否为合法的车辆特征代码、第9位是否为合法的校验位、第10-11位是否为数字或字母、第12-17位是否为合法的数字,并将判断结果都为“是”的车辆识别码数据标记成具有深层次合规性的数据,并传输至只读系统部(005)。

说明书全文

一种与汽车相关的多源数据的整合存储系统及方法

技术领域

[0001] 本发明涉及数据的整合处理系统,尤其是多源数据的整合处理存储系统,具体涉及一种多数据源整合存储系统及整合存储方法。

背景技术

[0002] 随着大数据时代的来临,数据的使用和分析越来越受到人们的关注,但是关于数据的使用有一个不可规避的问题,即数据的来源很多,导致各种来源的数据形式、格式是不同的,难以统一,所以也就难以直接拿来使用,以免给程序带来过多的负面影响,造成不必要的麻烦,但是如果舍弃这部分数据还会导致数据浪费,降低分析的准确性,所以如何能够在造成较小系统影响的情况下合理利用这些多源数据就显得极为重要和困难,目前,关于如车辆牌号、品牌、排量等属性的与汽车相关的数据还没用良好的数据筛查处理方法,面对较大的身份属性数据时,往往难以顺利地分选出其中的可用数据,所以据此所做的数据分析的准确性仍然有待提高。
[0003] 由于上述原因,本发明人对现有的数据分析处理方法和系统做了分析研究,以便设计出一种能够解决上述问题的新的多数据源整合存储系统及整合存储方法。

发明内容

[0004] 为了克服上述问题,本发明人进行了锐意研究,设计出一种与汽车相关的多数据源整合存储系统及整合存储方法,该系统中通过数据初步处理部将多源数据整理为关系型数据,从而为后续的进一步筛选处理做好准备,再通过属性合规处理部和属性深度处理部对所述关系型数据的各个属性作出进一步清洗处理,将其中不符合要求的数据修改成规范数据,删除其中无法修改成规范数据的数据和错误数据,即去掉了不合规及非法的数据,并将清洗后形成纯净的可用的数据存储在只读系统中,从而使得所述多源数据变为可用的数据,从而完成本发明。
[0005] 具体来说,本发明提供一种与汽车相关的多源数据的整合存储系统,其特征在于,该系统包括原始数据部001、数据初步处理部002、初步数据存储部003、数据清理处理部004和只读系统部005;
[0006] 其中,所述原始数据部001用于存放获取的数据,并将获取到的数据传输给数据初步处理部002;
[0007] 所述数据初步处理部002用于将原始数据部001中的数据转化为关系型数据,并将之存储在初步数据存储部003中;
[0008] 所述初步数据存储部003,其用于存储经数据初步处理部002处理过的数据,并将该数据传递给数据清理处理部004;所述初步数据存储部003中存储的数据所具有的属性包括车辆牌号、排量、品牌、车辆识别码等;
[0009] 所述数据清理处理部004包括:
[0010] 属性合规处理部041,其用于检查并处理来自初步数据存储部003数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和
[0011] 属性深度处理部042,其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部005;
[0012] 所述只读系统部005用于存储经过数据清理处理部004处理后的数据。
[0013] 其中,所述数据初步处理部002包括:
[0014] 常规数据处理021,其用于处理来自原始数据部001的常规数据,[0015] 非常规数据处理模块022,其用于处理来自原始数据部001的非常规数据;和[0016] 数据判断分类模块023,其用于接收原始数据部001传出的数据,判断该接收到的数据是常规数据或者非常规数据,将常规数据传递给常规数据处理模块021,将非常规数据传递给非常规数据处理模块022。
[0017] 其中,所述常规数据为存储在常规文件中的数据,所述常规文件包括excl文件;
[0018] 或者,所述常规文件包括数据库导出文件;
[0019] 或者,所述常规文件包括有固定分隔符的文本文件。
[0020] 其中,所述属性合规处理部041包括:
[0021] 车辆牌号合规处理部0411,其用于检验和/或转换车辆牌号数据的长度,还用于检验数据的第一个字符是否为有效的省份简称,检验数据的第二个字符是否为有效的地区代码,并将长度为7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0022] 排量合规处理部0412,其用于检验和/或转换排量数据,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0023] 品牌合规处理部0413,其用于检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0024] 车辆识别码合规处理部0414,其用于检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除。
[0025] 其中,车辆牌号合规处理部0411检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时将该车辆牌号数据移动到数据回收站,继续检验下一个车辆牌号数据,待车辆牌号都检验完毕后,检验数据回收站中的车辆牌号,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;
[0026] 排量合规处理部0412检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;
[0027] 品牌合规处理部0413检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据;
[0028] 车辆识别码合规处理部0414检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据。
[0029] 其中,所述属性深度处理部042包括:
[0030] 车辆牌号深度处理部0421,其用于检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;
[0031] 排量深度处理部0422,其用于检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;
[0032] 品牌深度处理部0423,其用于检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部005;
[0033] 车辆识别码深度处理部0424,其用于检验车辆识别码数据中的第1-3位是否为有效的世界制造商识别代码、第4-8位是否为合法的车辆特征代码、第9位是否为合法的校验位、第10-11位是否为数字或字母、第12-17位是否为合法的数字,并将判断结果都为“是”的车辆识别码数据标记成具有深层次合规性的数据,并传输至只读系统部005。
[0034] 其中,所述只读系统部005在导入来自数据清理处理部004的数据时处于读写状态,在完成数据导入后自动回置为只读状态。
[0035] 本发明还提供一种与汽车相关的多数据源整合存储方法,其特征在于,该方法包括如下步骤:
[0036] 步骤1,通过原始数据部001存放外部的多源数据,并将其中的数据传输给数据初步处理部002;
[0037] 步骤2,通过数据初步处理部002将原始数据部001中的数据转化为关系型数据,并将之存储在初步数据存储部003中:
[0038] 步骤3,通过初步数据存储部003存储经数据初步处理部002处理过的数据,并将该数据传递给数据清理处理部004;所述初步数据存储部003中存储的数据所具有的属性包括车辆牌号、排量、品牌等;
[0039] 步骤4,通过数据清理处理部004检查并处理来自初步数据存储部003数据的合规性和深层次合规性,并将符合要求的数据传输至只读系统部005;
[0040] 步骤5,通过只读系统部005存储经过数据清理处理部004处理后的数据,以便随时调用。
[0041] 其中,在步骤4中,通过如下子步骤检查并处理来自初步数据存储部003数据的合规性:
[0042] 子步骤1,通过车辆牌号合规处理部0411检验和/或转换车辆牌号数据的长度、检验车辆牌号数据的第一个字符是否为有效的省份简称、检验车辆牌号数据的第二个字符是否为有效的地区代码,并将长度为7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0043] 优选地,车辆牌号合规处理部0411检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时将该车辆牌号数据移动到数据回收站,继续检验下一个车辆牌号数据,待每一个车辆牌号数据都检验完毕后,检验数据回收站中的车辆牌号数据,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;
[0044] 子步骤2,通过排量合规处理部0412检验和/或转换排量数据,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0045] 优选地,排量合规处理部0412检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;
[0046] 子步骤3,通过品牌合规处理部0413检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0047] 子步骤4,通过车辆识别码合规处理部0414检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0048] 优选地,车辆识别码合规处理部0414检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据。
[0049] 优选地,品牌合规处理部0413检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据。
[0050] 其中,在步骤4中,通过如下子步骤检查并处理来自初步数据存储部003数据的深层次合规性:
[0051] 子步骤a,通过车辆牌号深度处理部0421检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;
[0052] 子步骤b,通过排量深度处理部0422检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;
[0053] 子步骤c,通过品牌深度处理部0423检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部005;
[0054] 子步骤d,通过车辆识别码深度处理部0424检验车辆识别码数据中的第1-3位是否为有效的世界制造商识别代码、第4-8位是否为合法的车辆特征代码、第9位是否为合法的校验位、第10-11位是否为数字或字母、第12-17位是否为合法的数字,并将判断结果都为“是”的车辆识别码数据标记成具有深层次合规性的数据,并传输至只读系统部005。
[0055] 本发明所具有的有益效果包括:
[0056] (1)根据本发明提供的多数据源整合存储系统能够将原本杂乱的数据变得更为规范、纯净度更高、可用性更强;
[0057] (2)根据本发明提供的多数据源整合存储系统是一个数据处理的模块化构件,统一了数据的使用接口,可方便地对接其它数据使用程序,为其它数据系统提供优质数据服务。附图说明
[0058] 图1示出根据本发明一种优选实施方式的多数据源整合存储系统整体结构示意图;
[0059] 图2示出根据本发明一种优选实施方式的多数据源整合存储方法的流程图
[0060] 附图标号说明:
[0061] 001-原始数据部
[0062] 002-数据初步处理部
[0063] 021-常规数据处理模块
[0064] 022-非常规数据处理模块
[0065] 023-数据判断分类模块
[0066] 003-初步数据存储部
[0067] 004-数据清理处理部
[0068] 041-属性合规处理部
[0069] 0411-车辆牌号合规处理部
[0070] 0412-排量合规处理部
[0071] 0413-品牌合规处理部
[0072] 0414-辆识别码合规处理部
[0073] 0421-车辆牌号深度处理部
[0074] 0422-排量深度处理部
[0075] 0423-品牌深度处理部
[0076] 0424-车辆识别码深度处理部
[0077] 005-只读系统部
[0078] 051-清洗结果数据库
[0079] 052-数据分类记录组件

具体实施方式

[0080] 下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
[0081] 在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0082] 根据本发明提供的一种与汽车相关的多源数据的整合存储系统,如图1中所示,该系统包括原始数据部001、数据初步处理部002、初步数据存储部003、数据清理处理部004和只读系统部005;
[0083] 其中,所述原始数据部001用于存放从外部获取的数据,并将获取到的数据传输给数据初步处理部002;所述原始数据部001包括输入设备和显示设备,所述输入设备用于向所述原始数据部001中导入外部数据源中的数据,所述外部数据源可以有多个,称之为多源,其中导入到所述原始数据部001中的数据称之为多源数据;所述显示设备用于显示已导入的数据,查看导入数据的类型及格式。
[0084] 所述数据初步处理部002用于将原始数据部001中的数据转化为关系型数据,并将之存储在初步数据存储部003中;
[0085] 本发明中所述的关系型数据是指以行和列的形式排布和存储的数据。
[0086] 在一个优选的实施方式中,所述数据初步处理部002包括:常规数据处理模块、非常规数据处理模块和数据判断分类模块;
[0087] 其中,常规数据处理模块021用于处理来自原始数据部001的常规数据;非常规数据处理模块022用于处理来自原始数据部001的非常规数据;数据判断分类模块023用于接收原始数据部001传出的数据,判断该接收到的数据是常规数据或者非常规数据,将常规数据传递给常规数据处理模块021,将非常规数据传递给非常规数据处理模块022。
[0088] 优选地,所述常规数据为存储在常规文件中的数据,即,为数据源中由常规文件进行存储的数据,所述常规文件包括excl文件;
[0089] 或者,所述常规文件包括数据库导出文件;
[0090] 或者,所述常规文件包括有固定分隔符的文本文件,本发明中所述的数据不包括图片形式的数据,也不包括视频、音频数据。所述具有固定分隔符是指在一份文本文件中,使用同一组分隔符对文本文件中的内容进行分隔,该同一组分隔符多次重复使用,且所述同一组分隔符可以是由多个分隔符共同构成的分隔符组。
[0091] 常规数据处理模块021对常规数据做处理就是将常规数据导入到关系型数据库里,使之按照关系型数据进行存储、排布;具体来说,对于excl格式文件中的数据使用现有的工具将excel中的数据导入到数据库中即可,所述现有的工具可以选自Oracle SQL Developer、Kettle和PL/SQLDeveloper中的一种或多种;对于所述常规数据中的数据库导出格式数据的处理过程为:使用与数据库相对应的工具将数据导入到关系型数据库中,如,对于从mysql数据库中导出的数据需要选用navicat、myqlworkbench工具将该数据导入到关系型数据库中;
[0092] 在对于所述常规数据中的有固定分隔符的文本文件格式数据进行处理时,根据分隔符的具体形式选择相应的方法进行导入;如对于下表中的数据信息:
[0093] 1|京A517CM63
[0094] 2|完B24JD5
[0095] 3|冀Q12MG6
[0096] 4|沪A25地23
[0097] 5|冀J63M57
[0098] 很容看出分隔符是:‘|’(空格竖线空格),所以可使用python或shell命令处理该文件,从而将其转换成行列的形式存放入关系型数据库中。
[0099] 除常规数据以外的数据都称之为非常规数据,通过非常规数据处理模块022对非常规数据进行处理;该处理方式包括删除该非常规数据或者通过相应方法将非常规数据转换/复制到关联数据库中。所述非常规数据有很多,一般包括文件后缀为html、xml、doc、docx的文件中数据,还有些非常规数据所在的文件没有后缀名,这就需要找到文件的存储规律后,再进行提取,本领域中,在已知文件格式和具体文件内容的情况下,本领域技术人员能够根据具体的文件格式、文件中的内容和待提取的信息选择适当的方法将该文件中的数据信息提取出来;例如,对于xml文件,可以使用Python、Java、C#等语言调用解析Xml文件的工具包,对Xml文件解析及定位,提取到想要的数据内容后存入关系型数据库中。
[0100] 所述数据初步处理部002还包括输入设备和显示设备,所述输入设备用于设置或输入常规数据处理模块021和非常规数据处理模块022,所述显示设备用于显示数据的处理进度。优选地,显示设备还能够显示非常规数据的数据格式、种类和其中的文件内容,并且实时显示输入的内容。
[0101] 所述初步数据存储部003用于存储经数据初步处理部002处理过的数据,并将该数据传递给数据清理处理部004;
[0102] 在一个优选的实施方式中,初步数据存储部003中存储的数据为关系型数据,所述初步数据存储部003中存储的数据所具有的属性包括车辆牌号、排量、品牌、车辆识别码等,即初步数据存储部003中存储的数据种类包括车辆牌号数据、排量数据、品牌数据车辆识别码数据等数据。
[0103] 所述数据清理处理部004包括:属性合规处理部041,其用于检查并处理来自初步数据存储部003数据的常规性,并根据检查并处理的结果将数据标记为合规数据或者不合规数据;和
[0104] 属性深度处理部042,其用于检查合规数据的深层次合规性,并将符合深层次合规性要求的数据传输至只读系统部005;
[0105] 在一个优选的实施方式中,所述属性合规处理部041包括:车辆牌号合规处理部0411、排量合规处理部0412、品牌合规处理部0413和车辆识别码合规处理部0414。
[0106] 其中,所述车辆牌号合规处理部0411用于检验和/或转换车辆牌号数据的长度,还用于检验车辆牌号数据的第一个字符是否为有效的省份简称,检验车辆牌号数据的第二个字符是否为有效的地区代码,并将长度为7位7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或者将其删除;
[0107] 具体来说,车辆牌号合规处理部0411检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时,将该车辆牌号移动到数据回收站,继续检验下一个车辆牌号数据,待每一个车辆牌号都检验完毕后,检验数据回收站中的车辆牌号,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;删除数据回收站中其他的车辆牌号数据;本发明中,所述判断大于7位的车辆牌号时,需要整体观察考虑大于7位的车辆牌号数据的共同规律,比如在某一位数字后面都具有空格、特殊字符等等,如果多个大于7为的车辆号牌中都去掉这些特殊空格、特殊字符以后,符合合规处理的规则,能够通过合规处理,并被标记为合规数据,则认为该车辆号牌数据为可以转换的,并进行转换;否则认为车辆号牌数据为不可转换的,删除该车辆号牌数据。本发明其他需要判断能否修改位数的,都是基于类似的原理进行判断处理,在必要时可以通过人工进行判断,能够更为省时省,节约成本。
[0108] 所述排量合规处理部0412用于检验和/或转换排量数据的长度,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;其中,所述L为排量的单位,中文含义是升,也可以写成小写体,即为“l”,本发明中优选地,将小写体“l”统一修改为L。
[0109] 具体来说,排量合规处理部0412检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;本发明优选地,在所述排量合规处理部0412中存储有车尾标识和排量的转换表,在该表格中记载有现行常见的各种车型车尾标识所对应的排量信息,由于本发明中提供的系统在实际应用过程中处理的数据来源复杂,在提供数据时,有些汽车没有单独的排量属性数据,就直接把车尾标识当做排量属性直接填写到数据中,所以通过上述车尾标识和排量的转换表查验没有单位L的排量数据是不是车尾标识,如果该数据与车尾标识和排量的转换表中记载的某一车尾标识一致,则认为该数据是车尾标识,根据表格中的记载自动将该数据更换为对应的排量数据。
[0110] 优选地,所述车尾标识和排量的转换表中记载了所有常见车型的车尾标识和对应的排量,如大众迈腾车的280TSI、330TSI、380TSI对应排量分别为1.4、1.8、2.0;大众速腾的180TSI、230TSI、280TSI对应排量分别为1.2、1.4、1.4。
[0111] 所述品牌合规处理部0413用于检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0112] 具体来说,品牌合规处理部0413检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据;
[0113] 优选地,品牌合规处理部0413中存储有品牌别称统计表,该表格中记载有常见的车辆品牌和对应的型号/别称,如奥迪对应有A6、A8,宝对应有BMW,本发明中所述的适格品牌是指该表格中收录的常见的车辆品牌,并且以汉字形式存储记载的品牌数据。所述能够表征品牌特征的信息包括品牌别称统计表中记载的与某一车辆品牌数据对应的型号/别称,如A6、A8、BMW等等,当发现该数据中包含上述型号/别称时,将该数据转换为与该型号/别称对应的车辆品牌,如该品牌数据是A6,则自动将该数据转换为奥迪。
[0114] 所述车辆识别码合规处理部0414用于检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0115] 具体来说,车辆识别码合规处理部0414检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据
[0116] 本发明上述的车辆牌号、排量、品牌都指代相应的数据信息,如车辆牌号指代车辆牌号数据。
[0117] 在一个优选的实施方式中,所述属性深度处理部042包括:车辆牌号深度处理部0421、排量深度处理部0422、品牌深度处理部0423和车辆识别码深度处理部0424;
[0118] 如图1中所示,所述车辆牌号深度处理部0421用于检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;
[0119] 所述排量深度处理部0422用于检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部005。
[0120] 所述品牌深度处理部0423用于检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部005;
[0121] 所述车辆识别码深度处理部0424用于检验车辆识别码数据中的第1-3位是否为有效的世界制造商识别代码、第4-8位是否为合法的车辆特征代码、第9位是否为合法的校验位、第10-11位是否为数字或字母、第12-17位是否为合法的数字,并将判断结果都为“是”的车辆识别码数据标记成具有深层次合规性的数据,并传输至只读系统部005;
[0122] 具体来说,在所述车辆识别码深度处理部0424中设置有多个统计表,包括世界制造商识别码统计表和车辆特征代码统计表,分别用于与第1-3字符和第4-8位字符进行比较,当待检验的车辆识别码数据中相应位数字符能够在相应统计表中查到,即可认为该位数字符时有效的;所述车辆识别码深度处理部0424还能够计算车辆识别码中第9位字符,并判断车辆识别码中第9为校验位的准确性;由于第10位指代的是车型年份、第10位指代的是装配厂代码,都只能是数字或字母,只需判断其是否为数字和字母即可;第12-17位是出厂顺序号,只能是数字,所以只需判断第12-17位是否为数字。
[0123] 所述数据清理处理部004包括输入设备和显示设备,所述输入设备用于设置或输入属性合规处理部041和属性深度处理部042,所述显示设备用于显示数据的处理进度。
[0124] 本发明中所述的多个输入设备和显示设备可以集成在同一套输入设备和显示设备中,如输入设备可以是鼠标键盘,显示设备可以为液晶显示器。
[0125] 在一个优选的实施方式中,所述只读系统部005用于可调用地存储经过数据清理处理部004处理后的数据。
[0126] 优选地,所述只读系统部005在导入来自数据清理处理部004的数据时处于读写状态,完成数据导入后自动回置为只读状态。
[0127] 在一个优选的实施方式中,所述只读系统部005包括:清洗结果数据库051和数据分类记录组件052,其中,所述清洗结果数据库051用于保存经过数据清理处理部004处理后的数据;
[0128] 所述数据分类记录组件052,其用于保存经过数据清理处理部004处理后的数据分类,所述数据分类能够快速定位数据的内容。
[0129] 一种与汽车相关的多数据源整合存储方法,该方法是通过上文中所述的多数据源整合存储系统实现的;如图2中所示,该方法包括如下步骤:
[0130] 步骤1,通过原始数据部001存放外部获取的多源数据,并将获取到的数据传输给数据初步处理部002;
[0131] 步骤2,通过数据初步处理部002将原始数据部001中的数据转化为关系型数据,并将之存储在初步数据存储部003中:
[0132] 步骤3,通过初步数据存储部003存储经数据初步处理部002处理过的数据,并将该数据传递给数据清理处理部004;所述初步数据存储部003中存储的数据所具有的属性包括车辆牌号、排量、品牌等;
[0133] 步骤4,通过数据清理处理部004检查并处理来自初步数据存储部003数据的合规性和深层次合规性,并将符合要求的数据传输至只读系统部005;
[0134] 步骤5,通过只读系统部005存储经过数据清理处理部004处理后的数据,以便随时调用。
[0135] 在一个优选的实施方式中,在步骤4中,通过如下子步骤检查并处理来自初步数据存储部003数据的合规性:
[0136] 子步骤1,通过车辆牌号合规处理部0411检验和/或转换车辆牌号数据的长度、检验车辆牌号数据的第一个字符是否为有效的省份简称、检验车辆牌号数据的第二个字符是否为有效的地区代码,并将长度为7位、第一个字符是有效的省份简称、第二个字符是有效的地区代码的数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0137] 优选地,车辆牌号合规处理部0411检验到车辆牌号数据长度为非7位、第一个字符非有效的省份简称或者第二个字符非有效的地区代码时将该车辆牌号数据移动到数据回收站,继续检验下一个车辆牌号数据,待每一个车辆牌号数据都检验完毕后,检验数据回收站中的车辆牌号数据,判断其中大于7位的车辆牌号是否可以转换为7位,若可以转换,则将其转换处理为7位,若不能转换,则删除该车辆牌号;
[0138] 子步骤2,通过排量合规处理部0412检验和/或转换排量数据,将排量单位L前的字符是数字的数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0139] 优选地,排量合规处理部0412检验到排量数据中含有单位L,且单位L前的字符为数字时将该排量数据标记为合规数据,否则将该排量数据移动到数据回收站,继续检验下一个排量数据,待排量数据都检验完毕后,检验数据回收站中的排量数据,将其中无单位L且位数是三位的数据转换为带有单位L的排量数据,则删除其他数据;
[0140] 子步骤3,通过品牌合规处理部0413检验和/或转换品牌数据,将适格品牌数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0141] 优选地,品牌合规处理部0413检验到品牌数据中含有适格品牌时将该品牌数据标记为合规数据,否则将该品牌数据移动到数据回收站,继续检验下一个品牌数据,待品牌数据都检验完毕后,检验数据回收站中的品牌数据,判断品牌数据中是否包含能够表征品牌特征的信息,并根据该信息将该品牌数据转换为适格品牌,若不包含能够表征品牌特征的信息,则删除该品牌数据;
[0142] 子步骤4,通过车辆识别码合规处理部0414检验和/或转换车辆识别码数据,将长度为17位的车辆识别码数据标记为合规数据,将其他数据标记为不合规数据或删除;
[0143] 优选地,车辆识别码合规处理部0414检验到车辆识别码数据的位数是17位时将该车辆识别码数据标记为合规数据,否则将该车辆识别码数据移动到数据回收站,继续检验下一个车辆识别码数据,待车辆识别码数据都检验完毕后,检验数据回收站中的车辆识别码数据,判断车辆识别码数据中大于17位的车辆识别码是否可以转换为17位,若可以转换,则将其转换处理为17位,若不能转换,则删除该车辆识别码数据。
[0144] 在进一步优选的实施方式中,在步骤4中,通过如下子步骤检查并处理来自初步数据存储部003数据的深层次合规性:
[0145] 子步骤a,通过车辆牌号深度处理部0421检验车辆牌号数据中第3位至第7位字符是否只由字母和数字组成,检验结果为“是”的车辆牌号数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;
[0146] 子步骤b,通过排量深度处理部0422检验排量数据中的数值是否介于0到10之间,检验结果为“是”的排量数据为具有深层次合规性的数据,并将该数据传输至只读系统部005;;
[0147] 子步骤c,通过品牌深度处理部0423检验品牌数据中是否包含多个品牌信息,将包含多个品牌信息的品牌数据拆分成多个只包含一个品牌信息的品牌数据,都标记成具有深层次合规性的数据,并都传输至只读系统部005;
[0148] 子步骤d,通过车辆识别码深度处理部0424检验车辆识别码数据中的第1-3位是否为有效的世界制造商识别代码、第4-8位是否为合法的车辆特征代码、第9位是否为合法的校验位、第10-11位是否为数字或字母、第12-17位是否为合法的数字,并将判断结果都为“是”的车辆识别码数据标记成具有深层次合规性的数据,并传输至只读系统部005。
[0149] 进一步优选地,在步骤2中,将待处理的多源数据分成常规数据和非常规数据,并通过常规数据处理模块和非常规数据处理模块分别进行处理,既提高了数据处理的效率,又能够保证各个数据源的数据都能得到充分利用,防止因为数据处理系统不科学,未能充分提取数据而造成数据浪费。
[0150] 实施例:1
[0151] 多源数据为常规数据,具体来说是存储在有固定分隔符的文本文件中的数据,该文本文件中记载有车辆牌号数据,如下所示;
[0152] 1|京A517CM63
[0153] 2|完B24JD5
[0154] 3|冀Q12MG6
[0155] 4|沪A25地23
[0156] 5|冀163M57
[0157] 为了对上述数据做整合存储处理,通过数据初步处理部002对该多源数据进行初步处理,转换为关系型数据后如下所示;
[0158]
[0159] 通过属性合规处理部041检查处理上述关系型数据的常规性,其中,第一条的长度不是7位,第二条数据的省份简称不正确,第三条数据的地区码不存在,故都被排除,得到的合规数据如下所示;
[0160]
[0161] 再通过属性深度处理部042对上述合规数据做深层次合规性处理,其中,第四条数据的后五位含有汉字,被删除;最终得到的数据如下所示:
[0162]
[0163] 实施例:2
[0164] 多源数据为常规数据,具体来说是存储在有固定分隔符的文本文件中的数据,该文本文件中记载有车辆识别码数据,如下所示;
[0165] 1|WVWPR13C6AE170920
[0166] 2|LGBG42E00GY031082
[0167] 3|MGBG42E01GY035724
[0168] 4|LGBG42E00SG|GY031082
[0169] 5|WVWPR13C6AE70920
[0170] 为了对上述数据做整合存储处理,通过数据初步处理部002对该多源数据进行初步处理,转换为关系型数据后如下所示;
[0171]
[0172] 通过属性合规处理部041检查处理上述关系型数据的常规性,其中,第4条的长度不是17位,删除,得到的合规数据如下所示;
[0173]
[0174] 再通过属性深度处理部042对上述合规数据做深层次合规性处理,其中,第3条数据第1-3位字符不是有效的世界制造商识别代码,第,第5条数据第12位字符不是数字而是空格,所以都删除;最终得到的数据如下所示:
[0175]
[0176] 以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈