首页 / 专利库 / 公共服务 / 埋葬 / 一种基于大数据技术的人口基础数据库

一种基于大数据技术的人口基础数据库

阅读:515发布:2020-05-08

专利汇可以提供一种基于大数据技术的人口基础数据库专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 大数据 技术的人口 基础 数据库 ,包括DataX组件、Phoenix层和HIVE人口数据库;DataX组件用于实现数据的导入和导出,Phoenix层用于对外提供API数据查询服务;HIVE人口数据库用于接收、处理和存储来自外部的政务系统的人口数据,具体包括STG 缓冲层 、FDM基础层、IDM整合层、ADM集市层。本发明使用大数据技术架构,大大提升了人口基础数据库的数据容量,提高了性能并且更加易于扩展。,下面是一种基于大数据技术的人口基础数据库专利的具体信息内容。

1.一种基于大数据技术的人口基础数据库,其特征在于,包括DataX组件、Phoenix层和HIVE人口数据库:
DataX组件:外部的政务系统的人口数据通过DataX组件导入所述HIVE人口数据库,所述HIVE人口数据库通过DataX组件对外提供人口数据;
Phoenix层:所述Phoenix层用于从HIVE人口数据库获取需要提供实时查询的人口数据,对外提供API数据查询服务;
HIVE人口数据库:所述HIVE人口数据库用于接收、处理和存储来自外部的政务系统的人口数据;
所述HIVE人口数据库具体包括STG缓冲层、FDM基础层、IDM整合层、ADM集市层;
所述STG缓冲层用于通过DataX组件接收来自各个政务系统的原始人口数据后进行存放,对原始人口数据不作处理;其主题按政务系统划分,每个政务系统对应一个主题;
所述FDM基础层用于对STG缓冲层所存储的原始人口数据进行清洗和标准化转换,并对不同政务系统中同一属性的表名和字段名进行统一后存储;其主题划分和所述STG缓冲层保持一致;
所述IDM整合层用于整合经FDM基础层处理后的各个政务系统的人口数据,其包括事实表和维表,事实表用于存储实际的数据,维表用于存储事实表中对象的属性;所述IDM整合层的主题域按人生命周期活动规律划分为四个主题域,包括主要信息、出生死亡信息、关系、活动;所述主要信息主题域中包含人口的基本信息和除了基本信息以外的扩展信息,其中基本信息包括姓名、性别、出生日期、证件、民族、血型;出生死亡主题域包含与人口的出生死亡相关的属性;关系主题域包含社会关系属性;活动主题域包含犯罪信息;
所述ADM集市层用于存储IDM整合层整合得到的人口数据,通过DataX组件对外提供数据服务;其主题域根据实际应用需要确定;
所述Phoenix层中也设有ADM集市层,用于存储HIVE人口数据库的ADM集市层通过DataX组件所提供的需要提供实时查询的人口数据。
2.根据权利要求1所述的人口基础数据库,其特征在于,STG缓冲层的主题包括身份证系统、犯罪系统、出生死亡系统、社保系统、婚姻登记系统、教育管理系统、固定资产登记系统。
3.根据权利要求1所述的人口基础数据库,其特征在于,STG缓冲层对原始人口数据存储设定的时间长度。
4.根据权利要求1所述的人口基础数据库,其特征在于,所述FDM基础层中的表结构,对于码值具有对应的文本内容存储字段,并且FDM基础层中还具有存储被清洗掉的异常数据的表。
5.根据权利要求1所述的人口基础数据库,其特征在于,IDM整合层中,所述事实表和维表的关联关系采用星型模型。
6.根据权利要求1所述的人口基础数据库,其特征在于,IDM整合层中,所述扩展信息包括居住地址、通讯信息、国籍、固定资产、社保;所述人口的出生死亡的相关属性包括出生证明、出生医院、死亡证明、埋葬地点;社会关系属性包括父母、子女、配偶关系;所述犯罪信息包括犯罪记录、犯罪地点、审判结果、所在监狱。
7.根据权利要求1所述的人口基础数据库,其特征在于,所述HIVE人口数据库还包括有DIM维度层,所述DIM维度层用于梳理HIVE人口数据库涉及的维度,分为公共维度和参考维度两个主题域,公共维度是通用的维度,参考维度是各个政务系统中特有的维度;
其中公共维度主题域包含性别维度、国家维度、区域维度、日期维度、婚姻状态维度、人种维度、民族维度、血型维度、联系方式类型维度、学历维度和维度映射表,所述维度映射表是用于在FDM基础层进行标准化转换使用的;参考维度则包含身份证号状态、身份证申请状态、身份证申请类型、身份证制证状态、身份证卡片类型、犯罪类型。
8.根据权利要求1所述的人口基础数据库,其特征在于,所述HIVE人口数据库还包括有TMP临时层,所述TMP临时层用于存放ETL处理过程需要使用的中间临时表。
9.根据权利要求1所述的人口基础数据库,其特征在于,在第一次接入人口数据时使用全量的方式,人口数据依次进入STG缓冲层、FDM基础层、IDM整合层、ADM集市层;首次接入人口数据之后,需要对人口数据进行测试验证工作,确保人口数据按设定的效果进入到人口基础数据库中,并能对外提供数据服务之后,人口基础数据库才进入正常运行阶段;此后数据以增量方式接入人口基础数据库。
10.根据权利要求9所述的人口基础数据库,其特征在于,根据实际的数据需求按日、周、月或者年的方式接入增量数据。

说明书全文

一种基于大数据技术的人口基础数据库

技术领域

[0001] 本发明涉及计算机技术领域,具体涉及一种基于大数据技术的人口基础数据库。

背景技术

[0002] 随着信息技术的发展,数据资源已经成为驱动经济转型发展、服务民生建设、创新社会治理模式的新动。近年来随着电子政务的发展,政府各部都建设了自己的信息化系统,掌握着大量的数据资源,但是由于缺乏数据共享交换协同机制,“数据孤岛”现场逐渐显现。因此推动政务数据整合,对于丰富社会信息资源,提升政府服务效能具有重要意义。
[0003] 所谓政务大数据,是指政府推动大数据应用发展的过程或大数据在公共服务领域的应用实践。政务数据涵盖经济建设、资源环境、教育科技、旅游住宿、交通服务、餐饮美食、医疗健康、消费购物、生活服务、企业服务等多个领域,其中以人口基础库建设为基础中的基础,它的建设能保证人口信息的一致性、准确性、完整性、权威性,破解以前相关部门各自采集维护的出生、死亡等信息的真实性、有效性难题。
[0004] 现有的人口基础数据库的主流架构是使用webservice方式接入数据,存入数据库中,数据库也大多使用的是面向事务的数据库。这种架构的缺点是当数据量较大,人口数在千万、亿以上级别,并且接入的扩展数据较多,例如不仅包含人员基本信息、出生死亡、婚姻等内容,还扩展到健康、生育、住房、就业、教育等信息时,数据量到T、几十T甚至PB级别时,这种架构就无法承载数据,接入、处理和提供数据服务的性能将很低,并且这种架构的可扩展性也较差。

发明内容

[0005] 针对现有技术的不足,本发明旨在提供一种基于大数据技术的人口基础数据库。
[0006] 为了实现上述技术目的,本发明采用如下技术方案:
[0007] 一种基于大数据技术的人口基础数据库,包括DataX组件、Phoenix层和HIVE人口数据库:
[0008] DataX组件:外部的政务系统的人口数据通过DataX组件导入所述HIVE人口数据库,所述HIVE人口数据库通过DataX组件对外提供人口数据;
[0009] Phoenix层:所述Phoenix层用于从HIVE人口数据库获取需要提供实时查询的人口数据,对外提供API数据查询服务;
[0010] HIVE人口数据库:所述HIVE人口数据库用于接收、处理和存储来自外部的政务系统的人口数据;
[0011] 所述HIVE人口数据库具体包括STG缓冲层、FDM基础层、IDM整合层、ADM集市层;
[0012] 所述STG缓冲层用于通过DataX组件接收来自各个政务系统的原始人口数据后进行存放,对原始人口数据不作处理;其主题按政务系统划分,每个政务系统对应一个主题;
[0013] 所述FDM基础层用于对STG缓冲层所存储的原始人口数据进行清洗和标准化转换,并对不同政务系统中同一属性的表名和字段名进行统一后存储;其主题划分和所述STG缓冲层保持一致;
[0014] 所述IDM整合层用于整合经FDM基础层处理后的各个政务系统的人口数据,其包括事实表和维表,事实表用于存储实际的数据,维表用于存储事实表中对象的属性;所述IDM整合层的主题域按人生命周期活动规律划分为四个主题域,包括主要信息、出生死亡信息、关系、活动;所述主要信息主题域中包含人口的基本信息和除了基本信息以外的扩展信息,其中基本信息包括姓名、性别、出生日期、证件、民族、血型;出生死亡主题域包含与人口的出生死亡相关的属性;关系主题域包含社会关系属性;活动主题域包含犯罪信息;
[0015] 所述ADM集市层用于存储IDM整合层整合得到的人口数据,通过DataX组件对外提供数据服务;其主题域根据实际应用需要确定;
[0016] 所述Phoenix层中也设有ADM集市层,用于存储HIVE人口数据库的ADM集市层通过DataX组件所提供的需要提供实时查询的人口数据。
[0017] 进一步地,STG缓冲层的主题包括身份证系统、犯罪系统、出生死亡系统、社保系统、婚姻登记系统、教育管理系统、固定资产登记系统。
[0018] 进一步地,STG缓冲层对原始人口数据存储设定的时间长度。
[0019] 进一步地,所述FDM基础层中的表结构,对于码值具有对应的文本内容存储字段,并且FDM基础层中还具有存储被清洗掉的异常数据的表。
[0020] 进一步地,IDM整合层中,所述事实表和维表的关联关系采用星型模型。
[0021] 进一步地,IDM整合层中,所述扩展信息包括居住地址、通讯信息、国籍、固定资产、社保;所述人口的出生死亡的相关属性包括出生证明、出生医院、死亡证明、埋葬地点;社会关系属性包括父母、子女、配偶关系;所述犯罪信息包括犯罪记录、犯罪地点、审判结果、所在监狱。
[0022] 进一步地,所述HIVE人口数据库还包括有DIM维度层,所述DIM维度层用于梳理HIVE人口数据库涉及的维度,分为公共维度和参考维度两个主题域,公共维度是通用的维度,参考维度是各个政务系统中特有的维度;
[0023] 其中公共维度主题域包含性别维度、国家维度、区域维度、日期维度、婚姻状态维度、人种维度、民族维度、血型维度、联系方式类型维度、学历维度和维度映射表,所述维度映射表是用于在FDM基础层进行标准化转换使用的;参考维度则包含身份证号状态、身份证申请状态、身份证申请类型、身份证制证状态、身份证卡片类型、犯罪类型。
[0024] 进一步地,所述HIVE人口数据库还包括有TMP临时层,所述TMP临时层用于存放ETL处理过程需要使用的中间临时表。
[0025] 进一步地,在第一次接入人口数据时使用全量的方式,人口数据依次进入STG缓冲层、FDM基础层、IDM整合层、ADM集市层;首次接入人口数据之后,需要对人口数据进行测试验证工作,确保人口数据按设定的效果进入到人口基础数据库中,并能对外提供数据服务之后,人口基础数据库才进入正常运行阶段;此后数据以增量方式接入人口基础数据库。
[0026] 更进一步地,根据实际的数据需求按日、周、月或者年的方式接入增量数据。
[0027] 本发明的有益效果在于:本发明使用大数据技术架构,大大提升了人口基础数据库的数据容量,提高了性能并且更加易于扩展。附图说明
[0028] 图1为本发明实施例中的人口基础数据库示意图。

具体实施方式

[0029] 以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
[0030] 本实施例提供一种基于大数据技术的人口基础数据库,如图1所示,包括DataX组件、Phoenix层和HIVE人口数据库。
[0031] DataX组件:外部的政务系统的人口数据通过DataX组件导入所述HIVE人口数据库,所述HIVE人口数据库通过DataX组件对外提供人口数据;
[0032] DataX是一个异构数据源离线同步工具,可实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能,在较大数据量的情况下,DataX比webservice的性能高出许多。
[0033] Phoenix层:所述Phoenix层用于从HIVE人口数据库获取需要提供实时查询的人口数据,对外提供API数据查询服务。
[0034] Phoenix是构建在HBase上的一个SQL层,能用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。
[0035] HIVE人口数据库:所述HIVE人口数据库用于接收、处理和存储来自外部的政务系统的人口数据;
[0036] Hive作为数据仓库软件,是一个建立在Hadoop架构之上的数据仓库,它能够提供数据的精炼,查询和分析,也是目前基于Hadoop应用最为广泛的数据仓库软件。
[0037] 所述HIVE人口数据库具体包括STG缓冲层、FDM基础层、IDM整合层、ADM集市层、DIM维度层、TMP临时层;
[0038] 所述STG(Stage Data Model)缓冲层用于通过DataX组件接收并存放来自各个政务系统的原始人口数据,对数据不作处理;其主题按政务系统划分,每个政务系统对应一个主题;例如,根据数据所来自的政务系统,STG缓冲层的主题分为身份证系统、犯罪系统、出生死亡系统、社保系统、婚姻登记系统、教育管理系统、固定资产登记系统等多个主题;
[0039] 进一步地,STG缓冲层对原始人口数据存储设定的时间长度。超过设定的时间长度后,数据自动清除。
[0040] 所述FDM(Foundation Data Model)基础层用于对STG缓冲层所存储的原始人口数据进行清洗和标准化转换,并对不同政务系统中同一属性的表名和字段名进行统一;其主题划分和所述STG缓冲层保持一致,作为取数、分析处理数据的基础。在本实施例中,FDM基础层的主题和所述STG缓冲层的主题相对应,也划分为身份证系统、犯罪系统、出生死亡系统、社保系统、婚姻登记系统、教育管理系统、固定资产登记系统多个主题。
[0041] 进一步地,所述FDM基础层中的表结构,对于码值具有对应的文本内容存储字段,并且FDM基础层中还具有存储被清洗掉的异常数据的表。码值是指在数据库系统中,唯一标识实体的某个属性值的代码,通常由应用系统自己制定。以性别代码为例,可以指定码值为1代表男,码值为2代表女。而男和女就是码值对应的文本字段。
[0042] 所述IDM(Integration Data Model)整合层用于整合各个政务系统的数据;其模型以人为核心,按人生命周期活动规律,遵循Kimball所提倡的维度建模法进行设计,包括事实表和维表,事实表用于存储实际的数据,维表用于存储事实表中对象的属性;事实表和维表的关联关系采用星型模型;
[0043] 维度建模法针对各个维做了大量的预处理,通过这些预处理能够极大地提升数据仓库的处理能力,相对于范式建模法来说,在性能上占据了明显的优势;同时维度建模非常直观,紧紧围绕着业务模型,可以直观地反映出业务模型中的业务问题。不需要经过特别的抽象处理即可以完成维度建模。
[0044] 维度建模法采用事实表-维表的方式来构建数据仓库,事实表和维表的关联关系有“星型模型”、“花模型”和“混合模型”3种,常用的是星型模型。因此在本实施例中采用星型模型来进行IDM整合层的建模。
[0045] 所述IDM整合层的主题域按人生命周期活动规律划分为四个主题域,包括主要信息、出生死亡信息、关系、活动:
[0046] 主要信息主题域中包含姓名、性别、出生日期、证件、民族、血型等基本信息,以及居住地址、通讯信息、国籍、固定资产、社保等扩展信息,其中基本信息是星型模型中的核心表;
[0047] 出生死亡主题域包含出生证明、出生医院、死亡证明、埋葬地点等从出生死亡系统获取到的相关属性;
[0048] 关系主题域包含父母、子女、配偶等关系属性;
[0049] 活动主题域包含犯罪信息,如犯罪记录、犯罪地点、审判结果、监狱等。
[0050] 所述ADM(Application Data Model)集市层用于存储IDM整合层整合得到的人口数据,通过DataX组件对外提供数据服务;其主题域根据实际应用需要确定。
[0051] 例如,假设需要用到人口基础数据库的场景有三个,一个是获取人员的基础信息数据进行人员查验,二是获取到人员姓名、性别、头像和人员是否犯罪,具体的犯罪类型、犯罪事件和犯罪地点等犯罪信息进行审核人员的各种申请时使用,三是获取到人员的家庭族谱信息,例如某人的父母、兄弟、配偶等数据,用于进行案件侦查时使用。那么ADM集市层就设计为三个主题域,人员基本信息、人员犯罪信息和家庭族谱信息。这三个主题域中针对部分信息是冗余的,例如人员犯罪信息中肯定也需要带上姓名、身份证号、性别、出生日期等人员基本信息中的内容。
[0052] 所述Phoenix层中也设有ADM集市层,用于存储HIVE人口数据库的ADM集市层通过DataX组件所提供的需要提供实时查询的人口数据。
[0053] 需要说明的是,按照数据需求,需要提供实时数据查询的数据就需要进入Phoenix层中,对不需要提供实时数据查询服务的人口数据,例如需要提交给联机分析处理的数据则不需要进入Phoenix层。
[0054] 由于Hive在进行实时查询中性能不高,所以数据需要再进入Phoenix层以提供实时数据查询服务。
[0055] 所述DIM(Dimension Data Model)维度层用于基于维度建模法梳理涉及的维度,分为公共维度和参考维度两个主题域,公共维度是通用的维度,参考维度是各个政务系统中特有的维度;
[0056] 其中公共维度主题域包含性别维度、国家维度、区域维度、日期维度、婚姻状态维度、人种维度、民族维度、血型维度、联系方式类型维度、学历维度和维度映射表等内容,所述维度映射表是用于在FDM基础层进行标准化转换使用的;参考维度则包含身份证号状态、身份证申请状态、身份证申请类型、身份证制证状态、身份证卡片类型、犯罪类型等内容。
[0057] TMP临时层用于存放ETL处理过程需要使用的中间临时表。
[0058] 人口基础数据库在第一次接入数据时使用全量的方式,数据依次进入STG缓冲层、FDM基础层、IDM整合层、ADM集市层。首次接入实际数据之后,需要对数据进行测试验证工作,因为往往实际数据中会有一些无法提前预料到的数据问题,经过反复多次抽取和验证,确保数据按预想中的效果进入到人口基础数据库中,并能对外提供数据服务之后,人口基础数据库才进入正常运行阶段。这个阶段数据就会以增量方式接入人口库,根据实际的数据需求可以按日、周、月或者年的方式接入增量数据。
[0059] 人口基础数据库构建完成后,后续可以通过共享数据系统提供webservice接口服务,或者通过ETL工具提交给联机分析处理OLAP、数据挖掘DM、决策支持DS使用。
[0060] 对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈