首页 / 专利库 / 地球科学 / / 一种温数据大规模分析架构

一种温数据大规模分析架构

阅读:303发布:2021-06-15

专利汇可以提供一种温数据大规模分析架构专利检索,专利查询,专利分析的服务。并且本 发明 属于温 数据处理 技术领域,尤其时涉及一种温数据大规模分析架构,包括 数据采集 模 块 ,对数据的录入存储实现采集;数据分析模块,使用Spark来提供高效的大规模分析计算;数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式 数据库 、列式数据库及对象存储系统存储。本发明能够在保证计算速度的同时,也控制了 硬件 的成本。,下面是一种温数据大规模分析架构专利的具体信息内容。

1.一种温数据大规模分析架构,其特征在于,包括:
数据采集,对数据的录入存储实现采集;
数据分析模块,使用Spark来提供高效的大规模分析计算;
数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;
数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;
数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。
2.根据权利要求1所述的一种温数据大规模分析架构,其特征在于,所述数据存储模块中数据存储使用Parquet格式。
3.根据权利要求1所述的一种温数据大规模分析架构,其特征在于,所述数据分析模块采用DPI/DFI相结合的技术,对数据包的流特征和有效载荷进行分析,实现流量分类和有效载荷信息提取。
4.根据权利要求1所述的一种温数据大规模分析架构,其特征在于,所述数据采集模块中对于录入的数据根据日期n来进行关联。
5.根据权利要求4所述的一种温数据大规模分析架构,其特征在于,所述数据定期清除模块包括当日的日期m,通过设置阈值a,通过对比(m-n)和阈值a,从而判定是否对数据进行清除。

说明书全文

一种温数据大规模分析架构

技术领域

[0001] 本发明涉及温数据处理技术领域,尤其涉及一种温数据大规模分析架构。

背景技术

[0002] 当前架构方案下,是将全部数据存储在单一的数据库中,然而传统的数据库为了满足一些特定的需求,比如:强一致性,事务性,大数据量下的高性能读写等等,往往对于大范围大批量的分析处理无法得到很好的优化,从而导致数据库会需要进行全表扫描的操作,从而耗费大量的时间。
[0003] 另外根据业务场景,大部分的离线分析计算不会需要使用到全部的数据量,往往时间跨度在半年至一年之间,所以只保存需要范围内的数据,也可以提升分析计算的效率并且控制硬件的使用成本。
[0004] 为此,我们提出一种温数据大规模分析架构来解决上述问题。

发明内容

[0005] 1、发明目的。
[0006] 本发明提出了一种温数据大规模分析架构,可以在提升大范围数据的读取速度的同时,能够减少住数据存储的用量。
[0007] 2、本发明所采用的技术方案。
[0008] 一种温数据大规模分析架构,包括:
[0009] 数据采集,对数据的录入存储实现采集;
[0010] 数据分析模块,使用Spark来提供高效的大规模分析计算;
[0011] 数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;
[0012] 数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;
[0013] 数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。
[0014] 在上述一种温数据大规模分析架构中,所述数据存储模块中数据存储使用Parquet格式。
[0015] 在上述一种温数据大规模分析架构中,所述数据分析模块采用DPI/DFI相结合的技术,对数据包的流特征和有效载荷进行分析,实现流量分类和有效载荷信息提取。
[0016] 在上述一种温数据大规模分析架构中,所述数据采集模块中对于录入的数据根据日期n来进行关联。
[0017] 在上述一种温数据大规模分析架构中,所述数据定期清除模块包括当日的日期m,通过设置阈值a,通过对比(m-n)和阈值a,从而判定是否对数据进行清除。
[0018] 3、本发明所产生的技术效果。
[0019] 本发明解决了之前由于使用传统数据库对于大数据无法进行很好的支持,或者由于使用Hbase这样的列式分布式数据库,虽然能够根据主键提供单条数据的高性能读写,但是对于大范围的全用户数据的读取,性能是十分低下,同时在大规模读取数据时,也会影响到原本的单数据的读写性能。
[0020] 同时,由于使用了Snappy压缩算法能够很大的降低存储空间,另外在使用Parquet时,通过进行根据读取方式,将数据进行分组,能够很大的提升数据查询的速度。然后,根据业务需求,只选择保存近半年或者一年的数据,可以控制存储的空间大小。最后,选择混合硬盘也能够在性能得到提升。
[0021] 最终取得了,即能满足大规模离线分析计算的性能提升,并且还能将硬件整体的成本消耗得到很好的控制。附图说明
[0022] 图1为本发明提出的一种温数据大规模分析架构的整体架构图。

具体实施方式

[0023] 以下实施例仅处于说明性目的,而不是想要限制本发明的范围。
[0024] 实施例
[0025] 一种温数据大规模分析架构,包括:
[0026] 数据采集模块,对数据的录入存储实现采集;
[0027] 数据分析模块,使用Spark来提供高效的大规模分析计算;
[0028] 数据索引分组模块,数据以一定的方式进行索引分组,例如按日期,再类型等,依据查询条件的频繁程度,依次序和层级进行,以提升查询效率;
[0029] 数据存储模块,采用开源的Apache Hadoop分布式文件系统来存储数据;
[0030] 数据定期清除模块,对数据采进行定期清除处理,支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。
[0031] 其中,所述数据存储模块中数据存储使用Parquet格式。
[0032] 其中,所述数据分析模块采用DPI/DFI相结合的技术,对数据包的流特征和有效载荷进行分析,实现流量分类和有效载荷信息提取。
[0033] 其中,所述数据采集模块中对于录入的数据根据日期n来进行关联。
[0034] 其中,所述数据定期清除模块包括当日的日期m,通过设置阈值a,通过对比(m-n)和阈值a,从而判定是否对数据进行清除。
[0035] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈