一种温数据大规模分析架构专利检索-风地球科学专利检索查询-专利查询网

一种温数据大规模分析架构

阅读：303发布：2021-06-15

专利汇可以提供一种温数据大规模分析架构专利检索，专利查询，专利分析的服务。并且本发明属于温数据处理技术领域，尤其时涉及一种温数据大规模分析架构，包括数据采集模块，对数据的录入存储实现采集；数据分析模块，使用Spark来提供高效的大规模分析计算；数据索引分组模块，数据以一定的方式进行索引分组，例如按日期，再类型等，依据查询条件的频繁程度，依次序和层级进行，以提升查询效率；数据存储模块，采用开源的Apache Hadoop分布式文件系统来存储数据；数据定期清除模块，对数据采进行定期清除处理，支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。本发明能够在保证计算速度的同时，也控制了硬件的成本。，下面是一种温数据大规模分析架构专利的具体信息内容。

权利要求

1.一种温数据大规模分析架构，其特征在于，包括：
数据采集模块，对数据的录入存储实现采集；
数据分析模块，使用Spark来提供高效的大规模分析计算；
数据索引分组模块，数据以一定的方式进行索引分组，例如按日期，再类型等，依据查询条件的频繁程度，依次序和层级进行，以提升查询效率；
数据存储模块，采用开源的Apache Hadoop分布式文件系统来存储数据；
数据定期清除模块，对数据采进行定期清除处理，支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。
2.根据权利要求1所述的一种温数据大规模分析架构，其特征在于，所述数据存储模块中数据存储使用Parquet格式。
3.根据权利要求1所述的一种温数据大规模分析架构，其特征在于，所述数据分析模块采用DPI/DFI相结合的技术，对数据包的流特征和有效载荷进行分析，实现流量分类和有效载荷信息提取。
4.根据权利要求1所述的一种温数据大规模分析架构，其特征在于，所述数据采集模块中对于录入的数据根据日期n来进行关联。
5.根据权利要求4所述的一种温数据大规模分析架构，其特征在于，所述数据定期清除模块包括当日的日期m，通过设置阈值a，通过对比(m-n)和阈值a，从而判定是否对数据进行清除。

说明书全文

一种温数据大规模分析架构

技术领域

[0001] 本发明涉及温数据处理技术领域，尤其涉及一种温数据大规模分析架构。

背景技术

[0002] 当前架构方案下，是将全部数据存储在单一的数据库中，然而传统的数据库为了满足一些特定的需求，比如：强一致性，事务性，大数据量下的高性能读写等等，往往对于大范围大批量的分析处理无法得到很好的优化，从而导致数据库会需要进行全表扫描的操作，从而耗费大量的时间。

[0003] 另外根据业务场景，大部分的离线分析计算不会需要使用到全部的数据量，往往时间跨度在半年至一年之间，所以只保存需要范围内的数据，也可以提升分析计算的效率并且控制硬件的使用成本。

[0004] 为此，我们提出一种温数据大规模分析架构来解决上述问题。

发明内容

[0005] 1、发明目的。

[0006] 本发明提出了一种温数据大规模分析架构，可以在提升大范围数据的读取速度的同时，能够减少住数据存储的用量。

[0007] 2、本发明所采用的技术方案。

[0008] 一种温数据大规模分析架构，包括：

[0009] 数据采集模块，对数据的录入存储实现采集；

[0010] 数据分析模块，使用Spark来提供高效的大规模分析计算；

[0011] 数据索引分组模块，数据以一定的方式进行索引分组，例如按日期，再类型等，依据查询条件的频繁程度，依次序和层级进行，以提升查询效率；

[0012] 数据存储模块，采用开源的Apache Hadoop分布式文件系统来存储数据；

[0013] 数据定期清除模块，对数据采进行定期清除处理，支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。

[0014] 在上述一种温数据大规模分析架构中，所述数据存储模块中数据存储使用Parquet格式。

[0015] 在上述一种温数据大规模分析架构中，所述数据分析模块采用DPI/DFI相结合的技术，对数据包的流特征和有效载荷进行分析，实现流量分类和有效载荷信息提取。

[0016] 在上述一种温数据大规模分析架构中，所述数据采集模块中对于录入的数据根据日期n来进行关联。

[0017] 在上述一种温数据大规模分析架构中，所述数据定期清除模块包括当日的日期m，通过设置阈值a，通过对比(m-n)和阈值a，从而判定是否对数据进行清除。

[0018] 3、本发明所产生的技术效果。

[0019] 本发明解决了之前由于使用传统数据库对于大数据无法进行很好的支持，或者由于使用Hbase这样的列式分布式数据库，虽然能够根据主键提供单条数据的高性能读写，但是对于大范围的全用户数据的读取，性能是十分低下，同时在大规模读取数据时，也会影响到原本的单数据的读写性能。

[0020] 同时，由于使用了Snappy压缩算法能够很大的降低存储空间，另外在使用Parquet时，通过进行根据读取方式，将数据进行分组，能够很大的提升数据查询的速度。然后，根据业务需求，只选择保存近半年或者一年的数据，可以控制存储的空间大小。最后，选择混合硬盘也能够在性能得到提升。

[0021] 最终取得了，即能满足大规模离线分析计算的性能提升，并且还能将硬件整体的成本消耗得到很好的控制。附图说明

[0022] 图1为本发明提出的一种温数据大规模分析架构的整体架构图。

具体实施方式

[0023] 以下实施例仅处于说明性目的，而不是想要限制本发明的范围。

[0024] 实施例

[0025] 一种温数据大规模分析架构，包括：

[0026] 数据采集模块，对数据的录入存储实现采集；

[0027] 数据分析模块，使用Spark来提供高效的大规模分析计算；

[0028] 数据索引分组模块，数据以一定的方式进行索引分组，例如按日期，再类型等，依据查询条件的频繁程度，依次序和层级进行，以提升查询效率；

[0029] 数据存储模块，采用开源的Apache Hadoop分布式文件系统来存储数据；

[0030] 数据定期清除模块，对数据采进行定期清除处理，支持分布式文件系统、行式数据库、列式数据库及对象存储系统存储。

[0031] 其中，所述数据存储模块中数据存储使用Parquet格式。

[0032] 其中，所述数据分析模块采用DPI/DFI相结合的技术，对数据包的流特征和有效载荷进行分析，实现流量分类和有效载荷信息提取。

[0033] 其中，所述数据采集模块中对于录入的数据根据日期n来进行关联。

[0034] 其中，所述数据定期清除模块包括当日的日期m，通过设置阈值a，通过对比(m-n)和阈值a，从而判定是否对数据进行清除。

[0035] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

标题	发布/更新时间	阅读量
一种照明灯电路过流保护装置	2020-05-08	839
中高频复合波导号角	2020-05-08	159
无人机多链路中继通信系统的功率分配与飞行路线优化方法	2020-05-08	844
服务授权方法及通信装置	2020-05-08	141
一种信息流路径的确定方法、装置、设备和存储介质	2020-05-11	795
一种基于CML的智能变电站设备网络结点连锁失效风险分析方法	2020-05-08	582
基于无模型控制器的永磁同步电机控制方法及装置	2020-05-11	4
激光电视的滤网固定结构及激光电视机	2020-05-08	246
一种构建信息通信智能调度指挥沙盘的方法	2020-05-11	653
一种多功能智能耳机	2020-05-08	342

一种温数据大规模分析架构

一种温数据大规模分析架构

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：