首页 / 专利库 / 地球科学 / / 一种温数据存储方法

一种温数据存储方法

阅读:680发布:2021-06-15

专利汇可以提供一种温数据存储方法专利检索,专利查询,专利分析的服务。并且本 发明 属于温数据存储领域,尤其时涉及一种温数据存储方法,包括:每日通过 服务器 以及相关平台录入数据;根据录入数据时的日期对数据赋值n;对当日日期进行赋值,设置成m,通过 算法 算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;设置 阈值 a;将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。本发明使用Parquet格式和Snappy压缩算法在提升大范围数据的读取速度的同时,能够减少住数据存储的用量。,下面是一种温数据存储方法专利的具体信息内容。

1.一种温数据存储方法,其特征在于,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
2.根据权利要求1所述的一种温数据存储方法,其特征在于,在进行所述S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
3.根据权利要求2所述的一种温数据存储方法,其特征在于,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
4.根据权利要求1所述的一种温数据存储方法,其特征在于,在进行所述S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。

说明书全文

一种温数据存储方法

技术领域

[0001] 本发明涉及温数据存储领域,尤其涉及一种温数据存储方法。

背景技术

[0002] 当前架构的存储方案下,是将全部数据存储在单一的数据库中,然而传统的数据库为了满足一些特定的需求,比如:强一致性,事务性,大数据量下的高性能读写等等,往往对于大范围大批量的分析处理无法得到很好的优化,从而导致数据库会需要进行全表扫描的操作,从而耗费大量的时间。
[0003] 另外根据业务场景,大部分的离线分析计算不会需要使用到全部的数据量,往往时间跨度在半年至一年之间,所以只保存需要范围内的数据,也可以提升分析计算的效率并且控制硬件的使用成本。
[0004] 为此,我们提出一种温数据存储方法来解决上述问题。

发明内容

[0005] 1、发明目的。
[0006] 本发明提出了一种温数据存储方法,可以定期对数据进行清理,同时便于对数据进行索引和分组,对于硬件的需求较低。
[0007] 2、本发明所采用的技术方案。
[0008] 一种温数据存储方法,具体包括以下步骤:
[0009] S1、每日通过服务器以及相关平台录入数据;
[0010] S2、根据录入数据时的日期对数据赋值n;
[0011] S3、将数据以Parquet格式存入HDFS;
[0012] S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
[0013] S5、设置阈值a;
[0014] S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
[0015] S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
[0016] 在上述的一种温数据存储方法中,在进行所述S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
[0017] 在上述的一种温数据存储方法中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
[0018] 在上述的一种温数据存储方法中,在进行所述S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
[0019] 3、本发明所产生的技术效果。
[0020] 通过将开源的集群运算框架Spark和开源的面向列的格式Parquet进行配合,再将数据以一定的方式进行索引分组,让大范围的数据读取的性能得到大幅度的提升;与此同时,数据只保存业务需求的时间长度,如半年,那么数据规模相对适中,所以使用价格和性能都相对适中的混合硬盘进行存储,从而控制成本。附图说明
[0021] 图1为本发明提出的一种温数据存储方法的步骤图。

具体实施方式

[0022] 以下实施例仅处于说明性目的,而不是想要限制本发明的范围。
[0023] 实施例
[0024] 一种温数据存储方法,具体包括以下步骤:
[0025] S1、每日通过服务器以及相关平台录入数据;
[0026] S2、根据录入数据时的日期对数据赋值n;
[0027] S3、将数据以Parquet格式存入HDFS;
[0028] S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
[0029] S5、设置阈值a;
[0030] S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
[0031] S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。
[0032] 其中,在进行S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。
[0033] 其中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。
[0034] 其中,在进行S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。
[0035] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈