首页 / 专利库 / 电脑零配件 / 固件 / 软件 / 一种基于Lucene的Payloads压缩方法

一种基于Lucene的Payloads压缩方法

阅读:277发布:2023-02-06

专利汇可以提供一种基于Lucene的Payloads压缩方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于Lucene的Payloads压缩方法,包括如下步骤,S1、 块 内存的设定;S2、数据的加载;S3、块的划分;S4、块的压缩;本发明对Payloads文件进行压缩的同时未影响到Lucene原先的API,不影响其功能,封装性较好,也便于之后对Lucene进行各项功能的拓展;采用某个可变长大小作为一个块单位,对超大Payloads文件进行分块压缩,压缩效果极其明显;减少了Payloads文件的存储大小,节省了存储空间,降低了 硬件 成本;有效解决了存储的索引数据文件较多时,会极大地占用硬件存储空间的问题。,下面是一种基于Lucene的Payloads压缩方法专利的具体信息内容。

1.一种基于Lucene的Payloads压缩方法,其特征在于:包括如下步骤,
S1、内存的设定;
S2、数据的加载;
S3、块的划分;
S4、块的压缩。
2.根据权利要求1所述的一种基于Lucene的Payloads压缩方法,其特征在于:所述步骤S1中,块内存设定值包括但不限于16k、32k、64k、128k,优选为32k。
3.根据权利要求1所述的一种基于Lucene的Payloads压缩方法,其特征在于:所述步骤S2中,将数据加载入Lucene中。
4.根据权利要求1所述的一种基于Lucene的Payloads压缩方法,其特征在于:所述步骤S3中,对步骤S2中加载的数据,根据步骤S1设置的块的内存大小对数据进行划分,将数据划分为多个块。
5.根据权利要求1所述的一种基于Lucene的Payloads压缩方法,其特征在于:所述步骤S4中,对划分出来的块进行压缩。

说明书全文

一种基于Lucene的Payloads压缩方法

技术领域

[0001] 本发明涉及计算机算法技术领域,具体为一种基于Lucene的Payloads压缩方法。

背景技术

[0002] 索引是大数据时代搜索引擎的核心,建立索引的过程是将元数据处理成索引文件的过程。Lucene作为业内开源的高性能、可扩展的信息检索引擎,不仅仅能支持全文索引,也能够提供多种其他类型的索引方式,来满足不同类型的查询需求。Term是Lucene中索引的最小单位,一个Field会由一个或多个Term组成。Payloads 即词条的元数据或称载荷,支持用户在索引的过程中将词条的元数据添加到索引库中,同时也提供了在检索结果时读取PayLoads信息的功能,其存储的最终是以.pay为后缀名的文件。
[0003] 利用词条的Payload功能来存储文档级别的元数据的确可以减少词条的数目,提高检索效率,但当面对大量索引数据文件时,payload存储出元数据文件也会相应变得很大,耗费存储空间的同时降低索引检索的性能。原生Lucene中未对Payloads存储的元数据文件.pay进行压缩,当需要存储的索引数据文件较多时,会极大地占用硬件存储空间。

发明内容

[0004] 本发明的目的在于提供一种基于Lucene的Payloads压缩方法,以解决上述背景技术中提出的问题。
[0005] 为实现上述目的,本发明提供如下技术方案:一种基于Lucene的Payloads压缩方法,包括如下步骤,S1、内存的设定;
S2、数据的加载;
S3、块的划分;
S4、块的压缩。
[0006] 优选的,所述步骤S1中,块内存设定值包括但不限于16k、32k、64k、128k,优选为32k。
[0007] 优选的,所述步骤S2中,将数据加载入Lucene中。
[0008] 优选的,所述步骤S3中,对步骤S2中加载的数据,根据步骤S1设置的块的内存大小对数据进行划分,将数据划分为多个块。
[0009] 优选的,所述步骤S4中,对划分出来的块进行压缩。
[0010] 与现有技术相比,本发明的有益效果是:本发明对Payloads文件进行压缩的同时未影响到Lucene原先的API,不影响其功能,封装性较好,也便于之后对Lucene进行各项功能的拓展;采用某个可变长大小作为一个块单位,对超大Payloads文件进行分块压缩,压缩效果极其明显;减少了Payloads文件的存储大小,节省了存储空间,降低了硬件成本。附图说明
[0011] 图1为本发明的步骤流程图;图2为本发明的将Payloads文件按块进行划分压缩示意图;
图3为本发明的基于Lucene的Payloads文件压缩示意图。

具体实施方式

[0012] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0013] 请参阅图1-3,本发明提供一种技术方案:一种基于Lucene的Payloads压缩方法,包括如下步骤,S1、块内存的设定;
S2、数据的加载;
S3、块的划分;
S4、块的压缩。
[0014] 进一步的,所述步骤S1中,块内存设定值包括但不限于16k、32k、64k、128k,优选为32k。
[0015] 进一步的,所述步骤S2中,将数据加载入Lucene中。
[0016] 进一步的,所述步骤S3中,对步骤S2中加载的数据,根据步骤S1设置的块的内存大小对数据进行划分,将数据划分为多个块。
[0017] 进一步的,所述步骤S4中,对划分出来的块进行压缩。
[0018] 工作原理:在实际使用过程中,通过步骤S1实现对需要划分块内存大小的定义,内存可以是16k、32k、64k、128k或其他值;在步骤S2中,将数据加载入Lucene中;在加载数据的过程中,根据步骤S1设置的内存大小,将数据按照以设定值为单位划分成多个块;在步骤S4中,通过对块进行压缩。整个过程如图2所示,按照某个可变长大小,例如32k作为一个块,将原先的Payloads文件划分为多个块,针对每个块进行压缩后再存储。
[0019] 图3中,显示的过程对应步骤S4,对块文件进行压缩,极大地减少了元数据文件占用的存储空间,提升索引性能。
[0020] 整个过程对Payloads文件进行压缩的同时未影响到Lucene原先的API,不影响其功能,封装性较好,也便于之后对Lucene进行各项功能的拓展;采用某个可变长大小作为一个块单位,对超大Payloads文件进行分块压缩,压缩效果极其明显;减少了Payloads文件的存储大小,节省了存储空间,降低了硬件成本。
[0021] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈