首页 / 专利库 / 资料储存系统 / 根哈希 / 支持重复数据删除程序的数据区块查询方法

支持重复数据删除程序的数据区查询方法

阅读:941发布:2020-05-12

专利汇可以提供支持重复数据删除程序的数据区查询方法专利检索,专利查询,专利分析的服务。并且一种支持重复数据删除程序的数据区 块 查询方法,提高重复数据删除程序查询数据区块的速度。查询方法包括:在服务端中储存哈希索引列表;客户端中根据输入文件产生数据区块与哈希值;客户端向服务端发送查询 请求 ,查询请求中记录相应数据区块的哈希值;当服务端中未储存哈希值,服务端向客户端发送储存要求,将所接收到的哈希值加入哈希索引列表;对哈希索引列表建立相应的关联数据索引列表,在关联数据索引列表中记录哈希值相关连的数据区块的信息;当服务端中储存哈希值,则根据哈希值将相应的关联数据索引列表中的哈希值返回给客户端。,下面是支持重复数据删除程序的数据区查询方法专利的具体信息内容。

1.一种支持重复数据删除程序的数据区查询方法,应用在经过一重复数据删除程序所产生的多笔数据区块,并对所述多笔数据区块进行查询的处理,其特征在于,该支持重复数据删除程序的数据区块查询方法包括以下步骤:
在一服务端中储存一哈希索引列表,在该哈希索引列表中记录多组哈希值;
一客户端加载一输入文件,并产生相应该输入文件的数据区块与相应每一所述数据区块的哈希值;
该客户端向该服务端发送一查询请求,在该查询请求中记录相应所述数据区块的所述哈希值,用以向该服务端查询是否存在有相同的所述哈希值;
当该服务端的该哈希索引列表中未储存所述哈希值,则该服务端向该客户端发送一储存要求,用以将所述哈希值所相应的所述数据区块传送至该服务端中储存,并且该服务端将所接收到的所述哈希值依序加入该哈希索引列表中;
对加入该哈希索引列表中的所述哈希值建立相应的一关联数据索引列表,并在该关联数据索引列表中记录所述哈希值相关的其它哈希值;
当该服务端中储存所述哈希值,则该服务端根据所述哈希值将相应的该关联数据索引列表中的哈希值一并返回给该客户端;
该客户端下一次查询该数据区块的所述哈希值时,该客户端从所接收的该关联数据索引列表查询是否已存在所述哈希值;
当该客户端所接收的该关联数据索引列表中已存在所述哈希值,则由该关联数据索引列表中取得所述哈希值;以及
当该客户端所接收的该关联数据索引列表中不存在所述哈希值,则该客户端向该服务端进行所述哈希值的查询。
2.根据权利要求1所述的支持重复数据删除程序的数据区块查询方法,其特征在于,产生的所述数据区块根据一固定长度方式或一基于内容变长度分割方式。
3.根据权利要求1所述的支持重复数据删除程序的数据区块查询方法,其特征在于,该关联数据索引列表中的哈希值的数量符合一坎值时,则将查询后经过最久时间的所述哈希值从该关联数据索引列表中删除,将最新查询的所述哈希值记录在该关联数据索引列表中。
4.根据权利要求1所述的支持重复数据删除程序的数据区块查询方法,其特征在于,该关联数据索引列表中的哈希值的数量符合一门坎值时,则该服务端会向下一该关联数据索引列表中继续进行存放所述哈希值的处理。

说明书全文

支持重复数据删除程序的数据区查询方法

技术领域

[0001] 本发明涉及一种数据区块的查询方法,特别涉及一种支持重复数据删除程序的数据区块查询方法。

背景技术

[0002] 重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的可变大小的重复数据块。重复的数据块用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省还多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出还多的备份空间,不仅可以使存储系统上的备份数据保存还长的时间,而且还可以节约离线存储时所需的大量的带宽。
[0003] 为能达到数据完整保存的目的,所以在进行重复数据删除的过程中,会对输入文件进行切分的处理。输入文件在经过切分处理后会产生多个数据区块。为了能有效管理数据区块,所以在进行切分的过程中会利用索引文件来记录所有的数据区块的各项存储信息。
[0004] 客户端对整个输入文件进行了切分处理(定长或者变长)后,随即产生数据区块相应的哈希值。随后客户端向服务端发出查询请求,使用哈希值向服务端讯问是否已经存在有相同的哈希值。服务端会对每次查询请求在哈希索引表中进行搜索,然后通过网络返回查询结果。请参考图1所示,其为现有技术的查询数据区块的示意图。
[0005] 当客户端110查询的数据量非常大时,哈希索引表也会随之剧增,有可能出现服务端120内存不足以存放哈希索引表,这样的话哈希索引表就要涉及到从文件存取速度较慢的存储设备进行查询,将会极大的拖缓整个系统的运行速度。

发明内容

[0006] 鉴于以上的问题,本发明所要解决的技术问题在于提供一种支持重复数据删除程序的数据区块查询方法,应用在经过重复数据删除程序所产生的多笔数据区块,并对数据区块进行查询的处理,进而提高数据区块的查询速度。
[0007] 为达到上述目的,本发明所揭露的支持重复数据删除程序的数据区块查询方法包括以下步骤:在服务端中储存哈希索引列表,在哈希索引列表中记录多组哈希值;客户端中加载输入文件,并产生相应输入文件的数据区块与相应每一数据区块的哈希值;客户端向服务端发送查询请求,在查询请求中记录相应数据区块的哈希值,用以向服务端查询是否存在有相同的哈希值;当服务端的哈希索引列表中未储存哈希值,则服务端向客户端发送储存要求,用以将哈希值所相应的数据区块传送至服务端中储存,并且服务端将所接收到的哈希值依序加入哈希索引列表中;对哈希索引列表中的哈希值建立相应的关联数据索引列表,并在关联数据索引列表中记录哈希值相关的其它哈希值;当服务端中储存哈希值,则服务端根据哈希值将相应的关联数据索引列表中的哈希值一并返回给客户端;客户端下一次查询数据区块的哈希值时,客户端从所接收的关联数据索引列表查询是否已存在哈希值;当客户端所接收的关联数据索引列表中已存在哈希值,则由关联数据索引列表中取得哈希值信息或哈希值相关数据块的描述信息,例如该数据块已经被引用次数,可根据引用需要进行增加;当客户端所接收的关联数据索引列表中不存在哈希值,则客户端向服务端进行哈希值的查询。
[0008] 由于关联数据索引列表能够表明数据区块的关联性(前后关联),而且在使用过程中服务端可以根据统计信息不断调整该联数据索引列表。所以可以在一定程度上保证客户端在本地内存中查询的命中率。服务端可以使用一次访问慢速存储设备的代价获得大量的相关记录,这样大大减少了客户端反复进行查询请求而引起服务端不断在慢速存储设备进行读取查询的问题。同时一次通过网络发送数据索引集也减少了网络中来回请求/确认而进行网络存取的耗时。
[0009] 以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。

附图说明

[0010] 图1为现有技术的查询数据区块的示意图;
[0011] 图2为本发明的架构示意图;
[0012] 图3为本发明的运作流程示意图;
[0013] 图4为本发明的记录相关数据索引集的示意图。
[0014] 其中,附图标记
[0015] 110 客户端
[0016] 120 服务端
[0017] 210 服务端
[0018] 211 哈希索引列表
[0019] 212 关联数据索引列表
[0020] 220 客户端

具体实施方式

[0021] 下面结合附图对本发明的结构原理和工作原理作具体的描述:
[0022] 请参考图2所示,其为本发明的架构示意图。本发明包括服务端210与客户端220。客户端220可以通过因特网(Internet)或企业内网(intranet)的方式连接于服务端210,也可以将客户端220与服务端210同时运行于同一台计算器装置上服务端210还包括哈希索引列表211,哈希索引列表211记录多组哈希值。客户端220向服务端210发出对一输入文件中某一数据区块哈希值的查询要求时,服务端210根据哈希索引列表211所记载的内容并通过下述方式进行查询的动作。请参考图3所示,其为本发明的运作流程示意图。
[0023] 步骤S310:在服务端中储存哈希索引列表,在哈希索引列表中记录多组哈希值;
[0024] 步骤S320:客户端加载输入文件,并产生相应输入文件的数据区块与相应每一数据区块的哈希值;
[0025] 步骤S330:客户端向服务端发送查询请求,在查询请求中记录相应数据区块的哈希值,用以向服务端查询是否存在有相同的哈希值;
[0026] 步骤S340:当服务端的哈希索引列表中未储存哈希值,则服务端向客户端发送储存要求,用以将哈希值所相应的数据区块传送至服务端中储存,并且服务端将所接收到的哈希值依序加入哈希索引列表中;
[0027] 步骤S350:对哈希索引列表中的哈希值建立相应的关联数据索引列表,并在关联数据索引列表中记录哈希值相关的其它哈希值;以及
[0028] 步骤S360:当服务端中储存哈希值,则服务端根据哈希值将相应的关联数据索引列表中的哈希值一并返回给客户端。
[0029] 由客户端220中加载输入文件,客户端220对输入文件进行切分处理,并产生相应输入文件的数据区块与相应每一数据区块的哈希值。哈希值计算的算法可以是但不局限于SHA-1或MD5。而数据区块是根据固定长度方式(fixed-size partition)或基于内容变长度分割方式(content-defined chunking,CDC)。定长切分算法采用预先定义好的数据区块大小对输入文件进行切分。定长分块算法的优点是简单、性能高。内容定义切分算法是一种变长分块算法,它应用指纹数据(如Rabin指纹)将文件分割成长度大小不等的分块策略。与定长切分算法不同,内容定义切分算法是基于文件内容进行数据区块切分的,因此数据区块大小是可变化的。
[0030] 接着,客户端220向服务端210发送查询请求,在查询请求中记录相应数据区块的哈希值,用以向服务端210查询是否存在有相同的哈希值。当服务端210的哈希索引列表211中未储存哈希值,则服务端210向客户端220发送储存要求,用以将哈希值所相应的数据区块传送至服务端210中储存,并且服务端210将所接收到的哈希值依序加入哈希索引列表211中。并对哈希索引列表211中的哈希值建立相应的关联数据索引列表212,并在关联数据索引列表212中记录哈希值相关的数据区块的信息。举例来说,在关联数据索引列表212中可以储存数据区块的哈希值或是数据区块的编号值,也或数据区块存储位置的索引信息。
[0031] 假设从输入文件的第一个数据区块进行查询的处理说明,且服务端210没有纪录过输入文件的任一数据区块。客户端220首先将输入文件的第一数据区块转换为第一哈希值hash1(对应为第一哈希值hash1),并将第一哈希值hash1向服务端210提出查询请求。由于服务端210中并未储存输入文件的任何数据区块的哈希值,所以服务端210将所接收到的第一哈希值hash1(第一数据区块)写入到服务端210。同理,第二数据区块(对应为第二哈希值hash2)仍然按照上面的过程写入到服务端210时。服务端210根据两个数据区块的前后关系来判定第一哈希值hash1与第二哈希值hash2是具有关联性。服务端210将第二哈希值hash2放入第一哈希值hash1的关联数据索引列表212中。请参考图4所示,其为本发明的记录相关数据索引集的示意图。
[0032] 对于其它数据区块的哈希值也依照其顺序写入到第一哈希值hash1的关联数据索引列表212。在本发明中关联数据索引列表212的容量大小有一定限制。当关联数据索引列表212中的哈希值的数量符合坎值时,服务端210除了会向下一关联数据索引列表212中继续进行存放哈希值的处理之外,也可以将查询后经过最久的哈希值从关联数据索引列表212中删除,将最新查询的该哈希值记录在该关联数据索引列表212中。
[0033] 举例来说,若关联数据索引列表212的最大容量为记录10组哈希值,则第一哈希值hash1的相关索引记录是第二哈希值hash2~第十一哈希值hash11(换言之就是第一数据区块后的连续十个数据区块)。
[0034] 当第十二哈希值hash12产生后,服务端210会将第十二哈希值hash12存放在第十一哈希值hash11的关联数据索引列表212中。此外,若是某一组哈希值同时与其它哈希值都存在关联时,可根据相关特性采用存放在哪个哈希值的关联数据索引列表212中。或是将所有发生相关的关联数据索引列表212中都保存一份。
[0035] 以上所述状况为服务端210中未存储可被查询到的哈希值。当服务端210中储存哈希值,则服务端210根据哈希值将相应的关联数据索引列表212中的哈希值一并返回给客户端220。承接上例。当客户端220欲查询第五数据区块(意即查询第五哈希值hash5),由于服务端210中第五哈希值hash5是被归类在第一哈希值hash1所相应的关联数据索引列表212中。所以服务端210除了将所查询到的第五哈希值hash5返还给客户端220外,服务端210同时也会将第一哈希值hash1的关联数据索引列表212一并传送给客户端220。
[0036] 客户端220在接收到关联数据索引表后,客户端220将关联数据索引表储存于内存中。使得客户端220在下一次查询数据区块的哈希值时,客户端220会先从所接收的关联数据索引列表212中开始查询是否已存在欲查询的哈希值。当客户端220所接收的关联数据索引列表212中已存在哈希值,则由关联数据索引列表212中取得哈希值。被查询的数据区块可能是连续,因此通过关联数据索引列表212可以有效地降低客户端220与服务端210间的存取时间,进而提高存取的效率。反之,当客户端220所接收的关联数据索引列表212中不存在哈希值,则客户端220重新向服务端210进行步骤S330~步骤S360的哈希值查询处理。
[0037] 由于关联数据索引列表212能够表明数据区块的关联性(意即前后顺序的关联),而且在使用过程中服务端210可以根据统计信息不断调整关联数据索引列表212。所以可以在一定程度上保证客户端220在本地内存中查询的命中率。服务端210可以使用一次访问慢速存储设备的代价获得大量的相关记录,这样大大减少了客户端220反复进行查询请求而引起服务端210不断在慢速存储设备进行读取查询的问题。同时一次通过网络发送数据索引集也减少了网络中来回请求/确认而进行网络存取的耗时。
[0038] 当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈