专利汇可以提供基于指纹的文件备份方法专利检索,专利查询,专利分析的服务。并且基于指纹的文件备份方法,属于计算机存储备份技术领域,目的在于减少重复数据的备份,节省备份所需的网络带宽和存储开销,提高备份效率。本 发明 包括备份过程和恢复过程;本发明采用基于锚的文件分 块 技术识别备份文件的冗余数据,具有 修改 稳定性 ,计算开销小;文件的数据分块以其指纹为标识存储在存储 服务器 的块卷上,避免了重复数据的备份,并便于数据分块被不同文件共享;文件元数据和文件分块索引存储在存储服务器的存储卷上,便于用户组织存储池,实现逻辑对象的个性化管理。,下面是基于指纹的文件备份方法专利的具体信息内容。
1.一种基于指纹的文件备份方法,包括备份过程和恢复过程,在分布式网络中,在每一个需要备份数据的主机上安装备份代理,在数据备份的目的机上安装存储服务器;备份时由备份代理将文件分块并计算其指纹,把数据分块或指纹通过网络送往存储服务器,恢复时备份代理则通过网络从存储服务器接收数据并写到所在主机指定的目录下;存储服务器负责存储卷及块卷的管理、并建立一个目录数据库记录作业的运行信息,备份时负责数据分块的索引和存储,恢复时重构文件以向备份代理提供完整的文件数据;
(1)所述备份过程包括:
(1.1)初始化步骤,备份代理为文件序号赋初值0,并向存储服务器传送备份作业名称、备份作业所使用的存储池名称;
(1.2)认证步骤,存储服务器对备份代理进行认证,认证包括核对登录密码、作业定义是否合法、作业是否有权访问所指定的存储池;认证通过则进行下一步;认证未通过则退出;
(1.3)作业标识步骤,存储服务器为此备份作业分配一个作业标识符和一个会话标识符;
(1.4)存储池判断步骤,存储服务器判断备份代理所指定的存储池中是否有可用的存储卷,有则进行下一步;否则向备份代理返回要求标识存储卷的信息后退出;
(1.5)分配存储资源步骤,存储服务器从备份代理所指定的存储池中取出一个可用的存储卷,在存储卷中创建存储块块头和存储块,存储块块头中写入作业标识符和会话标识符,在存储块中创建一个会话头和会话,并把存储池名称、存储池类型、作业标识符、作业名称、备份代理名称、文件集名称、作业级别写入会话头中;
(1.6)文件集判断步骤,备份代理判断作业文件集是否为空,如为空则转步骤(1.16);否则进行下一步;
(1.7)读取文件步骤,将文件序号累增1,并从作业文件集中读取一个文件F;
(1.8)备份文件元数据步骤,备份代理把文件序号的值和文件F的元数据传送给存储服务器;存储服务器在会话中创建第一个记录,记录由记录头和记录体组成,记录头由文件序号字段、文件流字段和记录长度字段构成;为该记录的记录头文件序号字段赋值文件序号、文件流字段赋值1,把文件F元数据存入该记录的记录体中,把文件F元数据长度存入该记录的记录头记录长度字段;然后创建第二个记录,为该记录的记录头文件序号字段赋值文件序号、文件流字段赋值10,准备接收文件数据;
(1.9)文件分块步骤,备份代理对文件F的数据进行基于锚的文件分块,得到文件F的一个分块队列,包括下述子步骤:
(1.9.1)判断文件长度,如果文件小于48字节,则整个文件为一个数据分块,结束文件分块步骤;否则进行下一步;
(1.9.2)以文件的开头48字节b1,b2,...,b48为一个窗口,以式H1=(b1×p47+b2×p46+...+b48)mod M计算文件的第一个窗口的哈希值,存储在变量H1中,式中p为素数,其值大于等于13,M为大于等于32位的二进制常数;
(1.9.3)向后滑动一个字节,以式H2=(p×H1+b49-b1×p48)mod M计算文件第二个窗口b2,b3,...,b49的哈希值,存储在变量H2中;
(1.9.4)以此类推,计算文件的所有窗口的哈希值;
(1.9.5)对每个窗口的哈希值,取其低13位组成一个二进制数,如果此数等于预定值,则确定其相应的窗口为一个锚,预定值为0~8×1024-1之间的整数;
(1.9.6)以锚为边界把文件分成大小不一的数据分块,除文件末尾的数据分块外,当数据分块小于2KB时,则舍弃该数据分块的锚,用下一个锚作为数据分块的边界,直至该数据分块不小于2KB;在连续64KB的文件长度中都没有锚,则取此64KB为一个数据分块;
(1.10)分块队列判断步骤,备份代理判断文件F的分块队列是否为空,如为空则转步骤(1.15);否则,进行下一步;
(1.11)计算指纹步骤,备份代理从分块队列中取出一个数据分块C,计算该分块的SHA-1哈希值H(C)作为C的指纹,并把H(C)传送给存储服务器;
(1.12)分块查询步骤,存储服务器接受到H(C)后,以H(C)为关键字在分块索引数据库中进行分块查询,如果在数据库中查找到相同指纹的数据分块,进行下一步;否则转步骤(1.14);
(1.13)存储分块索引步骤,存储服务器向备份代理返回查找成功信息,同时把数据库中该分块的引用计数加1,在作业会话记录头的文件序号字段=文件序号、文件流字段=10的文件记录中写入本数据分块的索引信息;备份代理接收到查找成功信息,返回步骤(1.10)处理文件的下一个数据分块;
(1.14)存储分块数据步骤,存储服务器向备份代理返回查询失败信息,同时等待备份代理传送数据分块C;备份代理接收到查询失败的信息时,向存储服务器传送数据分块C;存储服务器接收到数据分块C后,向备份代理返回就绪信息,同时把收到的数据分块C存入块卷中,并在分块索引数据库中建立数据分块C的索引信息,在作业会话记录头的文件序号字段=文件序号、文件流字段=10的文件记录中追加本数据分块的索引,处理完后,等待备份代理发送下一个数据分块的处理请求;备份代理接收到存储服务器返回的就绪信息后,返回步骤(1.10)处理文件的下一个数据分块;
(1.15)结束文件备份步骤,备份代理向存储服务器传送文件F的备份结束信息,并返回步骤(1.6)处理文件集中的下一个文件;
(1.16)结束作业备份步骤,备份代理向存储服务器发送作业结束信息;存储服务器接收到作业结束信息后向备份代理返回OK信息,同时把本作业的相关管理信息,包括作业标识符、会话标识符以及会话的存储位置存入目录数据库中,会话的存储位置包括存储池标识符、存储池中存储卷的名称、存储卷中的块号;然后创建一个会话尾,把作业所包含的文件数、作业所包含的字节数、作业的起始存储块编号、结束存储块编号、作业完成状态信息写入会话尾中,结束本作业;
(2)所述恢复过程包括:
(2.1)初始化步骤,备份代理向存储服务器传送待恢复作业的标识符;
(2.2)认证步骤,存储服务器对备份代理进行认证,认证包括核对登录密码、要恢复的作业的标识符是否存在;认证通过则进行下一步;认证未通过则退出;
(2.3)定位作业数据步骤,存储服务器以待恢复作业的标识符为关键字从目录数据库中取得待恢复作业的会话标识符以及会话的存储位置,包括存储池的标识符、存储池中存储卷的名称、存储卷中的存储块编号;
(2.4)作业验证步骤,存储服务器给文件序号赋初值1,给元数据标志赋初值1,并从存储卷上的作业会话中读取会话头记录,用会话头记录对作业进行验证,即检查作业的相关信息和会话头记录中记载的信息是否一致,如果一致,进行下一步;否则向备份代理返回出错信息后退出;
(2.5)读取记录步骤,存储服务器从存储卷上的作业会话中读取下一个记录;
(2.6)会话尾判断步骤,存储服务器读取记录的文件序号字段,如果文件序号字段等于-2则转步骤(2.13);否则,进行下一步;
(2.7)文件序号判断步骤,如果文件序号字段等于文件序号,则进行下一步;否则,向备份代理返回出错信息后退出;
(2.8)文件元数据判断步骤,存储服务器读取记录的文件流字段,如果元数据标志为1并且文件流字段=1,则进行下一步;否则,转步骤(2.10);
(2.9)恢复文件元数据步骤,存储服务器为元数据标志赋值0,并读取记录中的文件元数据传送给备份代理;备份代理接收到文件元数据后,向存储服务器返回OK信息,并在所在主机的指定目录下创建文件,准备接收文件数据;存储服务器接收到备份代理返回的OK信息后,转步骤(2.5);
(2.10)文件索引判断步骤,如果元数据标志为0并且文件流字段=10,则进行下一步,否则,向备份代理返回出错信息后退出;
(2.11)文件重构步骤,存储服务器为元数据标志赋值1,将文件序号累增1,并读取记录中文件的分块索引,由分块索引从相应的块卷中读取组成文件的所有数据分块并按顺序拼接成文件,然后向备份代理传送文件数据;
(2.12)恢复文件数据步骤,备份代理接收到文件数据后,向存储服务器返回OK信息,并把接收到的数据写到所在主机的指定目录下新创建的同名文件中;存储服务器接收到备份代理返回的OK信息后,转步骤(2.5);
(2.13)结束作业恢复步骤,存储服务器向备份代理发送恢复作业结束信息同时结束作业运行;
所述块卷由系统管理员标识,块卷由块卷卷标和大小一致的块组成,块卷卷标记录块卷的名称、块卷所包含的块数、空闲块数、块卷卷标标志、块卷的标识时间信息;空闲块数记录块卷中未被使用的块的数量,对块卷进行更新操作时,空闲块数改变;所述块卷的块由块头和块体组成,块头用于管理开销,块体用于存储数据分块;
所述存储卷由用户标识,存储卷由存储卷卷标和大小一致的存储块组成,存储卷卷标记录存储卷的名称、存储卷所属的存储池名称、存储池类型、存储卷的媒体类型、存储卷所包含的数据块数、存储卷卷标标志以及存储卷卷标识的时间信息;所述存储块由存储块块头和大小不一的记录组成,所述记录分为会话头记录、文件记录和会话尾记录;所述会话头记录记录此作业会话所属的存储池名称、存储池类型、作业标识符、作业名称、备份代理名称、文件集名称、作业类型、作业级别信息,存储在作业会话的第一个存储块的第一个记录中;所述文件记录存储作业包含的文件信息,每个文件占用两个文件记录,其中一个存储文件元数据,另一个存储文件的分块索引;所述会话尾记录记录作业所包含的文件数、字节数、作业的起始存储块编号、结束存储块编号、作业完成状态信息,存储在作业会话的最后一个存储块的最后一个记录中;所述会话头记录、多个文件记录和会话尾记录构成作业会话。
本发明属于计算机存储技术,具体涉及一种基于指纹的文件备份方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
网络交互式高清字符叠加系统 | 2021-03-01 | 1 |
一种电脑提花手套机控制装置及其花型准备方法 | 2021-04-11 | 1 |
一种数据存储的方法及装置 | 2021-06-22 | 0 |
一种基于文件系统的三维空间数据存储管理方法 | 2023-08-16 | 1 |
用于记录MVB网络物理层数据帧的记录方法及记录装置 | 2021-06-27 | 1 |
基于Hadoop的商品推荐系统 | 2021-02-10 | 1 |
一种用于数字内容共享的商业模式与方法 | 2020-09-10 | 1 |
一种容器化可配置的数据库执行脚本管理系统及方法 | 2020-05-23 | 0 |
Consistent data storage subsystem configuration replication | 2023-07-31 | 1 |
基于应用程序的用户信息的隐藏方法及装置 | 2020-12-24 | 1 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。