首页 / 专利库 / 人工智能 / 关联性分析 / 基于对象关联性评估的云存储方法及装置

基于对象关联性评估的存储方法及装置

阅读:1009发布:2020-11-17

专利汇可以提供基于对象关联性评估的存储方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于对象关联性评估的 云 存储方法及装置,其解决了现有海量小文件存储方法写入响应时间长、索引维护代价高的技的技术问题,其首先分析对象时序关联性和语义关联性从而建立关联性评估模型,生成对象关联性矩阵;然后采用图聚类 算法 根据关联性矩阵将对象划分到不同簇中,以局部相似度排序简化预取对象甄选过程,实现对象预取。其可广泛应用于小文件 访问 的效率优化。,下面是基于对象关联性评估的存储方法及装置专利的具体信息内容。

1.一种基于对象关联性评估的存储方法,其特征在于,包括以下步骤:
(1)分析对象时序关联性和语义关联性从而建立关联性评估模型,生成对象关联性矩阵;
(2)采用图聚类算法根据关联性矩阵将对象划分到不同簇中,以局部相似度排序简化预取对象甄选过程,实现对象预取。
2.根据权利要求1所述的基于对象关联性评估的云存储方法,其特征在于,所述步骤(1)中,关联性评估模型被定义为Sim(i,j),如以下公式:

其中,

Sk(i,j)代表对象i,j针对语义向量中第k个语义特征的语义相似度,λk为Sk(i,j)的对应权值,F(i,j)代表对象i,j的时序相关性,λk为时序相关性的对应权值;
由关联性评估模型推导出对象关联性矩阵S如下公式:

矩阵的阶数与要计算时序关联性的文件对象数量相等,ABCD表示四个文件对象,关联性矩阵中每个元素为两两对象间关联性度量值,为对象的相似度,值的大小在0到1之间。
3.根据权利要求2所述的基于对象关联性评估的云存储方法,其特征在于,所述步骤(1)中,在生成对象关联性矩阵S之前,对关联性评估模型的权重分配进行优化;
针对对象关联性评估模型,将F(i,j)和Sk(i,j)看作自变量Xi,Sim(i,j)看作因变量y,则该关系可以采用因变量y与多个自变量x0,x1,x2,…xn-1构成的方程表示,如下公式所示:
y=λ0x0+λ1x1+…+λn-1xn-1   (3-1)
公式(3-1)中,λ0,λ1,…,λn-1作为待估参数被称为回归系数,解公式(3-1)的回归方程,将N次实验数据代入,可得矩阵方程如公式(3-2)所示:

T T
设变量Y=[y0,y1,…,yn-1] ,λ=[λ0,λ1,…,λn-1] ,
则公式(3-2)代表的矩阵方程可改写为公式(3-3):
Y=X·λ   (3-3)
设a0,a1,…,an-1为λ0,λ1,…,λn-1的最小二乘估计,回归方程改写为如公式(3-4)所示:

根据最小二乘法原理,回归系数a0,a1,…,an-1应使得所有观察值yi和回归值 的差平方和Q值最小,Q值的计算如公式(3-5)所示:

4.一种基于对象关联性评估的云存储装置,其特征在于,包括:
对象关联性评估模,被配置为,分析对象时序关联性和语义关联性从而建立关联性评估模型,生成对象关联性矩阵;
对象关联性预取模块,被配置为,采用图聚类根据关联性矩阵将对象划分到不同簇中,以局部相似度排序简化预取对象甄选过程,实现对象预取。
5.根据权利要求4所示的基于对象关联性评估的云存储装置,其特征在于,所述关联性评估模型被定义为Sim(i,j),如以下公式:

其中,

Sk(i,j)代表对象i,j针对语义向量中第k个语义特征的语义相似度,λk为Sk(i,j)的对应权值,F(i,j)代表对象i,j的时序相关性,λk为时序相关性的对应权值;
由关联性评估模型推导出对象关联性矩阵S如下公式:

矩阵的阶数与要计算时序关联性的文件对象数量相等,ABCD表示四个文件对象,关联性矩阵中每个元素为两两对象间关联性度量值,为对象的相似度,值的大小在0到1之间。
6.根据权利要求5所示的基于对象关联性评估的云存储装置,其特征在于,还包括回归分析优化模块,所述回归分析优化模块被配置为,对关联性评估模型的权重分配进行优化;
针对对象关联性评估模型,将F(i,j)和Sk(i,j)看作自变量Xi,Sim(i,j)看作因变量y,则该关系可以采用因变量y与多个自变量x0,x1,x2,…xn-1构成的方程表示,如下公式所示:
y=λ0x0+λ1x1+…+λn-1xn-1   (6-1)
公式(6-1)中,λ0,λ1,…,λn-1作为待估参数被称为回归系数,解公式(6-1)的回归方程,将N次实验数据代入,可得矩阵方程如公式(6-2)所示:

T T
设变量Y=[y0,y1,…,yn-1] ,λ=[λ0,λ1,…,λn-1] ,
则公式(6-2)代表的矩阵方程可改写为公式(6-3):
Y=X·λ    (6-3)
设a0,a1,…,an-1为λ0,λ1,…,λn-1的最小二乘估计,回归方程改写为如公式(6-4)所示:

根据最小二乘法原理,回归系数a0,a1,…,an-1应使得所有观察值yi和回归值 的差平方和Q值最小,Q值的计算如公式(6-5)所示:

说明书全文

基于对象关联性评估的存储方法及装置

技术领域

[0001] 本发明涉及,具体说是一种基于对象关联性评估的云存储方法及装置。

背景技术

[0002] 随着互联网快速发展,数据呈爆炸式增长,在当前众多互联网应用场景中,80%的数据是小文件。相对于大文件,海量小文件的存取给文件系统带来巨大的压,因此其存储效率成为云存储行业关注的重点问题。
[0003] 然而,现有海量小文件存储方法存在数据写入的响应时间长,索引维护代价高的技术问题。

发明内容

[0004] 本发明就是为了解决海量小文件存储方法写入响应时间长、索引维护代价高的技术问题,提供一种写入响应时间短、索引维护代价低的基于对象关联性评估的云存储方法及装置。
[0005] 本发明的有益效果是,提升海量小文件在存储时的访问性能。针对在目前分布式存储系统中,对于海量小文件相关性评估方法的不足的不利影响,本发明首先提出了一种结合历史关联性与语义关联性的对象关联性评估模型。然后为提高预测的准确度,本发明提出回归分析的校正方法。其次借助于对象关联性评估数据进行对象预测分析,通过建立预取策略来减少小文件访问的响应时间。
[0006] 为测试对象关联性评估预取模型中各参数的组合对缓存命中率的影响,使用HP的trace日志数据进行测试分析实验,将其用于对象关联性评估预取模型的有效性验证。
[0007] HP trace日志来源加利福尼伯克利大学惠普实验室。日志信息包含一个代理节点服务器(Proxy Node)在2010年12月份中前6天的用户文件请求操作数据。数据共28349条记录。数据格式如表1所示。
[0008] 表1:
[0009]
[0010] 其中,请求路径由版本号、账户名、容器名、文件名四部分构成。上表第一条记录请求路径为/v1/trant/music/beau.mp3,对应版本号v1,账户名trant,容器名music,文件名beauty.mp3。
[0011] 实验在单机上模拟对象时序访问操作,假定内存足够容纳每次的预取对象,同时本次预取对象在下一步对象访问操作后自动清除。测试使用机配置如表2所示。
[0012] 表2:
[0013]
[0014] 由于数据本身存在多种类型的操作请求,而预取模型只要针对对象读操作,因此需要对数据进行必要的预处理。预处理内容如下:
[0015] (1)去除无效的操作请求记录(如HTTP状态码为404,505);
[0016] (2)去除非读对象操作(如账户或容器的读写操作,对象的写入更
[0017] 新操作);
[0018] (3)提取所需特征并规格化,去除冗余特征。所需有效特征包括账户名(account)、容器名(container)、文件名(object)以及时间戳(timestamp)。
[0019] 经过预处理,剩余有效数据记录共20326条,去除无效数据记录1354条,去除非读对象操作数据记录5669条,有效数据记录中共7682个对象。各尺寸文件分布情况如图5所示。
[0020] 以第一轮样本作为数据素材,记录了在不同监视窗口的操作数取值情况下,基于对象关联性预取算法取不同预取对象数时的性能比较如图6示。
[0021] 由图6可知,随着监视窗口的操作数下限的增长,五条曲线对应的缓存命中率呈上升趋势,并且由预取文件数目上限的增长带来的缓存命中率的大小差异逐渐缩小。同时,随着预取文件数目上限的增长,缓存命中率的增长趋势逐渐放缓。监视窗口操作数下限的设定本身会将原本有关联性的对象分别划分到无关的子访问序列中,而通过增大这一设定参数的大小,可以将更多具有关联性的对象划分到同一子访问序列中,挖掘出更多潜在的对象关联性。随着窗口大小增长,缓存命中率的增长趋势逐渐放缓,在窗口大小在8的时候到最大命中率,窗口大小对对象关联性划分的有利趋向性达到饱合。从预取文件数目上限增长到3以后,在窗口大小为8的情况下,预取文件数目上限的增长并未带来过多缓存命中率的增长而是将缓存命中率维持在一个相对稳定范围内。
[0022] 通过数据的统计分析,实验将窗口大小设为8而预取文件数目上限设为4。以该参数设定为基础,结合第1轮的实验数据进行余下3轮的抽样实验。相应权重的校正数据如表3所示。
[0023] 表3:
[0024]
[0025] 由表3的表格中第4轮校正的权重数据更新公式。返回第1轮样本进行测试,测试结果与最初首轮样本测试结果对比如图7所示。从图7可知,随着窗口大小的增长,缓存命中率呈上升趋势。当窗口较小时,权值修正后的对象关联性评估模型相对原始情况有较高的缓存命中率。权值修正后,通过对权重的重分配,语义相关性一定程度上弥补了因窗口较小引起的时序相关性误差。
[0026] 针对现有几种常用预取模型,分别对日志数据进行挖掘,得到相应的对象关联性,用于指导数据预取,预测性能如图8所示。预取模型FS、LS以及RP(k=4,j=2)分别有39.2%,35.7%以及38.4%的缓存命中率。相比之下,本发明提出的关联性预取(OAP)命中率为48.7%,接近于50%。可以看出本发明提出的关联性预取方案相对优化于现在常见的预取模型。
[0027] 本发明进一步的特征和方面,将在以下参考附图的具体实施方式的描述中,得以清楚地记载。

附图说明

[0028] 图1是对象关联性评估模和对象关联性预取模块的框图
[0029] 图2是监视窗口划分过程图;
[0030] 图3是访问序列的时序相关性过程;
[0031] 图4是对象关联性评估模块、对象关联性预取模块和回归分析优化模块的框图;
[0032] 图5是有效性实验中对数据预处理的结果对比图;
[0033] 图6是以第一轮样本作为数据素材的实验中不同预取对象数、监视窗口大小下的预取性能曲线;
[0034] 图7是经过第4轮校正的权重数据更新公式返回第1轮样本进行测试,权值校正前后预取性能;
[0035] 图8是本发明的关联性预取模型与现有预期模型的性能对比图;
[0036] 图9是回归分析优化优化过程的对象访问图。
[0037] 图中符号说明:
[0038] 10.对象关联性评估模块;20.对象关联性预取模块;30.回归分析优化模块。

具体实施方式

[0039] 以下参照附图,以具体实施例对本发明作进一步详细说明。
[0040] 如图1所示,基于对象关联性评估云存储装置包括对象关联性评估模块10和对象关联性预取模块20。
[0041] 对象关联性评估模块10用于分析对象广泛的关联性从而建立关联性评估模型,有效的度量对象间的关联性,生成对象关联性矩阵。本发明主关注对象访问关联性规律,一定时间范围内,对象i,j先后被访问,则称两者具有关联性。关联性评估模型的建立是根据对象访问关联性规律,将广泛的对象关联性分解为访问时序关联性以及语义关联性。
[0042] 时序关联性是指由历史访问时序挖掘访问规律得到的分析结果。挖掘时序关联性的主要思想是从历史访问序列中寻找规律,由于历史访问时序已知,根据对象的相应频次可计算条件概率。同时结合传统的数据预取领域的算法,做一些细化。利用访问的局部性原理,在分析被访问的频次的基础上结合频次时延以及访问关系的时间间隔。数据预取中对于同一对象的若干后继,距离该对象的访问时间间隔越短被随后访问的可能性越高,应优先预取。时序关联性可以看作“自然冷却”的过程。当一定范围内两个文件先后被访问,则时序关联性的热度提升,而所有时序关联性都随时间流逝逐渐降温冷却。结合顿冷却定律和宾浩斯记忆曲线,对象访问时序相关性可表示为前一次关联性的冷却剩余值与本次关联性的加权和。
[0043]
[0044] 公式(1)中,
[0045]
[0046] Δtk+1(i,j)=Δtk,k+1(i,j)+γ  (3)
[0047] 公式(1)、(2)、(3)中,0<α≤1,0<β≤1, 为遗忘函数,α为遗忘因子;Δtk+1(i,j)为第k+1次关系中文件i,j先后出现的时差;Δtk,k+1(i,j)为访问关系i→j的第k次与k+1次的时延;γ>0时,γ=Δtk(i,j)<Δtk+1(i,j),反之||γ||=Δtk(j,i)<Δtk,k+1(i,j),Δtk+1(i,j)<Δtk,k+1(i,j)。
[0048] 通过设定加权和中两个权值为1/2,将D(i,j)限定在[0,1]的范围内。根据艾宾浩斯记忆遗忘参数,将遗忘因子α设为0.9×10-3。
[0049] 记录的限定范围称为监视窗口,访问序列的监视窗口每次向后移动一个操作对象。当窗口的首个操作对象在规定的窗口大小内出现相同操作对象时,将会将窗口尺寸进行收缩,截止到相同操作对象的前一个对象。如图2所示,ABCD代表四个不同的对象,访问序列被切割为AB,BADC,ADCD,DC,CDBA五段,其中BACD,ADCD,CDBA是按照标准时间窗口尺寸进行截取,而AB,DC则是由于出现与窗口中首个对象相同的后继而进行窗口收缩,从中间截断。
[0050] 同时,时间窗口的大小以窗口操作对象数作为辅助参考。设窗口操作对象数下限Nlow=Nw,同时访问序列的整体时间间隔为ΔT,访问序列统计操作对象个数为NT。则窗口的时间间隔的大小计算如式所示。
[0051]
[0052] 由于在大小为Δtw的时间窗口内可能出现局部高频访问的情况,为避免因窗口内操作对象过多带来计算负载的大幅提高,将窗口操作对象的上限设定为Nhigh=1.5Nw。因此,窗口大小的设定以窗口操作对象下限数Nlow为参考,以Δtw为时间间隔标准并以窗口操作对象上限数Nhigh为最高警界值。
[0053] 当对切割出的子序列进行时序相关性计算时,只计算子序列首个操作对象与其后继的时序相关性。访问序列的时序相关性过程如图3所示。
[0054] 首先获取两个对象的访问时间间隔,根据设定的时间监视窗口判断时间间隔是否超出时间监视窗口的长度,如果超出了代表两个文件对象之间没有时序相关性,如果在监视窗口之内,那么,计算本次访问的时序相关性,如果这两个文件对象之前不存在历史访问相关性,那么本次访问的时序相关性即代表两文件对象的访问相关性,如果这两个文件对象之前存在有历史访问相关性,那么计算上次时序相关性的剩余值与本次时序相关性的加权和,即可得到时序相关性。
[0055] 语义关联性是指由对象近似属性挖掘对象关系所得分析结果。探索语义关联性的方法是挖掘对象的各种属性信息,它们以元数据的形式存储在对象存储系统中,具有多种类型,例如文件扩展名、文件大小、修改时间等,通过相关数学方法将语义信息量化并利用统计学知识寻找对象间的联系予以评估。为进一步理解语义关联性,可以考虑以下场景:
[0056] 1.相似路径下的文件具有关联性;
[0057] 2.归属于同一用户的文件具有关联性;
[0058] 3.名称相似的文件具有关联性。
[0059] 语义关联性越大的文件被连续访问的可能性更高,具有的相似属性数目越多,文件间关联性越大。向量空间算法是当前较为成熟并普遍采用的属性相似性度量算法。文件名相似度采用莱文斯坦距离进行度量。对象的语义相关性是由多个属性相似相似度的加权和构成。文件名属性的相似度可以使用小数作为度量,而其他简单属性的相似度为0和1二置选项,0代表相同,1代表不同。
[0060] 将时序关联性和语义关联性进行量化处理,限定为0到1的相关量化概率值。综合上述两点给出对象关联性评估模型,如下式(4)所示。
[0061]
[0062] 公式(4)中,
[0063]
[0064] Sk(i,j)代表对象i,j针对语义向量中第k个语义特征的语义相似度;λk为Sk(i,j)的对应权值;F(i,j)代表对象i,j的时序相关性;λk为时序相关性的对应权值。
[0065] 对象的关联性以相似度矩阵形式表现,矩阵的阶数与要计算时序关联性的文件对象数量相等,假设有四个文件对象ABCD,由公式(4)推导生成出关联性矩阵,定义这四个对象关联性矩阵S如下公式(5)所示:
[0066]
[0067] 关联性矩阵S中每个元素为两两对象间关联性度量值,为对象的相似度,值的大小在0到1之间。
[0068] 对象关联性预取模块20,采用图聚类根据关联性矩阵将对象划分到不同簇中,以局部相似度排序简化预取对象甄选过程,实现高效的对象预取。
[0069] 关联性矩阵S中,预取本身可以看成将当前对象关联性高的相关对象预先读取出来,放入缓存以备后续使用。聚类将相似的对象静态分类为不同组别或更多子集(subset),使同一子集成员对象具有相似属性。聚类将相似度矩阵进行压缩并划分成不同大小的子矩阵,每个子矩阵可以看成一类子集,使同一子集成员对象具有相似属性。聚类将相似度矩阵进行压缩并划分成不同大小的子矩阵,每个子矩阵可以看成一类子集,继续以刚才ABCD四个文件对象的关联性矩阵为例,其中某子矩阵如公式(6)所示。
[0070]
[0071] 公式(6)表示相似度矩阵的子矩阵,即聚类结果中存在归为一类的子集{A,B,C}。当A被访问时,将矩阵中A所在行的元素进行排序。
[0072] 假设,S(A,B)<S(A,C),取相似度高的前几个对象进行预取,预取的顺序按照先B后C进行。
[0073] 聚类将相似度矩阵进行压缩并切割,通过排除由单个对象组成的集合并将预取时相似度比对限定在子集内部,降低排序计算的复杂度和内存消耗。
[0074] 传统的聚类算法并不适用于当前对象关联性聚类。本发明采用近邻传播聚类算法(Affinity Propagation)。此外随访问对象数增长,对象关联性矩阵的稀疏程度加剧,聚类质量下降。对此可以定期将长时间热度处于较低状态的对象的相关数据从矩阵中移除,压缩对象关联矩阵以降低矩阵的稀疏程度,使聚类质量维持在一个较好的范围内。
[0075] 如图4所示,可增加回归分析优化模块30,通过测试分析预取结果有效性,从而提高对象关联性度量准确度,进一步提高对象关联性预取的有效性。回归分析优化需要根据历史访问序列进行修正确定。对于多变量影响下单个输出的情况,使用多元回归分析进行变量权重的修正确定可以得到较好的效果。
[0076] 针对前文所述的公式(4)代表的对象关联性评估模型,将F(i,j)和Sk(i,j)看作自变量Xi,Sim(i,j)看作因变量y,则该关系可以采用因变量y与多个自变量x0,x1,x2,…xn-1构成的方程表示,如下公式(7)所示。
[0077] y=λ0x0+λ1x1+…+λn-1xn-1  (7)
[0078] 公式(7)中,λ0,λ1,…,λn-1作为待估参数被称为回归系数。解公式(7)的回归方程,将N次实验数据代入,可得矩阵方程如公式(8)所示。
[0079]
[0080] 设变量Y=[y0,y1,…,yn-1]T,λ=[λ0,λ1,…,λn-1]T,
[0081] 则公式(8)代表的矩阵方程可改写为
[0082] 公式(9):
[0083] Y=X·λ  (9)
[0084] 设a0,a1,…,an-1为λ0,λ1,…,λn-1的最小二乘估计,回归方程改写为如公式(10)所示。
[0085]
[0086] 根据最小二乘法原理,回归系数a0,a1,…,an-1应使得所有观察值yi和回归值 的差平方和Q值最小,以下为Q的计算,如公式(11)所示。
[0087]
[0088] 如图9所示,将上述过程应用到对象关联性上,假设当前访问对象为A且预估下一个访问对象为B,但进行下一步访问操作时恰恰访问的是C而不是B,表明实际情况下有Sim(A,C)>Sim(A,B),但理想中评估的结果正好相反。将该情况映射到一维的直线上,通过欧式距离的远近表示时序的先后,可知AC长度小于AB。而为修正由评估结果带来的误差,则可需要将B移动到AC之间。为满足该条件,从对象关联性度可以理解为Sim(B,C)尽可能大而Sim(C,B)尽可能小,即Sim(C,B)+1-Sim(B,C)取最小值。将该结果用到Q值的计算上,可得如下式所示:
[0089]
[0090]
[0091]
[0092] 其中yi,(i′,j)表示yi=Sim(i′,j), 表示 j为i′的预估c后继,而k为i′的实际后继。求Q对a0,a1,…,an-1的偏导数并令其都为0。计算参数λ的最小二乘数估计值如下式所示:
[0093]
[0094]
[0095] 其中,A=[1,1,…,1,1],Ynew=[-1,-1,…,-1,1]T;Xreal,esti表示由Sim(k,j)对应的相关度自变量构成的矩阵,Xesti,real表示由Sim(j,k)对应的相关度自变量构成的矩阵。
[0096] 回归分析是机器学习中用于权重设定较简单的方法之一。对象关联性的量化本身是依据经验相对自我的评估值,需要现实的实验数据进行佐证。在实验测试中,每一组权重分配都会对应一个缓存命中与否的实验结果数据。该数据可以直观的反映不同权重分配下对象关联性评估的准确性。缓存命中率越高,相应的说明了对象关联性评估的准确性越高。
[0097] 以上所述方法是针对文件对象的,应用于海量小文件时,效果最佳。
[0098] 以上所述仅对本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈