一种基于核密度估计的副本选择方法专利检索-逻辑文件软件专利检索查询-专利查询网

一种基于核密度估计的副本选择方法

阅读：960发布：2023-12-28

专利汇可以提供一种基于核密度估计的副本选择方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于核密度估计的副本选择方法，属于计算机网络技术领域。将网络中的副本分为旧副本和新副本，对于旧副本，采用核密度估计策略根据历史数据选择出最佳旧副本；对于新副本，根据新副本所在节点当前带宽情况选择出最佳新副本；再将最佳新副本和最佳旧副本计算比较，从而在具有相同逻辑文件名的多个副本中，选择出最佳副本。本发明适用于动态低端网络，尤其是网络状态频繁变化的情况。本方法能减少用户访问延迟和带宽消耗，提高网络的性能。，下面是一种基于核密度估计的副本选择方法专利的具体信息内容。

权利要求

1.一种基于核密度估计的副本选择方法，其特征在于：
首先进行相关定义，具体如下：
定义1：请求访问文件的节点称为用户节点；
定义2：设置一个时间阈值σ，如果一个副本的创建时间距当前时间的时间间隔小于σ或者该副本所在的节点在线时间小于σ，则该副本称为新副本；否则，该副本称为旧副本；
定义3：在ti时刻其它节点访问某一个节点上的副本的个数之和称为该被访问节点的网络负载，记为loadi；该节点的网络负载的历史数据记为{(t0，load0)，(t1，load1)，…，(tN，loadN)}；T为节点的总日志时间，T＝tN-t0；
定义4：令节点的预测的网络负载为predictLoad，且 $predictLoad = \frac{1}{T} Σ_{i = 1}^{N} (t_{i} - t_{i - 1}) \times {load}_{i},$ 其中，T为节点的总日志时间，loadi表示ti时刻节点的网络负载；
在以上定义的基础之上，进行以下工作：
设具有相同逻辑文件名的副本为{replica1，replica2，…，replican}，如果要为用户节点u从副本{replica1，replica2，…，replican}中选择出最佳副本，具体步骤如下：
步骤一、根据定义2，将网络中的副本分为旧副本和新副本；
即，在副本集{replica1，replica2，…，replican}中，如果其中某个副本replicai，1≤i≤n的创建时间距当前时间的时间间隔小于时间阈值σ，或者该副本所在的节点在线时间小于时间阈值σ，则此副本为新副本；否则，此副本为旧副本；照此方式，找出副本集中的所有旧副本和新副本；如果副本集中有旧副本，则对于所有旧副本，执行步骤二；如果副本集中只有新副本，则执行步骤三；
步骤二、采用核密度估计策略，根据历史数据从所有旧副本中选择出最佳旧副本；
对于有m个旧副本的副本集{oldReplica1，oldReplica2，…，oldReplicam}，对其中的每个旧副本oldReplicai，1≤i≤m，首先为每个旧副本所在的节点预测网络的可用带宽；
然后，利用核密度估计策略，计算出每个旧副本被再次访问的可能性1≤i≤m；
之后，对{oldReplica1，oldReplica2，…，oldReplicam}中的每个副本计算f(oldReplicai)，i∈{1，2，…，m}，计算公式如下：

其中，bandwidth为网络总带宽；
最后，根据得到的每个旧副本，以及旧副本中的最佳副本的计算公式，选择出最佳旧副本：
$f (bestOldReplica) = \underset{i}{Max} (f (oldReplic a_{i})), i \in {1,2, \cdot \cdot \cdot m} - - - (5)$
完成后转到步骤三；
步骤三、判断是否有新副本；如果没有新副本，则转到步骤四；如果有新副本，则根据新副本所在节点当前带宽情况，选择出最佳新副本，然后转到步骤四；
步骤四、如果没有新副本，则步骤二选出的最佳旧副本为最佳副本；如果没有旧副本，则步骤三选出的最佳新副本为最佳副本；如果既有新副本，又有旧副本，则比较最佳旧副本的available_bandwidth(u，bestOldReplicai)值与最佳新副本的g(bestNewNode)的值，如果available_bandwidth(u，bestOldReplicai)的值大，则最佳旧副本为最佳副本；如果g(bestNewNode)值大，则最佳新副本为最佳副本。
2.如权利要求1所述的一种基于核密度估计的副本选择方法，其特征在于：所述步骤二中，为每个旧副本所在的节点预测网络的可用带宽的方法如下：
节点u与节点v之间的可用带宽的计算公式如下：
$available_bandwidth (u, v) = \frac{bandwidth (u, v)}{predictLoad} - - - (1)$
其中，predictLoad为节点v的预测的网络负载，bandwidth(u，v)为节点u与节点v之间的网络带宽；预测的网络负载越大，可用带宽越小；利用公式(1)预测出每个旧副本的可用带宽，并记录为available_bandwidth(u，oi)，其中，oi是旧副本oldReplicai所在的节点。
3.如权利要求1所述的一种基于核密度估计的副本选择方法，其特征在于：所述步骤二中，利用核密度估计策略，计算出每个旧副本被再次访问的可能性的方法如下：
设置一个阈值λ，如果一个节点和用户节点之间的跳数小于λ，那么该节点就是与用户节点相近的节点，称其为用户节点的邻近节点；
确定出用户节点的所有邻近节点{closeNode0，closeNode1，…closeNodeq}；网络中被用户节点及它的邻近节点访问过的所有副本为{accessReplica1，accessReplica2，…，accessReplicad}；在给定的最近的t时间段内，X＝{x1，x2，…，xk}，Y＝{y1，y2，…，yk}；X，Y中的元素分别为xj＝accessReplicai，yj＝(accessReplicai，p)，1≤j≤k，1≤i≤d，其中，(accessReplicai，p)表示副本accessReplicai被节点p访问过一次，accessReplicai∈{accessReplica1，accessReplica2，…，accessReplicad}p∈{u，closeNode0，closeNode1，…closeNodeq}；X为核密度函数的样本，Y记录每次访问的节点和被访问的副本；
则利用核密度估计策略计算每个旧副本被访问的可能性的公式如下：

其中，H是参数，H＝h*ξ，其中，ξ＝hop+1，hop≤λ，h为一个大于零的常量；ξ用于调整H值；hop是用户节点和它的邻近节点之间的跳数；权值ωj满足 $Σ_{i = 1}^{n} ω_{j} = 1;$ K(·)是位于xj，i＝1，2，…，d的一个核函数。

说明书全文

技术领域

本发明属于计算机网络技术领域，涉及应用于动态低端网络中的一种基于核密度估计的副本选择方法。

背景技术

随着计算机网络技术的不断进步，网络表现出了强大的数据处理能力、并行数据传输功能以及内部元数据管理等优势。大量数据通过网络在全球范围内共享时，副本管理服务起到了非常重要的作用。副本管理技术可以在数据传输过程中减少网络延迟和带宽消耗。它主要包括：副本定位、副本选择和副本创建。
副本选择技术，是当网络中有很多个副本时，通过选择最合适的副本达到访问响应最快的目的。副本选择的关键问题是为每一个逻辑副本预测它对应的每个物理副本的响应时间。在低端网络中，数据的传输速率越快，副本的响应时间就越短。
目前，副本选择方法主要分为两种。一种是以副本性能为基础，通过预测副本的响应时间来选择副本的方法。例如X.Shen等人使用I/O模型来决定数据响应时间，但该方法非常复杂，很难准确地测量结果。
另外一种方法是基于历史信息预测响应时间的方法，这种方法被广泛采用。其中，由Wolski等人提出了一种端到端的基于历史信息的副本选择方法，但这种方法在使用GridFTP的实际文件传输中，并不能够准确地预测。而Vazhkudai和Schopf等人利用GridFTP日志数据制定了回归预测方法。Rashedur M.Rahman等人提出了一种使用k-Nearest Neighbor(KNN)原则的副本选择方法，然而，一个新加入网络的副本即使是最佳的节点也可能不会被选择，因为这种基于KNN的方法只从副本的历史数据中选择最佳节点，而新加入的副本没有足够的历史数据。另外，上面所述的所有方法都需要足够多的历史数据和存储空间。
此外，由Hu等人提出IBL 算法，可以利用少量的数据进行有效地副本选择。这种选择方法基于请求实例与训练实例之间的相似性。它使用欧氏距离计算两个实例之间的距离。还有另外一种基于开放的网络架构的策略GRESS。但这些方法都只适用于欧洲数据网格，而不适用于动态低端网络。

发明内容

本发明的目的是为解决如何从低端动态网络的多个副本中选择出最佳副本的问题，提出一种基于核密度估计的副本选择方法。本方法能够减少用户访问延迟和带宽消耗，利用少量历史数据选择最佳副本，提高系统整体性能。
为实现上述目的，本发明所采用的技术方案如下：
一种基于核密度估计的副本选择方法。
首先进行相关定义，具体如下：
定义1：请求访问文件的节点称为用户节点。
定义2：设置一个阈值λ，如果一个节点和用户节点之间的跳数小于λ，那么该节点就是与用户节点相近的节点，称其为用户节点的邻近节点。
定义3：设置一个时间阈值σ，如果一个副本的创建时间距当前时间的时间间隔小于σ或者该副本所在的节点在线时间小于σ，则该副本称为新副本；否则，该副本称为旧副本。
定义4：在ti时刻其它节点访问某一个节点上的副本的个数之和称为该被访问节点的网络负载，记为loadi。该节点的网络负载的历史数据记为{(t0，load0)，(t1，load1)，…，(tN，loadN)}。T为节点的总日志时间，T＝tN-t0。
定义5：令节点的预测的网络负载为predictLoad，且

predictLoad = \frac{1}{T} Σ_{i = 1}^{N} (t_{i} - t_{i - 1}) \times {load}_{i},

其中，T为节点的总日志时间，loadi表示ti时刻节点的网络负载。
在以上定义的基础之上，进行以下工作，其流程如图1所示：
设具有相同逻辑文件名的副本为{replica1，replica2，…，replican}，如果要为用户节点u从副本{replica1，replica2，…，replican}中选择出最佳副本，具体步骤如下：
步骤一、根据定义3，将网络中的副本分为旧副本和新副本。
即，在副本集{replica1，replica2，…，replican}中，如果其中某个副本replicai，1≤i≤n的创建时间距当前时间的时间间隔小于时间阈值σ，或者该副本所在的节点在线时间小于时间阈值σ，则此副本为新副本；否则，此副本为旧副本。照此方式，找出副本集中的所有旧副本和新副本。如果副本集中有旧副本，则对于所有旧副本，执行步骤二；如果副本集中只有新副本，则执行步骤三。
步骤二、采用核密度估计策略，根据历史数据预测出未来的网络带宽，从所有旧副本中选择出最佳旧副本。
对于有m个旧副本的副本集{oldReplica1，oldReplica2，…，oldReplicam}，对其中的每个旧副本oldReplicai，1≤i≤m，首先为每个旧副本所在的节点预测网络的可用带宽。优选采用以下方法实现：
节点u与节点v之间的可用带宽的计算公式如下：

available_bandwidth (u, v) = \frac{bandwidth (u, v)}{predictLoad} - - - (1)

其中，predictLoad为节点v的预测的网络负载，bandwidth(u，v)为节点u与节点v之间的网络带宽。预测的网络负载越大，可用带宽越小。利用公式(1)预测出每个旧副本的可用带宽，并记录为available_bandwidth(u，oi)，其中，oi是旧副本oldReplicai所在的节点。
然后，利用核密度估计策略，计算出每个旧副本被再次访问的可能性——1≤i≤m。优选采用以下方法实现：
根据定义2，确定出用户节点的所有邻近节点{closeNode0，closeNode1，…closeNodeq}。网络中被用户节点及它的邻近节点访问过的所有副本为{accessReplica1，accessReplica2，…，accessReplicad}。在给定的最近的t时间段内，X＝{x1，x2，…，xk}，Y＝{y1，y2，…，yk}。X，Y中的元素分别为xj＝accessReplicai，yj＝(accessReplicai，p)，1≤j≤k，1≤i≤d，其中，(accessReplicai，p)表示副本accessReplicai被节点p访问过一次，accessReplicai∈{accessReplica1，accessReplica2，…，accessReplicad}，p∈{u，closeNode0，closeNode1，…closeNodeq}。X为核密度函数的样本，Y记录每次访问的节点和被访问的副本。
则利用核密度估计策略计算每个旧副本被访问的可能性的公式如下：

其中，H是参数，H＝h*ξ，其中，ξ＝hop+1，hop≤λ，h为一个大于零的常量，取值尽量小，优选小于0.1。这是因为如果H过小，估计结果就会被噪声影响；如果H过大，估计结果就会过于平滑甚至趋于均匀分布。ξ用于调整H值。hop是用户节点和它的邻近节点之间的跳数。权值ωj满足

Σ_{i = 1}^{n} ω_{j} = 1 .

K(·)是位于xj，i＝1，2，…，d的一个核函数，例如，可以使用高斯核函数，公式如下：

K (u) = {(- 1)}^{r} H_{r} (u) \frac{1}{{(2 π)}^{\frac{d}{2}}} \exp (- \frac{1}{2} u) - - - (3)

其中，Hr(u)是Hermite多项式。
之后，对{oldReplica1，oldReplica2，…，oldReplicam}中的每个副本计算f(oldReplicai)，i∈{1，2，…，m}，计算公式如下：

其中，bandwidth为网络总带宽。
最后，根据得到的每个旧副本，以及旧副本中的最佳副本的计算公式，选择出最佳旧副本：

f (bestOldReplica) = \underset{i}{Max} (f ({oldReplica}_{i})), i \in {1,2, \cdot \cdot \cdot m} - - - (5)

完成后转到步骤三。
步骤三、判断是否有新副本。如果没有新副本，则转到步骤四；如果有新副本，则根据新副本所在节点当前带宽情况，选择出最佳新副本，优选采用以下方法实现：
假设有l个新副本{newReplica1，newReplica2，…，newReplical}，其中l＝n-m。在{newReplica1，newReplica2，…，newReplical}中计算g(yi)，g(yi)为节点yi(1≤i≤l)当前的可用带宽：

g (y_{i}) = \frac{bandwidth (u, y_{i})}{{cl}_{i}}, i \in {1,2, \cdot \cdot \cdot l} - - - (6)

其中，clt是节点yi的当前网络负载，yi(1≤i≤l)是副本newReplicai(1≤i≤l)所在的节点。
最佳新副本计算公式如下：

g (bestNewNode) = \underset{i}{Max} (g (y_{i})), i \in {1,2, \cdot \cdot \cdot l} - - - (7)

由此选择出在节点bestNewNode上的新副本为最佳新副本。然后执行步骤四。
步骤四、如果没有新副本，则步骤二选出的最佳旧副本为最佳副本；如果没有旧副本，则步骤三选出的最佳新副本为最佳副本；如果既有新副本，又有旧副本，则比较最佳旧副本的available_bandwidth(u，bestOldReplicai)值与最佳新副本的g(bestNewNode)的值，如果available_bandwidth(u，bestOldReplicai)的值大，则最佳旧副本为最佳副本；如果g(bestNewNode)值大，则最佳新副本为最佳副本。
有益效果
本发明对比现有技术，通过采用核密度估计策略，利用少量的历史数据选择最佳副本，有效的减少了用户访问延迟和带宽消耗，提高了网络的性能。本发明适用于动态低端网络，尤其是网络状态频繁变化的情况。
附图说明
图1为本发明方法的流程图。

具体实施方式

下面结合实施例对本发明做进一步说明。
实施例
假定当一个用户节点u请求一个逻辑资源LFN，网络中共有10个此逻辑资源的副本。
步骤一、根据定义3，设σ＝900s，将所有副本分为新副本和旧副本，其中包括2个新副本{newReplica0，newReplica1}和8个旧副本{oldReplica0，oldReplica1，…，oldReplica7}。计算每个新副本的当前网络负载，新副本newReplica0，newReplica1的当前网络负载分别为3、4；计算每个旧副本{oldReplica0，oldReplica1，…，oldReplica7}的预测网络负载predictLoad分别为5、6、10、2、5、8、3、6。
步骤二、首先为每个旧副本所在的节点预测网络的可用带宽，利用公式(1)预测每个旧副本的可用带宽并记录为available_bandwidth(u，oi)，i∈{0，1，…7}，其中，oi，0≤i≤7是旧副本oldReplicai，0≤i≤7所在的节点，u与oi，0≤i≤7之间的带宽依次为：800、500、1000、1000、500、1000、1000、1000；对应的available_bandwidth(u，oi)，0≤i≤7的值依次为160、83、100、500、100、125、333、167；其次，设λ＝3，依据λ得到用户节点的所有3个邻近节点{closeNode0，closeNode1，closeNode2}。用户节点和它邻近节点访问过的副本为{oldReplica0，oldReplica3，oldReplica6}。记录t＝4800s内的旧副本访问数据，Y为{(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，u)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica0，closeNode0)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，u)，(oldReplica3，closeNode0)，(oldReplica3，closeNode0)，(oldReplica2，closeNode0)，(oldReplica2，closeNode0)，(oldReplica2，closeNode0)，(oldReplica2，closeNode0)，(oldReplica2，closeNode0)，(oldReplica6，u)，(oldReplica6，u)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)，(oldReplica6，closeNode3)}核密度估计的样本X为

oldReplica0总共被访问21次，包括它被节点u访问9次、被节点closeNode0访问12次；oldReplica3总共被访问40次，包括它被节点访问u 33次、被节点closeNode0访问2次，被节点closeNode2访问5次；oldReplica6总共被访问44次，包括它被节点u访问2次，被节点closeNode242访问次。其它旧副本未被访问过。取h＝0.015，对于每一个旧副本oldReplicai，i∈{0，1，…7}利用核密度估计策略的计算公式得到其被再次访问的可能性最后，利用公式(4)计算f(oldReplicai)，i∈{0，1，…，7}，其中网络的总带宽bandwidth值为1000。f(oldReplica0)＝0.032，f(oldReplica3)＝0.44，f(oldReplica6)＝0.271，f(oldReplica1)＝f(oldReplica2)＝f(oldReplica4)＝f(oldReplica5)＝f(oldReplica7)＝0。利用公式(5)得到f(oldReplica3)，i∈{0，1，…，7}的值最大，则旧副本oldReplica3为最佳旧副本。
步骤三、对所有新副本{newReplica0，newReplica1}，利用公式(6)得到g(y0)＝333，g(y1)＝250，其中newReplica0所在的节点为y0；newReplica1所在的节点为y1。根据公式(7)，选择newReplica0为最佳新副本。
步骤四、比较g(y0)和available_bandwidth(u，o3)值，available_bandwidth(u，o3)的值大，因此确定oldReplica3为最佳副本。

标题	发布/更新时间	阅读量
一种分布式块存储的数据恢复方法、装置及存储介质	2020-06-12	1
国民价值链规划配置全息对接均衡表列技术	2022-08-13	0
基于工作流的通用软件测试过程模型的建立方法	2022-10-30	0
基于构件机械原理的机构运动虚拟实验仿真方法	2023-02-16	0
一种CDN网络中批量处理大量主机的方法及装置	2022-01-23	0
一种嵌入式设备的启动方法及软件升级方法	2023-06-14	1
一种基于人工智能的高校招生数据采集方法及系统	2020-07-12	1
一种连续页版式文档结构化信息提取方法	2020-05-30	0
一种用于数字内容共享的商业模式与方法	2020-09-10	1
Document validation mapping system and method	2022-09-13	0

一种基于核密度估计的副本选择方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：