专利汇可以提供基于数据相似的平衡聚类压缩方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于数据相似的聚类压缩方法。本发明通过分析文件数据,从文件提取特征指纹构造 特征向量 ,用于计算数据相似度,并利用带约束条件的图分割方法聚类输入文件集成多个均匀大小的类别,然后采用BMCOM等压缩方法对每个类别单独进行压缩,以去除类内部的冗余数据。本发明利用基于数据 采样 聚类方式,把具有较高可压缩性的关键数据作为样本数据,首先对样本数据进行聚类,然后通过稳定婚姻方法归类剩余数据,在不降低压缩效果的情况下可提高聚类效率。本发明可以作为一种压缩和归档方法应用到分布式存储系统中,能够克服已有方法的数据依赖和负载不均问题。,下面是基于数据相似的平衡聚类压缩方法专利的具体信息内容。
1、一种基于数据相似的平衡聚类压缩方法,其特征在于,包括以下步骤:
(1)文件特征向量提取,从文件数据中提取特征向量用于计算文件相似度。
(2)聚类样本选取,即从输入数据集D中选取部分数据作为样本数据集, 即样本数据集为S。
(3)样本数据聚类,利用平衡聚类方法聚类样本数据集S。
(4)剩余数据聚类,按照相似度归类剩余数据X=D-S,在满足负载均衡约 束的前提下,把剩余数据归入到最相似的类。
(5)结果压缩,对每个类别进行单独压缩,默认采用BMCOM压缩方法, 同时亦可采用各种成熟的DELTA压缩方法。
2、根据权利要求1所述基于数据相似的平衡聚类压缩方法,其特征在于,所述 步骤(1)具体为:
(A)选择一个窗口长度w和k个整数域上的独立置换函数{h1,h2,…, hk},每个置换函数相互独立。
(B)从前往后逐字节扫描输入文件f,利用高效的Rabin指纹函数,计算 当前滑动窗口内数据的指纹,记该指纹为fp,利用上述k个独立置换函数作用 于指纹fp,得到k个置换指纹h1fp),h2(fp),…,hk(fp),记文件f的特征向量 F(f)为{F1(f),F2(f),…,Fk(f)},特征向量的第i维Fi(f)等于第i个置换函数所 产生的置换指纹的最小值,即Fi(f)=MIN(Fi(f),hi(fp))。
(C)扫描完整个文件之后,可计算出文件的特征向量F(f),文件数据相似 度r(x,y)根据文件x和y的特征向量定义为| F(x)∩(y)|/|F(x)∪(y)|。
3、根据权利要求1所述基于数据相似的平衡聚类压缩方法,其特征在于,所述 步骤(2)具体为:
第一步,计算关键数据集,关键数据集KD的定义是存在高相似副本的文件 集合,即t是0到1之间的一个较大实数,关 键数据集的详细估算方法如下:
(a)选择一个正整数l和w,和一个随机哈希函数H。
(b)循环执行步骤c)和e)共l次。
(c)随机选择w个小于k的正整数{i1,i2,…,iw}。
(d)对于每个文件f,利用哈希函数H和特征向量F(f)的第i1,i2,…, iw维计算超级指纹sfp,即
(e)以sfp为关键字记录(sfp,f)到超级指纹哈希表SFT,即
SFT[sfp]=SFT[sfp]∪f}。
(f)扫描哈希表SFT,对于哈希表中的每个超级指纹sfp,计算集合SFT[sfp] 中数据的两两相似度,如果r(x,y)≥t,x,y∈D,那么x和y都属于关 键数据集,因此更新关键数据集KD为KD∪{x,y}。
第二步,计算超级数据,超级数据及样本数据集S的构建方法如下:
a)按照相似度r(x,y)排序关键数据集KD中的高相似文件对(x,y),得到 优先级队列Q。
b)循环执行步骤c)-g),直到队列Q为空。
c)从优先级队列Q中取出相似度最高的一对文件(x,y)。
d)产生一个超级数据v,v包含x和y两个文件,根据x和y的特征向量 计算v的特征向量F(v),F(v)的第i维Fi(v)等于MIN(Fi(x),Fi(y))。
e)对于队列中的包含x的文件对(x,z)或者包含y的文件对(y,z),计算相 似度r(v,z)。
f)如果v和任意z的相似度r(v,z)都小于t,那么v不可能再与其它数据合 并,加v到样本数据集S,即S=∪{v}。
g)否则,对于r(v,z)≥t的数据z,从队列Q中删除数据对(x,z)和(y,z), 并根据相似度r(v,z)加(v,z)到队列Q。
4、根据权利要求1所述基于数据相似的平衡聚类压缩方法,其特征在于,所述 步骤(3)具体为:
(A)根据样本数据集S构建相似图G,并满足如下条件:(i)V是顶点集, 任意v∈V对应到唯一的一个数据d(v)∈S;每个顶点v有一个权重WV(v),且 WV(v)=d(v).len;(ii)E是边集,任意(x,y)∈E都有一个权重WE(x,y),且WE(x, y)=r(d(x),d(y))。
(B)调用高效的图分割方法kmetis分割相似图G,并为设置kmetis设定 两个约束条件:
约束1:图分割方法需要删除相似图中的一些边,方法必须最小化删除边的 权重和,约束1要求分割出来的每个子图中的数据之间具有高相似度,而跨子 图数据之间只有低相似度。
约束2:分割方法还必须满足平衡约束条件,即平衡每个子图的顶点权重和。
5、根据权利要求1所述基于数据相似的平衡聚类压缩方法,其特征在于,所述 步骤(4)具体为:
记T(c)=Σd∈cd.len是类别c中包含的文件总大小,剩余聚类方法必须满足如 下两个条件之一:i)数据d被分配到最相似的类c;ii)如果还有其它类c′和 d更相似,那么T(c′)≥clustersize且c′中的任何数据d′满足sim(c′, d′)≥sim(c′,d),其中clustersize是类平均大小,sim(c′,d)代表数据d和类 c′的相似度,类相似度sim(C,d)定义如下:
剩余聚类方法基于稳定婚姻模型设计,其主要过程如下:
a)对于每个类Ci,根据类相似度sim(Ci,d)排序剩余X得到∏i,初始化类 Ci的剩余容量ri和∏i索引Ii。
b)执行步骤c),直到所有数据都已经归类。
c)在每次循环中,在总数据量不超过剩余容量ri的前提下,每个类Ci向∏i 中尽可能多的数据求婚,设d是被Ci求婚的任意数据,如果数据d还没有求婚 者,那么暂时许配d给Ci,如果数据d已有求婚者Cl而且sim(Ci,d)
所述BMCOM方法包括以下步骤:
a)连接类别c中的所有文件,组成输入数据d。
b)逐字节扫描输入数据d,执行步骤c)-h)。
c)计算当前Shingle的指纹fp,如果当前字节偏移整除L,保存fp到FT。
d)以fp为关键字查询哈希表FT,得到匹配指纹的候选Shingle。
e)然后,检查当前和所有候选Shingle,找出与当前Shingle真正匹配的候选 Shingle。
f)如果FT中没有匹配的Shingle,直接输出当前字节,继续扫描下一个字节。
g)否则,尝试双向扩展匹配长度,得到匹配起始地址start和匹配长度length。
h)最后编码冗余数据为
本发明涉及数据压缩、分布式存储归档与数据挖掘领域,特别是涉及一种 基于数据相似的平衡聚类压缩方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于Spark平台建立数据索引方法及数据查询方法 | 2020-05-08 | 458 |
一种基于光标签的车载服务推送系统及方法 | 2020-05-11 | 311 |
一种免疫层析检测的图像分析方法以及系统 | 2020-05-11 | 542 |
望远成像的装置及方法 | 2020-05-11 | 868 |
基于线激光扫描三维点云快速复合滤波处理方法 | 2020-05-08 | 849 |
文件备份方法、系统及具有该系统的客户端 | 2020-05-08 | 749 |
一种影片多版本整合存储和提取系统 | 2020-05-11 | 925 |
SAGD双水平井钻完井控制方法及装置 | 2020-05-08 | 951 |
一种基于微秒级定时的计算机精密裁切纸板系统及方法 | 2020-05-08 | 419 |
一种Cu表面激光增材制造梯度复合材料的方法 | 2020-05-08 | 379 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。