首页 / 专利库 / 资料储存系统 / 大数据 / 一种基于网格的密度峰值聚类方法及系统

一种基于网格的密度峰值聚类方法及系统

阅读:56发布:2024-01-03

专利汇可以提供一种基于网格的密度峰值聚类方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 提出一种基于网格的 密度 峰值聚类方法及系统,首先,将数据空间划分为等大小的矩形单元格,然后,分别将每个数据点映射到对应的单元格中,再统计每个单元格的数据信息,将每个单元格看作为一个数据点,最后使用密度峰值 算法 对单元格进行聚类。该方法不仅能够有效提高密度峰值算法的运行效率,很好地处理 大数据 集,发现任意形状的簇,有效处理高维数据,并能很好地处理噪声孤立点,具有很好地聚类效果。,下面是一种基于网格的密度峰值聚类方法及系统专利的具体信息内容。

1.一种基于网格的密度峰值聚类方法及系统,其特征在于,利用网格思想将数据空间划分为等大小的网格单元,然后对数据进行初始化聚类,将数据点映射到对应的网格单元中,并统计网格单元的数据信息,再将每个单元格看作为一个数据点,使用DPC算法对单元格进行聚类,得出聚类结果。
2.根据权利要求1所述的方法,其特征是,所述的数据集X={X1,X2,X3,……Xn}是一个n*d的矩阵,矩阵的每行表示一个数据点,每列表示一种属性,故这个数据集包含n个数据点,每个数据点有d种属性。
3.根据权利要求1所述的方法,其特征是,所述的初始化聚类是指:利用CLIQUE算法将数据空间每一维划分为等大小的网格单元,然后将所有数据点映射到对应单元格,并统计每个单元格的数据点个数作为此单元格的局部密度ρi。
4.根据权利要求1所述的方法,其特征是,所述的使用DPC算法对单元格进行聚包括:
步骤1:将划分好的网格单元看作为一个数据点;
步骤2:分别取每个单元格左下标计算两两单元格之间的距离,构成距离矩阵dij;
步骤3:利用公式 计算单元格与具有更高密度的最近单元格之间的
距离属性δi;
步骤4:根据上述所求的局部密度属性ρi和距离属性δi,绘制单元格决策图,取两个属性值都高的单元格作为聚类中心;
步骤5:采用最近邻算法进行剩余单元格的聚类,将当前点归于密度等于或者高于当前点的最近点一类;
步骤6:采用DPC算法中边界值方法,计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点。
5.一种实现上述任一权利要求所述方法的系统,其特征在于:网格划分模和密度峰值聚类模块,其中网格划分模块将每个数据点进行初步聚类,首先划分数据空间成等大小网格单元,然后将数据点映射到对应网格中,统计网格单元中数据点的个数;密度峰值聚类模块先求解出每个网格单元的δi,然后绘制决策图选择聚类中心,分配所有剩余的网格单元,去除噪声单元,输出聚类结果。

说明书全文

一种基于网格的密度峰值聚类方法及系统

技术领域

[0001] 本发明涉及模式识别机器学习领域,具体涉及一种基于网格的密度峰值聚类方法及系统。

背景技术

[0002] 聚类分析是非监督学习,其目标就是使同一类簇内样本的相似度较大,不同类簇之间样本的相似度较小。聚类分析是数据挖掘的一个活跃研究方向,在市场分析,模式识别,基因研究,图像处理等领域具有一定的应用价值。聚类算法大体可以分为基于划分、基于层次、基于模型、基于密度和基于网格等聚类算法
[0003] 基于网格的聚类算法性能好,效率高,运行时间独立于数据点的个数,只与划分区域中每一维的网格单元相关,对大数据集的分析处理具有较高的实用性,并且聚类的结果与输入数据的顺序无关,因而被广泛使用。但基于网格的聚类算法非常依赖于密度阈值的选择,对边缘网格中的噪音数据识别能较差。基于密度的聚类算法以数据集在数据空间中的分布密集程度为一定的依据进行聚类,同时聚类的形状没有基准,并且可以在需要的时候去除噪声数据,但是基于密度的聚类算法计算复杂度较高。基于网格的聚类算法虽然效率高,但是由于本质上的缺陷,聚类精度不高,所以只能看作一种压缩手段,与密度结合来提高聚类性能。而基于密度的聚类算法由于复杂度高的原因,也经常通过与网格结合来降低运算量,两者的结合可以有效提高运行效率。
[0004] 基于密度的DPC算法可以用于不同数据的聚类分析,不需要预先设定类簇数,可以根据决策图找出类簇中心,并能应用于任意形状的数据。但由于DPC算法需要提前计算所有点与点之间的距离,而当数据集越来越大时,尤其这是一个大数据时代,这种计算局部密度的方法需要花费一定的时间代价。

发明内容

[0005] 为了解决上述问题,本发明提出一种基于网格的密度峰值聚类方法及系统。首先,将数据空间划分为等大小的矩形单元格,然后,分别将每个数据点映射到对应的单元格中,再统计每个单元格的数据信息,将每个单元格看作为一个数据点,最后使用密度峰值算法对单元格进行聚类。该方法不仅能够有效提高密度峰值算法的运行效率,很好地处理大数据集,发现任意形状的簇,有效处理高维数据,并能很好地处理噪声孤立点,具有很好地聚类效果。
[0006] 本发明是通过以下方案实现的:
[0007] 本发明涉及一种基于网格的密度峰值聚类方法,以基于密度的DPC算法作为基础,在计算每个数据点的局部密度属性值时引入网格的思想,以减少计算量,提高运行效率。
[0008] 本发明具体步骤如下:
[0009] 步骤1:使用网格思想将S空间的每一维都划分成互不相交的等大小网格单元。
[0010] 步骤2:将每个数据点映射到对应的网格单元中。
[0011] 步骤3:统计每个网格单元中数据点的个数,作为这个单元格的局部密度ρi。
[0012] 步骤4:参考DPC算法,将单元格作为数据点,构成距离矩阵dij。
[0013] 步骤5:利用 计算单元格与具有更高密度的最近单元格之间的距离属性δi。
[0014] 步骤6:根据上述求出的局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的单元格作为聚类中心。
[0015] 步骤7:对剩余单元格进行聚类,将当前单元格归于密度等于或者高于当前单元格的最近单元格一类。
[0016] 步骤8:计算出当前类别的边界,然后找出边界中密度最高单元格的密度作为阈值,去除当前类别中小于此密度的单元格。
[0017] 通过以上内容可知,本申请提供的是一种基于网格的密度峰值聚类方法及系统,首先通过基于网格的CLIQUE算法对数据进行初始化聚类,将输入数据的区域空间分割成为等大小的网格矩形单元,然后将所有数据点映射到单元格,并统计每个单元格的数据信息。然后将每个单元格看作为一个数据点,使用DPC算法对单元格进行聚类。本申请不仅能够有效提高密度峰值算法的运行效率,很好地处理大数据集,发现任意形状的簇,有效处理高维数据,并能很好地处理噪声孤立点,具有很好地聚类效果。
附图说明
[0018] 为了对本发明进一步理解,更清楚地说明本发明实施例,下面将对实施例描述中所需要使用的附图作简单介绍。
[0019] 图1为本申请实施案例提供的一种基于网格的密度峰值聚类的流程图

具体实施方式

[0020] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施案例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0021] 实施例1
[0022] 如图1所示,本实施案例包括以下步骤:
[0023] 输入:数据集X={X1,X2,X3,......Xn},单元格局部密度参数dc,网格步长参数ξ。
[0024] 输出:聚类结果。
[0025] 步骤1,使用基于网格的CLIQUE算法对数据进行初始化聚类,将输入数据的区域空间分割成为等大小的网格矩形单元,然后将所有数据点映射到单元格,并统计每个单元格的数据信息。
[0026] 步骤1.1:设A={A1,A2,A3......An}是一个N维的集合,S=A1*A*A3......*An是一个N维空间,V={v1,v2,v3......vn},其中vi={vil,vi2......vin}并且vij∈Aj。根据不同数据集的数据分布,输入ξ参数,按ξ为步长将S空间的每一维都划分成互不相交的等大小网格单元。
[0027] 步骤1.2:然后将每个网格单元看作{u1,u2......un}。将数据点V={v1,v2,v3......vn}映射到u={u1,u2......un}单元中。
[0028] 步骤1.3:统计每个单元格u中数据点的个数,作为每个单元格的局部密度ρi。
[0029] 例如:点v1={2.2,2.3},v2={3.1,3.2},v3={2.5,2.9}。取ξ=1进行网格划分,此时v1,v3都划分至{2,2}网格中,v2划分至{3,3}网格中。所以网格{2,2}的密度ρ({2,2})=2,网格{3,3}的密度ρ({3,3})=1。
[0030] 步骤2,将每个单元格看作为一个数据点,使用DPC算法对单元格进行聚类。
[0031] 步骤2.1:参考DPC算法,将单元格作为数据点,分别取每个单元格左下标计算两两单元格之间的距离,构成距离矩阵dij,例如两个单元格左下标分别为a(x11,x12,...,x1n)和b(x21,x22,...,x2n),此单元格之间的欧氏距离如下:
[0032]
[0033] 步骤2.2:计算单元格与具有更高密度的最近单元格之间的距离属性δi,其计算公式如下:
[0034]
[0035] 步骤2.3:根据第一步的局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的单元格作为聚类中心。
[0036] 步骤2.4:采用最近邻算法进行剩余单元格的聚类,将当前点归于密度等于或者高于当前点的最近点一类。
[0037] 步骤2.5:采用DPC算法中边界值方法,计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点。
[0038] 步骤3:返回最终聚类结果。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈