专利汇可以提供一种基于密度的多层分步聚类方法专利检索,专利查询,专利分析的服务。并且本 发明 是根据普通的基于 密度 聚类 算法 提出的一种新的适用于数据分布非常不均匀,集群间密度差异大的聚类方法。该算法将每一个数据点当成一个 节点 ,将每个点之间的距离看成是图的边,将数据集看成一个全连通的无向加权图。算法中通过一种新的密度定义方式,定义每个数据点的密度已经所有数据点的平均密度。在现有的基于密度的聚类方法中存在一些常见的 缺陷 和不足:算法必须设置参数、算法的行为对起始对象的密度很敏感、相邻簇如果密度差异大则不能很好的进行区分,本发明提出的方法只需要一个给定的参数,在聚类的过程中遍历的初始对象的密度对算法的结果基本上没什么影响,并且该算法可以区分任意形状、任意密度、分布哪怕十分不均匀的相邻簇。,下面是一种基于密度的多层分步聚类方法专利的具体信息内容。
1.一种基于密度的多层分步聚类方法,其特征在于包括以下步骤:
步骤1,对于由n个待聚类j维数据:
X1(x11,x12…x1j),X2(x21,x22..x2j)…..Xn(xn1,xn2…xnl),将每个数据点看成一个节点,然后计算每两个节点之间的距离(欧氏距离),定义为相应节点之间的边的权值,这样一来就将整个数据集看成了一个全连通的无向加权图G(V,E);
步骤2,通过新的密度定义方式D(Xi,Xj)计算出整个数据集的平均密度;
步骤3,随机选取一个数据点开始遍历所有数据,计算当前数据点的密度;
步骤4,对比当前数据点的密度和平均密度,如果大于平均密度,则以该点为一个核心,向它周围的K个邻居遍历,如果邻居的密度也大于平均密度,则将其邻居也看做核心点,置于核心点的列队中,如果密度小于平均密度,则暂时将其看做噪声或是离群点,暂时不予处理;
步骤5,遍历步骤4中的核心点队列,重复步骤4中的算法,遍历到一个点的时候就将该点从队列中去除,直到一个队列的长度为0,至此一个簇的核心部分已经被侦测出来;
步骤6,通过密度相似度来判定簇的核心部分周围的数据点是否属于簇的一部分,如果相似度大于一个阈值,则将该点视为簇的边界点,小于阈值的视为噪点;
步骤7,重复步骤3-6,直到所有大于平均密度的点以及其周围的点都已经被分配完毕,这个时候有两种情况,一种是所有的簇都已经被发现,剩下未被分配的点全都视为噪点,另一种是该数据集是密度不均匀的数据集,有一些簇的密度很大,而有一些簇的密度很小;
步骤8,统计已经被分配的簇,计算每个已被分配簇的平均数据量,例如当前有a个簇已经被发现,并且当前有m个数据点已经被分配,则每个簇的平均数据量为ap=m/a;
步骤9,若当前剩余的数据量大于簇的平均数据量的二分之一,即:n–m>=ap/2,则视为还有密度较小的簇未被发现,重复步骤3-8,直到n–m
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。