首页 / 专利库 / 显示技术 / 混合现实 / 一种数据聚类方法

一种数据聚类方法

阅读:883发布:2020-05-12

专利汇可以提供一种数据聚类方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种数据聚类方法,该方法包括步骤1:获取原始样本;步骤2:通过原始样本随机生成新样本;步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;步骤4:对混合样本进行分类训练,并得到具有样本 节点 的分类模型;步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;步骤7:运用节点筛选 算法 ,筛选重要样本节点;步骤8:统计重要样本节点 覆盖 的样本,得到聚类的簇。该方法可生成具有局部相似性、可解释性的簇,该方法可更好的应用在现实的聚类问题当中。,下面是一种数据聚类方法专利的具体信息内容。

1.一种数据聚类方法,其特征在于,该方法包括以下步骤:
步骤1:获取原始样本;
步骤2:通过原始样本随机生成新样本;
步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;
步骤4:对混合样本进行分类训练,并得到具有样本节点的分类模型;
步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;
步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;
步骤7:运用节点筛选算法,筛选重要样本节点;
步骤8:统计重要样本节点覆盖的样本,得到聚类的簇。
2.如权利要求1所述的一种数据聚类方法,其特征在于,步骤1中原始样本包括待聚类的样本以及待处理数据的指定聚类目标数。
3.如权利要求2所述的一种数据聚类方法,其特征在于,所述步骤4中分类训练的算法为树分类算法。
4.如权利要求3所述的一种数据聚类方法,其特征在于,所述树分类算法具体包括以下步骤:
步骤41:将混合样本由根节点出发,选定一个特征及一个或多个划分点,将混合样本分为两份或多份子混合样本,并对应生成两个或多个子节点
步骤42:对每一个子节点选定一个特征及一个或多个划分点,将每一份子混合样本再次分成两份或多份;
步骤43;判断是否满足终止条件;若满足终止条件,则进入步骤45;若不满足终止条件,则进入步骤43;
步骤44:选定一个特征及一个或多个划分点,对混合样本进行进一步划分,并回到步骤
43;
步骤45;得到具有分类能的单树结构,并循环步骤41-43得到多个单树结构,组合形成多树结构。
5.如权利要求1所述的一种数据聚类方法,其特征在于,步骤5中的特征标记具体为:赋予每一个样本节点唯一编号。

说明书全文

一种数据聚类方法

技术领域

[0001] 本发明涉及数据处理领域,本发明特别涉及了一种数据挖掘方法。

背景技术

[0002] 伴随着大数据的蓬勃发展,数据的价值日益增大,挖掘数据背后的规律是商业竞争不可缺少的部分,数据挖掘已经成为当今各行各业不可缺少的技术。数据挖掘是指从大数据中,通过各类数据挖掘与机器学习的方法,挖掘分析得出数据背后的规律的方法。
[0003] 传统的聚类分析是基于计算数据的距离,从而得到不同的类别划分的聚类方法,是数据挖掘领域中的重要分支,属于无监督的机器学习方法。目前模式识别、机器学习、图像、语音及大数据及数据挖掘领域都广泛应用该技术。其中热的聚类算法包括:kmeans、DBSCAN、EM算法、层次聚类等,此类算法均基于数据距离进行计算,而聚类的类别结果均存在主观规定的参数,具有严重的不确定性和随机性。以kmeans为例,聚类类别个数基于人为主观判断,初始的类别中心点也具有很强的随机性。
[0004] 上述传统的聚类方法在实际应用中存在两个缺陷:1、全局相似性,使用数据的距离来进行数据聚类,而在现实中,真实的数据聚类其实是只需要局部相似即可聚为一类。2、不可解释性,聚类得出的簇的可解释性不足,使用人员往往难以根据聚类的结果理解簇的主要特点,难以刻画该簇。
[0005] 而实际应用中,大部分的聚类问题都不要求群体完全相似,而是希望获得“求同存异”(局部相似)、特征明显(可解释)的群体,故传统的聚类方法在实际问题中的应用与实际价值不大。

发明内容

[0006] 为了解决上述问题,本发明的目的在于提供一种数据聚类方法,该方法可生成具有局部相似性、可解释性的簇,该方法可更好的应用在现实的聚类问题当中。
[0007] 本发明的另一个目的在于提供一种实现简单、可靠性强、便于广泛推广的数据聚类方法。
[0008] 为了实现上述目的,本发明的技术方案如下。
[0009] 本发明提供一种数据聚类方法,该方法包括以下步骤:
[0010] 步骤1:获取原始样本;
[0011] 步骤2:通过原始样本随机生成新样本;所述新样本,也称衍生样本,此处样本随机生成算法指的是基于原始数据,用随机的方法生成新数据的方法。包括但不限于:随机法、洗牌法、基于统计学的样本生成方法、基于机器学习的样本生成方法等。通过以上方法,可生成与原始样本具有非常大差异的新样本,该样本集的特征间规律被破坏,而原始样本则保有特征间的规律。如:原始数据存在未知的特征A与特征B的潜在相关关系,随机样本则会将以上潜在规律破坏,再用这两组样本进行对比分析的时候即可得到规律差异。
[0012] 进一步的,随机法是指:应用随机的方法生成新样本的方法;
[0013] 进一步的,洗牌法是指:将样本的每一个特征进行洗牌从而得到新样本的方法;
[0014] 进一步的,基于统计学的方法泛指使用统计的方法生成新样本的方法;
[0015] 进一步的,基于机器学习的方法生成新样本的方法;
[0016] 进一步的,本发明此处声明的样本生成算法不限于以上的样本生成方法。
[0017] 步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;优先的,第一样本可以为正样本,第二样本可以为负样本,待聚类数据与新生成样本的数据标识不局限于正样本、负样本,凡标识为不同标识的方法均在本发明范围内。
[0018] 步骤4:对混合样本进行分类训练,并得到具有样本节点的分类模型;
[0019] 进一步的,训练是指基于给定的数据及目标,基于机器学习算法拟合出区分目标的模式方法;
[0020] 进一步的,树分类算法包括:决策树算法、随机森林算法、梯度下降分类树算法或其他以单颗或多颗树结构进行分类的机器学习算法;
[0021] 进一步的,树的每一个节点包含的信息有:达到该节点的路径及逻辑判断关系,该节点覆盖的待聚类样本及衍生样本。路径是指:要达到某节点,需要从根节点经过哪些节点,节点逻辑判断关系是指:从父节点子节点需要满足的逻辑判断条件,如:若某特征大于某个阈值,则样本到达父节点的左子节点,否则,样本达到右子节点。
[0022] 步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;
[0023] 步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;
[0024] 进一步,样本节点的路径是指:要达到某节点,需要从根节点经过哪些节点,如图2,样本节点7的路径为0->1->3->7;
[0025] 进一步的,样本节点的逻辑结构是指:要达到某节点,需要满足哪些特定的条件,如图2,样本节点7的逻辑结构是:A>0 and B>3 and(A>=5orA=空)。
[0026] 步骤7:运用节点筛选算法,筛选重要样本节点;
[0027] 进一步的,节点筛选算法包括:Lasso算法、树算法及基于统计的方法;
[0028] 进一步的,基于统计的方法指,基于每个节点的统计信息,对节点的待聚类样本、新生成样本的数量、纯度或覆盖度,或其衍生指标进行排序的方法。
[0029] 进一步的,计算每一个子节点的覆盖度=子节点待聚类样本数/待聚类样本总数,子节点纯度=子节点待聚类样本数/(子节点待聚类样本数+子节点衍生样本数)。
[0030] 步骤8:统计重要样本节点覆盖的样本,得到聚类的簇。
[0031] 进一步的,步骤1中原始样本包括待聚类的样本以及待处理数据的指定聚类目标数。其中所述待处理数据包括文本数据、用户数据或多媒体数据。
[0032] 进一步的,所述步骤4中分类训练的算法为树分类算法。
[0033] 进一步的,所述树分类算法具体包括以下步骤:
[0034] 步骤41:将混合样本由根节点出发,选定一个特征及一个或多个划分点,将混合样本分为两份或多份子混合样本,并对应生成两个或多个子节点;
[0035] 步骤42:对每一个子节点选定一个特征及一个或多个划分点,将每一份子混合样本再次分成两份或多份;
[0036] 步骤43;判断是否满足终止条件;若满足终止条件,则进入步骤45;若不满足终止条件,则进入步骤43;
[0037] 步骤44:选定一个特征及一个或多个划分点,对混合样本进行进一步划分,并回到步骤43;
[0038] 步骤45;得到具有分类能的单树结构,并循环步骤41-43得到多个单树结构,组合形成多树结构。上述步骤43中的终止条件包括但不限于:1、子节点样本数量低于阈值;2、子节点数到达阈值;3、树层数到达阈值;4、分裂带来的精度提升值低于阈值。
[0039] 其中,每一个节点包含的信息有:达到该节点的路径及逻辑判断关系,该节点覆盖的待聚类样本及衍生样本。路径是指:要达到某节点,需要从根节点经过哪些节点,节点逻辑判断关系是指:从父节点到子节点需要满足的逻辑判断条件,如:若某特征大于某个阈值,则样本到达父节点的左子节点,否则,样本达到右子节点。
[0040] 进一步的,步骤5中的特征标记具体为:赋予每一个样本节点唯一编号。
[0041] 本发明的有益效果在于,与现有技术相比,在本发明具有以下优势,[0042] 1、满足特定的逻辑结构;逻辑结构由有限个逻辑判断组成,该逻辑结构描述了簇的共性,为可理解的逻辑结构,较传统聚类的簇更易被解读;
[0043] 2、满足特定的纯度要求;高纯度的簇可以为强规律的簇,低纯度的簇可以为异常样本簇。分别可用于识别客群和异常样本。
[0044] 3、满足特定的局部相似;同时逻辑结构关联的样本特征数<=总特征数,使得该簇与传统聚类方法的簇相比不需要全特征下距离相近,而是局部特征相似。
[0045] 举例地,得到簇后,若簇的覆盖度高于20%,纯度高于80%,可定义为强规律客群,得到的逻辑规律则是捕捉及解释客户的规律,业务人员可根据规律定义来更好地定义该簇;若覆盖率低于5%,纯度低于5%,则该簇为异常随机簇,符合该簇的客户则可被定义为异常客户。附图说明
[0046] 图1是本发明一种数据聚类方法的流程图
[0047] 图2是本发明一种数据聚类方法中树分类算法的单树结构示意图。

具体实施方式

[0048] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0049] 为实现上述目的,本发明的具体实施例如下。
[0050] 本发明提供一种数据聚类方法,该方法包括以下步骤:
[0051] 步骤一:输入待聚类样本,样本为10000个客户数据,有45个特征,包含客户基础信息、行交易行为信息,输入聚类簇参数:强规律簇覆盖度:大于80%,纯度:大于80%,要求输出前10,弱规律簇覆盖度:小于10%,纯度:小于10%,要求输出前10;
[0052] 步骤二:应用洗牌法生成10000个新样本,具体为:对10000个客户第一个特征,进行洗牌,作为新客户的第一个特征,如此类推,得到10000个新客户的45个新特征;
[0053] 步骤三:待聚类样本标识为正样本,将生成的新样本标识为负样本,作为第46个特征,混合得到新的数据集合,得到20000万个客户,合计46个新特征。
[0054] 步骤四:应用梯度下降决策树算法进行分类,分类的目标变量为第46个特征,因变量为前45个特征,梯度下降决策树的参数为:迭代轮数:200,单树终止条件为:单树节点树不超过10;
[0055] 步骤五:对200轮迭代得到的200个树的节点进行覆盖度、纯度的统计,对每一个节点赋予唯一编号;得到合计2000个节点的覆盖度、纯度;
[0056] 步骤六:提取树的2000个节点的路径,基于路径,得到该节点的逻辑结构的逻辑结构;
[0057] 步骤七:对2000个节,应用Lasso算法,选取重要节点,得到重要节点310个;
[0058] 步骤八:通过纯度及覆盖度条件,筛选出强规则簇31个,弱规律簇46个。
[0059] 以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈