首页 / 专利库 / 数学与统计 / 聚类算法 / 一种基于分段统计特征距离的聚类方法

一种基于分段统计特征距离的聚类方法

阅读:1034发布:2020-11-04

专利汇可以提供一种基于分段统计特征距离的聚类方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了 数据压缩 领域的一种基于分段统计特征距离的聚类方法,步骤一:将分段统计距离作为相似性度量;步骤二:通过k-中心点聚类 算法 生成模式模板;步骤三:从聚类结果的性能中提取学习最优权重向量Wopt,并引入宏-FI指标作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。本发明提供的一种基于分段统计特征距离的聚类方法能可以用于提升聚类的效果,使得反映电器相似工作状态的子序列可以被聚类到一起。并且,相比于基于DTW和DDTW的相似性度量,基于分段统计距离的相似性度量在模式发现方面有显著的效果提升。,下面是一种基于分段统计特征距离的聚类方法专利的具体信息内容。

1.一种基于分段统计特征距离的聚类方法,其特征在于:包括
步骤一:将分段统计距离作为相似性度量;从子序列中提取均值、线性拟合斜率和持续时间作为特征向量,通过加权欧几里德距离对提取的不同特征向量进行相似度匹配,并通过权重向量区别不同特征向量的表现度,使分段统计距离对有效信息敏感;
步骤二:通过k-中心点聚类算法生成模式模板;给定分段时间序列
以及少量标记的子序列 并将子序列作为标记样本,
通过聚类算法利用标记样本初始化聚类中心 从而输出预
测的聚类分区 以及最终相应的聚类中心cc;
步骤三:从聚类结果的性能中提取学习最优权重向量Wopt,并引入宏-FI指标作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。
2.根据权利要求1所述的一种基于分段统计特征距离的聚类方法,其特征在于:其中,步骤一包括:
S1:给定两个子序列S[i,j]、S[i′j′]和一个映射函数F(·),从子序列中S[i,j],S[i′,j′]分别提取功率均值 线性拟合斜率slope[i,j]、slope[i′,j′]持续时间τ[i,j]、τ[i′,j′],并生成特征向量V[i,j]与V[i′,j′];
其中,
S2:根据特征向量生成权重向量 并通过公式
计算S[i,j]与S[i′,j′]之间的分段统计距离;
其中 为特征向量的第i个元素的权重。
3.根据权利要求1所述的一种基于分段统计特征距离的聚类方法,其特征在于:步骤三包括,最优的决定权重值的问题转化为有约束的最优化问题的公式为:
4.根据权利要求1所述的一种基于分段统计特征距离的聚类方法,其特征在于:步骤三中,通过标记样本初始化聚类中心时,在迭代期间不改变聚类和这些标记样本之间的关系。

说明书全文

一种基于分段统计特征距离的聚类方法

技术领域

[0001] 本发明涉及数据压缩领域,具体涉及一种基于分段统计特征距离的聚类方法。

背景技术

[0002] 在智能用电网络中,对于用电数据时间序列的压缩表示是一个关键的问题。在线基于模式的近似表示是一种有效的解决方法,其中模式发现考虑到模式发现在很大程度上取决于相似性度量。具体来说,模式发现的目的是找到合适的模式模板来进行时间序列的近似表示,而选择合适的相似性度量对于模式发现具有重要的意义。
[0003] Lp-范数距离和动态时间规整(DTW)是两种常用的度量时间序列相似性的方法。
[0004] Lp-范数距离分别是曼哈顿距离、欧几里得距离和最大距离p=1、p=2、p→∞,并要求两个时间序列的维数相等。然而,实际的时间序列往往不能满足这个要求。
[0005] 与Lp-范数距离不同,动态时间规整基于动态规划,通过对时间序列指标的重新调整来计算距离,已经在许多领域得到成功应用。动态时间规整对时变和相移不敏感,但计算2
量大(O(n)),难以处理高维时间序列和高速数据流。此外,表现为一个时间序列上的单个点映射到另一个时间序列的大部分的不希望看到的行为″奇点″也困扰着动态时间规整。为了解决这个问题,文献″roceedings of the 2001 SIAM International Conference on Data Mining″(Keogh E J,Pazzani M J.Derivative dynamic time warping[C],Society for IndustriaI and Applied Mathematics,2001-1-11)提出了导数动态时间规整
(DDTW),但是它仅考虑数据的局部导数而不考虑原始数据,以找到正确的规整。
[0006] 技术方案
[0007] 为实现以上目的,本发明通过以下技术方案予以实现:
[0008] 一种基于分段统计特征距离的聚类方法,包括
[0009] 步骤一:将分段统计距离作为相似性度量;基于电器功率数据时间序列被分割得到的子序列中提取均值、线性拟合斜率和持续时间作为特征向量,通过加权欧几里德距离对提取的不同特征向量进行相似度匹配,并通过权重向量区别不同特征向量的表现度,使分段统计距离对有效信息敏感;
[0010] 步骤二:通过k-中心点聚类算法生成模式模板;给定分段时间序列以及少量标记的子序列 并将子序列作为标记样本,通
聚类算法利用标记样本初始化聚类中心
[0011] 从而输出预测的聚类分区
[0012] 以及最终相应的聚类中心cc;
[0013] 步骤三:从聚类结果的性能中提取学习最优权重向量Wopt,并引入宏-FI指标作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。
[0014] 进一步地,其中,步骤一包括:
[0015] S1:给定两个子序列S[i,j]、S[i′,j′]和一个映射函数F(·),从子序列中S[i,j],S[i′,j′]分别提取功率均值 线性拟合斜率slope[i,j]、slope[i′,j′]持续时间τ[i,j]、τ[i′,j′],并生成特征向量V[i,j]与V[i′,j′];
[0016] 其中,
[0017]
[0018] S 2 :根 据特 征向 量 生 成权 重向 量 并 通过 公式计算S[i,j]与S[i′,j′]之间的分段统计距离;
[0019] 其中 为特征向量的第i个元素的权重。
[0020] 进一步地,步骤三包括,最优的决定权重值的问题转化为有约束的最优化问题的公式为:
[0021] 进一步地,步骤三中,通过标记样本初始化聚类中心时,在迭代期间不改变聚类和这些标记样本之间的关系。
[0022] 有益效果
[0023] 采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
[0024] 本发明提出分段统计距离(PSD)作为模式发现和子序列分类的相似性度量指标。相比于基于DTW和DDTW的相似性度量,基于分段统计距离的相似性度量在模式发现方面有显著的效果提升,还可以用于提升聚类的效果,
附图说明
[0025] 为了更清楚地说明本发明实施例现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026] 图1为本发明为基于分段统计距离的约束k-中心点种子算法代码图;
[0027] 图2为图1中代码符号说明图;

具体实施方式

[0028] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029] 下面结合实施例对本发明作进一步的描述。
[0030] 一种基于分段统计特征距离的聚类方法,包括
[0031] 步骤一:将分段统计距离作为相似性度量;基于电器功率数据时间序列被分割得到子序列,考虑到均值、线性拟合斜率和持续时间是能够区分电器各种工作状态的三个最重要和最基本的特征 ,选择这三个特征作为特征向量的组成部分 ,即:因此,从子序列中提取均值、线性拟合斜率和持续时间
等多个统计特征作为特征向量,通过加权欧几里德距离对提取的不同特征向量进行相似度匹配,并通过权重向量区别不同特征向量的表现度,使分段统计距离对有效信息敏感。
[0032] 模式发现是对于时间序列的在线基于模板的近似表示的准备。前者可以为后者提供适当的模式模板,从而可以将在线子序列分类为正确的模式模板。
[0033] 对于模式模板的生成,通常的想法是利用基于距离的聚类技术,如k-means或k-中心点法,并选择聚类中心作为模式模板。另外,在大多数情况下,半监督聚类方法比无监督聚类方法更加鲁棒和准确,因此可以利用标记数据等额外信息来提高聚类性能。
[0034] 对于功率曲线等电器时间序列,基于分段统计距离的聚类算法的理想性能是:反映电器相似的工作状态,例如设备开启、设备关闭以及各种工作状态的相似的子序列可以被聚类在一起。
[0035] 聚类和分类的有效性都取决于距离测度,本专利中的分段统计距离便是距离测量的一种。由于分段统计距离是基于加权欧氏距离的,其性能会受到权值的显著影响,因此权值的训练是关键步骤。
[0036] 步骤二:结合图1-2,将基于分段统计距离的约束种子k-中心点法作为模式模板生成的聚类方法。给定分段时间序列 以及少量标记的子序列并将子序列作为标记样本,其中 是被标注为类ic的子序列。通过
聚类算法利用标记样本初始化nc聚类中心 在迭代期间
不改变 聚类 和这些 标记 样本之 间的关 系。从而输 出预 测的聚 类分区
以及最终相应的聚类中心cc。
[0037] 使用k-中心点法代替其他集群方法(如k-means)的主要原因是:由k-中心点法创建的集群中心将被严格地从集群成员中选择出来。这一性质为根据相应的模式模板来重构近似子序列带来了方便。
[0038] 步骤三:最优权重向量Wopt可以从聚类结果的性能中学习。因此为了介绍相应的最优化方法,引入了机器学习中的宏-FI指标(macro-FI)作为聚类一个性能度量指标,将最优的决定权重值的问题转化为有约束的最优化问题。
[0039] 进一步地,其中,步骤一包括:
[0040] S1:给定两个子序列S[i,j]、S[i′,j′]和一个映射函数F(·),从子序列中S[i,j],S[i′,j′]分别提取功率均值 线性拟合斜率slope[i,j]、slope[i′,j′]持续时间τ[i,j]、τ[i′,j′],并生成特征向量V[i,j]与V[i′,j′];
[0041] 其中,
[0042]
[0043] S 2 :根 据特 征向 量 生成 权 重向 量 并 通过 公式计算S[i,j]与S[i′,j′]之间的分段统计距离;
[0044] 其中 为特征向量的第i个元素的权重,可以从训练数据集的子序列匹配的反馈中学习到。
[0045] 进一步地,步骤三包括,最优的决定权重值的问题转化为有约束的最优化问题的公式为: 便可以通过一些常用的有约束的最优化策略来解决。
[0046] 本发明提出将分段统计距离(PSD)作为相似性度量以及基于分段统计距离特征的聚类方法,可以用于提升聚类的效果,使得反映电器相似工作状态的子序列可以被聚类到一起。并且,相比于基于DTW和DDTW的相似性度量,基于分段统计距离的相似性度量在模式发现方面有显著的效果提升。
[0047] 在本说明书的描述中,参考术语″一个实施例″、″示例″、″具体示例″等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0048] 以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈