首页 / 专利库 / 换热器 / 传热 / 对流 / 基于分布式数据流的核密度估计离群点的检测方法

基于分布式数据流的核密度估计离群点的检测方法

阅读:872发布:2024-01-12

专利汇可以提供基于分布式数据流的核密度估计离群点的检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于分布式数据流的核 密度 估计离群点的检测方法,其包括以下步骤:步骤一, 对流 式数据集通过hash方式进行分布式存储,让数据尽量的分布均匀;步骤二,根据多粒度偏差因子定义新的核密度,并在其 基础 上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;步骤三,滑动窗口对局部 节点 的数据进行 采样 等。本发明能够通过hash方式进行分布式存储,让数据尽量的分布均匀,采用滑动窗口采样的方式进行计算,减少了计算量,减少离群点检测的误差。,下面是基于分布式数据流的核密度估计离群点的检测方法专利的具体信息内容。

1.一种基于分布式数据流的核密度估计离群点的检测方法,其特征在于,其包括以下步骤:
步骤一,对流式数据集通过hash方式进行分布式存储,让数据尽量的分布均匀;
步骤二,根据多粒度偏差因子定义新的核密度,并在其基础上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;
步骤三,滑动窗口对局部节点的数据进行采样
步骤四,对采样的数据进行总体的核密度估计,并记录离群点;
步骤五,最后不断的迭代以上步骤实现最小误差收敛,结束进程
2.如权利要求1所述的基于分布式数据流的核密度估计离群点的检测方法,其特征在于,所述步骤三采用两种滑动窗口对局部节点的数据进行采样,一、最新达到的n个样本数据,二、某段时间内达到的样本数据。

说明书全文

基于分布式数据流的核密度估计离群点的检测方法

技术领域

[0001] 本发明涉及一种核密度估计离群点的检测方法,特别是涉及一种基于分布式数据流的核密度估计离群点的检测方法。

背景技术

[0002] 对于流式处理数据进行核密度估计的时候,由于数据量很大,在实际的环境中往往都是分布式的方式进行存储,这个时候由于分布式的环境复杂,各个节点之间的网络通信的阻塞,带宽不均衡等原因,可以造成局部或则某个节点的数据分布的核密度估计离群点对于整体节点的分布而言是正常节点。那么这样基于局部的判断就是无效的。这个时候对于应该把局部数据汇聚到主节点作为整体的样本数据参与计算。但是由于数据量特别大,我采用采样的方式进行计算,采样的方式采用两种窗口方式进行采样。通过不断的迭代来减小误差来达到离群点的检测。

发明内容

[0003] 本发明所要解决的技术问题是提供一种基于分布式数据流的核密度估计离群点的检测方法,其能够通过hash方式进行分布式存储,让数据尽量的分布均匀,采用滑动窗口采样的方式进行计算,减少了计算量,减少离群点检测的误差。
[0004] 本发明是通过下述技术方案来解决上述技术问题的:一种基于分布式数据流的核密度估计离群点的检测方法,其包括以下步骤:
[0005] 步骤一,对流式数据集通过hash方式进行分布式存储,让数据尽量的分布均匀;
[0006] 步骤二,根据多粒度偏差因子定义新的核密度,并在其基础上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;
[0007] 步骤三,滑动窗口对局部节点的数据进行采样;
[0008] 步骤四,对采样的数据进行总体的核密度估计,并记录离群点;
[0009] 步骤五,最后不断的迭代以上步骤实现最小误差收敛,结束进程
[0010] 优选地,所述步骤三采用两种滑动窗口对局部节点的数据进行采样,一、最新达到的n个样本数据,二、某段时间内达到的样本数据。
[0011] 本发明的积极进步效果在于:本发明能够对于核估计函数的重新定义,重新估计样本离群点;对于大量整体样本的计算采用滑动窗口采样的方式进行计算,而不是全体数据的计算,减少了计算量;通过迭代方式的方式重复抽样局部节点数据可以达到概率上的收敛。附图说明
[0012] 图1为本发明的流程图

具体实施方式

[0013] 下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
[0014] 如图1所示,本发明基于分布式数据流的核密度估计离群点的检测方法包括以下步骤:
[0015] 步骤一,对流式数据集通过hash(散列)方式进行分布式存储,让数据尽量的分布均匀;
[0016] 步骤二,根据多粒度偏差因子定义新的核密度,并在其基础上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;
[0017] 步骤三,滑动窗口对局部节点的数据进行采样;
[0018] 步骤四,对采样的数据进行总体的核密度估计,并记录离群点;
[0019] 步骤五,最后不断的迭代以上步骤实现最小误差收敛,结束进程。
[0020] 所述步骤三采用两种滑动窗口对局部节点的数据进行采样,一、最新达到的n个样本数据,二、某段时间内达到的样本数据。n为自然数。
[0021] 以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈