首页 / 专利库 / 视听技术与设备 / 均值漂移过程 / 一种时间序列概念漂移检测方法、系统、介质及设备

一种时间序列概念漂移检测方法、系统、介质及设备

阅读:522发布:2020-05-13

专利汇可以提供一种时间序列概念漂移检测方法、系统、介质及设备专利检索,专利查询,专利分析的服务。并且本公开提供了一种时间序列概念漂移检测方法、系统、介质及设备,对获取的原始时间序列 信号 ,采用基于极值对称延拓的经验模态分解方法进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量;通过模糊熵对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量;采用基于广义似然比检验的非参数统计过程控 制模 型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大 自由度 ,将所述最大自由度与预设控制 阈值 进行比较来确定是否有均值、方差或者两者的漂移出现;从不同 频率 的时域特征 角 度实现了对概念漂移的检测。,下面是一种时间序列概念漂移检测方法、系统、介质及设备专利的具体信息内容。

1.一种时间序列概念漂移检测方法,其特征在于,步骤如下:
对获取的原始时间序列信号,采用基于极值对称延拓的经验模态分解方法进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量;
通过模糊熵对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量;
采用基于广义似然比检验的非参数统计过程控制模型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大自由度,将所述最大自由度与预设控制阈值进行比较来确定是否有均值、方差或者两者的漂移出现。
2.如权利要求1所述的时间序列概念漂移检测方法,其特征在于,基于极值对称延拓的方法具体为:在进行时间序列信号的三次样条差值之前,先判断端点处的极大值、极小值与端点的信息,然后分别在两端数据处理进行极值对称延拓,再对数据进行上下包络,在完成经验模态分解之后,舍弃两端,只保留中间原始数据的部分,将拟合产生的端点效应限制在信号端点之外。
3.如权利要求1所述的时间序列概念漂移检测方法,其特征在于,采用模糊隶属度函数进行模糊熵的计算,以确保时间序列信号本身的自相似性值最大。
4.如权利要求1所述的时间序列概念漂移检测方法,其特征在于,对固有模态分量进行模糊熵转换时按照流式数据进行输入,通过为时间序列信号设置滑动窗口,每当有新的观测值进入,滑动窗口向前移动一个单位。
5.如权利要求4所述的时间序列概念漂移检测方法,其特征在于,广义似然比检验中包括两个数组,分别为整个数据的和以及与移动均值之间的平方偏差,进行广义似然比检验的最大自由度计算时,设定滑动窗口为M,每当一个新的观测值到达时,重新进行整个数据的和以及与移动均值之间的平方偏差计算,然后从存储整个数据的和以及与移动均值之间的平方偏差的两个数组移除一个最久的元素,并将这个最新的值添加进去,广义似然比检验的计算范围限制为更新后的M个数据中。
6.如权利要求1所述的时间序列概念漂移检测方法,其特征在于,所述非参数统计过程控制模型的控制过程如下:
当连续的观测值个数达到预先设定好的数目后,开始计算广义似然比函数的最大自由度;
如果广义似然比检验的最大自由度小于或者等于预设阈值时,判定没有充分的证据说明数据流中出现均值、方差或者两者的漂移。
如果广义似然比检验的最大自由度大于预设阈值时,判定数据流中出现了均值、方差或者两者的漂移。
7.如权利要求6所述的时间序列概念漂移检测方法,其特征在于,所述预设阈值根据所选取的时间序列的平均链长进行确定,并采用预先设定的平均链长与预设阈值的对应关系包进行预设阈值的选择。
8.一种时间序列概念漂移检测系统,其特征在于,包括:
数据分解模,被配置为:对获取的原始时间序列信号,采用基于极值对称延拓的经验模态分解方法进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量;
模糊熵转换模块:被配置为:通过模糊熵对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量;
概念漂移检测模块,被配置为:采用基于广义似然比检验的非参数统计过程控制模型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大自由度,将所述最大自由度与预设控制阈值进行比较来确定是否有均值、方差或者两者的漂移出现。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-
7任一项所述的时间序列概念漂移检测方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的时间序列概念漂移检测方法中的步骤。

说明书全文

一种时间序列概念漂移检测方法、系统、介质及设备

技术领域

[0001] 本公开涉及时间序列概念漂移检测技术领域,特别涉及一种时间序列概念漂移检测方法、系统、介质及设备。

背景技术

[0002] 本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术
[0003] 时间序列的研究在实际生活中具有很强的理论意义和应用价值,由于它的实际重要性,对于时间序列的研究广泛存在于金融、工程、医学等领域。从时间序列中进行学习时,可能会由于一些外界的干涉,目标概念会随着时间的推移而发生改变,如一个癫痫病患者在发病前与发病时的心电图数据的模式就不相同,所以就会导致对于之前时间序列的模式与当前的模式出现差异,进而基于之前数据学习得到的算法或者模型就无法适应当前的状况,所以对于概念漂移的检测是极为重要的。因此,概念漂移日渐成为机器学习中一个备受关注的领域。
[0004] 正是由于概念漂移检测的重要性,近年来对于概念漂移检测的研究有很多实际应用和理论成果。概念漂移检测方法可以分为两种,一类是显式检测方法  (explicit detection methods)或者叫监督式检测方法,另一类是隐式检测方法  (Implicit detection methods)或者叫非监督式检测方法。从概率的度来看,显示检测方法将概念漂移看作是样本数据X和它对应的标签Y的联合概率分布 P(X,Y)的变化,而隐式检测方法则是跟踪样本数据概率分布P(X)的变化。从另一个角度来看,对于显示检测方法来说,这类方法通常需要基学习器用于处理分类问题,通过监测基学习器分类的性能指标(如分类错误率)是否达到某个阈值来间接检测漂移是否发生。这类方法在应对概念漂移时,它们通常是丢弃之前的基学习器,然后用一个新的基学习器取而代之,或者对于一些集成学习的方法,则会根据每个基学习器的性能指标的表现来决定是否增加新的基学习器,或者调整它们对应的权重。隐式的检测方法不需要数据的标注,这类方法通过对数据的特征进行提取和转换,从新的角度进行监测数据特征的变化从而达到概念漂移检测的目的。这类方法通常会监测数据的统计学特性的变化,数据分布变化,或者以某种度量指标来检测数据的变化。
[0005] 本公开发明人在研究中发现,虽然概念漂移得到了很多关注,但是多数研究都是基于分类问题的,只有少部分专研究时间序列的概念漂移,主要原因如下:(1)多数概念漂移检测的算法都是基于检测分类器的性能指标,而时间序列数据在真实的环境中很难去进行标注,所以ground truth(训练集对监督学习技术的分类的准确性)也是一个无法避免的问题;(2)时间序列数据具有时间上的依赖性,而很多概念漂移检测方法都需要对数据的分布提出假设,或者是要求数据是独立同分布的,所以由于时间序列数据的特殊性,就无法直接应用其他现有模型;(3)真实环境中,时间序列中由于存在噪声或者异常的影响,得到的数据也很难直接用来学习。

发明内容

[0006] 为了解决现有技术的不足,本公开提供了一种时间序列概念漂移检测方法、系统、介质及设备,从不同频率的时域特征角度实现了对概念漂移的检测。
[0007] 为了实现上述目的,本公开采用如下技术方案:
[0008] 本公开第一方面提供了一种时间序列概念漂移检测方法。
[0009] 一种时间序列概念漂移检测方法,步骤如下:
[0010] 对获取的原始时间序列信号,采用基于极值对称延拓的经验模态分解方法 (EMD)对原始时间序列信号进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量(IMF);
[0011] 通过模糊熵对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量;
[0012] 采用基于广义似然比检验的非参数统计过程控制模型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大自由度,将所述最大自由度与预设控制阈值进行比较来确定是否有均值、方差或者两者的漂移出现。
[0013] 作为可能的一些实现方式,基于极值对称延拓的方法具体为:在进行时间序列信号的三次样条差值之前,先判断端点处的极大值、极小值与端点的信息,然后分别在两端数据处理进行极值对称延拓,再对数据进行上下包络,在完成 EMD分解之后,舍弃两端,只保留中间原始数据的部分,将拟合产生的端点效应限制在信号端点之外。
[0014] 作为可能的一些实现方式,采用模糊隶属度函数进行模糊熵的计算,以确保时间序列信号本身的自相似性值最大。
[0015] 作为可能的一些实现方式,对固有模态分量进行模糊熵转换时按照流式数据进行输入,通过为时间序列信号设置滑动窗口,每当有新的观测值进入,滑动窗口向前移动一个单位。
[0016] 作为进一步的限定,广义似然比检验中包括两个数组,分别为整个数据的和以及与移动均值之间的平方偏差,进行广义似然比检验的最大自由度计算时,设定滑动窗口为M,每当一个新的观测值到达时,重新进行整个数据的和以及与移动均值之间的平方偏差计算,然后从存储整个数据的和以及与移动均值之间的平方偏差的两个数组移除一个最久的元素,并将这个最新的值添加进去,广义似然比检验的计算范围限制为更新后的M个数据中。
[0017] 作为可能的一些实现方式,所述非参数统计过程控制模型的控制过程如下:
[0018] 当连续的观测值个数达到预先设定好的数目后,开始计算广义似然比函数的最大自由度;
[0019] 如果广义似然比检验的最大自由度小于或者等于预设阈值时,判定没有充分的证据说明数据流中出现均值、方差或者两者的漂移。
[0020] 如果广义似然比检验的最大自由度大于预设阈值时,判定数据流中出现了均值、方差或者两者的漂移。
[0021] 作为进一步的限定,所述预设阈值根据所选取的时间序列的平均链长进行确定,并采用预先设定的平均链长与预设阈值的对应关系包进行预设阈值的选择。
[0022] 本公开第二方面提供了一种时间序列概念漂移检测系统。
[0023] 一种时间序列概念漂移检测系统,包括:
[0024] 数据分解模,被配置为:对获取的原始时间序列信号,采用基于极值对称延拓的经验模态分解方法进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量;
[0025] 模糊熵转换模块:被配置为:通过模糊熵对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量;
[0026] 概念漂移检测模块,被配置为:采用基于广义似然比检验的非参数统计过程控制模型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大自由度,将所述最大自由度与预设控制阈值进行比较来确定是否有均值、方差或者两者的漂移出现。
[0027] 本公开第三方面提供了一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现本公开所述的时间序列概念漂移检测方法中的步骤。
[0028] 本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现本公开所述的时间序列概念漂移检测方法中的步骤。
[0029] 与现有技术相比,本公开的有益效果是:
[0030] 1、本公开采用基于极值对称延拓的经验模态分解方法对原始时间序列信号进行分解,极值对称延拓基于端点效应产生原因,通过提出极值点对称延拓,可以抑制信号在端点处产生上下包络线的发散现象,防止原始数据失真,除此之外,在保证效果的前提下,极值延拓方法的计算速度快,占用储存空间小,从而实现更好地对数据信号的实时处理与分析。
[0031] 2、本公开所述的内容通过引入模糊隶属度函数进行模糊熵的计算,可以确保模糊熵值稳定而不发生突变,同时也确保了序列本身的自相似性值最大,另外,其参数的改变对结果的影响很小,所以可以使得本实施例所述的方法的鲁棒性更强。
[0032] 3、当时间序列的幅度、结构等信息发生变化时,直接从原始信号中进行提取信息会存在噪声的干扰,并且不能捕捉到时间序列不同频率时域的分量变化,所以为了量化时间序列复杂度的变化以及从不同频率的角度进行监测,本公开先通过极值对称延拓EMD根据时间序列的局部特征进行自适应分解,得到不同频域的IMF,再通过熵对IMF进行粗粒化处理,相比于直接监测原始时间序列,通过监测IMF-Entropy则更容易,从而实现了从不同频率的时域特征角度监测时间序列的变化。
[0033] 4、当时间序列发生概念漂移之后,经过对称延拓EMD分解后得到的两段高低频IMF的时间序列结构以及复杂度发生了变化,并且高频IMF对于时间序列的改变更为敏感,低频则会有一段时间的延迟,高频IMF的熵的变化要先于低频IMF,高频IMF对原始数据的变化更加敏感,低频IMF则会需要一定的时间延迟后才能捕捉到变化,这样的机制对于一些原始数据中出现的异常或者噪声就可以起到一定的过滤作用,因此相比于直接对原始时间序列进行概念漂移检测,检测原始序列经过分解以及熵转换后的结果要效果更好,并且具有更高的鲁棒性。
[0034] 5、本公开所述的内容通过GLR统计过程控制的方法,有效的实现了对经过IMF-信息熵转换后的数据的均值、方差或者两者发生的变化,通过GLR统计测试可以找出使得GLR统计量最大的断点,然后通过比较GLR统计量与预先设定好的控制阈值快速的实现了是否达到出现漂移的条件的判断。
[0035] 6、本公开所述的方法遗漏预警的个数几乎为零,提高了概念漂移检测的准确度,极大的降低了遗漏预警在实际生产生活中的危害和影响,具有极强的实际意义。附图说明
[0036] 图1为本公开实施例1介绍的时间序列概念漂移检测方法的流程框图
[0037] 图2为本公开实施例1介绍的两段自回归过程组成的时间序列。
[0038] 图3为本公开实施例1介绍的模糊熵对IMF1和IMF2的转换结果。
[0039] 图4为本公开实施例1介绍的数据流中预警样式示意图。

具体实施方式

[0040] 应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0041] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0042] 实施例1:
[0043] 如图1所示,本公开实施例1提供了一种时间序列概念漂移检测方法,步骤如下:
[0044] 对获取的原始时间序列信号,采用基于极值对称延拓的经验模态分解方法 (EMD)对原始时间序列信号进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量(IMF);
[0045] 通过模糊熵对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量;
[0046] 采用基于广义似然比检验的非参数统计过程控制模型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大自由度,将所述最大自由度与预设控制阈值进行比较来确定是否有均值、方差或者两者的漂移出现。
[0047] 具体步骤如下:
[0048] (一)对获取的原始时间序列信号,采用基于极值对称延拓的经验模态分解方法(EMD)对原始时间序列信号进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量(IMF),具体为:
[0049] EMD是一种将信号分解为特征模态的方法,EMD依据数据自身的时间尺度特征来进行信号分解,得到的IMF的每个组成部分都有明确的物理意义,并包含一定的时间尺度特征范围。EMD可以用于分析非线性、非平稳的信号序列,具有很高的信噪比与时频聚焦性。除此之外,EMD方法具有较强的局部代表性,是一种较有效的处理时间非稳态信号的方法。正是由于EMD的优点,所以EMD 常常用于医学数据、工业生产、金融衍生品时间序列等领域数据的分析。
[0050] EMD是一个不断迭代的过程中,每个特征模态函数都需要经过多次筛选 (sifting),每次筛选的过程中,都需要根据上下包络计算出信号的局部平均值,而上下包络是根据对信号的局部极大值或者极小值通过三次样条差值得到的,由于信号的端点处不可能同时处于极大值或者极小值,所以就会导致上下包络在端点处发散,这类似于小波变化中的边界效应,在EMD中同样受到端点效应的影响,并且这种发散的结果会逐渐向内污染数据而导致结果失真。
[0051] 本实施例采用了极值对称延拓的方法,其基本思想是,在进行信号的三次样条差值之前,先判断端点处的极大值、极小值与端点的信息,然后分别在两端数据处理进行极值对称延拓,再对数据进行上下包络,在完成EMD分解之后,舍弃两端,只保留中间原始数据的部分,将拟合产生的端点效应限制在信号端点之外,步骤如下:
[0052] (1)以X(t),t=1,2,...,n表示一段时间序列,X(t)包含M个极大值和N个极小值,记它们的索引为Im(i),i=1,2,...,M和In(i),n=1,2,...,N,对应的极大值和极小值为U=X(Im(i)),i=1,2,...,M和V=X(In(i)),i=1,2,...,N。
[0053] (2)从左边开始延拓,当Im(1)<In(1)时,如果左端点的数值比第一个极小值大,即X(1)>V(1),则以极大值点Im(1)作为对称中心向左延拓n个单位,得到延拓序列的时间和数值为:
[0054] t=2Im(1)-t(i),i=Im(1)+1,...,n  (1)
[0055] X(t)=X(i),i=n,...,Im(1)+1  (2)
[0056] (3)当信号In(1)<Im(1)时,如果左端点的数值比第一个极大值小,即 X(1)<U(1),则以极小值点In(1)作为对称中心向左延拓n个单位,得到的延拓序列的时间和数值为:
[0057] t=2In(1)-t(i),i=In(1)+1,...,n  (3)
[0058] X(t)=X(i),i=n,...,In(1)+1  (4)
[0059] (4)当X(1)<V(1)或者X(1)>U(1)时,则以左端点作为对称中心向左延拓n个单位,得到的延拓序列的时间和数值为:
[0060] t=2t(1)-t(i),i=2,...,n  (5)
[0061] X(t)=X(i),i=n,...,2  (6)
[0062] (5)以相同方式对右端点处进行延拓。
[0063] (6)找出延拓后的序列X(t)中的全部的局部极大值点和局部极小值点,然后通过三次样条函数拟合出极大值点的上包络线u(t)和极小值点的下包络线 d(t),使得原始序列处于上下包络线之间,并计算上下包络线构成的均线m(t),再用原始序列减去,得到新的序列h(t),即:
[0064] m(t)=(u(t)-d(t))/2  (7)
[0065] h(t)=X(t)-m(t)  (8)
[0066] (7)检查得到的h(t)是否满足IMF的标准,如果不满足就需要用h(t)代替 X(t),重复上面第6步,直到h(t)满足IMF的标准。
[0067] (8)将第步骤(7)得到的h(t)与X(t)做差,结果表示为残差r(t),将得到的残差r(t)代替原始序列X(t),重复步骤(6)和步骤(7)n次,直到得到的第n 次残差满足为单调函数时结束。这样,原始时间序列X(t)就被表示为了下面的形式:
[0068]
[0069] (9)删除延拓部分的数据,只保留中间原始部分分解得到的数据。
[0070] 极值延拓方法基于端点效应产生原因,通过提出极值点对称延拓,可以抑制信号在端点处产生上下包络线的发散现象,防止原始数据失真,除此之外,在保证效果的前提下,极值延拓方法的计算速度快,占用储存空间小,从而实现更好地对数据信号的实时处理与分析。因此,在本实施例中采用极值延拓对称的EMD被用来对原始时间序列进行分解。
[0071] (二)通过模糊熵(FuzzEn)对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量,具体为:
[0072] 为了克服样本熵定义的局限性引入了指数函数,也就是模糊隶属度函数,用来衡量两个序列的相似度,由于模糊隶属度函数是连续的,所以确保了模糊熵值是稳定而且不发生突变,同时也确保了序列的自相似性值最大。另外,模糊熵的参数改变对时间序列复杂度的结果影响很小,它的求法如下:
[0073] (1)设有长度为N的时间序列u(1),u(2),...u(N),设定一个用于相似度比较的阈值r,再确定一个划分子序列长度的度量m。
[0074] (2)将原序列进行重构,得到N-m+1个子序列X(1),X(2),...,X(N-m+ 1)。其中,X(i)=[u(i)-u0(i),u(i+1)-u0(i),....,u(i+m-1)-u0(i)],其中
[0075] (3)计算两个重构向量X(i)和X(j)之间的距离 其中i≠j。
[0076] (4)引入模糊隶属度函数:
[0077]
[0078] (5)计算第i个隶属度的平均值:
[0079]
[0080] (6)计算计算以m为划分长度时的平均相似率:
[0081]
[0082] (7)按照步骤1)-6),求得m+1时的φm+1(r)。
[0083] (8)计算模糊熵:
[0084] FsEn(N,m,r)=lnφm+1(r)-lnφm(r)  (13)
[0085] 由于模糊隶属度函数的引入,可以确保模糊熵值稳定而不发生突变,同时也确保了序列本身的自相似性值最大。另外,其参数的改变对结果的影响很小,所以可以使得本实施例所述的方法的鲁棒性更强。
[0086] 当时间序列的幅度、结构等信息发生变化时,直接从原始信号中进行提取信息会存在噪声的干扰,并且不能捕捉到时间序列不同频率时域的分量变化,所以为了量化时间序列复杂度的变化以及从不同频率的角度进行监测,先通过极值对称延拓EMD根据时间序列的局部特征进行自适应分解,得到不同频域的 IMF,再通过熵对IMF进行粗粒化处理,从而实现了从不同频率的时域特征角度监测时间序列的变化。
[0087] 下面用两段自回归过程xt=1.5xt-1-0.4xt-2-0.3xt-3+0.2xt-4+wt和xt=-0.1xt-1+1.2xt-2+0.4xt-3-0.5xt-4+wt创建了一段时间序列数据,如图2所示。
[0088] 其中,每段自回归模型的长度为2000,分别代表两段不同的时间序列,通过结合两段数据来模拟概念漂移的过程,不同的概念用不同的颜色进行展示。由于两段时间序列的走势和波动类似,所以直接对原始数据进行检测会很困难。通过将合成的数据进行对称延拓EMD可以得到不同频域特征的IMF,然后对IMF 进行熵的转换,可以量化每段IMF的时间序列的结构和复杂度,图3展示了用模糊熵对IMF1和IMF2进行转换得到的结果。
[0089] 由于整个过程是按照流式数据进行输入的,所以为时间序列设置了一个滑动窗口,每当有新的观测值进入,滑动窗口向前移动一个单位,窗口的大小设置为100。因此图中IMF熵的监测是从第100个点开始的。通过将原始时间序列进行转换,得到的IMF1和IMF2的熵图像中可以看出在2000点,也就是发生概念漂移的点处,数据的分布发生了变化。
[0090] 从IMF-FuzzEn的结果可以看出,IMF1在第一个概念中维持在0.2附近波动,在经过第2000个点后,IMF1发生了明显的下降变化,之后就维持在了-0.1附近变化;IMF2在第一段概念中维持在了0.1附近波动,在经过了第2000个点后,IMF2 发生了明显的上升变化,之后就维持了在0.25附近变化,这说明了发生概念漂移之后,经过对称延拓EMD分解后得到的两段高低频IMF的时间序列结构以及复杂度发生了变化,并且高频IMF对于时间序列的改变更为敏感,低频则会有一段时间的延迟,除此之外,高频IMF的熵的变化要先于低频IMF,这是高频IMF对原始数据的变化更加敏感,低频IMF则会需要一定的时间延迟后才能捕捉到变化,这样的机制对于一些原始数据中出现的异常或者噪声就可以起到一定的过滤作用。因此相比于直接对原始时间序列进行概念漂移检测,检测原始序列经过分解以及熵转换后的结果要效果更好,并且具有更高的鲁棒性。
[0091] (三)采用基于广义似然比检验的非参数统计过程控制模型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大自由度,将所述最大自由度与预设控制阈值进行比较来确定是否有均值、方差或者两者的漂移出现,具体为:
[0092] 当发生概念漂移时,经过IMF-Entropy转换后的数据的均值或者方差,或者两者都发生了变化,为了监测其变化,本实施例采用非参数统计过程控制 (Statistical Process Control,SPC)模型。由于IMF-Entropy转换后的数据的均值和方差都会发生变化,所以单单使用传统的集中不等式如霍夫丁不等式 (Hoeffding’s Inequality)、伯恩斯坦不等式(Bernstein’s Inequality)来检测的话,只能捕捉到数据均值与其期望之间的偏离,而对于均值变化不明显但波动明显的情况就难以察觉。所以本实施例使用了基于GLR的非参数统计过程控制模型,既可以监测到均值的变化,又可以监测到方差的变化的统计过程控制方法。
[0093] 概括一段过程为:
[0094]
[0095] 在这个过程中,如果经过了时间点t,过程的均值,方差或者两者都发生变化。这样,如果知道了变点t是k,那么GLR检验统计量就定义为:
[0096]
[0097] 其中,在没有任何漂移的空假设下,这个统计量有一个两个自由度的渐进卡方分布。这个近似等式可以通过除以一个因子来使得GLR的期望等于自由度:
[0098]
[0099]
[0100] 其中,C是Bartlett correction factor。如果没有任何先验知识来确定变点的位置,那么就可以在所有可能的点中,通过GLR检验过程来找到最大的 Gmax,n=maxGk,n,然后用合适的预设控制阈值进行比较来确定是否有漂移出现,连续的SPC过程如下:
[0101] (1)当连续的观测值个数达到预先设定好的数目后,开始计算Gmax,n。
[0102] (2)如果Gmax,n≤hn,其中hn是一个合适的控制阈值,这样就说明了没有充分的证据说明数据流中出现均值、方差或者两者的漂移。
[0103] (3)如果Gmax,n>hn,就证明数据流中出现了均值、方差或者两者的漂移。
[0104] 在实现GLR算法的时候,所需的空间复杂度并不高,只需要两个数组用来表示整个数据的和 和表示与移动均值之间的平方偏差V0,n,这两个指标的计算均可以通过下面的递推公式进行快速简单的更新计算:
[0105] Wn+1=Wn+Xn+1  (18)
[0106] V0,n+1=V0,n+n(Xn+1-Wn/n)2/(n+1)  (19)
[0107] 这样,GLR检验所需要的统计量就可以方便快速计算:
[0108]
[0109]
[0110] 虽然进行GLR检验所需的统计量的计算速度很快,但是由于流式数据量越来越大,寻找合适的断点k来最大化这个将变得困难。所以在计算时,只使用这些最近的观测值来计算这个测试过程的统计量。因此,本实施例的窗口大小设置为M,每当一个新的观测值到达时,进行Wn和V0,n的计算,然后从存储Wn和V0,n的两个数组移除一个最久的元素,并将这个最新的值添加进去,GLR检验计算断点k的范围就只是限制为最新的M个数据中了。通过这种方法并没有忽略了所有窗口外的信息,这样不仅仅具有统计意义,也可以使得计算速度更快。
[0111] 由于控制阈值与ARL(Average Run Length)的选取有关,并且会占用很大的计算时间,所以,在GLR控制过程算法的实现中使用了cpm包,这个cpm包包括了一些针对特定的ARL预先计算好的阈值。
[0112] 为了可以满足GLR模型的使用条件,这里假设IMF-Entropy转化得到的数据服从正态正态分布。通常,关于正在研究的机制的知识足以检验这些假设是否会在特定的情况下得到验证。通过前面IMF-Entropy讨论的结果,也可以看出得到的结果也是维持在其数据的均值上下波动的。另外,一段context中的时间序列,它的规律和内部结构应该是稳定的,因此经过熵转换后得到的结果也应该是稳定于均值附近的。
[0113] 通过上面三个步骤实现了概念漂移的检测,通过设置滑动窗口,随着新观测值的加入,窗口内的时间序列数据不断被极值对称延拓EMD方法进行分解;当原时间序列发生漂移时,必然会导致原始序列在不同频域上出现变化,由于 IMF作为原始时间序列不同频率角度的特征表现,这样就导致了不同IMF在内部结构以及复杂度上发生变化。另外,高频和低频IMF对变化的敏感程度也不同,同时可以看出在时间序列发生漂移时,虽然从原始数据中很难观测出这种变化,但是经过IMF-Entropy的转换后,概念漂移发生会导致IMF的模糊熵的方差或者均值发生了明显变化,相比于直接监测原始时间序列,通过监测IMF-Entropy则更容易。因此,为了能够在流式数据的环境下,检测出这种变化,本实施例引入了基于GLR统计过程控制的方法,它作为一种可以检测数据流方差、均值或者两者变化的方法,通过GLR统计测试可以找出使得GLR统计量最大的断点,然后通过比较GLR统计量与预先设定好的控制阈值来判断是否达到了出现漂移的条件,当漂移被检测出来后,检测器将从检测点的下一个观测值重新进行开始。
[0114] (四)对本实施例所述的概念漂移的方法进行评估,具体为:
[0115] (1)建立数据集
[0116] 尽管对于概念漂移的研究并不少,但是用于概念漂移的数据大多是基于监督性分类算法,专门用于对时间序列概念漂移研究的数据还是缺少的。为了确切的明确概念漂移发生的断点,从而衡量检测算法的有效性,人工合成数据也不失为一种有效的方法。由于时间序列的特殊性,在真实的环境中,缺少用于时间序列概念漂移检测的基准数据集合,所以在这项工作中,采用人工数据集,它包含着含有概念漂移影响的时间序列。为了模拟时间序列的概念,时间序列的创建用到了自回归过程,即一段时间序列表示为xt=a1xt-1+a2xt-2+…+ apxt-p+wt,其中wt是一段白噪声,并且服从一个正态分布wt~N(0,σ2),at是自回归模型的系数,用于模拟时间序列的参数。
[0117] 这个数据集由120个时间序列组成,分别是AR(4)时间序列,其参数改变受 AR系数和白噪声标准差的影响;AR(6)时间序列,其参数改变受AR系数和白噪声标准差的影响;AR(p)时间序列,其参数改变受阶数、AR系数和白噪声标准差的影响。每组数据由40段时间序列数据组成,每段时间序列的长度为12000个点,是由4个概念平均组成,漂移是通过对参数的改变实现的。
[0118] (2)评估设置
[0119] 按照常用的配置,模糊熵的参数设置为m=3,r=0.2*std,滑动窗口大小设置为100,GLR参数设置时,Average Run Length设置为200,这相当于显著性平α=0.95,startup设置为10%总序列长度。需要注意的是,本实施例中并没有对原始数据进行预处理,如归一化或者标准化,而是按照流式数据one-by-one的处理方式,不存在任何先验知识,这样也是为了更好的模拟数据流的真实环境。
[0120] 为了验证本实施例所述的方法在合成时间序列中的效果,将从四个指标对提出的方法进行来验证,这四种指标被广泛用于衡量概念漂移效果的检测中:检测时间延迟(Detection Delay),也就是检测到概念漂移的点与发生概念漂移点之间的实例个数;检测位置偏移(Detection Position Offset),表示检测器检测到的概念漂移点与真实发生漂移位置之间的实例个数;错误预警数目(False Alarms),图4中的最左侧和最右侧垂直线代表了错误的检测,最左侧垂直线在同一个概念中发出了错误预警,最右侧垂直线在上次正确预警之间并没有出现概念漂移,所以这样的也是错误预警,中间垂直线在出现概念漂移后做出了预警,这是期望的正确预警;遗漏检测数目(Miss Detection Numbers),表示正确的预警遗漏的个数,如图4中的第三段数据中一个正确的预警被遗漏了。
[0121] 本实施例所述的方法在120组时间序列数据中进行执行,其中每组时间序列数据运行了30次。
[0122] 通过比较经过分解得到的IMF1和IMF2与模糊熵进行结合的效果,可以看出对于合成时间序列概念漂移的检测,本实施例所述的方法不同于静态数据的检测,GLR检测漂移的方式是流式的,无法获取未来数据的信息,所以在检测过程中会受局部数据的影响,所以错误预警的个数相对而言会多一些,但是遗漏预警的个数几乎为零。因此相比于遗漏预警在实际生产生活中的危害和影响,因此,本实施例提出的方法的效果具有很强的实际意义;另外本实施例提出的算法在检测出的漂移点与实际漂移点的位置的偏移要更少,这使得对于生产中对漂移位置的具体位置定位具有很大的帮助。
[0123] 另外,从对IMF1和IMF2检测得到的结果可以看出,一方面,IMF2检测延迟以及检测偏移要多于IMF1得到的实验结果,说明了IMF2作为比IMF1的低频特征,对于时间序列变化的敏感程度要低;另一方面从错误预警的个数来看,IMF2 的错误预警个数要少于IMF1的错误预警个数,说明了IMF2作为低频特征受原始数据中噪声或者异常的影响稍小。除此之外,从遗漏预警个数来看,IMF2要多于IMF1,这也说明了由于IMF2对数据变化不敏感,所以尤其当概念漂移发生后数据变化不明显的情况下,IMF2可能会遗漏一些预警,即使这样,IMF2的遗漏预警个数任然维持在以很低的个数水平下。通过这样的结果,在实际应用中,可以将高频IMF作为低延迟的检测,而低频IMF作为后续的漂移确认,这样可以使得结果更具有鲁棒性和实际意义。
[0124] 实施例2:
[0125] 本公开实施例2提供了一种时间序列概念漂移检测系统,利用本公开实施例 1所述的时间序列概念漂移检测,包括:
[0126] 数据分解模块,被配置为:对获取的原始时间序列信号,采用基于极值对称延拓的经验模态分解方法进行分解,得到包含原始信号不同时间尺度特征信息的固有模态分量;
[0127] 模糊熵转换模块:被配置为:通过模糊熵对得到的固有模态分量进行粗粒化处理,得到利用模糊熵转换后的固有模态分量;
[0128] 概念漂移检测模块,被配置为:采用基于广义似然比检验的非参数统计过程控制模型监测模糊熵转换后的固有模态分量,计算广义似然比检验的最大自由度,将所述最大自由度与预设控制阈值进行比较来确定是否有均值、方差或者两者的漂移出现。
[0129] 实施例3:
[0130] 本公开实施例3提供了一种介质,其上存储有程序,该程序被处理器执行时实现本公开实施例1所述的时间序列概念漂移检测方法中的步骤。
[0131] 实施例4:
[0132] 本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现本公开实施例1 所述的时间序列概念漂移检测方法中的步骤。
[0133] 以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈