首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 说明书 / 序列表 / 用于检测实时序列中的异常的方法

用于检测实时序列中的异常的方法

阅读:174发布:2023-02-10

专利汇可以提供用于检测实时序列中的异常的方法专利检索,专利查询,专利分析的服务。并且用于检测实时序列中的异常的方法。通过首先确定多对正常时间序列数据之间的成对相似性的相似性矩阵来检测实时序列中的异常。将谱聚类过程应用于相似性矩阵,以将表示时间序列数据的维度的变量分割为互斥的组。针对每个组估计正常行为的模型。然后,针对实时序列数据,使用针对每个组的模型确定异常分数,并且将该异常分数与预定的 阈值 进行比较,以通报异常。,下面是用于检测实时序列中的异常的方法专利的具体信息内容。

1.一种用于检测实时序列中的异常的方法,所述方法包括以下步骤:
确定多对正常的时间序列数据之间的非负成对相似性的相似性矩阵,每个所述时间序列数据对应表示所述时间序列数据的维度的变量;
将谱聚类过程应用到所述相似性矩阵,以将表示所述时间序列数据的维度的所述变量分割成互斥的多个组;
针对每个组估计正常行为的模型;
使用针对每个组的正常行为的所述模型针对所述实时序列数据确定异常分数;以及将所述异常分数与预定阈值进行比较,以通报所述异常,其中,这些步骤在处理器中执行。
2.根据权利要求1所述的方法,其中,所述实时序列数据由传感器获得。
3.根据权利要求1所述的方法,其中,所述谱聚类使用相关系数的绝对值作为相似性度量。
4.根据权利要求3所述的方法,其中,所述相关系数是线性、非线性、径向基函数网络的输出、或支持向量机
5.根据权利要求1所述的方法,其中,所述谱聚类使同一组中的变量之间的相似性最大化,并且使不同组中的元素之间的相似性最小化。
6.根据权利要求1所述的方法,其中,所述维度是M维欧几里德空间的维度。
7.根据权利要求1所述的方法,其中,所述谱聚类使用归一化割过程。
8.根据权利要求3所述的方法,其中,多对变量i和j之间的所述相似性度量bij不一定是对称的,并且所述相似性矩阵是aij=(bij+bji)/2的A。
9.根据权利要求1所述的方法,其中,每个组的所述模型由关于该组中的所述变量的概率密度函数表示。
10.根据权利要求9所述的方法,其中,所述概率密度函数是多元高斯分布。
11.根据权利要求9所述的方法,其中,所述概率密度函数是非参数的Parzen核密度估计。
12.根据权利要求1所述的方法,所述方法还包括:
组合所述异常分数,以形成全局异常分数;以及
将所述全局异常分数与所述预定阈值进行比较,以通报所述异常。
13.根据权利要求12所述的方法,其中,所述组合是加权相加,其中权重与每个组的变量的数目成比例。
14.根据权利要求1所述的方法,其中,组合使用通用逻辑表达式。
15.根据权利要求14所述的方法,其中,所述逻辑表达式由针对所述分数相对于组特定的阈值的逻辑条件的逻辑运算符AND和OR构成。

说明书全文

用于检测实时序列中的异常的方法

[0001] 相关申请
[0002] 此专利申请关于MERL-2729,在此共同申请并通过引用并入本文中。两个申请使用相似性矩阵应对处理数据,以形成图拉普拉斯矩阵(graph Laplacian)。

技术领域

[0003] 本发明一般涉及时间序列数据的数据分析以检测数据中的异常,更具体地,涉及存储由非常大数量的传感器从大型工业机器或机器的整个安装获得的传感器数据的大型数据库

背景技术

[0004] 机器和设备的状况的自动化监视使用处理非常大的传感器数据流的方法,该传感器数据流包括通过以高速率对各种传感器进行采样获得的许多单独读数。数据获取、通信以及存储技术的迅速降低的成本使得以多元时间序列数据的形式积累大量的数据是经济上可行的,其中,时间序列的每个组分(变量)可以被视为指示正在被监视的系统的状态的观测向量的单独维度。
[0005] 这种数据的主要用途之一是自动地检测可能意味着系统中存在故障的异常状况。这种故障可以包括松动的或破坏的组件、错误的操作顺序、异常的操作条件等等。在大多数情况下,为了确保安全、使材料的浪费最小化或执行维护以避免灾难性故障,立即发现这种异常状况是非常希望的。
[0006] 发现异常的一种可能的方式是以描述当变量超出它的正常范围时的逻辑规则的形式明确地指定被认为是异常的状况。对于一些系统,这种方法是非常成功的,例如,当监视主动地调整一些参数(诸如,温度,压,湿度等等)的过程,并且他们的正常范围是已知的时。
[0007] 当这样的范围不可用时,可以通过数据驱动的方法获得正常的操作极限,其中,数据变量都是在正常条件下测得的,并且从该数据提取正常操作范围的描述符。这种描述符的示例是逻辑规则,或概率分布。例如,如果x表示来自监视系统的瞬时测量变量的向量,并且,f(x)是在x的域上的概率密度函数(其对应于值x与系统的正常操作对应的概率),则可以连续地评价这个概率密度,并且,当f(x)小于预定的阈值τ时,可以用通报(signal)报警。
[0008] 然后问题变成怎样确定概率密度函数f(x)的适当的估计,假定所观测的数据的数据库X=[x1,x2,…,xN],其中,xt是在时间t确定的观测列向量,t=1,...,N。向量xt包括M个变量,使得xit是在时间t的第i个变量的值,i=1,...,M。
[0009] 存在用于从域中所获得的数据点的采样估计该域上的概率密度函数的许多方法。参数方法做出关于分布类型的明确的假设,并且然后估计分布的参数。例如,如果函数是高斯分布,则参数是分布的均值μ和协方差矩阵S。在这种情况下,
[0010] 并且S=(X-μ)(X-μ)T/(N-1),
[0011] 其中,T是转置运算符。
[0012] 当变量的数目M非常大时,如对于许多工业系统来说是典型的,产生的估计可能是不精确的,并且不方便使用。它可能不是非常精确,因为正确的概率分布与高斯分布差异很大。该估计可能不方便使用,因为协方差矩阵S尽管对称,但是当M非常大时它可以包含M2的量级的数量,例如,数量以数千或数百万计。因此,在存储器中保持S实际上变得难以处理。此外,不能估计具有独立条目的全协方差矩阵S,除非读数的数目N大于数据向量M的维数,并且至少M+1个数据点在普通位置,也就是,线性无关。
[0013] 然而,其他的估计模型和方法(诸如,混合高斯分布)可以被用来克服信号单个多元高斯分布的精度问题,这些方法仍然遭受与使用大的协方差矩阵相关的问题,当考虑一个以上的高斯分量时,该问题变得更糟糕。
[0014] 相比参数模型,非参数密度估计方法(诸如,Parzen核密度估计(PKDE))不假设用于分布的特定的参数形式,而是通过合适的核函数K估计密度
[0015]
[0016] 作为单独分量的总和,其中,每个所获取的数据点一个单独分量。然而,核函数的选择通常是不容易的,并且这个方法也需要将所有N个获取的数据点保持在存储器中,当这个数目很大,并且甚至无限时,这是有问题的。
[0017] 这些方法的另一个共同的缺点是它们不能容易地处理混合型的数据,例如,当一些变量是连续的,并且其他的是离散的时。
[0018] 当数据向量的数目很大时,用来处理数据向量的高维度的更有效的方法是尝试在数据向量x的子集上将概率分布f(x)分解(因式(factor))为P个单独的概率分布,使得[0019]
[0020] 其中,fp(x(p))是在数据向量的子集x(p)上的概率密度函数。设πp代表从x到x(p)的投影算子,也就是,x(p)=πp(x)。设V={1,2,…,M}是数据变量的所有指数的集合,Vp是在部分p中的变量的指数的集合,并且Mp=|Vp|是部分p中变量的数目。然后,期望获得V到集合Vp的合适的分割,使得
[0021] 并且,相应地,
[0022]
[0023] 通过改变每个部分的大小,可以控制需要被估计并存储在存储器中的参数的数2
目。例如,如果高斯模型适合每个部分,则针对某部分的协方差矩阵包含Mp数量级的元素。
这种方法也处理混合型的变量,其中连续的和离散的变量可以被放入不同的部分,并且不同的参数模型可以适合这些部分,例如,高斯、伯努利以及多项式模型。
[0024] 然而,使用最小可能部分对于异常检测的目的是不太有效的。平凡因式分解(其中,每个变量在它自己的部分内)使得P=M,Vp={p},Mp=1,将确实导致概率密度的非常紧促的表示,但是将不能捕获变量之间的依存关系,并且将不能检测所谓的前后关系(contextual)的异常。这些变量由可能是整体的一个变量的读数表示,而不是当另一变量具有特定的值时。例如,所测得的空气温度可以是90°F,并且这本身未必就是信号异常气候条件,但是如果表示日历月的另一变量的值被设为十二月,并且测量位置在北半球,则两个读数一起将清晰地表示异常。
[0025] 因此,需要确定一种在所识别的部分的尺寸、可用于每个部分中单独的密度函数的估计的点的数目以及所得到的密度的精度之间具有合理均衡的分割方法。

发明内容

[0026] 本发明的实施方式提供了一种用于将一大组变量分割成较小部分的方法,使得在变量的整个集合上的正常行为的模型可以被因式分解(factor)为在每个部分上的单独模型,并且这些单独部分特定模型更容易估计、维持以及用于时间序列数据中的异常检测。该方法使用没有明确地确定所有变量上的全协方差矩阵的谱聚类方法,但是对于非常大的特征值问题,反而依赖于有效的特征值的解决方法。
[0027] 具体地,通过首先确定多对正常的时间序列数据之间的成对相似性的相似性矩阵来检测实时序列中的异常。将谱聚类过程应用到相似性矩阵以将表示时间序列数据的维度的变量分割为互斥的组。针对每个组估计正常行为的模型。然后,针对实时序列数据,使用针对每个组的模型确定异常分数,并且将该异常分数与预定的阈值进行比较,以用通报该异常。附图说明
[0028] 图1是根据本发明的实施方式的用于检测实时序列数据中的异常的方法的流程图

具体实施方式

[0029] 如图1所示,我们的发明的实施方式提供了一种用于检测实时序列数据140中的异常171的方法。从正常的时间序列数据101的多对维度之间的成对相似性确定110非负相似性矩阵A 111。谱聚类120被应用于相似性矩阵,以将表示时间序列数据的维度112的变量分割120为组121,其中,这些组是互斥的。针对每个组,确定130正常行为的模型131。对于实时序列数据140,使用针对每个组的模型确定150异常分数151。然后,将异常分数与预定的阈值τ169进行比较,以通报异常171。
[0030] 可选地,可以将单独的异常分数组合160以形成全局的异常分数161,并且可以将全局的异常分数与预定的阈值τ169进行比较,以通报异常171。
[0031] 可以在连接到存储器和如本领域已知的通过总线连接的输入/输出接口的处理器100中执行所述方法的步骤。
[0032] 现在,更详细地,根据用于最优化的特定准则,确定将M个变量的集合划分为P部分的分割是非常困难的组合优化问题。M个元素的集合的可能的分割的数目是贝尔(Bell)数BM,其对集合的分割的数目计数,即使对于小的M,这个数目也是非常大的。穷尽地探索所有可能的分割明显是不现实的,并且需要更有效的计算过程。
[0033] 然而,当试图检测前后关系的异常时,单独的部分应该包含彼此相关的变量,也就是说,需要被考虑到的变量。这种关系可能源于紧密的物理根源,例如,由于对那个机器、气体、液体、空气等等中的相同物质起作用的物理定律,从同一机器获得的温度和压力可能是相关的,但是来自不同机器的温度和压力可能仅仅是弱连接。一种有用的方法是基于一些相似性测量的聚集变量。
[0034] 对于一对变量之间的相似性测量的自然候选是相关系数。另外,假设两个变量之间的依存关系的某些形式,则相关的相似性测量是一个变量的相对于另一变量的确定的系数。这种依存关系可以是线性的,在这种情况下,确定的系数等于相关系数,但是,这种依存关系也可以是非线性的,诸如,多项式、神经或径向基函数网络、支持向量机(SVM)等等。变量i和变量j之间的相似性是bij。
[0035] 我们的方法试图找到一种使M个变量成为P组的分组,使得在同一组中的变量之间的相似性最大化,并且在不同组中的变量之间的相似性最小化。可以注意到,这个目标与被称为聚类过程的一大类过程共享。我们的想法则是将用于成对聚类的可扩展的(scalable)过程应用到相似性值的合适的矩阵。
[0036] 应当注意,不是所有的聚类过程都适合于这个目的。许多过程假设待聚集的对象被嵌入到欧几里德空间。然而,在我们的案例中,这些单独变量没有被嵌入到这样的空间。尽管所获得的数据集中的单独数据点xt被嵌入到M维的欧几里德空间,但是我们的方法不是为了聚集数据点,而是为了聚集表示M维的欧几里德空间的维度的变量。
[0037] 然而,用于聚集成对相似性值的合适的过程确实存在。例如,用于成对聚集的一个过程是基于确定性退火法(deterministic annealing)。然而,大多数的这些过程需要存在于存储器中的整个的相似性矩阵,这是适合多元概率密度函数(pdfs)(例如,高斯分布的高斯混合、或非参数的Parzen核密度估计)的方法的主要限制之一。
[0038] 为了解决这个限制,我们基于快速特征值分析使用谱聚类过程120。
[0039] 这个方法使用非负对称相似性矩阵A 111,以形成其M个顶点与问题域中的单独变量对应的图的图拉普拉斯矩阵L=D-A,并且两个变量i和j之间的边缘具有权重aij。因为多对变量i和j之间的相似性值bij不一定是对称的,所以我们使用矩阵A,其中,aij=(bij+bji)/2。
[0040] 通过找到L的最小非零特征值来执行谱聚类,其中,第一个值始终是平凡零。在找到最小的非零特征值之后,通过在相应的特征向量上投射所有的点(变量)来确定组,并且根据归一化割(cut)或施利克(Shi-Malik)过程将具有投射的相同符号的变量聚集到同一组。可以重复这个过程,或使用另一个聚类算法(k均值聚类)将投射的值聚集到两个以上的组。
[0041] 这个过程的有效性的关键是快速确定矩阵L的前几个特征值。这可以由包含用局部最优预处理共轭梯度法(LOBPCG)来实施的本征解算器的块局部最优预处理特征值Xolvers(BLOPEX)做到。LOBPCG方法不需要加载在存储器中的整个矩阵,而是只需要来自将矩阵乘以给定向量的结果。该方法的这个特性使得它适用于非常高维度的特征分析问题,并且消除了将整个相似性矩阵存储在存储器中的需求,因此导致了可扩展到非常大的M值。
[0042] 在所有变量的集合已经被分割成多个变量之后,对于每个组的正常行为的单独模型可以彼此独立地进行估计。对于组p的模型的一个可能的表示是对于组p中的所有变量的多元高斯pdf fp(),由均值向量μp和协方差矩阵Sp表示。然后,当新的数据点x变得可用时,对于组p的异常分数sp被计算为对于组p中的变量的数据点的投影πp(x)能够从所估计的pdf fp()产生的概率:
[0043] sp=fp[πp(x)]。
[0044] 在已经针对每一组p=1,…..,P计算所有分数sp之后,这些分数能够通过以下方式可选地被组合,所述方式为:或者通过简单地将这些分数相加,或者形成加权组合(其中,每个分数由对应组中的变量的数目来加权),或者通过关于单个分数的通用逻辑表达式的方式。例如,该逻辑表达式可以由针对分数相对于组特定的阈值的单独逻辑条件(也就是,关于类型sp>θp的分数sp,其中,θp是针对组p的单独阈值)的逻辑运算符AND和OR构成。使用这个逻辑表达式的效果是即使当单独异常分数中的一个大于相应的阈值时也随时检测到异常。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈