首页 / 专利库 / 人工智能 / 异常检测 / 一种基于认证图嵌入的异常登录行为检测方法及系统

一种基于认证图嵌入的异常登录行为检测方法及系统

阅读:706发布:2020-05-08

专利汇可以提供一种基于认证图嵌入的异常登录行为检测方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于认证图嵌入的异常登录行为检测方法及系统,在训练阶段,认证图生成模 块 将内网网络中的认证事件表示为认证图的形式,利用认证图嵌入模块得到图中 节点 的低维向量表示;基于所得的认证图向量表示,用户正常登陆行为画像生成模块生成用户的登陆行为画像,使用该画像训练模型作为 异常检测 器;在检测阶段,按照与训练阶段相同的方法生成认证图,然后利用训练阶段所得的认证图节点低维向量表示生成测试阶段的用户登陆行为画像,最后将偏离模型的用户登陆行为标记为异常并产生告警。,下面是一种基于认证图嵌入的异常登录行为检测方法及系统专利的具体信息内容。

1.一种基于认证图嵌入的异常登录行为检测方法,其特征在于,包括以下步骤:
步骤1:在训练阶段,认证图生成模将内网网络中的认证事件表示为认证图的形式,利用认证图嵌入模块得到图中节点的低维向量表示,低维向量即是节点的嵌入向量;
步骤2:基于步骤1所得的认证图向量表示,用户正常登陆行为画像生成模块生成用户的登陆行为画像,使用该画像训练模型作为异常检测器;
步骤3:在检测阶段,按照与训练阶段相同的方法生成认证图,然后利用训练阶段所得的认证图节点低维向量表示生成测试阶段的用户登陆行为画像,最后将偏离模型的用户登陆行为标记为异常并产生告警。
2.一种基于认证图嵌入的异常登录行为检测系统,其特征在于,包括:认证图嵌入模块、用户正常登陆行为画像生成模块和异常检测模块;
认证图嵌入模块:预处理原始认证事件日志,将原始认证事件日志转化为认证图的形式,认证图中的节点表示原始认证事件日志中出现的实体,即用户和主机,认证图中的边表示实体之间的依赖关系;然后使用认证图嵌入算法将上述认证图中的节点编码表示为低维向量,即节点的嵌入向量;
用户正常登陆行为画像生成模块:利用所得嵌入向量构建用户的正常登陆行为画像;
该画像由三种类型的特征构成,即熟悉度相关特征、相似度相关特征和横向移动路径相关特征,这三种特征分别从不同度刻画用户的登录行为,即用户和所登录主机之间的熟悉程度,用户登录过的所有主机之间的关系,用户在主机之间横向移动的路径属性特征;
异常检测模块,基于用户正常登陆行为画像训练分类器作为异常检测器,在检测阶段,按照与训练阶段相同过程生成认证行为向量,交由异常检测器得到异常分数。
3.根据权利要求2所述的基于认证图嵌入的异常登录行为检测系统,其特征在于:所述认证图嵌入模块具体实现如下:
(1)选择认证图上任意节点为起始点,使用随机游走的方法生成节点序列,重复上述过程,直到认证图中所有节点都曾作为起始点生成过节点序列,所生成的全部节点序列作为节点序列集合;认证图嵌入算法将认证图中全部节点表示为低维向量;
(2)使用自然语言处理领域中的词嵌入模型(如Skip-Gram模型),将节点序列集合当作语料库,将节点序列看作句子,将节点视为单词,学习步骤(1)中每个节点的低维向量表示,不同类型的节点将被嵌入到同一向量空间中,不同类型的节点为用户帐号和主机;同时所得的节点嵌入向量能够保留认证图中节点间的相互依赖关系,所述保留相互依赖关系是指认证图中相互邻接的节点所对应的嵌入向量之间的距离应小于不相邻节点所对应的嵌入向量之间的距离。
4.根据权利要求2所述的基于认证图嵌入的异常登录行为检测系统,其特征在于:所述用户正常登陆行为画像生成模块具体实现如下:用户正常登陆行为画像基于认证图嵌入所得结果构建,用户正常登陆行为画像由三种类型的特征构成:熟悉度相关特征、相似度相关特征和横向移动路径相关特征;
其中熟悉度相关特征有两个:
fmin(u)=mini(sim(u,hi)),
相似度相关特征有两个:
fscope(u)=mini(sim(hi,ho))
横向移动路径相关特征有三个:分别是所有路径长度的最大值flm_max,平均值flm_mean和四分位距(IQR)flm_iqr。

说明书全文

一种基于认证图嵌入的异常登录行为检测方法及系统

技术领域

[0001] 本发明涉及一种基于认证图嵌入的异常登录行为检测方法及系统,属于APT攻击检测,图嵌入,横向移动检测技术领域。

背景技术

[0002] 横向移动是高级可持续威胁攻击(APT)的关键阶段。攻击者成功控制目标网络中的设备后,会在目标网络潜伏并持久化,然后伺机横向移动收集有价值的信息。尽管目前可用于横向移动的高级黑客技术(例如RAT)有很多,但它们的作用往往被高估。实际情况下,攻击者一般选择使用泄露的密码或证书(通过社会工程、Pass-the-hash等技术获得)冒充合法用户登录内网设备(计算机)。这种攻击手段的优势是,攻击者可以躲避内网安全系统的检测,使防御变得困难。近年来,此类攻击(也称为基于证书的攻击credentials-based attacks)已在许多APT实例中得到广泛采用。例如2011年的RSA  数据泄露事件和2014JPMorgan Chase的数据泄露事件。
[0003] 一般来说,内网用户的主机登录行为会被记录在认证事件日志中。根据上文对真实 APT攻击的描述,如果内网中出现异常的登录行为,一定程度上是出现恶意横向移动的标志。实际情况下,再结合其他特征(如C&C流量),就可以判断是否已遭受APT攻击,并进而判断横向移动的进展阶段和目标。因此,从认证事件日志中检测用户异常的登录行为受到越来越多的关注。
[0004] 基于行为的异常检测方法非常适于解决上述问题。因为通过建模正常的行为模式,基于行为的方法可以识别出偏离正常模式的异常事件,进而能够发现从未见过的横向移动攻击方法。经典的基于行为的异常检测方法利用手工提取的统计特征来训练分类器,作为用户的正常登录行为模型。但是,这类特征难以捕获认证事件日志中实体之间的复杂关系,例如人员、主机之间的社区信息以及用户正常的横向移动路径(如系统管理员远程维护操作)特征。
[0005] 图作为一种能够捕获节点间相互关系的数据结构,非常适合表达认证事件日志中存在的复杂依赖关系。因此,研究人员开始尝试首先将原始的认证事件日志转换为图的形式,然后借助于成熟的图挖掘算法来构建正常的登录行为模式。近年来涌现出大量从图中挖掘正常行为模式来检测异常活动的工作。和本发明较为相似的工作有二。第一,Kent 等人首次提出使用认证图来分析用户行为。他们从认证图中提取基本的图结构特征,如图密度,节点的出、入度等。然而,所提取的特征难以表达图中节点间复杂的社区和横向移动路径信息。而本发明从认证图中提取了基于嵌入向量的特征,可以更全面地保留图中所包含的信息。因为基于嵌入的特征除了可以表达认证图的结构信息之外,还可以度量认证事件日志中实体之间的各种关系。第二,Siadati等人的工作用于检测企业网络中出现的异常结构化登录行为。他们首先分析了收集自Kerberos认证协议产生的真实的认证事件日志,确认了结构化的正常登录模式存在其中。随后,他们提出一种模式挖掘算法专用来自动识别日志中全部的结构化登录模式。但是由于他们自定义的结构化模式是一种三元组的形式,所以Siadati等人中的算法无法识别认证事件中可能出现的其他用三元组无法表达的模式,如正常管理员用户的横向移动路径模式。
[0006] 目前,从图中挖掘正常登陆行为模式用来检测异常的工作主要有三类:(1)利用图结构特征来表示用户的正常认证行为模式;(2)挖掘社区或子图,从而发现不属于任何社区的用户或监测行为模式是否发生变化;(3)对图中的潜在的路径进行特征分析,从而检测恶意横向移动。上述方法共同的问题是它们只针对特定任务挖掘图中部分正常行为模式,导致图中其他潜在的关联关系被忽略。
[0007] 另外,若要检测所述攻击场景(攻击者控制内网中的主机之后,在内网网络范围内横向移动以获取更具有价值的信息。),需要部署安全工具,用来监视由用户操作行为产生的大规模的、多种类型的日志。也就是所,需要模型能够从这种大规模的多源异构数据中发现异常事件。随着深度学习技术的发展,研究人员开始使用基于神经网络的模型解决上述问题。目前用于检测异常登录行为采用深度神经网络模型,然而深度神经网络模型具有“黑盒子”的特性,研究人员无法理解其决策的过程。而且由于网络结构过于复杂,从而使模型的训练开销过大。因此亟需一种结构简单、具有可解释性的模型来完成从大规模多源异构数据中发现异常登录行为的任务。
[0008] 最后,实际系统运行产生的用户行为日志中可能包含大量的噪声数据。因此需要模型面对噪声数据时能够足够健壮、稳定。

发明内容

[0009] 本发明技术解决问题:克服现有技术的不足,提出一种基于认证图嵌入的异常登录行为检测方法及系统,目的是识别内网认证事件日志中存在的异常登录活动,从而为发现APT攻击中的恶意横向移动打下基础,帮助安全分析人员理解认证图嵌入的结果,提升认证图嵌入质量
[0010] 本发明技术解决方案:一种基于认证图嵌入的异常登录行为检测方法,包括以下步骤:
[0011] 步骤1:在训练阶段,认证图生成模将内网网络中的认证事件表示为认证图的形式,利用认证图嵌入模块得到图中节点的低维向量表示,低维向量即是节点的嵌入向量;
[0012] 步骤2:基于步骤1所得的认证图向量表示,用户正常登陆行为画像生成模块生成用户的登陆行为画像,使用该画像训练模型作为异常检测器;
[0013] 步骤3:在检测阶段,按照与训练阶段相同的方法生成认证图,然后利用训练阶段所得的认证图节点低维向量表示生成测试阶段的用户登陆行为画像,最后将偏离模型的用户登陆行为标记为异常并产生告警。
[0014] 本发明的一种基于认证图嵌入的异常登录行为检测系统,包括:认证图嵌入模块、用户正常登陆行为画像生成模块和异常检测模块;
[0015] 认证图嵌入模块:预处理原始认证事件日志,将原始认证事件日志转化为认证图的形式,认证图中的节点表示原始认证事件日志中出现的实体,即用户和主机,认证图中的边表示实体之间的依赖关系;然后使用认证图嵌入算法将上述认证图中的节点编码表示为低维向量,即节点的嵌入向量;
[0016] 用户正常登陆行为画像生成模块:利用所得嵌入向量构建用户的正常登陆行为画像;该画像由三种类型的特征构成,即熟悉度相关特征、相似度相关特征和横向移动路径相关特征,这三种特征分别从不同度刻画用户的登录行为,即用户和所登录主机之间的熟悉程度,用户登录过的所有主机之间的关系,用户在主机之间横向移动的路径属性特征;
[0017] 异常检测模块,基于用户正常登陆行为画像训练分类器作为异常检测器,在检测阶段,按照与训练阶段相同过程生成认证行为向量,交由异常检测器得到异常分数。
[0018] 所述认证图嵌入模块具体实现如下:
[0019] (1)选择认证图上任意节点为起始点,使用随机游走的方法生成节点序列。重复上述过程,直到认证图中所有节点都曾作为起始点生成过节点序列,所生成的全部节点序列作为节点序列集合;认证图嵌入算法将认证图中全部节点表示为低维向量;
[0020] (2)使用自然语言处理领域中的词嵌入模型(如Skip-Gram模型),将节点序列集合当作语料库,将节点序列看作句子,将节点视为单词,学习步骤(1)中每个节点的低维向量表示,不同类型的节点将被嵌入到同一向量空间中,不同类型的节点为用户和主机;同时所得的节点嵌入向量能够保留认证图中节点间的相互依赖关系,所述保留相互依赖关系是指认证图中相互邻接的节点所对应的嵌入向量之间的距离应小于不相邻节点所对应的嵌入向量之间的距离。
[0021] 所述用户正常登陆行为画像生成模块具体实现如下:用户正常登陆行为画像基于认证图嵌入所得结果构建,用户正常登陆行为画像由三种类型的特征构成:熟悉度相关特征、相似度相关特征和横向移动路径相关特征;
[0022] 其中熟悉度相关特征有两个:
[0023] fmin(u)=mini(sim(u,hi)),
[0024]
[0025] 相似度相关特征有两个:
[0026]
[0027] fscope(u)=mini(sim(hi,ho))
[0028] 横向移动路径相关特征有三个:分别是所有路径长度的最大值flm_max,平均值flm_mean和四分位距(IQR)flm_iqr。
[0029] 本发明与现有技术相比的优点在于:
[0030] (1)本发明图嵌入算法直接从认证图中学习得到节点的嵌入向量,减轻了对专家知识和经验的依赖,减少了手工特征提取的工作量。
[0031] (2)本发明使用认证图嵌入算法捕获图中各类依赖关系,然后建模用户全面的正常行为模式。不同于其他深度网络结构,本发明中使用的图嵌入算法是一种浅层模型,训练效率高,结果易于理解。除此之外,图嵌入算法中使用的上下文窗口(context window) 机制可以有效减少噪声对模型准确性造成的干扰。
[0032] (3)本发明构建的用户正常登陆行为画像包括熟悉度相关特征,相似度相关特征和横向移动路径相关特征,所识别到的偏离正常画像的异常登录行为是恶意横向移动的标志事件,能够有效识别内网中恶意横向移动行为。
[0033] (4)本发明设计的认证图嵌入结果可解释性机制有助于验证认证图嵌入算法的效果,同时能够帮助分析人员加深对原始认证事件日志的理解,还可以分析出使异常检测器做出决策的原因。
[0034] (5)本发明提出的基于认证图嵌入的异常登录事件检测系统已在CMU-CERT数据集上得到验证。实验结果表明,本发明所提出的方法在准确性、F1分数和召回率等指标均高于其他基线方法(Oddball,SVM和PCA)。附图说明
[0035] 图1为本发明的方法实现流程图
[0036] 图2为本发明的系统框架图;
[0037] 图3为本发明的认证图嵌入模块实现流程图;
[0038] 图4为本发明用户正常登陆行为画像生成模块实现流程图。

具体实施方式

[0039] 下面结合附图及实施例对本发明进行详细说明。
[0040] 如图1所示,本发明的方法,首先,预处理原始认证事件日志,将其转化为认证图的形式。然后,使用认证图嵌入算法将图中每个节点映射成一个低维向量,即嵌入向量。接下来,利用所得嵌入向量构建用户的正常登陆行为画像。该画像由三种类型的特征构成:熟悉度相关特征、相似度相关特征和横向移动路径相关特征。最后,基于用户正常登陆行为画像训练分类器作为异常检测器。
[0041] 如图2所示,基于认证图嵌入的异常登录行为检测系统,包括认证图嵌入模块、用户正常登陆行为画像生成模块和异常检测模块。
[0042] 下面逐个介绍各个模块的实现细节。
[0043] 一、认证图嵌入模块,如图3所示。
[0044] 1.认证图生成
[0045] 认证图是一种二分图,认证图中的节点有用户(实际中,“用户”指的是用户登录帐号)和主机两种类型。如果在时间[0,T]内,用户u登陆过主机h,则在图中节点u和主机h之间存在一条边,边的权重是该段时间内用户u登陆过主机h的次数。
[0046] 除了认证图外,本发明还生成了用户PAS(personal authentication subgraph)。具体来说,用户u的PAS指的是一段时间[0,T]内用户u所有的登录行为构成的图。图中的节点是用户u登陆过的所有主机。边可以从认证事件日志中直接或间接生成。
[0047] 2.认证图随机游走
[0048] 对认证图中的每个节点s,以节点s为起点,沿着认证图中的边移动。当来到节点si时,下一步的选择按照如下概率确定,
[0049]
[0050] 其中,wij是边(si,sj)上的权重, 是以si为起点所有边的权重之和。
[0051] 认证图随机游走生成节点序列的集合,集合中任一元素形式为(s1,…,si,…sM),其中, s代表用户节点或主机节点。
[0052] 3.Skip-Gram模型
[0053] 认证图嵌入算法的目标是将图中每个节点编码为低维向量,同时保留节点之间的相互依赖关系。具体来说,如果认证事件日志中用户u和主机h经常同时出现,即用户u经常登录主机h,那么认证图中边(u,h)的权重将显著高于其他在认证事件日志不频繁同时出现的实体(u′,h′)。认证图嵌入算法将保证嵌入向量vu和vh之间的距离du,h小于嵌入向量 vu′和vh′之间的距离du′,h′。例如,如果认证图中用户u和主机h之间的边权重高于设定的阈值,说明在认证事件日志中实体u和h经常同时出现,即用户u经常登录主机h,则图嵌入算法将使嵌入向量vu和vh之间的距离更近,所述的距离均为内积距离。
[0054] Skip-Gram模型为认证图中每个节点si学习一个低维向量表示 具体来说, Skip-Gram通过最大化目标函数 来获得节点的嵌入表示。 的定义为:
[0055]
[0056] 其中,S是认证图中所有节点的集合;N(s)表示节点s的所有邻居节点的集合; P(N(s)|s)表示节点序列中,s和其邻居节点同时出现的概率,具体值使用softmax函数计算:
[0057]
[0058] 其中,ni∈N(s)。v和v′是节点s的两个嵌入向量表示,其中v是本发明最终希望得到的节点s的嵌入向量表示。
[0059] 二、用户正常登陆行为画像生成模块,如图4所示。
[0060] 将认证图中不同类型的节点都使用向量表示,能够计算不同类型节点之间的内积相似度,从而实现对认证事件日志中不同类型实体之间相似性关系的度量。本发明中,实体i和j之间内积相似度计算公式如下:
[0061] sim(i,j)=vi·vj
[0062] 本发明提取了熟悉度相关特征、相似度相关特征和横向移动路径相关特征。这三个特征彼此独立,共同构成用户的正常登录行为画像。
[0063] (1)熟悉度相关特征
[0064] 熟悉度相关特征包括fmin和fmean,用来度量用户u和主机h的熟悉程度。计算公式如下:
[0065] fmin(u)=mini(sim(u,hi)),
[0066]
[0067] 其中,Hu是用户u的PAS中全部主机的集合,hi是Hu中的一个主机,|Hu|是Hu中主机的总数。
[0068] (2)相似度相关特征
[0069] 相似度相关特征包括fdispersion和fscope。fdispersion度量用户PAS中主机之间的紧凑关系,计算公式如下:
[0070]
[0071] fdispersion的物理意义解释如下:如果用户u经常访问的主机类型比较单一(或者用户u 经常访问的服务器均提供类似服务,如报销系统中的所有服务器;或者具有一定逻辑关系,如web服务器和相应的数据库服务器),那么u对应的fdispersion会比较大;如果用户 u经常访问的主机类型比较多(比如主机属于不同部门),会导致其PAS内主机两两之间相似性较小,所以此时u对应的fdispersion会比较小。
[0072] fscope度量用户u在内网活动的最大范围。本发明中,使用最小内积相似性作为最大距离,fscope计算公式如下:
[0073] fscope(u)=mini(sim(hi,ho))
[0074] 其中,ho表示PAS中所有节点的聚类中心节点,hi表示PAS中任一节点。实际计算中,需要先得到PAS所有节点hi的嵌入向量,然后得到所有嵌入向量的聚类中心,最后得到节点hi到聚类中心的最大距离。
[0075] (3)横向移动路径相关特征
[0076] 本发明所指的用户横向移动路径可看作用户PAS中边的集合。在提取横向移动路径相关特征之前,需要使用深度优先算法遍历PAS中所有路径,计算每条路径的长度。路径的长度定义为该路径上所有权重之和。路径上两个节点之间的权重定义如下:
[0077] w=sim(hi,hj),
[0078] 其中,hi,hj分别是源节点和目的节点。
[0079] 本发明选择所有路径长度的最大值,平均值和四分位距(IQR)作为用户u的横向移动路径相关特征,即flm_max,flm_mean,flm_iqr。四分位距是第三四分位数和第一四分位数之间的差距,相对于方差和标准差是一种更为稳健的统计描述。
[0080] 三、异常检测模块。
[0081] 用户的正常登陆行为画像P={fmin,fmean,fdispersion,fscope,flm_max,flm_mean,flm_iqr}被用来训练分类器作为异常检测器。可选的异常检测器有One-Class SVM,local outlier factor, Autoencoder和PCA。实验结果表明,使用认证图嵌入向量生成的用户登陆行为画像,上述异常检测器均能实现较好的检测效果。
[0082] 理解认证图嵌入的结果,有助于验证认证图嵌入的有效性,还可以保证最终异常检测结果的可解释性。为使所构建的基于嵌入向量的用户正常登陆行为画像尽可能准确,本发明中认证图嵌入向量应该能够尽可能保留内网中用户和主机的社区信息。具体来说,实际中同属一个社区(如属于同一部门或者正在做同一项目等)的用户,或者同属一个社区的主机(如提供类似服务的服务器群,或者具有逻辑关系的多台服务器),其嵌入向量之间的距离应小于那些属于不同社区的用户嵌入向量或主机嵌入向量之间的距离。
[0083] 为了理解认证图嵌入结果,并验证其是否符合预期,本发明设计了两个任务,分别用来检验用户和主机的社区信息是否保留。本发明使用CMU-CERT数据集,介绍上述任务的具体情况和验证结果。这里只介绍第一个针对用户的任务,针对主机的任务和前者非常相似。
[0084] 该任务验证内网用户之间的社区信息是否能够被编码到嵌入向量中。具体来说,计算了CMU-CERT中同属一个“功能部门”(functional unit)的所有用户之间的平均内积相似性SameCommunity,
[0085]
[0086] 其中,U是同属一个“功能部门”的用户的集合,|U|为该“功能部门”用户个数。还计算了不同“功能部门”用户之间平均内积相似性DiffCommunity,
[0087]
[0088] 结果如表1所示。从表1中直接看出,对于同属一个“功能部门”的用户,其平均相似性高于不同“功能部门”用户之间的平均相似性。注意到认证图嵌入过程中并没有用到“功能部门”或其他类似信息。所以该任务验证了认证图嵌入算法自动保留认证事件日志中可能存在的用户社区信息(“功能部门”)。另外一个关于主机的任务同理,实验结果如表2所示。从表2中可以直接看出,对于同属一个“功能部门”的主机,其平均相似性高于分别属于不同“功能部门”主机之间的平均相似性。同样注意到认证图嵌入过程中并没有用到“功能部门”或其他类似信息。所以该任务验证了认证图嵌入算法自动保留认证事件日志中可能存在的主机社区信息(“功能部门”)。
[0089] 表1不同用户社区之间的内积相似性
[0090]
[0091] 表2不同主机社区之间的内积相似性
[0092]
[0093] 以上虽然描述了本发明的具体实施方法,但是本领域的技术人员应当理解,这些仅是举例说明,在不背离本发明原理和实现的前提下,可以对这些实施方案做出多种变更或修改,因此,本发明的保护范围由所附权利要求书限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈