首页 / 专利库 / 核能 / 概率安全分析 / 基于Q-learning的自动入侵响应决策方法

基于Q-learning的自动入侵响应决策方法

阅读:1009发布:2020-08-27

专利汇可以提供基于Q-learning的自动入侵响应决策方法专利检索,专利查询,专利分析的服务。并且本 发明 属于信息安全技术领域,特别涉及一种基于Q‑learning的自动入侵响应决策方法,包含:扫描系统脆弱性,构建攻击图,依据攻击图建立网络状态层、攻击模式匹配层和响应措施层;建立网络状态层、攻击模式匹配层和响应措施层之间的映射关系;从网络防御设备接收入侵警报,并将其映射到对应网络状态;根据映射关系选择防御动作并将其结果告知系统;利用防御动作的执行结果进行在线学习,更新攻击模式匹配层和响应措施层之间的映射关系;返回映射到对应网络状态的步骤,进行自动响应决策和在线学习,直到防御者终止防御。本发明能够实现对策略的多响应目的评估,满足多响应目的的需求,提高入侵检测的实时性和准确性,降低网络资源消耗,提高系统整体性能。,下面是基于Q-learning的自动入侵响应决策方法专利的具体信息内容。

1.一种基于Q-learning的自动入侵响应决策方法,其特征在于,包含:
步骤1、扫描系统脆弱性,构建攻击图,依据攻击图建立网络状态层、攻击模式匹配层和响应措施层;
步骤2、建立网络状态层、攻击模式匹配层和响应措施层之间的映射关系;
步骤3、从网络防御设备接收入侵警报,并将其映射到对应网络状态;
步骤4、根据网络状态层、攻击模式匹配层和响应措施层之间的映射关系选择防御动作;
步骤5、利用防御动作的执行结果进行在线学习,更新攻击模式匹配层和响应措施层之间的映射关系;
步骤6、返回步骤3执行,进行自动响应决策和在线学习,直到防御者终止防御。
2.根据权利要求1所述的基于Q-learning的自动入侵响应决策方法,其特征在于,步骤
1中构建的攻击图使用三元组AG=(S,V,E)表示,其中,S为系统状态节点集合,V表示系统脆弱性节点集合,E表示有向边集合。
3.根据权利要求2所述的基于Q-learning的自动入侵响应决策方法,其特征在于,步骤
1中依据攻击图建立网络状态层、攻击模式匹配层和响应措施层,包含如下内容:通过原子攻击模式am(viSj)表示攻击者已利用脆弱性节点vi进行攻击并使系统到达状态节点Sj;攻击模式矩阵用0-1矩阵表示,amkij=1表示攻击者具有原子攻击模式am(viSj),amkij=0表示攻击者不具有原子攻击模式am(viSj);攻击模式集AM(Si)={amk|k=1,2,…,z},表示状态节点Si对应的攻击模式;防御措施集A(Si)={ak|k=1,2,…,m}表示在状态节点Si供选择响应的防御措施。
4.根据权利要求3所述的基于Q-learning的自动入侵响应决策方法,其特征在于,步骤
2中,状态节点到攻击模式的映射遵循最大度原则,即:如果有多个攻击模式相符合,优先选择攻击模式度最大的进行映射,其中,攻击模式度表示攻击者的攻击模式中具有的原子攻击模式数目,该攻击模式度利用攻击模式矩阵计算得到。
5.根据权利要求3所述的基于Q-learning的自动入侵响应决策方法,其特征在于,攻击模式到响应措施之间的映射基于收益获取。
6.根据权利要求5所述的基于Q-learning的自动入侵响应决策方法,其特征在于,攻击模式到响应措施之间的映射时,首先将期望累积收益较好的M个动作加入可执行动作集,然后采用Softmax法计算其被执行概率,根据概率随机选取防御动作,其中,期望累积收益表示为在攻击模式am下选择防御动作a的期望累积收益Q(am,a)。
7.根据权利要求1所述的基于Q-learning的自动入侵响应决策方法,其特征在于,步骤
5中,利用防御动作的执行结果,基于投票机制进行响应决策,完成在线学习及攻击模式匹配层和响应措施层之间映射关系的更新。
8.根据权利要求7所述的基于Q-learning的自动入侵响应决策方法,其特征在于,投票机制具体包含:通过将响应目的划分为:追踪攻击rd1、分析攻击rd2、屏蔽攻击rd3、最大化系统机密性rd4、最大化数据完整性rd5、最小化资源成本rd6、恢复系统rd7和维持服务rd8 ;每种响应目的的期望累积收益分别独立更新,更新过程为:
其中,Q(am,a)为在攻击模式am下选择防御动
作a的期望累积收益, 为累积收益;每个响应动作最终的期望累积收益为
ωi为每个响应目的设置的权重。
9.根据权利要求7所述的基于Q-learning的自动入侵响应决策方法,其特征在于,每次执行完响应措施对各个响应目的的立即回报进行评估,并更新完累积回报以及期望累积回报后,引入奖惩机制更新响应措施。
10.根据权利要求9所述的基于Q-learning的自动入侵响应决策方法,其特征在于,引入奖惩机制更新响应措施,具体内容:根据更新后每个响应目的的期望累计收益voteγ(s,a),如果voteγ(s,a)大于安全阈值θ,则利用稳定奖励因子μ对响应措施进行奖励:Qi(s,a)=μQi(s,a),μ≥1,如果voteγ(s,a)小于安全阈值θ,则利用不稳定惩罚因子ν对响应措施进行惩罚:Qi(s,a)=νQi(s,a),0≤ν≤1。

说明书全文

基于Q-learning的自动入侵响应决策方法

技术领域

[0001] 本发明属于信息安全技术领域,特别涉及一种基于Q-learning的自动入侵响应决策方法。

背景技术

[0002] 随着社会信息化程度的不断加强,网络攻击也日趋频繁,给防御者造成巨大损失。网络安全问题越来越受到关注,入侵检测和响应技术也成为研究热点之一。与入侵检测技术得到广泛应用并取得良好效果相比,入侵响应虽然不是一个新的技术,但其发展却是滞后的。检测的目的是响应,检测只能发现攻击,只有正确的响应才能有效保护系统的安全。
近年来攻击越来越自动化和复杂化,人工响应已经无法满足及时性和有效性的安全需求,自动响应成为了一种必然的趋势。
[0003] 自动响应中最关键的是自动响应决策问题,即建立入侵警报与响应措施之间的映射。自动响应决策方法主要分为三类:(1)静态映射方法。静态映射方法是将特定的报警映射到一个特定的响应措施上。此方法迈出了自动响应的第一步,很大程度解决了人工响应时间过长、负担过重的问题。静态映射方法简单、响应速度快,但是由于映射关系固定,很容易被攻击者猜测和利用,而且真实的网络环境是动态变化的,响应措施容易失效;(2)动态映射方法。依赖攻击误报率、攻击严重程度等攻击参量将报警映射到响应措施上。动态映射要优于静态映射,比静态映射考虑了更多的因素,但是动态映射基于攻击参量进行决策,缺少考虑响应的代价往往得不偿失,而这种响应机制也可能被攻击者利用对系统造成破坏。(3)基于收益的映射方法。基于收益的映射方法是近几年自动响应决策的主流方法,解决了响应得不偿失的问题,但是仍然存在以下不足:网络的动态性要求入侵响应决策具有自适应性。目前,很多模型通过对网络实时评估选择响应措施体现其自适应性,但由于网络的复杂性,导致这种方式涉及较多已知和未知的因素,准确性较差。建立反馈机制是一种较好的方案,然而已有响应决策模型大多没有反馈机制或反馈机制过于简单不能有效优化响应方案;大部分入侵响应决策模型响应目的单一,不能根据用户的安全需求进行调整,而且实际的响应决策是由多种响应目的共同决定的;防御者进行响应实际是在与攻击者进行博弈,面对不同类型的攻击者应该采取不同的防御措施,但由于防御者对攻击者信息掌握的有限性以及响应的实时性导致目前决策模型对不同类型攻击者的针对性响应没有取得较好效果。

发明内容

[0004] 针对现有技术中的不足,本发明提供一种基于Q-learning的自动入侵响应决策方法,采用基于收益的映射方式,将Q-learning引入到自动入侵响应决策中,以防御者收益最大化为目的,解决入侵检测不准确、实时性差和资源消耗大等问题。
[0005] 按照本发明所提供的设计方案,一种基于Q-learning的自动入侵响应决策方法,包含:
[0006] 步骤1、扫描系统脆弱性,构建攻击图,依据攻击图建立网络状态层、攻击模式匹配层和响应措施层;
[0007] 步骤2、建立网络状态层、攻击模式匹配层和响应措施层之间的映射关系;
[0008] 步骤3、从网络防御设备接收入侵警报,并将其映射到对应网络状态;
[0009] 步骤4、根据网络状态层、攻击模式匹配层和响应措施层之间的映射关系选择防御动作;
[0010] 步骤5、利用防御动作的执行结果进行在线学习,更新攻击模式匹配层和响应措施层之间的映射关系;
[0011] 步骤6、返回步骤3执行,进行自动响应决策和在线学习,直到防御者终止防御。
[0012] 上述的,步骤1中构建的攻击图使用三元组AG=(S,V,E)表示,其中,S为系统状态节点集合,V表示系统脆弱性节点集合,E表示有向边集合。
[0013] 上述的,步骤1中依据攻击图建立网络状态层、攻击模式匹配层和响应措施层,包含如下内容:通过原子攻击模式am(viSj)表示攻击者已利用脆弱性节点vi进行攻击并使系统到达状态节点Sj;攻击模式矩阵用0-1矩阵表示,amkij=1表示攻击者具有原子攻击模式am(viSj),amkij=0表示攻击者不具有原子攻击模式am(viSj);攻击模式集AM(Si)={amk|k=1,2,…,z},表示状态节点Si对应的攻击模式;防御措施集A(Si)={ak|k=1,2,…,m}表示在状态节点Si供选择响应的防御措施。
[0014] 优选的,步骤2中,状态节点到攻击模式的映射遵循最大度原则,即:如果有多个攻击模式相符合,优先选择攻击模式度最大的进行映射,其中,攻击模式度表示攻击者的攻击模式中具有的原子攻击模式数目,该攻击模式度利用攻击模式矩阵计算得到。
[0015] 优选的,攻击模式到响应措施之间的映射基于收益获取。
[0016] 优选的,攻击模式到响应措施之间的映射时,首先将期望累积收益较好的M个动作加入可执行动作集,然后采用Softmax法计算其被执行概率,根据概率随机选取防御动作,其中,期望累积收益表示为在攻击模式am下选择防御动作a的期望累积收益Q(am,a)。
[0017] 上述的,步骤5中,利用防御动作的执行结果,基于投票机制进行响应决策,完成在线学习及攻击模式匹配层和响应措施层之间映射关系的更新。
[0018] 优选的,投票机制具体包含:通过将响应目的划分为:追踪攻击rd1、分析攻击rd2、屏蔽攻击rd3、最大化系统机密性rd4、最大化数据完整性rd5、最小化资源成本rd6、恢复系统rd7和维持服务rd8;每种响应目的的期望累积收益分别独立更新,更新过程为:其中,Q(am,a)为在攻击模式am下选择防御动作
a的期望累积收益, 为累积收益;每个响应动作最终的期望累积收益为
ωi为每个响应目的设置的权重。
[0019] 优选的,每次执行完响应措施对各个响应目的的立即回报进行评估,并更新完累积回报以及期望累积回报后,引入奖惩机制更新响应措施。
[0020] 更进一步地,引入奖惩机制更新响应措施,具体内容:根据更新后每个响应目的的期望累计收益voteγ(s,a),如果voteγ(s,a)大于安全阈值θ,则利用稳定奖励因子μ对响应i i措施进行奖励:Q(s,a)=μQ (s,a),μ≥1,如果voteγ(s,a)小于安全阈值θ,则利用不稳定惩罚因子v对响应措施进行惩罚:Qi(s,a)=vQi(s,a),0≤v≤1。
[0021] 本发明的有益效果:
[0022] 本发明通过引入Q-learning算法解决自动响应决策中的自适应问题;基于攻击图对网络攻防中的状态和动作进行形式化描述,引入攻击模式层将传统强化学习的二层映射扩展为三层映射,通过攻击模式层识别不同能的攻击者的,从而做出更有针对性的响应动作;针对入侵响应的特点,采用Softmax算法替换Q-learning的贪心算法并引入安全阈值、稳定奖励因子和惩罚因子进行防御策略的选取;基于投票机制实现对策略的多响应目的评估,满足多响应目的的需求,提高入侵检测的准确性和实时性。附图说明:
[0023] 图1为实施例中方法流程示意图;
[0024] 图2为实施例中三元组攻击图示例;
[0025] 图3为实施例中三层映射示例;
[0026] 图4为实施例中学习机制示例。具体实施方式:
[0027] 为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。实施例中涉及到的技术术语如下:
[0028] 由于网络的复杂性,现有自动响应决策多存在准确性、实时性没有取得较好效果,Q-learning是一种典型的免模型强化学习算法,通过不断重复“执行、积累、学习、决策”的过程,不断累积经验并优化决策结果,被广泛应用于自适应决策领域。鉴于此,本发明实施例提供一种基于Q-learning的自动入侵响应决策方法,参见图1所示,包括以下步骤:
[0029] 步骤1:扫描系统脆弱性,构建攻击图,依据攻击图建立网络状态层、攻击模式匹配层和响应措施层。
[0030] 步骤2:建立网络状态层、攻击模式匹配层和响应措施层之间的映射关系。
[0031] 步骤3:从网络防御设备接收入侵警报,并将其映射到对应网络状态。
[0032] 步骤4:根据网络状态层、攻击模式匹配层和响应措施层之间的映射关系选择防御动作并将其结果告知系统。
[0033] 步骤5:利用防御动作的执行结果进行在线学习,更新攻击模式匹配层和响应措施层之间的映射关系。
[0034] 步骤6:重复执行3-5步,进行自动响应决策和在线学习,直到防御者终止防御。
[0035] 通过引入Q-learning算法解决自动响应决策中的自适应问题;基于攻击图对网络攻防中的状态和动作进行形式化描述,引入攻击模式层将传统强化学习的二层映射扩展为三层映射,通过攻击模式层识别不同能力的攻击者的,从而做出更有针对性的响应动作。
[0036] 为对网络攻防中状态和动作进行性更好的描述,本发明另一个实施例中,攻击图使用一个三元组AG=(S,V,E)表示,其中,S={Si|i=1,2,…,n}为系统状态节点集合,V={Vi|i=1,2,…,m}表示系统脆弱性节点集合,E=S×VUV×S表示有向边集合,攻击图示例如图2所示。
[0037] 参见图3所示,依据攻击图建立网络状态层、攻击模式匹配层和响应措施层的过程中,原子攻击模式am(viSj):表示攻击者已利用脆弱性vi进行了攻击并使系统到达状态Sj。攻击模式矩阵用0-1矩阵表示,其中amkij=1表示攻击者具有原子攻击模式am(viSj)。amkij=
0表示攻击者不具有原子攻击模式am(viSj)。攻击模式矩阵中含有的所有原子攻击模式共同组成攻击者的攻击模式。攻击模式集AM(Si)={amk|k=1,2,…,z},表示状态Si对应的攻击模式。防御措施集A(Si)={ak|k=1,2,…,m},表示在状态Si可选择响应的防御措施。
[0038] 建立网络状态层、攻击模式匹配层和响应措施层之间的映射关系中,本发明的再一个实施例,从状态节点映射到攻击模式要遵循最大度原则,即如果有多个攻击模式相符合,优先选择攻击模式度最大的进行映射。攻击模式度N:表示攻击者的攻击模式中具有的原子攻击模式数目。其中N可以由攻击模式矩阵通过以下运算求得。
[0039]
[0040] 优选的,攻击模式和响应措施之间基于收益进行映射。定义Q(am,a)为在攻击模式am下选择防御动作a的期望累积收益。更进一步地,进行映射时,首先将期望累积回报较高的M个动作加入可执行动作集,然后采用Softmax法计算其被执行概率,根据概率随机选取防御动作。其中,Softmax法依据期望收益的高低来决定动作被选择的概率,如果回报较高则被选择的概率也较高,其概率基于Boltzmann分布:
[0041]
[0042] Softmax法结合了模拟退火算法的温控机制,其中τ>0称为温度,τ越小则期望累积收益高的动作被选择的概率越大。其中,Q(am,a)的初始化方法有三种:(1)通过其它自动响应决策模型进行赋值,再利用本文的入侵响应决策方法对其误差进行修正。(2)利用本文的入侵响应决策方法通过离线训练进行赋值,再通过本决策方法的在线学习针对系统的动态变化做出调整。(3)通过专家知识对其进行赋值,再利用本发明提供的入侵响应方法对其误差进行修正。
[0043] 为完成在线学习和更新攻击模式匹配层和响应措施层之间的映射关系,参见图4所示,本发明的另一个实施例中基于投票机制完成。人类在进行决策时并不是只选择一个响应目的,一个合适的响应措施是综合考虑多个目的结果,所以Agent进行响应决策时采取投票机制,每个响应目的具有一定的权重ωi,这个权重由管理员来设定,代表了每个响应目的投票时的发言权。响应目的共有八种,分别为:追踪攻击rd1、分析攻击rd2、屏蔽攻击rd3、最大化系统机密性rd4、最大化数据完整性rd5、最小化资源成本rd6、恢复系统rd7和维持服务rd8。八种响应目的的 期望累积收益分别独立更新,更新过程为:其中 为累积收益,其更新过程为:
每 个 响 应 动 作 最 终 的 期 望 累 积 收 益 为
为了能够加速学习,同时为了能够使响应决策进一步符合实际
入侵响应时对安全性的需要,引入奖惩机制。每次执行响应措施并对各个响应目的的立即回报进行评估并更新完累积回报以及期望累积回报后,计算响应措施的累积回报:
如果voteγ(s,a)大于安全阈值θ,则利用稳定奖励因子μ对响应措施进
行奖励:Qi(s,a)=μQi(s,a),μ≥1。如果voteγ(s,a)小于安全阈值θ,则利用不稳定惩罚因子v对响应措施进行惩罚:Qi(s,a)=vQi(s,a),0≤v≤1。八种响应目的含义及其量化具体如下:
[0044] 追踪攻击:确认攻击者身份和捕获攻击者的证据用于以后对攻击者反击或通过法律等手段追究攻击者的责任,其量化方法见表1.
[0045] 表1追踪攻击立即回报 及赋值
[0046]
[0047]
[0048] 分析攻击:对攻击过程进行分析,了解攻击的方式、路径等,其量化方法见表2。
[0049] 表2分析攻击立即回报 及赋值
[0050]
[0051] 屏蔽攻击:终止攻击,防止服务遭到破坏,其量化方法见表3。
[0052] 表3屏蔽攻击立即回报 及赋值
[0053]
[0054] 最大化机密性:阻止信息的泄漏,机密性定义见表4。
[0055] 表4机密性定义 及赋值
[0056]
[0057]
[0058] 最大化机密性立即回报 其中 取值0或1,0代表信息k未泄露,1代表泄露。
[0059] 最大化完整性:阻止文件被篡改,完整性定义见表5。
[0060] 表5完整性定义 及赋值
[0061]
[0062] 最大化完整性立即回报 其中 取值0或1,0代表资产k未被篡改,1代表被篡改。
[0063] 恢复系统:用较少的代价从攻击中恢复系统,但是并不追求终止攻击。恢复系统立即回报 其中 取值0或1,0代表恢复失败,1代表成功恢复。Wk为资产价值。
[0064] 维持服务:与屏蔽攻击不同的是这里不用终止攻击,维持服务是这处响应目的的核心。维持服务立即回报 其中 取值0或1,0代表服务不能正常使用,1代表服务维持成功,能够正常使用。Wk为服务的价值。
[0065] 最小化成本:使响应措施的成本最低,其量化方法见表6。
[0066] 表6最小化成本立即回报 及赋值
[0067]
[0068]
[0069] 综上,本发明通过引入Q-learning算法解决自动响应决策中的自适应问题;并基于攻击图对网络攻防中的状态和动作进行形式化描述,引入攻击模式层将传统强化学习的二层映射扩展为三层映射,通过攻击模式层识别不同能力的攻击者的,从而做出更有针对性的响应动作;针对入侵响应的特点,采用Softmax算法替换Q-learning的ε-贪心算法并引入安全阈值θ、稳定奖励因子μ和惩罚因子v进行防御策略的选取;基于投票机制实现对策略的多响应目的评估,满足多响应目的的需求,提高入侵检测的实时性和准确性,降低网络资源消耗,提高系统整体性能。
[0070] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0071] 结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
[0072] 本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
[0073] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈