一种基于奖励反馈的智能蜜罐系统专利检索-强化学习机器学习人工智能人工智能专利检索查询-专利查询网

一种基于奖励反馈的智能蜜罐系统

阅读：212发布：2020-05-11

专利汇可以提供一种基于奖励反馈的智能蜜罐系统专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于奖励反馈的智能蜜罐系统，应用强化学习方法实现对攻击者信息收集的最大化。蜜罐系统与攻击者进行交互，在环境中进行自主学习。蜜罐采用马尔可夫模型，通过奖励函数来对蜜罐系统的优质反应提供奖励，交互时间越长奖励越多。由于基于强化学习思想，蜜罐不需要事先设置反应规则，如配置在给定一组具体输入时应该采取什么样的操作，而是根据前面的经验来学习在当前情况下应该采取什么行动。技术人员不需要对蜜罐系统频繁升级，减少了技术人员的工作量，可极大提高了蜜罐系统的对抗性和效用性。，下面是一种基于奖励反馈的智能蜜罐系统专利的具体信息内容。

权利要求

1.一种基于奖励反馈的智能蜜罐系统，其特征在于:
智能蜜罐系统是基于强化学习模型，应用奖励反馈机制，采用马尔可夫模型；强化学习模型是一种机器学习技术；蜜罐在给定的环境中自主学习；智能蜜罐系统在没有给定具体什么输入时自主决策，自己决定下一步该进行何种操作；
蜜罐系统能够和自动恶意软件主动交互；奖励函数能够根据蜜罐系统与恶意软件交互的情况即蜜罐系统交互的时间长短制定相应的奖励；蜜罐系统与恶意软件交互的时间越长，奖励越多。
2.根据权利要求书1中所述的一种基于奖励反馈的智能蜜罐系统，奖励反馈模型采用深度学习思想，其特征在于，所述模型包含以下3个步骤：
步骤1、当自动恶意软件攻击蜜罐系统时，蜜罐会和自动恶意软件之间主动交互；
步骤2、奖励函数能够根据蜜罐系统与自动恶意软件之间交互的情况即蜜罐系统与自动恶意软件交互时间的长短来进行奖励；蜜罐与自动恶意软件交互的时间越长，交互次数越频繁；奖励函数奖励的越多，反之则越少；
步骤3、蜜罐根据奖励函数一次次奖励的迭代情况自主学习，根据以往的学习经验自主决策下一步该干什么，与自动恶意软件之间进行自主交互。
3.根据权利要求书1中所述的一种基于强化学习的智能蜜罐系统，其特征在于，所述马尔可夫模型包含以下内容：
马尔可夫模型是一种特殊的数学框架，适用于不确定下的决策建模；马尔可夫模型表示为由状态、动作、转换概率和奖励组成的四个部分。
4.根据权利要求书2中所述的一种基于奖励反馈的智能蜜罐系统，其特征在于，所述奖励函数包含以下特点：
所述奖励函数的是运用强化学习技术对蜜罐系统与自动恶意软件的交互情况进行奖励，能够延长蜜罐系统与自动恶意软件之间的交互时间，奖励函数利用强化学习来延长攻击序列的交互作用，初始的计算机命令将尝试返回已知的蜜罐响应，对错误的请求及时的反映，根据响应的不同计算机将停止或修改其操作；蜜罐系统将自主学习，并因延长互动时间而得到奖励，从攻击序列中增加命令的数量、与自动恶意软件的交互情况由奖励函数决定；
将命令分为以下5大类：
-L：已知的Linux Bash命令，如wget，cd，mount，chmod等等；
-C：定制攻击命令，如文件下载命令；
-CC：复合命令，如带有Bash分隔符操作符的多个命令；
-NF：蜜罐不支持的已知命令；
-O：其它命令：没处理的按键，如enter和未知命令；
若计算机命令是一个输入字符串i，是由Bash命令(L)、定制命令(C)、复合命令(CC)之中任意一个命令组成，学习主体就会得到奖励，Y＝L∪C∪CC，

说明书全文

一种基于奖励反馈的智能蜜罐系统

技术领域

[0001] 本发明涉及基于奖励反馈的智能蜜罐系统，属于工业控制安全技术领域。

背景技术

[0002] 工业控制系统作为国家关键基础设施的重要核心，已成为电力、化工、石油与天然气、水处理等工业生产领域重要的支撑系统。这些年来工业控制系统不断发展，工控蜜罐系统也不断发展。蜜罐系统的开发已经成为一个不断进化的过程，需要能够应对不断出现的新威胁。目前自动恶意软件常常在其代码中融合蜜罐检测机制以实现对抗查杀，一旦蜜罐的功能暴露，恶意软件将不会继续攻击蜜罐，从而降低了蜜罐系统保护工业设备安全的效果，因此如何提升蜜罐的隐藏能力对于工业控制安全的意义十分重大。

发明内容

[0003] 当前的蜜罐系统如果被恶意软件检测发现，唯一使其恢复效用的办法是手动修改蜜罐系统，或者为蜜罐系统打上新版本补丁，以尝试避开恶意软件的检测。如今的恶意软件往往使用高度自动化的蜜罐检测技术，这导致技术人员需要持续开发出更新的版本和补丁来对付恶意软件及其变种。

[0004] 鉴于此，本发明描述了一种基于奖励反馈的智能蜜罐系统，具体运用了深度学习思想，主动选择与攻击者进行交互的最佳方式，以延长与攻击者的交互时间，从而学习到更多的攻击的特征。强化学习是一种机器学习技术，蜜罐在实际环境中进行自主学习，它没有被预先指示在给定一组具体输入时应该采取什么样的操作，而是根据以前的经验来学习在当前情况下应该采取什么行动。

[0005] 为达到上述发明目的，本发明通过以下技术方案实现。

[0006] 我们提出一个基于蜜罐系统的强化学习模型：

[0007] 步骤1蜜罐系统在与恶意软件进行交互时，蜜罐系统对自动恶意软件产生的攻击指令进行应对。

[0008] 步骤2系统根据蜜罐系统与恶意软件交互的情况给予不同的奖励，即蜜罐系统与恶意软件交互的指令越多，时间越长，系统给予蜜罐系统的奖励越多。

[0009] 步骤3蜜罐系统根据与自动恶意软件交互的情况，即奖励函数的奖励情况，进行学习。

[0010] 本发明类似机器学习中的强化学习，蜜罐系统在与自动恶意软件的交互过程中自主学习。蜜罐系统不是被动地让技术人员对系统进行修改以应对不断变化的自动恶意软件，而是学习以前的经验来决定当下应该采取何种行动。本发明不同于以往的蜜罐系统。以往的蜜罐系统通常设置完成后只能通过技术人员手工修改或升级。本发明可以通过对以往与攻击者的交互过程的自主学习，自主判断如何进行再次交互。

[0011] 强化学习问题一般可以用马尔可夫决策过程(MDP)来建模。在缺乏完整的环境模型的情况下，最优的模型常常是未知的或难以计算，强化学习方法有助于马尔可夫决策问题。

[0012] MDP是一种特殊的数学框架，适用于不确定下的决策建模。MDP通常可以表示为由状态、动作、转换概率和奖励四部分组成(S,A,P,R)：

[0013] -S，表示状态集

[0014] -A，表示动作空间

[0015] -P，表示状态转移概率矩阵

[0016] -R，表示奖励函数

[0017] St、St+1∈S,表示t和t+1时刻的状态，属于状态集S，Pss'a表示在当St状态下，经过a∈A后会转移到的概率St+1。

[0018] Pss'a＝p(St+1＝s'|St＝s At＝a)

[0019] R为奖励函数，R与所处的状态s和采取的动作a有关，与当前所处的时刻t无关。Rs表示在某一时刻t的状态s下到下一时刻t+1能获得的奖励期望。蜜罐系统的预期是优化其长期的奖励累计。

[0020] Rs＝E(Rt+1|St＝s At＝a)附图说明

[0021] 图1为本发明的蜜罐强化学习模型图

[0022] 图2为本发明的奖励函数命令流程图

[0023] 图3为本发明的奖励分析流程图

具体实施方式

[0024] 为使本发明实施例的目的、技术方案和有益效果更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0025] 如图1所示，本发明公开一种基于奖励反馈的智能蜜罐系统包括如下步骤：

[0026] 步骤1：当自动恶意软件攻击蜜罐系统时，蜜罐系统会和恶意软件进行交互。

[0027] 步骤2：奖励函数会根据蜜罐系统与恶意交互情况即蜜罐系统与恶意软件交互的时间长短制定相应的奖励。蜜罐系统与恶意软件交互的时间越长，奖励越多。

[0028] 步骤3：蜜罐系统运用强化学习技术在与恶意软件的交互过程中进行学习。它在没有被指示在给定一组具体的输入时应该采取什么行动，而是根据之前与恶意软件之间的交互情况，自主决定在当前情况下应该采取何种行动。

[0029] 所述图中有2个部分，蜜罐系统部分和自动恶意软件部分。蜜罐系统会与自动恶意软件进行交互。奖励函数会根据蜜罐系统与自动恶意软件交互的时间的长短进行奖励。蜜罐系统会根据奖励函数的奖励情况进行学习。当有新的恶意软件进行攻击时，蜜罐系统会根据以往的经验进行自主决策。

[0030] 如图2所示，本发明提供一个奖励函数的命令流程图。自动恶意软件是高度自动化的。当新的蜜罐被发现时，可以自动实施蜜罐规避技术。本发明利用强化学习来延长攻击序列的交互作用。初始的计算机命令将尝试返回已知的蜜罐响应，并对错误的请求及时反应。根据响应的不同计算机将停止或修改其操作。本发明的蜜罐系统将自主学习，并因延长互动时间而得到奖励。我们的奖励功能是从攻击序列中增加命令的数量。与自动恶意软件的交互情况由奖励函数决定。

[0031] 工业控制系统大部分是基于Linux系统的，Bash是大多数Linux计算机中的命令交互工具。研究人员在bash软件脚本中发现了shellshock漏洞。该漏洞可以通过bash跳过计算机系统内部的屏蔽机制从而远程控制几乎所有系统。因此，使用含有bash脚本的系统将使得计算机更易受漏洞攻击。

[0032] 本发明提出的奖励函数是关于Linux系统计算机命令的奖励函数。

[0033] 我们将计算机命令分为以下几大类

[0034] -L：已知的Linux Bash命令，如wget，cd，mount，chmod等等。

[0035] -C：定制攻击命令，如文件下载命令。

[0036] -CC：复合命令，如带有Bash分隔符操作符的多个命令

[0037] -NF：蜜罐不支持的已知命令

[0038] -O：其它命令：没处理的按键，如enter和未知命令如果计算机命令是一个输入字符串i，是由Bash命令(L)、定制命令(C)、复合命令(CC)之中任意一个命令组成，学习主体就会得到奖励。我们提出了操作集A|＝{allow，block，substitute}。允许和阻止是对恶意软件的直接反应。Substitute返回对攻击命令的替代响应，这会增加到新命令的攻击转换的次数。这个动作集与状态集Y耦合，创建了一个离散的状态动作空间。

[0039] 基于状态/动作(s,a)的转换奖励R(s,a)公式如下：

[0040]

[0041] 如果输入字符串是自定义攻击命令C或是已知Bash命令L或是复合命令CC，奖励R(s.a)＝1,否则R(s.a)＝0。

[0042] 定义收获Gt为在奖励链上从t时刻开始往后所有的奖励的有衰减的收益总和。

[0043] 定义公式如下：

[0044]

[0045] 其中的γ指的是衰减因子，体现了未来的奖励在当前时刻的价值比例。γ接近0，则表明趋向于“近视”性评估：γ接近1则表明偏重考虑远期的利益。

[0046] 如图3所示，本发明提供一个奖励分析流程图，来分析蜜罐系统对于不同的计算机命令的奖励情况。

[0047] 步骤1，计算机输入一个命令。

[0048] 步骤2，奖励函数对输入的计算机命令进行分析，将输入的计算机命令进行分类。

[0049] 步骤3，奖励函数对分类好的计算机命令进行判断，对Y＝L∪C∪CC进行判断，如果Y＝1，则奖励R(s.a)＝1，奖励函数将会产生奖励；否则奖励R(s.a)＝0，奖励函数不会产生奖励。最后将奖励结果反馈给蜜罐系统。

标题	发布/更新时间	阅读量
基于深度增强学习的预观控制仿人机器人步态规划方法	2020-05-12	704
一种多模态智能分析方法及系统	2020-05-12	214
一种目标用户的选择方法和装置	2020-05-13	883
虚拟对象的动画生成方法、装置、设备及存储介质	2020-05-13	504
一种基于相似上下文和强化学习的中文词向量生成方法	2020-05-13	585
一种基于奖励反馈的智能蜜罐系统	2020-05-11	212
一种基于LeNet和SSD的点触式验证码自动识别方法	2020-05-11	73
一种需求响应型公交调度方法	2020-05-08	712
多元强化耦合智能调控防止高粘性灰在催化剂表面沉积的系统及方法	2020-05-12	892
视频摘要模型的训练方法、视频摘要生成方法及装置	2020-05-13	605

一种基于奖励反馈的智能蜜罐系统

一种基于奖励反馈的智能蜜罐系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：