首页 / 专利库 / 电脑零配件 / 固件 / 软件 / 恶意软件 / 一种基于深度迁移学习的大数据平台未知威胁检测方法

一种基于深度迁移学习的大数据平台未知威胁检测方法

阅读:597发布:2020-05-11

专利汇可以提供一种基于深度迁移学习的大数据平台未知威胁检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于深度迁移学习的 大数据 平台未知威胁检测方法,包括如下步骤:步骤一、构建源领域样本集;步骤二、采用与步骤一相同的方法采集目标领域的样本数据,然后采用数据增强的方法对样本数据进行扩充,构建目标领域样本集;步骤三、构建基于深度迁移学习的威胁检测模型。与 现有技术 相比,本发明的积极效果是:1、通过目标领域的数据增强,改善 深度学习 模型泛化能 力 不足的问题,进而提升了深度学习模型的预测效果。2、通过针对互联网海量威胁样本的迁移学习,实现了在不降低已知威胁检测率的前提下,有效检测没有出现过的未知威胁。3、通过融合特征的 深度神经网络 ,融合了不同维度的行为特征,提升了模型的识别准确率。,下面是一种基于深度迁移学习的大数据平台未知威胁检测方法专利的具体信息内容。

1.一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:包括如下步骤:
步骤一、构建源领域样本集:
在大数据平台的各个节点上部署信息采集探针装置,将不同的恶意软件单独放在沙箱中执行一段时间后,采集不同维度的特征数据,并将特征数据进行归一化处理;
步骤二、采用与步骤一相同的方法采集目标领域的样本数据,然后采用数据增强的方法对样本数据进行扩充,构建目标领域样本集;
步骤三、构建基于深度迁移学习的威胁检测模型:
先使用源领域样本集训练深度学习,然后用目标领域样本集对模型进行再训练,得到基于融合特征的深度神经网络威胁检测模型。
2.根据权利要求1所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:对样本数据进行扩充的方法为:将样本向量的每一个维度添加一个取值范围为[-0.001,0.001]之间的随机扰动项,然后再按照需求扩充小样本数据集。
3.根据权利要求1所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:所述不同维度的特征数据包括:
1)网络流量数据:最大流量包长度、最小流量包长度、后向方差数据字节、FIN包的个数、最大空闲时间、初始窗口阶段发送的字节数;
2)处理器性能数据:用户空间的cpu最大使用率、内核空间的cpu最大使用率、cpu最大空闲率、cpu在等待I/O的最大时间、cpu处理软中断的数量、cpu处理硬中断的数量;
3)内存性能数据:可使用的内存平均数、交换分区的平均大小、交换分区的平均大小、系统换入的交换页面数量、系统换出的交换页面数量、系统产生的缺页数量;
4)磁盘性能数据:可使用的磁盘平均数、数磁盘读出的的总数、写入磁盘的块的总数、I/O请求的平均大小、I/O请求的平均等待时间、处理I/O请求所占用的时间。
4.根据权利要求1所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:所述基于融合特征的深度神经网络威胁检测模型包括特征融合网络和威胁检测网络。
5.根据权利要求4所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:所述特征融合网络向前传递公式为:
式中,t∈{1,2,3,4}表示4种特征融合网络,lt={1,2,3}是特征融合网络的每一层,xt是特征融合网络的输入向量, 代表输入到lt层的向量, 是lt层的输出, 表示lt层t
的权重, 是l层的偏移量,f是神经网络的激活函数,采用线性整流函数。
6.根据权利要求5所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:所述特征融合网络的输入向量为:流量特征向量、内存特征向量、处理器特征向量、磁盘特征向量。
7.根据权利要求5所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:所述威胁检测网络向前传递公式为:
z'(l′+1)=W'(l′+1)y'(l′)+b'(l′+1)
y'(l′+1)=f(z'(l′+1))=max(0,z'(l′+1)),l'≠4
式中,l'={1,2,3,4}是威胁检测网络的每一层,z'(l')代表输入到l'层的向量,y'(l')是l'层的输出,W(l')表示l'层的权重,b(l')是l'层的偏移量,神经网络的激活函数f同样采用的是线性整流函数,o是威胁检测网络的输出函数,采用Sigmoid函数。
8.根据权利要求7所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:当y'(4)≥0.5时,L'=1;当y'(4)<0.5时,L'=0,其中L'表示威胁检测模型的预测标签。
9.根据权利要求8所述的一种基于深度迁移学习的大数据平台未知威胁检测方法,其特征在于:在所述基于融合特征的深度神经网络的训练过程中,采用如下交叉熵损失函数:
式中,L表示训练数据的标签。

说明书全文

一种基于深度迁移学习的大数据平台未知威胁检测方法

技术领域

[0001] 本发明涉及一种基于深度迁移学习的大数据平台未知威胁检测方法。

背景技术

[0002] 伴随着互联网技术、移动通信技术的日益发展和普及,大数据平台也面临着网络威胁和数据安全问题。大数据平台与用户之间的信息交换量大大提高,大数据平台领域的数据安全和险防范比传统网络更加复杂。特别是针对Hadoop等与移动业务系统整合的大数据平台,当前往往缺乏安全保护手段,或者采用的安全防御不足,面临数据窃取、数据完整、身份伪造等安全威胁且存在威胁样本较少的问题。针对现有大数据平台威胁检测方法的不足,提出一种基于深度迁移学习的未知威胁检测方法,采用深度迁移学习已有的知识来解决大数据平台中仅有少量标注样本数据的学习问题。
[0003] 现有发明中与迁移学习和威胁检测有关的方法有:一种网络威胁检测系统及检测方法(申请号:CN201610970197.0,申请日期:2016.10.28),通过提取实时采集网络流量数据的特征进行威胁检测,该方案可以识别基于流量的网络威胁,但是由于只采集流量数据作为威胁特征,识别非流量特征的能较差;一种威胁检测方法及装置(申请号:CN201710124581.3,申请日期:2017.03.03),通过检测传输控制协议TCP会话中的报文,有效的检测反弹端口型木程序,但该方案只针对反弹端口型木马威胁,不能解决大数据平台面临的其它安全威胁;高级威胁检测方法及智能探针装置和高级威胁检测系统(申请号:
CN201810695099.X,申请日期:2018.06.29),通过智能探针检测用户设备中的资源占用信息和操作日志进行威胁检测,但由于没有采集流量特征不能检测恶意流量威胁;迁移学习方法及装置(申请号:CN201510032970.4,申请日期:2015.01.22),该发明仅是迁移学习的一种实现方法及装置,并未涉及应用领域特别是网络安全,该方案提出的迁移学习方法也不适合本发明。

发明内容

[0004] 为了克服现有技术的上述缺点,本发明提供了一种基于深度迁移学习的大数据平台未知威胁检测方法,主要针对大数据平台面临的未知威胁提出解决方案,具体针对以下几个方面的问题提出解决方案:
[0005] 1)如何检测针对大数据平台的未知威胁,解决大数据平台的威胁小样本数据集的问题;
[0006] 2)如何采集未知威胁的特征,解决威胁特征类别不足的问题;
[0007] 3)如何提高未知威胁的识别率,解决多种威胁特征的融合问题以及融合特征的深度神经网络训练问题。
[0008] 本发明解决其技术问题所采用的技术方案是:一种基于深度迁移学习的大数据平台未知威胁检测方法,包括如下步骤:
[0009] 步骤一、构建源领域样本集:
[0010] 在大数据平台的各个节点上部署信息采集探针装置,将不同的恶意软件单独放在沙箱中执行一段时间后,采集不同维度的特征数据,并将特征数据进行归一化处理;
[0011] 步骤二、采用与步骤一相同的方法采集目标领域的样本数据,然后采用数据增强的方法对样本数据进行扩充,构建目标领域样本集;
[0012] 步骤三、构建基于深度迁移学习的威胁检测模型:
[0013] 先使用源领域样本集训练深度学习,然后用目标领域样本集对模型进行再训练,得到基于融合特征的深度神经网络威胁检测模型。
[0014] 与现有技术相比,本发明的积极效果是:
[0015] 本发明基于迁移学习,基于融合特征的深度神经网络等方式大大提高了针对大数据平台的威胁检测能力,相比现有技术主要具备以下有益效果和优点:
[0016] 1、通过目标领域的数据增强,扩充了针对大数据平台的威胁样本,改善深度学习模型泛化能力不足的问题,进而提升了深度学习模型的预测效果。
[0017] 2、通过针对互联网海量威胁样本的迁移学习,实现了在不降低已知威胁检测率的前提下,有效检测没有出现过的未知威胁。
[0018] 3、通过融合特征的深度神经网络,融合了不同维度的行为特征,充分表征了各个节点的工作状态,提升了模型的识别准确率。附图说明
[0019] 本发明将通过例子并参照附图的方式说明,其中:
[0020] 图1为本发明的基于深度迁移学习的威胁检测方案原理图;
[0021] 图2为基于融合特征的深度神经网络威胁检测原理图。

具体实施方式

[0022] 一、实现方案
[0023] 本发明所提出的方案实现了基于深度迁移学习的威胁检测框架,主要包含数据采集和处理、迁移学习以及深度学习威胁检测。通过不同的调用方式,构成了完整的基于深度迁移学习的大数据平台威胁检测系统。图1给出了基于深度迁移学习的威胁检测方案的示意图。以下基于图1说明工作原理。
[0024] 如图1所示,本发明的核心内容是从其他恶意程序的执行过程中获取相应的数据,构建源领域的大型威胁样本集,利用该样本集中丰富的监督信息来帮助目标领域深度学习模型的训练。
[0025] 在数据采集和处理方面,采取在大数据平台的各个节点上部署信息采集探针装置,然后将不同的恶意软件单独放在沙箱中执行一段时间,通常设定执行时间为30分钟,每次采样的间隔时间为3秒,采集相关的系统信息或者日志信息,共4类不同维度的特征数据用以反应节点工作状态,包括:网络流量数据、处理器性能数据、内存性能数据、磁盘性能数据。因为采集的数据量纲不同,在数据处理过程,需要用归一化手段,将数据归一到[-1,1]区间,这样就完成了源领域的大规模样本集构建。而针对目标领域,也采用相同的方法构建小样本数据,然后使用数据增强的方法扩充小样本集,具体而言就是把样本向量的每一个维度添加一个随机扰动项,扰动项取值范围为[-0.001,0.001]之间,这样就可以按照需求扩充小样本数据集。在采样时间间隔内,各个节点采集到的特征数据上传到具有威胁检测能力的中心节点,以便后面进行未知威胁检测。
[0026] 下面分别介绍在采样时间间隔内,每类特征具体需要采集的数据。
[0027] 1)网络流量数据:最大流量包长度、最小流量包长度、后向方差数据字节、FIN包的个数、最大空闲时间、初始窗口阶段发送的字节数。共计6个特征。
[0028] 2)处理器性能数据:用户空间的cpu最大使用率、内核空间的cpu最大使用率、cpu最大空闲率、cpu在等待I/O的最大时间、cpu处理软中断的数量、cpu处理硬中断的数量。共计6个特征。
[0029] 3)内存性能数据:可使用的内存平均数、交换分区的平均大小、交换分区的平均大小、系统换入的交换页面数量、系统换出的交换页面数量、系统产生的缺页数量。共计6个特征。
[0030] 4)磁盘性能数据:可使用的磁盘平均数、数磁盘读出的的总数、写入磁盘的块的总数、I/O请求的平均大小、I/O请求的平均等待时间、处理I/O请求所占用的时间。共计6个特征。
[0031] 在迁移学习方面,使用领域自适应的迁移学习方法。领域自适应是最常用的迁移学习方法之一。源领域和目标领域是领域自适应问题中两个至关重要的概念。源领域表示与测试样本不同的领域,但是有丰富的监督信息,目标领域表示测试样本所在的领域,无标签或者只有少量标签。源领域和目标领域往往属于同一类任务,但是样本的分布不同。我们威胁检测的目标领域是大数据平台的威胁,该细分领域威胁样本规模非常有限,属于典型的小样本数据集。源领域是互联网广泛的恶意代码威胁,拥有海量的威胁样本。因此,方案中先使用源领域海量威胁样本训练深度学习,然后用扩充后的小样本数据集对模型进行再训练,最终得到一个能够检测大数据平台未知威胁的模型。
[0032] 在深度学习威胁检测方面,方案使用了一种基于融合特征的深度神经网络威胁检测模型,该模型分为了两部分组成,分别是特征融合网络和威胁检测网络。特征融合网络可以融合不同种类的威胁样本特征,而威胁检测网络可以将融合后的特征作二分类,识别其行为是否具有威胁。基于融合特征的深度神经网络威胁检测模型的工作原理参见下一小节。
[0033] 二、威胁检测的原理
[0034] 在上一节介绍的数据采集处理和迁移学习的基础上,本节进一步阐释基于融合特征的深度神经网络威胁检测模型的工作原理。
[0035] 如图2所示,本方案的中使用的深度学习模型包含分为了两部分组成:特征融合网络和威胁检测网络。首先定义t∈{1,2,3,4}表示4种特征融合网络,lt={1,2,3}是特征融t合网络的每一层,x是特征融合网络的输入向量:流量特征向量,内存特征向量,处理器特征向量,磁盘特征向量;然后用 代表输入到lt层的向量, 是lt层的输出, 表示lt层的权重, 是lt层的偏移量,神经网络的激活函数f采用的是线性整流函数(ReLU)。那么特征融合网络向前传递公式为:
[0036]
[0037]
[0038]
[0039] 接下来定义l'={1,2,3,4}是威胁检测网络的每一层,z'(l')代表输入到l'层的向量,y'(l')是l'层的输出,W(l')表示l'层的权重,b(l')是l'层的偏移量,神经网络的激活函数f同样采用的是线性整流函数,o是威胁检测网络的输出函数,采用Sigmoid函数。那么威胁检测网络向前传递公式为:
[0040]
[0041] z'(l′+1)=W'(l′+1)y'(l′)+b'(l′+1)
[0042] y'(l′+1)=f(z'(l′+1))=max(0,z'(l′+1)),l'≠4
[0043]
[0044] 用L表示训练数据的标签,L'表示威胁检测模型的预测标签。那么当y'(4)≥0.5时,表示检测到有威胁,L'=1;y'(4)<0.5时,表示没有检测到威胁,L'=0。基于融合特征的深度神经网络在训练过程中,采用的是交叉熵损失函数:
[0045]
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈