首页 / 专利库 / 人工智能 / 贝叶斯网络 / 一种基于改进D-S证据理论的网络异常检测方法

一种基于改进D-S证据理论的网络异常检测方法

阅读:843发布:2020-05-11

专利汇可以提供一种基于改进D-S证据理论的网络异常检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于改进D-S证据理论的网络 异常检测 方法,包括如下步骤:步骤1,采集网络数据;步骤2,对采集到的网络数据进行数据预处理;步骤3,利用经步骤2处理后的网络数据,采用改进的D-S证据理论训练网络异常检测模型;步骤4,将真实网络数据输入网络异常检测模型进行网络异常检测;步骤5,对网络异常检测结果进行 可视化 处理。本发明基于改进D-S证据理论进行网络异常检测,可以更好地确定不确定假设,得到更加精准的网络异常检测结果。,下面是一种基于改进D-S证据理论的网络异常检测方法专利的具体信息内容。

1.一种基于改进D-S证据理论的网络异常检测方法,其特征在于,包括如下步骤:
步骤1,采集网络数据;
步骤2,对采集到的网络数据进行数据预处理;
步骤3,利用经步骤2处理后的网络数据,采用改进的D-S证据理论训练网络异常检测模型;
步骤4,将真实网络数据输入网络异常检测模型进行网络异常检测;
步骤5,对网络异常检测结果进行可视化处理。
2.根据权利要求1所述的基于改进D-S证据理论的网络异常检测方法,其特征在于,所述步骤1的方法为:通过截获网络中传送的数据包,收集连接时间、网络类型、窗口大小、以及传输数据大小。
3.根据权利要求1所述的基于改进D-S证据理论的网络异常检测方法,其特征在于,所述步骤2包括如下子步骤:
步骤2.1,将采集到的网络数据划分为数值型数据和非数值型数据;
步骤2.2,对非数值型数据进行数值处理转换为数值字段数据;
步骤2.3,对数值字段数据进行线性变化,采用Min-Max归一化方法将数值字段数据归一化到[0,1]的范围;
步骤2.4,对数值型数据以及经步骤2.2-2.3处理得到的数值字段数据进行数据清洗。
4.根据权利要求1所述的基于改进D-S证据理论的网络异常检测方法,其特征在于,所述步骤3包括如下子步骤:
步骤3.1,提取网络数据中的关键特征内容并进行属性划分;
步骤3.2,将属性划分的网络数据进行骤2处理,并将得到的网络数据划分为训练集和测试集;
步骤3.3,在训练集上采用模糊朴素贝叶斯方法和FCM算法计算不同属性在识别框架上的BPA;
步骤3.4,使用Dempster合成规则将不同属性的BPA进行整合得到综合BPA;
步骤3.5,将综合BPA转换为一个聚焦决策的Pignistic概率函数;
步骤3.6,将测试集输入Pignistic概率函数,具有最大Pignistic概率的输出结果作为测试集的输出网络异常检测结果,并以此验证测试集的输出网络异常检测结果的准确率符合要求时,该Pignistic概率函数作为网络异常检测模型。
5.根据权利要求4所述的基于改进D-S证据理论的网络异常检测方法,其特征在于,所述步骤3.3中的方法如下:
(1)确定识别框架Θ
Θ=C={C1,C2,...,Cn}    (1)
识别框架幂集2Θ的焦元表示为:
Ω={{C1},...,{CN},{C1,C2},...,{Ci,Cj},...,{CN-1,CN}}    (2)其中,复合元素{Ci,Cj}(i≠j)为D-S证据理论中的不确定假设;
(2)通过计算隶属度值和隶属度方差确定复合假设
首先,给定训练集中的一个输入样本,对于属性x,计算隶属度值为:
μ{Ci}(x)=ui(xi)=maxjuij(xi)      (3)
然后,对于复合假设{Ci,Cj},在属性x分类之后计算每一个模糊划分下的隶属度方差为:
其中,M是期望,隶属度矩阵为
最后,设置一个阈值D(u)作为隶属度方差阈值,在该模糊划分下,隶属度矩阵U的每一行的隶属度方差的平均值作为阈值D(u)的取值,当D(ui)<D(u)时认为该输入样本同时具有两种类别标签的性质,即属于复合假设;
(3)计算生成类BPA
使用一个模糊AND算子来分配与复合假设相关的质量函数,通过模糊朴素贝叶斯方法计算得到每个复合假设的生成类BPA函数为:
(4)计算判别类BPA
定义复合假设的类别质心 为:
利用输入样本和类别质心距离的指数函数作为判别类BPA函数:
(5)加权整合生成类BPA和判别类BPA
整合等式如下:
其中, 表示生成类BPA, 表示判别类BPA,0≤α,β≥1是自适应确定两类证据重要性的调节参数;
则对于属性x的BPA:mx({·})的定义为:
其中,K是用来满足质量函数,使等式得出有效BPA的归一化因数:
6.根据权利要求5所述的基于改进D-S证据理论的网络异常检测方法,其特征在于,公式(6)中∧运算为最小值作为三范式。
7.根据权利要求5所述的基于改进D-S证据理论的网络异常检测方法,其特征在于,所述步骤3.4中使用的Dempster合成规则包括:
(1)对于两个证据的BPA合成
对于 命题A对于同一识别框架Θ上的两个质量函数:m1,m2,其Dempster合成规则为:
其中,符号 表示正交和,使质量函数之和为1,则K为归一化常数:
(2)对于多个证据的BPA合成
对于 命题A对于同一识别框架Θ上的n个质量函数:m1,m2,…,mn时,其Dempster合成规则为:
其中,归一化常数K为:
8.根据权利要求5所述的基于改进D-S证据理论的网络异常检测方法,其特征在于,所述步骤3.5中将综合BPA转换为一个聚焦决策的Pignistic概率函数的等式为:

说明书全文

一种基于改进D-S证据理论的网络异常检测方法

技术领域

[0001] 本发明涉及网络安全技术领域,尤其是一种基于改进D-S证据理论的网络异常检测方法。

背景技术

[0002] 网络异常检测技术是入侵检测领域研究的热点内容,但由于存在着误报率较高、检测攻击范围不够全面、检测效率不能满足高速网络实时检测需求等问题,并未在实际环境中得以大规模应用。对于这一问题,基于D-S证据理论的网络异常检测方法区分正常或攻击的情况时有着较大优势,但当新的攻击出现时,该证据理论表现的效果欠佳。同时,由于D-S证据理论的计算量问题较大、BPA构造复杂等问题导致该证据理论应用的局限性,从而使得现在的D-S证据理论不能满足网络异常检测的需要。

发明内容

[0003] 本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于改进D-S证据理论的网络异常检测方法。
[0004] 本发明采用的技术方案如下:
[0005] 一种基于改进D-S证据理论的网络异常检测方法,包括如下步骤:
[0006] 步骤1,采集网络数据;
[0007] 步骤2,对采集到的网络数据进行数据预处理;
[0008] 步骤3,利用经步骤2处理后的网络数据,采用改进的D-S证据理论训练网络异常检测模型;
[0009] 步骤4,将真实网络数据输入网络异常检测模型进行网络异常检测;
[0010] 步骤5,对网络异常检测结果进行可视化处理。
[0011] 进一步,所述步骤1的方法为:通过截获网络中传送的数据包,收集连接时间、网络类型、窗口大小、以及传输数据大小。
[0012] 进一步,所述步骤2包括如下子步骤:
[0013] 步骤2.1,将采集到的网络数据划分为数值型数据和非数值型数据;
[0014] 步骤2.2,对非数值型数据进行数值处理转换为数值字段数据;
[0015] 步骤2.3,对数值字段数据进行线性变化,采用Min-Max归一化方法将数值字段数据归一化到[0,1]的范围;
[0016] 步骤2.4,对数值型数据以及经步骤2.2-2.3处理得到的数值字段数据进行数据清洗。
[0017] 进一步,所述步骤3包括如下子步骤:
[0018] 步骤3.1,提取网络数据中的关键特征内容并进行属性划分;
[0019] 步骤3.2,将属性划分的网络数据进行骤2处理,并将得到的网络数据划分为训练集和测试集;
[0020] 步骤3.3,在训练集上采用模糊朴素贝叶斯方法和FCM算法计算不同属性在识别框架上的BPA;
[0021] 步骤3.4,使用Dempster合成规则将不同属性的BPA进行整合得到综合BPA;
[0022] 步骤3.5,将综合BPA转换为一个聚焦决策的Pignistic概率函数;
[0023] 步骤3.6,将测试集输入Pignistic概率函数,具有最大Pignistic概率的输出结果作为测试集的输出网络异常检测结果,并以此验证测试集的输出网络异常检测结果的准确率符合要求时,该Pignistic概率函数作为网络异常检测模型。
[0024] 进一步,所述步骤3.3中的方法如下:
[0025] (1)确定识别框架Θ
[0026] Θ=C={C1,C2,…,Cn}       (1)
[0027] 识别框架幂集2Θ的焦元表示为:
[0028] Ω={{C1},…,{CN},{C1,C2},…,{Ci,Cj},…,{CN-1,CN}}   (2)[0029] 其中,复合元素{Ci,Cj}(i≠j)为D-S证据理论中的不确定假设;
[0030] (2)通过计算隶属度值和隶属度方差确定复合假设
[0031] 首先,给定训练集中的一个输入样本,对于属性x,计算隶属度值为:
[0032]
[0033] 然后,对于复合假设{Ci,Cj},在属性x分类之后计算每一个模糊划分下的隶属度方差为:
[0034]
[0035] 其中,M是期望,隶属度矩阵为
[0036] 最后,设置一个阈值D(u)作为隶属度方差阈值,在该模糊划分下,隶属度矩阵U的每一行的隶属度方差的平均值作为阈值D(u)的取值,当D(ui)
[0037] (3)计算生成类BPA
[0038] 使用一个模糊AND算子来分配与复合假设相关的质量函数,通过模糊朴素贝叶斯方法计算得到每个复合假设的生成类BPA函数为:
[0039]
[0040]
[0041] (4)计算判别类BPA
[0042] 定义复合假设的类别质心 为:
[0043]
[0044] 利用输入样本和类别质心距离的指数函数作为判别类BPA函数:
[0045]
[0046]
[0047] (5)加权整合生成类BPA和判别类BPA
[0048] 整合等式如下:
[0049]
[0050] 其中, 表示生成类BPA, 表示判别类BPA,0≤α,β≥1是自适应确定两类证据重要性的调节参数;
[0051] 则对于属性x的BPA:mx({·})的定义为:
[0052]
[0053]
[0054] 其中,K是用来满足质量函数,使等式得出有效BPA的归一化因数:
[0055]
[0056] 进一步,所述步骤3.4中使用的Dempster合成规则包括:
[0057] (1)对于两个证据的BPA合成
[0058] 对于 命题A对于同一识别框架Θ上的两个质量函数:m1,m2,其Dempster合成规则为:
[0059]
[0060] 其中,符号 表示正交和,使质量函数之和为1,则K为归一化常数:
[0061]
[0062] (2)对于多个证据的BPA合成
[0063] 对于 命题A对于同一识别框架Θ上的n个质量函数:m1,m2,…,mn时,其Dempster合成规则为:
[0064]
[0065] 其中,归一化常数K为:
[0066]
[0067] 进一步,所述步骤3.5中将综合BPA转换为一个聚焦决策的Pignistic概率函数的等式为:
[0068]
[0069] 综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0070] 本发明基于改进D-S证据理论进行网络异常检测,可以更好地确定不确定假设,得到更加精准的网络异常检测结果。附图说明
[0071] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0072] 图1为本发明的基于改进D-S证据理论的网络异常检测方法的流程框图
[0073] 图2为本发明采用改进的D-S证据理论训练网络异常检测模型的流程框图。
[0074] 图3为本发明中不确定区域示意图。

具体实施方式

[0075] 如图1所示,本发明的一种基于改进D-S证据理论的网络异常检测方法,包括如下步骤:
[0076] 步骤1,采集网络数据;
[0077] 步骤2,对采集到的网络数据进行数据预处理;
[0078] 步骤3,利用经步骤2处理后的网络数据,采用改进的D-S证据理论训练网络异常检测模型;
[0079] 步骤4,将真实网络数据输入网络异常检测模型进行网络异常检测;
[0080] 步骤5,对网络异常检测结果进行可视化处理。
[0081] 以下结合实施例对本发明的特征和性能作进一步的详细描述。
[0082] 1、采集网络数据
[0083] 采集网络数据的方法为:通过截获网络中传送的数据包,收集连接时间、网络类型、窗口大小、以及传输数据大小。在实际应用中,还可以根据需要获取其他网络数据,后续过程相同。
[0084] 2、数据预处理
[0085] 采集到的网络数据的数据类型不统一、数据冗余、报警重复等现象,同时非数值型数据也无法直接进行量化处理,需要对采集到的网络数据进行数据预处理,获得干净、复杂度低且数据类型统一的网络数据,由此所述步骤2包括如下子步骤:
[0086] 步骤2.1,将采集到的网络数据划分为数值型数据和非数值型数据;
[0087] 步骤2.2,对非数值型数据进行数值处理转换为数值字段数据;具体地,对于非数值型数据进行统计分析,分别赋予相应的编号作为非数值型数据转换后的数值字段数据,以此保证网络数据集中的字段皆为数值型数据;非数值字段被处理为数值字段数据之后在度量方面会有较大的差距,此时就需要归一化操作;
[0088] 步骤2.3,对数值字段数据进行线性变化,采用Min-Max归一化方法将数值字段数据归一化到[0,1]的范围;
[0089] 步骤2.4,对数值型数据以及经步骤2.2-2.3处理得到的数值字段数据进行数据清洗;数据清洗包括去除干扰数据,再通过属性选择进一步删减冗余数据,降低数据维度和后续的计算复杂度。
[0090] 3、网络异常检测模型
[0091] 如图2所示,所述步骤3包括如下子步骤:
[0092] 步骤3.1,提取网络数据中的关键特征内容并进行属性划分;其中,网络数据的关键特征内容可以是从获取的网络数据的连接时间、网络类型、窗口大小、以及传输数据大小等信息中的关键特征内容,例如,从源主机到目标主机的数据的字节、访问系统敏感文件和目录的次数、与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比等属性内容。具有p个属性的网络数据就被划分为p个独立属性模型,在应用于D-S证据理论时,因为网络数据是作为证据被输入,所以这部分也可以叫作证据划分。
[0093] 步骤3.2,将属性划分的网络数据进行骤2处理,并将得到的网络数据划分为训练集和测试集;其中,训练集用来计算每个独立属性模型的生成类BPA和判别类BPA,测试集用于验证网络异常检测模型的准确率,验证算法的效果。
[0094] 步骤3.3,在训练集上采用模糊朴素贝叶斯方法和FCM算法计算不同属性在识别框架上的BPA;在对网络异常检测这个问题上,识别框架中的命题是网络中发生了何种攻击和将要发生何种攻击。在选取识别框架时,我们要考虑现有的攻击种类,由此确定识别框架中的元素。识别框架表示网络异常检测问题的所有可能答案,但其中只有一个答案是正确的。该识别框架的子集称为命题,分配给各命题的信任程度称为基本概率分配(BPA)。
[0095] 在训练集上采用模糊朴素贝叶斯方法和FCM算法计算不同属性在识别框架上的生成类BPA和判别类BPA的过程如下:
[0096] (1)确定识别框架Θ
[0097] Θ=C={C1,C2,…,Cn}       (1)
[0098] 识别框架幂集2Θ的焦元表示为:
[0099] Ω={{C1},…,{CN},{C1,C2},…,{Ci,Cj},…,{CN-1,CN}}  (2)
[0100] 其中,复合元素{Ci,Cj}(i≠j)为D-S证据理论中的不确定假设,在本发明中不考虑基数超过2的焦元。为了更直观地理解识别框架中的复合元素,每个类别利用高斯分布进行建模,如图3所示,代表了第k项属性属于类别Ci或Cj的隶属程度。左边区域和右边区域分别代表了类别Ci和Cj的高斯分布,中间的重合区域是不确定区域(ROU,Region  of Uncertainty),所以落在ROU中的样本会难以辨识,因为它们较大程度地同时具有两个不同类别的性质,所以这部分样本的识别任务可能会产生分类错误。因此使用ROU来表示复合假设{Ci,Cj},以此来对不确定性数据进行划分。这样,对于每个独立属性,可以获得N个高斯分布和 个ROU函数来分别作为单一假设和复合假设的模型。
[0101] (2)通过计算隶属度值和隶属度方差确定复合假设
[0102] 使用模糊朴素贝叶斯方法和FCM算法来计算分配到每个焦元的基本概率时,模糊隶属度值 被用来表示每个属性归属于不同类别的程度。
[0103] 首先,给定训练集中的一个输入样本,对于属性x,计算隶属度值为:
[0104]
[0105] 然后,对于复合假设{Ci,Cj},在属性x分类之后计算每一个模糊划分下的隶属度方差为:
[0106]
[0107] 其中,M是期望,隶属度矩阵为
[0108] 最后,设置一个阈值D(u)作为隶属度方差阈值,在该模糊划分下,隶属度矩阵U的每一行的隶属度方差的平均值作为阈值D(u)的取值,当D(ui)
[0109] (3)计算生成类BPA
[0110] 由于在不确定区域内的对象既能属于Ci类,又能属于Cj类,所以使用一个模糊AND算子来分配与复合假设相关的质量函数,通过模糊朴素贝叶斯方法计算得到每个复合假设的生成类BPA函数为:
[0111]
[0112]
[0113] 同样地,在没有适当归一化的情况下,公式(5)和(6)可能无法产生有效的BPA。在公式(6)中,对于∧运算,可以使用任何三范式(T-Norm),在本发明中优选为最小值作为三角范式。
[0114] (4)计算判别类BPA
[0115] 依据FCM算法,利用输入样本和类别质心向量 之间的欧几里德距离来确定判别类BPA。由此以ROU作为复合假设这一概念为基础,定义复合假设的类别质心 为:
[0116]
[0117] 复合假设的类别质心 的值为通过两种不同类别Ci、Cj的分布计算出的具有最小AND值的点。
[0118] 利用输入样本和类别质心距离的指数函数作为判别类BPA函数:
[0119]
[0120]
[0121] (5)加权整合生成类BPA和判别类BPA
[0122] 为了使该识别框架更灵活、更能在实际应用中有较好的发挥,本发明提出一种加权调节框架来对不同证据进行收集与整合。整合等式如下:
[0123]
[0124] 其中, 表示生成类BPA, 表示判别类BPA,0≤α,β≥1是自适应确定两类证据重要性的调节参数;此加权调节机制可以从训练集中找到针对不同证据源的适当加权,利用网格搜索最小化训练误差,寻找最优调节参数,此处对训练过程不做赘述。另外,需要说明的是公式(5)、(6)、(8)、(9)中的 和 并非最终的BPA。
[0125] 对于属性x的整合BPA:mx({·})的定义为:
[0126]
[0127]
[0128] 其中,K是用来满足质量函数,使等式得出有效BPA的归一化因数,对于每一个属性都有一个最优集(α,β)与之对应:
[0129]
[0130] 步骤3.4,使用Dempster合成规则将每个独立属性模型的生成类BPA和判别类BPA进行整合得到综合BPA;
[0131] (1)对于两个证据的BPA合成
[0132] 对于 命题A对于同一识别框架Θ上的两个质量函数:m1,m2,其Dempster合成规则为:
[0133]
[0134] 其中,符号 表示正交和,使质量函数之和为1,则K为归一化常数:
[0135]
[0136] (2)对于多个证据的BPA合成
[0137] 对于 命题A对于同一识别框架Θ上的n个质量函数:m1,m2,…,mn时,同样可以按照将多个基本概率分配函数求正交和成为一个基本信任函数的方法,其Dempster合成规则为,:
[0138]
[0139] 其中,归一化常数K为:
[0140]
[0141] 步骤3.5,将综合BPA转换为一个聚焦决策的Pignistic概率函数;
[0142] Pignistic概率距离是以识别框架Θ下各子集的最大距离作为证据距离。利用Pignistic概率距离构造证据可信度,能够很好地判断证据之间的矛盾冲突。因此,本发明采用Pignistic概率距离作为证据决策依据。
[0143] 对于 m(A)是定义在识别框架Θ上的一个基本概率分配函数,那么它在识别框架Θ上的Pignistic概率函数Bet Pm:Θ→[0,1]:
[0144]
[0145] 上式中, 则上述等式可以简化为:
[0146]
[0147] 所有BPA整合完成之后,利用公式(19)将综合BPA被转换为一个聚焦决策的Pignistic概率。
[0148] 步骤3.6,将测试集输入Pignistic概率转换,具有最大Pignistic概率的输出结果作为测试集的输出网络异常检测结果;验证测试集的输出网络异常检测结果准确率符合要求时,该Pignistic概率转换作为网络异常检测模型。
[0149] 通过上述内容可知,本发明的网络异常检测方法量化了来自每个信息源的证据并对单一假设和复合假设分别构造其基本概率分配函数,并使用ROU来定义复合假设,为了兼顾不同源的特征,采用加权调节架构来为单一假设和复合假设分配概率。在实际应用中,可以采用训练机制来寻找适当的加权系数(α,β),将它们运用到不用的证据类别。
[0150] 4、网络异常检测;
[0151] 将真实网络数据输入网络异常检测模型进行网络异常检测,其中,真实网络数据同样采用步骤3的方法,利用模糊朴素贝叶斯方法和FCM算法计算不同属性的生成类BPA和判别类,以及综合BPA,最后通过Pignistic概率转换识别网络数据中的攻击数量、攻击种类、正常数量等信息。
[0152] 步骤5,对网络异常检测结果进行可视化处理。
[0153] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈