专利汇可以提供基于逻辑回归的增强模型的恶意加密流量检测方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种基于逻辑回归的增强模型的恶意加密流量检测方法,用于在保证恶意加密流量检测查准率的前提下提高查全率。实现步骤为:获取训练样本集S'和测试样本集X';构建基于逻辑回归的分类器集合H(x);对基于逻辑回归的分类器集合H(x)进行训练;获取恶意加密流量的检测结果。本发明通过优化代价函数,采用多个代价敏感分类器 迭代 的增强模型区分出存在于加密网络流量中的恶意加密流量。用于解决 现有技术 中,由于异常加密流量数据远少于良性加密流量造成的,难以在保证查准率的前提下提升查全率的技术问题。,下面是基于逻辑回归的增强模型的恶意加密流量检测方法专利的具体信息内容。
1.一种基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,包括如下步骤:
(1)获取训练样本集S'和测试样本集X':
(1a)获取训练样本集S':
(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;
(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥
2000,N≥60000,m≥200,n≥40000,xi表示第i个流;
(1a3)对每个流xi进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;
(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,...,xm+n中的出现频率进行排序,将前G个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,G>100,x'i表示从xi提取的维度为G的特征样本,yi表示x'i的标签;
(1b)获取测试样本集X':
将用户网络活动所产生的流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分成d个流,对每个流提取步骤(1a4)所排序得到的前G个协议头特征作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d],其中,x”i表示第i个含有G个协议头特征的特征样本;
(2)构建基于逻辑回归的分类器集合H(x):
(2a)构建包括T个逻辑回归分类器的分类器集合H(x):
H(x)={h1(x),h2(x),...,ht(x),...,hT(x)} (1)
其中,ht(x)表示第t个逻辑回归分类器,T≥2;
(2b)对第t个逻辑回归分类器的ht(x)的极大似然函数lt(θt)进行优化:
定义代价ωt=[w0t,w1t],其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,并通过ωt对ht(x)的极大似然函数为lt(θt)进行优化,得到ht(x)优化后的极大似然函数 其中,lt(θt)和的表达式分别为:
其中,θt表示M+1维的参数向量,θ't表示对θt优化后的参数向量,ht(x)表示x'i的预测值,log(·)表示对数函数, 表示求和函数;
(3)对基于逻辑回归的分类器集合H(x)进行训练:
(3a)初始化t=1,
(3b)将训练样本集S'与ωt=[w0t,w1t]作为基于逻辑回归的分类器集合H(x)中第t个逻辑回归分类器ht(x)的输入,计算ht(x)优化后的极大似然函数 的值η(θ't):
(3c)计算η(θ't)为最小值时的参数向量θ't的值,并将θ't的值作为代价敏感分类器h't(x)的参数,得到代价敏感分类器h't(x);
(3d)通过θ't计算S'中第i个特征样本x'i的预测值ht'(x”i):
T
其中,x”i表示x'i加上一个偏置项x'i0=1的M+1维特征向量,θ't表示θ't的转置;
(3e)采用最大类间方差法确定h't(x)的阈值为λ't,并通过λ't计算代价敏感分类器h't(x)分类误差率εt,然后根据εt取值确定h't(x)参与最终决策的权重αt:
其中, TPRt表示h't(x)识别出的正样本占所有真实正样本的比
例,TNRt表示h't(x)识别出的负样本占所有真实负样本的比例;
(3f)判断t=T是否成立,若是,将T个代价敏感分类器h'1(x),h'2(x),...,h't(x),...,h'T(x)和T个权重α1,α2,...,αt,...,αT进行组合,得到基于逻辑回归分类器的增强模型H'(x),否则,执行步骤(3g),其中, 表示求和函数,sign
(·)表示符号函数;
(3g)令t=t+1,对ωt进行更新,并执行步骤(3b),其中,
表示第t-1个逻辑回归分类器的代价调整系数,
FNt-1表示使用第t-1个逻辑回归分类器被判定为负样本
但实际是正样本的样本数,N表示正样本数,Zt-1表示使各逻辑回归分类器权重和为1的第t-
1个逻辑回归分类器的归一化因子,
(4)获取恶意加密流量的检测结果:
计算增强模型H'(x)的阈值λ”, 并使用增强模型H'(x)和λ”对测试样本
集X'中的每一个特征样本x”i进行分类,得到d个分类结果u1,u2,...,ui,...,ud,ui∈{0,1},
0表示恶意加密流量,1表示良性加密流量,并将ui=0时的x”i作为所检测的恶意加密流量。
2.根据权利要求1所述的基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,步骤(1a4)中所述的提取每个流xi的W个协议头特征,实现方法为:
(1a41)将第i个流xi包含的TLS数据包中的SAN数量numSAN、TLS公钥长度lenPKI和DNS数据包中的域名长度lenDOMAIN、域名中数字数量numDOMAIN_NUM、域名中英文字符数量numDOMAIN_ENG、IP数量numIP组成数字型特征LN;
(1a42)将第i个流xi包含的TLS数据包中的TLS版本集合 TLS密码套
件集合 TLS扩展集合
和DNS数据包中的域名后缀集合
TTL值集合 组成集合SET;
(1a43)将SET转换为二进制形式的字段型特征LL,并将LL与LN的拼接结果作为第i个流xi的W个协议头特征,其中,字段型特征LL第g位的值LLg为:
其中,SETg表示集合SET的第g个元素,W=n1+n2+n3+n4+n5+6。
3.根据权利要求1所述的基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,步骤(3c)中所述的计算η(θ't)为最小值时的参数向量θ't的值,实现步骤如下:
对步骤(3b)中的公式(4)进行求导:
计算θ'tj:=θ'tj+μ[w0tyi+(w1t-w0t)ht(x'i)yi-w1tht(x'i)]x'j至θ'tj的值收敛,并将该θ'tj的值作为η(θ't)为最小值时的参数向量θ't的值,其中,θ'tj:=f(θ'tj)表示用以θ'tj为变量的函数f(θ'tj)给θ'tj赋值,f(θ'tj)=θ'tj+μ[w0tyi+(w1t-w0t)ht(x'i)yi-w1tht(x'i)]x'j,x'j表示第j个特征样本,θ'tj表示迭代过程中第j个θ值,w0t表示将实际属于正类的样本分为负类所造成的代价,w1t表示将实际属于负类的样本分为正类所造成的代价。
4.根据权利要求1所述的基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,步骤(3e)所述的采用最大类间方差法确定h't(x)的阈值为λ't,并通过λ't计算代价敏感分类器h't(x)分类误差率εt,实现步骤如下:
(3e1)定义阈值取值范围的上界λmax, 定义阈值取值范围的下界λmin,
其中, 表示yi=0对应的特征样本x'i的预测值ht'(x”i)中的最大值,
表示yi=0对应的特征样本x'i的预测值ht'(x”i)中的最小值, 表示yi=1对应的特征样本x'i的预测值ht'(x”i)中的最大值, 将yi=1对应的特征样本x'i的预测值ht'(x”i)中的最小值,并以λstep为步长取K个阈值λ1,λ2,...,λk,...,λK,特征样本x'i的预测值ht'(x”i)大于阈值为正类,预测值小于阈值为负类,其中, 表示向上取
整,λk表示第k个阈值;
(3e2)令k=1,计算正类与负类的类间方差σ2k,σ2k=v0k*(u0k-uk)*(u0k-uk)+v1k*(u1k-uk)*(u1k-uk)=v0k*v1k*(u0k-u1k)*(u0k-u1k),其中,v0k表示在阈值λk分割下被分类为良性的样本数量占总测试样本数量的比例,v1k表示在阈值λk分割下被分类为恶意的样本数量占总测试样本数量的比例,u0k表示在阈值λk分割下被分类为良性样本的预测概率均值,u1k表示在阈值λk分割下被分类为恶意样本的预测概率均值,uk表示全体测试样本在阈值λk分割下预测概率的均值,uk=v0k*u0k+v1k*u1k;
2
(3e3)判断k=K是否成立,若是,将对应最大类间方差σk的阈值λk作为第t个逻辑回归分类器的阈值λ't,并执行步骤(3e5),否则,执行步骤(3e4);
(3e4)令k=k+1,使用λk计算正类与负类的类间方差σ2k,并执行步骤(3e3);
(3e5)通过λ't计算代价敏感分类器h't(x)分类误差率εt,计算公式为:
εt=(FNt+FPt)/(TPt+TNt+FNt+FPt)
其中,FNt表示被判为负样本但实际为正样本的样本数,FPt表示被判为正样本但实际是负样本的样本数,TNt表示被判为负样本实际也是负样本的样本数,TPt表示被判为正样本实际也是正样本的样本数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种无线体域网能耗和时延加权最小的安全路由选择方法 | 2020-05-08 | 568 |
一种低功耗高运算性能求解计算流体动力学的框架方法 | 2020-05-08 | 107 |
一种快速除法器和除法运算方法 | 2020-05-11 | 889 |
一种基于权重的条件游走图推荐方法 | 2020-05-11 | 357 |
一种基于比特币交易时序序列相似性的用户聚类方法 | 2020-05-11 | 540 |
一种DoS攻击下的目标跟踪方法 | 2020-05-08 | 79 |
在大规模MIMO中基于光滑范数的压缩感知信道估计方法 | 2020-05-08 | 150 |
一种节省寄存器资源的边缘计算方法 | 2020-05-11 | 589 |
一种基于量子混沌和混沌复动力系统的图像加密方法 | 2020-05-08 | 927 |
一种反欺诈模型的训练方法及装置 | 2020-05-08 | 374 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。