首页 / 专利库 / 银行与财务事项 / 别名映射 / 基于带对抗训练深度网络的恶意域名检测方法及系统

基于带对抗训练深度网络的恶意域名检测方法及系统

阅读:333发布:2020-05-11

专利汇可以提供基于带对抗训练深度网络的恶意域名检测方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于带对抗训练深度网络的恶意域名检测方法及系统,方法包括如下步骤:(1)恶意域名样本获取;(2)恶意域名样本预处理;(3)网络模型训练,选用C-RNN-GAN生成对抗网络模型;(4)可疑域名样本获取;(5)判别输出;(6)判断可疑域名。本发明公开的基于带对抗训练深度网络的恶意域名检测方法及系统,利用生成对抗网络的特性,对抗训练得到计算域名真假的判别器。判别器依据域名样本背后的多维特征进行鲁棒性判断,可以作为恶意域名检测的分类器。本发明由于采用了生成对抗网络的方法,学习恶意域名样本背后的数据特征,充分适合于网络安全的攻防对抗的实际情况,能够实现自我学习和自我完善。有效的提高域名分类的准确率。,下面是基于带对抗训练深度网络的恶意域名检测方法及系统专利的具体信息内容。

1.一种基于带对抗训练深度网络的恶意域名检测方法,其特征在于,包括如下步骤:
(1)恶意域名样本获取,从威胁情报平台获取威胁情报,提取其中的恶意域名并查询恶意域名的相关维度信息,根据恶意行为,筛选网络攻击范畴和置信度高的恶意域名,形成恶意域名样本,建立恶意域名样本集;
(2)网络模型训练,选用C-RNN-GAN生成对抗网络模型,所述网络模型包括生成器和判别器,使用恶意域名样本集作为所述网络模型的输入进行训练;
(3)可疑域名样本获取,查询可疑域名的相关维度信息,形成可疑域名样本;
(4)判别输出,向训练后的所述网络模型的判别器输入可疑域名样本,得到当前计算的相似度值;
(5)判断可疑域名,判断相似度值是否小于当前阈值,如是,则可疑域名为恶意域名,将其作为恶意域名样本,加入恶意域名样本集中,如否,则可疑域名为合法域名。
2.如权利要求1所述的恶意域名检测方法,其特征在于,恶意域名的相关维度信息包括如下信息中的一者或多者:
网站排名信息,其为Alexa网站排名信息;
页面收录量信息,其包括百度收录页面的数量、搜狗收录页面的数量以及必应收录页面的数量;
页面完整性信息,其中0表示无信息,1表示有信息;
注册地信息,其中0表示国外注册,1表示国内注册;
A记录信息,其中0表示无记录,1表示有记录;
CNAME记录信息,其中0表示无记录,1表示有记录;
CDN使用记录信息,其中0表示无使用记录,1表示有使用记录;
更新程度信息,其为恶意域名的更新次数;
其中,A记录信息用来指定主机名或域名对应的IP地址记录;CNAME记录信息是指别名记录,记录将多个名字映射到同一台计算机;CDN使用记录是内容分发网络Content Delivery Network使用记录,是指构建在现有网络基础之上的智能虚拟网络,以便用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。
3.如权利要求1所述的恶意域名检测方法,其特征在于,生成器和判别器的损失函数如下:
其中,SG是生成器的损失函数,用于训练生成器;SD是判别器的损失函数,用于训练判别器;G是生成器,用于输出生成样本;D是判别器,用于区分真实样本与生成样本;R是表示层,来自判别器的逻辑分类层的前一层;xi表示恶意域名样本;zi是用于生成器输入的随机序列向量,表示来自真实的样本数据;n表示当前恶意域名样本的数量。
4.如权利要求1所述的恶意域名检测方法,其特征在于,生成器和判别器均采用深度为
2的LSTM长短期记忆网络。
5.如权利要求1所述的恶意域名检测方法,其特征在于,其中,采用阈值自学习的方式更新阈值,公式如下:
at=min(d,at-1),其中,at表示当前阈值,at-1为前一次阈值,d为相似度值。
6.一种用于如权利要求1-5任一所述的恶意域名检测方法的恶意域名检测系统,其特征在于,包括:
数据获取模,用于获取筛选恶意域名样本和获取可疑域名样本;
网络模型,采用C-RNN-GAN生成对抗网络模型,用于以恶意域名样本作为输入进行训练后以可疑域名样本作为输入并输出计算值;
判断模块,用于根据计算值和阈值判断可疑域名为恶意域名或合法域名。

说明书全文

基于带对抗训练深度网络的恶意域名检测方法及系统

技术领域

[0001] 本发明涉及人工智能及控制技术领域,具体涉及一种基于带对抗训练深度网络的恶意域名检测方法及系统。

背景技术

[0002] 域名系统(Domain Name System,简称DNS)是整个互联网组成的一部分,完成了IP地址与域名的相互映射,用于在网络通信时将域名解析成IP地址,方便记忆和使用。如果DNS配置不合理,可能会导致网速缓慢、网站打不开,恶意的DNS甚至引起广告弹窗、欺诈、监听和劫持修改等恶意行为。
[0003] 近年来,DNS的安全问题频发。DNS作为世界上最庞大最复杂的分布式数据库,由于其开放、复杂、庞大等特性以及设计之初对安全性考虑不周,再加上人为破坏,使得DNS很难应对日益复杂的现代通讯网络,DNS面临非常严重的安全威胁。其中,比较常见的安全威胁有DNS欺骗和分布式拒绝服务攻击。DNS欺骗是指服务器对错误的域名请求做出错误的域名解析。DNS欺骗会引起诸多安全问题,例如将用户引导到钓鱼网站、欺诈网站等。分布式拒绝服务攻击(Distribution Denial of Service,简称DDoS)也是DNS面临的安全威胁之一,它利用网络协议和操作系统的漏洞,采用欺骗和伪装的策略来进行网络攻击,使服务器耗尽计算资源从而无法处理合法用户的网络请求。例如僵尸网络等。因此,如何解决DNS的安全问题并寻求有效的解决方案是当前DNS亟待解决的问题之一。
[0004] 为了解决DNS安全问题,人们提出多种解决方案,其中比较常见的是域名检测,即综合计算当前可疑域名的可信度,检测当前域名是否合法。域名检测又可分为基于知识和基于机器学习的两类方法。基于知识的方法通过计算域名一同出现的概率进行可疑域名检测。这种方法虽然检测的准确率高,但需要大量的专家知识,由于受限于专家知识不充足,导致检测的查全率不能满足要求,漏检恶意域名;基于传统机器学习的方法要求大量的样本标记数据,使用聚类、支持向量机决策树算法计算和分类,此方法需要大量的人工标记数据和算法的配合,往往难以用于大规模应用实例。因此,需要提出一种新的方法,结合上述两类方法的优势,弥补二者不足,以获取更佳的域名检测效果。

发明内容

[0005] 本发明的目的是提供一种基于带对抗训练深度网络的恶意域名检测方法及系统,有效地提高恶意域名检测的准确率。
[0006] 为实现上述发明目的,本发明提供以下的技术方案:一种基于带对抗训练深度网络的恶意域名检测方法,包括如下步骤:
[0007] (1)恶意域名样本获取,从威胁情报平台获取威胁情报,提取其中的恶意域名并查询恶意域名的相关维度信息,根据恶意行为,筛选网络攻击范畴和置信度高的恶意域名,形成恶意域名样本,建立恶意域名样本集;
[0008] (2)网络模型训练,选用C-RNN-GAN生成对抗网络模型,所述网络模型包括生成器和判别器,使用恶意域名样本集作为所述网络模型的输入进行训练;
[0009] (3)可疑域名样本获取,查询可疑域名的相关维度信息,形成可疑域名样本;
[0010] (4)判别输出,向训练后的所述网络模型的判别器输入可疑域名样本,得到当前计算的相似度值;
[0011] (5)判断可疑域名,判断相似度值是否小于当前阈值,如是,则可疑域名为恶意域名,将其作为恶意域名样本,加入恶意域名样本集中,如否,则可疑域名为合法域名。
[0012] 进一步的,恶意域名的相关维度信息包括如下信息中的一者或多者:
[0013] 网站排名信息,其为Alexa网站排名信息;
[0014] 页面收录量信息,其包括百度收录页面的数量、搜狗收录页面的数量以及必应收录页面的数量;
[0015] 页面完整性信息,其中0表示无信息,1表示有信息;
[0016] 注册地信息,其中0表示国外注册,1表示国内注册;
[0017] A记录信息,其中0表示无记录,1表示有记录;
[0018] CNAME记录信息,其中0表示无记录,1表示有记录;
[0019] CDN使用记录信息,其中0表示无使用记录,1表示有使用记录;
[0020] 更新程度信息,其为恶意域名的更新次数;
[0021] 其中,A记录信息用来指定主机名或域名对应的IP地址记录;CNAME记录信息是指别名记录,记录将多个名字映射到同一台计算机;CDN使用记录是内容分发网络Content Delivery Network使用记录,是指构建在现有网络基础之上的智能虚拟网络,以便用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。
[0022] 进一步的,生成器和判别器的损失函数如下:
[0023]
[0024]
[0025] 其中,SG是生成器的损失函数,用于训练生成器;SD是判别器的损失函数,用于训练判别器;G是生成器,用于生成样本;D是判别器,用于区分真实样本与生成样本;R是表示层,来自判别器的逻辑分类层的前一层;xi表示恶意域名样本;zi是用于生成器输入的随机序列向量,表示来自真实的样本数据;n表示当前恶意域名样本的数量。
[0026] 进一步的,生成器和判别器均采用深度为2的LSTM长短期记忆网络。
[0027] 进一步的,其中,采用阈值自学习的方式更新阈值,公式如下:
[0028] at=min(d,at-1),其中,at表示当前阈值,at-1为前一次阈值,d为相似度值。
[0029] 本发明还提供用于如上所述的恶意域名检测方法的恶意域名检测系统,包括:
[0030] 数据获取模,其用于获取恶意域名样本和可疑域名样本;
[0031] 数据预处理模块,其用于筛选恶意域名样本,组成恶意域名样本集;
[0032] 网络模型,其采用C-RNN-GAN生成对抗网络模型,用于以恶意域名样本作为输入进行训练后以可疑域名样本作为输入并输出计算值;
[0033] 判断模块,其用于根据计算值和阈值判断可疑域名为恶意域名或合法域名。
[0034] 由于上述技术方案运用,本发明与现有技术相比具有以下优点:本发明公开的基于带对抗训练深度网络的恶意域名检测方法及系统,利用生成对抗网络的特性,对抗训练得到计算域名真假的判别器。本发明的方法及系统充分适合于网络安全的攻防对抗的实际情况,并且能够实现自我学习和自我完善。判别器依据域名样本背后的多维特征进行鲁棒性判断,可以作为恶意域名检测的分类器。本发明由于采用了生成对抗网络的方法,学习恶意域名样本背后的数据特征,有效的提高域名分类的准确率。附图说明
[0035] 图1为本发明中恶意域名检测方法的流程图
[0036] 图2为本发明中网络模型的结构图;
[0037] 图3为本发明中恶意域名检测系统的结构图。

具体实施方式

[0038] 下面结合本发明的原理、附图以及实施例对本发明进一步描述
[0039] 为克服现有恶意域名检测方法的不足,有效地提高恶意域名检测的准确率,本发明提出利用生成对抗网络的特性,对抗训练得到计算数据真假的判别器。判别器依据数据样本背后的多维特征进行鲁棒性判断,可以作为恶意域名检测的分类器。本发明由于采用了生成对抗网络的方法,学习恶意样本背后的数据特征,有效的提高数据分类的准确率。
[0040] 参见图1至图3,如其中的图例所示,一种基于带对抗训练深度网络的恶意域名检测方法,包括如下步骤:
[0041] (1)恶意域名样本获取,从威胁情报平台获取威胁情报,提取其中的恶意域名并查询恶意域名的相关维度信息,根据恶意行为,筛选网络攻击范畴和置信度高的恶意域名,形成恶意域名样本,建立恶意域名样本集;
[0042] (2)网络模型训练,选用C-RNN-GAN生成对抗网络模型,所述网络模型包括生成器和判别器,使用恶意域名样本集作为所述网络模型的输入进行训练;
[0043] (3)可疑域名样本获取,查询可疑域名的相关维度信息,形成可疑域名样本;
[0044] (4)判别输出,向训练后的所述网络模型的判别器输入可疑域名样本,得到当前计算的相似度值;
[0045] (5)判断可疑域名,判断相似度值是否小于当前阈值,如是,则可疑域名为恶意域名,将其作为恶意域名样本,加入恶意域名样本集中,如否,则可疑域名为合法域名。
[0046] 本实施例中优选的实施方式,恶意域名的相关维度信息包括如下信息中的一者或多者:
[0047] 网站排名信息,其为Alexa网站排名信息;
[0048] 页面收录量信息,其包括百度收录页面的数量、搜狗收录页面的数量以及必应收录页面的数量;
[0049] 页面完整性信息,其中0表示无信息,1表示有信息;
[0050] 注册地信息,其中0表示国外注册,1表示国内注册;
[0051] A记录信息,其中0表示无记录,1表示有记录;
[0052] CNAME记录信息,其中0表示无记录,1表示有记录;
[0053] CDN使用记录信息,其中0表示无使用记录,1表示有使用记录;
[0054] 更新程度信息,其为恶意域名的更新次数;
[0055] 其中,A记录信息用来指定主机名或域名对应的IP地址记录;CNAME记录信息是指别名记录,记录将多个名字映射到同一台计算机;CDN使用记录是内容分发网络Content Delivery Network使用记录,是指构建在现有网络基础之上的智能虚拟网络,以便用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。
[0056] 本实施例中优选的实施方式,生成器和判别器的损失函数如下:
[0057]
[0058]
[0059] 其中,SG是生成器的损失函数,用于训练生成器;SD是判别器的损失函数,用于训练判别器;G是生成器,用于生成样本;D是判别器,用于区分真实样本与生成样本;R是表示层,来自判别器的逻辑分类层的前一层;xi表示恶意域名样本;zi是用于生成器输入的随机序列向量,表示来自真实的样本数据;n表示当前恶意域名样本的数量。
[0060] 本实施例中优选的实施方式,生成器和判别器均采用深度为2的LSTM长短期记忆网络。
[0061] 本实施例中优选的实施方式,其中,采用阈值自学习的方式更新阈值,公式如下:
[0062] at=min(d,at-1),其中,at表示当前阈值,at-1为前一次阈值,d为相似度值。
[0063] 本发明还提供用于如上所述的恶意域名检测方法的恶意域名检测系统,包括:
[0064] 数据获取模块10,其用于获取筛选恶意域名样本和可疑域名样本;
[0065] 网络模型20,其采用C-RNN-GAN生成对抗网络模型,用于以恶意域名样本作为输入进行训练后以可疑域名样本作为输入并输出计算值;
[0066] 判断模块30,其用于根据计算值和阈值判断可疑域名为恶意域名或合法域名。
[0067] 以下为对恶意域名检测方法的各个步骤的详细解释:
[0068] 获取数据及其维度信息
[0069] 从威胁情报平台获取威胁情报,威胁情报中包含多种信息,其中域名信息是核心数据之一。根据已有的威胁情报,提取其中的恶意域名相关信息,得到恶意域名样本库。根据恶意域名样本库收集的域名相关联的信息,查询Alexa网站排名信息,Alexa网站排名是当前较为权威的网站访问量评价指标,若无法查询到域名的排名信息,则录入一个固定的数值;百度与搜狗的收录信息,表示搜索引擎对网站页面等收录情况,若无法查询到信息,则设置当前维度的值为0;必应的收录信息;网站的完整度等数据。详细维度信息见下表。
[0070] 维度 名称 处理方法1 Alexa排名 获取Alexa网站排名信息
2 百度收录 获取网站收录页面的数量信息
3 搜狗收录 获取网站收录页面的数量信息
4 必应收录 获取网站收录页面的数量信息
5 网页内容完整性 检测网页内容的完整性,0表示无信息,1表示有信息
6 注册地检测 0表示国外注册,1表示国内注册
7 A记录 0表示无记录,1表示有记录
8 CNAME 0表示无记录,1表示有记录
9 CDN 0表示无使用记录,1表示有使用记录
10 域名更新程度 检测当前域名更新的次数
[0071] 数据清洗
[0072] 恶意行为分为多种,包括传播恶意软件、发送垃圾邮件、诈骗和钓鱼等。而恶意行为在不同安全等级的定义是不一样的。例如,发送垃圾邮在正常情况下可以被定义为恶意行为,但是在安全等级较低的情况下,垃圾邮件就有可能不属于上述的恶意行为。因此,需要筛选威胁情报中的恶意行为和恶意域名,着重挑选网络攻击范畴和置信度高的恶意域名样本,建立恶意域名样本库。将该域名列表和域名相关维度信息作为对抗训练神经生成对抗网络的样本集X。
[0073] 建立生成对抗网络
[0074] 生成对抗网络选用带对抗训练的连续循环神经网络(Continuous recurrent neural networks with adversarial training,简称C-RNN-GAN)的生成对抗网络结构。C-RNN-GAN生成对抗网络是一种带有对抗训练的深度循环生成对抗网络。根据对抗的思想,分布建立生成器G和判别器D。生成器G尽可能生成与真实样本数据x相同的样本数据,而判别器D尽可能的区分是生成的样本数据还是真实的样本数据。其中,针对恶意域名信息样本集,生成器和判别器分别采用深度为2的长短期记忆(Long Short-Term Memory,简写LSTM)网络,用于处理样本集中离散的真实数据,学习真实样本数据的特征。
[0075] 训练生成对抗网络
[0076] 根据设置好的模型结构定义损失函数。由于采用的生成对抗的思想,并且使用深度循环网络作为生成器G和判别器D的生成对抗网络结构。因此,定义损失函数如下:
[0077]
[0078]
[0079] 其中,SG是生成器的损失函数,用于训练生成器;SD是判别器的损失函数,用于训练判别器;G是生成器,用于生成样本;D是判别器,用于区分真实样本与生成样本;R是表示层,来自判别器的逻辑分类层的前一层;zi是用于生成器输入的随机序列向量;表示来自真实的样本数据;n表示当前样本的数量。
[0080] 根据定义好的损失函数,设置好超参数训练整个模型。输入数据来自样本集X,输入数据的格式是(x1,x2,…,xn)。
[0081] 检测可疑域名
[0082] 训练好生成对抗网络,并提取其中的判别器。输入可疑域名的相关信息,且相关信息必须具有数据所有维度的信息。将其输入到判别器,得到当前计算的相似度的值d。
[0083] 阈值自适应智能学习
[0084] 由于无法人工确定分类到恶意域名的阈值α的大小,因此,采用阈值自学习的方式。公式如下:
[0085] at=min(d,at-1),其中,at表示当前阈值,at-1为前一次阈值,d为相似度值。
[0086] 选取测试集对训练好的模型测试,每条测试样本通过判别器D得到的相似度的值与前一次的阈值比较,选取两者中的较小的值作为新的阈值,不断自学习,获取当前样本集最合理的恶意域名检测的阈值。
[0087] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈