技术领域
[0001] 本
发明涉及信息安全技术领域,更具体地,涉及一种基于PHMM的匿名网络溯源方法。
背景技术
[0002] 随着互联网的发展,人们对隐私保护越来越重视。传统基于密码技术的安全策略注重对内容的保护,不能有效的隐藏通信双方的身份以及模式。在这样的背景下,提出了大量的匿名网络技术。匿名网络通过采用重路由、数据混淆加密等多种匿名技术手段来隐藏通信双方的IP、MAC地址等信息,达到保护用户隐私的目的。TOR由于其低延时、易于配置和使用、服务稳定可靠等特点,被广泛的使用,然而,匿名网络在保护用户隐私信息的同时,也为不法分子利用,如全球最大的匿名网络“丝绸之路”。为了保障用户正常的使用互联网的权利并加强对上述犯罪行为的打击
力度,加大对暗网空间的管控,提出了针对Tor匿名网络的溯源技术,以实现获取通信双方的身份、地址、内容、阻断通信甚至使Tor匿名系统瘫痪等目标。
[0003] 针对TOR匿名网络的
网站指纹攻击方法,文献(T.Wang,X.Cai,R.Nithyanand,R.Johnson,and I.Goldberg,Effective attacks and provable defenses for website fingerprinting,in Proc.23rd USENIX Conf.Security Symposium,San Diego,CA,USA,2014,pp.143–157.)使用KNN提取6种类型的特征并且
迭代调整特征权重。文献(A.Panchenko,F.Lanze,A.Zinnen,M.Henze,J.Pennekamp,K.Wehrle,and T.Engel,Website fingerprinting at internet scale,in Proc.23 rd Internet Society(ISOC)Network and Distributed System Security Symp.,San Diego,CA,USA,2016.)用累积的方法来
采样特征,该方法对带宽,拥塞和页面加载时间的动态具有鲁棒性。文献(Hayes J,Danezis G.k-fingerprinting:a Robust Scalable Website Fingerprinting Technique[J].Computer Science,2015.)扩展了
随机森林技术,选择适当的特征,并在标准网页和Tor隐藏服务上进行实验。这几篇文献都是通过选取指纹特征处理方式以及合适的分类器进一步改进了网站指纹攻击方法。文献(M.Juarez,S.Afroz,G.Acar,C.Diaz,and R.Greenstadt,A critical evaluation of website fingerprinting attacks,in Proc.2014 ACM SIGSAC Conf.Computer and Communications Security,Scottsdale,AR,USA,2014,pp.263–274.)指出网站指纹攻击方法的假设对现实条件下的网站指纹攻击会有影响。为了解决这个问题,文献(T.Wang and I.Goldberg,On realistically attacking tor with website fingerprinting,Proc.Priv.Enhanc.Technol.,vol.2016,no.4,pp.21–36,2016)提出了几种方法来弥补网站指纹识别在实验室环境下和现实条件下的差距。文献(Jahani H,Jalili S.A novel passive website fingerprinting attack on tor using fast fourier transform[J].Computer Communications,2016,96:43-51..)证明了以数据包大小及方向组成的特征序列是自相关的,引入一种基于快速傅里叶变换的新方法来计算实例与流量模式的相似距离,以此提高特征提取阶段的效率,准确率也提高。
在众多方法中,针对于tor匿名网络,虽然该方法的准确率在提高,但是收集网站指纹的过程并未考虑到超链接、内部链接、外部链接等情况。PHMM指基于泊松的隐
马尔科夫模型,主要用于
生物序列的分析,例如同源基因序列搜索(例如评估序列家族成员的新序列)和基因序列分类等。
发明内容
[0004] 本发明提供一种基于PHMM的匿名网络溯源方法,解决在Tor匿名网络中
访问网站超链接时导致的特征变化,确认匿名用户所访问网站。
[0005] 为解决上述技术问题,本发明的技术方案如下:
[0006] 一种基于PHMM的匿名网络溯源方法,包括以下步骤:
[0007] S1:收集每次访问网站、超链接、外部链接和内部链接时产生的数据并对获取的数据序列化;
[0008] S2:提取S1中序列化后的数据的特征,得到提取特征;
[0009] S3:将S2得到的提取特征生成PHMM,并生成HMM
数据库;
[0010] S4:对匿名用户采集用户数据,并将用户数据序列化;
[0011] S5:查询HMM数据库判断用户数据为哪类,确认匿名用户所访问网站。
[0012] 优选地,步骤S1中,对获取的数据序列化的过程中过滤了对序列学习没有用的数据,包括有效负载长度为零的SYN和ACK。
[0013] 优选地,步骤S1具体包括以下步骤:
[0014] S1.1:对m个网站进行
数据采集,每个网站访问n次,数据表示如下:
[0015] Ti=di1,di2,…dil,
[0016] 式中,其中dik=±sik,Ti代表第i个实例访问某一网站所产生的向量序列,l表示数据包的个数,“+”、“–”来表示数据包传输的方向;sik表示第i个实例的第k个数据包大小;
[0017] S1.2:往每次访问网站时所获取的数据包个数中填充数据包使得数据包个数相同;
[0018] S1.3:对步骤S1.2后获得的数据用db4进行三层分解得到近似分量T3i;
[0019] S1.4:使用mallat
算法对近似分量T3i进行单支重构,得到Ti’;
[0020] S1.5:用字母表示Ti’序列,用字母A表示“-”,用字母B表示“+”,选取用字母C表示1490-1500数据包大小,依次用字母表示0-10,生成一个字母序列;
[0021] S1.6:用步骤S1.1至步骤S1.5的方法对访问超链接、外部链接和内部链接时产生的数据进行处理。
[0022] 优选地,步骤S1.2中填充的数据包大小为0,使得数据包个数达到2048。
[0023] 优选地,步骤S2中对访问同一网站的n组序列做多序列对比,得出相同序列部分,以此作为该网站的特征,对该网站访问超链接、外部链接和内部链接产生序列提取特征,作为在该网站的特征之一。
[0024] 优选地,使用clustalO做多序列对比。
[0025] 优选地,步骤S3中使用PHMMER工具建立PHMM,PHMM的建立需要设置三个参数(A,B,Π),A为状态转移矩阵,由下式计算所得:
[0026]
[0028]
[0029] Π为初始矩阵,采用启发式规则计算所得;
[0030] 使用hmmpress指令,将A,B,Π格式化为HMM数据格式,生成HMM数据库。
[0031] 优选地,步骤S5中使用hmmscan指令查询用户所访问网站。
[0032] 与
现有技术相比,本发明技术方案的有益效果是:
[0033] 本发明在特征收集的时候考虑到了网站的交互情况,通过将特征序列化,采用基因对比的方法来确认匿名用户所访问网站。特征的采集更加全面,使得该方法在tor匿名网络中更具有适用性。且该发明采用PHMM这种模型,使得效率更高。
附图说明
[0034] 图1为一种基于PHMM的匿名网络溯源方法流程示意图。
[0035] 图2为PHMM结构示意图。
具体实施方式
[0036] 附图仅用于示例性说明,不能理解为对本
专利的限制;
[0037] 为了更好说明本
实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0038] 对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0039] 下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0040] 实施例1
[0041] 本实施例提供一种基于PHMM的匿名网络溯源方法,如图1,包括以下步骤:
[0042] S1:收集每次访问网站、超链接、外部链接和内部链接时产生的数据并对获取的数据序列化;
[0043] S2:提取S1中序列化后的数据的特征,得到提取特征;
[0044] S3:将S2得到的提取特征生成PHMM,并生成HMM数据库;
[0045] S4:对匿名用户采集用户数据,并将用户数据序列化;
[0046] S5:查询HMM数据库判断用户数据为哪类,确认匿名用户所访问网站。
[0047] 步骤S1中,对获取的数据序列化的过程中过滤了对序列学习没有用的数据,包括有效负载长度为零的SYN和ACK。
[0048] 步骤S1具体包括以下步骤:
[0049] S1.1:对m个网站进行数据采集,每个网站访问n次,数据表示如下:
[0050] Ti=di1,di2,…dil,
[0051] 式中,其中dik=±sik,Ti代表第i个实例访问某一网站所产生的向量序列,l表示数据包的个数,“+”、“–”来表示数据包传输的方向;sik表示第i个实例的第k个数据包大小;
[0052] S1.2:往每次访问网站时所获取的数据包个数中填充数据包使得数据包个数相同;
[0053] S1.3:对步骤S1.2后获得的数据用db4进行三层分解得到近似分量T3i;
[0054] S1.4:使用mallat算法对近似分量T3i进行单支重构,得到Ti’;
[0055] S1.5:用字母表示Ti’序列,用字母A表示“-”,用字母B表示“+”,选取用字母C表示1490-1500数据包大小,依次用字母表示0-10,生成一个字母序列;
[0056] S1.6:用步骤S1.1至步骤S1.5的方法对访问超链接、外部链接和内部链接时产生的数据进行处理。
[0057] 步骤S1.2中填充的数据包大小为0,使得数据包个数达到2048。
[0058] 步骤S2中对访问同一网站的n组序列做多序列对比,得出相同序列部分,以此作为该网站的特征,对该网站访问超链接、外部链接和内部链接产生序列提取特征,作为在该网站的特征之一。
[0059] 使用clustalO做多序列对比。
[0060] 步骤S3中使用PHMMER工具建立PHMM,PHMM如图2所示,S、N、B、E、T、C、J、D、M、I表示各种状态。PHMM的建立需要设置三个参数(A,B,Π),A为状态转移矩阵,由下式计算所得:
[0061]
[0062] B为观测矩阵,由下式计算所得:
[0063]
[0064] Π为初始矩阵,采用启发式规则计算所得;
[0065] 使用hmmpress指令,将A,B,Π格式化为HMM数据格式,生成HMM数据库。
[0066] 步骤S5中使用hmmscan指令查询用户所访问网站,生成的指纹库中查询数据序列对应类别,确认匿名用户访问的网站。
[0067] 相同或相似的标号对应相同或相似的部件;
[0068] 附图中描述
位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0069] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的
基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何
修改、等同替换和改进等,均应包含在本发明
权利要求的保护范围之内。