专利汇可以提供Tor匿名通信流量应用分类的方法专利检索,专利查询,专利分析的服务。并且一种Tor匿名通信流量应用分类的方法,主要解决Tor匿名通信流量中上层应用类型信息获取的问题,涉及到特征选择、样本预处理以及流量建模等相关技术。该方法首先利用Tor的数据包调度机制,定义流突发段概念,并以流突发段的体积值和方向作为分类特征。然后基于K‑均值聚类 算法 和多序列比对算法对数据样本进行预处理,通过数值符号化和插入空隙的方式来解决数据样本过拟合和长度不一致问题。最后,使用Profile隐 马 尔科夫模型对不同应用的上行和下行Tor匿名通信流量分别进行建模,提出一种启发式算法快速建立Profile 隐马尔可夫模型 。在具体分类时,将待分类网络流量的特征代入不同应用的Profile隐马尔可夫模型中,分别计算出上行和下行流量模型对应的概率,并以最大联合概率值来决定待分类的Tor匿名通信流量所包含的上层应用类型。,下面是Tor匿名通信流量应用分类的方法专利的具体信息内容。
1.一种Tor匿名通信流量应用分类的方法,其特征是包括步骤:
1)利用Tor的数据包调度机制,定义流突发段概念,并以流突发段的体积值和方向作为分类特征;
2)基于K-均值聚类算法和多序列比对算法对分类特征的数据样本进行预处理,通过数值符号化和插入空隙的方式来解决数据样本过拟合和长度不一致问题;经过数据样本预处理,数值已经符号化,是由字母和空位组成,且长度是相同的;
3)使用Profile隐马尔科夫模型对不同应用的上行和下行Tor匿名通信流量分别进行建模;
4)最后,将待分类网络流量的特征代入不同应用的Profile隐马尔可夫模型中,分别计算出上行和下行流量模型对应的概率,并以最大联合概率值来决定待分类的Tor匿名通信流量所包含的上层应用类型;
所述步骤3)中,使用启发式方法建立Tor匿名通信流量的Profile隐马尔可夫模型,方法如下:
Tor匿名通信流量的Profile隐马尔可夫模型由Match、Insert、Delete三种状态组成;
为确定Match、Insert、Delete状态,首先对数据样本进行排列,分类特征的每一特征向量为一行,构成样本矩阵;
考察样本矩阵的每一列,每一列即对应Profile隐马尔可夫模型中的一个Match或Insert状态;确定每一列对应的具体的状态的方法为:如果该列中字母出现的数量超过一半,则为Match状态,如果该列中字母出现的数量没有超过一半,为Insert状态;Delete状态则由Match状态对应的列中的空位决定,空位越多,则表示从前一个状态转移到此Delete状态的概率越大;
由于Delete状态不产生输出,因而无需计算其对应的输出概率,而Insert状态的输出为随机输出,其可观察字符集包括样本中所有出现的字符,且输出概率为等概率分布,即对于所有的可观察字符,其产生的概率均为1/C,C为字符集合大小;所以确定Match、Insert和Delete状态后,仅计算状态间的转移概率以及Match状态的输出概率,方法为:
首先统计状态间的转移次数和Match状态对应的列中各字符出现的数量;
转移概率计算为:状态i转移到状态j的次数除以状态i转移的总次数;
输出概率计算为:第i个Match状态输出字符a的次数除以该状态输出的所有字符的总数量。
2.根据权利要求1所述的Tor匿名通信流量应用分类的方法,其特征是所述步骤1)中,将网络流中相反方向报文间的数据长度大于0即不包括报文头部字段的连续报文定义为流突发段,并将流突发段的体积值定义为该流突发段中所有报文长度的总和,流突发段的方向定义为流突发段中报文的方向,即入流方向或出流方向;分类特征选择为流突发段的体积值和方向。
3.根据权利要求2所述的Tor匿名通信流量应用分类的方法,其特征是所述步骤1)中,Tor匿名通信系统利用libevent事件实现输入缓冲区和输出缓冲区中数据的处理调度,表示为隐式的轮询调度;当Tor节点从TLS/Socks接口接收到信元数据后,将其存入相对应的输入缓冲区中;对于存在输入缓冲区中的信元,Tor采用轮询调度策略对其进行解密或加密处理;
轮询调度策略的方法为:
首先处理第一个输入缓冲区中的信元,处理完一定数量的信元后,接着处理第二个输入缓冲区中的信元,以此类推,直至最后一个输入缓冲区;然后再返回第一个输入缓冲区处理,如此循环反复;
对于输入缓冲区中的信元,处理完毕后,再存入相对应的输出缓冲区中;对于输出缓冲区队列,与输入缓冲区队列类似,Tor同样采用轮询策略来进行调度,将不同缓冲区中的信元通过TLS/Socks接口发送至网络;
对于流突发段,设c1,c2,s1,s2,s3,s4,c3,c4为客户端与服务器之间的交互报文且报文长度大于0,其中,ci代表客户端发出的报文,si为服务器端返回的响应报文,i为自然数;
则{c1,c2}、{s1,s2,s3,s4}和{c3,c4}为三个不同流突发段;则将流突发段体积值定义为段中所有报文长度的总和,突发段的方向定义为段中报文的方向,即入流方向或出流方向。
4.根据权利要求1所述的Tor匿名通信流量应用分类的方法,其特征是所述步骤2)中,采用K-均值聚类算法对流突发段的体积值进行符号化,即将数值转化为字母符号,样本的符号化过程包括:
首先确定合适的聚类数量kf:将聚类数量k从2递增至26,计算各类中距离intrak和类间距离interk,然后计算有效性vk=intrak/interk,并以最小vk值所对应的k作为聚类数量;
确定聚类数量kf后,对于所有类型的应用,首先对其训练阶段采集的所有流突发段体积值进行K-均值聚类,然后对每一类中的数值都用同一字母表示;完成聚类后,对所有训练样本进行符号化,确定每一体积值所在的类,然后用该类对应的符号来替换数值,得到符号化后的分类特征的特征向量;
采用多序列比对算法对特征向量进行比对,使同一类型应用的不同特征向量的长度相同,具体采用基于序列长度的渐进比对算法,其渐进比对由以下三个步骤完成:
a:通过序列的两两比对,计算出每对序列间的距离,进而得到距离矩阵;序列的两两比对由动态规划算法完成,用迭代方法计算出两个序列的相似分值,存于一个得分矩阵中,然后根据这个得分矩阵,回溯寻找最优的比对序列;
b:根据步骤a中获得的距离矩阵,构建向导树,向导树表示的是后续多序列比对中每一对比对序列的顺序;
c:沿着向导树中分枝的顺序,渐进比对新加入的序列;在此步骤中,通过渐进对比完成多序列的比对;根据向导树从叶子节点到根节点的顺序,对序列进行比对,首先比对关系最为接近的序列对,然后逐渐再将临近的序列引入并不断重新构建比对,直到所有序列都被加入为止;与步骤a类似,序列间的比对仍然通过动态规划算法完成,但特别的是,本步骤c中会存在序列与组以及组与组之间的比对;所有的序列根据距离被分为许多组,需要对不同组进行比对从而完成最终的序列比对。
5.根据权利要求1所述的Tor匿名通信流量应用分类的方法,其特征是所述步骤4)中,应用分类流程为:
4.1:从流f中提取下行和上行两个方向上的流突发段体积值,得到特征向量分别记为VI和VE;
4.2:根据在训练阶段得到的聚类信息,对VI和VE进行符号化;记符号化后的特征向量分别为SI和SE;
4.3:下行方向上的流突发段的体积值的向量对应的Profile隐马尔可夫模型为 对每一个模型 计算SI由模型 产生的概率,记概率为
4.4:上行方向上的流突发段的体积值的向量对应的Profile隐马尔可夫模型为 对每一个模型 计算SE由模型 产生的概率,记概率为
4.5:计算联合概率
其中,0≤α≤1,α用于调节入流和出流对分类的不同贡献,以达到最优的分类结果;
4.6:选择值最大的联合概率
pm=argmax{p1,p2,...,pN}
则流f的应用类型即确定为训练集中的第m个应用类型。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
高压蒸汽热脱附修复系统 | 2020-05-11 | 863 |
一种板带热轧生产线轧件温度获取方法及装置 | 2020-05-08 | 609 |
一种抑制马槟榔种仁产生恶唑烷硫酮的方法 | 2020-05-11 | 182 |
一种多维相变散热器及其制作方法 | 2020-05-08 | 374 |
一种冻土区高温运输管道的降温系统 | 2020-05-11 | 178 |
一种LED灯具的散热装置 | 2020-05-08 | 761 |
煤矸石页岩混合装置 | 2020-05-12 | 929 |
一种对流式PTC空气加热器 | 2020-05-12 | 437 |
负压空气流动降温装置 | 2020-05-12 | 520 |
对流式电壁炉 | 2020-05-13 | 247 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。