专利汇可以提供一种基于机器学习的HTTP流量特征识别与提取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 机器学习 的HTTP流量特征识别与提取方法,包括如下步骤:步骤1,进行HTTP流量识别和采集;步骤2,进行特征检测,并生成规则;步骤3,提取HTTP流量特征。本发明方法相比于现有市面上基于正则表达式的特征提取,提高了特征的准确性,降低正则表达式误提脏数据的概率,相对于基于人工的特征标记方法,减少了人工成本的投入以及对新型特征响应反馈时间。同时本 专利 中,特征/规则生成与特征提取分离,可以设计独特的提取引擎,提高特征提取效率。,下面是一种基于机器学习的HTTP流量特征识别与提取方法专利的具体信息内容。
1.一种基于机器学习的HTTP流量特征识别与提取方法,其特征在于,包括如下步骤:
步骤1,进行HTTP流量识别和采集;
步骤2,进行特征检测,并生成规则;
步骤3,提取HTTP流量特征。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,流量抽样:解析链路层到传输层头部信息,获取(源IP,宿IP,源端口,宿端口,协议)五元组信息,过滤非TCP的流量,对TCP流量按照会话进行抽样;
步骤1-2,会话重组:会话重组依据TCP报文中序号和确认序号,对于客户端主动和服务端建立连接并发送的数据包,该数据包中的序列号和建立连接的第三步数据包中的序列号和确认序列号相同,服务端收到数据包,向客户端发送确认数据,所述数据包中,序列号是上一个数据包中的确认号,而确认号是客户端发送的数据包中序列号与数据包中所带数据的大小之和,依据序列号和确认序列号的关系,依照顺序重组TCP会话,收到4次挥手报文即完成会话重组,对乱序报文重新整理次序,对丢包报文,整个会话需要临时存储60s来判断是否存在丢包现象,如果发现4次挥手报文且会话不完整,60s过后依旧有缺失,则丢弃报文;
步骤1-3,检测应用层载荷,根据RFC协议规范制定的HTTP协议格式来识别HTTP流量;
步骤1-4,HTTP去重:对已经识别的HTTP流量,按照HTTP结构提取里面的HOST和URL字段,其中URL字段如果带了参数,则需要将URL协议中的参数去除,依据HOST和URL字段来去重;
步骤1-5,HTTP有效性初筛:用于过滤无价值数据,初筛根据关键字知识库进行匹配评分,关键字知识库包含两类数据,一类是关键字,另一类是关键字对应分值,通过查找HTTP会话中是否包含关键字,如果包含累加对应分值的方式获取评分,最终评分大于阈值50则判定所述HTTP流量有价值,提供给步骤2和步骤3进一步分析。
3.根据权利要求2所述的方法,其特征在于,步骤1-1中,所述对TCP流量按照会话进行抽样,抽样方式如下:通过TCP中SYN、ACK标识判断是否是三次握手的起始包,如果是,则通过产生的[1-100]随机数,按照抽样比判断接受或者拒绝该会话。
4.根据权利要求3所述的方法,其特征在于,步骤2包括:
步骤2-1,报文压缩与编码探测:HTTP流量头部在Content-Encoding首部指示报文内容压缩格式,对压缩格式进行解压,如果HTTP头部未包含Content-Encoding首部,则判断HTTP内容中是否包含gzip、zlib魔术头,如果包含,进行相应格式解码尝试,如果解码过程中出现异常,则退出编码探测流程,如果没有包含则直接跳过解压过程;对编码格式进行解码;
HTTP流量头部在Content-Type首部指明字符集charset,对非UTF-8字符集统一转换为UTF-
8字符集,没有指明字符集的默认使用UTF-8编码;
步骤2-2,报文分词:依据报文Content-Type指定MIME分解报文,对非HTTP规范中规定的MIME信息或者未包含MIME信息的默认使用application/x-www-form-urlencoded格式分解;
步骤2-3,特征识别:对每个分词字段采用2个维度进行识别,分别是线性分类器分类和知识库判定,每个维度依据各自权重计算出评分,评分大于阈值80则判定检测通过;
步骤2-4,特征标记:记录特征标记(HOST,URL,位置,编码,前缀,偏移,后缀,关联,排序,字段含义)十元组信息;
步骤2-5,特征整合:对特征标记信息归档整理,将规则十元组各个字段作为训练数据输入,采用K-Means聚类,降低特征数量,获取特征相似性;
步骤2-6,生成规则:依据特征相似性判断特征差异性,对差异性低于最小阈值10的标记特征尝试进行合并,合并生成的规则有两类:
第一类、URL字段能够提取较多数量公共前缀和公共后缀,数据量大小依据URL本身的长度进行考量,需要满足URL长度的一半,此时提取出功能前缀和公共后缀,中间部分使用通配符进行模糊处理生成新的URL,用新的URL替换原先规则内的URL字段,生成新的规则;
第二类、后缀字段能够获取公共前缀,将公共前缀a作为规则的后缀生成新的规则,用新的规则代替原有多条规则;
对差异性不低于最小阈值的规则不作处理,规则格式依旧满足特征标记中的十元组格式;
步骤2-7,规则合并:对于新生成的规则,需要整合到评估的规则树状结构中,生成规则文件,每个规则都记录更新时间time,树状结构采用xml格式展示,HOST字段作为第一层,URL作为第二层,规则中其他字段作为第三层,当HOST相同时,合并HOST层,依次下推,直到每一层数据都有差异,如果新生成的规则已经在规则树中存在,刷新规则时间,保证规则的时效性;
步骤2-8,数据提取:设计符合十元组格式规则的提取引擎,加载步骤2-7中产生的规则文件,形成规则树状结构,接入流量,然后按照步骤1-2、步骤1-3抽取出HTTP流量,解析HTTP流量上行头部中的HOST和URL字段,对比规则树结构中host、url层name属性是否一致,如果一致,则根据rule层中指示的(位置,编码,前缀,偏移,后缀)属性字段提取里面的特征,如果不一致,直接将该HTTP流量丢弃,实现流量的快速筛选和提取;
步骤2-9,规则评估:依据格式和知识库进行校验,格式校验针对特征本身,通过格式校验之后,有两个以上的特征生成,此时通过知识库进行关联性校验,规则评估通过精确率和召回率计算值加权调和平均值,依据值大小进行判定,计算公式如下:
其中,Fβ为加权调和平均值,P为精确率,R为召回率,β用于度量召回率对精确率的相对重要性,设置β<1。
5.根据权利要求4所述的方法,其特征在于,步骤2-3中,所述每个维度依据各自权重计算出评分,评分Score的计算公式如下:
Score=α*LR+β*LC,α+β=1
其中:α,β为权重,LR为线性分类器,评分0-100之间,LC为知识库校验,评分在0-100之间,获取的Score评分也在0-100之间;线性分类器是依据事先准备的语料训练出来的,采集所判定字段的长度、格式信息、上下文字符串作为特征,使用词袋模型进行数值化,然后训练得到线性分类器;知识库存储关键字和权重信息,判定HTTP报文体如果出现知识库中存储的关键字,则累计对应的权重信息。
6.根据权利要求5所述的方法,其特征在于,步骤2-4中,HOST字段表示HTTP域名;URL字段指示资源路径;位置、编码、前缀、偏移、后缀字段是相关联的,位置指明字段所属环境,包括上行头部、上行内容、下行头部、下行内容,编码指示位置所采用的编码类型,前缀指示识别字段前置信息,偏移指示识别字段距离前置信息的偏移字节数,后缀指示识别字段后置信息;关联字段说明十元组之间的相互依赖关系;排序字段标示提取字段的输出顺序;字段含义标示识别字段的意义。
7.根据权利要求6所述的方法,其特征在于,步骤3包括:
步骤3-1,规则加载:默认支持两个规则对象,一个生效另一个不生效,当有新的规则产生的时候,未生效规则对象检测到规则更新并加载规则,等规则加载完毕,将本规则对象设置为生效,之前生效的规则对象设置为失效,数据提取只需要按照有效规则进行提取,实现规则加载和提取无缝连接;
步骤3-2,提取打标:提取引擎提取数据后能够加入业务标签,作为提取数据的补充信息,标签格式以Tag-Length-Value编码结构存储;
步骤3-3,数据入库:将数据写入数据库集群。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
快速适配DLMS/COSEM对象的脚本化编码方法 | 2020-05-11 | 585 |
目标数据识别方法及装置 | 2020-05-14 | 477 |
一种数据传输方法、使用该方法的交换机以及网络控制系统 | 2020-05-15 | 723 |
一种消息推送方法、装置、存储介质和服务器 | 2020-05-15 | 190 |
一种基于区块链的密码处理方法、设备以及介质 | 2020-05-08 | 743 |
一种基于私有云的骚扰电话拦截方法 | 2020-05-12 | 536 |
一种基于可视化流程图的智能问答多轮交互方法和系统 | 2020-05-12 | 943 |
问答语料生成方法及系统 | 2020-05-08 | 847 |
一种可自定义的dex分包的方法 | 2020-05-12 | 841 |
物联网设备在线状态识别方法、在线信息平台及服务器 | 2020-05-14 | 254 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。