一种基于机器学习的HTTP流量特征识别与提取方法专利检索-数据库知识发现人工智能专利检索查询-专利查询网

一种基于 机器学习的HTTP流量特征识别与提取方法

阅读：651发布：2020-05-11

专利汇可以提供一种基于机器学习的HTTP流量特征识别与提取方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于机器学习的HTTP流量特征识别与提取方法，包括如下步骤：步骤1，进行HTTP流量识别和采集；步骤2，进行特征检测，并生成规则；步骤3，提取HTTP流量特征。本发明方法相比于现有市面上基于正则表达式的特征提取，提高了特征的准确性，降低正则表达式误提脏数据的概率，相对于基于人工的特征标记方法，减少了人工成本的投入以及对新型特征响应反馈时间。同时本专利中，特征/规则生成与特征提取分离，可以设计独特的提取引擎，提高特征提取效率。，下面是一种基于机器学习的HTTP流量特征识别与提取方法专利的具体信息内容。

权利要求

1.一种基于机器学习的HTTP流量特征识别与提取方法，其特征在于，包括如下步骤：
步骤1，进行HTTP流量识别和采集；
步骤2，进行特征检测，并生成规则；
步骤3，提取HTTP流量特征。
2.根据权利要求1所述的方法，其特征在于，步骤1包括：
步骤1-1，流量抽样：解析链路层到传输层头部信息，获取(源IP，宿IP，源端口，宿端口，协议)五元组信息，过滤非TCP的流量，对TCP流量按照会话进行抽样；
步骤1-2，会话重组：会话重组依据TCP报文中序号和确认序号，对于客户端主动和服务端建立连接并发送的数据包，该数据包中的序列号和建立连接的第三步数据包中的序列号和确认序列号相同，服务端收到数据包，向客户端发送确认数据，所述数据包中，序列号是上一个数据包中的确认号，而确认号是客户端发送的数据包中序列号与数据包中所带数据的大小之和，依据序列号和确认序列号的关系，依照顺序重组TCP会话，收到4次挥手报文即完成会话重组，对乱序报文重新整理次序，对丢包报文，整个会话需要临时存储60s来判断是否存在丢包现象，如果发现4次挥手报文且会话不完整，60s过后依旧有缺失，则丢弃报文；
步骤1-3，检测应用层载荷，根据RFC协议规范制定的HTTP协议格式来识别HTTP流量；
步骤1-4，HTTP去重：对已经识别的HTTP流量，按照HTTP结构提取里面的HOST和URL字段，其中URL字段如果带了参数，则需要将URL协议中的参数去除，依据HOST和URL字段来去重；
步骤1-5，HTTP有效性初筛：用于过滤无价值数据，初筛根据关键字知识库进行匹配评分，关键字知识库包含两类数据，一类是关键字，另一类是关键字对应分值，通过查找HTTP会话中是否包含关键字，如果包含累加对应分值的方式获取评分，最终评分大于阈值50则判定所述HTTP流量有价值，提供给步骤2和步骤3进一步分析。
3.根据权利要求2所述的方法，其特征在于，步骤1-1中，所述对TCP流量按照会话进行抽样，抽样方式如下：通过TCP中SYN、ACK标识判断是否是三次握手的起始包，如果是，则通过产生的[1-100]随机数，按照抽样比判断接受或者拒绝该会话。
4.根据权利要求3所述的方法，其特征在于，步骤2包括：
步骤2-1，报文压缩与编码探测：HTTP流量头部在Content-Encoding首部指示报文内容压缩格式，对压缩格式进行解压，如果HTTP头部未包含Content-Encoding首部，则判断HTTP内容中是否包含gzip、zlib魔术头，如果包含，进行相应格式解码尝试，如果解码过程中出现异常，则退出编码探测流程，如果没有包含则直接跳过解压过程；对编码格式进行解码；
HTTP流量头部在Content-Type首部指明字符集charset，对非UTF-8字符集统一转换为UTF-
8字符集，没有指明字符集的默认使用UTF-8编码；
步骤2-2，报文分词：依据报文Content-Type 指定MIME分解报文，对非HTTP规范中规定的MIME信息或者未包含MIME信息的默认使用application/x-www-form-urlencoded格式分解；
步骤2-3，特征识别：对每个分词字段采用2个维度进行识别，分别是线性分类器分类和知识库判定，每个维度依据各自权重计算出评分，评分大于阈值80则判定检测通过；
步骤2-4，特征标记：记录特征标记(HOST，URL，位置，编码，前缀，偏移，后缀，关联，排序，字段含义)十元组信息；
步骤2-5，特征整合：对特征标记信息归档整理，将规则十元组各个字段作为训练数据输入，采用K-Means聚类，降低特征数量，获取特征相似性；
步骤2-6，生成规则：依据特征相似性判断特征差异性，对差异性低于最小阈值10的标记特征尝试进行合并，合并生成的规则有两类：
第一类、URL字段能够提取较多数量公共前缀和公共后缀，数据量大小依据URL本身的长度进行考量，需要满足URL长度的一半，此时提取出功能前缀和公共后缀，中间部分使用通配符进行模糊处理生成新的URL，用新的URL替换原先规则内的URL字段，生成新的规则；
第二类、后缀字段能够获取公共前缀，将公共前缀a作为规则的后缀生成新的规则，用新的规则代替原有多条规则；
对差异性不低于最小阈值的规则不作处理，规则格式依旧满足特征标记中的十元组格式；
步骤2-7，规则合并：对于新生成的规则，需要整合到评估的规则树状结构中，生成规则文件，每个规则都记录更新时间time，树状结构采用xml格式展示，HOST字段作为第一层，URL作为第二层，规则中其他字段作为第三层，当HOST相同时，合并HOST层，依次下推，直到每一层数据都有差异，如果新生成的规则已经在规则树中存在，刷新规则时间，保证规则的时效性；
步骤2-8，数据提取：设计符合十元组格式规则的提取引擎，加载步骤2-7中产生的规则文件，形成规则树状结构，接入流量，然后按照步骤1-2、步骤1-3抽取出HTTP流量，解析HTTP流量上行头部中的HOST和URL字段，对比规则树结构中host、url层name属性是否一致，如果一致，则根据rule层中指示的(位置，编码，前缀，偏移，后缀)属性字段提取里面的特征，如果不一致，直接将该HTTP流量丢弃，实现流量的快速筛选和提取；
步骤2-9，规则评估：依据格式和知识库进行校验，格式校验针对特征本身，通过格式校验之后，有两个以上的特征生成，此时通过知识库进行关联性校验，规则评估通过精确率和召回率计算值加权调和平均值，依据值大小进行判定，计算公式如下：
其中，Fβ为加权调和平均值，P为精确率，R为召回率，β用于度量召回率对精确率的相对重要性，设置β<1。
5.根据权利要求4所述的方法，其特征在于，步骤2-3中，所述每个维度依据各自权重计算出评分，评分Score的计算公式如下：
Score＝α*LR+β*LC,α+β＝1
其中：α，β为权重，LR为线性分类器，评分0-100之间，LC为知识库校验，评分在0-100之间，获取的Score评分也在0-100之间；线性分类器是依据事先准备的语料训练出来的，采集所判定字段的长度、格式信息、上下文字符串作为特征，使用词袋模型进行数值化，然后训练得到线性分类器；知识库存储关键字和权重信息，判定HTTP报文体如果出现知识库中存储的关键字，则累计对应的权重信息。
6.根据权利要求5所述的方法，其特征在于，步骤2-4中，HOST字段表示HTTP域名；URL字段指示资源路径；位置、编码、前缀、偏移、后缀字段是相关联的，位置指明字段所属环境，包括上行头部、上行内容、下行头部、下行内容，编码指示位置所采用的编码类型，前缀指示识别字段前置信息，偏移指示识别字段距离前置信息的偏移字节数，后缀指示识别字段后置信息；关联字段说明十元组之间的相互依赖关系；排序字段标示提取字段的输出顺序；字段含义标示识别字段的意义。
7.根据权利要求6所述的方法，其特征在于，步骤3包括：
步骤3-1，规则加载：默认支持两个规则对象，一个生效另一个不生效，当有新的规则产生的时候，未生效规则对象检测到规则更新并加载规则，等规则加载完毕，将本规则对象设置为生效，之前生效的规则对象设置为失效，数据提取只需要按照有效规则进行提取，实现规则加载和提取无缝连接；
步骤3-2，提取打标：提取引擎提取数据后能够加入业务标签，作为提取数据的补充信息，标签格式以Tag-Length-Value编码结构存储；
步骤3-3，数据入库：将数据写入数据库集群。

说明书全文

一种基于机器学习的HTTP流量特征识别与提取方法

技术领域

[0001] 本发明涉及一种基于机器学习的HTTP流量特征识别与提取方法。

背景技术

[0002] 在互联网社会，网络上存在大量的HTTP流量，HTTP流量中存在大量有价值数据，搜集这些数据并将其整合成知识库有助于及时了解信息，应对事件，作出决策。目前，存在很多解析HTTP数据并提取有效特征的方法，比如基于正则表达式的提取、基于特征匹配的提取，以及基于机器学习识别特征的方法。

[0003] 虽然市面上已经推出了一些特征识别和提取产品，但是这些产品存在一定的不足，基于正则表达式、状态机等特征格式的提取，容易误提特征，污染特征库，导致整个特征库不可用，基于人工分析的特征匹配提取，投入人工成本较大，且对新增特征反应不及时，基于机器学习的方法，对于提取效率是很大的考验，无法应对大流量数据的冲击。

发明内容

[0004] 为了快速响应新增特征识别，提高特征识别精确率，增强特征提取效率，降低人工介入的成本，本发明提供了一种基于机器学习的HTTP流量特征识别与提取方法，用来生成提取规则，快速提取特征，并将特征入库存储。

[0005] 本发明包括如下步骤：

[0006] 步骤1，进行HTTP流量识别和采集；

[0007] 步骤2，进行特征检测，并生成规则；

[0008] 步骤3，提取HTTP流量特征。

[0009] 步骤1包括：

[0010] 步骤1-1，流量抽样：接入流量通常比较大，而且TCP/IP5层模型中各层协议都存在，需要解析链路层到传输层头部信息，获取(源IP，宿IP，源端口，宿端口，协议)五元组信息，过滤非TCP的流量，对TCP流量按照会话进行抽样；

[0011] 步骤1-2，会话重组：网络传输的TCP报文存在乱报或者丢包的情况，需要对TCP报文重组，获取完整应用层数据，会话重组依据TCP报文中序号和确认序号，对于客户端主动和服务端建立连接并发送的数据包，该数据包中的序列号和建立连接的第三步数据包中的序列号和确认序列号相同，服务端收到数据包，向客户端发送确认数据，所述数据包中，序列号是上一个数据包中的确认号，而确认号是客户端发送的数据包中序列号与数据包中所带数据的大小之和，依据序列号和确认序列号的关系，依照顺序重组TCP会话，收到4次挥手报文即完成会话重组，对乱序报文重新整理次序，对丢包报文，整个会话需要临时存储60s来判断是否存在丢包现象，如果发现4次挥手报文且会话不完整，60s过后依旧有缺失，则丢弃报文；

[0012] 步骤1-3，检测应用层载荷，根据RFC(Request For Comments)7230,7231,7232,7233,7234,7235协议规范制定的HTTP协议格式来识别HTTP流量；

[0013] 步骤1-4，HTTP去重：对已经识别的HTTP流量，按照HTTP结构提取里面的HOST和URL字段，其中URL字段如果带了参数，则需要将URL协议中的参数去除，去重依据HOST和URL字段来去重，例如可在30分钟内下放10条HOST和URL完全一致的会话，对于更多重复的HOST和URL会话，则直接丢弃；

[0014] 步骤1-5，HTTP有效性初筛：用于过滤无价值数据，初筛根据关键字知识库进行匹配评分，关键字知识库包含两类数据，一类是关键字，根据人工分析HTTP数据并筛选其中特征累积而成，另一类是关键字对应分值，依据关键字在所有关键字中出现的频次比作为分值，计算过程中忽略关键字大小写。通过查找HTTP会话中是否包含关键字，如果包含累加对应分值的方式获取评分，最终评分大于阈值50则判定所述HTTP流量有价值，提供给步骤2和步骤3进一步分析。

[0015] 步骤1-1中，所述对TCP流量按照会话进行抽样，抽样方式如下：通过TCP中SYN、ACK标识判断是否是三次握手的起始包，如果是，则通过产生的[1-100]随机数，按照抽样比判断接受或者拒绝该会话，例如抽样比10％，则随机数应该在[1,10]范围内，则下放此次会话过程中的所有报文，即三次握手到四次挥手中间产生的报文全部下放。

[0016] 步骤2包括：

[0017] 步骤2-1，报文压缩与编码探测：HTTP流量头部通常在Content-Encoding首部指示报文内容压缩格式，对常用压缩deflate、gzip、zlib格式进行解压，如果HTTP头部未包含Content-Encoding首部，则判断HTTP内容中是否包含gzip、zlib魔术头，如果包含，进行相应格式解码尝试，如果解码过程中出现异常，则退出编码探测流程，如果没有包含则直接跳过解压过程；对常用编码url encoding、base64、escape等格式进行解码；HTTP流量头部通常在Content-Type首部指明字符集charset，对非UTF-8字符集统一转换为UTF-8字符集，没有指明字符集的默认使用UTF-8编码；

[0018] 步骤2-2，报文分词：依据报文Content-Type 指定MIME(Multipurpose Internet MailExtensions)分解报文，对非HTTP规范中规定的MIME信息或者未包含MIME信息的默认使用application/x-www-form-urlencoded格式分解；

[0019] 步骤2-3，特征识别：对每个分词字段采用2个维度进行识别，分别是线性分类器分类和知识库判定，每个维度依据各自权重计算出评分，评分大于阈值80则判定检测通过；

[0020] 步骤2-4，特征标记：记录特征标记(HOST，URL，位置，编码，前缀，偏移，后缀，关联，排序，字段含义)十元组信息；

[0021] 步骤2-5，特征整合：对特征标记信息归档整理，将规则十元组各个字段作为训练数据输入，采用K-Means聚类，降低特征数量，获取特征相似性(参考文献：Dharmendra S.Modha,W.Scott Spangler.Feature Weighting.k-Means Clustering.Machine Learning,2003,52：217～237)；

[0022] 步骤2-6，生成规则：依据特征相似性判断特征差异性，对差异性低于最小阈值10的标记特征尝试进行合并，合并生成的规则有两类：

[0023] 第一类、URL字段相似性较高，能够提取较多数量公共前缀和公共后缀，数据量大小依据URL本身的长度进行考量，通常需要满足URL长度的一半，此时提取出功能前缀和公共后缀，中间部分使用通配符进行模糊处理生成新的URL，用新的URL替换原先规则内的URL字段，生成新的规则；

[0024] 第二类、后缀字段能够获取公共前缀，例如abc和aef，将公共前缀作为规则的后缀生成新的规则，用新的规则代替原有多条规则；对差异性不低于最小阈值的规则不作处理，规则格式依旧满足特征标记中的十元组格式；

[0025] 步骤2-7，规则合并：对于新生成的规则，需要整合到评估的规则树状结构中，生成规则文件，每个规则都记录更新时间，树状结构展示如下，HOST字段作为第一层，URL作为第二层，规则中其他字段作为第三层，当HOST相同时，合并HOST层，依次下推，直到数据字段出现不同为止，如果新生成的规则已经在规则树中存在，刷新规则时间，保证规则的时效性；规则文件如下所示：

[0026]

[0027]

[0028] 步骤2-8，数据提取：设计符合十元组格式规则的提取引擎，加载步骤2-7中产生的规则文件，形成规则树状结构，接入流量，然后按照步骤1-2、步骤1-3抽取出HTTP流量，解析HTTP流量上行头部中的HOST和URL字段，对比规则树结构中host、url层name属性是否一致进行快速过滤，如果一致，则根据rule层中指示的(位置，编码，前缀，偏移，后缀)属性字段提取里面的特征，如果不一致，直接将该HTTP流量丢弃，实现流量的快速筛选和提取；

[0029] 步骤2-9，规则评估：依据格式和知识库进行校验，格式校验针对特征本身，通过格式校验之后，有两个以上的特征生成，此时通过知识库进行关联性校验，规则评估通过精确率和召回率计算值加权调和平均值，依据值大小进行判定，计算公式如下：

[0030]

[0031] 其中，Fβ为加权调和平均值，P为精确率，R为召回率，β用于度量召回率对精确率的相对重要性，此处精确率更加重要，设置β<1。

[0032] 步骤2-3中，所述每个维度依据各自权重计算出评分，评分Score的计算公式如下：

[0033] Score＝α*LR+β*LC,α+β＝1

[0034] 其中：α，β为权重，LR为线性分类器，评分0-100之间，LC为知识库校验，评分在0-100之间，获取的Score评分也在0-100之间；线性分类器是依据事先准备的语料训练出来的，采集所判定字段的长度、格式信息、上下文字符串作为特征，使用词袋模型进行数值化，然后训练得到线性分类器；知识库存储关键字和权重信息，判定HTTP报文体如果出现知识库中存储的关键字，则累计对应的权重信息。

[0035] 步骤2-4中，HOST字段表示HTTP域名；URL字段指示资源路径；位置、编码、前缀、偏移、后缀字段是相关联的，位置指明字段所属环境，包括上行头部、上行内容、下行头部、下行内容，编码指示位置所采用的编码类型，前缀指示识别字段前置信息，偏移指示识别字段距离前置信息的偏移字节数，后缀指示识别字段后置信息；关联字段说明十元组之间的相互依赖关系；排序字段标示提取字段的输出顺序；字段含义标示识别字段的意义。

[0036] 步骤3包括：

[0037] 步骤3-1，规则加载：默认支持两个规则对象，一个生效另一个不生效，当有新的规则产生的时候，未生效规则对象检测到规则更新并加载规则，等规则加载完毕，将本规则对象设置为生效，之前生效的规则对象设置为失效，数据提取只需要按照有效规则进行提取即可，实现规则加载和提取无缝连接；

[0038] 步骤3-2，提取打标：提取引擎提取数据后可以加入业务标签，作为提取数据的补充信息，标签格式以Tag-Length-Value(TLV)编码结构存储，方便业务标签的扩展；

[0039] 步骤3-3，数据入库：将数据写入数据库集群，提取的字段是未知的导致无法固定数据结构，数据库选择需要依据实际业务需求，如果对事务性需求较弱，可以选择非关系型数据库存储提取字段，而对事务性要求高的，选择关系型数据库，创建两张表结构进行存储，一张表存储提取数据，另一张表存储提取字段的含义。

[0040] 有益效果：本发明方法，相比于现有市面上基于正则表达式的特征提取，提高了特征的准确性，降低正则表达式误提脏数据的概率，相对于基于人工的特征标记方法，减少了人工成本的投入以及对新型特征响应反馈时间。同时本专利中，特征/规则生成与特征提取分离，可以设计独特的提取引擎，提高特征提取效率。附图说明

[0041] 下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

[0042] 图1是本发明方法架构图。

具体实施方式

[0043] 下面结合附图及实施例对本发明做进一步说明。

[0044] 如图1所示，本发明提供了一种基于机器学习的HTTP流量特征识别与提取方法，具体包括：

[0045] 1、HTTP流量识别采集

[0046] HTTP流量识别采集模块是特征检测和规则生成模块的数据来源，提供给后端的流量需要满足多样性与有效性，前者尽可能覆盖HTTP流量多种类型，后者过滤无意义报文，降低后端处理压力。具体流程如下：

[0047] 1.1HTTP流量识别

[0048] (1)输入流量端口不限并且进行全流量抽样；

[0049] (2)TCP会话重组，还原会话上下文；

[0050] (3)检测应用层载荷(Deep Packet Inspection,DPI)，识别HTTP流量；

[0051] 1.2HTTP流量采样

[0052] (1)HTTP流量基于HOST和URL去重，降低重复流量处理压力；

[0053] (2)HTTP流量有效性初筛，用于过滤无价值数据，初筛可根据预先筛选的关键字进行匹配评分，评分大于阈值则认为该流量有价值，此处筛选粒度应该较为粗略，保证提供给后端的流量多样性；

[0054] 2、特征检测与规则生成

[0055] 特征检测与规则生成模块是整个系统的核心模块，输出的规则对提取效果有直接的影响。本模块可以自动生成规则，也可以进行人工干预，检测各个中间环节结果并加以修正。具体流程如下：

[0056] 2.1特征检测

[0057] (1)报文压缩与编码探测：对常用压缩和编码解码，明文显示内容；

[0058] (2)报文分词：依据报文Content-Type指定MIME分解报文，对未知格式尝试探索与分解；

[0059] (3)特征识别：特征识别基于2个维度，每个维度依据各自权重计算出评分，评分大于阈值则可判定检测通过；

[0060] Score＝α*LR+β*LC,α+β＝1

[0061] 其中：α，β为权重，LR(Logistic Regression)为线性分类器，评分0-100之间，LC(Library Check)为知识库校验，评分在0-100之间，获取的Score评分也在0-100之间；线性分类器是依据事先准备的语料训练出来的，采集所判定字段的长度、格式信息、上下文字符串作为特征，使用词袋模型进行数值化，然后训练得到线性分类器；知识库存储关键字和权重信息，判定HTTP报文体如果出现知识库中存储的关键字，则累计对应的权重信息；

[0062] (4)特征标记：记录特征标记(HOST，URL，位置，编码，前缀，偏移，后缀，关联，排序，字段含义)十元组信息；

[0063] 其中：HOST字段表示HTTP域名；URL字段指示资源路径，里面包含日期、数字等可模糊处理的字段；位置和编码字段是相关联的，分层级标示，每个层级都包括位置和编码信息；关联字段说明十元组之间的相互依赖关系；排序字段标示提取字段的输出顺序，主要解决报文内容字段的无序问题。

[0064] 2.2规则学习

[0065] (1)特征整合：对特征标记信息归档整理，采用K-Means聚类，降低特征数量，获取特征相似性；

[0066] (2)规则生成：依据特征相似性判断特征差异性，对差异性低于阈值的标记特征进行合并，对高于阈值的标记特征进行拆分，形成特征最终的提取规则，规则格式依旧满足特征标记中的十元组格式。

[0067] 2.3规则评估

[0068] (1)规则合并：规则学习子模块不断生成规则，需要整合到评估的规则中，对于相同的规则，刷新规则时间，保证规则的时效性，对于不同规则，及时评估，保证规则的多样性；

[0069] (2)数据提取：设计符合十元组格式规则的提取引擎，依据规则抽取HTTP流量，并提取里面的特征。提取引擎依据规则十元组，按照HOST、URL进行快速过滤，保证数据的快速筛选，然后依据位置和编码信息，提取出归一化特征；

[0070] (3)规则评估：依据格式和知识库进行校验，格式校验针对特征本身，通过格式校验之后，通常会有多个特征生成，此时可以通过知识库进行关联性校验，多个特征彼此相关，可以提高数据可信度。规则评估通过精确率和召回率计算值加权调和平均值，依据值大小进行判定，计算公式如下：

[0071]

[0072] 其中，Fβ为加权调和平均值，P为精确率，R为召回率，β用于度量召回率对精确率的相对重要性，此处精确率更加重要，设置β<1。

[0073] 2.4人工检测和干预

[0074] (1)人工检测：人工检测对特征检测、规则学习、规则评估子模块前后共计4处位置进行探测，提供人工搜索指定数据的方式查看特征检测和规则生成情况，也可以查看系统推荐的数据质量，推荐依据特征的质量、数据量以及HTTP流量的重要性进行加权评分，评分高的优先推荐；

[0075] (2)人工干预：提供导入流量、修正结果以及截断流程的功能。流量可根据需要导入用户指定数据或者第三方数据；人工检测结果后，可以修正产出的结果；对于无效产出可提前终止流程，不再进行后续操作；

[0076] 3、HTTP流量特征提取

[0077] 3.1特征提取

[0078] (1)规则加载：支持规则热加载，实现规则加载和提取无缝连接；

[0079] (2)提取打标：提取引擎提取数据后加入业务标签。

[0080] 3.2特征入库

[0081] 数据入库：将数据写入数据库集群，入库依据实际业务需求操作。

[0082] 本发明实现了如下创新：

[0083] 特征检测：HTTP流量解压、解码、分词的预处理操作，提取HTTP流量特征，结合机器学习算法和知识库评分的方式判定特征；

[0084] 规则学习：通过相似性对特征进行合并和拆分，生成规则十元组；

[0085] 规则评估：设计提取引擎提取数据并对提取质量依据加权调和平均进行评估；

[0086] 人工检测与干预：提供人工介入的方法，特征检测、规则学习、规则评估可独立运行，增加人工介入的方式可在后期提高生成规则的有效性和可靠性。

[0087] 本发明提供了一种基于机器学习的HTTP流量特征识别与提取方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

标题	发布/更新时间	阅读量
血站管理信息系统	2020-05-11	938
一种公共卫生事件预警知识库的构建方法	2020-05-15	495
一种相识文本自动扩展的系统及其方法	2020-05-12	174
供应链金融的风险分析方法、装置、计算终端及存储介质	2020-05-14	947
大数据风控管理系统	2020-05-08	562
一种基于积分制的阅读评价方法及系统	2020-05-13	290
基于随机森林的自适应非侵入式负荷识别方法	2020-05-14	792
油井故障智能化分析决策系统及方法	2020-05-14	44
一种基于大数据的教师培养系统	2020-05-15	375
一种油气田钻井现场智能安全管控系统	2020-05-14	855

一种基于机器学习的HTTP流量特征识别与提取方法

一种基于机器学习的HTTP流量特征识别与提取方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：