首页 / 专利库 / 电脑编程 / 别名 / 一种基于规则生成的DPI解析方法和系统

一种基于规则生成的DPI解析方法和系统

阅读:803发布:2020-05-11

专利汇可以提供一种基于规则生成的DPI解析方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于规则自动生成的DPI解析方法和系统,方法包括S1:监控模 块 根据现有规则库应用情况,识别规则库中 覆盖 率偏差异常规则和当前主要未识别业务,当业务识别率低于 阈值 时,进入步骤S2;S2:将未识别业务的特征与规则库进行关联度匹配,若关联,则根据关联度最高的特征生成识别规则,若不关联,进入步骤S3;S3:对未识别业务进行协议域名、uri提取,提取成功时,通过爬虫自动爬取域名生成识别规则,并更新规则库的DPI识别规则;提取不成功时,通过人工抓包、拨测、分析,生成识别规则;S4:利用更新的规则库的DPI识别规则进行DPI解析。本发明在满足DPI应用识别的同时,提高DPI应用识别的时效性和覆盖率,保障DPI识别规则的机密性。,下面是一种基于规则生成的DPI解析方法和系统专利的具体信息内容。

1.一种基于规则生成的DPI解析方法,其特征在于,包括以下步骤:
S1:监控模根据现有规则库应用情况,识别规则库中覆盖率偏差异常规则和当前主要未识别业务,当业务识别率低于阈值时,进入步骤S2;
S2:将未识别业务的特征与规则库进行关联度匹配,若关联,则根据关联度最高的特征生成识别规则,若不关联,进入步骤S3;
S3:对未识别业务进行协议域名、uri提取,提取成功时,通过爬虫自动爬取域名生成识别规则,并更新规则库的DPI识别规则;提取不成功时,通过人工抓包、拨测、分析,生成识别规则;
S4:利用更新的规则库的DPI识别规则进行DPI解析。
2.根据权利要求1所述的基于规则生成的DPI解析方法,其特征在于,步骤S3中更新规则库的DPI识别规则前对生成的识别规则进行加密,步骤S4中利用更新的规则库的DPI识别规则进行DPI解析时,先对识别规则进行解密。
3.根据权利要求1所述的基于规则生成的DPI解析方法,其特征在于,步骤S4包括以下步骤:
S4.1:将DPI识别规则编译成spark程序并将spark程序上传至集群,建立规则临时表;
S4.2:生成DPI解析任务计划Map;
S4.3:读取数据源表;
S4.4:执行spark程序,解析数据源表的数据;
S4.5:删除规则临时表;
S4.6:输出DPI解析结果。
4.根据权利要求3所述的基于规则生成的DPI解析方法,其特征在于,步骤S4.1中将DPI识别规则编译成spark程序,具体包括以下步骤:
S4.1.1:系统初始化:通过传入的参数,所述参数包括需要处理数据日期,设定系统时间;
S4.1.2:读取任务计划配置文件信息,通过任务计划配置文件中的步骤配置信息stepConfig读取任务计划的所有步骤steps的配置;
S4.1.3:通过所有步骤steps的配置,生成对应的任务计划Map,其中,key是临时表名,value是SQL;
S4.1.4:源数据配置文件:sourceTable.properties;根据配置读取不同数据源的读取方式,如果是parquet或者orc格式的数据,通过路径和执行时间配置成hdfs路径,将数据读取到spark中,并注册临时表;如果是jdbc的方式,则使用jdbc配置连接oracle,并将指定的表在spark上注册成临时表;
S4.1.5:遍历执行任务计划Map,通过sparkSQL将任务计划中的SQL按顺序执行,并将结果数据写入到目标表中。
5.根据权利要求4所述的基于规则生成的DPI解析方法,其特征在于,步骤S4.1.3包括以下步骤:
S4.1.3.1:普通步骤为产生临时表,通过直接封装临时表名,和SQL封装成任务计划Map,所述普通步骤在hive上直接执行;
S4.1.3.2:规则步骤为将配置好的规则组装成SQL,再变为临时表;规则步骤包括读取数据库、解密、组合;具体为先取规则id,通过jdbc读取指定规则,组装成case when语句;根据任务计划步骤配置中各个列的别名信息,为每个列设定别名;利用任务计划步骤配置中的来源表信息,和前面组装成的SQL,将组装好的SQL与任务计划配置中的临时表名封装成任务计划Map。
6.根据权利要求3所述的基于规则生成的DPI解析方法,其特征在于,步骤S4.3中的数据源表包括234G话单、家宽话单。
7.一种基于规则生成的DPI解析系统,其特征在于,包括:
监控模块,所述监控模块分析现有规则库应用情况,识别并告警规则库中覆盖率偏差异常规则和当前主要未识别业务,触发DPI规则自检测识别引擎自动推导,保障规则库更新的及时性;
DPI规则自检测识别引擎,将未识别业务的特征与规则库进行关联度匹配,若关联,则根据关联度最高的特征生成识别规则,若不关联,则对未识别业务进行协议域名、uri提取,提取成功时,通过爬虫自动爬取域名生成识别规则,并更新规则库的DPI识别规则;提取不成功时,通过人工抓包、拨测、分析,生成识别规则;
Spark模块,根据配置文件或者程序内容,将新的DPI规则编译成spark程序,利用管理模块将spark程序提交到集群运行;
管理模块,调度所有DPI任务,包括规则更新上传、spark任务、跨集群传输任务;
集群,spark程序在集群运行,实现DPI解析。
8.根据权利要求7所述的基于规则生成的DPI解析系统,其特征在于,还包括传输模块,所述传输模块调用多租户平台提供的跨集群API实现跨集群传输任务。

说明书全文

一种基于规则生成的DPI解析方法和系统

技术领域

[0001] 本发明涉及DPI业务识别领域,更具体地,涉及一种基于规则生成的DPI解析方法和系统。

背景技术

[0002] 近年来,随着移动互联网的迅猛发展,各种新式数据业务功能不断增加,要求运营商基于DPI深度识别技术分析客户的互联网行为偏好,开展基于用户家庭关系、视频内容偏好、游戏内容偏好和关键字搜索等数据分析服务,快速响应市场业务精细化运营需求,不断提升客户营销精准度。然而在DPI识别过程中,往往存在规则更新不及时、规则覆盖率低、规则易泄露的问题,导致DPI识别工作缺乏繁重而被动。
[0003] 规则更新不及时:DPI识别规则往往存在时效性,当APP或网站进行更新时,其业务对应的规则可能发生变更,历史DPI规则库可能失效,新增的业务可能未被识别或错误识别,故需要建立规则库更新机制,定期对DPI规则库的有效性进行检查,保证DPI识别规则及时更新。
[0004] 规则覆盖率低:随着移动互联网应用的发展,旧应用更新快,新应用发布多,同时HTTPS加密技术的普及,DPI识别覆盖率越来越低,需要建立DPI规则自检测识别引擎,自动发现、推导和识别未覆盖的应用。
[0005] 规则易泄露:随着技术发展,移动运营商采用基于共享平台的多租户开发模式,借助共享平台Hadoop集群强大的计算和存储能,进行DPI应用识别统计,高效、灵活和易推广的开发模式背后,存在DPI识别规则被其他合作方获取的险,需要对规则进行加密入库和读取解密保证规则的安全性。

发明内容

[0006] 本发明的首要目的是提供一种基于规则自动生成的DPI解析方法,其可以在满足DPI应用识别的同时,提高DPI应用识别的时效性和覆盖率,保障DPI识别规则的机密性。
[0007] 本发明的进一步目的是提供一种基于规则自动生成的DPI解析系统。
[0008] 为解决上述技术问题,本发明的技术方案如下:
[0009] 一种基于规则生成的DPI解析方法,包括以下步骤:
[0010] S1:监控模根据现有规则库应用情况,识别规则库中覆盖率偏差异常规则和当前主要未识别业务,当业务识别率低于阈值时,进入步骤S2;
[0011] S2:将未识别业务的特征与规则库进行关联度匹配,若关联,则根据关联度最高的特征生成识别规则,若不关联,进入步骤S3;
[0012] S3:对未识别业务进行协议域名、uri提取,提取成功时,通过爬虫自动爬取域名生成识别规则,并更新规则库的DPI识别规则;提取不成功时,通过人工抓包、拨测、分析,生成识别规则;
[0013] S4:利用更新的规则库的DPI识别规则进行DPI解析。
[0014] 优选地,步骤S3中更新规则库的DPI识别规则前对生成的识别规则进行加密,步骤S4中利用更新的规则库的DPI识别规则进行DPI解析时,先对识别规则进行解密。
[0015] 优选地,步骤S4包括以下步骤:
[0016] S4.1:将DPI识别规则编译成spark程序并将spark程序上传至集群,建立规则临时表;
[0017] S4.2:生成DPI解析任务计划Map;
[0018] S4.3:读取数据源表;
[0019] S4.4:执行spark程序,解析数据源表的数据;
[0020] S4.5:删除规则临时表;
[0021] S4.6:输出DPI解析结果。
[0022] 优选地,步骤S4.1中将DPI识别规则编译成spark程序,具体包括以下步骤:
[0023] S4.1.1:系统初始化:通过传入的参数,所述参数包括需要处理数据日期,设定系统时间;
[0024] S4.1.2:读取任务计划配置文件信息,通过任务计划配置文件中的步骤配置信息stepConfig读取任务计划的所有步骤steps的配置;
[0025] S4.1.3:通过所有步骤steps的配置,生成对应的任务计划Map,其中,key是临时表名,value是SQL;
[0026] S4.1.4:源数据配置文件:sourceTable.properties;根据配置读取不同数据源的读取方式,如果是parquet或者orc格式的数据,通过路径和执行时间配置成hdfs路径,将数据读取到spark中,并注册临时表;如果是jdbc的方式,则使用jdbc配置连接oracle,并将指定的表在spark上注册成临时表;
[0027] S4.1.5:遍历执行任务计划Map,通过sparkSQL将任务计划中的SQL按顺序执行,并将结果数据写入到目标表中。
[0028] 优选地,步骤S4.1.3包括以下步骤:
[0029] S4.1.3.1:普通步骤直接封装临时表名,和SQL封装成任务计划Map;
[0030] S4.1.3.2:规则步骤先取规则id,通过jdbc读取指定规则,组装成case when语句;根据任务计划步骤配置中各个列的别名信息,为每个列设定别名;利用任务计划步骤配置中的来源表信息,和前面组装成的SQL,将组装好的SQL与任务计划配置中的临时表名封装成任务计划Map。
[0031] 优选地,步骤S4.3中的数据源表包括234G话单、家宽话单。
[0032] 一种基于规则生成的DPI解析系统,包括:
[0033] 监控模块,所述监控模块分析现有规则库应用情况,识别并告警规则库中覆盖率偏差异常规则和当前主要未识别业务,触发DPI规则自检测识别引擎自动推导,保障规则库更新的及时性;
[0034] DPI规则自检测识别引擎,将未识别业务的特征与规则库进行关联度匹配,若关联,则根据关联度最高的特征生成识别规则,若不关联,则对未识别业务进行协议域名、uri提取,提取成功时,通过爬虫自动爬取域名生成识别规则,并更新规则库的DPI识别规则;提取不成功时,通过人工抓包、拨测、分析,生成识别规则;
[0035] Spark模块,根据配置文件或者程序内容,将新的DPI规则编译成spark程序,利用管理模块将spark程序提交到集群运行;
[0036] 管理模块,调度所有DPI任务,包括规则更新上传、spark任务、跨集群传输任务;
[0037] 集群,spark程序在集群运行,实现DPI解析。
[0038] 优选地,还包括传输模块,所述传输模块调用多租户平台提供的跨集群API实现跨集群传输任务。
[0039] 与现有技术相比,本发明技术方案的有益效果是:
[0040] 1)规则机密保证规则的安全性,配合管理调度模块可以方便规则的更新和上传;
[0041] 2)通过spark模块通用化配置,planProperties文件的配置可以完成大部分的需求设计,spark模块将任务计划转换成对应的spark程序,并由管理模块提交到集群上执行。不需要为所有的需求开发代码,减少了代码的开发和调试时间;
[0042] 3)利用DPI解析的结果,可以对不同的业务进行分析,比如:视频类、直播类、游戏类等,以便后续进行分析、营销工作;附图说明
[0043] 图1为本发明的方法流程示意图。
[0044] 图2为本发明的系统结构示意图。

具体实施方式

[0045] 附图仅用于示例性说明,不能理解为对本专利的限制;
[0046] 为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0047] 对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0048] 下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0049] 实施例1
[0050] 本实施例提供一种基于规则生成的DPI解析方法,如图1,包括以下步骤:
[0051] S1:监控模块根据现有规则库应用情况,识别规则库中覆盖率偏差异常规则和当前主要未识别业务,当业务识别率低于阈值时,进入步骤S2;
[0052] S2:将未识别业务的特征与规则库进行关联度匹配,若关联,则根据关联度最高的特征生成识别规则,若不关联,进入步骤S3;
[0053] S3:对未识别业务进行协议域名、uri提取,提取成功时,通过爬虫自动爬取域名生成识别规则,并更新规则库的DPI识别规则;提取不成功时,通过人工抓包、拨测、分析,生成识别规则;
[0054] S4:利用更新的规则库的DPI识别规则进行DPI解析。
[0055] 步骤S3中更新规则库的DPI识别规则前对生成的识别规则进行加密,步骤S4中利用更新的规则库的DPI识别规则进行DPI解析时,先对识别规则进行解密。
[0056] 步骤S4包括以下步骤:
[0057] S4.1:将DPI识别规则编译成spark程序并将spark程序上传至集群,建立规则临时表;
[0058] S4.2:生成DPI解析任务计划Map;
[0059] S4.3:读取数据源表;
[0060] S4.4:执行spark程序,解析数据源表的数据;
[0061] S4.5:删除规则临时表;
[0062] S4.6:输出DPI解析结果。
[0063] 步骤S4.1中将DPI识别规则编译成spark程序,具体包括以下步骤:
[0064] S4.1.1:系统初始化:通过传入的参数,所述参数包括需要处理数据日期,设定系统时间;
[0065] S4.1.2:读取任务计划配置文件信息,通过任务计划配置文件中的步骤配置信息stepConfig读取任务计划的所有步骤steps的配置;
[0066] S4.1.3:通过所有步骤steps的配置,生成对应的任务计划Map,其中,key是临时表名,value是SQL;
[0067] S4.1.4:源数据配置文件:sourceTable.properties;根据配置读取不同数据源的读取方式,如果是parquet或者orc格式的数据,通过路径和执行时间配置成hdfs路径,将数据读取到spark中,并注册临时表;如果是jdbc的方式,则使用jdbc配置连接oracle,并将指定的表在spark上注册成临时表;
[0068] S4.1.5:遍历执行任务计划Map,通过sparkSQL将任务计划中的SQL按顺序执行,并将结果数据写入到目标表中。
[0069] 步骤S4.1.3包括以下步骤:
[0070] S4.1.3.1:普通步骤直接封装临时表名,和SQL封装成任务计划Map;
[0071] S4.1.3.2:规则步骤先取规则id,通过jdbc读取指定规则,组装成case when语句;根据任务计划步骤配置中各个列的别名信息,为每个列设定别名;利用任务计划步骤配置中的来源表信息,和前面组装成的SQL,将组装好的SQL与任务计划配置中的临时表名封装成任务计划Map。
[0072] 步骤S4.3中的数据源表包括234G话单、家宽话单。
[0073] 实施例2
[0074] 本实施例提供一种基于规则生成的DPI解析系统,如图2,包括:
[0075] 监控模块,所述监控模块分析现有规则库应用情况,识别并告警规则库中覆盖率偏差异常规则和当前主要未识别业务,触发DPI规则自检测识别引擎自动推导,保障规则库更新的及时性;
[0076] DPI规则自检测识别引擎,将未识别业务的特征与规则库进行关联度匹配,若关联,则根据关联度最高的特征生成识别规则,若不关联,则对未识别业务进行协议域名、uri提取,提取成功时,通过爬虫自动爬取域名生成识别规则,并更新规则库的DPI识别规则;提取不成功时,通过人工抓包、拨测、分析,生成识别规则;
[0077] Spark模块,根据配置文件或者程序内容,将新的DPI规则编译成spark程序,利用管理模块将spark程序提交到集群运行;
[0078] 管理模块,调度所有DPI任务,包括规则更新上传、spark任务、跨集群传输任务;
[0079] 集群,spark程序在集群运行,实现DPI解析。
[0080] 传输模块,所述传输模块调用多租户平台提供的跨集群API实现跨集群传输任务。
[0081] 挖掘现有234G数据、家宽数据,充分利用潜在数据变现价值,提升用户办理率,开展视频偏好用户DPI解析专题和潜在家宽用户DPI解析专题,搭建一套基于规则自动生成的DPI解析,系统从多租户接入数据,根据提炼的DPI规则对234G和家宽数据进行解析,统计用户在不同APP下的流量,分析用户使用偏好。系统支撑期间,实现了视频、游戏、直播、社交、家宽等100多个业务规则的自动生成,以天粒度自检测更新确保规则的有效性和覆盖率,同时保障了移动运营商数据的安全性和DPI规则的保密性
[0082] 相同或相似的标号对应相同或相似的部件;
[0083] 附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0084] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈