首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 基于半监督学习的DPI数据中host的自动化挖掘方法及系统

基于半监督学习的DPI数据中host的自动化挖掘方法及系统

阅读:540发布:2020-05-18

专利汇可以提供基于半监督学习的DPI数据中host的自动化挖掘方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于半 监督学习 的DPI数据中host的自动化挖掘方法及系统,采用爬虫的方法与浏览器交互,自动化抓取host对应的含义并提炼后获得标签,提出融合以上自动化标记方法与 半监督学习 的方法来实现自动化挖掘host标签,同时利用了标记数据和未标记数据,弥补了监督学习与 无监督学习 的不足,本发明提出在实现爬虫自动化抓取并标记host的方法上,基于半监督学习的SVM-KNN分类方法,将少量有标记的host数据与大量未标记的host数据做融合训练,对未标记的host数据做分类,最终实现自动化挖掘DPI 大数据 的host标签。,下面是基于半监督学习的DPI数据中host的自动化挖掘方法及系统专利的具体信息内容。

1.一种基于半监督学习的DPI数据中host的自动化挖掘方法,其特征在于,包括步骤:
步骤1:少量host标签自动化提取;
步骤11)提取一小部分HDFS中存储的DPI日志数据中的host字段;
步骤12)采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库
步骤13)对应用名称做提取,并作为该host的标签,构建新的host标签表;
步骤2:基于半监督分类学习的大量host标签自动化提取
步骤21)使用步骤1生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;
步骤22)用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;
步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;
步骤24)挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;
步骤25)迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;
步骤26)用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;
步骤3:构建host标签库
最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。
2.根据权利要求1所述基于半监督学习的DPI数据中host的自动化挖掘方法,其特征在于:步骤13)使用hql清洗爬虫数据,过滤空值和异常host字段之后,对应用名称做提取。
3.一种基于半监督学习的DPI数据中host的自动化挖掘系统,其特征在于:包括少量host标签自动化提取模、基于半监督分类学习的大量host标签自动化提取模块、host标签库构建模块,其中:
少量host标签自动化提取模块用于提取一小部分HDFS中存储的DPI日志数据中的host字段,采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;使用hql清洗爬虫数据,过滤空值和异常host之后,对应用名称做提取,并作为该host的标签,构建新的host标签表;
基于半监督分类学习的大量host标签自动化提取模块用于使用生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;
host标签库构建模块用于采用最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。

说明书全文

基于半监督学习的DPI数据中host的自动化挖掘方法及系统

技术领域

[0001] 本发明涉及一种基于半监督学习的DPI数据中host的自动化挖掘方法及系统,属于互联网大数据挖掘的技术领域。

背景技术

[0002] 现如今DPI深度报文检测技术已经发展的相当成熟,运营商通过DPI平台已经累积了海量的流量数据。通信运营商通过这些流量数据已经提取出了如终端型号、手机号码等关键字段;通过分析用户行为数据,塑造家庭画像,进而对家庭实施精准的融合业务营销、异网用户策反等经营手段。
[0003] 但DPI数据中有大量数据需要人工做标记,例如挖掘网站域名的传统方法是人工手动在浏览器里搜索一条条的host数据,将结果标记为该host对应的应用域名,而这样标记大量样本既费时又耗,付出的代价太过“昂贵”。全靠人力也仅能标记其中一小部分的数据,但若仅用一小部分标记数据同时在对含有大规模未标记样本的数据集进行分类时,鉴于标记大规模的未标记样本既费时又耗力,若只依靠少量的标记样本进行分类,预测精度又比较低。

发明内容

[0004] 发明目的:为了克服现有技术中存在的不足,本发明提供一种基于半监督学习的DPI数据中host的自动化挖掘方法及系统,基于运营商DPI日志数据中的host,自动化的清洗、分析、挖掘的方法,该发明主要通过提取DPI数据中的host,采用自动化爬虫技术,将其与搜索引擎做交互,提取其对应的含义。同时使用数据仓库概念,用hql对其做数据的过滤清洗,提炼出每个host对应的应用名称标签,实现对host做自动化挖掘。同时本发明针对样本集中具有较少标记样本情况下的host分类问题,提出一种结合半监督学习的dpi日志中host高精度的分类方法。采用半监督学习策略,根据训练集中已标记样本,利用SVM作为主分类器,联合KNN对含有大量未标记样本的数据集进行分类,对大量无标记数据做应用名称标签的预测,这种方法不仅解决了传统人工标记带来的困难,同时使用半监督的方式解决了大量数据标记的复杂度。
[0005] 技术方案:为实现上述目的,本发明采用的技术方案为:
[0006] 一种基于半监督学习的DPI数据中host的自动化挖掘方法,分为两个部分:第一部分是少量host标签自动化提取模;第二部分是基于半监督分类学习的大量host标签自动化提取模块。
[0007] 第一部分是少量host标签自动化提取模块:首先根据日志数据中的host,采用爬虫技术,与浏览器做交互,模拟人的行为,将每一条host输入到百度中,获取到第一条结果记录,并构建原始数据表将结果存入hive中。使用hql对原始数据做清洗、提炼,如过滤掉类似”113.96.231.21”和空值数据,并提取其中的例如“腾讯视频”、“抖音”等应用名称。并将这些应用名称作为该host的标签。这部分数据我们对其做了标记处理。但由于日志数据量非常大,一天的日志数据种中可能会有几百万条host数据,仅用提取标记的方法也会存在漏洞,例如:由于存在手机端和电脑端host的不同,有的手机端host使用爬虫技术,在百度中并未搜索到结果,而且大量数据仅通过爬虫来构建应用名称标签也需要耗费大量时间,所以本发明第二部分采用半监督学习的方式对其作分类学习,预测应用名称标签。
[0008] 第二部分基于半监督分类学习的大量host标签自动化提取模块:因为实际情况是多类别问题。即大批量host作为输入后结果会分为多个应用类别,而SVM可以看成每类只有一个代表点的最近邻(Nearst Neighbour,NN)分类器,故本发明使用综合了KNN和SVM两种算法的标签集成分类器。本发明以一对一(one-Versus-one)为基础综合多个二分类SVM和二分类KNN的二分类器系统来解决分类器的输入可以是多个类别的问题。
[0009] 一种基于半监督学习的DPI数据中host的自动化挖掘系统,包括少量host标签自动化提取模块、基于半监督分类学习的大量host标签自动化提取模块、host标签库构建模块,其中:
[0010] 少量host标签自动化提取模块用于提取一小部分HDFS中存储的DPI日志数据中的host字段,采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;使用hql清洗爬虫数据,过滤空值和异常host之后,对应用名称做提取,并作为该host的标签,构建新的host标签表;
[0011] 基于半监督分类学习的大量host标签自动化提取模块用于使用生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;
[0012] host标签库构建模块用于采用最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。
[0013] 本发明相比现有技术,具有以下有益效果:
[0014] 本发明首先用监督学习算法(比如SVM)训练少量标记数据,找到支持向量,得到一个弱分类器SVM,再用这个弱分类器SVM在分类阶段计算待识别样本和分界面的距离,距离大于给定的阈值,即样本离分界面较远,则用这个弱分类器SVM去标记数据集中的大量未标记样本。但由于训练数据不充分,弱分类器SVM的分类能力比较弱,导致大量未标记样本的预测结果可信度比较低。于是挑选出分类边界附近的n个边界向量,这n个边界向量很有可能是支持向量,对分类结果起着决定性的作用,但是它们又比较容易误分,因此挑选出这些由弱分类器SVM标记的类别比较模糊的边界向量,引入KNN分类器再对这些边界向量进行标记,提高这些边界向量标记值的可信度,再将这些边界向量融入训练集,在新训练集的基础上重新训练一个精度较高的分类器,如此迭代下去,最终得到一个分类精度比较高的分类器SVM。再对未经标注数据进行预测,预测得出的预测类别概率越大,代表分类取得的置信度越高,将置信度较高的文本连同其分类标注一起加入到已标记的数据中,重新训练分类器(每次都要从未标注样本扣除被选择的样本),迭代训练直到未标注样本为空集结束。实验结果表明最后训练出的SVM具有较好的分类精度,本算法不仅减小了标记大量未标记样本的代价,而且充分利用未标记数据提高了半监督学习的效果附图说明
[0015] 图1为本发明流程示意图

具体实施方式

[0016] 下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0017] 一种基于半监督学习的DPI数据中host的自动化挖掘方法,运营商DPI数据以每个家庭为单元,通过分析挖掘家庭网关下用户浏览的网站域名构建host标签,(包括但不限于购物类、视频类、音乐类、社交类、阅读类、理财类、生活类、教育类、旅游类。)进一步可以构建家庭圈画像,如该家庭是爱奇艺、腾讯视频长视频应用的爱好者、该家庭近期关注了几个旅游网站(如途、携程等)、该家庭频繁浏览了作业帮等教育网站等等。构建画像的目的是提炼价值,再根据家庭需求与相关企业合作完成广告、产品的精准营销,最后追踪客户反馈的信息,完成闭环优化。所以挖掘用户浏览的网站域名隐含的价值起到了非常关键的作用。
[0018] 而挖掘网站域名的传统方法是人工手动在浏览器里搜索一条条的host数据,将结果标记为该host对应的应用域名,而这样标记大量样本既费时又耗力,付出的代价太过“昂贵”,另一方面大量的未标记数据将会被搁置起来,失去了进行更加深层次的挖掘的机会。所以我们考虑采用爬虫的方法与浏览器交互,自动化抓取host对应的含义并提炼后获得标签,但这个过程也存在一定的局限,如:一天的日志中十几个G的数据要是纯靠爬虫的方法也会消耗大量时间。于是进一步我们提出融合以上自动化标记方法与半监督学习的方法来实现自动化挖掘host标签。半监督学习作为一种近年新提出的一种学习策略,同时利用了标记数据和未标记数据,弥补了监督学习与无监督学习的不足,已成为该领域的研究热点,吸引着越来越多的学者对其进行深入地研究。本发明提出在实现爬虫自动化抓取并标记host的方法上,基于半监督学习的SVM-KNN分类方法,将少量有标记的host数据与大量未标记的host数据做融合训练,对未标记的host数据做分类,最终实现自动化挖掘DPI大数据的host标签。
[0019] 如图1所示,具体包括以下步骤:
[0020] 步骤一:少量host标签自动化提取模块
[0021] 1)提取一小部分HDFS中存储的DPI日志数据中的host字段。
[0022] 2)采用爬虫技术,与浏览器做交互,抓取每一个host对应的百度搜索记录第一条内容,并存入hive数据库。
[0023] 3)使用hql清洗爬虫数据,过滤空值和异常host之后,对应用名称做提取,如“腾讯视频”、“抖音”,并作为该host的标签,构建新的host标签表;
[0024] 步骤二:基于半监督分类学习的大量host标签自动化提取模块
[0025] 1)我们使用第一部分生成的少量标记样本host标签表作为原始训练集,预[0026] 训练出一个弱分类器SVM 1;
[0027] 2)用SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;
[0028] 3)挑选出的边界向量比较容易误分,但又有可能是支持向量,所以将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;
[0029] 4)挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的SVM 2;
[0030] 5)迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算;
[0031] 6)用训练出的最终SVM分类器预测数据集中原有的未标记样本的标记值。
[0032] 步骤一中采用爬虫技术自动化标记host数据和步骤二综合KNN和SVM的标签集成分类器进行半监督学习扩展未标记的数据步骤三:构建host标签库
[0033] 最终SVM预测的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。
[0034] 一种基于半监督学习的DPI数据中host的自动化挖掘系统,包括少量host标签自动化提取模块、基于半监督分类学习的大量host标签自动化提取模块、host标签库构建模块,其中:
[0035] 少量host标签自动化提取模块用于提取一小部分HDFS中存储的DPI日志数据中的host字段,采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;使用hql清洗爬虫数据,过滤空值和异常host之后,对应用名称做提取,并作为该host的标签,构建新的host标签表;
[0036] 基于半监督分类学习的大量host标签自动化提取模块用于使用生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;
[0037] host标签库构建模块用于采用最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。
[0038] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈