技术领域
[0001] 本
发明涉及互联网技术领域,特别涉及一种网页分类方法及系统、存储介质及电子设备。
背景技术
[0002] 随着网络资源的不断丰富,人们通过网页获取资源和信息的需求不断增多。用户可以通过
访问不同
网站的网页,阅读新闻信息、进行购物或者观看自己喜爱的视频,在扩展了个人信息量来源的同时,也丰富了个人生活。
[0003] 与此同时,一些不法分子利用网页进行的恶意行为也呈爆发增长的趋势。不法分子在用户访问网页时,利用具有恶意行为的恶意网页,破坏用户的访问过程,对用户的财产、个人信息等造成了不同程度的损害,降低了用户对网页访问的安全性。
发明内容
[0004] 本发明所要解决的技术问题是提供一种网页分类方法,对用户待访问的网页进行分类,以确定待访问网页的网页类别,避免用户误访问恶意网页,提高用户对网页访问的安全性。
[0005] 本发明还提供了一种网页分类装置,用以保证上述方法在实际中的实现及应用。
[0006] 一种网页分类方法,所述方法包括:
[0007] 从待分类网页的网页元素中提取网页特征;
[0008] 将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到所述待分类网页的初级类别,不同的初始分类器识别不同的类别的恶意网页;
[0009] 将每个所述初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别。
[0010] 上述的方法,可选的,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
[0011] 获取第一元素属性对应的网页特征,所述第一元素属性对应的网页特征是可以确定所述待分类网页是否为欺诈类型网页的特征;
[0012] 将所述第一元素属性对应的网页特征所组成的
特征向量输入至欺诈网页分类器,以得到所述待分类网页的第一初始类别,所述第一初始类别为正常网页、钓鱼网页、欺诈网页或仿冒网页。
[0013] 上述的方法,可选的,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
[0014] 获取第二元素属性对应的网页特征;所述第二元素属性对应的网页特征是从所述待分类网页的源代码中提取的,可确定所述待分类网页是否为恶意入侵类型网页的特征;
[0015] 将所述第二元素属性对应的网页特征所组成的特征向量输入至恶意入侵网页分类器,以得到所述待分类网页的第二初始类别,所述第二初始类别为
恶意广告网页、黑客入侵网页、木
马网页或正常网页。
[0016] 上述的方法,可选的,所述将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到待分类网页的初级类别,包括:
[0017] 获取第三元素属性对应的网页特征,所述第三元素属性对应的网页特征是可确定所述待分类网页是否为不合规类型网页的特征;
[0018] 将所述第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器,以得到所述待分类网页的第三初始类别,所述第三初始类别为正常网页、色情网页、非法博彩网页或违反法律法规网页。
[0019] 上述的方法,可选的,所述不合规网页分类器包含至少一个子分类器;
[0020] 所述将第三元素属性对应的网页特征所组成的特征向量输入至不合规网页分类器,以得到所述待分类网页的第三初始类别包括:
[0021] 确定每个子分类器对应的网页特征,所述每个子分类器对应的网页特征为所述第三元素属性对应的网页特征中
指定的一种或几种;
[0022] 将每个子分类器对应的网页特征组成特征向量并输入至子分类器中,得到所述待分类网页的多个预测类别;
[0023] 将所述预测类别中预测概率值最高的预测类别作为所述待分类网页的第三初始类别。
[0024] 上述的方法,可选的,所述将每个初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别,包括:
[0025] 将每个初始分类器的分类器编号,结合其对应的初级类别输入至所述集成分类器,由所述集成分类器依据预设的分析
算法,计算每个初级类别的出现概率,将出现概率最高的初级类别作为所述待分类网页的网页类别。
[0026] 一种网页分类装置,包括:
[0027] 提取单元,用于从待分类网页的网页元素中提取网页特征;
[0028] 发送单元,用于将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到所述待分类网页的初级类别,不同的初始分类器识别不同的类别的恶意网页;
[0029] 汇总单元,将每个所述初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别。
[0030] 上述的装置,可选的,所述汇总单元包括:
[0031] 输入子单元,用于将每个初始分类器的分类编号,结合其对应的初级类别输入至集成分类器。
[0032] 一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行上述的网页分类方法。
[0033] 一种电子设备,包括
存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储域存储器中,且经配置以由一个或者一个以上处理器执行上述的网页分类方法。
[0034] 与
现有技术相比,本发明包括以下优点:
[0035] 本发明提供的网页分类方法,从待分类网页的网页元素中提取网页特征;将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到所述待分类网页的初级类别,不同的初始分类器识别不同的类别的恶意网页;将每个所述初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别。本发明提供的网页分类方法,在用户需要对网页进行访问时,对待访问网页进行分类,从网页的网页元素中提取网页特征,并将提取的各个网页特征发送至与其对应的初始分类器,本发明中,应用了多个不同的初始分类器,每个初始分类器可以对恶意网页进行识别,且每个初始分类器所识别的恶意网页的类别不同,各个初始分类器对接收到的各个网页特征进行处理,得到网页的初级类别,然后将各个初级类别在集成分类器中进行分析,以最终确定网页的网页类别,进而可以使用户根据待访问网页的网页类别,决定是否对网页进行访问,提升了用户访问网页的安全性。
[0036] 本发明提供的网页分类方法中,每一个初始分类器对待分类网页进行分类的过程中,不同的初始分类器针对不同的网页元素进行网页特征的提取,不需要依赖整个网页内容,降低了初始分类器包含的分类噪声,实现了网页特征的
降维,提高了网页特征提取的针对性和准确性,提高了网页分类的准确性。
[0037] 当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0038] 为了更清楚地说明本发明
实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039] 图1为本发明提供的一种网页分类方法的方法
流程图;
[0040] 图2为本发明提供的一种网页分类方法的又一方法流程图;
[0041] 图3为本发明提供的一种网页分类方法的又一方法流程图;
[0042] 图4为本发明提供的一种网页分类方法的又一方法流程图;
[0043] 图5为本发明提供的一种网页分类方法的一架构图;
[0044] 图6为本发明提供的一种网页分类系统的结构示意图;
[0045] 图7为本发明提供的一种电子设备的结构示意图。
具体实施方式
[0046] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047] 本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、
服务器计算机、
手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
[0048] 本发明实施例提供了一种网页分类方法,可以应用在计算机或移动终端的处理器中,由所述处理器执行所述网页分类方法的分类过程,图1示出了本发明提供的网页分类方法的方法流程图,包括:
[0049] S101:从待分类网页的网页元素中提取网页特征;
[0050] 对于用户需要访问的每一个网页,网页中会包含多个网页元素,每一个网页元素中包含对应的网页特征,本发明实施例中,对待分类网页中网页元素的网页特征进行提取。
[0051] S102:将每个网页特征发送至与其元素属性具有对应关系的初始分类器,以得到所述待分类网页的初级类别,不同的初始分类器识别不同的类别的恶意网页;
[0052] 本发明实施例中,待分类网页中包含了多个网页元素,根据每个网页元素的元素属性为该网页元素关联对应的初始分类器,将从每个网页元素中提取的网页特征,发送至所述网页元素的元素属性对应的初始分类器中,由所述初始分类器根据接收到的各个网页特征对待分类网页进行分类,获得待分类网页的初级类别,本发明实施例中,每个初始分类器可以识别设定类别的恶意网页,每个初始分类器所识别的恶意网页类别不同。
[0053] S103:将每个所述初始分类器确定的初级类别,汇总至集成分类器,由所述集成分类器进行分析,以最终确定所述待分类网页的网页类别。
[0054] 本发明实施例中,将确定的各个初级类别,汇总到集成分类器,由所述集成分类器对所述各个初级类别进行分析处理,以最终确定所述待分类网页的网页类别。
[0055] 本发明实施例提供的网页分类方法中,应用了多个不同的初始分类器,每个初始分类器可以对恶意网页的类别进行识别,且各个初始分类器所能识别恶意网页的类别各不相同。每一个初始分类器由其对应的网页元素中的网页特征训练得到。
[0056] 对于用户当前需要访问的网页,应用本发明实施例提供的网页分类方法对其进行分类,首先提取待分类网页的网页元素中的网页特征,然后将各个网页特征发送至其所在网页元素的元素属性对应的初始分类器中,由所述初始分类器依据接收到的各个网页特征对待分类网页进行分类,获得所述待分类网页的多个初级类别,然后经过集成分类器对所述多个初级类别进行分析处理,以最终确定所述待分类网页的网页类别,最终确定的待分类网页的可以是正常网页,也可以是某一具体类别的恶意网页,进而,用户可以根据待访问网页的网页类别,决定是否继续对该网页进行访问,避免了用户财产、个人信息的损害,提升了用户网页访问的安全性。
[0057] 本发明实施例中,网页元素是组成网页的基本元素,通过网页元素的属性,可以确定网页元素具体为网页布局、主题、表单、关键词、亦或其它。
[0058] 参考图2,示出了本发明实施例提供的网页分类方法中,得到待分类网页的初级类别的一种可行的实现方式,具体包括:
[0059] S201:获取第一元素属性对应的网页特征,所述第一元素属性对应的网页特征是可以确定所述待分类网页是否为欺诈类型网页的特征;
[0060] S202:将所述第一元素属性对应的网页特征所组成的特征向量输入至欺诈网页分类器,以得到所述待分类网页的第一初始类别,所述第一初始类别为正常网页、钓鱼网页、欺诈网页或仿冒网页。
[0061] 本发明实施例提供的网页分类方法中,每个初始分类器由设定类别的恶意网页的网页特征及正常网页中的网页特征训练得到。所述初始分类器可以是能够识别欺诈类型网页的欺诈网页分类器。
[0062] 欺诈类型网页可以包括:钓鱼网页、欺诈网页和仿冒网页;本发明实施例中,通过分析钓鱼网页、欺诈网页和仿冒网页的网页特性,确定与欺诈类型网页对应的网页元素的网页特征;将欺诈类型网页对应的网页特征结合正常网页的网页特征进行训练,可以构建能够识别欺诈类型网页及正常网页的欺诈网页分类器。
[0063] 本发明实施例中,所述第一元素属性可以为欺诈网页分类器能够识别的各个网页元素的元素属性,所述第一元素属性对应的网页特征可以包括:网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征。
[0064] 本发明设定对用户待访问网页中的网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征进行提取。在实际应用过程中,一个网页中可能不包含网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征中的全部,而是包括其中的一种或几种。本发明实施例中按照提取网页中的网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征的原则对网页中的特征进行提取,网页中包括网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征中的哪几种特征,就提取哪几种特征作为输入至欺诈网页分类器中的网页特征。
[0065] 然后将提取到的网页特征组成特征向量,输入至欺诈网页分类器进行分类,以确定所述待分类网页是正常网页、钓鱼网页、欺诈网页或仿冒网页。本发明实施例中,通过确定网页分类
置信度的方式,确定待分类网页的第一初始类别。
[0066] 本发明实施例中,针对欺诈网页分类器,在网页中提取的网页特征可以包括:
[0067] 网页布局特征、网页主题特征、网页外部链接特征、网页表单特征及网页关键词特征;
[0068] 其中:
[0069] 所述网页布局特征可以具体包括:网页中的网页文本特征、图片特征、全局视图特征等,在具体的提取过程中,首先,
抽取网页的多个文本特征6元组:文本内容、文本背景色、文本字体大小、文本格式、文本的字体名称和文本在网页中的
位置,然后,抽取网页的多个图片特征5元组:图片的src属性、图片的面积、图片的
颜色直方图、图片在网页中的位置和图片的小波特征,最后,将整个网页看做一个全局图像,抽取全局图像特征。
[0070] 网页的主题特征,可以为网页
标签中的内容。[0071] 网页的外部链接特征可以包括与本网站域名不符的外部链接占链接标签的比例,及空链接占链接标签的比例。
[0072] 网页表单特征,可以为: