技术领域
[0001] 本
发明属于信息技术领域,涉及赌博网站检测技术,具体涉及一种基于卷积神经网络的赌博网站识别方法和系统。
背景技术
[0002] 随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴
力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会
风气。
[0003] 现有的针对赌博网站的检测技术主要包括提取网页的文本内容,对文本进行预处理、分词、特征选择、分类训练等步骤,通过基于文本的
机器学习方法对网页进行分类,从而实现对网站分类的目的。
[0004] 然而随着不良网站的不断
迭代,基于多重JS加载形式的网站越来越多,由于难以提取文本内容,原本基于文本的检测方法难以奏效。又由于不良网站的模板不断迭代,基于文本的方法需要根据不同的模板通过人工不断更新提取文本的规则,费时费力。
发明内容
[0005] 本发明提供一种基于卷积神经网络的赌博网站识别方法和系统,能够解决文本特征方法难以处理新出现的网站模板的问题,提高赌博网站检测的准确率。
[0006] 判断一个网站是否为赌博网站,标准在于网页加载完成后是否具有赌博内容。因此本发明通过
深度神经网络对网站网页截图的特征进行学习,使用的是整个网站的截图,区别于使用网页里面的图片进行分类的方法,并且不再依靠网页源码中的文本信息,从根本上解决了该类不良网站的识别问题。
[0007] 本发明采用的技术方案如下:
[0008] 一种基于卷积神经网络的赌博网站识别方法,包括以下步骤:
[0009] 批量获取网站的网页截图;
[0010] 标注网页截图的类别;
[0011] 以标注的网页截图作为
训练数据,训练卷积神经网络模型;
[0012] 利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
[0013] 进一步地,对标注的网站网页截图进行预处理操作,以便于进行模型训练。
[0014] 进一步地,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。
[0015] 进一步地,所述获取网站的网页截图包括使用多线程的网页加载
渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。
[0016] 进一步地,采用人工方式标注网站网页截图的类别。
[0017] 进一步地,所述卷积神经网络模型包括:
输入层、两层卷积层、两层
池化层、扁平化层、两层随机丢弃层和全连接层。
[0018] 一种基于卷积神经网络的赌博网站识别系统,其包括:
[0019] 批量网页截图模
块,用于批量获取网站的网页截图;
[0020] 网站类别标注模块,用于标注网页截图的类别;
[0021] 模型训练模块,用于以标注的网页截图作为训练数据,训练卷积神经网络模型;
[0022] 预测模块,用于利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。
[0023] 进一步地,还包括截图预处理模块,用于对网站类别标注模块标注的网页截图进行预处理操作,以便于进行模型训练。
[0024] 进一步地,所述预处理操作包括转灰度操作、缩放操作和/或白化操作。
[0025] 进一步地,所述批量网页截图模块使用多线程的网页加载渲染工具快速地实现大批量网页的加载和渲染,从而快速的获取网站的网页截图。
[0026] 进一步地,所述网站类别标注模块采用人工方式标注网页截图的类别。
[0027] 本发明使用标注的网页截图作为训练数据训练网站分类器,并将卷积神经网络模型用于网站的分类中,具有以下有益效果:
[0028] 1)本发明不再依赖网页文本信息来进行网站分类,从而解决了对于某些JS加载类型的网站无法获取文本的问题。
[0029] 2)本发明直接对赌博网站的图片特征进行学习,从根本上解决了因为网站模板不断更新而导致的需要不断更新文本特征提取方法的问题。
[0030] 3)与基于网页内图片识别的方法相比,本发明因抓取并统筹考虑了整个网页快照,既能
覆盖未包含任何图片的赌博网页,也能充分的将网页布局、文字式样等视觉信息考虑在内,覆盖更广、适应性也更强。
[0031] 4)本发明具有较高的检测准确率。在使用3920个样本作为训练数据的条件下,测试集的准确率达到89%。
附图说明
[0032] 图1:赌博网站示例图。
[0033] 图2:网站的源码示例图。
[0034] 图3:基于文本特征的网站分类方法
流程图。
[0035] 图4:基于卷积神经网络的网站分类方法流程图。
[0036] 图5:卷积神经网络结构示意图。
[0037] 图6:训练集与测试集的获取与应用流程图。
具体实施方式
[0038] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体
实施例和附图,对本发明做进一步详细说明。
[0039] 以一个赌博网站为例,图1是该赌博网站的首页截图,对该网页截图进行人工判断很容易确定该网站是赌博网站,但是如果依照提取网页文本的方法来处理该类型的网站则极容易出错。
[0040] 图2是该赌博网站中网页的源码信息摘取的
片段,从该网站的源码中可以看出,该网页所包含的文本内容为正常内容,但是这部分文本内容实际上没有显示,而显示出来的内容则是通过JS加载出来的包含赌博内容的
框架(Frame)。如果根据图3所示的基于文本特征的方法来检测该网站,则在第二步提取文本特征时提取得到的是正常的文本,从而导致模型对该网站的误判。
[0041] 由于网页文本可以被伪造从而干扰模型判断,本发明使用网站页面快照(网页截图)来进行训练和分类。考虑到系统的效率,本发明优选采用网站的首页截图来进行训练和分类。下面以网站的首页截图为例进行说明。
[0042] 图4是本实施例的基于卷积神经网络的网站分类方法流程图。首先获取网站的首页截图并进行人工标注。因为快照截图为彩色图像,有RGB三个通道,本发明采用基于均值的方法将彩色图像转换成为灰度图像。为了减小模型训练的计算量,在转换为灰度图之后对图片进行了缩放操作,将原有网站截图从1024×768缩放到256×192,再对得到的图片进行白化操作。
[0043] 将人工标注后的图片进行上述操作后,作为卷积神经网络的输入,将网站的类别作为卷积神经网络的输出,来训练卷积神经网络图片分类模型,然后利用训练好的模型对网站进行分类。类别共有两类:0,表示正常网站;1,表示赌博网站。
[0044] 本发明所采用的卷积神经网络结构如图5所示,其中:
[0045] InputLayer为输入层,其中64为每批输入图片的个数,252为图片长度,192为图片宽度,1为默认值。
[0046] Conv2dLayer为卷积层,模型中共有两层卷积层。其中shape为卷积核的形状,strides为卷积核的滑动参数,pad为对边缘补全
像素的填充方法,act为采用的激活函数。
[0047] PoolLayer为池化层,模型中共有两层池化层。其中ksize为池化单元的大小,strides为池化单元滑动参数,padding为对边缘补全像素的填充方法,pool为池化方法。
[0048] FlattenLayer为扁平化层,将池化层的结果扁平化处理后输出到DropoutLayer。
[0049] DropoutLayer为随机丢弃层,模型中共有两层随机丢弃层,以keep的概率随机选择是否更新权重,is_fix为随机丢弃标志。
[0050] DenseLayer为全连接层,负责链接FlattenLayer和
输出层。
[0051] 本发明的另一实施例提供一种采用上述方法的基于卷积神经网络的赌博网站识别系统。该系统主要包括以下几个部分:批量网页截图模块、网站类别标注模块、截图预处理模块、模型训练模块和预测模块。下面将按顺序介绍每个模块所做的工作。
[0052] a)批量网页截图模块,用于批量截取训练集和测试集的网站首页的截图。使用多线程的网页加载渲染工具可以快速的实现大批量网页的加载和渲染,实现快速的首页截图。
[0053] b)网站类别标注模块,用于采用人工方式标注网站的首页截图的类别。
[0054] c)截图预处理模块,用于对截取的图片进行转灰度、缩放、白化操作。白化操作是对前两步得到的图像进行去冗余和零方差处理,上述步骤都是常见的
图像处理步骤,有众多开源或非开源的实现库。
[0055] d)模型训练模块,用于对已经标注好的且经过预处理后的图片数据进行训练,得到卷积神经网络模型。图6为模型训练过程中训练集与测试集的获取与应用流程。图片数据在此之前是需要人工标注的,与基于文本的标注方法相同,但由于图片的
可视化程度强,标注的速度比文本标注的速度更快。训练集与测试集按照图6中所示的a:(1-a)的比例划分。本实施例采用7:3的比例划分,即图6中a值在训练过程中选择0.7。可用的模型训练框架很多,该模型训练模块可以采用
现有技术实现。如图6所示,使用测试集进行预测时,根据预测结果调节模型的参数,最终得到训练好的卷积神经网络模型。
[0056] e)预测模块,利用模型训练模块得到的卷积神经网络模型来做出预测。将待预测的首页截图进行预处理(转灰度、缩放、白化处理)之后输入卷积神经网络模型即可得到该图像的预测类别。由于预测模块不会进行迭代训练,所以速度快,可以快速进行批量处理。
[0057] 本实施例在实验过程中使用共3920个测试样本,其中赌博网站2000个,正常网站1920个。实验分成A、B两组进行,A组使用基于首页截图的CNN检测模型预测,B组使用基于网页源码的检测模型预测,表1为A、B两组实验结果的对比。可以看出,与使用基于网页源码的检测模型进行预测相比,采用本发明的方法能够取得更好的技术效果,能够明显提高赌博网站检测的精确率、召回率、准确率和F1值。
[0058] 表1:A、B组预测结果对比
[0059] 精确率 召回率 准确率 F1值
A 88.55% 90.10% 89% 89.32%
B 63.10% 66.10% 62.98% 64.57%
[0060] 以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行
修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以
权利要求书所述为准。