专利汇可以提供一种中文钓鱼网站检测方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种中文钓鱼 网站 检测方法及系统,该方法包括:S1、客户端获取网址URL;S2、分别提取网址URL特征和网站页面内容特征作为 特征向量 ;S3、通过 支持向量机 、扩展的朴素贝叶斯算网站页面内容特征法、 决策树 算法 、链接和表单处理对特征向量进行分类训练;S4、对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。本发明提取网址URL特征和网站页面内容特征作为特征向量,使用SVM支持向量机、NBC朴素贝叶斯算法、决策树算法和链接表单的相应处理进行对应的分类训练,并使用分类集成对预测结果进行集成得到最终结果,大大的提高了分类的 精度 。,下面是一种中文钓鱼网站检测方法及系统专利的具体信息内容。
1.一种中文钓鱼网站检测方法,其特征在于,所述方法包括:
S1、客户端获取网址URL,将网址URL与本地数据库中的黑名单和白名单进行比对;
若网址URL在黑名单中,则直接返回警告信息;
若网址URL在白名单中,则返回该网址URL为正常网址;若不在本地数据库中,则将网址URL发送至服务器;
S2、服务器分别提取网址URL特征和网站页面内容特征作为特征向量;
S3、通过支持向量机、扩展的朴素贝叶斯算法、决策树算法、链接和表单处理对特征向量进行分类训练;
S4、对分类训练的结果进行分类集成,判断网址是否为钓鱼网站;
所述步骤S2中的网址URL特征包括:域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后;
所述步骤S2中的网站页面内容特征包括:string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本;
对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本进行分词,使用TF-IDF算法提取代表性较强的特征词作为对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单网站页面内容特征的特征向量;
对网址URL特征采用决策树算法进行分类训练;具体为:
对于URL提取出的特征有域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后共8项特征,计算每项特征信息增益率,具有最高信息增益率的特征设为根节点,信息增益率的计算公式如(11):
其中:SplitInfo(S,A)表示分裂信息度量,代表了按照属性A分裂样本集S的广度和均匀度,Gain(S,A)表示信息度量,与熵值Entropy(S)有关;
对string字符串采用支持向量机进行分类训练;具体为:
第一,将TF-IDF计算后的String字符串作为训练数据,使用了归一化处理如式(4):
y=(x-MinValue)/(MaxValue-MinValue) (4)
其中:x、y分别为转换前、后的值;
MaxValue、MinValue分别为样本的最大值和最小值;
归一化值之后,求解线性函数g(x)=wx+b,使得钓鱼网站的点带入后g(x)<0,正常网站的点带入后g(x)>0,因此需要选择g(x)参数w,b;
其中:求解w,计算公式如下:
其中:ai是拉格朗日因子;
yi就是第i个样本的标签,等于1或者-1;
xi是样本点;
n是总样本点个数;
g(x)表达式为:
式(6)中x是变量,对式(6)进行进一步处理得到:
第二,引入核函数,使用径向基核函数,公式如下:
K(x,y)=exp(-|x-y|^2/d^2) (8);
对title标签、alt标签、keyword标签、copyright标签、description标签采用扩展的朴素贝叶斯算法进行分类训练;具体为:
扩展的朴素贝叶斯算法基于贝叶斯定理,如下:
其中:x是待分类项,x={a1,a2,...,am},每个a为x的一个特征属性;
yi是类别,分别为:钓鱼网站和正常网站;
式(9)中,分母对于所有类别均为常数:
对src名称、frame框架、form表单采用链接和表单处理法进行分类训练,具体为:对于链接地址的处理如式(12)
其中:Lnull是网页中空链接的个数;
Lreal是网页中指向真实网站的链接个数;
Lall是网页内的链接总数;
Llocal是网页中指向本域内的链接个数;
对于表单的处理如式(13)
其中:f=1表示Form表单提交对象出现异常,可能是钓鱼网站;否则,表示正常。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中网址URL的获取方式包括手动输入、二维码扫描、点击邮件/短信中的链接。
3.根据权利要求1所述的方法,其特征在于,所述步骤S4具体为:
通过采样计算每个特征向量的精确度和召回率;
根据得到的精确度和召回率判断每个特征向量在总体判断中所占权重;
根据对应特征向量的检测结果和在总体判断中所占权重,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
4.一种如权利要求1所述方法的中文钓鱼网站检测系统,其特征在于,所述系统包括客户端模块以及服务器,所述客户端模块,获取网址URL与本地数据库的黑名单和白名单进行比对,若在本地黑名单中则直接返回警告信息,在白名单中则返回正常网址;若不在本地数据库中,则发送至服务器;
所述服务器包括:
特征提取模块,提取网址URL特征和网站页面内容特征作为特征向量;
分类训练模块,通过支持向量机、扩展的朴素贝叶斯算法、决策树算法、链接和表单处理对特征向量进行分类训练;
分类集成模块,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站;
所述网址URL特征包括:域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后;
所述网站页面内容特征包括:string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本;
对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本进行分词,使用TF-IDF算法提取代表性较强的特征词作为对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单网站页面内容特征的特征向量;
对网址URL特征采用决策树算法进行分类训练;具体为:
对于URL提取出的特征有域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后共8项特征,计算每项特征信息增益率,具有最高信息增益率的特征设为根节点,信息增益率的计算公式如(11):
其中:SplitInfo(S,A)表示分裂信息度量,代表了按照属性A分裂样本集S的广度和均匀度,Gain(S,A)表示信息度量,与熵值Entropy(S)有关;
对string字符串采用支持向量机进行分类训练;具体为:
第一,将TF-IDF计算后的String字符串作为训练数据,使用了归一化处理如式(4):
y=(x-MinValue)/(MaxValue-MinValue) (4)
其中:x、y分别为转换前、后的值;
MaxValue、MinValue分别为样本的最大值和最小值;
归一化值之后,求解线性函数g(x)=wx+b,使得钓鱼网站的点带入后g(x)<0,正常网站的点带入后g(x)>0,因此需要选择g(x)参数w,b;
其中:求解w,计算公式如下:
其中:ai是拉格朗日因子;
yi就是第i个样本的标签,等于1或者-1;
xi是样本点;
n是总样本点个数;
g(x)表达式为:
式(6)中x是变量,对式(6)进行进一步处理得到:
第二,引入核函数,使用径向基核函数,公式如下:
K(x,y)=exp(-|x-y|^2/d^2) (8);
对title标签、alt标签、keyword标签、copyright标签、description标签采用扩展的朴素贝叶斯算法进行分类训练;具体为:
扩展的朴素贝叶斯算法基于贝叶斯定理,如下:
其中:x是待分类项,x={a1,a2,...,am},每个a为x的一个特征属性;
yi是类别,分别为:钓鱼网站和正常网站;
式(9)中,分母对于所有类别均为常数:
对src名称、frame框架、form表单采用链接和表单处理法进行分类训练,具体为:对于链接地址的处理如式(12)
其中:Lnull是网页中空链接的个数;
Lreal是网页中指向真实网站的链接个数;
Lall是网页内的链接总数;
Llocal是网页中指向本域内的链接个数;
对于表单的处理如式(13)
其中:f=1表示Form表单提交对象出现异常,可能是钓鱼网站;否则,表示正常。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种脑电智能钓鱼玩具 | 2020-08-24 | 0 |
一种腕带式OLED智能钓鱼器 | 2020-08-12 | 1 |
一种具有增氧功能的新型钓箱 | 2020-08-10 | 1 |
自由组合泛用型钓竿 | 2020-09-23 | 1 |
台钓逗钓线组 | 2020-05-21 | 0 |
一种钓饵 | 2020-12-27 | 0 |
蜂巢式防挂钓鱼钩 | 2020-09-25 | 0 |
一种卸鱼挡针 | 2020-06-30 | 0 |
FISHING LURE WITH MECHANISM FOR FISH HOOK REPLACEMENT | 2020-11-18 | 2 |
MOBILKRAN UND VERFAHREN ZUM ABWINKELN EINER HAUPTAUSLEGERVERLÄNGERUNG RELATIV ZU EINEM HAUPTAUSLEGER EINES MOBILKRANS | 2020-07-26 | 2 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。