首页 / 专利库 / 地球科学 / / 一种钓鱼网站检测方法、装置和存储介质

一种钓鱼网站检测方法、装置和存储介质

阅读:814发布:2020-05-08

专利汇可以提供一种钓鱼网站检测方法、装置和存储介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种钓鱼 网站 检测方法、装置和存储介质,用以提高钓鱼网站的检测效率和准确性。钓鱼网站检测方法,包括:从文本信息中提取待检测网站的第一网址;分别确定所述第一网址与预先配置的白名单 数据库 中所包含的第二网址的相似度系数;根据从文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定第一网址对应的安全 风 险系数;根据从待检测网站中提取的网页特征,利用网页分析模型确定所述第一网址对应的网页类型特征值;根据确定出的相似度系数中的最大值、安全风险系数和网页类型特征值,利用网页识别模型判断待检测网站是否为钓鱼网站。,下面是一种钓鱼网站检测方法、装置和存储介质专利的具体信息内容。

1.一种钓鱼网站检测方法,其特征在于,包括:
从文本信息中提取待检测网站的第一网址;
分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;
根据从所述文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定所述第一网址对应的安全险系数;
根据从待检测网站中提取的网页特征,利用网页分析模型确定所述第一网址对应的网页类型特征值,其中,所述网页分析模型为利用阶梯网络对包含标注信息的第一网页样本进行训练得到的,所述网页特征至少包括页面文档特征、页面图像特征和统一资源标识URL特征;
根据确定出的相似度系数中的最大值、所述安全风险系数和所述网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站,其中,所述网页识别模型为利用神经网络对包含标注信息的第二网页样本进行训练得到的。
2.如权利要求1所述的方法,其特征在于,针对所述白名单数据库中所包含的第二网址,按照以下公式确定所述第一网址与所述第二网址之间的相似度系数: 其中:
totalA为所述第一网址中包含的字符数量;
countA∩B为所述第一网址和所述第二网址中包含的相同字符数量;
s为所述第一网址与所述第二网址之间的相似度系数。
3.如权利要求2所述的方法,其特征在于,针对所述白名单数据库中所包含的第二网址,在确定出所述第一网址与所述第二网址之间的相似度系数之后,还包括:
针对所述第一网址中包含的每一字符,确定该字符对应的近似字符;以及
利用不同的近似字符组合得到第一网址对应的多个近似网址;
针对得到的每一近似网址,分别确定该近似网址与所述第二网址之间的相似度系数;
以及
从所述第一网址与所述第二网址之间的相似度系数以及所述近似网址与所述第二网址之间的相似度系数中选择最大值作为所述第一网址与所述第二网址之间的相似度系数。
4.如权利要求1所述的方法,其特征在于,根据从所述文本信息中提取的第一关键词集合、所述第二网址对应的第二关键词集合以及所述相似度系数最大值,确定所述第一网址对应的安全风险系数,具体包括:
按照以下公式确定所述第一关键词集合对应的置信系数: 其
中:A表示所述第一关键词集合对应的置信系数;Cmessage表示所述第一关键词集合;Clist表示所述第二关键词集合;card(Cmessage∩Clist)表示第一关键词集合和第二关键词集合中相同的关键词数量;card(Cmessage∪Clist)表示第一关键词集合和第二关键词集合中包含的所有关键词的数量;
确定置信系数与所述相似度系数最大值之间的最大值为所述第一网址对应的安全风险系数。
5.如权利要求1~4任一权利要求所述的方法,其特征在于,在分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数之前,还包括:
确定所述第一网址不存在于所述第二网址中或者预先配置的黑名单数据库中所包含的第三网址中。
6.如权利要求5所述的方法,其特征在于,还包括:
如果确定所述第一网址存在于所述第二网址中,则输出所述第一网址不是钓鱼网站的检测结果;
如果确定所述第一网址存在于所述第三网址中,则输出所述第一网址是钓鱼网站的检测结果。
7.一种钓鱼网站检测装置,其特征在于,包括:
第一提取单元,用于从文本信息中提取待检测网站的第一网址;
第一确定单元,用于分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;
第二确定单元,用于根据从所述文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定所述第一网址对应的安全风险系数;
第三确定单元,用于根据从待检测网站中提取的网页特征,利用网页分析模型确定所述第一网址对应的网页类型特征值,其中,所述网页分析模型为利用阶梯网络对包含标注信息的第一网页样本进行训练得到的,所述网页特征至少包括页面文档特征、页面图像特征和统一资源标识URL特征;
判断单元,用于根据确定出的相似度系数中的最大值、所述安全风险系数和所述网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站,其中,所述网页识别模型为利用神经网络对包含标注信息的第二网页样本进行训练得到的。
8.如权利要求7所述的装置,其特征在于,
所述第一确定单元,具体用于针对所述白名单数据库中所包含的第二网址,按照以下公式确定所述第一网址与所述第二网址之间的相似度系数: 其中:
totalA为所述第一网址中包含的字符数量;
countA∩B为所述第一网址和所述第二网址中包含的相同字符数量;
s为所述第一网址与所述第二网址之间的相似度系数。
9.如权利要求8所述的装置,其特征在于,还包括:
第四确定单元,用于针对所述白名单数据库中所包含的第二网址,在确定出所述第一确定单元确定出第一网址与所述第二网址之间的相似度系数之后,针对所述第一网址中包含的每一字符,确定该字符对应的近似字符;
组合单元,用于利用不同的近似字符组合得到第一网址对应的多个近似网址;
第五确定单元,用于针对得到的每一近似网址,分别确定该近似网址与所述第二网址之间的相似度系数;
选择单元,用于从所述第一网址与所述第二网址之间的相似度系数以及所述近似网址与所述第二网址之间的相似度系数中选择最大值作为所述第一网址与所述第二网址之间的相似度系数。
10.如权利要求7所述的装置,其特征在于,
所述第二确定单元,具体用于按照以下公式确定所述第一关键词集合对应的置信系数: 其中:A表示所述第一关键词集合对应的置信系数;Cmessage表
示所述第一关键词集合;Clist表示所述第二关键词集合;card(Cmessage∩Clist)表示第一关键词集合和第二关键词集合中相同的关键词数量;card(Cmessage∪Clist)表示第一关键词集合和第二关键词集合中包含的所有关键词的数量;确定置信系数与所述相似度系数最大值之间的最大值为所述第一网址对应的安全风险系数。
11.如权利要求7~10任一权利要求所述的装置,其特征在于,还包括:
第六确定单元,用于在所述第一确定单元分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数之前,确定所述第一网址不存在于所述第二网址中或者预先配置的黑名单数据库中所包含的第三网址中。
12.如权利要求11所述的装置,其特征在于,还包括:
第七确定单元,用于如果确定所述第一网址存在于所述第二网址中,则输出所述第一网址不是钓鱼网站的检测结果;如果确定所述第一网址存在于所述第三网址中,则输出所述第一网址是钓鱼网站的检测结果。
13.一种计算装置,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~6任一权利要求所述方法的步骤。
14.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1~6任一所述方法的步骤。

说明书全文

一种钓鱼网站检测方法、装置和存储介质

技术领域

[0001] 本发明涉及互联网技术领域,尤其涉及一种钓鱼网站检测方法、装置和存储介质。

背景技术

[0002] 钓鱼网站通常指伪装成行及电子商务,窃取用户提交的银行帐号、密码等私密信息的网站。近年来,随着电子商务技术的快速发展,钓鱼诈骗行为日益猖獗。不法分子利用伪基站、行业网关的短彩信接口、以微信为代表的即时通讯软件等信息媒介传播钓鱼诈骗网站,通过领奖、积分兑换、优惠活动等方式,诱导用户登录虚假网站填写个人信息,造成个人信息泄露和财产损失,降低了网站访问的安全性。
[0003] 目前针对此类钓鱼网站的检测方法主要有人工举报、黑白名单过滤法、基于内容模式识别法等。
[0004] 其中,人工举报受限于网民的主动发现和举报,具有滞后性,不能主动检测;黑白名单技术受限于名单需要人工更新,但是钓鱼网站的生存周期较短,不易及时发现、更新黑白名单;基于内容识别方法特征提取过程繁复,且模型多样,有可能会发生误报。由此可见,如何提高钓鱼网站检测的效率和准确性成为现有技术中亟待解决的技术问题之一。

发明内容

[0005] 本发明实施例提供一种钓鱼网站检测装置、装置和存储介质,用以提高钓鱼网站检测的效率和准确性。
[0006] 第一方面,提供一种钓鱼网站检测方法,包括:
[0007] 从文本信息中提取待检测网站的第一网址;
[0008] 分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;
[0009] 根据从所述文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定所述第一网址对应的安全险系数;
[0010] 根据从待检测网站中提取的网页特征,利用网页分析模型确定所述第一网址对应的网页类型特征值,其中,所述网页分析模型为利用阶梯网络对包含标注信息的第一网页样本进行训练得到的,所述网页特征至少包括页面文档特征、页面图像特征和统一资源标识URL特征;
[0011] 根据确定出的相似度系数中的最大值、所述安全风险系数和所述网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站,其中,所述网页识别模型为利用神经网络对包含标注信息的第二网页样本进行训练得到的。
[0012] 可选地,针对所述白名单数据库中所包含的第二网址,按照以下公式确定所述第一网址与所述第二网址之间的相似度系数: 其中:
[0013] totalA为所述第一网址中包含的字符数量;
[0014] countA∩B为所述第一网址和所述第二网址中包含的相同字符数量;
[0015] s为所述第一网址与所述第二网址之间的相似度系数。
[0016] 可选地,针对所述白名单数据库中所包含的第二网址,在确定出所述第一网址与所述第二网址之间的相似度系数之后,还包括:
[0017] 针对所述第一网址中包含的每一字符,确定该字符对应的近似字符;以及[0018] 利用不同的近似字符组合得到第一网址对应的多个近似网址;
[0019] 针对得到的每一近似网址,分别确定该近似网址与所述第二网址之间的相似度系数;以及
[0020] 从所述第一网址与所述第二网址之间的相似度系数以及所述近似网址与所述第二网址之间的相似度系数中选择最大值作为所述第一网址与所述第二网址之间的相似度系数。
[0021] 可选地,根据从所述文本信息中提取的第一关键词集合、所述第二网址对应的第二关键词集合以及所述相似度系数最大值,确定所述第一网址对应的安全风险系数,具体包括:
[0022] 按照以下公式确定所述第一关键词集合对应的置信系数:其中:A表示所述第一关键词集合对应的置信系数;Cmessage表示所述第一关键词集合;Clist表示所述第二关键词集合;card(Cmessage∩Clist)表示第一关键词集合和第二关键词集合中相同的关键词数量;card(Cmessage∪Clist)表示第一关键词集合和第二关键词集合中包含的所有关键词的数量;
[0023] 确定置信系数与所述相似度系数最大值之间的最大值为所述第一网址对应的安全风险系数。
[0024] 可选地,在分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数之前,还包括:
[0025] 确定所述第一网址不存在于所述第二网址中或者预先配置的黑名单数据库中所包含的第三网址中。
[0026] 可选地,本发明实施例提供的钓鱼网站检测方法,还包括:
[0027] 如果确定所述第一网址存在于所述第二网址中,则输出所述第一网址不是钓鱼网站的检测结果;
[0028] 如果确定所述第一网址存在于所述第三网址中,则输出所述第一网址是钓鱼网站的检测结果。
[0029] 第二方面,提供一种钓鱼网站检测装置,包括:
[0030] 第一提取单元,用于从文本信息中提取待检测网站的第一网址;
[0031] 第一确定单元,用于分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;
[0032] 第二确定单元,用于根据从所述文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定所述第一网址对应的安全风险系数;
[0033] 第三确定单元,用于根据从待检测网站中提取的网页特征,利用网页分析模型确定所述第一网址对应的网页类型特征值,其中,所述网页分析模型为利用阶梯网络对包含标注信息的第一网页样本进行训练得到的,所述网页特征至少包括页面文档特征、页面图像特征和统一资源标识URL特征;
[0034] 判断单元,用于根据确定出的相似度系数中的最大值、所述安全风险系数和所述网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站,其中,所述网页识别模型为利用神经网络对包含标注信息的第二网页样本进行训练得到的。
[0035] 可选地,所述第一确定单元,具体用于针对所述白名单数据库中所包含的第二网址,按照以下公式确定所述第一网址与所述第二网址之间的相似度系数: 其中:
[0036] totalA为所述第一网址中包含的字符数量;
[0037] countA∩B为所述第一网址和所述第二网址中包含的相同字符数量;
[0038] s为所述第一网址与所述第二网址之间的相似度系数。
[0039] 可选地,本发明实施例提供的钓鱼网站检测装置,还包括:
[0040] 第四确定单元,用于针对所述白名单数据库中所包含的第二网址,在确定出所述第一确定单元确定出第一网址与所述第二网址之间的相似度系数之后,针对所述第一网址中包含的每一字符,确定该字符对应的近似字符;
[0041] 组合单元,用于利用不同的近似字符组合得到第一网址对应的多个近似网址;
[0042] 第五确定单元,用于针对得到的每一近似网址,分别确定该近似网址与所述第二网址之间的相似度系数;
[0043] 选择单元,用于从所述第一网址与所述第二网址之间的相似度系数以及所述近似网址与所述第二网址之间的相似度系数中选择最大值作为所述第一网址与所述第二网址之间的相似度系数。
[0044] 可选地,所述第二确定单元,具体用于按照以下公式确定所述第一关键词集合对应的置信系数: 其中:A表示所述第一关键词集合对应的置信系数;Cmessage表示所述第一关键词集合;Clist表示所述第二关键词集合;card(Cmessage∩Clist)表示第一关键词集合和第二关键词集合中相同的关键词数量;card(Cmessage∪Clist)表示第一关键词集合和第二关键词集合中包含的所有关键词的数量;确定置信系数与所述相似度系数最大值之间的最大值为所述第一网址对应的安全风险系数。
[0045] 可选地,本发明实施例提供的钓鱼网站检测装置,还包括:
[0046] 第六确定单元,用于在所述第一确定单元分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数之前,确定所述第一网址不存在于所述第二网址中或者预先配置的黑名单数据库中所包含的第三网址中。
[0047] 可选地,本发明实施例提供的钓鱼网站检测装置,还包括:
[0048] 第七确定单元,用于如果确定所述第一网址存在于所述第二网址中,则输出所述第一网址不是钓鱼网站的检测结果;如果确定所述第一网址存在于所述第三网址中,则输出所述第一网址是钓鱼网站的检测结果。
[0049] 第三方面,提供一种计算装置,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一钓鱼网站检测方法所述的步骤。
[0050] 第四方面,提供一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行上述任一钓鱼网站检测方法所述的步骤。
[0051] 本发明实施例提供的钓鱼网站检测方法、装置和存储介质中,利用基于深度学习方法的阶梯网络对包含标注信息的第一网页样本进行训练得到网页分析模型,利用基于深度学习方法的神经网络对包含标注信息的第二网页样本进行训练得到的网页识别模型,针对可疑文本信息中包含的网址,分别确定其与白名单数据库中包含的网址之间的相似度系数,以及利用网页分析模型确定待检测的网址对应的安全风险系数,以及利用基于深度学习方法得到的网页分析模型对从待检测网址对应的网页中提取的网页特征进行分析,输出其对应的网页类型特征值,最后,将相似度系数最大值、安全风险系数和网页类型特征值输入到利用基于深度学习方法得到的网页识别模型中得到待检测的网站是否为钓鱼网站的检测结果,上述过程中,无须人工参与,从而提高了钓鱼网站的检测效率,另一方面,利用基于深度学习方法的神经网络对带有标注信息的网页样本进行训练得到相应的网页识别模型,提高了钓鱼网站检测结果的准确性。
[0052] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

[0053] 此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0054] 图1为根据本发明实施方式的钓鱼网站检测方法的实施流程示意图;
[0055] 图2为本发明实施例中采用的第一种Ladder Network模型结构示意图;
[0056] 图3为本发明实施例中采用的第二种Ladder Network模型结构示意图;
[0057] 图4为本发明实施例中采用的网页识别模型的结构示意图;
[0058] 图5为根据本发明实施方式的钓鱼网站检测装置的结构示意图;
[0059] 图6为根据本发明实施方式的计算装置的结构示意图。

具体实施方式

[0060] 本发明实施例提供一种钓鱼网站检测方法、装置和存储介质,用以提高钓鱼网站的检测效率和准确性。
[0061] 首先,对本发明实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
[0062] 需要说明的是,本发明中的终端设备可以是个人电脑(英文全称:Personal Computer,PC)、平板电脑个人数字助理(Personal Digita l Assistant,PDA)、个人通信业务(英文全称:Personal Communication Service,PCS)电话、笔记本和手机等终端设备,也可以是具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们能够向用户提供语音和/或数据连通性的设备,以及与无线接入网交换语言和/或数据。
[0063] 另外,本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
[0064] 在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0065] 以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0066] 如图1所示,其为本发明实施例提供的钓鱼网站检测方法的实施流程示意图,包括以下步骤:
[0067] S11、从文本信息中提取待检测网站的第一网址。
[0068] 本步骤中涉及的文本信息可以为终端设备接收到的短信文本信息,也可以为即时通信消息文本信息,从接收到的文本信息中分理出待检测网站的第一网址,该第一网址可以为待检测网站的URL(统一资源标识)。
[0069] S12、分别确定第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数。
[0070] 具体实施时,可以预先配置黑名单数据库和白名单数据库,其中,黑名单包括已知的钓鱼网站,白名单包括一些主流的网站,并根据网站关键词设置每条白名单URL的关键词集合,即白名单数据库中包含的第二网址可以为确定为非钓鱼网站的网址,黑名单数据库中包含的第三网址可以为确定为钓鱼网站的网址,黑名单数据库中包含的第三网址和白名单数据库中包含的第二网址定期更新。
[0071] 利用步骤S11中分离出的第一网址与白名单数据库中的第二网址进行匹配,如果白名单数据库中存在与第一网址匹配的第二网址,则可以直接输出待检测网站为非钓鱼网站的检测结果,同样地,如果利用步骤S11中分离出的第一网址与黑名单数据库中的第三网址进行匹配,如果黑名单数据库中存在与第一网址匹配的第三网址,则可以直接输出待检测网站为钓鱼网站的检测结果。如果白名单数据库或者黑名单数据库中均不存在与第一网址匹配的网址,则针对第一网址与白名单数据库中包含的各个第二网址进行相似度计算,匹配相似度最高的第二网址。
[0072] 具体实施时,可以分别计算第一网址与各个第二网址之间的相似度系数来确定第一网址与各个第二网址之间的相似度,相似度越高说明两者越接近。
[0073] 本发明实施例中,针对白名单数据库中包含的任一个第二网址,可以按照以下公式确定第一网址与该第二网址之间的相似度系数: 其中:
[0074] A表示待检测网站的URL,即本发明实施例中的第一网址,B表示白名单数据库中任一个网址的URL,即本发明实施例中的第二网址;
[0075] totalA为所述第一网址中包含的字符数量;
[0076] countA∩B为所述第一网址和所述第二网址中包含的相同字符数量;
[0077] s为所述第一网址与所述第二网址之间的相似度系数。
[0078] 具体实施时,由于非法用户在注册钓鱼网站时常用障眼法,即将合法网站的URL中的某些字符替换为其近似字符,例如,大写字母“I”与阿拉伯数字“1”,小写字母“o”或者大写字母“O”与阿拉伯数字“0”等,有鉴于此,本发明实施例中,在确定出第一网址与第二网址之间的相似度系数之后,还可以进一步包括以下步骤:
[0079] 步骤一、针对第一网址中包含的每一字符,确定该字符对应的近似字符。
[0080] 如上述的大写字母“I”与阿拉伯数字“1”,小写字母“o”或者大写字母“O”与阿拉伯数字“0”,以及小写字母“l”(“l”对应的大写字母为“L”)与阿拉伯数字“1”等。
[0081] 步骤二、利用不同的近似字符组合得到第一网址对应的多个近似网址。
[0082] 其中,针对近似字符,可以利用其替换第一网址中相对应的字符得到一条近似URL,例如,利用小写字母“l”替换阿拉伯数字“1”可以得到一条近似URL,利用小写字母“l”和小写字母“o”分别替换阿拉伯数字“1”和阿拉伯数字“0”也可以得到一条近似URL,以此类推,可以获得所有字符组合对应的近似网址。
[0083] 步骤三、针对得到的每一近似网址,分别确定该近似网址与第二网址之间的相似度系数。
[0084] 确定近似网址与第二网址之间的相似度系数的实施流程可以参见上述利用第一网址与第二网址之间的相似度系数的实施流程,这里不再赘述。
[0085] 步骤四、从第一网址与第二网址之间的相似度系数以及近似网址与第二网址之间的相似度系数中选择最大值作为第一网址与所述第二网址之间的相似度系数。
[0086] 最终,针对第一网址及其近似网址,选择确定出的相似度系数最大值作为第一网址与所述第二网址之间的相似度系数。
[0087] S13、根据从文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定第一网址对应的安全风险系数。
[0088] 本步骤中,利用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)算法提取文本信息中的关键词集合得到第一网址对应的第一关键词集合,结合白名单数据库中为每个第二网址对应的关键词集合按照以下公式确定所述第一关键词集合对应的置信系数:
[0089] 其中:
[0090] A表示所述第一关键词集合对应的置信系数;
[0091] Cmessage表示所述第一关键词集合;
[0092] Clist表示所述第二关键词集合;
[0093] card(Cmessage∩Clist)表示第一关键词集合和第二关键词集合中相同的关键词数量;
[0094] card(Cmessage∪Clist)表示第一关键词集合和第二关键词集合中包含的所有关键词的数量。
[0095] 需要说明的是,步骤S13中,只需要利用步骤S12中确定出的相似度系数最大的第二网址对应的第二关键词集合进行计算即可。
[0096] 具体实施时,确定置信系数与相似度系数最大值之间的最大值为第一网址对应的安全风险系数。即从第一网址与相似度系数最大的第二网址之间的相似度系数、与上述确定出的第一网址对应的置信系数中选择较大的一个作为第一网址对应的安全风险系数。
[0097] S14、根据从待检测网站中提取的网页特征,利用网页分析模型确定第一网址对应的网页类型特征值。
[0098] 其中,网页分析模型为利用阶梯网络对包含标注信息的第一网页样本进行训练得到的,网页特征至少包括页面文档特征、页面图像特征和URL特征等。第一网页样本的标注信息可以为钓鱼网站或者非钓鱼网站,即本发明实施例中利用已知类型的网站作为样本进行训练得到网页分析模型。
[0099] 本发明实施例中采用基于Ladder Network(阶梯网络)的深度神经网络模型进行网页特征的自动化学习及分类。Ladder Network阶梯网络模型是一种半监督阶梯网络,它在编码最高层接入有监督的损失函数,在网络训练过程中把有监督与无监督的损失函数累加作为总的损失函数,进行整体的梯度下降训练。它是一种典型高效的进行深度神经网络模型。
[0100] 本发明实施例中使用的Ladder Network模型其结构如图2所示。该网络利用接收的页面文档特征、页面图像特征、URL特征等多种网页特征,通过Ladder Network模型进行半监督学习以获取网页总体特征并进行分类任务,即钓鱼/非钓鱼网站。训练过程中,对于classifier层(特征层)的输出结果,与网页样本对应的标注信息相比较,如果误差在设定的范围之内则结束训练,如果误差不再设定的范围之内,则进行参数更新后继续训练,直至误差在设定的范围之内。
[0101] 其中,页面文档特征包括以下至少一项:网页的ICP(网络内容服务商)证号,网页的链接对象,表单元素,SSL(安全套接层)证书,网站的版权所有者,域名DNS(域名系统)信息,域名Whois信息等;页面图像特征包括以下至少一项:网页图像空间变换,基于谱聚类的网页图像分割,子图特征向量提取。基于LADDER NETWORK结构,如图3所示,其中x,y分别表示输入(文本)和目标输出(标注信息),表示网络实际输出,x,z表示其隐层重构表达,其能够在每一层进行无监督学习以获取更优的表达用于后续计算,其每一层均采用重构自身表达以进行自监督学习方式加以训练,经过多层表达学习以获取高维度空间中具有良好表征特性的特征用于分类器分类。
[0102] 将待检测网站的网址输入到训练得到的网页分析模型中即可输出检测见结果,检测结果可以采用网页类型特征值进行表示,例如,如果判断出待检测网站为钓鱼网站,则输出的网页类型特征值可以为1,如果判断出待检测网站为非钓鱼网站,则输出的网页类型特征值可以为0。
[0103] S15、根据确定出的相似度系数中的最大值、安全风险系数和网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站。
[0104] 其中,网页识别模型为利用神经网络对包含标注信息的第二网页样本进行训练得到的。第二网页样本的标注信息可以为钓鱼网站或者非钓鱼网站,即本发明实施例中利用已知类型的网站作为样本进行训练得到网页识别模型。
[0105] 本发明实施例中,采用一个N层神经网络模型,其输入为上述步骤S12、步骤S13和步骤S14中得到的相似度系数、安全风险系数和网页类型特征值,输出为第一网址是钓鱼网站的概率。
[0106] 如图4所示,其为本发明实施例中网页识别模型的结构示意图。在训练过程中,通过计算输出结果与实际标注信息(即图4中的标签)之间的误差采用BP(Error  Back Propagation,误差反向传播)误差反向传播算法进行模型训练。与此同时,网络采用双反馈机制进行参数更新。首先,根据实际误差结果直接对集成浅层分类网络进行参数更新;其次,该部分误差也将对之前分析识别模型中网络参数进行调整更新,以使其更好的拟合实际数据。
[0107] 本发明实施例提供了一种基于深度神经网络技术的钓鱼网站检测模型,其中,基于深度神经网络的方法包括使用阶梯网络半监督模型对网页的文档和图像特征进行判断,在网页类型识别判断过程中使用了包含多个隐含层的神经网络,并对各个子模的判别结果又进行加权判别,最后输出综合加权后的判别结果。其在传统钓鱼网站检测方法的基础上结合了深度学习技术强大的学习能以及深度神经网络高效的处理能力,针对大数据环境下钓鱼网站检测问题提出了一套解决方案。深度神经网络是一种模拟大脑信息处理机制的计算方法,该方法能在海量数据中自动提取出有用的信息知识,不需要人工干预去提取数据特征,避免人为因素造成的一些潜在有用特征的丢失,实现对钓鱼网站的检测任务。
[0108] 本发明实施例基于信息内容和深度学习的钓鱼网站检测系统,在检测过程中考虑到了信息文本内容对判别结果的辅助作用,并同时采取黑白名单检验、网站相似度检验、基于文本信息的URL判断以及基于深度学习的URL判断方法,综合考虑各种影响条件后对输入的包含URL的可疑短信文本进行检验,输出是否为钓鱼网站的检测结果。本发明实施例使用了Ladder Network模型对网页内容进行综合判断,克服了传统BP算法因随机初始化权值参数而容易陷入全局最优和训练时间长等缺点。本发明在综合、全面的考虑多种条件后给出判断,具有准确率高、检测全面、发现及时的特点。
[0109] 本发明利用阶梯网络进行网页特征的自动化学习及分类,从网页中提取、学习相应内容,结合网页风险判断和相似度计算,极大地提升了钓鱼网站检测精确度、覆盖度以及自动化程度。
[0110] 此外,本方法采用的基于阶梯网络的半监督模型对钓鱼网页的内容进行识别判断,充分利用了半监督模型学习方法的特点,在无标签数据多于有标签数据的情况下,对钓鱼网站的判断准确性的提升,相比其他提出的有监督的钓鱼网站识别方法,本方案的优势体现在,解决了在数据标记代价高、有标签数据难以获取、部分领域数据如医疗、生物等数据量少且较为昂贵等实际问题的情况下,自动利用大量未标记数据提升深度学习模型在整个数据分布上的泛化能力,获得高准确率的钓鱼网站预测结果。
[0111] 基于同一发明构思,本发明实施例中还提供了一种钓鱼网站检测装置,由于上述装置解决问题的原理与钓鱼网站检测方法相似,因此上述装置及设备的实施可以参见方法的实施,重复之处不再赘述。
[0112] 如图5所示,其为本发明实施例提供的钓鱼网站检测装置的结构示意图,包括:
[0113] 第一提取单元51,用于从文本信息中提取待检测网站的第一网址;
[0114] 第一确定单元52,用于分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;
[0115] 第二确定单元53,用于根据从所述文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定所述第一网址对应的安全风险系数;
[0116] 第三确定单元54,用于根据从待检测网站中提取的网页特征,利用网页分析模型确定所述第一网址对应的网页类型特征值,其中,所述网页分析模型为利用阶梯网络对包含标注信息的第一网页样本进行训练得到的,所述网页特征至少包括页面文档特征、页面图像特征和统一资源标识URL特征;
[0117] 判断单元55,用于根据确定出的相似度系数中的最大值、所述安全风险系数和所述网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站,其中,所述网页识别模型为利用神经网络对包含标注信息的第二网页样本进行训练得到的。
[0118] 可选地,所述第一确定单元,具体用于针对所述白名单数据库中所包含的第二网址,按照以下公式确定所述第一网址与所述第二网址之间的相似度系数: 其中:
[0119] totalA为所述第一网址中包含的字符数量;
[0120] countA∩B为所述第一网址和所述第二网址中包含的相同字符数量;
[0121] s为所述第一网址与所述第二网址之间的相似度系数。
[0122] 可选地,本发明实施例提供的钓鱼网站检测装置,还包括:
[0123] 第四确定单元,用于针对所述白名单数据库中所包含的第二网址,在确定出所述第一确定单元确定出第一网址与所述第二网址之间的相似度系数之后,针对所述第一网址中包含的每一字符,确定该字符对应的近似字符;
[0124] 组合单元,用于利用不同的近似字符组合得到第一网址对应的多个近似网址;
[0125] 第五确定单元,用于针对得到的每一近似网址,分别确定该近似网址与所述第二网址之间的相似度系数;
[0126] 选择单元,用于从所述第一网址与所述第二网址之间的相似度系数以及所述近似网址与所述第二网址之间的相似度系数中选择最大值作为所述第一网址与所述第二网址之间的相似度系数。
[0127] 可选地,所述第二确定单元,具体用于按照以下公式确定所述第一关键词集合对应的置信系数: 其中:A表示所述第一关键词集合对应的置信系数;Cmessage表示所述第一关键词集合;Clist表示所述第二关键词集合;card(Cmessage∩Clist)表示第一关键词集合和第二关键词集合中相同的关键词数量;card(Cmessage∪Clist)表示第一关键词集合和第二关键词集合中包含的所有关键词的数量;确定置信系数与所述相似度系数最大值之间的最大值为所述第一网址对应的安全风险系数。
[0128] 可选地,本发明实施例提供的钓鱼网站检测装置,还包括:
[0129] 第六确定单元,用于在所述第一确定单元分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数之前,确定所述第一网址不存在于所述第二网址中或者预先配置的黑名单数据库中所包含的第三网址中。
[0130] 可选地,本发明实施例提供的钓鱼网站检测装置,还包括:
[0131] 第七确定单元,用于如果确定所述第一网址存在于所述第二网址中,则输出所述第一网址不是钓鱼网站的检测结果;如果确定所述第一网址存在于所述第三网址中,则输出所述第一网址是钓鱼网站的检测结果。
[0132] 为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
[0133] 在介绍了本发明示例性实施方式的钓鱼网站检测方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
[0134] 所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0135] 在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的钓鱼网站检测方法中的步骤。例如,所述处理器可以执行如图1中所示的步骤S11、从文本信息中提取待检测网站的第一网址,和步骤S12、分别确定第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;以及步骤S13、根据从文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定第一网址对应的安全风险系数;步骤S14、根据从待检测网站中提取的网页特征,利用网页分析模型确定第一网址对应的网页类型特征值;步骤S15、根据确定出的相似度系数中的最大值、安全风险系数和网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站。
[0136] 下面参照图6来描述根据本发明的这种实施方式的计算装置60。图6显示的计算装置60仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0137] 如图6所示,计算装置60以通用计算设备的形式表现。计算装置60的组件可以包括但不限于:上述至少一个处理器61、上述至少一个存储器62、连接不同系统组件(包括存储器62和处理器61)的总线63。
[0138] 总线63表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
[0139] 存储器62可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)621和/或高速缓存存储器622,还可以进一步包括只读存储器(ROM)623。
[0140] 存储器62还可以包括具有一组(至少一个)程序模块624的程序/实用工具625,这样的程序模块624包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0141] 计算装置60也可以与一个或多个外部设备64(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置60交互的设备通信,和/或与使得该计算装置60能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口65进行。并且,计算装置60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器66通过总线63与用于计算装置60的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置60使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0142] 在一些可能的实施方式中,本发明提供的钓鱼网站检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的钓鱼网站检测方法中的步骤,例如,所述计算机设备可以执行如图1中所示的步骤S11、从文本信息中提取待检测网站的第一网址,和步骤S12、分别确定第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;以及步骤S13、根据从文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定第一网址对应的安全风险系数;步骤S14、根据从待检测网站中提取的网页特征,利用网页分析模型确定第一网址对应的网页类型特征值;步骤S15、根据确定出的相似度系数中的最大值、安全风险系数和网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站。
[0143] 所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0144] 本发明的实施方式的用于钓鱼网站检测的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0145] 可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0146] 可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0147] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0148] 应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
[0149] 此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0150] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0151] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0152] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0153] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0154] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0155] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈