技术领域
[0001] 本
发明涉及网络安全技术,特别涉及一种基于威胁情报判别仿冒网站的方法。
背景技术
[0002] 仿冒网站主要是由于黑客组织为了经济利益而采用的一种手法,通过仿冒看似完全正常合规的
站点页面,实际在网站中植入大量的第三方链接和内容,内容大多涉及博彩、色情、游戏等不当赢利业务。在境内的互联网网站场景存在大量仿冒站点的问题,这类站点通过仿冒公信度较高的单位站点(往往是政府单位、事业单位、教育院校等),实际在页面中传播地下灰色产业推广,以此躲避检测机构的发现,从而可长期潜伏谋取利益。该问题不解决带来的危害是误导普通上网者
访问虚假仿冒网站,有可能带来虚假信息,传播博彩、色情等内容并躲避监管机构审查,让地下产业链继续发展严重危害社会安全。
[0003] 目前已有的仿冒网站识别方法大多采用URL地址的相似度判断,通过对URL干扰字符去除与相似
变形等方案,识别假冒站点。以及对商业站点的logo、品牌等进行匹配,判断商业站点仿冒。目前对仿冒网站的识别技术,主要是根据对URL相似度的判断找到仿冒站点。但由于目前大量仿冒网站并不再通过URL相似地址欺骗用户,往往通过在邮件、页面中加入超链接的形式,可不被用户看到真实地址。另外,由于网站数量增多,出现了大量的相似站点。所以,这一方法产生的误报率与漏报率都较高。
发明内容
[0004] 本发明要解决的技术问题是,克服
现有技术中的不足,提供一种基于威胁情报判别仿冒网站的方法。
[0005] 为解决上述技术问题,本发明采用的的解决方案是:
[0006] 提供一种基于威胁情报判别仿冒网站的方法,包括以下步骤:
[0007] (1)将威胁情报库中的域名信息库与网页库中的内容进行相似度比较;
[0008] (1.1)对域名情报库中的网站首页页面
中的内容进行分析,采用语义分析算法进行识别;提取出相似度高于预设阈值的网站群体,以用于下一步分析;或者,[0009] (1.2)指定目标站点,提取该站点的中的内容,在域名信息库中查找到与其相比相似度高于预设阈值的网站群体,以用于下一步分析;[0010] (2)分析网站群体中各站点的备案主体(ICPD),对其ICP备案单位进行匹配;
[0011] (2.1)确认站点是否已经备案;若未备案,则计入恶意站点;
[0012] (2.2)确认站点备案单位的属性,如属于政府机关或事业单位,则排除仿冒可疑;
[0013] (2.3)对备案单位中的个人和企业进行分析,如已在威胁情报库中被标记为可疑单位,则计入备案可疑站点;
[0014] (2.4)对备案单位的其他站点进行关联分析,如存在其他恶意网站记录,则计入备案可疑站点;
[0015] (3)对于备案单位未检测到异常的站点,采用对注册人信息进行关联分析的方式(REGD),对注册人信息进行匹配:
[0016] (3.1)通过站点注册人反查其历史注册站点,如关联站点曾有恶意网站记录,则计入注册可疑站点;
[0017] (3.2)通过站点注册邮箱反查其历史注册站点,如关联站点曾有恶意网站记录,则计入注册可疑站点;
[0018] (4)对站点布署的地址IP进行分析(IPD);
[0019] (4.1)如站点的布署地点在境外或港澳台地区,且与备案地点以及网站备案单位所在地不同,则计入布署可疑站点;
[0020] (4.2)从布署的IP反查站点,如存在可疑站点,则计入布署可疑站点;
[0021] (5)对页面特征进行分析(PGD):
[0022] (5.1)在页面的全部链接中,如坏链的占比超过预设值,则计入恶意仿冒站点;
[0023] (5.2)在页面的全部链接中,如指向外部同一域名地址的链接的占比超过预设值,则计入恶意仿冒站点;
[0024] (5.3)在页面内容中,如存在潜在或显示的预设敏感内容的关键词与链接内容,则计入恶意仿冒站点;
[0025] (6)对站点的仿冒站点疑似程度进行判断:
[0026] 依据步骤(2)至(5)的分析结果,采用下述加权算法对站点是否属于仿冒进行综合分析:
[0027] ε=α×ICPD+β×REGD+γ×IPD+δ×PGD
[0028] 其中,ICPD是指对ICP备案单位进行匹配的结果、REGD是指对注册人信息进行匹配的结果、IPD是指对站点布署地址IP进行分析的结果、PGD是指对页面特征进行分析的结果;ICPD、REGD、IPD、PGD的取值为[0,1],当匹配或分析结果为负面时取1;系数α、β、γ、δ的取值分别为0.2,0.2,0.3,0.3,当综合得分ε在0.5分以上时,判断为仿冒站点;
[0029] (7)在判断为仿冒站点后,在威胁情报库中将该站点的备案单位、注册人、注册邮箱信息、网站地址均打上标签,标记为仿冒站点(通过多次的分析后,威胁情报库中形成大量的标签,方便后续的关联分析,会增强基于威胁情报的关联判断能
力,而降低对网页特征分析判断的依赖,以此大大提高检测效率)。
[0030] 本发明中,所述步骤(5.3)中的敏感内容是指涉及博彩、医疗广告、色情和游戏的网页内容。
[0031] 发明原理描述:
[0032] 本发明中所述威胁情报是指:通过采集或者共享获得大量的网络安全数据,并对威胁程度进行分析,形成分析后情报,可供设备、研究人员分析读取。威胁情报库是指对网络威胁信息进行数据集中与共享,例如漏洞库、指纹库、IP信誉库、网站信誉库等。威胁情报库在网络安全领域大量存在,且有产品化趋势。
[0033] 本发明分析威胁情报库中采集的互联网海量域名与站点信息数据海量数据,通过对站点的域名、页面、备案主题、注册信息、解析地址等数据进行分析与关联,查找出其中的仿冒站点,并打上标记,方便后续检测。其中威胁情报库的获取并不在本
专利中,本发明可利用已有的威胁情报库数据。
[0034] 与现有技术相比,本发明的技术效果是:
[0035] 本发明的创新之处在于:
[0036] 1、采用威胁情报数据即站点、备案单位、注册人等因素来做关联分析,而非仅对站点本身的内容进行检测分析;
[0037] 2、本发明通过威胁情报进行前期快速关联分析,可较快速识别出仿冒站点,在最后再通过内容特征判断,以此提高时效性与准确定;
[0038] 3、本发现在发现仿冒网站后,会对威胁情报库中的站点数据进行标签标记,有助于后续的分析,提高后续发现时效性;
[0039] 本发明可有效应用与政府、教育、事业单位等行业,进行仿冒站点的探测与发现。这些公共单位的网站由于可信度高,大众与
搜索引擎都会较为信任,所以内容可以欺骗普通用户域搜索引擎,以此降低由于传播不良信息被发现的概率,但是这类站点中传播的游戏、博彩,会对社会产生不良影响,也非常严重的影响了本单位的公信度。本发明在实际应用后,可进行站点监测,及时发现这类仿冒网站,降低不良信息的影响,截断地下产业链的推广,增强公共单位的公信度。
附图说明
具体实施方式
[0041] 下面结合附图,对本发明的具体实施方式进行详细描述。
[0042] 本发明中基于威胁情报判别仿冒网站的方法,包括以下步骤:
[0043] (1)将威胁情报库中的域名信息库与网页库中的内容进行相似度比较;
[0044] (1.1)对域名情报库中的网站首页页面
中的内容进行分析,采用语义分析算法进行识别;提取出相似度高于预设阈值的网站群体,以用于下一步分析;或者,[0045] (1.2)指定目标站点,提取该站点的中的内容,在域名信息库中查找到与其相比相似度高于预设阈值的网站群体,以用于下一步分析;[0046] (2)分析网站群体中各站点的备案主体,对其ICP备案单位进行匹配;
[0047] (2.1)确认站点是否已经备案;若未备案,则计入恶意站点;
[0048] (2.2)确认站点备案单位的属性,如属于政府机关或事业单位,则排除仿冒可疑;
[0049] (2.3)对备案单位中的个人和企业进行分析,如已在威胁情报库中被标记为可疑单位,则计入备案可疑站点;
[0050] (2.4)对备案单位的其他站点进行关联分析,如存在其他恶意网站记录,则计入备案可疑站点;
[0051] (3)对于备案单位未检测到异常的站点,采用对注册人信息进行关联分析的方式,对注册人信息进行匹配:
[0052] (3.1)通过站点注册人反查其历史注册站点,如关联站点曾有恶意网站记录,则计入注册可疑站点;
[0053] (3.2)通过站点注册邮箱反查其历史注册站点,如关联站点曾有恶意网站记录,则计入注册可疑站点;
[0054] (5)对站点布署地址IP进行分析;
[0055] (4.1)如站点的布署地点在境外或港澳台地区,且与备案地点以及网站备案单位所在地不同,则计入布署可疑站点;
[0056] (4.2)从布署的IP反查站点,如存在可疑站点,则计入布署可疑站点;
[0057] (5)对页面特征进行分析:
[0058] (5.1)在页面的全部链接中,如坏链的占比超过预设值,则计入恶意仿冒站点;
[0059] (5.2)在页面的全部链接中,如指向外部同一域名地址的链接的占比超过预设值,则计入恶意仿冒站点;
[0060] (5.3)在页面内容中,如存在潜在或显示的预设敏感内容(如涉及博彩、医疗广告、色情和游戏的网页内容)的关键词与链接内容,则计入恶意仿冒站点;
[0061] (6)对站点的仿冒站点疑似程度进行判断:
[0062] 依据步骤(2)至(5)的分析结果,采用下述加权算法对站点是否属于仿冒进行综合分析:
[0063] ε=α×ICPD+β×REGD+γ×IPD+δ×PGD
[0064] 其中,ICPD是指对ICP备案单位进行匹配的结果、REGD是指对注册人信息进行匹配的结果、IPD是指对站点布署地址IP进行分析的结果、PGD是指对页面特征进行分析的结果;ICPD、REGD、IPD、PGD的取值为[0,1],当匹配或分析结果为负面时取1;系数α、β、γ、δ的取值分别为0.2,0.2,0.3,0.3,当综合得分ε在0.5分以上时,判断为仿冒站点;
[0065] (7)在判断为仿冒站点后,在威胁情报库中将该站点的备案单位、注册人、注册邮箱信息、网站地址均打上标签,标记为仿冒站点(通过多次的分析后,威胁情报库中形成大量的标签,方便后续的关联分析,会增强基于威胁情报的关联判断能力,而降低对网页特征分析判断的依赖,以此大大提高检测效率)。
[0066] 下面,通过一个站点分析的示例,对本发明具体实现方式进行举例说明:
[0067] 1、在威胁情报库中发现一网站标题与国家人社部官网一致的站点,发现目标站点,开始分析。
[0068] 解析后基本信息如下:
[0069] 网址:www.28issa-china.org.cn
[0070] 标题:中华人民共和国人力资源和社会保障部
[0071] 2、分析该网站的ICP备案信息,发现无备案。
[0072] 3、对该网站的whois所有者信息进行分析:
[0073] 提取威胁情报库中该网站注册者cg7899999@gmail,发现该注册邮箱下的其他站点,还有368个的非法(伪造)站点,以及部分非法注册的政府站点。
[0074] 因此将该网站计入可疑网站。
[0075] 3、分析该网站的布署地点:布署IP:美国-洛杉矶155.94.161.219;布署在海外,则计入可疑站点。
[0076] 4、分析该网站中的页面内容,发现有博彩子页面内容。
[0077] 该网站的ICPD,REGD,IPD,PGD都为可疑状态,通过计算如下:
[0078] ε=α×ICPD+β×REGD+γ×IPD+δ×PGD=0.2+0.2+0.3+0.3=1
[0079] 发现最后得分1,远大于0.5,是高确信的仿冒网站。