专利汇可以提供恶意网站快速识别方法专利检索,专利查询,专利分析的服务。并且恶意 网站 快速识别方法涉及信息安全技术领域。实现本 发明 的主要步骤包括词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤;实现本发明可以实时、高效地 鉴别 恶意网站;实现本发明利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息,从而识别出隐藏性较强的恶意网站;实现本发明可以识别劫持网站,避免将其误判为恶意网站,提高恶意网站检测准确率。,下面是恶意网站快速识别方法专利的具体信息内容。
1.恶意网站快速识别方法,其特征在于包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤:
1)词库匹配筛选步骤
①构建词库
编制恶意词语,人工收集100个恶意信息词 ,包括‘赌博’、‘澳门葡京’、‘av影院’、‘成人色情’;
导入维基百科公开的语料;
应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;
已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;
②网页文本提取
由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容;
③词库匹配
由词库匹配器将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;
④将可疑网站的网址作为被测网站传送给JS提取器;
2)前端劫持判别筛选
①通过JS提取器得到被测网站所有JS数据,:
②将被测网站所有JS数据输入远程IP归属地判别器,远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;
③将被测网站所有JS数据输入Referer关键字判别器,Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数主要用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
④将被测网站所有JS数据输入user-agent关键字判别器,user-agent关键字判别器通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
⑤远程IP归属地判别器,Referer关键字判别,user-agent关键字判别器组成前端劫持判别系统;前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持,前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持,前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器;
3)可见区域恶意信息的判别筛选
①提取网页可见区域
由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合
和网站框架源码的JS数据集合 ,其中
包括JS框架F与文本集合D;每个JS框架 中都含有标题 及若干script
元素 ,提取网页可见区域的具体步骤为:
a) 通过Xpath元素定位网页JS框架F中标题的位置,将其作为提取区域的起点,以10个元素为步长确定提取区域的末点 ,若提取区域大小不足10则以最后一个元素为末点,并求出可见区域的中点 ;
b) 获得可见区域的位置后,便得到可见区域的起点、中点、末点的script元素 、、 ;
c) 遍历网页中的n个JS数据集合
,寻找相同的script元素 、 、 ;
d) 当在第i个JS框架 中找到了相同元素 、 、 ,则提取第i
个JS框架中文本内容 所对应元素区域的内容 至 ,此部分
内容为网页响应的页面显示内容,即为可见区域网页内容d;
② 可见区域恶意信息分析
a) 建立分类器
标注恶意和非恶意网站文本内容的样本x,设网站类别为c={c1,c2},其中恶意网站为c1,正规网站为c2;训练贝叶斯分类模型,生成分类器,通过分类器可以求出网站文本内容属于两个类别的概率, ;
b) 对可见区域内容分类
将未遭遇劫持的网站的可见区域网页内容d输入分类器中,求得可见区域网页内容d属于恶意网站的概率 ; ;
c) 由不可见区域文本提取器提取未遭遇劫持的网站的不可见区域的文本内容,将不可见区域的文本内容输入分类器,求得不可见区域的文本内容s属于恶意网站的概率 , ;
d) 计算恶意信息评价函数f(s,d): ,
式中 和 为重要性权值,设置 =0.7, =0.3;
其中 ;
上式中v代表网站中的文本内容, 代表文本属于恶意网站类的概率,由分类器求得, 用来判断网站文本v是否属于恶意网站c1类所包含的文本;当
,则表明网站文本v属于恶意网站c1类, 小于0时网站文本v属于正
规网站c2类;
e) 计算得到网站的恶意信息评分f(s,d)后,由阈值设定器设置阈值thr来判别恶意网站;当f(s,d)大于等于thr时,判定为恶意网站;当f(s,d)小于thr时为正规网站;阈值的默认设置为0.7,阈值可以通过阈值设定器修改。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于强化学习的智能频谱协同感知方法 | 2020-05-24 | 745 |
赌博群组的识别方法和装置 | 2020-05-12 | 729 |
多媒体交互式博奕终端 | 2020-05-18 | 434 |
智能开发数学牌系列 | 2020-05-27 | 915 |
用于治疗耐受性和依赖性的促代谢谷氨酸受体拮抗剂 | 2020-05-17 | 426 |
基于上下文多臂赌博机的电商个性化推荐方法 | 2020-05-13 | 211 |
计算机可读程序产品和游戏机 | 2020-05-23 | 863 |
一种基于能量收集的超密无线网络中的自主能量管理方法 | 2020-05-20 | 439 |
一种基于多目标多臂赌博机在线学习的无线缓存方法 | 2020-05-14 | 345 |
多跳蜂窝网络架构中对于环境感知的信息中心化资源管理方法 | 2020-05-18 | 887 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。