专利汇可以提供基于统计特征的网页恶意脚本检测方法专利检索,专利查询,专利分析的服务。并且本 发明 属于计算机安全领域,主要利用恶意脚本中的统计特征快速、准确地检测网页中是否含有恶意脚本。本发明的基本原理是利用恶意网页代码必定经过处理,而处理后的网页中的正常字符和非正常字符的比例有着明显的差异,所以利用网页的字符统计特征(包括字符 频率 统计、相邻字符跨度值统计、与字典匹配度统计)来检测恶意脚本。本发明用于检测网页中的恶意脚本,从而实现对网络中的有害网页进行快速检测,并预先阻拦恶意脚本的运行,为上网用户提供安全的网络环境。,下面是基于统计特征的网页恶意脚本检测方法专利的具体信息内容。
1.一种基于统计特征的网页恶意脚本检测方法,其特征在于:利用恶意脚本中的统计 特征快速、准确地检测网页中是否含有恶意脚本,从而实现对网络中的有害网页进 行快速检测,并预先阻拦恶意脚本的运行,为上网用户提供安全的网络环境。其处 理的具体方法是:
a.清除网页中的干扰语句以便于统计;
b.统计网页中的非正常字符的出现概率;
c.对相邻字符间的跨度进行统计;
d.创建脚本字典并统计网页与脚本字典的匹配结果;
e.为以上三种统计方法设置单个方法的权重;
f.得出待检测网页是否含有恶意脚本的总置信度;
g.置信度之和等于或超出5时,就可以确定该网页为含有恶意脚本的网页。
2.如权利要求1所述的一种统计特征的网页恶意脚本检测方法,其特征在于:包括清 除网页中的00码,清除网页中的注释语句,清除网页中多余的空格和横向跳格 (Tab)以及多余的回车和换行。
3.如权利要求1所述的一种基于统计特征的网页恶意脚本检测方法,其特征在于:统 计网页中的非正常字符的出现概率中,第一步需要获取网页中的javascript脚本 文件;第二步是对网页中的非正常字符进行统计;根据对大量网页的分析,总结出 的异常字符大致有:%(%所占比例会占到脚本文件的20%左右,该比例适用于 Unescape加密)、#、$、%、&、*、+、,、(、)、^、~(适用于encode加密, 所占比例为10%左右);对统计结果进行分析,当异常字符所占比例大于特定比 例(例如%所占比例大于20%,即可判断该脚本经过Unescape加密),就可以判定 该脚本经过加密处理,可能为恶意脚本。
4.如权利要求1所述的一种基于统计特征的网页恶意脚本检测方法,其特征在于:对 相邻字符间的跨度进行统计,所谓字符间跨度是指相邻字符的ASCII值之差的绝对 值与字符权重的乘积,第一步需要设定符合语法词法习惯的正常字符跨度为26; 第二步需要判断网页中是否包含脚本文件;如果网页中包含脚本文件的话,就需要 对脚本进行提取,并对脚本进行统计;如果不包含脚本文件的话,则需要对整个网 页内容进行统计;第三步为不同的字符设置不同的权重,将英文字母的权重设为1, 非英文字母的权重设为2;第四步开始对字符间跨度进行统计,在得到每两个字符 间的跨度之后,就可以统计出字符间的平均跨度;第五步将求出的字符间平均跨度 与所设定的正常字符间跨度26相比较,若超出了正常跨度,就可以判断该网页经 过加密处理,可能为恶意脚本。
5.如权利要求1所述的一种基于统计特征的网页恶意脚本检测方法,其特征在于:创 建脚本字典并统计网页与脚本字典的匹配结果通过收集大量正常script脚本创建字 典,再与新的网页进行匹配统计;脚本字典匹配方法是通过收集大量正常javasript 脚本,然后对这些正常脚本进行分析,将正常脚本中所使用到的单词放入脚本字典 中;脚本字典创建完成后,如需要检测某一未知网页时,只需要将该网页脚本的单 词与脚本字典对照匹配即可,如果与脚本字典中所收集的单词不相符的词语的出现 比例达到或超过10%,则可以判断所检测的网页可能为恶意脚本加密网页。
6.如权利要求1所述的一种基于统计特征的网页恶意脚本检测方法,其特征在于:为 权利要求1中的b,c,d三种方法设置权重并得出待检测网页是否含有恶意脚本的 总置信度,将统计网页中的非正常字符的权重设为3,统计字符间跨度的权重设为 5,匹配脚本字典的权重设为2;首先设定置信度5为判断网页为正常网页或恶意 网页的临界值;若统计非正常字符的结果判断网页可能为恶意网页,则置信度为3, 统计字符间跨度判断网页可能为恶意网页的置信度为5,匹配脚本字典判断网页可 能为恶意网页的置信度为2,只有当这个置信度之和等于或超出5时,即总置信度 超出或等于5时,就可以确定该网页为恶意网页。
本发明专利属于计算机安全领域,主要利用恶意脚本中的统计特征快速、准确地检测网 页中是否含有恶意脚本,从而实现对网络中的有害网页进行快速检测,并预先阻拦恶意脚本 的运行,为上网用户提供安全的网络环境。