首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 随机森林 / 网页视觉复杂度的自动评价方法

网页视觉复杂度的自动评价方法

阅读:296发布:2021-12-29

专利汇可以提供网页视觉复杂度的自动评价方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种网页视觉复杂度的自动评价方法,包括:收集网页样本,每个样本通过人工来进行标记其为视觉复杂的网页样本还是视觉简单的网页样本,以此建立训练集,利用网页分割 算法 来对每幅网页进行分割并提取网页布局 块 与文本块,把每一幅网页转换成一副图像,结合网页的源码,以及提取的网页布局块和文本块来提取每一幅网页三方面的特征:源码特征、结构特征、视觉特征;利用得到的网页特征对 随机森林 分类器进行训练,得到分类器参数,并对新网页进行评价,判定其在视觉上是否复杂。本发明可以应用在Web搜索与网页设计等诸多方面,提高基于Web的应用程序的性能。,下面是网页视觉复杂度的自动评价方法专利的具体信息内容。

1.一种网页视觉复杂度的评价方法,其特征在于,该方法包括:
步骤1:首先收集尽可能多的网页样本建立训练集,利用人工来对每幅网页在视觉上是否复杂进行评判,人工标记的综合结果为视觉复杂的样本组成正类样本集,人工标记的综合结果为视觉简单的样本组成负类样本集,两个集合构成了训练集;
步骤2:在训练集上获取每幅网页的源码,利用网页分割算法来对每幅网页进行分割并提取网页布局和文本块;
步骤3:将每一幅网页转换成一幅图像,提取每幅网页三个方面的特征:源码特征、结构特征、视觉特征;
步骤4:利用得到的每幅网页的特征对随机森林分类器进行训练,得到分类器参数,并对新网页样本进行评价,判定其是否为高于复杂度阈值的网页。
2.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述建立训练集,是请多个用户对每个网页样本在视觉上是否复杂进行评判,获得每个样本的多个视觉复杂度评判结果并对多个视觉复杂度评判结果进行平均计算,对于计算得到的平均值高于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉复杂,该样本归为正类样本,低于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉简单,该样本归为负类样本;所有的正类样本组成正类样本集合,所有的负类样本组成负类样本集合,两个集合构成了训练集。
3.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述源码特征包括:网页包含为文字字符个数、网页包含超链接文字字符个数、网页使用字体个数、网页背景颜色个数、网页图像个数。
4.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述结构特征包括:网页布局块的个数、网页文本块的个数、网页文本块占总体网页的面积比、网页文字字符个数与网页文本块面积的比例、网页长宽比、网页长宽和。
5.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述视觉特征包括:网页的色调表示为Hue(Page)、网页的明亮度表示为Brightness(Page)、网页的彩色度表示为Colorfulness(Page)以及网页转化为图形后的文件大小;视觉特征的计算首先需要把一幅网页转化为一幅图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式:
Colorfulness(Page)=αrgyb+0.3βrgyb
其中,i和j是指图像像素的在平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜色空间HSV的V值;彩色度计算公式中的αrgyb和βrgyb分别表示方差彩色因子和平均彩色因子,其计算公式为:
rg(i,j)=R(i,j)-G(i,j)
yb(i,j)=0.5(R(i,j)+G(i,j))-B(i,j)
R(i,j),G(i,j),和B(i,j)表示图像(i,j)的像素点在颜色空间RGB的R,G和B值;
其中所有图像像素点在颜色空间RGB中的R值与G值的差值rg的方差为σrg、均值为μrg;
所有图像像素点在颜色空间RGB中的R,G的均值与B分量的差值yb的方差为σyb、均值为μyb;
6.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,采用随机森林分类算法对网页进行分类,判定其是否高于视觉复杂度阈值的网页。

说明书全文

网页视觉复杂度的自动评价方法

技术领域

[0001] 本发明涉及计算机应用技术领域,特别涉及一种网页视觉复杂度的评价方法。

背景技术

[0002] 互联网网页不仅包含了人们所需要的各种信息,同时还是互联网的用户接口(User Interface,UI)。网页的视觉感知影响着网页的用户体验。很多领域的学者已经开始研究网页的视觉复杂度对用户网页交互的影响。已有研究指出,视觉复杂度越高的网页使得用户访问网页时候的认知复杂度越高,影响了网页的可访问性。对于一个视觉复杂度的网页,其内容很难被有视觉障碍的用户顺利获取。因此在人机交互(HumanComputer Interaction,HCI)和网页设计领域,在网页视觉复杂度评价上已有很多的工作。但是由于这些领域的研究人员通常在网页挖掘、视觉信息处理、模型构建方面比较欠缺,所设计的评价模型不适用于对大规模网页的自动评价。

发明内容

[0003] (一)要解决的技术问题
[0004] 有鉴于此,本发明的主要目的是提供一种网页视觉复杂度的自动评价方法。
[0005] (二)技术方案
[0006] 为达到上述目的,本发明提供了一种网页视觉复杂度的自动评价方法,该方法包括:
[0007] 步骤1:首先收集尽可能多的网页样本建立训练集,利用人工来对每幅网页在视觉上是否复杂进行评判,人工标记的综合结果为视觉复杂的样本组成正类样本集,人工标记的综合结果为视觉简单的样本组成负类样本集,两个集合构成了训练集;
[0008] 步骤2:获取每幅网页的源码,利用网页分割算法来对每幅网页进行分割并提取网页布局和文本块;
[0009] 步骤3:将每一幅网页转换成一副图像,提取每幅网页三个方面的特征:源码特征、结构特征以及视觉特征;
[0010] 步骤4:利用得到的每幅网页的特征对随机森林分类器进行训练,得到分类器参数,并对新网页样本进行评价,判定其是否为高于复杂度阈值的网页。
[0011] 其中,所述建立训练集,是请多个用户对每个网页样本在视觉上是否复杂进行评判,获得每个样本的多个视觉复杂度评判结果并对多个视觉复杂度评判结果进行平均计算,对于计算得到的平均值高于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉复杂,该样本归为正类样本,低于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉简单,该样本归为负类样本;所有的正类样本组成正类样本集合,所有的负类样本组成负类样本集合,两个集合构成了训练集;
[0012] 其中,所述的源码特征包括:网页包含为文字字符个数、网页包含超链接文字字符个数、网页使用字体个数、网页背景颜色个数、网页图像个数。
[0013] 其中,所述的结构特征包括:网页布局块的个数、网页文本块的个数、网页文本块总面积占总体网页的面积比、网页文字字符个数与网页文本块面积的比例、网页长宽比、网页长宽和。
[0014] 其中,所述的视觉特征包括:网页的色调表示为Hue(Page)、网页的明亮度表示为Brightness(Page)、网页的彩色度表示为Colorfulness(Page)以及网页转换为图像后对应的文件大小。视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式:
[0015]
[0016]
[0017] Colorfulness(Page)=αrgyb+0.3βrgyb
[0018] 其中,i和j是指图像像素的在平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜色空间HSV的V值;彩色度计算公式中的αrgyb和βrgyb分别表示方差彩色因子和平均彩色因子,其计算公式为:
[0019] rg(i,j)=R(i,j)-G(i,j)
[0020] yb(i,j)=0.5(R(i,j)+G(i,j))-B(i,j)
[0021]
[0022]
[0023] R(i,j),G(i,j),和B(i,j),表示图像(i,j)的像素点在颜色空间RGB的R,G和B值;其中所有图像像素点在颜色空间RGB中的R值与G值的差值rg的方差为σrg、均值为μrg;所有图像像素点在颜色空间RGB中的R,G的均值与B分量的差值yb的方差为σyb、均值为μyb;
[0024] 其中,采用支持随机森林分类算法对网页进行分类,判定其是否高于视觉复杂度阈值的网页。
[0025] (三)有益效果
[0026] 从上述技术方案可以看出,本发明具有以下优点:
[0027] 1、本发明提供的这种网页视觉复杂度的评价方法,从三个方面来提取网页的视觉特征:源码特征、结构特征、视觉特征,三方面特征较为完整的描述了一副网页的可能影响其视觉复杂度的信息:布局、文本图像的数量与分布、视觉信息。每一方面特征可以独立进行更改和扩展,使得如果今后出现了更为快速有效的特征,可以轻而易举地添加到本方法中,从而进一步提升方法的性能。
[0028] 2、本方法的特征提取和分类器处理过程完全是自动的,不需要人工干预,因此能够非常容易的嵌入到目前的各类Web的相关应用中,具有广泛的应用前景。附图说明
[0029] 图1a为本发明的网页的布局块;
[0030] 图1b为本发明的网页的文本块;
[0031] 图2为本发明提供的网页视觉复杂度评价方法的流程图

具体实施方式

[0032] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0033] 本发明的执行环境采用一台具有3.0G赫兹中央处理器和2G字节内存的奔腾4计算机并用C++语言编制了网页视觉复杂度评价方法的算法程序,实现了本发明自动的网页视觉复杂度评价方法,还可以采用其他的执行环境,在此不再赘述。
[0034] 图2为本发明提供的网页视觉复杂度评价方法的流程图,其步骤如下:
[0035] 步骤301:首先收集尽可能多的网页样本,利用人工来把每个样本标记为视觉复杂度高的网页或者视觉复杂度低的网页,人工标记的综合结果为视觉复杂度高的样本组成正类样本集,人工标记的综合结果为视觉简单的样本组成负类样本集;正类样本集和负类样本集构成了训练集;此步骤应尽可能多地收集多的网页样本,使所建立的训练集具有广泛的代表性。并且在利用人工对每个网页样本在视觉上是否复杂,也即视觉复杂度进行标记上,尽可能请多个用户对每个样本进行视觉复杂度评判,评判的结果是给出每个样本的视觉复杂度分数,分数在一个事先设定的区间类,用户给的分值越高表示视觉复杂度越高,获得每个样本的多个视觉复杂度评判结果后,对多个视觉复杂度评判结果进行平均计算,计算得到的平均值高于视觉复杂度阈值(阈值定为打分区间的中值)的网页样本,其人工标注的综合结果为视觉复杂,标记为正类样本,低于视觉复杂度阈值的网页样本,其人工标注的综合结果为视觉简单,标记为负类样本。
[0036] 假定网页的视觉复杂度的打分区间为[0,10],分值越高表示该网页在视觉上越复杂,视觉复杂度阈值选取为视觉复杂度打分区间的中值,也即为5;假定有四个用户对某一个样本的打分分别为:1,2,3,6,其平均值为3,小于5,该样本的人工标注综合结果为视觉简单,那么该样本标记为负类样本。假定打分分别为:5,10,7,8,其平均值为7.5,大于5,该样本的人工标注综合结果为视觉复杂,那么该样本标记为正类样本。
[0037] 步骤302:在训练集网页上对每幅网页进行分割,提取图1a示出的网页布局块(由粗线围成的矩形框),与图1b示出的网页的文本块(由粗线围成的矩形框),以作为进一步特征提取的输入;
[0038] 网页的分割方法可以有很多选择,如:基于视觉的网页分割算法(VIPS),基于文档树(DOM)的网页分割算法等。利用网页分割算法产生相应的网页视觉块树。网页视觉块树的叶节点对应的矩形作为网页的布局块,网页视觉块树的叶节点中含有文本字符个数大于等于给定阈值(阈值的范围为30-100,一般选取50)的叶节点对应的矩阵块作为网页的文本块;
[0039] 步骤303:获取网页的源码,将网页转换为图像,根据提取的布局块和文本块,分别提取网源码特征,结构特征以及视觉特征;
[0040] 网页源码特征包括网页包含为文字字符个数、网页包含超链接文字字符个数、网页字体个数、网页背景颜色个数、网页图像个数;
[0041] 网页结构特征包括网页布局块的个数、网页文本块的个数、网页文本块占总体网页的面积比、网页文字字符个数与网页文本块面积的比例、网页长宽比、网页长宽和。;
[0042] 网页视觉特征包括:网页的色调表示为Hue(Page)、网页的明亮度表示为Brightness(Page)、网页的彩色度表示为Colorfulness(Page)以及网页转换为图像后对应的文件大小。视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式:
[0043]
[0044]
[0045] Colorfulness(Page)=αrgyb+0.3βrgyb
[0046] 其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜色空间HSV的V值;彩色度计算公式中的αrgyb和βrgyb分别表示方差彩色因子和平均彩色因子,其计算公式为:
[0047] rg(i,j)=R(i,j)-G(i,j)
[0048] yb(i,j)=0.5(R(i,j)+G(i,j))-B(i,j)
[0049]
[0050]
[0051] R(i,j),G(i,j),和B(i,j),表示图像(i,j)的像素点在颜色空间RGB的R,G和B值;其中所有图像像素点在颜色空间RGB中的R值与G值的差值rg的方差为σrg、均值为μrg;所有图像像素点在颜色空间RGB中的R,G的均值与B分量的差值yb的方差为σyb、均值为μyb;
[0052] 步骤304:将得到的特征向量集分为训练集和测试集两部分,利用训练集对随机森林分类器进行训练,得到分类器参数,利用训练好的随机森林分类器模型对测试集分类,并输出分类结果,并对新网页样本进行预测。
[0053] 以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈