专利汇可以提供网页视觉复杂度的自动评价方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种网页视觉复杂度的自动评价方法,包括:收集网页样本,每个样本通过人工来进行标记其为视觉复杂的网页样本还是视觉简单的网页样本,以此建立训练集,利用网页分割 算法 来对每幅网页进行分割并提取网页布局 块 与文本块,把每一幅网页转换成一副图像,结合网页的源码,以及提取的网页布局块和文本块来提取每一幅网页三方面的特征:源码特征、结构特征、视觉特征;利用得到的网页特征对 随机森林 分类器进行训练,得到分类器参数,并对新网页进行评价,判定其在视觉上是否复杂。本发明可以应用在Web搜索与网页设计等诸多方面,提高基于Web的应用程序的性能。,下面是网页视觉复杂度的自动评价方法专利的具体信息内容。
1.一种网页视觉复杂度的评价方法,其特征在于,该方法包括:
步骤1:首先收集尽可能多的网页样本建立训练集,利用人工来对每幅网页在视觉上是否复杂进行评判,人工标记的综合结果为视觉复杂的样本组成正类样本集,人工标记的综合结果为视觉简单的样本组成负类样本集,两个集合构成了训练集;
步骤2:在训练集上获取每幅网页的源码,利用网页分割算法来对每幅网页进行分割并提取网页布局块和文本块;
步骤3:将每一幅网页转换成一幅图像,提取每幅网页三个方面的特征:源码特征、结构特征、视觉特征;
步骤4:利用得到的每幅网页的特征对随机森林分类器进行训练,得到分类器参数,并对新网页样本进行评价,判定其是否为高于复杂度阈值的网页。
2.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述建立训练集,是请多个用户对每个网页样本在视觉上是否复杂进行评判,获得每个样本的多个视觉复杂度评判结果并对多个视觉复杂度评判结果进行平均计算,对于计算得到的平均值高于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉复杂,该样本归为正类样本,低于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉简单,该样本归为负类样本;所有的正类样本组成正类样本集合,所有的负类样本组成负类样本集合,两个集合构成了训练集。
3.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述源码特征包括:网页包含为文字字符个数、网页包含超链接文字字符个数、网页使用字体个数、网页背景颜色个数、网页图像个数。
4.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述结构特征包括:网页布局块的个数、网页文本块的个数、网页文本块占总体网页的面积比、网页文字字符个数与网页文本块面积的比例、网页长宽比、网页长宽和。
5.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,所述视觉特征包括:网页的色调表示为Hue(Page)、网页的明亮度表示为Brightness(Page)、网页的彩色度表示为Colorfulness(Page)以及网页转化为图形后的文件大小;视觉特征的计算首先需要把一幅网页转化为一幅图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式:
Colorfulness(Page)=αrgyb+0.3βrgyb
其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜色空间HSV的V值;彩色度计算公式中的αrgyb和βrgyb分别表示方差彩色因子和平均彩色因子,其计算公式为:
rg(i,j)=R(i,j)-G(i,j)
yb(i,j)=0.5(R(i,j)+G(i,j))-B(i,j)
R(i,j),G(i,j),和B(i,j)表示图像(i,j)的像素点在颜色空间RGB的R,G和B值;
其中所有图像像素点在颜色空间RGB中的R值与G值的差值rg的方差为σrg、均值为μrg;
所有图像像素点在颜色空间RGB中的R,G的均值与B分量的差值yb的方差为σyb、均值为μyb;
6.根据权利要求1所述的网页视觉复杂度的评价方法,其特征在于,采用随机森林分类算法对网页进行分类,判定其是否高于视觉复杂度阈值的网页。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种以太坊网络行为分析方法及相应存储介质与电子装置 | 2020-05-08 | 818 |
项目加速的自动评估 | 2020-05-11 | 820 |
一种基于功率熵谱-随机森林的航空发动机滚动轴承故障诊断方法 | 2020-05-11 | 518 |
一种基于机器学习的棒束子通道热工水力特性预测方法 | 2020-05-08 | 409 |
基于随机森林算法攻击识别方法及储能协调控制装置 | 2020-05-08 | 652 |
基于深度森林的文本对象推荐方法 | 2020-05-11 | 660 |
一种基于大数据的压延机压延质量预警系统 | 2020-05-08 | 180 |
一种数据清洗与质量评价方法及系统 | 2020-05-12 | 515 |
金融主客体动态信用评估方法及装置 | 2020-05-08 | 737 |
一种基于车辆荷载空间分布的桥梁风险预测方法及系统 | 2020-05-11 | 298 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。