首页 / 专利库 / 资料储存系统 / 树遍历 / 一种互联网信息搜索聚合呈现方法

一种互联网信息搜索聚合呈现方法

阅读:1027发布:2020-12-07

专利汇可以提供一种互联网信息搜索聚合呈现方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种互联网信息搜索聚合呈现方法。本方法为:1)在互联网上爬取页面,并根据页面正文内容建立对应该网页的索引;2)根据输入的查询词检索聚合内容库,若存在该查询词对应的应答内容,则将其作为搜索结果返回;若不存在,则进行步骤3);3)根据该查询词利用所建索引进行网页检索,获得一候选结果集;4)将该候选结果集中的网页正文进行内容相似性对比,得到一系列的相似页面组{S1,S2,…Sk};5)对每一相似页面组Si,提取该组内所有网页的同质内容和差异化内容,并将其融合生成一新的页面Pi;6)将每一组Si及Pi作为应答内容返回,并保存到所述聚合内容库中。本发明可直接为用户提供有价值的信息服务。,下面是一种互联网信息搜索聚合呈现方法专利的具体信息内容。

1.一种互联网信息搜索聚合呈现方法,其步骤为:
1)利用搜索引擎在互联网上爬取页面,对爬到的网页做正文内容提取,并根据正文内容建立对应该网页的索引;
2)根据输入的查询词检索聚合内容库,若存在该查询词对应的应答内容,则将其作为搜索结果返回;若不存在,则进行步骤3);
3)根据该查询词利用该索引进行网页检索,获得一候选结果集;
4)将该候选结果集中的网页正文进行内容相似性对比,将同质或内容相似性大于设定阈值的页面作为一组,得到一系列的相似页面组{S1,S2,…Sk};
5)对每一相似页面组Si,提取该组内所有网页的同质内容和差异化内容,并将其融合生成一新的页面Pi;
6)将每一相似页面组Si及其对应页面Pi作为该查询词对应的应答内容返回,并且将该查询词及其对应的应答内容保存到所述聚合内容库中;
其中,生成所述页面Pi的方法为:将同质内容和差异化内容融合为一新的文档,其中同质内容字体加粗或加黑,且同质内容和差异性内容以不同颜色呈现;然后将对应相似页面组内所有网页的原始地址附在该文档中,并为其动态建立一个新的网址URLi作为页面Pi;
生成所述相似页面组的方法为:两两遍历所述候选结果集中的网页,计算标题的字符串匹配度T、网页有效内容长度的匹配度L和页面出现频率最高的N个关键词的重叠度F,然后根据S=alpha*T+beta*L+gamma*F得到两个页面的相似性S,将相似性S大于设定阈值的页面作为一组;其中,alpha,beta和gamma的取值均在[0,1]区间,且alpha+beta+gamma=1。
2.如权利要求1所述的方法,其特征在于所述对爬到的网页做正文内容提取的方法为:
21)将所爬取的网页集中一网页作为目标网页,从该网页集中搜寻一与该目标网页URL相似度最高网页作为参考网页,然后将这两个页面转化成相应的DOM树;
22)删除目标网页DOM树和参考网页DOM树中相同的节点
23)根据步骤22)处理后的目标网页DOM树和参考网页DOM树,确定目标网页和参考网页的核心内容路径,进行网页正文的提取。
3.如权利要求2所述的方法,其特征在于所述删除目标网页DOM树和参考网页DOM树中相同的节点的方法为:
31)从目标网页DOM树中的第一层节点开始,对于每一层节点,在参考网页DOM树中寻找准相同节点:即标签相同,并且属性键值对也相同;
32)将准相同节点看成文本行进行逐行的字符串对比;如果两个节点的对应文本行完全相同,则这两个节点完全相同,在两颗DOM树中分别删除该节点;如果两个节点对应的文本行不同,则逐层递归地对该节点的子节点们进行比对,查找相同节点并在两颗DOM树中分别删除,直到目标网页DOM树中不再有与参考网页DOM树中相同的节点。
4.如权利要求2或3所述的方法,其特征在于所述核心内容路径的确定方法为:计算目标网页DOM树和参考网页DOM树中每一节点的文本数,如果某个节点的文本数小于设定的文本数阈值,则删除该节点;提取目标网页DOM树和参考网页DOM树中剩余的包含文本的节点作为相应DOM树对应网页的核心内容路径。
5.如权利要求2或3所述的方法,其特征在于确定所述核心内容路径之前,对目标网页DOM树和参考网页DOM树进行杂质内容删除处理,其方法:计算目标网页DOM树和参考网页DOM树中每一节点包含链接元素的节点的链接文本密度,如果大于设定密度阈值,则删除该节点。
6.如权利要求1所述的方法,其特征在于以网页正文的段落为单元,对每一相似页面组内所有网页进行同质内容的提取和差异化内容的提取。
7.如权利要求1所述的方法,其特征在于首先从所述候选结果集中寻找网页的同质化信息,根据同质化信息度对所述候选结果集中的网页进行聚类,然后两两遍历每一类中的网页,计算页面的相似性。
8.如权利要求1所述的方法,其特征在于将查询词以及最终形成的聚合结果保存到一数据库中并更新该索引;当输入新的查询词时,根据该索引检索出相对应的聚合结果。

说明书全文

一种互联网信息搜索聚合呈现方法

技术领域

[0001] 本发明涉及一种互联网信息搜索聚合呈现方法,属于计算机网络技术领域。

背景技术

[0002] 搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
[0003] 互联网用户冥思苦想,将要搜索的内容抽象为“查询词”;可是现有搜索引擎却返回一堆链接(其中有相当一部分为重复内容或无用信息);用户想要的结果均匀的分布在这些链接中,搜索引擎成了“信息中转站”,而用户成了“分析器”。随着互联网内容的不断膨胀,以上情况变得愈加糟糕,网上可以搜索的网页变得愈来愈多,而网页内容的质量亦变得良莠不齐,没有保证。同质化信息充斥网络,导致当前的搜索引擎的检索结果产生大量的重复信息和杂讯,用户无法快速定位到原本需要的查询结果。互联网上典型的同质信息,比如:新闻的转载,以及社交网络微博的转发等。
[0004] 针对现有搜索引擎的上述缺陷,本专利设计了一种将同质或相似性高的搜索结果聚合呈现的方法,以期望从不同来源聚合信息(即帮用户分析),为用户提供有价值的信息服务,而不是作为“信息中转站”。

发明内容

[0005] 本发明提供了一种新的互联网搜索信息集成与呈现方法,将同质或相似性高的网页核心信息进行集成聚合,为用户提供有价值信息服务。发明目的是为用户提供有价值的聚合信息,而不像现有的搜索引擎仅仅提供包含信息的连接列表。
[0006] 本发明的技术方案为:
[0007] 一种互联网信息搜索聚合呈现方法,其步骤为:
[0008] 1)利用搜索引擎在互联网上爬取页面,对爬到的网页使用基于内在模板的网页正文内容提取算法做正文内容提取,并根据正文内容建立对应该网页的索引;
[0009] 2)根据输入的查询词检索聚合内容库,若存在该查询词对应的应答内容,则将其作为搜索结果返回;若不存在,则进行步骤3);
[0010] 3)根据该查询词利用所建索引进行网页检索,获得一候选结果集;
[0011] 4)将该候选结果集中的网页正文进行内容相似性对比,将同质或内容相似性大于设定阈值的页面作为一组,得到一系列的相似页面组{S1,S2,…Sk};
[0012] 5)对每一相似页面组Si,提取该组内所有网页的同质内容和差异化内容,并将其融合生成一新的页面Pi;
[0013] 6)将每一相似页面组Si及其对应页面Pi作为该查询词对应的应答内容返回,并且将该查询词及其对应的应答内容保存到所述聚合内容库中。
[0014] 进一步的,所述对爬到的网页做正文内容提取的方法为:
[0015] 21)将所爬取的网页集中一网页作为目标网页,从该网页集中搜寻一与该目标网页URL相似度最高网页作为参考网页,然后将这两个页面转化成相应的DOM树;
[0016] 22)删除目标网页DOM树和参考网页DOM树中相同的节点
[0017] 23)根据步骤22)处理后的目标网页DOM树和参考网页DOM树,确定目标网页和参考网页的核心内容路径,进行网页正文的提取。
[0018] 进一步的,所述删除目标网页DOM树和参考网页DOM树中相同的节点的方法为:
[0019] 31)从目标网页DOM树中的第一层节点开始,对于每一层节点,在参考网页DOM树中寻找准相同节点:即标签相同,并且属性键值对也相同;
[0020] 32)将准相同节点看成文本行进行逐行的字符串对比;如果两个节点的对应文本行完全相同,则这两个节点完全相同,在两颗DOM树中分别删除该节点;如果两个节点对应的文本行不同,则逐层递归地对该节点的子节点们进行比对,查找相同节点并在两颗DOM树中分别删除,直到目标网页DOM树中不再有与参考网页DOM树中相同的节点。
[0021] 进一步的,所述核心内容路径的确定方法为:计算目标网页DOM树和参考网页DOM树中每一节点的文本数,如果某个节点的文本数小于设定的文本数阈值,则删除该节点;提取目标网页DOM树和参考网页DOM树中剩余的包含文本的节点作为相应DOM树对应网页的核心内容路径。
[0022] 进一步的,确定所述核心内容路径之前,对目标网页DOM树和参考网页DOM树进行杂质内容删除处理,其方法:计算目标网页DOM树和参考网页DOM树中每一节点包含链接元素的节点的链接文本密度,如果大于设定密度阈值,则删除该节点。
[0023] 进一步的,以网页正文的段落为单元,对每一相似页面组内所有网页进行同质内容的提取和差异化内容的提取。
[0024] 进一步的,生成所述页面Pi的方法为:将同质内容和差异化内容融合为一新的文档,其中同质内容字体加粗或加黑,且同质内容和差异性内容以不同颜色呈现;然后将对应相似页面组内所有网页的原始地址附在该文档中,并为其动态建立一个新的网址URLi,生成所述页面Pi。
[0025] 进一步的,生成所述相似页面组的方法为:两两遍历所述候选结果集中的网页,计算标题的字符串匹配度T、网页有效内容长度的匹配度L和页面出现频率最高的N个关键词的重叠度F,然后根据S=alpha*T+beta*L+gamma*F得到两个页面的相似性S,将相似性S大于设定阈值的页面作为一组;其中,alpha,beta和gamma的取值均在[0,1]区间,且alpha+beta+gamma=1。
[0026] 进一步的,首先从所述候选结果集中寻找网页的同质化信息,根据同质化信息度所述候选结果集中的网页进行聚类,然后两两遍历每一类中的网页,计算页面的相似性。
[0027] 进一步的,将查询词以及最终形成的聚合结果保存到一数据库中并建立索引;当输入新的查询词时,根据该索引检索出相对应的聚合结果。
[0028] 与现有技术相比,本发明的优点:
[0029] 1)“基于内在模板的网页正文内容提取”算法思路直观,启发式规则简单通用,执行效率高,运算速度快,对于高度模板化的网页内容提取效果非常好。
[0030] 2)相比于使用纯统计规则和纯机器学习的方法,该“基于内在模板的网页正文内容提取”算法不涉及样本标注和学习算法的收敛和周期问题,并且不对网页内容语言,网页设计格和网页模板样式类型做任何假设,在大大提高了算法的效率、减少了人成本的同时,对于现代网站网页的核心内容提取有良好的通用性。
[0031] 3)对于基于内在模板的网页正文内容提取的算法中的杂质内容删除和核心内容路径提取算法可以根据需要和可拓展性问题不一而足。算法描述中仅仅给出了一个参考,在实际应用中可以根据不同的情况使用合适的算法(包括统计算法,机器学习算法等等)或直接略去此步骤。对于基于内在模板的网页正文内容提取算法中的参考网页的获取方法也可以根据实际应用设计灵活多变的方法,而不局限于当前所提出的策略。
[0032] 4)相比于普通网页,我们设计的发明使用户得到的查询结果更具有针对性,内容的冗余度比用户自己搜索更小,查询结果也因为去掉了广告等无用信息而更加精确和干净,对于阅读需求提供了更加多样化的内容呈现,为有目的性的阅读提供更便捷的拓展补充。
[0033] 总的来说,本发明设计了一种将同质或相似性高的搜索结果聚合呈现的方法,以期望从不同来源聚合信息(即帮用户分析),直接为用户提供有价值的信息服务,该发明改进现有搜索引擎作为“信息中转站”的缺陷。附图说明
[0034] 图1为本发明的方法流程图

具体实施方式

[0035] 本部分详细介绍发明的具体技术方案。
[0036] 对于用户的查询,系统首先在聚合内容库中查找是否已有被缓存的结果,如果有,则直接按照信息层次化的形式将聚合内容响应,并在用户页面上进行呈现;如果聚合内容库中没有相关内容,则通过用户的查询在页面库中索引相关页面,进行相似性比对以及聚合操作,形成响应数据源,按照信息层次化的方式将结果数据进行呈现整理,最后将其呈现结果展示给用户,并在聚合内容库中对该内容进行缓存,以便快速响应相同查询。网页索引库由网络爬虫对互联网上的页面进行抓取,对网页内容进行提取、建库,并建立相关索引。
[0037] 本发明的方法流程如图1所示:
[0038] 1.利用搜索引擎在互联网上爬取页面,对爬到的网页做正文内容提取,并根据正文内容建立对应该网页的索引。
[0039] 通过“基于内在模板的网页正文内容提取”算法进行核心提取:去掉网页中与阅读无关的广告链接,网站导航栏,网站版权等信息,使得网页内容的获取更精准,更简洁;算法归纳出的网页模板可以用于快速的将同一网站同一专题的网页内容进行内容提取,加速基础资源数据的处理过程;“基于内在模板的网页正文内容提取”如下:
[0040] 1)从待处理的目标网页的源代码中搜寻相似度最高的URL,获得该URL所对应的参考网页页面,并将这两个页面转化成相应的DOM树以进行后续处理。由于搜索引擎会按照一些当今主流的算法来抓取网页,这些网页中肯定会存在URL相似的网页,这些网页可以两两相互配对来进行网页正文提取操作,同步完成网页正文提取,并根据提取的正文建立内容索引;即优先抓取URL相似度满足一定条件的网页;对于我们要从中提取正文的网页称为算法的目标网页,与该目标网页URL相似度达到一定程度的网页,会被用来配合该目标网页的正文提取,因此URL相似的网页称为算法的参考网页,由于我们的算法可以同时提取出目标网页与参考网页的正文内容,因此目标网页与参考网页是一个相对的概念,他们互称为目标网页和参考网页;对于N个(N>=2)URL相似度满足一定条件的DOM树,它们之间就可以完全完成正文提取,且效率是逐个DOM树进行提取的2倍;对于找不到满足URL相似度的DOM树,我们可以在其所属网站的同一专题下寻找次一级的相似URL网页作为参考网页进行正文提取,其所产生的噪音信息粒度不足以影响索引的建立和聚合的精确度。这里给出一个URL相似度计算的方法:
[0041] 待判定的URLa:
[0042] protocol1://domainname1/p1/p2/p3/p4/f1.ext;p=0?q=1&w=2#fragment1;
[0043] 待判定的URLb:
[0044] protocol2://domainname2/p1/p2/f2.ext;p=1?q=2&w=3#fragment;
[0045] 相似度值命名为similarity=0;
[0046] 首先比较网络协议部分,即protocol1和protocol2,如果不同,则similarity=-1;退出比较;
[0047] 如果相同,则比较主机部分,即domainname1和domainname2,如果不同,则similarity=-1;退出比较。
[0048] 如果相同,则比较路径部分,即/p1/p2/p3/p4/f1.ext;p=0和/p1/p2/f2.ext;p=1部分,从根目录名开始,逐层比较直到文件名与路径参数,对于URLa的路径层数为la(本例la为5),对于URLb的路径层数为lb(本例lb为3),记两个路径的相同部分层数为cl(本例为
2),在比较过程中如果发现不相同(比如,在本例中第一次不相同将发生在p3和f2.ext;p=
1的比较),则similarity=max(la,lb)-cl,在本例中similarity=3;如果similarity不为
0,则比较结束,similarity的值即为比较结果值;如果similarity为0,即他们的路径部分完全相同,则在去比较它们的查询部分,即比较q=1&w=2和q=2&w=3中的键值对,如果完全相同,则similarity=0,退出比较;如果不完全相同,则记la为URLa的查询部分的键值对个数,lb为URLb的查询部分的键值对个数,cl为两个URL完全相同的查询键值对个数,则similarity=max(la,lb)-cl,退出比较。
[0049] 从上面的计算可以看出真正有利于正文提取的参考网页与目标网页之间的URL相似度为1;即通过设置的阈值,将要进行正文提取的网页寻找一个与它在URL上满足一定相似条件的网页,然后这两个网页作为一个“目标网页,参考网页”对来一并进行正文提取。
[0050] 2)对目标网页DOM树和参考网页DOM树进行节点预处理,如下:
[0051] 2-1)从目标网页和参考网页中删除人机交互节点,如
,
,,,