首页 / 专利库 / 人工智能 / 关联性分析 / 用于在数据网络中搜索和分析信息的方法

用于在数据网络中搜索和分析信息的方法

阅读:614发布:2021-09-21

专利汇可以提供用于在数据网络中搜索和分析信息的方法专利检索,专利查询,专利分析的服务。并且用于在数据网的接入点上业务量内容中提供搜索和提醒能 力 的方法被公开。本 发明 教导了可如何把适当的保密和内容 过滤器 应用于业务源中。从业务流来的被过滤的数据流能被用来改进现有的搜索和提醒业务的 质量 。本发明也教导了如何开发高速缓存器以最佳地保持在业务流中捕捉到的新鲜的可搜索信息。另外还公开了上述高速缓存器可如何被转变为可搜索的索引,以及它是与如何与外部搜索索引分开或合作地被用作改进搜索业务的 基础 。本发明还公开了如何分析业务流以导出附加信息,该附加信息用来测量文档关联性、文档之间的 访问 相似性、搜索结果的个人化级别评定以及文档访问中的地区差别。,下面是用于在数据网络中搜索和分析信息的方法专利的具体信息内容。

1.一种用于搜索和分析数据网中接入点上业务量内容的方法,其中 该数据网是互联网上的共享的网络资源,其中上述接入点是用于由互联网 业务提供者服务的用户的互联网接入点,或者以应用的形式分布到多个用 户,或者是用于无线用户的连接点,上述连接点是本地连接点或互联网网 关,并且其中该方法的特征为包括步骤:收集形式为从上述数据网中接入 点处的信息流提取的数据的信息,索引上述收集的信息,搜索上述索引的 信息,以及基于所述搜索获取所述信息,其特征还在于基于接入点上业务 量内容的分析的另外的可选步骤,用来对以文档形式的收集的信息进行位 置编码,测量文档的相似性,以及就新信息和更新的信息而提醒用户。
2.按照权利要求1的方法,其特征在于通过在一个或多个接入点处 提供的一个或多个高速缓存装置中进行高速缓存来存储收集的信息。
3.按照权利要求2的方法,其特征在于把一组渐增的时间间隔中收 集的信息高速缓存入两个或多个高速缓存装置中,在每个上述高速缓存装 置中重复索引该高速缓存的信息以生成对于一组渐增的时间间隔的相关搜 索索引,以及组合从生成的搜索索引来的搜索结果。
4.按照权利要求2的方法,其特征在于在高速缓存装置中保留高速 缓存的信息,直到其内容已经被索引。
5.按照权利要求4的方法,其特征在于在自上次更新特定业务量内 容单元以来经过的时间的基础上计算该高速缓存的信息的新鲜度。
6.按照权利要求2的方法,其特征在于用于收集信息的步骤包括用 于分别高速缓存业务量内容以使得外部带宽需求最小以及保持用于索引的 新鲜和相关信息的子步骤。
7.按照权利要求6的方法,其特征在于把业务量内容分别高速缓存 入两个专用的高速缓存器中,以使得外部带宽需求最小以及保持用于索引 的新鲜和相关信息。
8.按照权利要求2的方法,其特征在于重复处理该高速缓存的信 息,并生成其索引。
9.按照权利要求8的方法,其特征在于通过检测出先前在接入点上 没有观察到的新信息或被更新的信息,并把上述新信息或被更新的信息增 加到上述搜索索引中来逐步更新索引。
10.按照权利要求8的方法,其特征在于使用在对该高速缓存信息的 两次索引操作之间观察到的业务量内容,生成对自上次对上述高速缓存信 息执行索引操作以来的新鲜业务量内容的一个时间搜索索引,并且通过组 合上述时间搜索索引和通过索引上述高速缓存信息而生成的最近搜索索引 中的搜索来执行搜索。
11.按照权利要求1的方法,其特征在于把所收集信息的索引限制为 敏感性过滤尚未丢弃的业务量内容的子集,上述敏感性过滤能被用来检测 出下列中的一个或多个,即色情资料、私人资料、以及从HTTP POST操 作来的资料。
12.按照权利要求1的方法,其特征在于搜索步骤包括用于依据业务 量内容单元的记录的时间属性来进行关联性级别评定或数据过滤的子步 骤,上述记录的时间属性是下列中的一个或多个,即业务量内容单元的创 建时间、修改业务量内容单元的最后时间、在接入点处第一次观察到所给 业务量内容单元的时间以及在上述接入点上最后一次观察到所给业务量内 容单元的时间。
13.按照权利要求1的方法,其特征在于搜索步骤包括用于依据经过 接入点的个别业务量内容单元的访问计数来进行关联性级别评定的子步 骤。
14.按照权利要求1的方法,其中搜索步骤由至少一个合作搜索引擎 来实现,并且所述搜索步骤包括用于分派搜索请求给上述的至少一个合作 搜索引擎、从本地业务量索引中收集搜索结果、从上述的至少一个合作搜 索引擎中收集搜索结果并组合上述收集的搜索结果以把一个统一结果提供 给初始搜索请求的子步骤。
15.按照权利要求14的方法,其中上述的合作搜索引擎是互联网搜 索引擎,并且对用上述搜索引擎从互联网中爬行到的信息进行索引。
16.按照权利要求14的方法,其中搜索步骤通过多于一个的合作搜 索引擎来实现,并且分别在数据网中至少一个接入点上提供搜索引擎。
17.按照权利要求1的方法,其特征在于用于收集信息的步骤包括用 于检测出不可访问的已请求信息,以及使用有关上述不可访问信息的信息 来删除或减少搜索索引中有关入口的级别评定的子步骤。
18.按照权利要求1的方法,其中搜索步骤通过至少一个合作搜索引 擎来实现,并且用于收集信息的步骤包括用于检测出先前在接入点上没有 观察到的新信息或被更新的信息,以及使用有关新信息或被更新信息的信 息来扩大上述至少一个合作搜索引擎的搜索索引的子步骤。
19.按照权利要求1的方法,其特征在于用于位置编码的可选步骤包 括以下子步骤:收集所请求文档的文档标识符、以有关用户提交该请求的 空间信息来注解上述文档标识符,计算至少一个文档的、至少包括从空间 区域来的文档请求数和从上述空间区域来的请求总数的访问统计,以及通 过把一个特定空间区域的访问统计与至少另一空间区域的相应访问统计相 比较来确定哪些文档对于上述特定空间区域是最特殊的。
20.按照权利要求19的方法,其特征在于从互联网业务提供者记录 的用户数据中导出上述空间信息。
21.按照权利要求19的方法,其特征在于从请求文档的移动设备的 位置中导出上述空间信息。
22.按照权利要求19的方法,其特征在于选择空间粒度,以便在每个 空间区域中获得足够数量的用户以确保不能从访问统计中识别出个别用户。
23.按照权利要求19的方法,其特征在于通过计算至少两个空间区 域的上述访问统计属于同一统计分布的可能性而确定文档的独特性。
24、按照权利要求19的方法,其特征在于通过使用大空间区域作为 虚假设的统计并计算对特定空间区域的上述访问统计进行的不同测试的统 计重要性,来确定文档的独特性。
25.按照权利要求23的方法,其特征在于使用特定区域计分以提供 搜索结果的位置敏感级别评定。
26.按照权利要求24的方法,其特征在于使用特定区域计分以提供 受欢迎的特定区域文档的业务量相关列表。
27.按照权利要求26的方法,其特征在于通过对文档内容进行自动 类别分析而把上述文档列表划分为类别子列表。
28.按照权利要求1的方法,其特征在于用于测量文档相似性的可选 步骤包括以下子步骤:收集所请求文档的文档标识符、注解文档请求以便 识别出从同一用户来的连续请求、以及通过把“a”请求附近的“b”请求 数与“b”请求的平均频率相比较来计算文档“b”和参考文档“a”之间 的文档相似性。
29.按照权利要求28的方法,其特征在于基于任何的给定文档输入 而使用相似性测量来提供类似文档的级别评定列表。
30.按照权利要求29的方法,其特征在于通过省略从与输入文档同 样的站点来的文档来计算上述级别评定列表。
31.按照权利要求28的方法,其特征在于把相似性测量与基于文档 内容的相似性测量组合,或与基于计数协同引证数的相似性测量组合。
32.按照权利要求28的方法,其特征在于通过把对文档组中文档之 一的所有请求当作对上述“a”文档的请求来计算该组文档标识符的相似 性测量。
33.按照权利要求32的方法,其特征在于把用户万维网日志的子集 用作上述文档组标识符。
34.按照权利要求33的方法,其特征在于取得所述文档标识符组, 并且基于上述相似性测量来创建搜索结果的个人化级别评定。
35.按照权利要求33的方法,其特征在于在链接拓扑分析的基础上 计算文档级别评定,上述相似性测量被用来定义链接拓扑和相关的加权。
36.按照权利要求1的方法,其特征在于用于提醒的可选步骤包括以 下子步骤:实时收集从数据网中接入点上的数据流中提取的信息,检测先 前在接入点上没有观察到的新信息和/或被更新的信息,把上述新信息和/ 或被更新的信息与一组用户简档相比较,以及发送由上述新信息和/或被更 新的信息触发的提醒消息给用户简档相关联的用户。

说明书全文

技术领域

发明涉及用于在数据网络的接入点上搜索和分析业务量内容的方 法,特别的是,本发明涉及通过有线接口或无线接口访问互联网或内部 网上信息的信息获取方法和系统。更特别的是,本发明涉及基于内部网 和互联网的搜索引擎和提醒业务。

背景技术

在互联网和封闭的内部网上,电子信息资源都在迅速增长。这种类 型的电子信息正在日益取代更常规的信息资源,像报纸、杂志、甚至电 视。这些信息数据库的大小目前正在几乎按指数规律增长。
有关的一般背景技术可以在下列出版物中发现:
S.Brin.和L.Page.,The anatomy of a large-scale hypertextual web search engine(大规模超文本网络搜索引擎的剖析),《Proceedings of the 7th International World Wide web conference(第七届国际 万维网会议论文集)》,第107-117页,Brisbane,澳大利亚,1998年 4月(Elsevier Science(Elsevier科学));J.M.Kleinberg, Authoritative sources in a hyperlinked environment(超链接环境 中的权威资源),《Proceedings of ACM-SLAM Symposium on Discrete Algorithms(关于离散算法的ACM-SIAM讨论会论文集)》,第668-677 页,1998年1月;以及D.Gibson、J.M.Kleinberg和P.Raghavan, Inferring Web communities from link topology,Hypertext(从链 接拓扑结构中推断出网络共同体,超文本),第225-234页,Pittsburgh, PA,1998年6月。
像超文本传送协议(HTTP)、文件传送协议(FTP)或无线应用协议 (WAP)这样的协议经常被用来在内容提供者和客户之间传送内容。搜索 引擎技术已经被开发出来用于互联网和内部网应用。目前,这些搜索引 擎都基于对来自可接入服务器的页面和附加在线内容的自动爬行 (crawling)。典型地,一组种子页面(seed page)被用来启动该爬行 。在第二阶段,该爬行器(crawler)也取出最初种子页面之一中涉及的 文档。只要爬行器在取出的文档之一中已经检测出新的没有访问过的文 档指引,该过程就继续。万维网文档经常采用超文本标示语言(HTML) 的格式。在这种情况下,文档指引通常是至另一个网页的HTML超链接。 该网页自身通常由像通用资源定位器(URL)的地址来规定。
当前,搜索引擎的工作通常分为两个阶段。首先,爬行器被用来收 集文档数据库。一旦文档已经被收集,它们就被预处理并被索引,以便 可用于搜索。爬行器的文档收集原理要经受下列影响后续搜索质量的限 制或缺点:
爬行器将只能基于文档指引来访问所选种子页面的传递闭包中的文 档。例如,爬行器将决不访问没有任何参考文档的文档。根据链接拓扑 以及所选的种子页面,可留下确实含有参考文档的文档不被爬行器访问 。
爬行器受限于相当少地访问任何特定服务器。典型地,在两次访问 同样的服务器之间,爬行器必须等待30秒或更长时间。该限制是由于机 器人规则,该规则被制定来保护服务器,以免由于自动请求而引起超负 荷。因此,连续爬行特定站点将被限制在每天大约3千个文档。存在若 干个含有如此多的文档的大站点,以致于实际上不能以现有技术中的爬 行原理来下载和索引全部内容。根据现有技术爬行原理,在新鲜度方面, 甚至中等大小的站点也出现了大问题。例如,含有9万文档的站点将需 要一个月的爬行来进行一次完全的更新。
爬行的现有技术原理不能很好地适合于保证所收集文档的新鲜度。 该爬行限制使得在一个搜索引擎中对于一些站点不能进行完全的站点更 新,而对于其它站点将出现花费几周或几个月的时间来进行完全的站点 更新的问题。只有那些含低于大约3千文档的站点能够每天进行一次完 全更新。新鲜度的不足使得搜索引擎的潜受到严重限制。每天的报纸 是一个巨大的市场,但是阅读或甚至搜索旧报纸的市场实际上不存在。 类似地,可以预期人们感兴趣的是通过搜索和提醒服务来访问最近已经 被更新过的网络内容。
爬行的现有技术原理不能够获取动态对象。动态对象是典型地需要 连同HTTP请求一起传送的参数的对象。例如用户可以在对话框、检查框 等中进行一些选择,并下载不是作为HTML文件永久存储、而是基于用户 选择自动生成的页面。对于爬行器,推测所有可能的参数设置实际上是 不可能的,并且因此目前不能通过互联网搜索引擎来访问动态对象。另 一方面,在页面的数量以及信息或服务的价值方面,万维网都越来越被 动态内容所主导。
互联网和许多内部网的文档数据库几乎都正在按指数规律增长。但 是查询复杂性几乎没有改变。特定问题的匹配文档的数量也因此几乎按 指数规律增长。所以,搜索引擎的关联性问题正在变得越来越重要。爬 行的现有技术考虑到文档之间的链接拓扑的分析和各种用来基于被提议 的这种结构而分配文档优先级的技术。另一方面,对于像动态对象、新 文档、二进制文件以及像以无线标示语言(WML)写的页面的无线页面这 样的重要文档类别的关联性,链接拓扑并不是一种足够的资源。所有这 些实例都没有或仅有相当少的链接能用于链接拓扑分析。
提醒业务在现有技术中被描述,并且在很多情况中以与搜索引擎一 样的方式工作。典型地,提醒业务将能够取一个搜索引擎查询并对照该 查询检查一个新信息流。例如,用户能在搜索引擎上搜索历史数据,并 使用该查询作为提醒业务中的触发,该提醒业务正把该查询应用于一个 新文档流。
由于现有技术中固有的以及上面所讨论的弱点和不利,存在一种在 搜索和提醒业务中改进文档收集过程的紧迫需要。

发明内容

因此,本发明的主要目的是提供一种方法,该方法允许增加可收集 的文档总数,以及增加可从大站点收集的文档百分比,它也在上一次文 档更新或文档创建与其在搜索业务中可搜索的时间之间的延时方面改进 了该文档的新鲜度,另外该方法也允许检测出变为无效(“死”链接) 的文档以及收集动态对象。
本发明的另一个目的是通过检查新文档是否与提醒业务的用户定义 的触发器匹配,而影响最近被更新的文档的改进资源以创建提醒业务。
本发明的另一个目的仍然是使得搜索引擎中的关联性或级别评定准 则以文档的寿命为基础。这一点特别重要,因为本发明描述了改进的文 档收集原理,例如,它允许用户在过去10分钟、过去一小时或过去一天 创建或更新的新万维网文档中搜索。
本发明的进一步目的是使用数据网络中接入点上的请求统计来在搜 索和提醒业务中建立改进的关联性。
本发明的进一步目的仍然是通过使用从空间相邻的用户来的请求统 计来创建位置特定的文档级别评定。
最后,使用请求统计中的时间邻近来定义文档之间相似性的程度也 是本发明的一个目的。
根据本发明,提供了一种用于搜索和分析数据网中接入点上业务量 内容的方法,其中该数据网是互联网上的共享的网络资源,其中上述接 入点是用于由互联网业务提供者服务的用户的互联网接入点,或者以应 用的形式分布到多个用户,或者是用于无线用户的连接点,上述连接点 可以是本地连接点,也可以是互联网网关,并且其中该方法的特征为包 括步骤:收集形式为从上述数据网中接入点处的信息流提取的数据的信 息,索引上述收集的信息,搜索上述索引的信息,以及基于所述搜索获 取所述信息。
本发明的附加特征和优点通过下面的详细描述和附图来公开。

附图说明

当与附加的附图一起阅读时,可以通过参考下列优选的和说明性的 实施方案的详细描述来更好地理解本发明自身以及优选实施方案,其中
图1显示了通过ISP到互联网的客户连接,
图2是ISP处的代理服务器,它正在高速缓存万维网内容,
图3是被修改用来与一个外部搜索高速缓存器通信的代理服务器
图3b是来自客户软件的分布式业务爬行,
图4是搜索高速缓存器的可能组织,
图5是搜索高速缓存器的内容可如何转变为搜索索引,
图6是利用搜索高速缓存器索引的搜索业务的配置,
图7是用于定义文档相似性的时间邻近原理,以及
图8是定义时间邻近的加权函数的可能的定义。

具体实施方式

在给出优选实施方案的详细讨论之前,本发明的一般背景将被简单 讨论以便容易理解后面所讨论的内容。
互联网用户经常通过所谓的互联网业务提供者(ISP)来与网络相连 。图1说明了客户如何通过ISP来与各种万维网服务器相连。ISP 12从 互联网骨干网提供者处租借带宽,并基于分时模式提供给终端用户11 以具有该带宽的“桩”(stake)14。这样通过ISP 12就能把从终端用 户11来的访问路由到带有个别服务器14的该万维网13,该服务器宿有 文档15和多媒体内容16。通过本地连接点或通过用于多连接点的互联 网网关,同样的模式也应用于无线用户。现有技术中的搜索引擎是以从 网络服务器14来的自动爬行和在搜索索引18中构造该信息为基础的, 该搜索索引可用于搜索。搜索的结果提供了返回到万维网15、16上起始 文档的参考。
计算机系统中的公用概念是高速缓存系统。ISP经常在它们的带宽 分配单元上使用万维网高速缓存器。该高速缓存器减少了骨干网上的带 宽使用,同时终端用户将体验更低的等待时间。经常通过代理服务器来 使用万维网高速缓存器。代理服务器可以是透明的,也可以是不透明的 。现有技术中存在几种高速缓存机制和代理服务器。一个实例是鱿鱼 (squid)(www.squid-cache.org),它是万维网代理的免费软件版本 。图2说明了代理服务器21如何可能进行文档或对象22的内部收集。 对这些对象的用户请求被本地提供服务23,以减少从ISP 24来的外部 带宽需要。当高速缓存的文档或对象被访问时,用户也将体验减少了的 等待时间。为个别对象定义期满规则,以确保高速缓存器中的拷贝真实 地反映原始对象。
现在将讨论所谓的业务量爬行的概念和属性。
通过ISP连接到互联网的用户全集将整个充当一个从万维网来的信 息的大爬行器。对于本发明的其它部分,对这种在ISP或者类似连接点 或网关上的整个信息收集的引用将被称为业务量爬行器。该“人”业务 量爬行器含有多种与自动化软件爬行器非常不同的属性:
-在用于得到对文档的访问的种子页面和链接拓扑方面,该业务 量爬行器将没有如软件爬行器同样的限制。
-该业务量爬行器将不会受限于软件爬行器遭受的到特定站点的 访问限制。因而潜在地,该业务量爬行器可潜在地更快和更完全地爬行 大站点。
-软件爬行器将花费它大量时间来简单地下载它以前已访问过的 文档以及检查自从上一次下载以来这些页面的内容是否被更新。而该业 务量爬行器能够检查用于用户请求的由ISP获取的内容以相对于相应文 档的先前拷贝进行重复测试。因而附加信息下载是不必要的。
-该业务量爬行器能够以两种方法来提高软件爬行器提供的新鲜 度:
-该业务量爬行器检测丢失的或暂时不能获得的文档。典型地, 可以通过记录到一个所给URL的HTTP请求何时导致了一个像错误号404 的错误消息来进行检测。在相关搜索业务中,能够利用这些失败的请求 来删除相关URL或分配一个更低级别值给该URL,以对搜索引擎产生的 结果列表中的文档排序。
-只要连接的ISP客户之一已经下载该文档,该业务量爬行器 就可能分析新文档或被更新的文档。这样,例如只要ISP客户之一已经 阅读过新的新闻稿,该文章就能够变成可搜索的。
-ISP用户将访问动态页面,并且因而这些页面的内容也能被变 成可搜索的。实际上可被用来生成动态页面的参数组合经常有无穷多个 。因而,请求中实际使用的参数组合是用于定义应被变成可搜索的动态 页面集合的一种非常合理的选择。这正好是业务量爬行器可能为后续搜 索而索引的动态页面集合。
-ISP用户的访问模式也能在相关搜索索引中加到改进的关联性 上。被频繁访问的站点的级别可以比那些很少被访问的站点的级别高。 通过在结果列表中重定向该用户选择,搜索引擎自身也有可能进行这样 的访问计数,但是更有价值的是使关联性计算基于整个访问模式,而不 仅仅是作为搜索结果而出现的访问模式。
现在将讨论业务量爬行的实现和设计,分别地基于集中式或分布式 爬行概念。
集中式业务量爬行
基于数据网络中接入点上的业务量,可以有几种方式来实施业务量 爬行器。本发明将教导一些可能的实施方案,并且对于本领域中的技术 人员,如何利用有些不同的设计选择来实现同样的好处是显而易见的。 本发明中教导的实例将把ISP上的业务量万维网文档的索引作为一种情 况,但是对于本领域中的技术人员,如何把同样的原理应用于类似情况 中,比如内部网业务量或无线连接点,是显而易见的。
可以以各种方式来通过ISP实际访问文档或对象。一种可选方法是 利用ISP使用的高速缓存机制。该高速缓存器的内容可以被周期地索引 以便搜索和提醒,或者在每次新文档或对象存储入网络高速缓存器中时, 逐渐地扩充该搜索索引。该方法的限制是当前万维网高速缓存器被设计 成减少从ISP来的外部带宽要求。在很大程度上,带宽目标规定在万维 网高速缓存器中保留的是哪种对象。典型地,万维网高速缓存器的大部 分将由经常被访问的多媒体对象组成。用于索引的许多最感兴趣的文本 页面也将有一个期满标签,该标签被定义来告诉万维网高速缓存器把该 文本页面从高速缓存器中去除。
因而,优化业务量爬行的质量将需要修改万维网高速缓存器策略, 或者必须与万维网高速缓存器并行地布置一个分开的高速缓存器。在这 种情况下,该网络高速缓存器将基于带宽最优化准则来选择对象,并且 在搜索和提醒业务方面,该搜索高速缓存器将基于文档质量来选择对象 。
图3说明了可如何修改代理服务器以与合作的搜索高速缓存器通信 。该搜索高速缓存器可以驻留于与代理服务器相同的计算机中,或者它 可以驻留于不同的计算机中,并通过数据网络来通信。该代理服务器包 含被用来减少外部带宽需要的内部万维网高速缓存器31。该内部万维网 高速缓存器不必实施业务量爬行。该代理服务器中包括通信模32。该 通信模块记录经过这个代理服务器34的万维网请求35,并且任选地记 录并缓冲用于该请求的结果消息以及实际内容,后者作为这个请求的结 果被传送给用户。该通信模块传送36这个信息的一部分给搜索高速缓存 器33。被传送的信息可以被设置以包括:
-仅请求:这可以通过把代理服务器的访问日志中的更新从通信模块 32周期地传送给搜索高速缓存器33来实施。每个访问记录能任选地用 某些信息来标记,比如:
-诸如IP地址的用户信息。
-加密的用户信息。由于万维网应用中的保密问题,保持个别用 户的匿名通常是重要的。因此,代理服务器中的通信模块能够被设置以 致于所有的个人信息都不被排除或者被编码,以致于可以基于输入该搜 索高速缓存器中的数据来分开而非识别个别用户。一个实例可以是用一 个基于该用户会话ID的加密号码来标记该请求。该方法也使得这个保密 策略可以被ISP控制并处于ISP代理软件的内部。
-诸如国家和城市的相关用户信息。该信息可以保持在一种足够 低的级别,以保证不能基于输入该搜索高速缓存器中的数据来识别出个 别用户。在个别用户建立帐户时,能够基于ISP记录的辅助数据来生成 位置信息。无线应用能够例如从无线设备提供的GPS数据中获得定位信 息,或者基于像基站ID和延迟时间通过电话定位来获得。
-万维网请求的结果编码。例如,搜索高速缓存器能够使用该信 息来删除死链接或者降低经常暂时不能获得的链接的级别。
-文档内容的散列值。通信模块32能够计算一个或多个散列值, 它反映作为该请求的结果而返回给该用户的内容。这样的内容密钥可以 以最小的CPU开销来计算,并表示一种十分紧凑的方式来把信息传送给 可能的远程搜索高速缓存器。例如,远程搜索高速缓存器能够使用该信 息来与同一文档的历史散列值相比较。散列值的改变指示了该文档已经 被更新,并且它应该被重新爬行以更新该搜索索引。
-带内容的请求:除了上面讨论的用于请求本身的信息外,通信模块 32也能发送实际的文档内容。如果在通信模块32和搜索高速缓存器33 之间可以获得大容量数据信道,那么该选项就典型地被选择。该文档已 经由ISP获取,并且因此能以这种方式而变为可用于索引和提醒,而不 需要任何的到起始万维网服务器的附加请求。在这种情况下,必须分割 数据流,以便从通信模块32传送该返回给用户的信息的拷贝给搜索高速 缓存器33。在通信模块32中执行一些过滤以减少到搜索高速缓存器33 的通信是有好处的。典型地,仅传送索引有兴趣的请求。这样的过滤规 则的实例包括:
-仅传送HTTP GET请求
-仅传送MIME类型文本/*的请求
-仅传送含有指示成功传送的结果编码的请求的内容
-仅传送用于肯定地识别出的主机或不在应该被排除的识别出的 主机数据库中的主机的请求。
搜索高速缓存器33接收从代理服务器中的通信模块32来的信息流, 并利用该信息来建立搜索索引或提醒业务。图4显示了搜索高速缓存器 的可能组织。搜索高速缓存器33包括通信模块41,用于处理与代理服 务器中的通信模块32的数据传送。例如,实际传送逻辑可以以套接字来 实现。由该通信模块41接收的数据被发送用于进一步的处理。第一处理 步骤是任选的拒绝逻辑过滤42,它能够扩展并增加到所描述的用于代理 服务器中的通信模块的过滤机制中。在代理服务器中进行拒绝过滤的好 处是代理服务器与搜索高速缓存器之间的数据带宽减少了。另一方面, 在搜索高速缓存器中进行一些拒绝过滤也有其优点:
-运行代理服务器的CPU的负荷增加应该是最小的。因而,通信 模块32中的处理开销应该保持最小。
-典型地,搜索高速缓存器将能更快地访问对于设计好的拒绝过 滤来说是十分重要的文档信息。例如,这样的信息包括文档内容的历史 散列值、访问统计和含应该被拒绝的主机或站点的数据库。
应该注意在实际传送期间,拒绝逻辑42能够被实时执行。只要该流 已经作为应该被搜索高速缓存器拒绝的对象而被识别出,就会因此停止 该传送。
分布式业务量爬行
图3b显示了来自客户软件的分布式业务量爬行。一组用户3b1、3b2、 3b3从像互联网、移动互联网或内部网的共享网络资源中获取文档。该 文档在客户软件3b4、3b6、3b8中被获取并显示。典型地,客户软件可 以是浏览器应用程序。通信模块3b5、3b7、3b8能够作为插件程序而处 于客户软件的内部,或者作为合作模块而处于客户软件的内部。当被激 活时,通信模块能够记录文档ID,比如由客户软件获取的文档的URL。 此外,通信模块发送与先前对于集中式业务量爬行而描述的同样类型的 信息。从客户软件中分布的通信模块集来的消息由服务器应用程序3b10 聚集。以与集中式业务量爬行32中的通信模块发送信息给搜索高速缓存 器33完全相同的方式,服务器应用程序3b10把已获得的信息传送给搜 索高速缓存器3b11。
分布式业务量爬行使得不必把系统与ISP或类似服务相集成就获得 与集中式业务量爬行同样的好处成为可能。分布式接入点被改为通过客 户软件使用,并且通过在网络上与集中式服务器应用软件通信来聚集分 布式访问信息。
在分布式业务量爬行中,对私人信息的处理能够被轻松进行,因为 用户能够通过客户软件明确地激活和停用该通信模块。
现在将讨论业务量内容的高速缓存。
没有被拒绝逻辑过滤42拒绝的文档被传送给对象管理器43,它实 际高速缓存与各种文档相关联的信息。该对象管理器包括检查临时存储 器47中文档的保密过滤器44,以便私人信息不能从对象管理器43的输 出中排除。在本发明中,保密过滤器44将被单独描述。与文档参考一起 存储在对象管理器43中的信息可以包括:
-被代理服务器中的通信模块32加在文档上的信息,就像先前描 述的一样。
-类似上次修改过的属性的文档统计。
-访问统计,像第一次看的时间、最后一次看的时间、各种时间 间隔中访问的次数和已经访问过该文档的不同用户的数目。
-文档内容自身。
-文档的统计级别值。
对象管理器可以充当一种业务,该业务可以连续或周期输出含有关 新的、被更新的或被删除的文档的信息的数据流。该数据流可以仅包括 文档参考45,也可以包括含实际文档内容46的文档参考。这些数据资 源对于建立用于万维网更新的提醒业务以及改进万维网上一般搜索引擎 和专用搜索引擎的大小、新鲜度和关联性是有价值的。文档参考45可以 被用作一个重新索引信号来指导传统搜索引擎的爬行器17,并且实际文 档内容46也能够被用来在传统搜索引擎中替代这些文档的爬行17。
通过增加临时存储器以及包括用于从高速缓存器中删除文档的驱逐 算法(eviction algorithm),对象管理器43也能充当高速缓存器。可 被分配给文档的用于指示万维网高速缓存的使用期限属性并不真正与搜 索高速缓存相关。结果的搜索业务中用户访问的实际文档将是起始文档 。因而,唯一的险是搜索引擎的传统问题,即与实际文档相比,被索 引的文本可能过时了。另一方面,通过在本发明教导的技术上建立搜索 业务,这种新鲜度问题的可能性被大大降低。如果文档级别值真正反映 文档的质量和/或受欢迎程度,那么高速缓存器驱逐策略就可与该文档级 别值紧紧绑在一起。新文档或者被更新的文档能够在高速缓存器中被 保留一段预先定义的最小时间,以便为最近的万维网更新而建立搜索业 务。动态对象可在搜索高速缓存器中具有降低的使用期限,以避免经常 被频繁更新的、过多的动态对象。
对象管理器43也能包括用于计算临时存储器47中文档的统计级别 值48的模块。在决定应该从临时存储器47中删除哪些文档方面,该级 别值能够被用作高速缓存策略,同时它也能用作结果的搜索业务中对搜 索结果评定级别的输入。典型地,评定级别的准则可以是链接拓扑、文 档内容和访问模式的组合。业务量爬行器的好处是有关访问统计的评估 质量将被改进超过现有技术。一个受限于访问统计的简单评定级别的公 式的实例是:r’=r+w·I·f(点击率)·g(访问文档的用户数)+(I-A) 。在这个方程中,r表示文档的先前级别,而r’表示文档的更新过的级 别。w是评定级别值的递归更新中的加权因子。I表示目标平均级别值, 并且也可用作新文档的初始值。A表示先前级别评定中的平均级别,并 被用来基于I而稳定随着时间过去的级别值。函数f和g是增加经常且 被许多不同用户访问的文档的权重的单调函数。
现在将简单说明业务量高速缓存器的索引。
对象管理器能够被简单地用来连续地或周期地输出含有关新的、被 更新的或被删除的文档45和46的信息的数据流。在这种情况下,生成 的数据流的接收者将处理该信息的索引和结果的搜索业务的产生。另一 种可选方法是让对象管理器43使用高速缓存器或临时存储器47,并且 连续地或周期地索引临时存储器47中的内容。
图5显示了搜索高速缓存器的内容如何转变为搜索索引。最简单的 方法51是周期地处理54搜索高速缓存器的全部内容,以构造更新过的 搜索索引。作为选择,完整的搜索高速缓存器能够被索引一次,然后递 增的索引58被连续地或周期地55构造,以用于搜索高速缓存器52中的 更新57。递增的索引必须与全部索引直接结合,或者必须周期地合并。 通过简单地重新索引完整的搜索高速缓存器,也能实现该合并。然而另 一种可选方法是让搜索高速缓存器按照上次记录的文档更新53把数据 划分为组。例如,这些组可以是“前一小时”59c、“前一天”59b和“上 一周”59a。因而,在搜索索引59d、59e、59f中反映了同样的组。这样 的组可以减少该索引所需要的索引需求和合并操作。
索引操作计算的文档级别能够利用对象管理器中的级别计算48建 议的级别值,或者它能把该值与其它信息源结合在一起,比如链接拓扑
按照本发明,业务量高速缓存器能够被很好地使用在搜索业务中。
图6显示了利用搜索高速缓存器索引的搜索业务的配置。从该搜索 高速缓存器中生成的搜索索引是能以传统方式利用来构建搜索引擎业务 的索引。用户发送查询61给产生返回给该用户的结果63的搜索高速缓 存器索引62。该搜索引擎能够影响已经在本发明中描述过的业务量爬行 器提供的好处。
另一种可选方法是把从搜索高速缓存器中生成的搜索索引与外部搜 索索引结合在一起,外部索引例如是像 www.alltheweb.com的大型普通互 联网搜索业务。在这种情况下,用户搜索查询64被发送给查询分派模块 65,并且在业务量高速缓存器索引66和合作的搜索索引67中都将实施 同样的搜索。两次搜索生成的结果列表在考虑文档级别评定值的合并模 块68中合并。最后构造一个统一的结果并将其作为对初始查询69的响 应返回给用户。合并操作因而可以选择各种算法,用于对照从合作搜索 引擎(它可能含有全局地评定级别的内容)返回的内容,而对从业务量 高速缓存器索引返回的本地内容评定级别。
含有两种合作搜索引擎的概念可以被容易地扩展,以处理多个含有 可能超过一个业务量高速缓存器的搜索引擎。在这种情况下,分派模块 65)和合并模块68必须被修改,以便与所选的搜索业务集通信。与互联 网的多个现有技术搜索引擎中的并行搜索进行的类似结合存在于现有技 术中,并且通常被称为元搜索引擎(meta-search engine)。
本发明的方法将使得能够方便地使用区域性的或团体的特殊级别评 定。
互联网和许多内部网的文档数据库都几乎按指数规律增长。但是查 询的复杂性几乎没有改变。特定问题的匹配文档数因而也几乎按指数规 律增长。因此,搜索引擎的关联性问题正变得越来越重要。位置信息在 实施必要的关联性性改进中起着关键作用。
通过研究特定文档的内容和属性能够获得位置编码。像地址或电话 号码的信息能被用来把文档分配给一个特殊的地理位置。作为选择,一 个人能够研究从不同地区对特定文档的访问模式,并且按从特定区域来 的访问来识别出哪些是统计上表示太多的文档。搜索引擎能利用该信息 来创建区域特定的级别评定公式。例如,搜索业务的西班牙用户能利用 有关哪些站点在西班牙用户中间受欢迎的信息来进行级别评定。区域访 问模式也能被用来创建与任一特殊区域相关联的受欢迎文档的自动列表 。这些列表能被进一步划分为类别,并因此被用来创建自动区域户 (portal)业务。
业务量爬行器提供的空间信息必须被保持为一个足够低的级别,以 保证不能基于输入搜索高速缓存器的数据来识别出个别用户。典型地, 所有被注解的区域应该具有预先定义的最少数量的用户。在个别用户建 立帐户时,位置信息能够基于ISP记录的辅助数据来生成。无线应用程 序能够从无线设备提供的GPS数据中获得定位信息,或者通过例如基于 基站ID和延迟时间的电话定位来获得。
按照本发明的方法将能方便地提供信息,它允许基于业务量爬行器 提供的统计数据来计算文档相似性。
用于爬行的现有技术考虑到文档之间的链接拓扑的分析和用来基于 被提议的这种拓扑而分配文档优先级的各种技术。另一方面,对于像动 态对象、新文档、二进制文件以及像以无线标示语言(WML)写的页面的 无线页面这样的重要文档类别的关联性,链接拓扑不是一种足够的资源 。所有这些实例都不含有或很少含有链接可用于链接拓扑分析。业务量 爬行器传送的请求统计中的时间邻近能够提供用于定义在这些情况下文 档之间的相似性测量的有用资源。在更丰富的链接拓扑能够用于相似性 测量的地方,请求统计也能加到相似性测量上。
图7说明了用于定义文档相似性的时间邻近原理。ISP 71把很多用 户(A、B、C...)连接72到由服务器74和个别文档a、b、c、d...组成 的万维网资源73上。业务量爬行器记录的访问日志能够对于各种用户而 进行分割,以便能识别出74从同一用户来的后续请求。也能通过加密用 户ID信息来维持用户的隐私。对于下列分析,访问日志以会话ID注解, 而不是以用户ID注解便足够了。以会话ID或者加密的会话ID注解将进 一步保护用户的隐私。
相似性定义依赖于一个人在短时间窗口中或者在后续请求的短间隔 中将主要获取有关信息的假设。对于该假设显然有一些例外的情形,然 而由用户的焦点转换而引起的随机改变也能被预期有更具统计性的随机 性。
图8显示了定义时间邻近性的加权函数的一个可能定义。说明了一 个实例,其中用户“C”在时间t0对文档“a”进行请求。在时间t1,同 一用户或会话又对文档“b”进行第二请求。也假设在对文档“a”进行 请求和对文档“b”进行请求之间,同一用户又对k个其它文档进行请求 。在这种情况下,邻近加权函数可被定义为函数w(k,t1-t0),其中w是 随k和|t1-t0|单调减少的函数。在简化模型中,w可被选择作为例如所 给的相对于t0(tMIN-tMAX)的时间间隔或者t0前所给的访问数k1和t0后所给 的访问数k2的签名函数。类似的加权函数模型被使用在其它应用程序中, 比如用于管理虚拟内存中的页面的算法。
现在特定文档“a”的级别评定的相似性列表能够通过测量在对“a ”文档的请求邻近中其它文档的统计上太多的表示来建立。能对文档等 级或站点等级进行分析,其中所有驻留于特定站点中的文档都被简单地 作为对顶级站点的请求对待。级别评定值可以多种技术为基础,并且对 于本领域中的技术人员,可应用本发明中教导的实施方案的多小的修改 是显而易见的。相似性级别是基于例如这些测量之一:
-在对“a”文档的请求的预先定义时间邻近窗口内的总访问数。
-在对“a”文档的请求的预先定义的邻近窗口内所有访问的邻近 加权函数w的总和。
-在对“a”文档的请求的预先定义的邻近窗口内“b”请求的观 测数量的统计重要性。统计测试可基于假设对“a”文档和“b”文档的 请求实际上无关的虚假设。此外,在统计测试中可考虑对“a”文档和“b ”文档的一般访问频率。通过利用邻近加权函数w的总和而不是请求数 作为观测变量,能够设计类似的统计测试。
因而,通过按照建议的相似性级别评定函数之一来存储对“a”文档 的请求的预先定义的邻近窗口内请求的文档,能够计算任一文档“a”的 文档相似性列表。通过删除不重要的相似性来改进这样的相似性列表的 质量,这些不重要的相似性比如有同一站点上的文档或在“a”文档中以 超链接直接引用的文档。
也能计算文档组而不是单个文档的相似性列表。通过把对文档组中 的文档的任何请求作为前面描述中对“a”文档的参考来对待,这便能够 轻易实现。作为选择,能通过由用户以相似性因子加权该请求来改进该 亲和性,该相似性因子例如能够计数该文档组之间的公用文档数和个别 会话的每个访问日志。
通过例如基于一组用户选择的文档来计算文档相似性列表,能够获 得如此个人化的级别评定和文档选择。用户能够明确选择这些文档,或 者能基于浏览器中喜欢的选择或由客户浏览器本地或在接入网关上记录 的接入历史来进行自动选择。
搜索业务和提醒业务能利用该信息来允许用户创建个人化级别评定 公式。个人化级别评定可有利于结果列表中的下列文档:
-用户实际提供的文档。
-涉及用户提供的文档的新动态页面,像报纸站点上的新闻文章 。
-含有如上面描述的与用户提供的文档集有高相似性系数的文档 。
本发明也能用来在文档相似性拓扑的基础上建立关联性算法。
修改用于相似性级别评定的预定义邻近窗口的定义能得出有关该文 档的令人感兴趣的属性。例如,用两个邻近窗口比较两个文档“a”和“b ”之间的级别值是有可能的,这两个邻近窗口是:“a”请求后的10分 钟以及“a”请求前的10分钟。这两个值的差额都将给出有关“a”和“b ”之间的关系的信息,同时也给出了“a”中内容的性质。实际上,这些 值将基于实际使用定义文档之间真正有效的链接拓扑。这些值可以与超 链接拓扑相比较,或者取代该超链接拓扑作为文档关联性计算的基础。 对于本领域中的技术人员而言,如何把基于链接拓扑的用于关联性的现 有技术扩展到本发明中教导的业务量导出的使用拓扑是显而易见的。两 种这样的可选方法是:
-首先,给每个文档都分配初始文档级别。可以给所有文档都分 配同样的值,或者为了区分文档而考虑其它信息源。其次,通过以链接 强度来加权初始文档级别,可以通过所描述的使用拓扑来传播文档级别 。
-现有技术中发现的诸如页面级别或HITS算法的算法能被用作 通过所描述的使用拓扑来传播页面级别的迭代模型。
在当前发明的大多数万维网和无线应用程序中,极为重要的是用户 隐私被维护。数据网中接入点上业务量内容的索引有可能使得私人信息 对大量观众是可搜索的。因此按照本发明的方法将能确保用户隐私。
已经设计出单独的协议(比如HTTPS协议),它们能安全和保密地 传送万维网对象。如果宿有私人内容对象的万维网服务器希望保证对用 户的判断,那么它们应该使用这样的协议。不幸的是,一般惯例却是相 反的。各种不同的方式被用来在万维网服务器上隐藏私人内容,然而实 际内容仍然被作为明文来传送。很多私人内容被作为动态对象来对待, 并且因此通常不能在现有技术搜索业务中获得。当前发明教导了动态对 象是如何也被有效索引并变成可搜索的。
下列原理可被用来避免对私人或敏感信息的索引:
-诸如HTTPS协议的安全协议显然不能被索引。
-索引受限于HTTP GET请求。例如,通过在服务器上使用HTTP POST操作来获取一些个人对象。这些操作的结果不能被存储。
-有时动态内容和个人内容通过某种版本的HTTP认证机制来保 护。这通过在HTTP请求报头中设置特殊字段来进行。这种类型的认证能 被自动检测,以排除从索引来的结果信息。
-索引可受限于已经被预先定义的最少数量的用户查看的文档。 能够以这种方法来避免索引仅有单个用户在查看的信息。
-索引受限于不包含cookies(小甜饼)的请求,以保证cookie 不传送对于获取文档是必需的个人信息。
-索引可受限于预先定义的站点集和主机集。
-索引能排除预先定义的不应该被索引的站点和主机。
-检测出的文档参考最后被重新爬行,以检查任何人通常能确实 获得该信息。
尽管已经针对优选实施方案具体描述了本发明,但本领域中的技术 人员应当理解可以在不违背本发明的精神和范围的情况下,对其中的格 式和细节进行各种改变。特殊协议和格式的使用不是本发明的必要特征 。例如,其它无线协议能够代替WAP/WML而不会影响本发明教导的原理 。因此,预期可以在不违背如附加的权利要求中定义的本发明的精神和 范围的情况下进行这样的修改。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈