首页 / 专利库 / 人工智能 / 关联性分析 / 用于在数据网络中搜索和分析信息的方法

用于在数据网络中搜索和分析信息的方法

阅读:929发布:2021-10-23

专利汇可以提供用于在数据网络中搜索和分析信息的方法专利检索,专利查询,专利分析的服务。并且用于在数据网的接入点上业务量内容中提供搜索和提醒能 力 的方法被公开。互联网、内部网和无线业务量的典型接入点被描述。通过互联网业务提供者的业务流被用作一种优选实施方案,以举例说明本 发明 中用作输入源的数据流。本发明教导了可如何把适当的保密和内容 过滤器 应用于业务源中。从业务流来的被过滤的数据流能被用来改进现有的搜索和提醒业务的 质量 。本发明也教导了如何开发高速缓存器以最佳地保持在业务流中捕捉到的新鲜的可搜索信息。另外还公开了上述高速缓存器可如何被转变为可搜索的索引,以及它是与如何与外部搜索索引分开或合作地被用作改进搜索业务的 基础 。本发明还公开了如何分析业务流以导出附加信息,该附加信息用来测量文档关联性、文档之间的 访问 相似性、搜索结果的个人化级别评定以及文档访问中的地区差别。,下面是用于在数据网络中搜索和分析信息的方法专利的具体信息内容。

1、一种用于搜索和分析数据网中接入点上业务量内容的方法,其 中该数据网是共享的网络资源,特别是整个互联网或内部网,其中上述 接入点具体为用于由互联网业务提供者服务的用户的互联网接入点,或 者以应用的形式分布到多个用户,或者是用于无线用户的连接点,上述 连接点可以是本地连接点,也可以是用于多个连接点的互联网网关,并 且其中该方法的特征为包括步骤:收集形式为从上述数据网中接入点处 的信息流提取的数据的信息,以预先定义的最大时间延迟索引上述收集 的信息,以及从上述索引的信息中搜索和检索信息,以及其特征还在于 基于接入点上业务量内容的分析的另外的可选步骤,用来对以文档形式 的收集的信息进行位置编码,测量文档的相似性,以及就新信息和更新 的信息而提醒用户。
2、按照权利要求1的方法,其特征在于通过在一个或多个接入点 处提供的一个或多个高速缓存装置中进行高速缓存来存储收集的信 息。
3、按照权利要求2的方法,其特征在于把一组渐增的时间间隔中 收集的信息高速缓存入两个或多个高速缓存装置中,在每个上述高速缓 存装置中重复索引该高速缓存的信息以生成对于一组渐增的时间间隔 的相关搜索索引,以及组合从生成的搜索索引来的搜索结果。
4、按照权利要求2的方法,其特征在于在高速缓存装置中保留高 速缓存的信息,直到其内容已经被索引。
5、按照权利要求4的方法,其特征在于在自上次更新特定业务量 内容单元以来经过的时间的基础上计算该高速缓存的信息的新鲜度。
6、按照权利要求2的方法,其特征在于用于收集信息的步骤包括 用于分别高速缓存业务量内容以使得外部带宽需求最小以及保持用于 索引的新鲜和相关信息的子步骤。
7、按照权利要求6的方法,其特征在于在两个方面中都把业务量 内容分别高速缓存入两个专用的高速缓存器中。
8、按照权利要求2的方法,其特征在于以预先定义的最大时间延 迟来重复处理该高速缓存的信息,以索引该收集的信息并生成其索引。
9、按照权利要求8的方法,其特征在于通过检测出先前在接入点 上没有观察到的新信息或被更新的信息,并把上述新信息或被更新的信 息增加到上述搜索索引中来逐步更新索引。
10、按照权利要求8的方法,其特征在于使用在对该高速缓存信息 的两次索引操作之间观察到的业务量内容,生成对自上次对上述高速缓 存信息执行索引操作以来的新鲜业务量内容的一个时间搜索索引,并且 通过组合上述时间搜索索引和通过索引上述高速缓存信息而生成的最 近搜索索引中的搜索来执行搜索。
11、按照权利要求1的方法,其特征在于把所收集信息的索引限制 为敏感性过滤尚未丢弃的业务量内容的子集,上述敏感性过滤能被用来 检测出下列中的一个或多个,即色情资料、私人资料、特别是只被预先 定义的少量用户访问的私人资料以及从HTTP POST操作来的资料。
12、按照权利要求1的方法,其特征在于搜索步骤包括用于依据业 务量内容单元的记录的时间属性来进行关联性级别评定或数据过滤的 子步骤,上述记录的时间属性是下列中的一个或多个,即业务量内容单 元的创建时间、修改业务量内容单元的最后时间、在接入点处第一次观 察到所给业务量内容单元的时间以及在上述接入点上最后一次观察到 所给业务量内容单元的时间。
13、按照权利要求1的方法,其特征在于搜索步骤包括用于依据经 过接入点的个别业务量内容单元的访问计数来进行关联性级别评定的 子步骤。
14、按照权利要求1的方法,其中搜索步骤可以由至少一个合作搜 索引擎来实现,其特征在于搜索步骤包括用于分派搜索请求给上述的至 少一个合作搜索引擎、从本地业务量索引中收集搜索结果、从上述的至 少一个合作搜索引擎中收集搜索结果并组合上述收集的搜索结果以把 一个统一结果提供给初始搜索请求的子步骤。
15、按照权利要求14的方法,其中上述的合作搜索引擎是互联网 搜索引擎,其特征在于对用上述搜索引擎从互联网中爬行到的信息进行 索引。
16、按照权利要求14的方法,其中搜索步骤通过多于一个的合作 搜索引擎来实现,其特征在于分别在数据网中至少一个接入点上提供搜 索引擎。
17、按照权利要求1的方法,其特征在于用于收集信息的步骤包括 用于检测出不可访问的已请求信息,以及使用有关上述不可访问信息的 信息来删除或减少搜索索引,特别是合作搜索索引中有关入口的级别评 定的子步骤。
18、按照权利要求1的方法,其中搜索步骤通过至少一个合作搜索 引擎来实现,其特征在于用于收集信息的步骤包括用于检测出先前在接 入点上没有观察到的新信息或被更新的信息,以及使用有关新信息或被 更新信息的信息来扩大上述至少一个合作搜索引擎的搜索索引的子步 骤。
19、按照权利要求1的方法,其特征在于用于位置编码的可选步骤 包括以下子步骤:收集所请求文档的文档标识符、以有关用户提交该请 求的空间信息来注解上述文档标识符,计算至少一个文档的、至少包括 从空间区域来的文档请求数和从上述空间区域来的请求总数的访问统 计,以及通过把一个特定空间区域的访问统计与至少另一空间区域的相 应访问统计相比较来确定哪些文档对于上述特定空间区域是最特殊 的。
20、按照权利要求19的方法,其特征在于从互联网业务提供者记 录的用户数据中导出上述空间信息。
21、按照权利要求19的方法,其特征在于从请求文档的移动设备 的位置中导出上述空间信息。
22、按照权利要求19的方法,其特征在于选择空间粒度,以便在 每个空间区域中获得足够数量的用户以确保不能从访问统计中识别出 个别用户。
23、按照权利要求19的方法,其特征在于通过计算至少两个空间 区域的上述访问统计属于同一统计分布的可能性而确定文档的独特 性。
24、按照权利要求19的方法,其特征在于通过使用大空间区域作 为虚假设的统计并计算对特定空间区域的上述访问统计进行的不同测 试的统计重要性,来确定文档的独特性。
25、按照权利要求23的方法,其特征在于使用特定区域计分以提 供搜索结果的位置敏感级别评定。
26、按照权利要求24的方法,其特征在于使用特定区域计分以提 供受欢迎的特定区域文档的业务量相关列表。
27、按照权利要求26的方法,其特征在于通过对文档内容进行自 动类别分析而把上述文档列表划分为类别子列表。
28、按照权利要求1的方法,其特征在于用于测量文档相似性的可 选步骤包括以下子步骤:收集所请求文档的文档标识符,注解文档请求 以便识别出从同一用户来的连续请求,以及通过把“a”请求附近的“b” 请求数与“b”请求的平均频率相比较来计算文档“b”和参考文档“a” 之间的文档相似性。
29、按照权利要求28的方法,其特征在于基于任何的给定文档输 入而使用相似性测量来提供类似文档的级别评定列表。
30、按照权利要求29的方法,其特征在于通过省略从与输入文档 同样的站点来的文档来计算上述级别评定列表。
31、按照权利要求28的方法,其特征在于把相似性测量与基于文 档内容的相似性测量组合,或与基于计数协同引证数的相似性测量组 合。
32、按照权利要求28的方法,其特征在于通过把对文档组中文档 之一的所有请求当作对上述“a”文档的请求来计算该组文档标识符的 相似性测量。
33、按照权利要求32的方法,其特征在于把用户万维网日志的子 集用作上述文档组标识符。
34、按照权利要求33的方法,其特征在于让上述文档组反映用户 偏好,并且基于上述相似性测量来创建搜索结果的个人化级别评定。
35、按照权利要求33的方法,其特征在于在链接拓扑分析的基础 上计算文档级别评定,上述相似性测量被用来定义链接拓扑和相关的加 权。
36、按照权利要求1的方法,其特征在于用于提醒的可选步骤包括 以下子步骤:实时收集从数据网中接入点上的数据流中提取的信息,检 测先前在接入点上没有观察到的新信息和/或被更新的信息,把上述新 信息和/或被更新的信息与一组用户简档相比较,以及发送由上述新信 息和/或被更新的信息触发的提醒消息给用户简档相关联的用户。

说明书全文

发明涉及用于在数据网络的接入点上搜索和分析业务量内容的 方法,其中数据网络是共享的网络资源,特别是整个互联网或内部网, 其中所述的接入点特别地是指用于互联网业务提供者所服务的用户的 互联网接入点,或以应用的形式分布到多个用户,或是用于无线用户的 连接点,所述的连接点可以是本地连接点,也可以是用于多个连接点的 互联网网关。

本发明涉及改进信息检索的方法和系统。特别的是,本发明涉及通 过有线接口或无线接口访问互联网或内部网上信息的信息检索方法和 系统。更特别的是,本发明涉及基于内部网和互联网的搜索引擎和提醒 业务。

在互联网和封闭的内部网上,电子信息资源都在迅速增长。这种类 型的电子信息正在日益取代更常规的信息资源,像报纸、杂志、甚至电 视。这些信息数据库的大小目前正在几乎按指数规律增长。

有关的一般背景技术可以在下列出版物中发现:

S.Brin.和L.Page.,The ahatomy of a large-scale hypertextual web search engine(大规模超文本网络搜索引擎的剖析),《Proceedings of the 7th International World Wide web conference(第七届国 际万维网会议论文集)》,第107-117页,Brisbane,澳大利亚,1998 年4月(Elsevier Science(Elsevier科学));J.M.Kleinberg, Authoritative sources in a hyperlinked environment(超链接环 境中的权威资源),《Proceedings of ACM-SLAM Symposium on Discrete Algorithms(关于离散算法的ACM-SIAM讨论会论文集)》,第668-677 页,1998年1月;以及D.Gibson、J.M.Kleinberg和P.Raghavan, Inferring Web communities from link topology,Hypertext(从链 接拓扑结构中推断出网络共同体,超文本),第225-234页, Pittsburgh,PA,1998年6月。

像超文本传送协议(HTTP)、文件传送协议(FTP)或无线应用协 议(WAP)这样的协议经常被用来在内容提供者和客户之间传送内容。 搜索引擎技术已经被开发出来用于互联网和内部网应用。目前,这些搜 索引擎都基于对来自可接入服务器的页面和附加在线内容的自动爬行 (crawling)。典型地,一组种子页面(seed page)被用来启动该爬 行。在第二阶段,该爬行器(crawler)也取出最初种子页面之一中涉 及的文档。只要爬行器在取出的文档之一中已经检测出新的没有访问过 的文档指引,该过程就继续。万维网文档经常采用超文本标示语言 (HTML)的格式。在这种情况下,文档指引通常是至另一个网页的HTML 超链接。该网页自身通常由像通用资源定位器(URL)的地址来规定。

当前,搜索引擎的工作通常分为两个阶段。首先,爬行器被用来收 集文档数据库。一旦文档已经被收集,它们就被预处理并被索引,以便 可用于搜索。爬行器的文档收集原理要经受下列影响后续搜索质量的限 制或缺点:

爬行器将只能基于文档指引来访问所选种子页面的传递闭包中的 文档。例如,爬行器将决不访问没有任何参考文档的文档。根据链接拓 扑以及所选的种子页面,可留下确实含有参考文档的文档不被爬行器访 问。

爬行器受限于相当少地访问任何特定服务器。典型地,在两次访问 同样的服务器之间,爬行器必须等待30秒或更长时间。该限制是由于 机器人规则,该规则被制定来保护服务器,以免由于自动请求而引起超 负荷。因此,连续爬行特定站点将被限制在每天大约3千个文档。存在 若干个含有如此多的文档的大站点,以致于实际上不能以现有技术中的 爬行原理来下载和索引全部内容。根据现有技术爬行原理,在新鲜度方 面,甚至中等大小的站点也出现了大问题。例如,含有9万文档的站点 将需要一个月的爬行来进行一次完全的更新。

爬行的现有技术原理不能很好地适合于保证所收集文档的新鲜 度。该爬行限制使得在一个搜索引擎中对于一些站点不能进行完全的站 点更新,而对于其它站点将出现花费几周或几个月的时间来进行完全的 站点更新的问题。只有那些含低于大约3千文档的站点能够每天进行一 次完全更新。新鲜度的不足使得搜索引擎的潜受到严重限制。每天的 报纸是一个巨大的市场,但是阅读或甚至搜索1日报纸的市场实际上不存 在。类似地,可以预期人们感兴趣的是通过搜索和提醒服务来访问最近 已经被更新过的网络内容。

爬行的现有技术原理不能够检索动态对象。动态对象是典型地需要 连同HTTP请求一起传送的参数的对象。例如用户可以在对话框、检查 框等中进行一些选择,并下载不是作为HTML文件永久存储、而是基于 用户选择自动生成的页面。对于爬行器,推测所有可能的参数设置实际 上是不可能的,并且因此目前不能通过互联网搜索引擎来访问动态对 象。另一方面,在页面的数量以及信息或服务的价值方面,万维网都越 来越被动态内容所主导。

互联网和许多内部网的文档数据库几乎都正在按指数规律增长。但 是查询复杂性几乎没有改变。特定问题的匹配文档的数量也因此几乎按 指数规律增长。所以,搜索引擎的关联性问题正在变得越来越重要。爬 行的现有技术考虑到文档之间的链接拓扑的分析和各种用来基于被提 议的这种结构而分配文档优先级的技术。另一方面,对于像动态对象、 新文档、二进制文件以及像以无线标示语言(WML)写的页面的无线页 面这样的重要文档类别的关联性,链接拓扑并不是一种足够的资源。所 有这些实例都没有或仅有相当少的链接能用于链接拓扑分析。

提醒业务在现有技术中被描述,并且在很多情况中以与搜索引擎一 样的方式工作。典型地,提醒业务将能够取一个搜索引擎查询并对照该 查询检查一个新信息流。例如,用户能在搜索引擎上搜索历史数据,并 使用该查询作为提醒业务中的触发,该提醒业务正把该查询应用于一个 新文档流。

由于现有技术中固有的以及上面所讨论的弱点和不利,存在一种在 搜索和提醒业务中改进文档收集过程的紧迫需要。

因此,本发明的主要目的是提供一种方法,该方法允许增加可收集 的文档总数,以及增加可从大站点收集的文档百分比,它也在上一次文 档更新或文档创建与其在搜索业务中可搜索的时间之间的延时方面改 进了该文档的新鲜度,另外该方法也允许检测出变为无效(“死”链接) 的文档以及收集动态对象。

本发明的另一个目的是通过检查新文档是否与提醒业务的用户定 义的触发器匹配,而影响最近被更新的文档的改进资源以创建提醒业 务。

本发明的另一个目的仍然是使得搜索引擎中的关联性或级别评定 准则以文档的寿命为基础。这一点特别重要,因为本发明描述了改进的 文档收集原理,例如,它允许用户在过去10分钟、过去一小时或过去 一天创建或更新的新万维网文档中搜索。

本发明的进一步目的是使用数据网络中接入点上的请求统计来在 搜索和提醒业务中建立改进的关联性。

本发明的进一步目的仍然是通过使用从空间相邻的用户来的请求 统计来创建位置特定的文档级别评定。

最后,使用请求统计中的时间邻近来定义文档之间相似性的程度也 是本发明的一个目的。

按照本发明的方法,可以实现上面的目的和其它特征以及优点,该 方法的特征为包括步骤:收集以从数据网中上述接入点上信息流中提取 的数据形式的信息,以预先定义的最大时间延迟来索引上述收集的信息 以及从上述索引的信息中搜索和检索信息,并且其特征还在于基于对接 入点上业务量内容的分析的进一步可选步骤,用于对以文档形式的所收 集信息进行位置编码,测量文档的相似性以及就新信息和被更新的信息 而提醒用户。

本发明的附加特征和优点通过附加的从属权利要求2~36来公开。

当与附加的附图一起阅读时,可以通过参考下列优选的和说明性的 实施方案的详细描述来更好地理解本发明自身以及优选实施方案,其中

图1显示了通过ISP到互联网的客户连接,

图2是ISP处的代理服务器,它正在高速缓存万维网内容,

图3是被修改用来与一个外部搜索高速缓存器通信的代理服务器

图3b是来自客户软件的分布式业务爬行,

图4是搜索高速缓存器的可能组织,

图5是搜索高速缓存器的内容可如何转变为搜索索引,

图6是利用搜索高速缓存器索引的搜索业务的配置,

图7是用于定义文档相似性的时间邻近原理,以及

图8是定义时间邻近的加权函数的可能的定义。

在给出优选实施方案的详细讨论之前,本发明的一般背景将被简单 讨论以便容易理解后面所讨论的内容。

互联网用户经常通过所谓的互联网业务提供者(ISP)来与网络相 连。图1说明了客户如何通过ISP来与各种万维网服务器相连。ISP(12) 从互联网骨干网提供者处租借带宽,并基于分时模式提供给终端用户 (11)以具有该带宽的“桩”(stake)(14)。这样通过ISP(12)就 能把从终端用户(11)来的访问路由到带有个别服务器(14)的该万维 网(13),该服务器宿有文档(15)和多媒体内容(16)。通过本地连 接点或通过用于多连接点的互联网网关,同样的模式也应用于无线用 户。现有技术中的搜索引擎是以从网络服务器(14)来的自动爬行和在 搜索索引(18)中构造该信息为基础的,该搜索索引可用于搜索。搜索 的结果提供了返回到万维网(15、16)上起始文档的参考。

计算机系统中的公用概念是高速缓存系统。ISP经常在它们的带宽 分配单元上使用万维网高速缓存器。该高速缓存器减少了骨干网上的带 宽使用,同时终端用户将体验更低的等待时间。经常通过代理服务器来 使用万维网高速缓存器。代理服务器可以是透明的,也可以是不透明 的。现有技术中存在几种高速缓存机制和代理服务器。一个实例是鱿鱼 (squid)(www.squid-cache.org),它是万维网代理的免费软件版本。 图2说明了代理服务器(21)如何可能进行文档或对象(22)的内部收 集。对这些对象的用户请求被本地提供服务(23),以减少从ISP(24) 来的外部带宽需要。当高速缓存的文档或对象被访问时,用户也将体验 减少了的等待时间。为个别对象定义期满规则,以确保高速缓存器中的 拷贝真实地反映原始对象。

现在将讨论所谓的业务量爬行的概念和属性。

通过ISP连接到互联网的用户全集将整个充当一个从万维网来的信 息的大爬行器。对于本发明的其它部分,对这种在ISP或者类似连接点 或网关上的整个信息收集的引用将被称为业务量爬行器。该“人”业务 量爬行器含有多种与自动化软件爬行器非常不同的属性:

-在用于得到对文档的访问的种子页面和链接拓扑方面,该业务 量爬行器将没有如软件爬行器同样的限制。

-该业务量爬行器将不会受限于软件爬行器遭受的到特定站点的 访问限制。因而潜在地,该业务量爬行器可潜在地更快和更完全地爬行 大站点。

-软件爬行器将花费它大量时间来简单地下载它以前已访问过的 文档以及检查自从上一次下载以来这些页面的内容是否被更新。而该业 务量爬行器能够检查用于用户请求的由ISP检索的内容以相对于相应文 档的先前拷贝进行重复测试。因而附加信息下载是不必要的。

-该业务量爬行器能够以两种方法来提高软件爬行器提供的新鲜 度:

-该业务量爬行器检测丢失的或暂时不能获得的文档。典型 地,可以通过记录到一个所给URL的HTTP请求何时导致了一个像错误 号404的错误消息来进行检测。在相关搜索业务中,能够利用这些失败 的请求来删除相关URL或分配一个更低级别值给该URL,以对搜索引擎 产生的结果列表中的文档排序。

-只要连接的ISP客户之一已经下载该文档,该业务量爬行器 就可能分析新文档或被更新的文档。这样,例如只要ISP客户之一已经 阅读过新的新闻稿,该文章就能够变成可搜索的。

-ISP用户将访问动态页面,并且因而这些页面的内容也能被变 成可搜索的。实际上可被用来生成动态页面的参数组合经常有无穷多 个。因而,请求中实际使用的参数组合是用于定义应被变成可搜索的动 态页面集合的一种非常合理的选择。这正好是业务量爬行器可能为后续 搜索而索引的动态页面集合。

-ISP用户的访问模式也能在相关搜索索引中加到改进的关联性 上。被频繁访问的站点的级别可以比那些很少被访问的站点的级别高。 通过在结果列表中重定向该用户选择,搜索引擎自身也有可能进行这样 的访问计数,但是更有价值的是使关联性计算基于整个访问模式,而不 仅仅是作为搜索结果而出现的访问模式。

现在将讨论业务量爬行的实现和设计,分别地基于集中式或分布式 爬行概念。

集中式业务量爬行

基于数据网络中接入点上的业务量,可以有几种方式来实施业务量 爬行器。本发明将教导一些可能的实施方案,并且对于本领域中的技术 人员,如何利用有些不同的设计选择来实现同样的好处是显而易见的。 本发明中教导的实例将把ISP上的业务量万维网文档的索引作为一种情 况,但是对于本领域中的技术人员,如何把同样的原理应用于类似情况 中,比如内部网业务量或无线连接点,是显而易见的。

可以以各种方式来通过ISP实际访问文档或对象。一种可选方法是 利用ISP使用的高速缓存机制。该高速缓存器的内容可以被周期地索引 以便搜索和提醒,或者在每次新文档或对象存储入网络高速缓存器中 时,逐渐地扩充该搜索索引。该方法的限制是当前万维网高速缓存器被 设计成减少从ISP来的外部带宽要求。在很大程度上,带宽目标规定在 万维网高速缓存器中保留的是哪种对象。典型地,万维网高速缓存器的 大部分将由经常被访问的多媒体对象组成。用于索引的许多最感兴趣的 文本页面也将有一个期满标签,该标签被定义来告诉万维网高速缓存器 把该文本页面从高速缓存器中去除。

因而,优化业务量爬行的质量将需要修改万维网高速缓存器策略, 或者必须与万维网高速缓存器并行地布置一个分开的高速缓存器。在这 种情况下,该网络高速缓存器将基于带宽最优化准则来选择对象,并且 在搜索和提醒业务方面,该搜索高速缓存器将基于文档质量来选择对 象。

图3说明了可如何修改代理服务器以与合作的搜索高速缓存器通 信。该搜索高速缓存器可以驻留于与代理服务器相同的计算机中,或者 它可以驻留于不同的计算机中,并通过数据网络来通信。该代理服务器 包含被用来减少外部带宽需要的内部万维网高速缓存器(31)。该内部 万维网高速缓存器不必实施业务量爬行。该代理服务器中包括通信模 (32)。该通信模块记录经过这个代理服务器(34)的万维网请求(35), 并且任选地记录并缓冲用于该请求的结果消息以及实际内容,后者作为 这个请求的结果被传送给用户。该通信模块传送(36)这个信息的一部 分给搜索高速缓存器(33)。被传送的信息可以被设置以包括:

-仅请求:这可以通过把代理服务器的访问日志中的更新从通信模 块(32)周期地传送给搜索高速缓存器(33)来实施。每个访问记录能 任选地用某些信息来标记,比如:

-诸如IP地址的用户信息。

-加密的用户信息。由于万维网应用中的保密问题,保持个别用 户的匿名通常是重要的。因此,代理服务器中的通信模块能够被设置以 致于所有的个人信息都不被排除或者被编码,以致于可以基于输入该搜 索高速缓存器中的数据来分开而非识别个别用户。一个实例可以是用一 个基于该用户会话ID的加密号码来标记该请求。该方法也使得这个保 密策略可以被ISP控制并处于ISP代理软件的内部。

-诸如国家和城市的相关用户信息。该信息可以保持在一种足够 低的级别,以保证不能基于输入该搜索高速缓存器中的数据来识别出个 别用户。在个别用户建立帐户时,能够基于ISP记录的辅助数据来生成 位置信息。无线应用能够例如从无线设备提供的GPS数据中获得定位信 息,或者基于像基站ID和延迟时间通过电话定位来获得。

-万维网请求的结果编码。例如,搜索高速缓存器能够使用该信 息来删除死链接或者降低经常暂时不能获得的链接的级别。

-文档内容的散列值。通信模块(32)能够计算一个或多个散列 值,它反映作为该请求的结果而返回给该用户的内容。这样的内容密钥 可以以最小的CPU开销来计算,并表示一种十分紧凑的方式来把信息传 送给可能的远程搜索高速缓存器。例如,远程搜索高速缓存器能够使用 该信息来与同一文档的历史散列值相比较。散列值的改变指示了该文档 已经被更新,并且它应该被重新爬行以更新该搜索索引。

-带内容的请求:除了上面讨论的用于请求本身的信息外,通信模 块(32)也能发送实际的文档内容。如果在通信模块(32)和搜索高速 缓存器(33)之间可以获得大容量数据信道,那么该选项就典型地被选 择。该文档已经由ISP检索,并且因此能以这种方式而变为可用于索引 和提醒,而不需要任何的到起始万维网服务器的附加请求。在这种情况 下,必须分割数据流,以便从通信模块(32)传送该返回给用户的信息 的拷贝给搜索高速缓存器(33)。在通信模块(32)中执行一些过滤以 减少到搜索高速缓存器(33)的通信是有好处的。典型地,仅传送索引 有兴趣的请求。这样的过滤规则的实例包括:

-仅传送HTTP GET请求

-仅传送MIME类型文本/*的请求

-仅传送含有指示成功传送的结果编码的请求的内容

-仅传送用于肯定地识别出的主机或不在应该被排除的识别出的 主机数据库中的主机的请求。

搜索高速缓存器(33)接收从代理服务器中的通信模块(32)来的 信息流,并利用该信息来建立搜索索引或提醒业务。图4显示了搜索高 速缓存器的可能组织。搜索高速缓存器(33)包括通信模块(41),用 于处理与代理服务器中的通信模块(32)的数据传送。例如,实际传送 逻辑可以以套接字来实现。由该通信模块(41)接收的数据被发送用于 进一步的处理。第一处理步骤是任选的拒绝逻辑过滤(42),它能够扩 展并增加到所描述的用于代理服务器中的通信模块的过滤机制中。在代 理服务器中进行拒绝过滤的好处是代理服务器与搜索高速缓存器之间 的数据带宽减少了。另一方面,在搜索高速缓存器中进行一些拒绝过滤 也有其优点:

-运行代理服务器的CPU的负荷增加应该是最小的。因而,通信 模块(32)中的处理开销应该保持最小。

-典型地,搜索高速缓存器将能更快地访问对于设计好的拒绝过 滤来说是十分重要的文档信息。例如,这样的信息包括文档内容的历史 散列值、访问统计和含应该被拒绝的主机或站点的数据库。

应该注意在实际传送期间,拒绝逻辑(42)能够被实时执行。只要 该流已经作为应该被搜索高速缓存器拒绝的对象而被识别出,就会因此 停止该传送。

分布式业务量爬行

图3b显示了来自客户软件的分布式业务量爬行。一组用户(3b1、 3b2、3b3)从像互联网、移动互联网或内部网的共享网络资源中检索文 档。该文档在客户软件(31b4、3b6、3b8)中被检索并显示。典型地, 客户软件可以是浏览器应用程序。通信模块(3b5、3b7、3b8)能够作 为插件程序而处于客户软件的内部,或者作为合作模块而处于客户软件 的内部。当被激活时,通信模块能够记录文档ID,比如由客户软件检索 的文档的URL。此外,通信模块发送与先前对于集中式业务量爬行而描 述的同样类型的信息。从客户软件中分布的通信模块集来的消息由服务 器应用程序(3b10)聚集。以与集中式业务量爬行(32)中的通信模块 发送信息给搜索高速缓存器(33)完全相同的方式,服务器应用程序 (3b10)把已获得的信息传送给搜索高速缓存器(3b11)。

分布式业务量爬行使得不必把系统与ISP或类似服务相集成就获得 与集中式业务量爬行同样的好处成为可能。分布式接入点被改为通过客 户软件使用,并且通过在网络上与集中式服务器应用软件通信来聚集分 布式访问信息。

在分布式业务量爬行中,对私人信息的处理能够被轻松进行,因为 用户能够通过客户软件明确地激活和停用该通信模块。

现在将讨论业务量内容的高速缓存。

没有被拒绝逻辑过滤(42)拒绝的文档被传送给对象管理器(43), 它实际高速缓存与各种文档相关联的信息。该对象管理器包括检查临时 存储器(47)中文档的保密过滤器(44),以便私人信息不能从对象管 理器(43)的输出中排除。在本发明中,保密过滤器(44)将被单独描 述。与文档参考一起存储在对象管理器(43)中的信息可以包括:

-被代理服务器中的通信模块(32)加在文档上的信息,就像先 前描述的一样。

-类似上次修改过的属性的文档统计。

-访问统计,像第一次看的时间、最后一次看的时间、各种时间 间隔中访问的次数和已经访问过该文档的不同用户的数目。

-文档内容自身。

-文档的统计级别值。

对象管理器可以充当一种业务,该业务可以连续或周期输出含有关 新的、被更新的或被删除的文档的信息的数据流。该数据流可以仅包括 文档参考(45),也可以包括含实际文档内容(46)的文档参考。这些 数据资源对于建立用于万维网更新的提醒业务以及改进万维网上一般 搜索引擎和专用搜索引擎的大小、新鲜度和关联性是有价值的。文档参 考(45)可以被用作一个重新索引信号来指导传统搜索引擎的爬行器 (17),并且实际文档内容(46)也能够被用来在传统搜索引擎中替代 这些文档的爬行(17)。

通过增加临时存储器以及包括用于从高速缓存器中删除文档的驱 逐算法(eviction algorithm),对象管理器(43)也能充当高速缓存 器。可被分配给文档的用于指示万维网高速缓存的使用期限属性并不真 正与搜索高速缓存相关。结果的搜索业务中用户访问的实际文档将是起 始文档。因而,唯一的险是搜索引擎的传统问题,即与实际文档相比, 被索引的文本可能过时了。另一方面,通过在本发明教导的技术上建立 搜索业务,这种新鲜度问题的可能性被大大降低。如果文档级别值真正 反映文档的质量和/或受欢迎程度,那么高速缓存器驱逐策略就可与该 文档级别值紧紧绑在一起。新文档或者被更新的文档能够在高速缓存 器中被保留一段预先定义的最小时间,以便为最近的万维网更新而建立 搜索业务。动态对象可在搜索高速缓存器中具有降低的使用期限,以避 免经常被频繁更新的、过多的动态对象。

对象管理器(43)也能包括用于计算临时存储器(47)中文档的统 计级别值(48)的模块。在决定应该从临时存储器(47)中删除哪些文 档方面,该级别值能够被用作高速缓存策略,同时它也能用作结果的搜 索业务中对搜索结果评定级别的输入。典型地,评定级别的准则可以是 链接拓扑、文档内容和访问模式的组合。业务量爬行器的好处是有关访 问统计的评估质量将被改进超过现有技术。一个受限于访问统计的简单 评定级别的公式的实例是:r’=r+w·I·f(点击率)·g(访问文档的用 户数)+(I-A)。在这个方程中,r表示文档的先前级别,而r’表示文 档的更新过的级别。w是评定级别值的递归更新中的加权因子。I表示 目标平均级别值,并且也可用作新文档的初始值。A表示先前级别评定 中的平均级别,并被用来基于I而稳定随着时间过去的级别值。函数f 和g是增加经常且被许多不同用户访问的文档的权重的单调函数。

现在将简单说明业务量高速缓存器的索引。

对象管理器能够被简单地用来连续地或周期地输出含有关新的、被 更新的或被删除的文档(45和46)的信息的数据流。在这种情况下, 生成的数据流的接收者将处理该信息的索引和结果的搜索业务的产 生。另一种可选方法是让对象管理器(43)使用高速缓存器或临时存储 器(47),并且连续地或周期地索引临时存储器(47)中的内容。

图5显示了搜索高速缓存器的内容如何转变为搜索索引。最简单的 方法(51)是周期地处理(54)搜索高速缓存器的全部内容,以构造更 新过的搜索索引。作为选择,完整的搜索高速缓存器能够被索引一次, 然后递增的索引(58)被连续地或周期地(55)构造,以用于搜索高速 缓存器(52)中的更新(57)。递增的索引必须与全部索引直接结合, 或者必须周期地合并。通过简单地重新索引完整的搜索高速缓存器,也 能实现该合并。然而另一种可选方法是让搜索高速缓存器按照上次记录 的文档更新(53)把数据划分为组。例如,这些组可以是“前一小时” (59c)、“前一天”(59b)和“上一周”(59a)。因而,在搜索索 引(59d、59e、59f)中反映了同样的组。这样的组可以减少该索引所 需要的索引需求和合并操作。

索引操作计算的文档级别能够利用对象管理器中的级别计算(48) 建议的级别值,或者它能把该值与其它信息源结合在一起,比如链接拓 扑。

按照本发明,业务量高速缓存器能够被很好地使用在搜索业务中。

图6显示了利用搜索高速缓存器索引的搜索业务的配置。从该搜索 高速缓存器中生成的搜索索引是能以传统方式利用来构建搜索引擎业 务的索引。用户发送查询(61)给产生返回给该用户的结果(63)的搜 索高速缓存器索引(62)。该搜索引擎能够影响已经在本发明中描述过 的业务量爬行器提供的好处。

另一种可选方法是把从搜索高速缓存器中生成的搜索索引与外部 搜索索引结合在一起,外部索引例如是像 www.alltheweb.com的大型普 通互联网搜索业务。在这种情况下,用户搜索查询(64)被发送给查询 分派模块(65),并且在业务量高速缓存器索引(66)和合作的搜索索 引(67)中都将实施同样的搜索。两次搜索生成的结果列表在考虑文档 级别评定值的合并模块(68)中合并。最后构造一个统一的结果并将其 作为对初始查询(69)的响应返回给用户。合并操作因而可以选择各种 算法,用于对照从合作搜索引擎(它可能含有全局地评定级别的内容) 返回的内容,而对从业务量高速缓存器索引返回的本地内容评定级别。

含有两种合作搜索引擎的概念可以被容易地扩展,以处理多个含有 可能超过一个业务量高速缓存器的搜索引擎。在这种情况下,分派模块 (65)和合并模块(68)必须被修改,以便与所选的搜索业务集通信。 与互联网的多个现有技术搜索引擎中的并行搜索进行的类似结合存在 于现有技术中,并且通常被称为元搜索引擎(meta-search engine)。

本发明的方法将使得能够方便地使用区域性的或团体的特殊级别 评定。

互联网和许多内部网的文档数据库都几乎按指数规律增长。但是查 询的复杂性几乎没有改变。特定问题的匹配文档数因而也几乎按指数规 律增长。因此,搜索引擎的关联性问题正变得越来越重要。位置信息在 实施必要的关联性性改进中起着关键作用。

通过研究特定文档的内容和属性能够获得位置编码。像地址或电话 号码的信息能被用来把文档分配给一个特殊的地理位置。作为选择,一 个人能够研究从不同地区对特定文档的访问模式,并且按从特定区域来 的访问来识别出哪些是统计上表示太多的文档。搜索引擎能利用该信息 来创建区域特定的级别评定公式。例如,搜索业务的西班牙用户能利用 有关哪些站点在西班牙用户中间受欢迎的信息来进行级别评定。区域访 问模式也能被用来创建与任一特殊区域相关联的受欢迎文档的自动列 表。这些列表能被进一步划分为类别,并因此被用来创建自动区域户 (portal)业务。

业务量爬行器提供的空间信息必须被保持为一个足够低的级别,以 保证不能基于输入搜索高速缓存器的数据来识别出个别用户。典型地, 所有被注解的区域应该具有预先定义的最少数量的用户。在个别用户建 立帐户时,位置信息能够基于ISP记录的辅助数据来生成。无线应用程 序能够从无线设备提供的GPS数据中获得定位信息,或者通过例如基于 基站ID和延迟时间的电话定位来获得。

按照本发明的方法将能方便地提供信息,它允许基于业务量爬行器 提供的统计数据来计算文档相似性。

用于爬行的现有技术考虑到文档之间的链接拓扑的分析和用来基 于被提议的这种拓扑而分配文档优先级的各种技术。另一方面,对于像 动态对象、新文档、二进制文件以及像以无线标示语言(WML)写的页 面的无线页面这样的重要文档类别的关联性,链接拓扑不是一种足够的 资源。所有这些实例都不含有或很少含有链接可用于链接拓扑分析。业 务量爬行器传送的请求统计中的时间邻近能够提供用于定义在这些情 况下文档之间的相似性测量的有用资源。在更丰富的链接拓扑能够用于 相似性测量的地方,请求统计也能加到相似性测量上。

图7说明了用于定义文档相似性的时间邻近原理。ISP(71)把很 多用户(A、B、C...)连接(72)到由服务器(74)和个别文档(a、b、 c、d...)组成的万维网资源(73)上。业务量爬行器记录的访问日志能 够对于各种用户而进行分割,以便能识别出(74)从同一用户来的后续 请求。也能通过加密用户ID信息来维持用户的隐私。对于下列分析, 访问日志以会话ID注解,而不是以用户ID注解便足够了。以会话ID 或者加密的会话ID注解将进一步保护用户的隐私。

相似性定义依赖于一个人在短时间窗口中或者在后续请求的短间 隔中将主要检索有关信息的假设。对于该假设显然有一些例外的情形, 然而由用户的焦点转换而引起的随机改变也能被预期有更具统计性的 随机性。

图8显示了定义时间邻近性的加权函数的一个可能定义。说明了一 个实例,其中用户“C”在时间t0对文档“a”进行请求。在时间t1,同 一用户或会话又对文档“b”进行第二请求。也假设在对文档“a”进行 请求和对文档“b”进行请求之间,同一用户又对k个其它文档进行请 求。在这种情况下,邻近加权函数可被定义为函数w(k,t1-t0),其中w 是随k和|t1-t0|单调减少的函数。在简化模型中,w可被选择作为例如 所给的相对于t0(tMIN-tMAX)的时间间隔或者t0前所给的访问数k1和t0后 所给的访问数k2的签名函数。类似的加权函数模型被使用在其它应用程 序中,比如用于管理虚拟内存中的页面的算法。

现在特定文档“a”的级别评定的相似性列表能够通过测量在对“a” 文档的请求邻近中其它文档的统计上太多的表示来建立。能对文档等级 或站点等级进行分析,其中所有驻留于特定站点中的文档都被简单地作 为对顶级站点的请求对待。级别评定值可以多种技术为基础,并且对于 本领域中的技术人员,可应用本发明中教导的实施方案的多小的修改是 显而易见的。相似性级别是基于例如这些测量之一:

-在对“a”文档的请求的预先定义时间邻近窗口内的总访问数。

-在对“a”文档的请求的预先定义的邻近窗口内所有访问的邻近 加权函数w的总和。

-在对“a”文档的请求的预先定义的邻近窗口内“b”请求的观 测数量的统计重要性。统计测试可基于假设对“a”文档和“b”文档的 请求实际上无关的虚假设。此外,在统计测试中可考虑对“a”文档和 “b”文档的一般访问频率。通过利用邻近加权函数w的总和而不是请 求数作为观测变量,能够设计类似的统计测试。

因而,通过按照建议的相似性级别评定函数之一来存储对“a”文 档的请求的预先定义的邻近窗口内请求的文档,能够计算任一文档“a” 的文档相似性列表。通过删除不重要的相似性来改进这样的相似性列表 的质量,这些不重要的相似性比如有同一站点上的文档或在“a”文档 中以超链接直接引用的文档。

也能计算文档组而不是单个文档的相似性列表。通过把对文档组中 的文档的任何请求作为前面描述中对“a”文档的参考来对待,这便能 够轻易实现。作为选择,能通过由用户以相似性因子加权该请求来改进 该亲和性,该相似性因子例如能够计数该文档组之间的公用文档数和个 别会话的每个访问日志。

通过例如基于一组用户选择的文档来计算文档相似性列表,能够获 得如此个人化的级别评定和文档选择。用户能够明确选择这些文档,或 者能基于浏览器中喜欢的选择或由客户浏览器本地或在接入网关上记 录的接入历史来进行自动选择。

搜索业务和提醒业务能利用该信息来允许用户创建个人化级别评 定公式。个人化级别评定可有利于结果列表中的下列文档:

-用户实际提供的文档。

-涉及用户提供的文档的新动态页面,像报纸站点上的新闻文 章。

-含有如上面描述的与用户提供的文档集有高相似性系数的文 档。

本发明也能用来在文档相似性拓扑的基础上建立关联性算法。

修改用于相似性级别评定的预定义邻近窗口的定义能得出有关该 文档的令人感兴趣的属性。例如,用两个邻近窗口比较两个文档“a” 和“b”之间的级别值是有可能的,这两个邻近窗口是:“a”请求后的 10分钟以及“a”请求前的10分钟。这两个值的差额都将给出有关“a” 和“b”之间的关系的信息,同时也给出了“a”中内容的性质。实际上, 这些值将基于实际使用定义文档之间真正有效的链接拓扑。这些值可以 与超链接拓扑相比较,或者取代该超链接拓扑作为文档关联性计算的基 础。对于本领域中的技术人员而言,如何把基于链接拓扑的用于关联性 的现有技术扩展到本发明中教导的业务量导出的使用拓扑是显而易见 的。两种这样的可选方法是:

-首先,给每个文档都分配初始文档级别。可以给所有文档都分 配同样的值,或者为了区分文档而考虑其它信息源。其次,通过以链接 强度来加权初始文档级别,可以通过所描述的使用拓扑来传播文档级 别。

-现有技术中发现的诸如页面级别或HITS算法的算法能被用作 通过所描述的使用拓扑来传播页面级别的迭代模型。

在当前发明的大多数万维网和无线应用程序中,极为重要的是用户 隐私被维护。数据网中接入点上业务量内容的索引有可能使得私人信息 对大量观众是可搜索的。因此按照本发明的方法将能确保用户隐私。

已经设计出单独的协议(比如HTTPS协议),它们能安全和保密地 传送万维网对象。如果宿有私人内容对象的万维网服务器希望保证对用 户的判断,那么它们应该使用这样的协议。不幸的是,一般惯例却是相 反的。各种不同的方式被用来在万维网服务器上隐藏私人内容,然而实 际内容仍然被作为明文来传送。很多私人内容被作为动态对象来对待, 并且因此通常不能在现有技术搜索业务中获得。当前发明教导了动态对 象是如何也被有效索引并变成可搜索的。

下列原理可被用来避免对私人或敏感信息的索引:

-诸如HTTPS协议的安全协议显然不能被索引。

-索引受限于HTTP GET请求。例如,通过在服务器上使用HTTP POST操作来检索一些个人对象。这些操作的结果不能被存储。

-有时动态内容和个人内容通过某种版本的HTTP认证机制来保 护。这通过在HTTP请求报头中设置特殊字段来进行。这种类型的认证 能被自动检测,以排除从索引来的结果信息。

-索引可受限于已经被预先定义的最少数量的用户查看的文档。 能够以这种方法来避免索引仅有单个用户在查看的信息。

-索引受限于不包含cookies(小甜饼)的请求,以保证cookie 不传送对于检索文档是必需的个人信息。

-索引可受限于预先定义的站点集和主机集。

-索引能排除预先定义的不应该被索引的站点和主机。

-检测出的文档参考最后被重新爬行,以检查任何人通常能确实 获得该信息。

尽管已经针对优选实施方案具体描述了本发明,但本领域中的技术 人员应当理解可以在不违背本发明的精神和范围的情况下,对其中的格 式和细节进行各种改变。特殊协议和格式的使用不是本发明的必要特 征。例如,其它无线协议能够代替WAP/WML而不会影响本发明教导的原 理。因此,预期可以在不违背如附加的权利要求中定义的本发明的精神 和范围的情况下进行这样的修改。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈