用于在数据网络中搜索和分析信息的方法专利检索-关联性分析人工智能专利检索查询-专利查询网

用于在数据网络中搜索和分析信息的方法

阅读：614发布：2021-09-21

专利汇可以提供用于在数据网络中搜索和分析信息的方法专利检索，专利查询，专利分析的服务。并且用于在数据网的接入点上业务量内容中提供搜索和提醒能力的方法被公开。本发明教导了可如何把适当的保密和内容过滤器应用于业务源中。从业务流来的被过滤的数据流能被用来改进现有的搜索和提醒业务的质量。本发明也教导了如何开发高速缓存器以最佳地保持在业务流中捕捉到的新鲜的可搜索信息。另外还公开了上述高速缓存器可如何被转变为可搜索的索引，以及它是与如何与外部搜索索引分开或合作地被用作改进搜索业务的基础。本发明还公开了如何分析业务流以导出附加信息，该附加信息用来测量文档关联性、文档之间的访问相似性、搜索结果的个人化级别评定以及文档访问中的地区差别。，下面是用于在数据网络中搜索和分析信息的方法专利的具体信息内容。

权利要求

1.一种用于搜索和分析数据网中接入点上业务量内容的方法，其中该数据网是互联网上的共享的网络资源，其中上述接入点是用于由互联网业务提供者服务的用户的互联网接入点，或者以应用的形式分布到多个用户，或者是用于无线用户的连接点，上述连接点是本地连接点或互联网网关，并且其中该方法的特征为包括步骤：收集形式为从上述数据网中接入点处的信息流提取的数据的信息，索引上述收集的信息，搜索上述索引的信息，以及基于所述搜索获取所述信息，其特征还在于基于接入点上业务量内容的分析的另外的可选步骤，用来对以文档形式的收集的信息进行位置编码，测量文档的相似性，以及就新信息和更新的信息而提醒用户。
2.按照权利要求1的方法，其特征在于通过在一个或多个接入点处提供的一个或多个高速缓存装置中进行高速缓存来存储收集的信息。
3.按照权利要求2的方法，其特征在于把一组渐增的时间间隔中收集的信息高速缓存入两个或多个高速缓存装置中，在每个上述高速缓存装置中重复索引该高速缓存的信息以生成对于一组渐增的时间间隔的相关搜索索引，以及组合从生成的搜索索引来的搜索结果。
4.按照权利要求2的方法，其特征在于在高速缓存装置中保留高速缓存的信息，直到其内容已经被索引。
5.按照权利要求4的方法，其特征在于在自上次更新特定业务量内容单元以来经过的时间的基础上计算该高速缓存的信息的新鲜度。
6.按照权利要求2的方法，其特征在于用于收集信息的步骤包括用于分别高速缓存业务量内容以使得外部带宽需求最小以及保持用于索引的新鲜和相关信息的子步骤。
7.按照权利要求6的方法，其特征在于把业务量内容分别高速缓存入两个专用的高速缓存器中，以使得外部带宽需求最小以及保持用于索引的新鲜和相关信息。
8.按照权利要求2的方法，其特征在于重复处理该高速缓存的信息，并生成其索引。
9.按照权利要求8的方法，其特征在于通过检测出先前在接入点上没有观察到的新信息或被更新的信息，并把上述新信息或被更新的信息增加到上述搜索索引中来逐步更新索引。
10.按照权利要求8的方法，其特征在于使用在对该高速缓存信息的两次索引操作之间观察到的业务量内容，生成对自上次对上述高速缓存信息执行索引操作以来的新鲜业务量内容的一个时间搜索索引，并且通过组合上述时间搜索索引和通过索引上述高速缓存信息而生成的最近搜索索引中的搜索来执行搜索。
11.按照权利要求1的方法，其特征在于把所收集信息的索引限制为敏感性过滤尚未丢弃的业务量内容的子集，上述敏感性过滤能被用来检测出下列中的一个或多个，即色情资料、私人资料、以及从HTTP POST操作来的资料。
12.按照权利要求1的方法，其特征在于搜索步骤包括用于依据业务量内容单元的记录的时间属性来进行关联性级别评定或数据过滤的子步骤，上述记录的时间属性是下列中的一个或多个，即业务量内容单元的创建时间、修改业务量内容单元的最后时间、在接入点处第一次观察到所给业务量内容单元的时间以及在上述接入点上最后一次观察到所给业务量内容单元的时间。
13.按照权利要求1的方法，其特征在于搜索步骤包括用于依据经过接入点的个别业务量内容单元的访问计数来进行关联性级别评定的子步骤。
14.按照权利要求1的方法，其中搜索步骤由至少一个合作搜索引擎来实现，并且所述搜索步骤包括用于分派搜索请求给上述的至少一个合作搜索引擎、从本地业务量索引中收集搜索结果、从上述的至少一个合作搜索引擎中收集搜索结果并组合上述收集的搜索结果以把一个统一结果提供给初始搜索请求的子步骤。
15.按照权利要求14的方法，其中上述的合作搜索引擎是互联网搜索引擎，并且对用上述搜索引擎从互联网中爬行到的信息进行索引。
16.按照权利要求14的方法，其中搜索步骤通过多于一个的合作搜索引擎来实现，并且分别在数据网中至少一个接入点上提供搜索引擎。
17.按照权利要求1的方法，其特征在于用于收集信息的步骤包括用于检测出不可访问的已请求信息，以及使用有关上述不可访问信息的信息来删除或减少搜索索引中有关入口的级别评定的子步骤。
18.按照权利要求1的方法，其中搜索步骤通过至少一个合作搜索引擎来实现，并且用于收集信息的步骤包括用于检测出先前在接入点上没有观察到的新信息或被更新的信息，以及使用有关新信息或被更新信息的信息来扩大上述至少一个合作搜索引擎的搜索索引的子步骤。
19.按照权利要求1的方法，其特征在于用于位置编码的可选步骤包括以下子步骤：收集所请求文档的文档标识符、以有关用户提交该请求的空间信息来注解上述文档标识符，计算至少一个文档的、至少包括从空间区域来的文档请求数和从上述空间区域来的请求总数的访问统计，以及通过把一个特定空间区域的访问统计与至少另一空间区域的相应访问统计相比较来确定哪些文档对于上述特定空间区域是最特殊的。
20.按照权利要求19的方法，其特征在于从互联网业务提供者记录的用户数据中导出上述空间信息。
21.按照权利要求19的方法，其特征在于从请求文档的移动设备的位置中导出上述空间信息。
22.按照权利要求19的方法，其特征在于选择空间粒度，以便在每个空间区域中获得足够数量的用户以确保不能从访问统计中识别出个别用户。
23.按照权利要求19的方法，其特征在于通过计算至少两个空间区域的上述访问统计属于同一统计分布的可能性而确定文档的独特性。
24、按照权利要求19的方法，其特征在于通过使用大空间区域作为虚假设的统计并计算对特定空间区域的上述访问统计进行的不同测试的统计重要性，来确定文档的独特性。
25.按照权利要求23的方法，其特征在于使用特定区域计分以提供搜索结果的位置敏感级别评定。
26.按照权利要求24的方法，其特征在于使用特定区域计分以提供受欢迎的特定区域文档的业务量相关列表。
27.按照权利要求26的方法，其特征在于通过对文档内容进行自动类别分析而把上述文档列表划分为类别子列表。
28.按照权利要求1的方法，其特征在于用于测量文档相似性的可选步骤包括以下子步骤：收集所请求文档的文档标识符、注解文档请求以便识别出从同一用户来的连续请求、以及通过把“a”请求附近的“b”请求数与“b”请求的平均频率相比较来计算文档“b”和参考文档“a”之间的文档相似性。
29.按照权利要求28的方法，其特征在于基于任何的给定文档输入而使用相似性测量来提供类似文档的级别评定列表。
30.按照权利要求29的方法，其特征在于通过省略从与输入文档同样的站点来的文档来计算上述级别评定列表。
31.按照权利要求28的方法，其特征在于把相似性测量与基于文档内容的相似性测量组合，或与基于计数协同引证数的相似性测量组合。
32.按照权利要求28的方法，其特征在于通过把对文档组中文档之一的所有请求当作对上述“a”文档的请求来计算该组文档标识符的相似性测量。
33.按照权利要求32的方法，其特征在于把用户万维网日志的子集用作上述文档组标识符。
34.按照权利要求33的方法，其特征在于取得所述文档标识符组，并且基于上述相似性测量来创建搜索结果的个人化级别评定。
35.按照权利要求33的方法，其特征在于在链接拓扑分析的基础上计算文档级别评定，上述相似性测量被用来定义链接拓扑和相关的加权。
36.按照权利要求1的方法，其特征在于用于提醒的可选步骤包括以下子步骤：实时收集从数据网中接入点上的数据流中提取的信息，检测先前在接入点上没有观察到的新信息和/或被更新的信息，把上述新信息和/ 或被更新的信息与一组用户简档相比较，以及发送由上述新信息和/或被更新的信息触发的提醒消息给用户简档相关联的用户。

说明书全文

技术领域

本发明涉及用于在数据网络的接入点上搜索和分析业务量内容的方法，特别的是，本发明涉及通过有线接口或无线接口访问互联网或内部网上信息的信息获取方法和系统。更特别的是，本发明涉及基于内部网和互联网的搜索引擎和提醒业务。

背景技术

在互联网和封闭的内部网上，电子信息资源都在迅速增长。这种类型的电子信息正在日益取代更常规的信息资源，像报纸、杂志、甚至电视。这些信息数据库的大小目前正在几乎按指数规律增长。
有关的一般背景技术可以在下列出版物中发现：
S.Brin.和L.Page.，The anatomy of a large-scale hypertextual web search engine(大规模超文本网络搜索引擎的剖析)，《Proceedings of the 7th International World Wide web conference(第七届国际万维网会议论文集)》，第107-117页，Brisbane，澳大利亚，1998年 4月(Elsevier Science(Elsevier科学))；J.M.Kleinberg， Authoritative sources in a hyperlinked environment(超链接环境中的权威资源)，《Proceedings of ACM-SLAM Symposium on Discrete Algorithms(关于离散算法的ACM-SIAM讨论会论文集)》，第668-677 页，1998年1月；以及D.Gibson、J.M.Kleinberg和P.Raghavan， Inferring Web communities from link topology，Hypertext(从链接拓扑结构中推断出网络共同体，超文本)，第225-234页，Pittsburgh， PA，1998年6月。
像超文本传送协议(HTTP)、文件传送协议(FTP)或无线应用协议 (WAP)这样的协议经常被用来在内容提供者和客户之间传送内容。搜索引擎技术已经被开发出来用于互联网和内部网应用。目前，这些搜索引擎都基于对来自可接入服务器的页面和附加在线内容的自动爬行 (crawling)。典型地，一组种子页面(seed page)被用来启动该爬行。在第二阶段，该爬行器(crawler)也取出最初种子页面之一中涉及的文档。只要爬行器在取出的文档之一中已经检测出新的没有访问过的文档指引，该过程就继续。万维网文档经常采用超文本标示语言(HTML) 的格式。在这种情况下，文档指引通常是至另一个网页的HTML超链接。该网页自身通常由像通用资源定位器(URL)的地址来规定。
当前，搜索引擎的工作通常分为两个阶段。首先，爬行器被用来收集文档数据库。一旦文档已经被收集，它们就被预处理并被索引，以便可用于搜索。爬行器的文档收集原理要经受下列影响后续搜索质量的限制或缺点：
爬行器将只能基于文档指引来访问所选种子页面的传递闭包中的文档。例如，爬行器将决不访问没有任何参考文档的文档。根据链接拓扑以及所选的种子页面，可留下确实含有参考文档的文档不被爬行器访问。
爬行器受限于相当少地访问任何特定服务器。典型地，在两次访问同样的服务器之间，爬行器必须等待30秒或更长时间。该限制是由于机器人规则，该规则被制定来保护服务器，以免由于自动请求而引起超负荷。因此，连续爬行特定站点将被限制在每天大约3千个文档。存在若干个含有如此多的文档的大站点，以致于实际上不能以现有技术中的爬行原理来下载和索引全部内容。根据现有技术爬行原理，在新鲜度方面，甚至中等大小的站点也出现了大问题。例如，含有9万文档的站点将需要一个月的爬行来进行一次完全的更新。
爬行的现有技术原理不能很好地适合于保证所收集文档的新鲜度。该爬行限制使得在一个搜索引擎中对于一些站点不能进行完全的站点更新，而对于其它站点将出现花费几周或几个月的时间来进行完全的站点更新的问题。只有那些含低于大约3千文档的站点能够每天进行一次完全更新。新鲜度的不足使得搜索引擎的潜力受到严重限制。每天的报纸是一个巨大的市场，但是阅读或甚至搜索旧报纸的市场实际上不存在。类似地，可以预期人们感兴趣的是通过搜索和提醒服务来访问最近已经被更新过的网络内容。
爬行的现有技术原理不能够获取动态对象。动态对象是典型地需要连同HTTP请求一起传送的参数的对象。例如用户可以在对话框、检查框等中进行一些选择，并下载不是作为HTML文件永久存储、而是基于用户选择自动生成的页面。对于爬行器，推测所有可能的参数设置实际上是不可能的，并且因此目前不能通过互联网搜索引擎来访问动态对象。另一方面，在页面的数量以及信息或服务的价值方面，万维网都越来越被动态内容所主导。
互联网和许多内部网的文档数据库几乎都正在按指数规律增长。但是查询复杂性几乎没有改变。特定问题的匹配文档的数量也因此几乎按指数规律增长。所以，搜索引擎的关联性问题正在变得越来越重要。爬行的现有技术考虑到文档之间的链接拓扑的分析和各种用来基于被提议的这种结构而分配文档优先级的技术。另一方面，对于像动态对象、新文档、二进制文件以及像以无线标示语言(WML)写的页面的无线页面这样的重要文档类别的关联性，链接拓扑并不是一种足够的资源。所有这些实例都没有或仅有相当少的链接能用于链接拓扑分析。
提醒业务在现有技术中被描述，并且在很多情况中以与搜索引擎一样的方式工作。典型地，提醒业务将能够取一个搜索引擎查询并对照该查询检查一个新信息流。例如，用户能在搜索引擎上搜索历史数据，并使用该查询作为提醒业务中的触发，该提醒业务正把该查询应用于一个新文档流。
由于现有技术中固有的以及上面所讨论的弱点和不利，存在一种在搜索和提醒业务中改进文档收集过程的紧迫需要。

发明内容

因此，本发明的主要目的是提供一种方法，该方法允许增加可收集的文档总数，以及增加可从大站点收集的文档百分比，它也在上一次文档更新或文档创建与其在搜索业务中可搜索的时间之间的延时方面改进了该文档的新鲜度，另外该方法也允许检测出变为无效(“死”链接) 的文档以及收集动态对象。
本发明的另一个目的是通过检查新文档是否与提醒业务的用户定义的触发器匹配，而影响最近被更新的文档的改进资源以创建提醒业务。
本发明的另一个目的仍然是使得搜索引擎中的关联性或级别评定准则以文档的寿命为基础。这一点特别重要，因为本发明描述了改进的文档收集原理，例如，它允许用户在过去10分钟、过去一小时或过去一天创建或更新的新万维网文档中搜索。
本发明的进一步目的是使用数据网络中接入点上的请求统计来在搜索和提醒业务中建立改进的关联性。
本发明的进一步目的仍然是通过使用从空间相邻的用户来的请求统计来创建位置特定的文档级别评定。
最后，使用请求统计中的时间邻近来定义文档之间相似性的程度也是本发明的一个目的。
根据本发明，提供了一种用于搜索和分析数据网中接入点上业务量内容的方法，其中该数据网是互联网上的共享的网络资源，其中上述接入点是用于由互联网业务提供者服务的用户的互联网接入点，或者以应用的形式分布到多个用户，或者是用于无线用户的连接点，上述连接点可以是本地连接点，也可以是互联网网关，并且其中该方法的特征为包括步骤：收集形式为从上述数据网中接入点处的信息流提取的数据的信息，索引上述收集的信息，搜索上述索引的信息，以及基于所述搜索获取所述信息。
本发明的附加特征和优点通过下面的详细描述和附图来公开。

附图说明

当与附加的附图一起阅读时，可以通过参考下列优选的和说明性的实施方案的详细描述来更好地理解本发明自身以及优选实施方案，其中
图1显示了通过ISP到互联网的客户连接，
图2是ISP处的代理服务器，它正在高速缓存万维网内容，
图3是被修改用来与一个外部搜索高速缓存器通信的代理服务器
图3b是来自客户软件的分布式业务爬行，
图4是搜索高速缓存器的可能组织，
图5是搜索高速缓存器的内容可如何转变为搜索索引，
图6是利用搜索高速缓存器索引的搜索业务的配置，
图7是用于定义文档相似性的时间邻近原理，以及
图8是定义时间邻近的加权函数的可能的定义。

具体实施方式

在给出优选实施方案的详细讨论之前，本发明的一般背景将被简单讨论以便容易理解后面所讨论的内容。
互联网用户经常通过所谓的互联网业务提供者(ISP)来与网络相连。图1说明了客户如何通过ISP来与各种万维网服务器相连。ISP 12从互联网骨干网提供者处租借带宽，并基于分时模式提供给终端用户11 以具有该带宽的“桩”(stake)14。这样通过ISP 12就能把从终端用户11来的访问路由到带有个别服务器14的该万维网13，该服务器宿有文档15和多媒体内容16。通过本地连接点或通过用于多连接点的互联网网关，同样的模式也应用于无线用户。现有技术中的搜索引擎是以从网络服务器14来的自动爬行和在搜索索引18中构造该信息为基础的，该搜索索引可用于搜索。搜索的结果提供了返回到万维网15、16上起始文档的参考。
计算机系统中的公用概念是高速缓存系统。ISP经常在它们的带宽分配单元上使用万维网高速缓存器。该高速缓存器减少了骨干网上的带宽使用，同时终端用户将体验更低的等待时间。经常通过代理服务器来使用万维网高速缓存器。代理服务器可以是透明的，也可以是不透明的。现有技术中存在几种高速缓存机制和代理服务器。一个实例是鱿鱼 (squid)(www.squid-cache.org)，它是万维网代理的免费软件版本。图2说明了代理服务器21如何可能进行文档或对象22的内部收集。对这些对象的用户请求被本地提供服务23，以减少从ISP 24来的外部带宽需要。当高速缓存的文档或对象被访问时，用户也将体验减少了的等待时间。为个别对象定义期满规则，以确保高速缓存器中的拷贝真实地反映原始对象。
现在将讨论所谓的业务量爬行的概念和属性。
通过ISP连接到互联网的用户全集将整个充当一个从万维网来的信息的大爬行器。对于本发明的其它部分，对这种在ISP或者类似连接点或网关上的整个信息收集的引用将被称为业务量爬行器。该“人”业务量爬行器含有多种与自动化软件爬行器非常不同的属性：
-在用于得到对文档的访问的种子页面和链接拓扑方面，该业务量爬行器将没有如软件爬行器同样的限制。
-该业务量爬行器将不会受限于软件爬行器遭受的到特定站点的访问限制。因而潜在地，该业务量爬行器可潜在地更快和更完全地爬行大站点。
-软件爬行器将花费它大量时间来简单地下载它以前已访问过的文档以及检查自从上一次下载以来这些页面的内容是否被更新。而该业务量爬行器能够检查用于用户请求的由ISP获取的内容以相对于相应文档的先前拷贝进行重复测试。因而附加信息下载是不必要的。
-该业务量爬行器能够以两种方法来提高软件爬行器提供的新鲜度：
-该业务量爬行器检测丢失的或暂时不能获得的文档。典型地，可以通过记录到一个所给URL的HTTP请求何时导致了一个像错误号404 的错误消息来进行检测。在相关搜索业务中，能够利用这些失败的请求来删除相关URL或分配一个更低级别值给该URL，以对搜索引擎产生的结果列表中的文档排序。
-只要连接的ISP客户之一已经下载该文档，该业务量爬行器就可能分析新文档或被更新的文档。这样，例如只要ISP客户之一已经阅读过新的新闻稿，该文章就能够变成可搜索的。
-ISP用户将访问动态页面，并且因而这些页面的内容也能被变成可搜索的。实际上可被用来生成动态页面的参数组合经常有无穷多个。因而，请求中实际使用的参数组合是用于定义应被变成可搜索的动态页面集合的一种非常合理的选择。这正好是业务量爬行器可能为后续搜索而索引的动态页面集合。
-ISP用户的访问模式也能在相关搜索索引中加到改进的关联性上。被频繁访问的站点的级别可以比那些很少被访问的站点的级别高。通过在结果列表中重定向该用户选择，搜索引擎自身也有可能进行这样的访问计数，但是更有价值的是使关联性计算基于整个访问模式，而不仅仅是作为搜索结果而出现的访问模式。
现在将讨论业务量爬行的实现和设计，分别地基于集中式或分布式爬行概念。
集中式业务量爬行
基于数据网络中接入点上的业务量，可以有几种方式来实施业务量爬行器。本发明将教导一些可能的实施方案，并且对于本领域中的技术人员，如何利用有些不同的设计选择来实现同样的好处是显而易见的。本发明中教导的实例将把ISP上的业务量万维网文档的索引作为一种情况，但是对于本领域中的技术人员，如何把同样的原理应用于类似情况中，比如内部网业务量或无线连接点，是显而易见的。
可以以各种方式来通过ISP实际访问文档或对象。一种可选方法是利用ISP使用的高速缓存机制。该高速缓存器的内容可以被周期地索引以便搜索和提醒，或者在每次新文档或对象存储入网络高速缓存器中时，逐渐地扩充该搜索索引。该方法的限制是当前万维网高速缓存器被设计成减少从ISP来的外部带宽要求。在很大程度上，带宽目标规定在万维网高速缓存器中保留的是哪种对象。典型地，万维网高速缓存器的大部分将由经常被访问的多媒体对象组成。用于索引的许多最感兴趣的文本页面也将有一个期满标签，该标签被定义来告诉万维网高速缓存器把该文本页面从高速缓存器中去除。
因而，优化业务量爬行的质量将需要修改万维网高速缓存器策略，或者必须与万维网高速缓存器并行地布置一个分开的高速缓存器。在这种情况下，该网络高速缓存器将基于带宽最优化准则来选择对象，并且在搜索和提醒业务方面，该搜索高速缓存器将基于文档质量来选择对象。
图3说明了可如何修改代理服务器以与合作的搜索高速缓存器通信。该搜索高速缓存器可以驻留于与代理服务器相同的计算机中，或者它可以驻留于不同的计算机中，并通过数据网络来通信。该代理服务器包含被用来减少外部带宽需要的内部万维网高速缓存器31。该内部万维网高速缓存器不必实施业务量爬行。该代理服务器中包括通信模块32。该通信模块记录经过这个代理服务器34的万维网请求35，并且任选地记录并缓冲用于该请求的结果消息以及实际内容，后者作为这个请求的结果被传送给用户。该通信模块传送36这个信息的一部分给搜索高速缓存器33。被传送的信息可以被设置以包括：
-仅请求：这可以通过把代理服务器的访问日志中的更新从通信模块 32周期地传送给搜索高速缓存器33来实施。每个访问记录能任选地用某些信息来标记，比如：
-诸如IP地址的用户信息。
-加密的用户信息。由于万维网应用中的保密问题，保持个别用户的匿名通常是重要的。因此，代理服务器中的通信模块能够被设置以致于所有的个人信息都不被排除或者被编码，以致于可以基于输入该搜索高速缓存器中的数据来分开而非识别个别用户。一个实例可以是用一个基于该用户会话ID的加密号码来标记该请求。该方法也使得这个保密策略可以被ISP控制并处于ISP代理软件的内部。
-诸如国家和城市的相关用户信息。该信息可以保持在一种足够低的级别，以保证不能基于输入该搜索高速缓存器中的数据来识别出个别用户。在个别用户建立帐户时，能够基于ISP记录的辅助数据来生成位置信息。无线应用能够例如从无线设备提供的GPS数据中获得定位信息，或者基于像基站ID和延迟时间通过电话定位来获得。
-万维网请求的结果编码。例如，搜索高速缓存器能够使用该信息来删除死链接或者降低经常暂时不能获得的链接的级别。
-文档内容的散列值。通信模块32能够计算一个或多个散列值，它反映作为该请求的结果而返回给该用户的内容。这样的内容密钥可以以最小的CPU开销来计算，并表示一种十分紧凑的方式来把信息传送给可能的远程搜索高速缓存器。例如，远程搜索高速缓存器能够使用该信息来与同一文档的历史散列值相比较。散列值的改变指示了该文档已经被更新，并且它应该被重新爬行以更新该搜索索引。
-带内容的请求：除了上面讨论的用于请求本身的信息外，通信模块 32也能发送实际的文档内容。如果在通信模块32和搜索高速缓存器33 之间可以获得大容量数据信道，那么该选项就典型地被选择。该文档已经由ISP获取，并且因此能以这种方式而变为可用于索引和提醒，而不需要任何的到起始万维网服务器的附加请求。在这种情况下，必须分割数据流，以便从通信模块32传送该返回给用户的信息的拷贝给搜索高速缓存器33。在通信模块32中执行一些过滤以减少到搜索高速缓存器33 的通信是有好处的。典型地，仅传送索引有兴趣的请求。这样的过滤规则的实例包括：
-仅传送HTTP GET请求
-仅传送MIME类型文本/*的请求
-仅传送含有指示成功传送的结果编码的请求的内容
-仅传送用于肯定地识别出的主机或不在应该被排除的识别出的主机数据库中的主机的请求。
搜索高速缓存器33接收从代理服务器中的通信模块32来的信息流，并利用该信息来建立搜索索引或提醒业务。图4显示了搜索高速缓存器的可能组织。搜索高速缓存器33包括通信模块41，用于处理与代理服务器中的通信模块32的数据传送。例如，实际传送逻辑可以以套接字来实现。由该通信模块41接收的数据被发送用于进一步的处理。第一处理步骤是任选的拒绝逻辑过滤42，它能够扩展并增加到所描述的用于代理服务器中的通信模块的过滤机制中。在代理服务器中进行拒绝过滤的好处是代理服务器与搜索高速缓存器之间的数据带宽减少了。另一方面，在搜索高速缓存器中进行一些拒绝过滤也有其优点：
-运行代理服务器的CPU的负荷增加应该是最小的。因而，通信模块32中的处理开销应该保持最小。
-典型地，搜索高速缓存器将能更快地访问对于设计好的拒绝过滤来说是十分重要的文档信息。例如，这样的信息包括文档内容的历史散列值、访问统计和含应该被拒绝的主机或站点的数据库。
应该注意在实际传送期间，拒绝逻辑42能够被实时执行。只要该流已经作为应该被搜索高速缓存器拒绝的对象而被识别出，就会因此停止该传送。
分布式业务量爬行
图3b显示了来自客户软件的分布式业务量爬行。一组用户3b1、3b2、 3b3从像互联网、移动互联网或内部网的共享网络资源中获取文档。该文档在客户软件3b4、3b6、3b8中被获取并显示。典型地，客户软件可以是浏览器应用程序。通信模块3b5、3b7、3b8能够作为插件程序而处于客户软件的内部，或者作为合作模块而处于客户软件的内部。当被激活时，通信模块能够记录文档ID，比如由客户软件获取的文档的URL。此外，通信模块发送与先前对于集中式业务量爬行而描述的同样类型的信息。从客户软件中分布的通信模块集来的消息由服务器应用程序3b10 聚集。以与集中式业务量爬行32中的通信模块发送信息给搜索高速缓存器33完全相同的方式，服务器应用程序3b10把已获得的信息传送给搜索高速缓存器3b11。
分布式业务量爬行使得不必把系统与ISP或类似服务相集成就获得与集中式业务量爬行同样的好处成为可能。分布式接入点被改为通过客户软件使用，并且通过在网络上与集中式服务器应用软件通信来聚集分布式访问信息。
在分布式业务量爬行中，对私人信息的处理能够被轻松进行，因为用户能够通过客户软件明确地激活和停用该通信模块。
现在将讨论业务量内容的高速缓存。
没有被拒绝逻辑过滤42拒绝的文档被传送给对象管理器43，它实际高速缓存与各种文档相关联的信息。该对象管理器包括检查临时存储器47中文档的保密过滤器44，以便私人信息不能从对象管理器43的输出中排除。在本发明中，保密过滤器44将被单独描述。与文档参考一起存储在对象管理器43中的信息可以包括：
-被代理服务器中的通信模块32加在文档上的信息，就像先前描述的一样。
-类似上次修改过的属性的文档统计。
-访问统计，像第一次看的时间、最后一次看的时间、各种时间间隔中访问的次数和已经访问过该文档的不同用户的数目。
-文档内容自身。
-文档的统计级别值。
对象管理器可以充当一种业务，该业务可以连续或周期输出含有关新的、被更新的或被删除的文档的信息的数据流。该数据流可以仅包括文档参考45，也可以包括含实际文档内容46的文档参考。这些数据资源对于建立用于万维网更新的提醒业务以及改进万维网上一般搜索引擎和专用搜索引擎的大小、新鲜度和关联性是有价值的。文档参考45可以被用作一个重新索引信号来指导传统搜索引擎的爬行器17，并且实际文档内容46也能够被用来在传统搜索引擎中替代这些文档的爬行17。
通过增加临时存储器以及包括用于从高速缓存器中删除文档的驱逐算法(eviction algorithm)，对象管理器43也能充当高速缓存器。可被分配给文档的用于指示万维网高速缓存的使用期限属性并不真正与搜索高速缓存相关。结果的搜索业务中用户访问的实际文档将是起始文档。因而，唯一的风险是搜索引擎的传统问题，即与实际文档相比，被索引的文本可能过时了。另一方面，通过在本发明教导的技术上建立搜索业务，这种新鲜度问题的可能性被大大降低。如果文档级别值真正反映文档的质量和/或受欢迎程度，那么高速缓存器驱逐策略就可与该文档级别值紧紧捆绑在一起。新文档或者被更新的文档能够在高速缓存器中被保留一段预先定义的最小时间，以便为最近的万维网更新而建立搜索业务。动态对象可在搜索高速缓存器中具有降低的使用期限，以避免经常被频繁更新的、过多的动态对象。
对象管理器43也能包括用于计算临时存储器47中文档的统计级别值48的模块。在决定应该从临时存储器47中删除哪些文档方面，该级别值能够被用作高速缓存策略，同时它也能用作结果的搜索业务中对搜索结果评定级别的输入。典型地，评定级别的准则可以是链接拓扑、文档内容和访问模式的组合。业务量爬行器的好处是有关访问统计的评估质量将被改进超过现有技术。一个受限于访问统计的简单评定级别的公式的实例是：r’＝r+w·I·f(点击率)·g(访问文档的用户数)+(I-A) 。在这个方程中，r表示文档的先前级别，而r’表示文档的更新过的级别。w是评定级别值的递归更新中的加权因子。I表示目标平均级别值，并且也可用作新文档的初始值。A表示先前级别评定中的平均级别，并被用来基于I而稳定随着时间过去的级别值。函数f和g是增加经常且被许多不同用户访问的文档的权重的单调函数。
现在将简单说明业务量高速缓存器的索引。
对象管理器能够被简单地用来连续地或周期地输出含有关新的、被更新的或被删除的文档45和46的信息的数据流。在这种情况下，生成的数据流的接收者将处理该信息的索引和结果的搜索业务的产生。另一种可选方法是让对象管理器43使用高速缓存器或临时存储器47，并且连续地或周期地索引临时存储器47中的内容。
图5显示了搜索高速缓存器的内容如何转变为搜索索引。最简单的方法51是周期地处理54搜索高速缓存器的全部内容，以构造更新过的搜索索引。作为选择，完整的搜索高速缓存器能够被索引一次，然后递增的索引58被连续地或周期地55构造，以用于搜索高速缓存器52中的更新57。递增的索引必须与全部索引直接结合，或者必须周期地合并。通过简单地重新索引完整的搜索高速缓存器，也能实现该合并。然而另一种可选方法是让搜索高速缓存器按照上次记录的文档更新53把数据划分为组。例如，这些组可以是“前一小时”59c、“前一天”59b和“上一周”59a。因而，在搜索索引59d、59e、59f中反映了同样的组。这样的组可以减少该索引所需要的索引需求和合并操作。
索引操作计算的文档级别能够利用对象管理器中的级别计算48建议的级别值，或者它能把该值与其它信息源结合在一起，比如链接拓扑
按照本发明，业务量高速缓存器能够被很好地使用在搜索业务中。
图6显示了利用搜索高速缓存器索引的搜索业务的配置。从该搜索高速缓存器中生成的搜索索引是能以传统方式利用来构建搜索引擎业务的索引。用户发送查询61给产生返回给该用户的结果63的搜索高速缓存器索引62。该搜索引擎能够影响已经在本发明中描述过的业务量爬行器提供的好处。
另一种可选方法是把从搜索高速缓存器中生成的搜索索引与外部搜索索引结合在一起，外部索引例如是像 www.alltheweb.com的大型普通互联网搜索业务。在这种情况下，用户搜索查询64被发送给查询分派模块 65，并且在业务量高速缓存器索引66和合作的搜索索引67中都将实施同样的搜索。两次搜索生成的结果列表在考虑文档级别评定值的合并模块68中合并。最后构造一个统一的结果并将其作为对初始查询69的响应返回给用户。合并操作因而可以选择各种算法，用于对照从合作搜索引擎(它可能含有全局地评定级别的内容)返回的内容，而对从业务量高速缓存器索引返回的本地内容评定级别。
含有两种合作搜索引擎的概念可以被容易地扩展，以处理多个含有可能超过一个业务量高速缓存器的搜索引擎。在这种情况下，分派模块 65)和合并模块68必须被修改，以便与所选的搜索业务集通信。与互联网的多个现有技术搜索引擎中的并行搜索进行的类似结合存在于现有技术中，并且通常被称为元搜索引擎(meta-search engine)。
本发明的方法将使得能够方便地使用区域性的或团体的特殊级别评定。
互联网和许多内部网的文档数据库都几乎按指数规律增长。但是查询的复杂性几乎没有改变。特定问题的匹配文档数因而也几乎按指数规律增长。因此，搜索引擎的关联性问题正变得越来越重要。位置信息在实施必要的关联性性改进中起着关键作用。
通过研究特定文档的内容和属性能够获得位置编码。像地址或电话号码的信息能被用来把文档分配给一个特殊的地理位置。作为选择，一个人能够研究从不同地区对特定文档的访问模式，并且按从特定区域来的访问来识别出哪些是统计上表示太多的文档。搜索引擎能利用该信息来创建区域特定的级别评定公式。例如，搜索业务的西班牙用户能利用有关哪些站点在西班牙用户中间受欢迎的信息来进行级别评定。区域访问模式也能被用来创建与任一特殊区域相关联的受欢迎文档的自动列表。这些列表能被进一步划分为类别，并因此被用来创建自动区域门户 (portal)业务。
业务量爬行器提供的空间信息必须被保持为一个足够低的级别，以保证不能基于输入搜索高速缓存器的数据来识别出个别用户。典型地，所有被注解的区域应该具有预先定义的最少数量的用户。在个别用户建立帐户时，位置信息能够基于ISP记录的辅助数据来生成。无线应用程序能够从无线设备提供的GPS数据中获得定位信息，或者通过例如基于基站ID和延迟时间的电话定位来获得。
按照本发明的方法将能方便地提供信息，它允许基于业务量爬行器提供的统计数据来计算文档相似性。
用于爬行的现有技术考虑到文档之间的链接拓扑的分析和用来基于被提议的这种拓扑而分配文档优先级的各种技术。另一方面，对于像动态对象、新文档、二进制文件以及像以无线标示语言(WML)写的页面的无线页面这样的重要文档类别的关联性，链接拓扑不是一种足够的资源。所有这些实例都不含有或很少含有链接可用于链接拓扑分析。业务量爬行器传送的请求统计中的时间邻近能够提供用于定义在这些情况下文档之间的相似性测量的有用资源。在更丰富的链接拓扑能够用于相似性测量的地方，请求统计也能加到相似性测量上。
图7说明了用于定义文档相似性的时间邻近原理。ISP 71把很多用户(A、B、C...)连接72到由服务器74和个别文档a、b、c、d...组成的万维网资源73上。业务量爬行器记录的访问日志能够对于各种用户而进行分割，以便能识别出74从同一用户来的后续请求。也能通过加密用户ID信息来维持用户的隐私。对于下列分析，访问日志以会话ID注解，而不是以用户ID注解便足够了。以会话ID或者加密的会话ID注解将进一步保护用户的隐私。
相似性定义依赖于一个人在短时间窗口中或者在后续请求的短间隔中将主要获取有关信息的假设。对于该假设显然有一些例外的情形，然而由用户的焦点转换而引起的随机改变也能被预期有更具统计性的随机性。
图8显示了定义时间邻近性的加权函数的一个可能定义。说明了一个实例，其中用户“C”在时间t0对文档“a”进行请求。在时间t1，同一用户或会话又对文档“b”进行第二请求。也假设在对文档“a”进行请求和对文档“b”进行请求之间，同一用户又对k个其它文档进行请求。在这种情况下，邻近加权函数可被定义为函数w(k，t1-t0)，其中w是随k和|t1-t0|单调减少的函数。在简化模型中，w可被选择作为例如所给的相对于t0(tMIN-tMAX)的时间间隔或者t0前所给的访问数k1和t0后所给的访问数k2的签名函数。类似的加权函数模型被使用在其它应用程序中，比如用于管理虚拟内存中的页面的算法。
现在特定文档“a”的级别评定的相似性列表能够通过测量在对“a ”文档的请求邻近中其它文档的统计上太多的表示来建立。能对文档等级或站点等级进行分析，其中所有驻留于特定站点中的文档都被简单地作为对顶级站点的请求对待。级别评定值可以多种技术为基础，并且对于本领域中的技术人员，可应用本发明中教导的实施方案的多小的修改是显而易见的。相似性级别是基于例如这些测量之一：
-在对“a”文档的请求的预先定义时间邻近窗口内的总访问数。
-在对“a”文档的请求的预先定义的邻近窗口内所有访问的邻近加权函数w的总和。
-在对“a”文档的请求的预先定义的邻近窗口内“b”请求的观测数量的统计重要性。统计测试可基于假设对“a”文档和“b”文档的请求实际上无关的虚假设。此外，在统计测试中可考虑对“a”文档和“b ”文档的一般访问频率。通过利用邻近加权函数w的总和而不是请求数作为观测变量，能够设计类似的统计测试。
因而，通过按照建议的相似性级别评定函数之一来存储对“a”文档的请求的预先定义的邻近窗口内请求的文档，能够计算任一文档“a”的文档相似性列表。通过删除不重要的相似性来改进这样的相似性列表的质量，这些不重要的相似性比如有同一站点上的文档或在“a”文档中以超链接直接引用的文档。
也能计算文档组而不是单个文档的相似性列表。通过把对文档组中的文档的任何请求作为前面描述中对“a”文档的参考来对待，这便能够轻易实现。作为选择，能通过由用户以相似性因子加权该请求来改进该亲和性，该相似性因子例如能够计数该文档组之间的公用文档数和个别会话的每个访问日志。
通过例如基于一组用户选择的文档来计算文档相似性列表，能够获得如此个人化的级别评定和文档选择。用户能够明确选择这些文档，或者能基于浏览器中喜欢的选择或由客户浏览器本地或在接入网关上记录的接入历史来进行自动选择。
搜索业务和提醒业务能利用该信息来允许用户创建个人化级别评定公式。个人化级别评定可有利于结果列表中的下列文档：
-用户实际提供的文档。
-涉及用户提供的文档的新动态页面，像报纸站点上的新闻文章。
-含有如上面描述的与用户提供的文档集有高相似性系数的文档。
本发明也能用来在文档相似性拓扑的基础上建立关联性算法。
修改用于相似性级别评定的预定义邻近窗口的定义能得出有关该文档的令人感兴趣的属性。例如，用两个邻近窗口比较两个文档“a”和“b ”之间的级别值是有可能的，这两个邻近窗口是：“a”请求后的10分钟以及“a”请求前的10分钟。这两个值的差额都将给出有关“a”和“b ”之间的关系的信息，同时也给出了“a”中内容的性质。实际上，这些值将基于实际使用定义文档之间真正有效的链接拓扑。这些值可以与超链接拓扑相比较，或者取代该超链接拓扑作为文档关联性计算的基础。对于本领域中的技术人员而言，如何把基于链接拓扑的用于关联性的现有技术扩展到本发明中教导的业务量导出的使用拓扑是显而易见的。两种这样的可选方法是：
-首先，给每个文档都分配初始文档级别。可以给所有文档都分配同样的值，或者为了区分文档而考虑其它信息源。其次，通过以链接强度来加权初始文档级别，可以通过所描述的使用拓扑来传播文档级别。
-现有技术中发现的诸如页面级别或HITS算法的算法能被用作通过所描述的使用拓扑来传播页面级别的迭代模型。
在当前发明的大多数万维网和无线应用程序中，极为重要的是用户隐私被维护。数据网中接入点上业务量内容的索引有可能使得私人信息对大量观众是可搜索的。因此按照本发明的方法将能确保用户隐私。
已经设计出单独的协议(比如HTTPS协议)，它们能安全和保密地传送万维网对象。如果宿有私人内容对象的万维网服务器希望保证对用户的判断，那么它们应该使用这样的协议。不幸的是，一般惯例却是相反的。各种不同的方式被用来在万维网服务器上隐藏私人内容，然而实际内容仍然被作为明文来传送。很多私人内容被作为动态对象来对待，并且因此通常不能在现有技术搜索业务中获得。当前发明教导了动态对象是如何也被有效索引并变成可搜索的。
下列原理可被用来避免对私人或敏感信息的索引：
-诸如HTTPS协议的安全协议显然不能被索引。
-索引受限于HTTP GET请求。例如，通过在服务器上使用HTTP POST操作来获取一些个人对象。这些操作的结果不能被存储。
-有时动态内容和个人内容通过某种版本的HTTP认证机制来保护。这通过在HTTP请求报头中设置特殊字段来进行。这种类型的认证能被自动检测，以排除从索引来的结果信息。
-索引可受限于已经被预先定义的最少数量的用户查看的文档。能够以这种方法来避免索引仅有单个用户在查看的信息。
-索引受限于不包含cookies(小甜饼)的请求，以保证cookie 不传送对于获取文档是必需的个人信息。
-索引可受限于预先定义的站点集和主机集。
-索引能排除预先定义的不应该被索引的站点和主机。
-检测出的文档参考最后被重新爬行，以检查任何人通常能确实获得该信息。
尽管已经针对优选实施方案具体描述了本发明，但本领域中的技术人员应当理解可以在不违背本发明的精神和范围的情况下，对其中的格式和细节进行各种改变。特殊协议和格式的使用不是本发明的必要特征。例如，其它无线协议能够代替WAP/WML而不会影响本发明教导的原理。因此，预期可以在不违背如附加的权利要求中定义的本发明的精神和范围的情况下进行这样的修改。

标题	发布/更新时间	阅读量
一种10kV高压断路器健康水平诊断方法	2020-05-14	508
一种基于深度学习的轨道交通客流需求预测方法和装置	2020-05-12	775
一种基于网络数据包提取文件的方法	2020-05-08	248
一种可持续性和智能化养猪方法	2020-05-11	748
一种根据电网特征事件进行场景动态切换的方法、系统和存储介质	2020-05-12	596
用于文化制品的分析的数字数据细节处理	2020-05-08	405
一种梯次利用锂电池储能单元的状态诊断方法及装置	2020-05-13	376
一种基于多用户行为的神经网络推荐方法	2020-05-12	521
一种输电网结构形态评估方法	2020-05-13	477
一种基于行为和表情智能识别的课堂教学分析与质量评估系统及方法	2020-05-11	416