首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 修改 / 使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能

使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能

阅读:799发布:2020-12-01

专利汇可以提供使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能专利检索,专利查询,专利分析的服务。并且公开了使用可增量式更新的系统来对网络上的文档进行排序的各种方法。还公开了其上存储有用于执行使用可增量式更新的系统来对网络上的文档进行排序的方法的计算机可执行指令的计算机可读介质。此外,公开了包含至少一个应用模 块 的 计算机系统 ,其中该至少一个应用模块包括用于执行使用可增量式更新的系统来对网络上的文档进行排序的方法的应用程序代码。,下面是使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能专利的具体信息内容。

1.一种其上存储有用于响应于包括一个或多个搜索查询项的用户输 入的搜索查询来对网络上的文档进行排序的计算机可执行指令的计算机可读 介质,所述计算机可执行指令利用可通过更新计数值#(Asset)、#(wi,Asset)和 ∑#(wi,Asset)来更新的可增量式更新的查询分类器模型,其中#(Asset)表示所述 网络上的给定文档被任何用户选择来查看的次数,#(wi,Asset)表示所述网络上 的给定文档与所述搜索查询的搜索查询项wi被任何用户匹配的次数,而∑#(wi, Asset)表示所述网络上的给定文档与所述搜索查询的任何搜索查询项wi被任何 用户匹配的次数总和。
2.如权利要求1所述的计算机可读介质,其特征在于,所述网络上 的每一个文档都基于其对于所述搜索查询的相关性来进行排序,并且具有使用 公式(I)的文档相关性分数:
log [ P ( Asset | Query ) ] = log [ # ( Asset ) ] - log [ # ( T ) ] +
Σ i = 1 N Q ( log [ # ( w i , Asset ) ] - log [ # ( Asset ) ] + # ( w i , Asset ) # ( Asset ) ) - Σ i = 1 V # ( w i , Asset ) # ( Asset ) - - - ( I )
其中:
P(Asset|Query)表示在给定特定用户输入的搜索查询Query的情 况下返回给定文档Asset的概率;
NQ是所述搜索查询中的项数;
V是所述网络的词汇大小;以及
#(T)是已由任何用户处理的搜索查询的总数。
3.如权利要求1或2所述的计算机可读介质,其特征在于,所述可 增量式更新的查询分类器模型在每一个时间段结束时更新,所述时间段在长度 上等于或小于24小时。
4.如权利要求3所述的计算机可读介质,其特征在于,更新计数值 #(Asset)、#(wi,Asset)和∑#(wi,Asset)包括将在给定时间段期间收集到的任何新 数据添加到先前存储的计数值#(Asset)(old)、#(wi,Asset)(old)和∑#(wi, Asset)(old)。
5.如权利要求1到4中任一项所述的计算机可读介质,其特征在于, 所述可增量式更新的查询分类器模型还包括时间衰减组件,其中新近的搜索查 询和用户响应被给予比过去的搜索查询和用户响应更大的权重。
6.如权利要求1到5中任一项所述的计算机可读介质,其特征在于:
# ( Asset ) = Σ t = 0 λ t [ # ( Asset ) ( t ) ] ;
# ( w i , Asset ) = Σ t = 0 λ t [ # ( w i , Asset ) ( t ) ] ; 以及
Σ # ( w i , Asset ) = Σ t = 0 λ t [ Σ # ( w i , Asset ) ( t ) ] ;
其中:
λ是具有小于1.0的值的加权乘数;以及
t是表示计数值分量的年龄的整数。
7.如权利要求6所述的计算机可读介质,其特征在于,更新计数值 #(Asset)、#(wi,Asset)和∑#(wi,Asset)包括按照以下公式重新计算#(Asset)、#(wi, Asset)和∑#(wi,Asset):
#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)];
#(wi,Asset)(new)=#(wi,Asset)(0)+λ#(wi,Asset)(old)];以及
∑#(wi,Asset)(new)=∑#(wi,Asset)(0)+λ[∑#(wi,Asset)(old)];
其中:
#(Asset)(new),#(wi,Asset)(new)和∑#(wi,Asset)(new)各自分别独立 地表示对应于计数值#(Asset),#(wi,Asset)和∑#(wi,Asset)的增量式更新的值;
#(Asset)(0)、#(wi,Asset)(0)和∑#(wi,Asset)(0)各自分别独立地表示 在上一个时间段内的出现次数;以及
#(Asset)(old)、#(wi,Asset)(old)和∑#(wi,Asset)(old)各自分别独立地 表示在所述上一个时间段之前的累积计数值。
8.如权利要求1到7中任一项所述的计算机可读介质,其特征在于, 还包括计算机可执行指令,所述计算机可执行指令用于接受由用户输入的搜索 询问,对所述网络上的文档进行搜索以生成包括多个文档的搜索结果,使用所 述可增量式更新的查询分类器模型来对所述搜索结果的多个文档进行排序以 生成经排序的搜索结果,以及向所述用户显示所述经排序的搜索结果。
9.一种包含至少一个应用模的计算系统,所述至少一个应用模块 可以在所述计算系统上使用,其中所述至少一个应用模块包括加载在其上的来 自如权利要求1到8中任一项所述的计算机可读介质的应用程序代码。
10.一种增量式更新适于用作搜索引擎中的排序功能组件的查询分类 器模型的方法,所述方法包括:
确定计数值#(Asset)、#(wi,Asset)和∑#(wi,Asset),其中#(Asset)表 示网络上的给定文档被任何用户选择来查看的次数,#(wi,Asset)表示所述网络 上的给定文档与搜索查询的搜索查询项wi被任何用户匹配的次数,而∑#(wi, Asset)表示所述网络上的给定文档与所述搜索查询的任何搜索查询项wi被任何 用户匹配的次数总和;
存储所述计数值#(Asset)、#(wi,Asset)和∑#(wi,Asset);以及
通过将在一时间段期间收集到的任何新数据添加到先前存储的计 数值#(Asset)、#(wi,Asset)和∑#(wi,Asset)来更新所存储的计数值。
11.如权利要求10所述的方法,其特征在于,所述时间段在长度上等 于或小于24小时。
12.如权利要求10所述的方法,其特征在于,更新所存储的计数值 #(Asset)、#(wi,Asset)和∑#(wi,Asset)包括按照以下公式重新计算#(Asset)、#(wi, Asset)和∑#(wi,Asset):
#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)];
#(wi,Asset)(new)=#(wi,Asset)(0)+λ#(wi,Asset)(old)];以及
∑#(wi,Asset)(new)=∑#(wi,Asset)(0)+λ[∑#(wi,Asset)(old)];
其中:
#(Asset)(new),#(wi,Asset)(new)和∑#(wi,Asset)(new)分别表示对 应于计数值#(Asset),#(wi,Asset)和∑#(wi,Asset)的增量式更新的值;
#(Asset)(0)、#(wi,Asset)(0)和∑#(wi,Asset)(0)分别表示在上一个时 间段内的出现次数;
#(Asset)(old)、#(wi,Asset)(old)和∑#(wi,Asset)(old)分别表示在所述 上一个时间段之前的累积计数值;以及
λ是加权乘数。
13.如权利要求12所述的方法,其特征在于,λ具有小于1.0的值。
14.一种确定网络上的文档相对于用户输入的搜索查询的文档相关性 分数的方法,所述方法包括如权利要求10到13中任一项所述的方法。
15.如权利要求14所述的方法,其特征在于,所述文档相关性分数使 用以下公式(I)来确定:
log [ P ( Asset | Query ) ] = log [ # ( Asset ) ] - log [ # ( T ) ] +
Σ i = 1 N Q ( log [ # ( w i , Asset ) ] - log [ # ( Asset ) ] + # ( w i , Asset ) # ( Asset ) ) - Σ i = 1 V # ( w i , Asset ) # ( Asset ) - - - ( I )
其中:
P(Asset|Query)表示在给定特定用户输入的搜索查询Query的情 况下返回给定文档Asset的概率;
NQ是所述搜索查询中的项数;
V是所述网络的词汇大小;以及
#(T)是已由任何用户处理的搜索查询的总数。
16.一种对搜索查询的搜索结果进行排序的方法,所述方法包括以下 步骤:
使用如权利要求14或15所述的方法来确定对于网络的每一个文 档的文档相关性分数;以及
基于每一个文档的文档相关性分数按降序来对所述文档进行排 序。
17.一种包含至少一个应用模块的计算系统,所述至少一个应用模块 可以在所述计算系统上使用,其中所述至少一个应用模块包括用于执行如权利 要求10到16中任一项所述的方法的应用程序代码。

说明书全文

背景

根据文档对于给定搜索查询的相关性来对文档进行排序的排序功能是已 知的。在许多已知系统中,使用查询分类器来改进排序功能的搜索结果。已知 的查询分类器利用诸如最大熵、朴素贝叶斯、条件随机场和支持向量机等机器 学习技术来对用户性能建模。通常,用于构建和部署模型的过程是收集大量数 据、对整个范围的数据执行离线数据处理、构建模型、并且然后部署这些模型。 这些已知过程可能在计算上是昂贵的。此外,在这些过程中,从收集数据的时 间到在部署的模型中实际上利用数据的时间通常存在延迟。

在本领域中仍在努开发对于给定搜索查询提供比由使用已知排序功能 和排序功能组件的搜索引擎生成的搜索结果更佳的搜索结果的排序功能和排 序功能组件。

概述

特别地,此处所描述的是用于使用可增量式更新的查询分类器来对网络上 的文档进行排序的各种技术。该可增量式更新的查询分类器不需要在计算上昂 贵的离线数据处理,而只需要周期性地更新最少数量的查询分类器变量。该可 增量式更新的查询分类器利用实时用户搜索查询和响应数据,并还可包括对更 新近的用户事件进行比过去的用户事件更大的加权的时间衰减组件。该可增量 式更新的查询分类器单独地或结合其他排序功能组件可由搜索引擎用来基于 相对于查询搜索项的文档相关性来按序(通常以降序)对多个文档进行排序。

提供本概述以便以简化的形式向读者大致介绍将在以下“详细描述”一节 中描述的一个或多个选择概念。本概述不旨在标识所要求保护的主题的关键和 /或必要特征。

附图简述

图1表示示出响应于由用户输入的搜索查询来产生经排序的搜索结果的 方法中的各示例性步骤的示例性逻辑流程图

图2是用于实现此处所公开的各方法和过程的示例性操作环境的某些主 要组件的框图

图3A-3B表示示出使用可增量式更新的模型来产生经排序的搜索结果的 示例性方法中的各示例性步骤的逻辑流程图;以及

图4A-4B表示示出使用还包括时间衰减组件的可增量式更新的模型来产 生经排序的搜索结果的方法中的各示例性步骤的逻辑流程图。

详细描述

为了促进对此处所公开的各方法和过程的原理的理解,使用以下对具体实 施例的描述和特定语言来描述这些具体实施例。然而将会理解,对特定语言的 使用并不旨在限制所公开的各方法和过程的范围。对所讨论的所公开的各方法 和过程的原理的变更、进一步的修改、以及这样的进一步的应用可以预期将是 所公开的各方法和过程所涉及领域的技术人员通常能想到的。

公开了使用可增量式更新的查询分类器来对网络上的文档进行排序的各 种方法。每一个文档对于给定搜索查询的相关性使用利用对于每一个所输入查 询/所选结果数据组合的实时用户数据的可增量式更新的查询分类器来计算。如 由查询分类器单独或结合其他排序功能组件确定的每一个文档的文档相关性 可用于对给定网络空间(例如,公司内联网空间或因特网)内的文档进行排序。 其中可使用所公开的各方法的示例性搜索过程被示为图1中的示例性过程10。

图1描绘了示例性搜索过程10,该过程开始于其中用户输入搜索查询的 过程步骤80。示例性搜索过程10从步骤80前进至步骤200,其中搜索引擎在 网络空间内的所有文档中搜索一个或多个搜索查询项。示例性搜索过程10从 步骤200前进至步骤300,其中搜索引擎的排序功能基于每个文档对于该搜索 查询的相关性来对网络空间内的文档进行排序,该文档相关性基于在给定该搜 索查询的情况下基于如将在以下描述的经修改的朴素贝叶斯模型来检索到文 档的概率。示例性搜索过程10从步骤300前进至步骤400,其中通常以降序来 向用户呈现经排序的搜索结果,以便标识该网络空间内与该搜索查询最相关 (即,在给定特定搜索项的情况下具有最高检索概率)的文档。

如将在以下更详细地讨论的,对文档进行排序的方法包括利用关于由一个 或多个用户对网络空间内的一个或多个文档的实际使用(例如,查看)的实时 “用户响应数据”或“文档使用数据”。文档使用数据由与给定搜索引擎分开的 web服务器上的应用程序代码来生成并存储。例如,文档使用数据可由网站维 护,以使得在每次用户请求URL时,服务器就更新使用计数器或计数值。使 用计数器可以维护在诸如上周、上个月、去年或给定的一个或一组文档的生存 期等给定时间间隔内所获得的文档相关数据。应用程序代码可用于经由(i)特殊 的应用程序编程接口(API)、(ii)web服务请求、或(iii)通过请求返回网站上每 一URL的使用数据的管理网页来从网站获得使用数据。

文档相关性可用于对网络空间内的文档进行排序,并将经排序的搜索结果 提供给用户。例如,一种对网络上文档进行排序的方法包括以下步骤:使用可 增量式更新的搜索查询分类器来确定网络上每一文档的文档相关性;以及基于 每一文档相对于用户输入的搜索查询的文档相关性按所需次序(通常按降序) 来对这些文档进行排序。

使用此处所公开的方法的应用程序可以在包括各种硬件组件的计算机系 统上加载并执行。用于实践此处所公开的各方法的示例性计算机系统和示例性 操作环境将在以下描述。

示例性操作环境

图2示出了可在其上实现此处所公开的各方法的合适的计算系统环境100 的示例。计算系统环境100仅为合适的计算环境的一个示例,并非对在此公开 各方法的使用范围或功能性提出任何局限。也不应该把计算环境100解释为对 示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。

此处所公开的各方法可运行于多种其它通用或专用计算系统环境或配置。 适用于此处公开的方法中的公知的计算系统、环境和/或配置的示例包括,但不 限于,个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基 于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型 计算机、包括上述系统或设备中的任一个的分布式计算机环境等。

此处所公开的各方法和过程可在诸如由计算机执行的程序模等计算机 可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定任务或实 现特定抽象数据类型的例程、程序、对象、组件、数据结构等。在此公开的方 法和过程也可以在其中任务由通过通信网络连接的远程处理设备来执行的分 布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存 储设备在内的本地和远程计算机存储介质中。

参考图2,用于实现在此公开的方法和过程的一示例性系统包括计算机 110形式的通用计算设备。计算机110的组件可以包括但不限于,处理单元120、 系统存储器130和将包括系统存储器130在内的各种系统组件耦合至处理单元 120的系统总线121。系统总线121可以是若干类型的总线结构中的任一种, 包括存储器总线或存储器控制器、外围总线和使用各种总线体系结构中的任一 种的局部总线。作为示例,而非限制,这样的体系结构包括工业标准体系结构 (ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视 频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为 夹层(Mezzanine)总线)。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是能由计 算机110访问的任何可用介质,而且包含易失性、非易失性介质以及可移动和 不可移动介质。作为示例而非局限,计算机可读介质可以包括计算机存储介质 和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、 程序模块或其它数据等信息的任何方法或技术来实现的易失性和非易失性、可 移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、 闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、 磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以 由计算机100访问的任何其它介质。通信介质通常以诸如载波或其它传输机制 等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据, 并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以 在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质 包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、 红外线和其它无线介质。上述中的任意组合也应包括在此处使用的计算机可读 介质的范围之内。

系统存储器130包括形式为易失性和/或非易失性存储器的计算机存储介 质,譬如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入 /输出系统133(BIOS)包含有助于诸如启动时在计算机110中元件之间传递 信息的基本例程,它通常存储在ROM 131中。RAM 132通常包含处理单元120 可以立即访问和/或目前正在其上操作的数据和/或程序模块。作为示例而非局 限,图2示出了操作系统134、应用程序135、其它程序模块136和程序数据 137。

计算机110还可以包括其它可移动/不可移动、易失性/非易失性计算机存 储介质。仅作为示例,图2示出了从不可移动、非易失性磁介质中读取或向其 写入的硬盘驱动器140,从可移动、非易失性磁盘152中读取或向其写入的磁 盘驱动器151,以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘 156中读取或向其写入的光盘驱动器155。可以在示例性操作环境中使用的其 它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、 闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱 动器141通常由不可移动存储器接口,诸如接口140连接至系统总线121,磁 盘驱动器151和光盘驱动器155通常由可移动存储器接口,诸如接口150连接 至系统总线121。

以上讨论并在图2中示出的驱动器及其相关联的计算机存储介质为计算 机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。在 图2中,例如,硬盘驱动器141被示为存储操作系统144、应用程序145、其 它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用 程序135、其它程序模块136和程序数据137相同,也可以与它们不同。操作 系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了 不同的标号是为了说明至少它们是不同的副本。

用户可通过如键盘162和定点设备161(通常指鼠标跟踪球、笔或触摸 垫)等输入设备来向计算机110输入命令和信息(例如,一个或多个搜索查询 项或单词)。其它输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆 盘式卫星天线、扫描仪等。这些和其它输入设备通常通过耦合至系统总线的用 户输入接口160连接至处理单元120,但也可以由其它接口和总线结构,诸如 并行端口、游戏端口或通用串行总线(USB)连接。监示器191或其它类型的 显示设备(例如,用于向用户提供搜索结果以供查看的显示设备)也经由如视 频接口190等接口连接到系统总线121。除监视器191以外,计算机110也可 以包括其它外围输出设备,诸如扬声器197和打印机196,它们可以通过输出 外围接口195连接。

计算机110可使用至一个或多个远程计算机,如远程计算机180的逻辑连 接在网络化环境下操作。远程计算机180可以是个人计算机、服务器、路由器、 网络PC、对等设备或其它常见网络节点,且通常包括以上相对于计算机110 描述的许多或所有元件,尽管在图2中只示出存储器存储设备181。图2中所 示的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括 其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网 中是常见的。

当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连 接至LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调 器172,或用于通过WAN 173,如因特网建立通信的其它装置。调制解调器 172可以是内置或外置的,它可以通过用户输入接口160或其它合适的机制连 接至系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或 其部分可以存储在远程存储器存储设备中。作为示例而非局限,图2示出远程 应用程序185驻留在存储器设备181上。可以理解,所示的网络连接是示例性 的,且可以使用在计算机之间建立通信链路的其它手段。

此处所公开的各方法和过程可使用一或多个应用程序来实现,这些应用程 序包括但不限于,服务器系统软件应用程序(例如,WINDOWS SERVER SYSTEMTM软件应用程序),搜索排序应用程序,以及用于生成、维护和存储 网络空间内的文档的使用数据的应用程序(例如, 服务应用程序),这些应用程序中的任一个可以是被指定为示例性系统100中 的应用程序135、应用程序145和远程应用程序1 85的众多应用程序之一。

如上所述,本领域的技术人员可以理解,所公开的在给定特定搜索查询项 的情况下对文档进行排序的方法可以在其它计算机系统配置中实现,包括手持 式设备、多处理器系统、基于微处理器的或可编程消费电子产品、联网的个人 计算机、小型计算机、大型计算机等等。所公开的对文档进行排序的方法也可 以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中 实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备中。

示例性实施例的实现

如以上所讨论的,提供了使用可增量式更新的查询分类器来对网络上的文 档进行排序的各种方法。所公开的对网络上的文档进行排序的方法利用如将在 以下描述的经修改的朴素贝叶斯模型。

贝叶斯的规则规定在给定B的情况下A的概率P(A|B)与在给定A的情况 下B的概率P(B|A)相关,并可由以下关系来示出:

P(A|B)P(B)=P(B|A)P(A).

当B由大量“特征”{f1...fN}组成时,朴素贝叶斯逼近约简为:

P ( A | f 1 , . . . , f N ) = P ( A ) P ( f 1 , . . . , f N | A ) P ( f 1 , . . . , f N ) P ( A ) Π i = 1 N P ( f i | A ) Π i = 1 N P ( f i ) .

在所公开的对文档进行排序的各方法中,查询分类器模型利用类似的公 式,其预测在给定搜索“查询”的情况下“资产”(例如,所选文档或“命中”)的 出现,其中特征是该搜索查询中的项或单词。此处所使用的查询分类器模型由 以下公式示出:

P ( Asset | Query ) = P ( Asset ) * Π i = 1 N Q P ( w i Q | Asset ) * Π i = 1 V - N Q P ( w i Q | Asset )

其中:

Asset是正返回的资产或任务(例如,文档),

Query是包含一个或多个搜索查询项的用户的查询,

NQ是搜索查询中的项数,

V-NQ是搜索查询中看不见的项数,其中V是词汇大小,

P(wi∈Q|Asset)是在搜索查询中看见项的概率,以及

P ( w i Q | Asset ) 是在搜索查询中看不见项的概率。

通过取两边的对数,该公式变为:

log [ P ( Asset | Query ) ] = log [ P ( Asset ) ] + Σ i = 1 N Q log [ P ( w i Q | Asset ) ] +

Σ i = 1 V = N Q log [ P ( w i Q | Asset ) ]

通过对在词汇表中的所有单词中看不见给定搜索查询项的概率求和并从 在该搜索查询中看见这些项的概率中减去这些概率的总和,该公式变为:

log [ P ( Asset | Query ) ] = log [ P ( Asset ) ] + Σ i = 1 N Q ( log [ P ( w i Q | Asset ) - log [ P ( w i Q | Asset ) ] ) +

Σ i = 1 V log [ P ( w i Q | Asset ) ] .

因为在给定搜索查询中看不见一单词的概率等于1减去在该给定搜索查询中看 见该单词的概率,所以该公式变为:

log [ P ( Asset | Query ) ] = log [ P ( Asset ) ] + Σ i = 1 N Q ( log [ P ( w i Q | Asset ) - log [ 1 - P ( w i Q | Asset ) ] )

+ Σ i = 1 V log [ 1 - P ( w i Q | Asset ) ] .

通过使用以下等式来扩展每一项:

log[P(Asset)]=log[#(Asset)]-log[#(T)]

log[P(wi∈Q|Asset)]=log[#(wi,Asset)]-log[#(Asset)]

该公式变为:

log [ P ( Asset | Query ) ] = log [ # ( Asset ) ] - log [ # ( T ) ] +

Σ i = 1 N Q ( log [ # ( w i , Asset ) ] - log [ # ( Asset ) ] - log [ 1 - P ( w i Q | Asset ) ] ) +

Σ i = 1 V log [ 1 - P ( w i Q | Asset ) ]

其中:

#(Asset)是给定“资产”(例如,网络上的给定文档)被选择以供任 何用户查看的次数;

#(T)是已由系统记录的搜索查询的总数,以及

#(wi,Asset)是给定“资产”(例如,网络上的给定文档)和搜索查询 的搜索项wi已由任何用户匹配的次数。

通过对log(1-x)使用泰勒级数逼近:

log ( 1 - x ) = - Σ i = 1 x i i ,

一阶逼近就是-x。因此,使用该一阶逼近:

log[1-P(wi∈Q|Asset)]≈-P(wi∈Q|Asset)

并且总和变为

Σ i = 1 V log [ 1 - P ( w i Q | Asset ) ] - Σ i = 1 V # ( w i , Asset ) # ( Asset ) .

此处所使用的查询分类器模型的公式现在变为:

log [ P ( Asset | Query ) ] = log [ # ( Asset ) ] - log [ # ( T ) ] +

Σ i = 1 N Q ( log [ # ( w i , Asset ) ] - log [ # ( Asset ) ] + # ( w i , Asset ) # ( Asset ) ) - Σ i = 1 V # ( w i , Asset ) # ( Asset ) - - - ( I )

其中:

∑#(wi,Asset)是给定“资产”(例如,网络上的给定文档)和搜索查 询的搜索项wi已由任何用户匹配的次数的总和。

通过知道对应于每一个资产和每一个搜索查询/资产组合的项#(Asset)、 #(wi,Asset)和∑#(wi,Asset)的值,可以计算log[#(Asset)]和log[#(wi,Asset)]的 值,并且可以使用上述公式(I)来提供对于网络空间中的文档的文档相关性分数 (即,基于给定搜索查询检索到资产或文档的概率)。

如以上所讨论的,实际使用或用户响应数据(例如,项#(Asset)和#(wi,Asset) 的值)可以从存储关于网络上的一个或多个文档的实际使用数据的一个或多个 文件获得。实际使用数据可连同文档一起作为文档分量来存储,或者可与实际 文档分开存储在数据存储文件中。数据存储和检索可以使用包括但不限于web 服务调用、结构化查询语言(SQL)系统等任何已知方法来实现。例如,可以 使用远程存储系统来存储包括例如,跨所有用户对给定网络上的每一个文档的 请求数的实际使用数据。

图3A-3B表示示出响应于由用户输入的搜索查询来产生经排序的搜索结 果的示例性方法中的各示例性步骤的逻辑流程图,其中该方法利用可增量式更 新的系统中的用户响应数据。如图3所示,示例性方法30开始于框201并前 进至其中用户输入诸如单个单词或者单词或项串等搜索查询的步骤202。示例 性方法30从步骤202前进至其中“词例化(tokenize)”搜索查询分量的步骤203。 如此处所使用的,术语“词例化”指的是其中使用断词器来从单词或项串中创建 “词例”列表的过程。例如,搜索查询“printing problems color(打印 问题 颜色)” 将被词例化以形成词例/搜索查询分量的集合{“printing”,“problems”,“color”}。 列表中的每一个“词例”都表示在上述查询分类器公式中使用的各自的搜索查 询分量wi。

示例性方法30从步骤203前进至步骤205,其中从数据库中检索预先计 算的、存储的对应于每一个查询分量wi(例如“printing”、“problems”和“color”) 的值#(wi,Asset)和log[#(wi,Asset)]。示例性方法30从步骤205前进至步骤208, 其中从数据存储数据库中检索预先计算的、存储的值#(Asset)、log[#(Asset)]和 ∑#(wi,Asset)。示例性方法30从步骤208前进至步骤209,其中在以上提供的 公式(I)中利用来自步骤205和208的使用数据,即(1)对应于每一个搜索项/ 资产组合的值#(wi,Asset)和log[#(wi,Asset)],以及(2)对应于每一个资产的值 #(Asset)、log[#(Asset)]和∑#(wi,Asset)来确定网络空间中的每一个文档对于该搜 索查询的文档相关性。

示例性方法30从步骤209前进至图3B所示的步骤210,其中以相关性的 降序来对所有文档进行排序。示例性方法30然后前进至其中向用户显示搜索 结果中的至少一部分的步骤211。示例性方法30从步骤211前进至其中用户选 择(例如,点击)给定搜索结果(例如,资产)来查看的步骤212。

一旦选择了特定文档或搜索结果(例如,资产)来查看,示例性方法30 就前进至步骤213,其中更新计数值#(Asset)、#(wi,Asset)和∑#(wi,Asset)以反映 该用户响应。应当注意,更新计数值#(Asset)、#(wi,Asset)和∑#(wi,Asset)的过 程可以在用户选择给定搜索结果(例如,资产)后的任何时间发生。例如, 计数值可以被立即更新或可以在实际上选择了给定搜索结果之后的某一时刻 更新。计数值可以例如每小时或每24小时时间段期间更新一次。如果这些值 没有被立即更新,则在给定时间段(例如,24小时时间段)期间维护一日志以 便在该时间段期间临时存储用户响应数据。在每个时间段结束时使用应用程序 代码来更新每一个计数值。

示例性方法30从步骤213前进至其中计算值log[#(Asset)]和log[#(wi, Asset)]的步骤214。示例性方法30从步骤214前进至步骤215,其中将来自步 骤213和214的已更新的值(即,#(Asset)、#(wi,Asset)、∑#(wi,Asset)、log[#(Asset)] 和log[#(wi,Asset)])存储在数据库中以替换先前存储的值。

示例性方法30从步骤215前进至判定框216,其中由用户确定是否查看 步骤211中所提供的其他搜索结果。如果用户确定查看步骤211中所提供的其 他搜索结果,则示例性方法30前进至步骤216,其中用户返回至步骤211中所 提供的搜索结果。示例性方法30从步骤217返回到步骤212并且如上所述地 前进。

返回到判定框216,如果在判定框216处用户确定不查看步骤211中所提 供的其他搜索结果,则示例性方法30前进至判定框218。在判定框218处,由 用户确定是否执行新的搜索。如果用户确定执行新的搜索,则示例性方法30 前进至步骤219,其中示例性方法30返回到步骤202并如上所述地前进。如果 在判定框216处用户确定不执行新的搜索,则示例性方法30前进至步骤220, 其中示例性方法30结束。

上述用可增量式更新的系统来向用户提供经排序的搜索结果的方法还可 包括时间衰减组件,其中在计算值#(Asset)、#(wi,Asset)、∑#(wi,Asset)、 log[#(Asset)]和log[#(wi,Asset)]时给予更新近的查询/资产数据比老的查询/资产 数据更大的权重。例如,查询术语“特洛伊”可能意味着2000年前非常不同的 某一事物,而不是若干年前在一名为“特洛伊”的体育运动队赢得大学橄榄球冠 军时该术语的意思、以及最近当“特洛伊木”病毒作为计算机病毒出现时该术 语的意思。在所公开的方法中具有时间衰减组件提供了对于更新近的用户偏好 以及更新近的事件的偏向。

在利用时间衰减组件时,使用加权乘数来对更新近的事件进行比过去的事 件更大程度的加权。示例性加权乘数包括λt,其中λ是小于1.0的数字而t是 表示查询和/或资产计数值分量的年龄的整数(例如,t可表示给定的24小时 时间段以使得t=0将表示上一个24小时时间段,t=1将表示前一个24小时 时间段,t=2将表示在t=1的24小时时间段之前的24小时时间段,以此类 推)。上述在公式(I)中使用的计数值可被设置成等于以下值:

# ( Asset ) = # ( Asset ) ( 0 ) + λ [ # ( Asset ) ( 1 ) ] + λ 2 [ # ( Asset ) ( 2 ) ] +

λ 3 [ # ( Asset ) ( 3 ) ] + . . . .

= Σ t = 0 λ t [ # ( Asset ) ( t ) ] ;

# ( w i , Asset ) = # ( w i , Asset ) ( 0 ) + λ # ( w i , Asset ) ( 1 ) ] +

λ 2 [ # ( w i , Asset ) ( 2 ) ] + λ 3 [ # ( w i , Asset ) ( 3 ) ] + . . . .

= Σ t = 0 λ t [ # ( w i , Asset ) ( t ) ] ; 以及

Σ # ( w i , Asset ) = Σ # ( w i , Asset ) ( 0 ) + λ [ Σ # ( w i , Asset ) ( 1 ) ] +

λ 2 [ Σ # ( w i , Asset ) ( 2 ) ] + λ 3 [ Σ # ( w i , Asset ) ( 3 ) ] + . . . .

= Σ t = 0 λ t [ Σ # ( w i , Asset ) ( t ) ] .

在以上计数值中的每一个中,随着t增大(即,查询和/或资产分量的年龄 增长),λt的值减小,从而导致给定计数值的老的分量被给予比更当前的计数 值分量更小的权重。例如,在其中频率是24小时时间段的示例性实施例中, 全新的查询(即,在上一个24小时时间段期间的查询)被给予权重1,而老一 天的查询(即,在前一个24小时时间段期间的查询)被给予权重λ,并且老 100天的查询被给予权重λ100。通过将λ设置成诸如以上模型中的0.995,给定 查询的权重在2年的时间段内逐渐衰减。

为了在给定时间段结束时(例如,在24小时时间段结束时)更新计数值, 计数值只是需要按照以下公式重新计算:

#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)];

#(wi,Asset)(new)=#(wi,Asset)(0)+λ[#(wi,Asset)(old)];以及

∑#(wi,Asset)(new)=∑#(wi,Asset)(0)+λ[∑#(wi,Asset)(old)],

其中:

#(Asset)(new)、#(wi,Asset)(new)和∑#(wi,Asset)(new)分别表示对应 于计数#(Asset)、#(wi,Asset)和∑#(wi,Asset)的增量式更新的值。

#(Asset)(0)、#(wi,Asset)(0)和#(wi,Asset)(0)分别表示对于计数 #(Asset)、#(wi,Asset)和∑#(wi,Asset)的在上一个时间段(例如,上一个24小时 时间段)内的出现次数;以及

#(Asset)(old)、#(wi,Asset)(old)和∑#(wi,Asset)(old)分别表示对于计 数#(Asset)、#(wi,Asset)和∑#(wi,Asset)的在上一个时间段之前的累积的计数值 (例如,多于24小时之前的计数值)。这一使用可增量式更新的时间衰减模 型的方法将参考图4A-4B来进一步描述。

如图4A所示,示例性方法40开始于起始框301并且前进至步骤302,其 中用户选择加权乘数λt,其中λ是小于1.0的数字而t是表示查询和/或资产计 数值分量的年龄的整数。示例性方法40从步骤302前进至步骤303,其中用户 选择更新所有计数值#(Asset)、#(wi,Asset)和∑#(wi,Asset)的频率。通常,所有 计数值在24小时时间段期间被更新一次(即,由t表示的每一个时间单元都是 24小时时间段);然而,用户可选择任何所需频率,诸如计数值每小时更新一 次(即,由t表示的每一个时间单元都是1小时的时间)等。

示例性方法40从步骤303前进至步骤305,其中监视时间和日期以使得 可注明给定查询和用户响应的日期。示例性方法40从步骤305前进至步骤306, 其中如上所述地增量式更新计数值(例如,在给定频率时间段结束时更新)。 在该步骤中,增量式更新每一个计数值所有需要做的就是将具有权重1.0的新 的查询/资产组合数据(即,#(Asset)(0)、#(wi,Asset)(0)和∑#(wi,Asset)(0)数据) 添加到先前存储的按照因子λ来时间衰减的计数值(即,#(Asset)(old)、#(wi, Asset)(old)和∑#(wi,Asset)(old))。如以上所讨论的,更新的计数值等于:

#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)];

#(wi,Asset)(new)=#(wi,Asset)(0)+λ#(wi,Asset)(old)];以及

∑#(wi,Asset)(new)=∑#(wi,Asset)(0)+λ[∑#(wi,Asset)(old)]。

示例性方法40从步骤306前进至步骤307,其中计算log[#(Asset)]和 log[#(wi,Asset)]的值,并且将所有已更新的值存储在数据库中。示例性方法40 从步骤307前进至如图4B所示的判定框308,其中由用户确定是否执行搜索。 如果在判定框308处用户确定执行搜索,则示例性方法40前进至步骤318,其 中执行上述(图3A-3B所示的)示例性方法30的步骤202到211。示例性方 法40从步骤318前进至其中用户选择(例如,点击)给定搜索结果(例如, 资产)来查看的步骤309。

一旦选择了特定文档或搜索结果(例如,资产)来查看,示例性方法40 就前进至步骤310,其中更新值#(Asset)(0)、#(wi,Asset)(0)和∑#(wi,Asset)(0)以 反映该用户响应。临时地存储#(Asset)(0)、#(wi,Asset)(0)和∑#(wi,Asset)(0)值直 到频率时间段结束(例如,24小时时间段结束)。如以上所讨论的,该频率时 间段可以是任何所需时间长度,但通常是24小时时间段。在每一个时间段结 束时,使用应用程序代码来更新每一个计数值#(Asset)、#(wi,Asset)和∑#(wi, Asset)以提供增量式更新的计数值#(Asset)(new)、#(wi,Asset)(new)和∑#(wi, Asset)(new),如步骤306所描述的。

示例性方法40从步骤310前进至判定框311,其中由用户确定是否查看 在318(即,示例性方法30中的步骤211,其是示例性方法40中的步骤318 的分量)中提供的其他搜索结果。如果用户确定查看步骤318中所提供的其他 搜索结果,则示例性方法40前进至步骤312,其中用户返回至步骤318中所提 供的搜索结果。示例性方法40从步骤312返回到步骤309,并且如上所述地前 进。

返回到判定框311,如果在判定框311处用户确定不查看步骤318中所提 供的其他搜索结果,则示例性方法40前进至判定框313。在判定框313处,由 用户确定是否执行新的搜索。如果用户确定执行新的搜索,则示例性方法40 前进至步骤314,其中示例性方法40返回到步骤318并如上所述地前进。如果 在判定框313处用户确定不执行新的搜索,则示例性方法40前进至判定框315, 其中由应用程序代码基于步骤303中的所选频率来确定是否需要更新计数值 #(Asset)、#(wi,Asset)和∑#(wi,Asset)。如果应用程序代码确定需要更新这些计 数值(即,频率时间段已经结束),则示例性方法40返回至步骤306并如上 所述地前进。如果在判定框315处应用程序代码确定无需更新计数值,则示例 性方法40返回至步骤308并如以所述地前进。

返回到判定框308,如果在判定框308处用户确定不执行搜索,则示例性 方法40前进至步骤319,其中示例性方法40返回到判定框315并如以所述地 前进。

上述响应于搜索查询使用具有或不具有时间衰减组件的可增量式更新的 系统来对文档进行排序的方法可单独或结合其他排序功能组件使用以便向用 户提供经排序的搜索结果。在结合其他排序功能使用时,可以使用任何已知的 一个或多个排序功能组件。已知排序功能组件可包括,但不限于(i)如2004年 3月18日提交的题为“FIELD WEIGHTING IN TEXT DOCUMENT SEARCHING(文本文档搜索中的字段加权)”的美国专利申请第10/804,326 号中所描述的字段加权的排序功能组件,该专利申请的主题通过引用整体结合 于此;(ii)如2004年8月30日提交的题为“SYSTEM AND METHOD FOR RANKING SEARCH RESULTS USING CLICK DISTANCE(用于使用点击距离 来对搜索结果进行能够排序的系统和方法)”的美国专利申请第10/955,983号 中所公开的点击距离排序功能组件,该专利申请的主题通过引用整体结合于 此;(iii)如2005年8月15日提交的题为“RANKING FUNCTIONS USING A BIASED CLICK DISTANCE OF A DOCUMENT ON A NETWORK(使用网络 上的文档的偏移的点击距离的排序功能)”的美国专利申请第11/206,286号中 所公开的偏移的点击距离排序功能组件,该专利申请的主题通过引用整体结合 于此;(iv)文档的URL深度;或者(v)(i)到(iv)的任何组合。

此处还公开了计算系统。示例性计算系统包含可以在该计算系统上使用的 至少一个应用模块,其中该至少一个应用模块包括加载在其上的应用程序代 码,其中该应用程序代码执行使用上述具有或不具有时间衰减组件的可增量式 更新的查询分类器来对网络上的文档进行排序的方法。该应用程序代码可被加 载到使用上述其上具有计算机可执行指令的计算机可读介质中的任一个的计 算机系统上,这些计算机可执行指令用于使用上述具有或不具有上述时间衰减 组件的可增量式更新的查询分类器来对网络上的文档进行排序。

尽管已经参考本说明书的具体实施例详细地描述了本说明书,但可以理 解,本领域的技术人员在理解了上述内容之后,就可以容易地想到对于这些实 施例的更改、变型或等效方案。因此,所公开的各方法、计算机可读介质和计 算系统的范围应被评定为所附权利要求书及其任何等效方案的范围。

相关专利内容
标题 发布/更新时间 阅读量
一种修改纸 2020-05-11 122
声学信号修改 2020-05-12 221
修改带式胶带 2020-05-13 151
业务流修改流程 2020-05-13 285
已修改流同步 2020-05-13 727
修改液笔 2020-05-11 122
百叶修改器 2020-05-12 38
修改对话窗口 2020-05-12 618
引导过程修改 2020-05-13 555
错字修改笔 2020-05-12 958
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈