首页 / 专利库 / 专利权 / 申请人 / 一种基于观点检索的信息检索文档的评分方法

一种基于观点检索的信息检索文档的评分方法

阅读:409发布:2021-04-13

专利汇可以提供一种基于观点检索的信息检索文档的评分方法专利检索,专利查询,专利分析的服务。并且一种基于观点检索的 信息检索 文档的评分方法属于信息处理领域。其特征在于:它首先建立情感词列表,在列表中 指定 要在检索系统中使用的所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在系统中计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数,计算出系统中每篇文档的主客观性评分;再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;最后检索系统根据文档的最终评分对系统中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。该技术具有计算机自动完成,能够返回既具有高相关性又带有强烈主观意见的检索结果的优点。,下面是一种基于观点检索的信息检索文档的评分方法专利的具体信息内容。

1.一种基于观点检索的信息检索文档的评分方法,其特征在于,所述方法是在一个计 算机信息检索系统中依次按以下步骤实现的:
步骤(1).在所述系统的观点检索服务器中建立一个中、英文对照的情感词列表, 所述情感词至少包括下列所有属性中的一个属性:好、良、美、伟、坏、莠以及伪;
步骤(2).针对用户输入的至少一个查询词wi,所述系统通过信息检索把所有带有 用户查询中任一查询词wi的文档d自动挑选出来,作为候选文档集合,所述候选文档简 称为文档d,并建立文档索引,统计所有被索引的文档总数N,计算平均每篇文档中所 包含的词数avdl;同时,对用户的每一个查询词wi,统计所述候选文档集合中所有出现 了该查询词wi的文档d的总数,用变量df(wi)表示;
步骤(3).按下式计算每一篇文档d与用户查询中的每一个查询词wi的相关性评分 ScoreIrel(d,wi):
ScoreI rel ( d , w i ) = ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ,
其中:k1是1.0~2.0之间的常数,
c(wi,d)是词wi在文档d中出现的总次数,
c(wi,q)是词wi出现在用户查询Q中的总次数,
b是0.0~1.0之间的常数,
ld是文档d的长度,用文档d中的总词数表示,
k3是0~1000之间的整数常数;
步骤(4).按下式把每一篇文档d与用户查询中的所有查询词的相关性评分相加, 得到该文档d关于用户查询Q的相关性评分,q是用户的查询词集合:
ScoreI rel ( d , q ) = Σ w i q ScoreI rel ( d , w i ) ;
步骤(5).按下式计算每篇文档d的主客观性评分ScoreIop(d,q),q是用户的查询 词集合:

其中:λ是一个0.0~1.0之间的常数,
si∈d是文档d中的每个情感词,
co(si,wi|W)是所有与用户查询Q中的任一查询词wi同时出现在文档d中并且 与查询词wi的位置距离小于W的情感词si在所有位置上出现的总次数,W=25,单 位是词数,
c(wi,d)是查询词wi在文档d中出现的总次数;
步骤(6).按下式计算每一篇文档的最终评分,用ScoreIrel(d,q)×ScoreIop(d,q)表 示;
步骤(7).在所述系统中,把所有的候选文档按照其相应的最终评分从大到小的顺 序进行排序,得到观点检索后的结果列表并作为最终的检索结果返回给用户。
2.根据权利要求1所述的一种基于观点检索的信息检索文档的评分方法,其特征在于, 在所述步骤(1)之前还有一个对原始数据的预处理步骤,其中包括:去除停用词,对 文档进行分词,以及对文档内容利用倒排文档技术建立索引,对用户提交的查询使用与 所述文档相同的预处理方法进行预处理。

说明书全文

技术领域

发明属于信息处理领域,特别是涉及信息检索系统,具体说是在信息检索系统中 对文档进行评分的方法,最终得到与用户查询相关的且带有主观意见的检索结果。

背景技术

信息检索系统是以一定的策略收集信息(例如互联网上的网页文档,或数字图书馆 中的数字文档等),对信息进行组织和处理后为用户提供检索服务的计算机系统,它包 括计算机硬件系统以及在硬件系统上运行的软件程序两个部分。它的主要作用是帮助用 户快捷、高效的获取那些能够满足用户需求的有用信息。
信息检索系统通过查询服务器与用户进行交互。一方面查询服务器提供一个可供用 户输入或选择自己的查询需求的页面,通常查询需求由一个或几个关键词构成。另一方 面查询服务器针对用户提交的查询,在系统内所有的文档中进行检索,返回排序后的相 关结果列表,并在结果页面中按顺序展示给用户。其中对系统内文档的排序依据就是文 档与用户查询之间的相关性评分,评分越高,排序越靠前。因此查询服务器中的一个关 键技术是如何计算文档的相关性,得到可供排序的相关性评分,从而使得用户想要的页 面排在返回结果的前列位置,相关信息更容易被用户访问到。
随着信息检索系统的发展,人们也开始提出了更多更复杂的查询需求,其中一种重 要需求是观点检索(opinion search)。在观点检索中,系统不仅要找出与用户查询相 关的信息,而且这些信息必须带有一定的感情色彩,即检索系统要返回相关的且带有主 观性意见的信息。而那些仅仅是客观性描述的相关信息也被认为不符合用户需求。例如 一个用户想要买一款手机,那么他在检索系统中输入查询“N95手机”进行观点检索, 希望返回的内容是其他用户或者评论中关于N95的各种性能和功能上的意见,例如手机 的价格是否便宜,外观是否好看,电池是否耐用,总体评价是否好,等等。在这样的要 求下,查询服务器不仅要计算每个文档的相关性评分,还要计算其主客观性评分,然后 将这两种评分合并到一起,形成一篇文档的最终得分,并排序后返回给用户。
从20世纪60年代中期以来,人们提出了很多计算文档与用户查询的相关性的模型。 其主要的思想就是“TF*IDF”,即一方面考虑用户的查询词在一篇文档中出现的次数, 出现次数越多越有可能相关,另一方面考虑这个查询词在全部文档中的常见程度,越常 见,其区分能越弱。当前应用广泛的模型主要有布尔模型(Boolean Model),统计模 型(Statistical Model)和语言知识模型(Linguistic and Knowledge-based Model)。
在计算文档的主客观性评分方面,一种常用的方法是看这篇文档中出现了多少带有 主观性感情色彩的词(通常称为情感词)。出现的情感词越多,则文档的主客观性评分 越高。其中情感词通常由一个人工或自动的方法事先构建好的情感词列表给出。另一种 方法是通过文本分类的技术,把一篇文档分为主观类或客观类,根据该文档属于某类的 程度不同,得到该文档的主客观性评分。
在观点检索中,如何将主客观性评分和相关性评分合并起来,是影响观点检索系统 性能的一个重要因素。由于缺乏深入研究,目前的相关技术中并没有把这两个评分之间 的联系建立起来,常用的方法是把这两种评分以一定的比例进行简单地相加(例如将客 观性评分乘以A,将相关性评分乘以B,并把二者加起来。A和B是事先给定的数值)。 不少实验结果表明,这种方法不能很好地满足用户的观点检索需求。甚至在很多情况下, 经过这种相关性和主客观性评分合并之后的结果,其性能还不如只使用相关性评分进行 排序后提供给用户的结果的效果。因此,有必要提出一种有效地合并相关性和主客观性 评分的方法,以改进信息检索系统的性能,满足用户进行观点检索的需求。

发明内容

观点检索系统要根据用户需求,返回与用户查询相关的、且带有主观性意见的信息。 本发明提出一种既考虑文档的主客观性又考虑文档的相关性的评分方法。不同于传统的 加权线性合并方法(即对两个评分分别乘以一个常数的权值,然后以相加的方式合并起 来),在本发明提出的合并方法中,综合考虑了相关性对主客观性的影响,将相关性评 分与主客观评分以二次函数(即相乘)的关系合并起来。其中特别考虑到两种评分的取 值差异,将主客观评分进行了取对数(log)的归一化处理。通过这种合并方法,最终 排序后返回给用户的结果文档中,那些排序靠前的文档既具有很高的相关性,又具有很 强的主观性,从而有效地改进观点检索系统的性能,方便用户在较早出现的结果页面中 就能进行信息的访问,因此更能满足用户观点检索的需求。
该方法的具体内容如下:
1.首先建立情感词列表,在列表中指定要在检索系统中使用的所有带有感情色彩 的词,然后针对用户输入给系统的查询,系统自动找出候选文档集合;
2.在检索系统中计算每篇文档与用户输入的查询之间的相关性程度,得到文档的 相关性评分;
3.根据一篇文档中与查询词在设定距离范围内共同出现的带有感情色彩的词(即 情感词)的个数,计算出文档的主客观评分;
4.将一篇文档的相关性评分和主客观评分进行基于二次函数(即相乘)的合并, 得到合并后的文档最终评分;
5.检索系统根据最终评分对系统中的所有候选文档进行排序,并按照评分从大到 小的次序显示给用户。
本发明的特征在于:
所述方法是在一个计算机信息检索系统中依次按以下步骤实现的:
步骤(1).在所述系统的观点检索服务器中建立一个中、英文对照的情感词列表, 所述情感词至少包括下列所有属性中的一个属性:好、良、美、伟、坏、莠以及伪;
步骤(2).针对用户输入的至少一个查询词wi,所述系统通过信息检索把所有带 有用户查询中任一查询词wi的文档d自动挑选出来,作为候选文档集合,所述候选文档 简称为文档d,并建立文档索引,统计所有被索引的文档总数N,计算平均每篇文档中 所包含的词数avdl;同时,对用户的每一个查询词wi,统计所述候选文档集合中所有出 现了该查询词wi的文档d的总数,用变量df(wi)表示;
步骤(3).按下式计算每一篇文档d与用户查询中的每一个查询词wi的相关性评 分ScoreIrel(d,wi):
ScoreI rel ( d , w i ) = ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ,
其中:k1是1.0~2.0之间的常数,
c(wi,d)是词wi在文档d中出现的总次数,
c(wi,q)是词wi出现在用户查询Q中的总次数,
b是0.0~1.0之间的常数,
ld是文档d的长度,用文档d中的总词数表示,
k3是0~1000之间的整数常数;
步骤(4).按下式把每一篇文档d与用户查询中的所有查询词的相关性评分相 加,得到该文档d关于用户查询Q的相关性评分,q是用户的查询词集合:
ScoreI rel ( d , q ) = Σ w i q ScoreI rel ( d , w i ) ;
步骤(5).按下式计算每篇文档d的主客观性评分ScoreIop(d,q),q是用户的查 询词集合:

其中:λ是一个0.0~1.0之间的常数,
si∈d是文档d中的每个情感词,
co(si,wi|W)是所有与用户查询Q中的任一查询词wi同时出现在文档d中并且与查 询词wi的位置距离小于W的情感词si在所有位置上出现的总次数,W=25,单位是词数,
c(wi,d)是查询词wi在文档d中出现的总次数;
步骤(6).按下式计算每一篇文档的最终评分,用ScoreIrel(d,q)×ScoreIop(d,q) 表示;
步骤(7).在所述系统中,把所有的候选文档按照其相应的最终评分从大到小 的顺序进行排序,得到观点检索后的结果列表并作为最终的检索结果返回给用户。
本发明能够充分考虑文档的主客观评分与文档的相关性评分之间的联系,将这两种 评分以二次函数(即相乘)的方式合并起来,同时还考虑到这两种评分的差异,因此对 文档的主客观评分进行了取对数的处理,最终得到优化的观点检索系统的结果列表。从 而针对用户的观点检索需求,能够将那些既带有感情色彩又与用户查询的内容密切相关 的文档排在前面返回给用户。该方法处理简单,算法复杂度低,在测试数据上取得了很 好的结果,较大幅度地提高了搜索引擎进行观点检索的性能。这说明本发明具有较好的 推广性和适应性,能对搜索引擎的观点检索结果进行有效改进,具有良好的应用前景。
附图说明
图1.信息检索系统进行观点检索的基本流程架构。
图2.本发明提出的观点检索评分方法流程。

具体实施方式

它是在计算机上自动完成的,依次含有如下步骤:
步骤1生成情感词列表和候选文档集合
情感词列表包括系统将要处理的所有带有感情色彩的词,如中文的“好”,“坏”,“令 人失望”等,英文包括“good”,“bad”等。这里对知网HowNet中的词,根据其属性 进行自动筛选,如果一个词在知网中的属性定义至少包括“good|好”,“desire|良”, “beautiful|美”,“great|伟”,“bad|坏”,“undesired|莠”,“fake|伪”中的一项, 则将该词以及该词对应的英文描述词挑选出来,分别加入中文和英文情感词列表。
针对用户输入的一次查询(可能包含多个查询词),检索系统将所有带有用户查询 中任一查询词的文档自动挑选出来,作为候选文档集合。以后的操作都在这个候选文档 集合的范围内进行,其他的文档在这次用户查询中就都不予考虑了。
步骤2计算一篇文档与用户查询的相关性评分
可以使用现有信息检索系统中常用的相关性计算方法得到每一篇候选文档与查询 的相关性评分。使用如下所示的公式:
ScoreI rel ( d , q ) = Σ w i q [ ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ]
(式1)
其中:d是步骤一处理后的文档;q是步骤一处理后的用户查询;ScoreIrel(d,q)是 文档d与查询q的相关性评分;wi∈q是用户查询中的每一个词;ln()为对括号中的 内容去自然对数操作;N是系统中的全部文档总数;df(wi)是系统中所有包括词wi的文 档总数;k1是1.0到2.0之间的常数;c(wi,d)是词wi在文档d中出现的总次数;b是 0.0到1.0之间的常数;ld是文档d的长度(即文档d中的总词数);avdl是系统中所 有文档的平均长度;k3是0到1000之间的整数常数;c(wi,q)是词出现在查询q中的次 数。这些参数中,除k1,b和k3是人工设定的常数以外,其他各值都可以根据用户查询 以及文档集合自动统计得到。
步骤3计算一篇文档的主客观评分
使用如下公式计算系统中每篇候选文档的主客观性评分:
(式2)
其中:d是步骤一处理后的文档;q是步骤一处理后的用户查询;ScoreIop(d,q)是 文档d相对于查询q的主客观评分;λ是一个0.0到1.0之间的常数;si∈d是文档d 中的每个情感词(其中情感词的范围由步骤3.1中的情感词列表给定);log()为对括 号中的内容取对数操作;co(si,wi|W)是所有与用户查询Q的任一查询词wi同时出现在 文档d中并且与查询词wi的位置距离小于W的情感词si在所有位置上出现的总次数;W 是距离(也称作窗口)的大小,是一个正整数;c(wi,d)是查询词wi在文档d中出现的 总次数。这些参数中,除λ和W是由人工设定的常数以外,其他各值都可以根据用户查 询、情感词列表以及文档集合自动统计得到。
步骤4计算一篇文档的最终评分
将步骤2与步骤4所得到的相关性评分和主客观评分相乘,即:
ScoreIrel(d,q)×ScoreIop(d,q),    (式3)
就可得到系统中一篇候选文档d相对于用户查询Q的观点检索最终评分。
步骤5得到最终的观点检索结果列表
在检索系统中,将所有候选文档按照其相应的最终评分从大到小的顺序进行排序, 就得到了观点检索后的结果列表,并作为最终的检索结果返回给用户。
为了验证本发明的有效性、可靠性和应用性,我们设计和测试了相关的验证实验。
从数据源上,我们使用了美国国家技术研究所NIST组织的文本检索会议TREC所给 出的标准测试数据:互联网英文博客网页数据集合、100个用户查询以及每个查询相应 的答案集合(由NIST组织人工标注得到)。
在验证实验中使用信息检索中常用的平均检索精度(MAP)进行性能的评价。
依照本发明所述的步骤在上述数据集合上进行观点检索的验证实验,表1列出了使 用本发明的评分方法,与现在常用的线性加权的方法相比,带来的检索系统性能提高情 况。其中现在常用的线性加权方法为:
λ ScoreI op ( d , q ) + ( 1 - λ ) Σ w i q co ( s i , w i | W ) Σ w i q c ( w i , d ) × W ,
其各部分参数的含义和计算方法与本发明公式1和公式2的方法中的相应参数相 同。本发明中用到的人工设定的参数分别取值为:K1=1.0,b=0.75,K3=100,W=25。 λ的取值如表1中所示。可以看到性能提高的幅度较大,均在8%以上,最高达到18.6%。
表1本发明评分方法与现在常用的线性加权方法相比带来的检索系统性能提高
  λ的取值   常用的线性加权方法的检索   性能   本发明给出的评分方法的检   索性能   本发明带来的性能提高   0.01   0.1969   0.2253   14.42%   0.1   0.2041   0.2255   10.49%   0.2   0.2071   0.2256   8.93%   0.3   0.2081   0.2257   8.46%   0.4   0.2087   0.2257   8.15%   0.5   0.2067   0.2259   9.29%   0.6   0.2038   0.2266   11.19%   0.7   0.1993   0.2267   13.75%   0.8   0.1938   0.2255   16.36%   0.9   0.1866   0.2213   18.60%
例如对用户查询“Oprah”(Oprah Winfrey是美国一个脱口秀电视节目的主持人), 希望找到她的节目的评论和观点信息。但是用传统方法,找到的只是大量的节目列表和 客观的内容介绍与宣传,因此对这个查询的MAP精度只有0.0687,检索系统返回的前 10个结果中只有两个是带有观点信息的;而采用本发明所提出的评分方法进行检索,则 改进的检索系统MAP精度提高到了0.2721,且返回的前10个结果中,有8个都是用户 需要的观点和评论信息,系统性能是传统方法系统性能的4倍。
再例如用户查询“tivo”(是一款数字录像机),希望找到大家对这个品牌的评价。 用传统方法,找到了大量该品牌的产品介绍,包括不少型号、体积等数字类型的客观信 息,但是并没有提供该品牌好或者不好的观点性的信息,因此对该查询的前10个返回 结果中,只有1个是用户需要的信息;而使用本发明提出的方法,则将那些其他用户的 使用心得、感受以及对产品的评价观点等信息文档排在了最前面,使得系统返回的前10 个结果中,有9个都是用户需要的带有观点的相关信息,极大地改进了用户使用的满意 度。
附图1描述了信息检索系统进行观点检索的基本流程架构:
1、首先将已经收集得到的原始数据进行预处理,包括:去除文档中过于常用的词 (称为停用词),例如“的”、“地”、“得”、“了”等。停用词列表可根据需要自由制定; 对中文内容使用分词技术(正向最长匹配分词算法)对文档进行分词,以词(包括单字 词)作为文档的基本单位,一个词内的所有字均看作一个整体进行处理。
2、然后对文档的内容利用倒排文档技术建立索引。
3、对用户提交的查询,使用与文档相同的预处理(去除停用词、分词)方法进行 查询预处理。
4、最后根据本发明提出的方法,利用已经建立好的情感词列表,在观点检索服务 器中对处理后的查询与索引后的文档进行匹配,对每篇文档得到观点检索评分,进行排 序后形成结果页面,返回给用户。
本发明就是针对上述流程的第4步,即如何建立情感词列表,以及在观点检索服务 器中如何对文档进行评分提出相应的方法。附图2描述了本发明的流程。下面就如何在 观点检索系统中实施本发明进行详细的流程说明。
1.根据用户提交的一次查询内容,系统找出候选文档集合
对系统中的文档进行预处理,包括去除停用词,中文文档进行分词,以及建立文档 索引。同时对用户提交给系统的查询内容,也进行完全一致的预处理过程。
首先统计系统中所有被索引的文档总数,就得到式(1)中的变量N的值。计算系 统中平均每篇文档包含的词数(用系统中所有文档的总词数除以系统中的文档总数即 可),就是式(1)中变量avdl的值。
当用户提交了查询Q之后(查询中包括一个或多个词),将已经索引好的所有文档 中(文档中也包括一个或多个词),那些至少出现了用户查询Q中的一个查询词的文档 挑选出来,构成候选文档集合。剩下的那些没有包括任何查询词的文档在本次检索过程 中都不再考虑。对查询Q中的每一个词wi,统计候选文档集合中所有出现了该词的文档 的总数,记为式(1)中变量df(wi)的值。
设定系统中用到的各常数的值,例如可以设为:k1=1.0,b=0.75,k3=100,W=25, λ=0.8。
2.按照下述流程生成情感词列表。
初始化中文情感词典列表SCN={}; 初始化英文情感词典列表SEN={}; 对知网(HowNet)中的每一个词:     如果其属性(DEF)的值至少包括下列之一:         “good|好”,“desire|良”,“beautiful|美”,“great|伟”     那么:将该词的中文描述(W_C的值)加入中文情感词典列表SCN作为一条记录;           将该词的英文描述(W_X的值)加入英文情感词典SEN作为一条记录;     如果其属性(DEF)的值至少包括下列之一:“bad|坏”,“undesired|莠”,“fake|伪”     那么:将该词的中文描述(W_C的值)加入中文情感词典列表SCN作为一条记录;           将该词的英文描述(W_X的值)加入英文情感词典SEN作为一条记录; 对英文情感词典SEN中的每一条记录:   如果该记录由多个词组成   那么:将该记录中的每个词也分别作为一条记录加入情感词典SEN; 删去英文情感词典SEN中的重复记录。
根据该流程得到的列表中,其中中文词有个,英文情感词有4621个。
3.计算每篇文档的相关性评分
对候选文档集合中的每篇文档d进行如下操作:
(1)统计文档d的总词数,记作式(1)中变量ld的值;对查询Q中的每一个词 wi,统计该词在文档d中出现的次数,记为式(1)中变量c(wi,d)的值;统计该词在查 询Q中出现的次数,记作式(1)中变量c(wi,q)的值;
(2)将上述步骤中已经得到的N、avdl、df(wi)、k1、b、k3、ld、c(wi,d)、c(wi,q) 的值代入式(1)进行如下计算:
ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ,
就得到文档d关于一个查询词wi的相关性评分。
(3)将文档d关于Q中所有查询词的相关性评分加起来,就得到该文档d关于查 询Q的相关性评分。
4.计算每篇文档的主客观性评分
如果系统中的常数λ设定为0,则直接得到文档的主客观性评分为1。否则根据系 统中设定的常数W的值(记为式(2)中W的值),计算每篇文档的主客观性评分。这里 以W取值25为例,说明其流程如下:
(1)首先统计查询Q中的所有查询词在文档中出现的总次数,记作公式(2)中 的值。同时记录这些查询词在文档中出现的位置lj。
(2)对情感词列表中的每个情感词si,进行如下流程的操作:
(2.1)依次统计该词在每个位置lj前后各25个词的范围内出现的次数,并将 所有位置统计得到的次数相加,就得到文档d中si与查询Q同时出现的总次数,记作式 (2)中的值。
(2.2)根据式(2),将前述流程中得到W代入如 下公式进行计算,得到文档d相对于每个情感词si的评分:
log ( Σ w i q co ( s i , w i | W ) Σ w i q c ( w i , d ) × W + 1 ) ;
(3)将所有情感词的评分加起来,再乘以的系数,最后将结果加1,就得到 文档d的主客观性评分。
5.计算每篇文档的最终评分
将每篇文档在流程3中得到的相关性评分,与在流程4中得到的主客观性评分相乘, 就得到了每篇在观点检索系统中的最终评分。
6.将系统中的所有文档进行排序,并对用户返回最终结果
根据每篇文档的最终评分,把文档候选集合中的所有进行排序,按照评分从大到小 的顺序产生结果列表,使得文档的最终评分越高,则它在结果列表中的位置越靠前。最 后将这个结果返回给用户,就完成了针对用户输入的一次查询的完整的信息检索。
按照以上步骤,就可以构建一个有效的计算机自动执行的观点信息检索系统,在系 统中综合考虑文档的相关性和主客观性对文档进行评分,使得在观点检索系统的返回结 果列表中,那些既与用户查询的内容相关,又带有较强烈的感情色彩的文档排在靠前的 位置,更有可能被用户先访问到,从而改进观点检索系统的检索结果,提高系统的检索 性能。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈