首页 / 专利库 / 数学与统计 / 解析法 / 文本分析 / 基于双层语义分析的全文检索系统

基于双层语义分析的全文检索系统

阅读:1发布:2023-04-22

专利汇可以提供基于双层语义分析的全文检索系统专利检索,专利查询,专利分析的服务。并且本 发明 属于 信息检索 技术领域,提供了一种基于双层语义分析的全文检索系统,该系统包括查询信息接收模 块 、句子 摘要 层次 语义处理 模块、检索模块、索引库、索引模块、篇章层次语义处理模块、结果集处理模块和数据 服务器 。本发明通过对查询语句进行摘要处理和复述处理来从句子摘要层次语义上复述用户提交的查询语句,并通过从篇章层次上提取文档中潜在语义信息和主题信息来消除掉不符合篇章层次语义的检索结果文档,从而实现“句子摘要层次”以及“篇章层次”的双层语义分析的全文检索系统。本发明通过提高对查询语句和文本集的语义处理能 力 ,使得全文检索系统更加人性化、智能化,给用户提供更方便、准确的服务。,下面是基于双层语义分析的全文检索系统专利的具体信息内容。

1.一种基于双层语义分析的全文检索系统,其特征在于:该系统包括查询信息接收模(100)、句子摘要层次语义处理模块(200)、检索模块(300)、索引库(400)、索引模块(500)、篇章层次语义处理模块(600)、结果集处理模块(700)和数据服务器(800):
查询信息接收模块(100)用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块(200)进行查询句的摘要层次语义处理,或者直接请求检索模块(300)进行检索服务;
句子摘要层次语义处理模块(200)接收用户输入的查询语句,并依赖数据服务器(800)提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词;之后对查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句的复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其扩展语句一起提交给检索模块(300)进行检索;
检索模块(300)为用户提供检索系统的使用界面,并提供准确、完备的检索服务;检索模块(300)负责接收查询信息接收模块(100)的指令和句子摘要层次语义处理模块(200)处理之后的结果;根据查询内容在索引库(400)中进行查询匹配,返回和查询语句匹配的所有文档信息,根据系统的文档打分算法,对返回的所有文档进行排序,最后将排序后的结果集递交给结果集处理模块(700);
索引库(400)用于存储由索引模块(500)对文本文件及其对应篇章层次语义信息建立的索引;索引库(400)还根据检索模块(300)提交的查询请求在索引中快速检索和排序,并返回检索模块(300)所提交请求的对应结果;
索引模块(500)用于接收数据服务器(800)提供的文本文件集和相关信息,以及接收篇章层次语义处理模块(600)提供的对应文档中的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引;
篇章层次语义处理模块(600)接收数据服务器(800)提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取文档的篇章层次语义信息,并将其提交给索引模块(500);
结果集处理模块(700)用于接收来自检索模块(300)的结果集,并根据索引库(400)的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理;
数据服务器(800)用于存储知识数据词典、规则库和文本文件集。
2.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述句子摘要层次语义处理模块(200)包括查询语句摘要模块(210)、查询复述模块(220);
查询语句摘要模块(210)采用最大逆向匹配分词方法对用户输入的查询语句进行切分,再通过句法分析得到句法结构树,根据词性和词义去掉对查询句语义相关度不高的词,得到查询语句的摘要;
查询复述模块(220)首先对查询语句中查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述规则过滤掉不符合句子摘要层次语义的查询扩展语句,得到其复述语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块(300);其中,复述规则选取了四个方面的特征,词性的特征、互信息特征、基于Hownet的语义相似度特征和基于词义消歧的相似度特征。
3.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述检索模块(300)包括查询模块(310)和排序模块(320);
查询模块(310)在索引库(400)中查找所有匹配的文档信息,从匹配的文档信息中选择出满足查询要求的那部分文档信息作为结果集,并将结果集发送给排序模块(320);
排序模块(320)用于对来自查询模块(310)的结果集进行排序,根据查询词在篇章层次的潜在语义信息量、在文档中的出现频率,以及文档长度和文档的反转频率因素进行排序。
4.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述篇章层次语义处理模块(600)包括文本预处理模块(610)和语义建模模块(620);
文本预处理模块(610)用于对数据服务器(800)提供的纯文本文件进行预处理,先将文本进行分词处理,分词算法采用最大逆向匹配分词方法;然后对分词之后的文本做去停用词处理,生成文章所对应的词袋,即无序的词汇集合,去停用词处理的方法是将分词之后的文本与预先建立好的停用词表匹配,去掉文章中出现的停用词;
语义建模模块(620)对经过预处理之后的文本使用LDA模型对文档建模,提取文章中的主题语义信息,并量化地反映每个词与主题对应的语义关系,将其保存并提交给索引模块(500)。
5.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述结果集处理模块(700)是用户查询显示的接口,包括头信息显示模块(710)、反显模块(720)、回显模块(730)和分页处理模块(740);
头信息显示模块(710)用于显示查询结果的提示信息,如果检索模块(300)返回的结果集不为空,则在页首显示查询用时和结果集中的文档数;如果检索模块(300)没有检索到匹配的结果,则显示查找结果不存在的提示信息;
反显模块(720)用于对检索模块(300)返回的文本文档结果集和索引库(400)中的文档摘要中的关键词做突出强调处理;
回显模块(730)用于显示返回给用户的快照和文档摘要信息,每块文档摘要信息都包含有突出显示的查询词或复述语句中的查询扩展词;并对检索内容的源文件进行链接,读取源文件到页面;
分页处理模块(740)用于将结果集的多篇文档分页显示,在页尾标注页码范围供用户选择,或者可由用户输入页码进行跳转。

说明书全文

基于双层语义分析的全文检索系统

技术领域

[0001] 本发明属于信息检索技术,具体涉及一种基于双层语义分析的全文检索系统。技术背景
[0002] 随着互联网信息量持续的指数级增长,人们已经进入了一个信息爆炸的时代。如何在海量级别的数据中准确、高效地找到用户需要的数据,这是一个十分巨大的挑战。搜索引擎的诞生在一定程度上解决了上述问题。搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。绝大多数的搜索引擎都采用信息检索技术,建立文档倒排索引库,对用户提交关键词或查询语句进行查询,将相关的文档结果返回给用户。
[0003] 当前的信息检索系统大多是基于关键词(字)匹配和对其简单扩展的检索,还停留在关键词检索的层面上。由于同一个词在不同语句和不同的篇章环境下会有不同的含义,这给信息检索系统理解查询语句和篇章的语义带来了难题。尽管有些信息检索系统采用了扩展检索技术来根据查询词和其扩展词进行检索,提高了检索的查全率。但是因为其尚未采用深层次的语义分析技术,这使得很多相关性很强的检索结果被丢失。另一方面,由于信息检索不能“理解”文档篇章层次的语义,而只是简单地认为文档是一个由词组成的集合,这也导致有些相关性很强的文档由于表述的原因被放置在比较靠后的位置,影响了检索的准确率。正是因为这样,传统的信息检索系统对被检索的文档缺乏语义分析能,从而不能准确地进行语义检索。
[0004] 随着信息检索技术向智能化的方向发展,人们希望信息检索系统能够准确理解查询语句和文档的语义,能够给用户提供一个更加精确的返回结果。为了解决传统的信息检索存在的“查询语句的语义信息丢失”和“文档篇章层次语义消歧”问题,提高信息检索的准确率,需要在检索系统中使用句子摘要层次语义分析技术和篇章层次语义分析技术,促进信息检索系统的智能化发展。从句子摘要层次和篇章层次上进行语义分析,将传统的基于关键词层面的检索提升到句子摘要层次和篇章层次语义相结合的双层语义结构上,是实现信息检索系统智能化的一个关键点。

发明内容

[0005] 本发明的目的在于克服上述现有技术中的不足,提供一种基于双层语义分析的全文检索系统,该系统不仅能够对用户的查询语句进行复述,从句子摘要层次语义上扩展查询语句,还能够从篇章层次上提取文档的潜在语义信息和主题信息,对文档进行具有双层语义分析的全文信息检索。本发明系统具有更高的查准率、查全率和更智能化的特点。
[0006] 本发明的目的是由以下技术方案实现的:基于双层语义分析的全文检索系统,包括查询信息接收模、句子摘要层次语义处理模块、检索模块、索引库、索引模块、篇章层次语义处理模块、结果集处理模块和数据服务器
[0007] 查询信息接收模块用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块进行查询句的摘要层次语义处理,或者直接请求检索模块进行搜索服务。
[0008] 句子摘要层次语义处理模块接收用户输入的查询语句,并依赖数据服务器提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词,即生成查询语句摘要。它形式上是由句子关键词的组合序列所构成,其语义实质是用户想要查询句子的摘要层次语义。之后对查询语句摘要中的查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块进行搜索。
[0009] 检索模块为用户提供准确、完备的检索服务。检索模块负责接收查询信息接收模块的指令和句子摘要层次语义处理模块处理之后的查询语句;将查询语句提交给索引库进行查询匹配,返回所有与查询语句匹配的文档信息,并对检索结果集进行排序处理,将排序后的结果集提交给结果集处理模块。
[0010] 索引库用于存储由索引模块对文本文件及其对应篇章层次语义信息建立的索引;索引库还根据检索模块提交的查询请求在索引中快速检索和排序,并将结果返回给检索模块。
[0011] 索引模块用于接收数据服务器提供的纯文本文件的内容和相关信息,以及接收篇章层次语义处理模块提供的对应文档的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引。
[0012] 篇章层次语义处理模块接收数据服务器提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取对应文档的篇章层次语义信息,并将其提交给索引模块。
[0013] 结果集处理模块用于接收来自检索模块的结果集,并根据索引库的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理。
[0014] 数据服务器用于存储:1.知识数据词典,如分词词典、停用词表等,2.规则库,如复述过滤规则库,3.文本文件集。
[0015] 本发明系统针对当前搜索引擎智能化平不高的现状提出了两个方面的解决办法:面向查询语句复述的语义处理方法和支持篇章语义消歧的检索方法。本发明系统将目前的查询扩展提升到句子摘要层次和篇章层次语义相结合的双层语义结构上,不仅能够从句子摘要层次语义上复述用户提交的查询语句,而且也可以从篇章层次语义上对查询文档进行语义消歧。本发明系统具有信息服务智能化、人性化和自动化的特点,可以为用户提供更方便、精确的检索服务。具体而言,本发明具有如下特点:(1)查全率高:该系统对查询语句进行摘要层次语义分析,将查询语句复述成同义的扩展语句,使查询扩展语句更为准确,并扩大了用户所提交查询语句的语义信息,有效地解决了查询语句中语义信息丢失带来的影响,从而提高了检索的查全率。
[0016] (2)查准率高:该系统通过对查询结果文档进行篇章层次语义分析,对文章主题信息和潜在语义信息进行量化统计,返回语义上最相关的检索结果文档,给用户提供最精准的检索结果,实现查询语句与检索结果文档的高度准确匹配,从而提高检索的查准率。
[0017] (3)智能化高:通过查询语句的句子摘要层次语义分析,该系统能够识别查询语句所处的应用场景和语境,准确理解用户的查询含义。同时系统通过篇章层次的语义分析,能够准确理解文档的主题信息及潜在语义信息,消除掉不符合篇章层次语义的检索结果文档。通过句子摘要层次和篇章层次相结合的双层语义分析,检索系统能够理解查询语句和结果文档,最终检索出精准合理的结果,满足用户的检索需求。附图说明
[0018] 图1是本发明基于双层语义分析的全文检索系统的体系结构图。
[0019] 图2是本发明基于双层语义分析的全文检索系统的模块结构示意图。
[0020] 图3是本发明中查询信息接收模块的工作流程图
[0021] 图4是本发明中句子摘要层次语义处理模块中查询语句摘要化流程图。
[0022] 图5是本发明中句子摘要层次语义处理模块中查询词扩展流程图。
[0023] 图6是本发明中句子摘要层次语义处理模块中查询复述流程图。
[0024] 图7是本发明中检索模块的工作流程图。
[0025] 图8是本发明中篇章层次语义处理模块中的概率模型图。
[0026] 图9是本发明中结果集处理模块的工作流程图。

具体实施方式

[0027] 下面结合附图和实施例对本发明作进一步详细说明。
[0028] 如图1所示,本发明提供的基于双层语义分析的全文检索系统包括查询信息接收模块100、句子摘要层次语义处理模块200、检索模块300、索引库400、索引模块500、篇章层次语义处理模块600、结果集处理模块700和数据服务器800。
[0029] 查询信息接收模块100用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块200进行查询语句的摘要层次语义处理,或者直接请求检索模块300进行检索服务。
[0030] 如图3所示,查询信息接收模块100的处理流程为:(1)用户输入查询信息,根据需要选择查询复述功能,提交查询请求;(2)系统针对用户的选择将查询信息传递给句子摘要层次语义分析模块200对查询句进行语义处理;(3)如果用户没有选择查询复述功能,系统将查询信息直接递交给检索模块300。
[0031] 句子摘要层次语义处理模块200接收用户输入的查询语句,并依据数据服务器800提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词;之后对查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句的复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其扩展语句一起提交给检索模块300进行检索。
[0032] 检索模块300为用户提供检索系统的使用界面,并提供准确、完备的检索服务;检索模块300负责接收查询信息接收模块100的指令和句子摘要层次语义处理模块200处理之后的结果;根据查询内容在索引库400中进行查询匹配,返回与查询语句匹配的所有文档信息,根据系统的文档打分算法(系统使用Lucene的文档打分算法并结合查询语句及其复述语句中查询词在文档中潜在语义信息的加权),对返回的所有文档进行排序,最后将排序后的结果集递交给结果集处理模块700。
[0033] 索引库400用于存储由索引模块500对文本文件及其对应篇章层次语义信息建立的索引;索引库400还根据检索模块300提交的查询请求在索引中快速检索和排序,并返回检索模块300所提交请求的对应结果。
[0034] 索引模块500用于接收数据服务器800提供的纯文本文件的内容和相关信息,并接收篇章层次语义处理模块600提供的对应文档中的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引。
[0035] 篇章层次语义处理模块600接收数据服务器800提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取文档的篇章层次语义信息,并将其提交给索引模块500。
[0036] 结果集处理模块700用于接收来自检索模块300的结果集,并根据索引库400的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理。
[0037] 数据服务器800用于存储知识数据词典、规则库和文本文件集。
[0038] 下面分别举例对句子摘要层次语义处理模块200、检索模块300、篇章层次语义处理模块600和结果集处理模块700作进一步的详细说明。
[0039] 如图2所示,句子摘要层次语义处理模块200包括查询语句摘要模块210,和查询复述模块220。
[0040] 查询语句摘要模块210采用最大逆向匹配分词方法对用户输入的查询语句进行切分,再通过句法分析得到句法结构树,根据词性和词义去掉对查询句语义相关度不高的词(如“的”,“啊”等词),得到查询语句的摘要,其形式上是句子关键词的组合序列,其语义实质是用户想要查询句子的摘要层次语义。例如查询语句“宝宝发烧了怎么处理?”经过摘要处理之后为“宝宝 发烧 处理”。
[0041] 该模块涉及的最大逆向匹配分词算法的思想是:事先建立词典。假设词典中的最长词条所含汉字个数为i,则取被处理文本的当前字符串的后i个字作为匹配字段,查找词典,如果词典中有这样的一个i个字的词,则匹配成功,将当前字段作为一个词分割出来;如果词典中没有查找到与当前匹配字段相同的词,则匹配失败,去掉匹配字段的最前一个字,剩下的字作为新的匹配字段,再进行匹配。如此进行下去,直到匹配成功。
[0042] 本系统的句法分析方法采用开源的句法分析工具StanFord_Parser,它是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析;结合某些特殊连词,例如“因为”、“和”、“但是”等,通过自动机的方法实现对词性的分析,得到句子的结构关系,并借助树状方式显示出来。分析出来的结果反映短语内部结构关系和短语功能类型。短语的功能类型有:名词性短语、动词性短语、副词性短语、形容词性短语、介词短语。
[0043] 如图4所示,查询语句摘要模块210的工作流程为:(1)对用户输入的查询信息进行中文分词;(2)继续对查询信息进行句法分析;(3)如果句法分析成功(用户输入的查询语句被分割成能反映句子结构关系和实际意义的词),模块将经过句法分析之后的查询信息递交给查询复述模块220;(4)如果分析失败(用户输入的查询内容在语义分析后显示为无意义的词语序列),则系统直接将查询语句进行中文分词所得到的结果递交给检索模块300。
[0044] 查询复述模块220对查询语句中查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述规则过滤掉不符合句子摘要层次语义的查询扩展语句,得到其复述语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块300。
[0045] 概念扩展方法采用基于知网(Hownet)的概念扩展方法。在知网中,“义原”是从所有汉语词汇中提炼出的可以用来描述其它词汇的不可再分的基本元素,每一个概念是通过一组义原来表示的。每个记录的具体记录格式如下:NO.=词或短语序号
[W_X=词或短语
G_X=词或短语的词性
E_X=词或短语的例子]
DEF=概念定义
其中的W_X、G_X、E_X构成每种语言的记录,X用以描述记录所代表语种,X为C则为汉语,为E则为英语。DEF 是概念定义项,表达了本概念的语义信息,值由若干个义原及它们与主干词之间的语义关系描述组成。《知网》规定:DEF 项中用以定义的特性至少是一个,但也可以是多个,数量没有限制;但是DEF项的第一位置所标注的义原必须是知网所规定的主要特征,否则视为语法错误。并且DEF 中第一义原具有上下位关系,其他位置上的义原不一定具有这种上下位关系。如图5所示,具体算法如下:
(1)开始处理用户输入的查询词,设置其为变量Word;
(2)在HowNet的语义词典表(dict)中查找出所有W_X项包含词Word的概念(义
项),构建词Word对应的概念集合ConceptList,并设置一个初值为空的概念扩展集合ConceptExpandList;
(3)处理ConceptList的每一个概念,若还有未被处理的概念,从中任选一个并设为变量Concept,否则跳至步骤7;
(4)在Hownet的语义词典表(dict)中查找Concept里DEF项中的义原;
(5)对所查到的每一个义原,在HowNet的义原网中查找其邻近的扩展义原;
(6)在语义词典表(dict)中查找出DEF项包含扩展义原的概念,设为变量Concept_Expand并添加它到ConceptExpandList中,然后转至步骤3;
(7)对ConceptExpandList中所有扩展概念,取出它们W_X项中的词Word_Expand,并去重得到词Word的扩展词集Word_ExpandList;
(8)算法结束。
[0046] 图6是查询复述模块流程图。(1)首先对查询语句中的查询词进行概念扩展,用扩展词替换到相应查询词位置上得到查询扩展语句的候选集合;(2)然后利用查询语句复述规则过滤掉不符合句子摘要层次语义的查询扩展语句,得到其复述语句;(3)最后将查询语句及其复述语句一起作为查询条件传给检索模块300。
[0047] 假设用户输入的查询语句是 ,则利用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合: 。
[0048] 其中, 是经过查询语句摘要模块210处理之后查询语句中词的数量, 是扩展的查询语句的数量。
[0049] 为了对扩展出来的查询语句进行过滤,如下四个方面的特征被选作为复述规则:(1)词性特征、(2)互信息特征、(3)基于Hownet的语义相似度特征、(4)基于词义消歧(WSD)的相似度特征。这四方面特征的详细阐述如下:
(1)词性特征:
扩展词和相应查询位置上的查询词应该具有相同的词性。
[0050] 其中 代表词语 的词性。
[0051] (2)基于词义消歧的语义相似度特征:利用词义消歧方法确定查询语句中的每个查询词在《现代汉语大辞典(第五版)》中的释义。将每个查询词的释义串联起来构成查询语句的释义。利用TF-IDF 给查询语句中每个释义词赋权重,并将查询语句释义写成向量的形式。通过计算查询语句向量和扩展查询语句向量的相似度来计算查询语句和扩展查询语句的相似度。
[0052] 假设词语 在词典中有m个义项, , ,... 。采用M.Lesk提出的利用词典进行词义消歧的思想,可以确定其在查询语句中的释义。M.Lesk的方法可以简要描述如下:
假设多义词 有m个义项: ,在词典中对应的定义分别为:
,每个定义可以被看成是一个可重复的单词集。如果 在一个具体的文
本c中出现时,选取某些上下文词 作为区分 语义的特征词 表示词
在词典中的定义, 在词典中的定义也是一组可重复的单词集。如果 有多个义项:
,那么, 。为了简化问题,一般忽略 的语义区分。那么,对于
给定的上下文c,通过如下公式计算每个义项的得分:
得分最高的义项即为 在该上下文中的词义。
[0053] 将查询语句中每个词语的义项串联起来,构成对这样一个查询语句的文本表示: 。本系统用查询语句的文本表示的相似度来表征两个查询语句之间的相似度。两个查询语句之间的相似度可以通过向量空间模型来计算:
其中, 代表两个查询语句,Sim(D1, D2)代表查询语句的相似度,
代表查询语句的相似度。
[0054] (3)基于Hownet的语义相似度特征:系统通过Hownet语义知识库可以计算得到扩展词和查询词之间的语义相似度特征。
对查询语句和查询扩展语句相对应位置的词一一进行相似度计算,并进行线性加权可以得到查询语句和查询扩展语句的相似度特征。
[0055] 这里, 代表第i个查询词和相应位置上的查询扩展词通过Hownet计算得到词语之间的语义相似度, 则表示查询语句和查询扩展语句的语义相似度。
[0056] (4)互信息特征:对任意一条扩展语句 ,利用其词语的互信息来表征语句的互信息特征,计算公式如下:
其中, 是查询语句中查询词的数量, 是词 和词 的互信息值,
是词 和词 同时出现在一个句子中的概率, 和 分别表示词
和词 出现的概率,则 是查询扩展语句的互信息值。
[0057] 通过上述四条过滤规则,可以对每一条查询扩展语句进行打分,其打分公式如下:其中, 、 和 均大于等于零,且满足 + + =1。 、 和 分别代表基于
Hownet的语义相似度特征、互信息特征和基于词义消歧的语义相似度特征在复述过滤中的重要性。当Score值超过系统设定的阈值时,就可以判定此条扩展查询语句是查询语句的复述语句。
[0058] 检索模块300是本系统提供给用户检索文本信息的模块,它包括查询模块310和排序模块320。
[0059] 查询模块310在索引库400中查找所有匹配的文档信息,从匹配的文档信息中选择出满足查询要求的那部分文档信息作为结果集,并将结果集发送给排序模块320。
[0060] 排序模块320用于对来自查询模块310的结果集进行排序。该模块根据查询词在篇章层次的潜在语义信息量、在文档中的出现频率,以及文档长度和文档的反转频率等因素进行排序。其打分公式如下:其中q为查询语句,d为文本,t为查询词; tf(tind)表示t在文档d中出现的词频;
idf(t)表示t在多少篇文档中出现过;lengthNorm表示文档长度对结果的影响:文档越长,此值越小,文档越短,此值越大。coord(q,d)表示当一篇文档中包含的查询词越多,则此文档打分越高;queryNorm(q)计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的查询之间的分数可以比较;boost(t,q)表示相应查询词在文章中的潜在语义信息量,其值由下面公式计算得到。
[0061] 其中, 为当前主题,T为主题集合, 为在文档中查询词t对应相应主题的语义信息量,该信息在篇章层次语义处理模块600生成并保存。
[0062] 通过对每个文档打分,量化地表现文档与查询的相关程度。最后把前若干(由用户指定或系统默认)位的结果优先返回给用户。
[0063] 如图7所示,检索模块300的处理流程为:(1)接收直接来自用户的查询信息或经过句子摘要层次语义分析的查询信息;(2)在索引库中进行查询,返回与查询内容相匹配的所有文档信息,即获得结果集;(3)根据查询词在篇章层次的潜在语义信息量、在文档中的出现频率,以及文档长度以及文档的反转频率等因素进行排序。通过对每个文档打分,量化地表现文档与查询的相关程度,把得分高的文档排在结果集的前面。(4)最后将排序结果提交给结果集处理模块700。
[0064] 篇章层次语义分析模块600是用于提取文档集中各个关键词的潜在语义信息和主题信息。它包括文本预处理模块610和语义建模模块620。
[0065] 文本预处理模块610用于对数据服务器800提供的纯文本文件进行预处理,先将文本进行分词处理,分词算法与语义分析模块210采用的分词方式相同,这里就不再赘述;然后对分词之后的文本做去停用词处理,生成文章所对应的 “词袋”(无序的词汇集合)。去停用词处理的方法是将分词之后的文本与预先建立好的停用词表匹配,去掉文章中出现的停用词。“词袋”中的词都是对相应主题有语义关联的。
[0066] 语义建模模块620对经过预处理之后的文本进行主题建模,提取文章中的主题语义信息,并量化地反映每个词与主题对应的语义关系。这里在系统中使用LDA(Latent Dirichlet Allocation)模型对文档建模。如图8所示,LDA是一种概率语义分析模型,其本质上是一个具有三层结构的贝叶斯模型。它描绘了“文档----主题----词”三层语义关系,即每个文档被看做若干个主题的组合,每个主题是词表上的一个多项式分布。LDA将文档和查询语句从词空间映射到语义空间(主题)上,可以潜在的描绘“词----文档”和“词----查询语句”的语义关系,从而描绘了文档与查询语句之间的潜在语义关系。
[0067] 在实现的过程中,我们对文档进行LDA建模,生成文档中每个关键词对主题的概率分布 ,将其保存并传递给索引模块500。在建模的过程中,假设主题数为T,则文本d集合中词 与主题 之间潜在语义信息量,可如下表示:
其中 是表示主题的变量,表明词 取自该主题, 是主题变量值为主题j
时的概率,表示文本d集合中主题j的分布概率, 是词 属于主题j的概
率,表示主题j中的词汇w的分布概率。
[0068] 结果集处理模块700是用户查询显示的接口,它包括头信息显示模块710、反显模块720、回显模块730和分页处理模块740。
[0069] 头信息显示模块710用于显示查询结果的提示信息,如果检索模块300返回的结果集不为空,则在页首显示查询用时和结果集中的文档数;如果检索模块300没有检索到匹配的结果,则显示结果不存在的提示信息。
[0070] 反显模块720用于对检索模块300返回的文本文档结果集和索引库400的文档摘要中的关键词做强调突出处理。具体方法是:对原查询语句中的词加红色高亮,对复述语句中的查询扩展词加黄色高亮。
[0071] 回显模块730用于显示返回给用户的快照和文档摘要信息。页面内容以标题、摘要的形式,按条罗列。标题为超链接形式,用户可以打开检索内容所在的原文。文档摘要显示原文中含有检索内容的一段摘要。具体形式类似于Google、百度等搜索引擎的返回形式。
[0072] 分页处理模块740用于将结果集的多篇文档分页显示。页尾标注十页范围供用户选择。考虑到用户体验增强和检索速度的提升,每次翻页只返回当页文档的结果,不返回全部结果集。
[0073] 如图9所示,结果集处理模块700的处理流程为:(1)接收来自检索模块300递交的结果集;(2)在页首显示查询用时、返回结果数或查询结果不存在的提示信息;(3)从索引库400中获取结果集的文档摘要信息,对查询语句和复述语句中查询扩展词做反显处理,将标题和文档摘要与对应的源文档之间建立链接;(4)用户需要翻页显示其他结果时,再次从结果集中返回用户需要的相应数目和排名的文档。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈