首页 / 专利库 / 人工智能 / 目标语言 / 一种网络搜索方法和装置

一种网络搜索方法和装置

阅读:1033发布:2020-07-13

专利汇可以提供一种网络搜索方法和装置专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种网络搜索方法和装置,涉及网络搜索技术领域。其中的方法具体包括:搜索与输入的查询串相匹配的网页,得到网页结果;在 知识库 中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;将所述目标实体分别与匹配的网页结果进行对应展现。本申请将网页结果中与查询串相关的目标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页面内容的可靠性,提高了信息查询的效率,能够提高信息查询的效率。,下面是一种网络搜索方法和装置专利的具体信息内容。

1.一种网络搜索方法,其特征在于,包括:
搜索与输入的查询串相匹配的网页,得到网页结果;
知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;
将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;
将所述目标实体分别与匹配的网页结果进行对应展现;
所述展现的目标实体带有对应的超级链接,所述超级链接用于转至所匹配的网页结果中与所述目标实体对应匹配的位置
2.如权利要求1所述的方法,其特征在于,所述筛选出每条网页结果对应的目标实体的步骤,包括:在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实体。
3.如权利要求2所述的方法,其特征在于,所述在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容的步骤,包括:
对所述网页结果对应的网页正文进行分析;
依据网页正文对应的分析结果,提取所述网页正文中特征内容;所述特征内容包括标题、子标题、表格、摘要和加粗文字中的一项或多项;
将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各实体结果相匹配的目标内容。
4.如权利要求1、2或3所述的方法,其特征在于,所述方法还包括:
依据所述与所述实体结果相匹配的目标内容分别在各所述网页结果中出现的频率和/或位置,以每条网页结果为单位对所述目标实体进行排序;
则所述将所述目标实体分别与匹配的网页结果进行对应展现的步骤为,依据目标实体的排序结果分别对所述网页结果匹配的各目标实体的标记进行对应展现。
5.如权利要求1、2或3所述的方法,其特征在于,所述方法还包括:
在接收对所述目标实体的触发之后,分别将所述网页结果定位至与所述目标实体对应匹配的位置,从而加载所述目标实体对应匹配的网页内容。
6.如权利要求1所述的方法,其特征在于,所述在知识库中检索得到所述查询串对应的实体结果的步骤,包括:
识别所述查询串中的实体词和实体属性词,并进行标签化;
对所述查询串进行文法分析,得到的文法分析结果中包括文法规则及符合所述文法规则的、标签化的实体词;
将所述文法分析结果转换为机器语言描述的查询语句;
依据所述查询语句在知识库中检索得到相应的实体信息,作为实体结果。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述查询串进行预处理操作,所述预处理操作包括纠错、去词和分词操作中的一项或多项;
则所述搜索与输入的查询串相匹配的网页,得到网页结果的步骤为,在全网中搜索与预处理后的查询串相匹配的网页文档,得到所述查询串对应的网页结果;
所述在知识库中检索得到所述查询串对应的实体结果的步骤为,在知识库中根据预处理后查询串对全网中的实体对象进行结构化查询,得到所述查询串对应的实体结果。
8.一种网络搜索装置,其特征在于,包括:
网页搜索单元,用于搜索与输入的查询串相匹配的网页,得到网页结果;
实体搜索单元,用于在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;
实体筛选单元,用于将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;及
展现单元,用于将所述目标实体分别与匹配的网页结果进行对应展现;
其中,所述展现的目标实体带有对应的超级链接,所述超级链接用于转至所匹配的网页结果中与所述目标实体对应匹配的位置。
9.如权利要求8所述的装置,其特征在于,所述实体筛选单元,具体用于在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实体。
10.如权利要求9所述的装置,其特征在于,所述实体筛选单元包括:
网页分析模,用于对所述网页结果对应的网页正文进行分析;
提取模块,用于依据网页正文对应的分析结果,提取所述网页正文中特征内容;所述特征内容包括标题、子标题和加粗文字中的一项或多项;及
匹配模块,用于将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各实体结果相匹配的目标内容。

说明书全文

一种网络搜索方法和装置

技术领域

[0001] 本申请涉及网络搜索技术领域,特别是涉及一种网络搜索方法和装置。

背景技术

[0002] 目前,数据搜索已经成为互联网最主要的应用之一。以典型的搜素引擎为例,其通常利用服务器的搜索机器人蜘蛛(Spider)程序,自动搜索互联网上大大小小的网站内容,按照网页相关性原理在每一个查询串和所有相关的网页之间建立一个对应关系,储存在其网络服务器的网页数据库中;用户只要输入查询串就可以找到符合该查询串特征的所有被搜索的网页,并且以超级链接的方式对搜索结果进行展现,点击相应的链接就可以访问相应的网页,从而找到所需信息。
[0003] 现有的搜索结果中的结果项,通常仅简单地显示网页标题和文字摘要,并在文字摘要部分用红色字体标记出了与查询串中的分词相匹配的文字,以方便用户在浏览时快速定位
[0004] 然而,由于摘要的字数限制或者文本的结构特点,用户无法在搜索结果中看到网页中与查询串相关的所有内容,还需点击进入相应的网页仔细查看,因此,用户需要分别点击多个搜索结果的链接才能找到其想要搜索的信息,降低了信息查询的效率。
[0005] 总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高信息查询的效率。发明内容
[0006] 本申请所要解决的技术问题是提供一种网络搜索方法和装置,能够提高信息查询的效率。
[0007] 为了解决上述问题,本申请公开了一种网络搜索方法,包括:
[0008] 搜索与输入的查询串相匹配的网页,得到网页结果;
[0009] 在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;
[0010] 将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;
[0011] 将所述目标实体分别与匹配的网页结果进行对应展现。
[0012] 优选的,所述筛选出每条网页结果对应的目标实体的步骤,包括:在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实体。
[0013] 优选的,所述在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容的步骤,包括:
[0014] 对所述网页结果对应的网页正文进行分析;
[0015] 依据网页正文对应的分析结果,提取所述网页正文中特征内容;所述特征内容包括标题、子标题、表格、摘要和加粗文字中的一项或多项;
[0016] 将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各实体结果相匹配的目标内容。
[0017] 优选的,所述方法还包括:
[0018] 依据所述与所述实体结果相匹配的目标内容分别在各所述网页结果中出现的频率和/或位置,以每条网页结果为单位对所述目标实体进行排序;
[0019] 则所述将所述目标实体分别与匹配的网页结果进行对应展现的步骤为,依据目标实体的排序结果分别对所述网页结果匹配的各目标实体的标记进行对应展现。
[0020] 优选的,所述展现的目标实体带有对应的超级链接,所述超级链接分别用于转至所匹配的网页结果;
[0021] 则所述方法还包括:
[0022] 在接收对所述目标实体的触发之后,分别将所述网页结果定位至与所述目标实体对应匹配的位置,从而加载所述目标实体对应匹配的网页内容。
[0023] 优选的,所述在知识库中检索得到所述查询串对应的实体结果的步骤,包括:
[0024] 识别所述查询串中的实体词和实体属性词,并进行标签化;
[0025] 对所述查询串进行文法分析,得到的文法分析结果中包括文法规则及符合所述文法规则的、标签化的实体词;
[0026] 将所述文法分析结果转换为机器语言描述的查询语句;
[0027] 依据所述查询语句在知识库中检索得到相应的实体信息,作为实体结果。
[0028] 优选的,所述方法还包括:
[0029] 对所述查询串进行预处理操作,所述预处理操作包括纠错、去词和分词操作中的一项或多项;
[0030] 则所述搜索与输入的查询串相匹配的网页,得到网页结果的步骤为,在全网中搜索与预处理后的查询串相匹配的网页文档,得到所述查询串对应的网页结果;
[0031] 所述在知识库中检索得到所述查询串对应的实体结果的步骤为,在知识库中根据预处理后查询串对全网中的实体对象进行结构化查询,得到所述查询串对应的实体结果。
[0032] 另一方面,本申请还提供了一种网络搜索装置,包括:
[0033] 网页搜索单元,用于搜索与输入的查询串相匹配的网页,得到网页结果;
[0034] 实体搜索单元,用于在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;
[0035] 实体筛选单元,用于将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;及
[0036] 展现单元,用于将所述目标实体分别与匹配的网页结果进行对应展现。
[0037] 优选的,所述实体筛选单元,具体用于在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实体。
[0038] 优选的,所述实体筛选单元包括:
[0039] 网页分析模,用于对所述网页结果对应的网页正文进行分析;
[0040] 提取模块,用于依据网页正文对应的分析结果,提取所述网页正文中特征内容;所述特征内容包括标题、子标题和加粗文字中的一项或多项;及
[0041] 匹配模块,用于将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各实体结果相匹配的目标内容。
[0042] 与现有技术相比,本申请具有以下优点:
[0043] 本申请的网络搜索方法除了得到查询串对应的网页结果外,还通过知识库中检索得到的实体结果对网页结果进行了筛选,得到每条网页结果分别对应的目标实体,并将各目标实体分别与匹配的网页结果进行对应展现;
[0044] 本申请中展现的各目标实体为网页结果中分别与查询串相关的结果,既与查询串对应,又与网页结果相匹配,从而将网页结果中与查询串相关的目标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页面内容的可靠性,因此,本申请为网络搜索结果提供了更为直观和丰富的信息,为用户筛选网页结果提供了更多的信息依据和便利,提高了信息查询的效率。附图说明
[0045] 图1是本申请一种网络搜索方法实施例流程图
[0046] 图2是本申请一种网络搜索装置实施例的结构图。

具体实施方式

[0047] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
[0048] 现有的网络搜索方法依据网页数据库搜索得到网页结果,且在网页结果的网页标题和文字摘要部分用红色字体标记出了与查询串中的分词相匹配的文字,并展现给用户。
[0049] 然而,由于摘要的字数限制或者文本的结构特点,用户无法在网页结果中看到网页中与查询串相关的所有内容,还需点击进入相应的网页仔细查看,因此,用户需要分别点击多个搜索结果的链接才能找到其想要搜索的信息,降低了信息查询的效率。
[0050] 本申请实施例的网络搜索方法除了依据网页数据库搜索得到查询串对应的网页结果外,还通过知识库中检索得到的实体结果对网页结果进行了筛选,得到每条网页结果分别对应的目标实体,并将各目标实体分别与匹配的网页结果进行对应展现。
[0051] 本技术领域中,知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式结构化存储、组织、管理和使用的互相联系的知识片集合。这些知识片具体可以包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某各领域内有关的定义、定理和运算法则以及常识性知识等。
[0052] 本申请实施例中,使用了资源描述框架(RDF,Resource Description Frameword)的知识库,其中,RDF为一个数据模型,由“实体-属性-值”三元组组成;实体可以看成一个对象,其可以是各领域中的实例名词,如电影、电视剧、人物、机构、地点、作者、书籍、出版社、旅馆等。
[0053] 本申请中展现的各目标实体为网页结果中分别与查询串相关的结果,既与查询串对应,又与网页结果相匹配,从而将网页结果中与查询串相关的目标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页面内容的可靠性,因此,本申请为网络搜索结果提供了更为直观和丰富的信息,为用户筛选网页结果提供了更多的信息依据和便利,提高了信息查询的效率。
[0054] 参照图1,示出了本申请一种网络搜索方法实施例的流程图,具体可以包括:
[0055] 步骤101、搜索与输入的查询串相匹配的网页,得到网页结果;
[0056] 本申请可以应用于为用户提供搜索服务,将用户搜索相关的信息展示给用户的各种应用场景,比如百度、谷歌、雅虎、搜狗等搜索引擎或者具有搜索功能的其他场景,比如某些具有其他功能的输入框也可兼具搜索功能,因此本申请对具体的搜索场景不加以限制。
[0057] 以搜索引擎为例,搜索引擎可以应用公知技术获取搜索引擎服务器中与查询串相应的内容;例如,可通过释放大量的抓取程序,获取互联网上的网页,并按照网页相关性原理在每一个查询串和所有相关的网页之间建立一个对应关系,储存在其搜索引擎服务器的数据库中。这样,在用户在搜索引擎中输入查询串(例如“北京爬山好去处”)时,就可以在搜索引擎服务器中搜索找到相匹配的网页结果。
[0058] 在本申请的一种优选实施例中,在所述搜索与输入的查询串相匹配的网页,得到网页结果的步骤之前,所述方法还可以包括:对所述查询串进行预处理操作,所述预处理操作具体可以包括纠错、去词和分词操作中的一项或多项;其中,纠错、去词、分词操作分别指将查询串中输入错误的词进行纠正,将停用词(例如语气词,标点符号等)等进行删除,对查询串进行切分。
[0059] 则所述搜索与所述查询串相匹配的网页,得到网页结果的步骤具体可以为,在全网中搜索与预处理后的查询串相匹配的网页文档,得到所述查询串对应的网页结果。
[0060] 假设对查询串进行切分得到的分词为term,则在本申请的一种优选实施例中,所述搜索与输入的查询串相匹配的网页,得到网页结果的步骤具体可以包括:首先,将各个不同的term在网页倒排库中进行检索,然后将各个term对应的网络文档列表进行求交集的操作,得到含有各term的网页的候选集合,最后按照既定的排序方法将候选集合进行筛选排序,得到各网页结果。
[0061] 其中,网页倒排库可以通过如下方式得到:预先对网页中的文字进行文字分析,然后对每一个词建立倒排索引,存储到文件数据库中;网页倒排库检索具有查询时间短,效率高,资源占用少等优点。此处的排序方法可以网页与查询关键词之间的相关性参数为依据,本申请实施例对网页结果的具体排序方法不加以限制。
[0062] 步骤102、在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;
[0063] 知识库的原理在前面已做介绍,在具体实现中,可以通过对互联网网页的分析,提取出实体及其属性知识,并添加到知识库中的方式进行构建,例如,可以从百科词条、豆瓣电影、美食杰的食物等提取实体及其属性知识,本申请实施例对具体的知识库的构建方法及所覆盖的具体领域不加以限制。
[0064] 在本申请的一种优选实施例中,在所述在知识库中检索得到所述查询串对应的实体结果的步骤之前,所述方法还可以包括:对所述查询串进行预处理操作,所述预处理操作具体可以包括纠错、去词和分词操作中的一项或多项。
[0065] 则所述在知识库中检索得到所述查询串对应的实体结果的步骤具体可以为,在知识库中根据预处理后查询串对全网中的实体对象进行结构化查询,得到所述查询串对应的实体结果。
[0066] 在本申请的一种优选实施例中,所述在知识库中检索得到所述查询串对应的实体结果的步骤,具体可以包括:
[0067] 子步骤S101、识别所述查询串中的实体词和实体属性词,并进行标签化;
[0068] 在具体实现中,可以通过预先制作的知识库实体列表,将查询串中的实体词识别出来,这些实体词通常包含各个领域里的实体实例,例如:电影,电视剧,人物,机构,地点等。
[0069] 子步骤S102、对所述查询串进行文法分析,得到的文法分析结果中包括文法规则及符合所述文法规则的、标签化的实体词;
[0070] 文法可用于表示描述语言语法结构的形式规则。此处的文法分析可用于对查询串进行语义理解,弄清楚查询串的主谓宾结构。
[0071] 在本申请的一种应用实施例中,可采用上下文无关方法进行查询串的文法分析。上下文无关方法是形式语言理论中一种重要的变换文法,用来描述上下文无关语言,在乔姆斯基分层中称为2型文法。是自己定义的一套文法,可以用来进行句法分析,得到句子结构及各句子成分之间的依赖关系。
[0072] 本申请实施例的上下无关文法的文法规则可基于知识库建立。例如,“刘德华”是知识库中类别为“人”的实体对象,“配偶”是知识库中“人”的属性,则“配偶”对应类别为“人”的是实体对象,那么就可以建立文法规则:<实体_人><属性_人_配偶>——><实体_人>。
[0073] 子步骤S103、将所述文法分析结果转换为机器语言描述的查询语句;
[0074] 本申请实施例中,所述机器语言具体可以包括基于资源描述框架的各种查询语言,如结构化查询语言(SQL,Structured Query Language)语言、SPARQL(SPARQL Protocol and RDF Query Language)等等。
[0075] 子步骤S104、依据所述查询语句在知识库中检索得到相应的实体信息,作为实体结果。
[0076] 以查询串"北京爬山好去处"为例,所述在知识库中检索得到所述查询串对应的实体结果的步骤,具体可以包括:
[0077] 子步骤S201、识别所述查询串中的实体词和实体属性词,并进行标签化,得到:
[0078] 北京<实体_城市><实体_专辑>
[0079] 爬山好去处<属性_城市_周边山峰>;
[0080] 子步骤S202、预先根据知识库建立文法规则:<实体_山峰><-<实体_城市><属性_城市_周边山峰>;
[0081] 子步骤S203、根据文法规则检测第1步识别的标记是否合法,发现<实体_专辑>无法与<属性_城市_周边山峰>形成文法规则,故丢弃,以及<实体_城市>与<属性_城市_周边山峰>可以组成文法规则,保留。
[0082] 子步骤S204、得到符合用户查询意图的文法分析结果:<实体_城市>为北京的<属性_城市_周边山峰>的值;
[0083] 子步骤S205、将文法分析结果转换成SQL语句:
[0084] “SELECT<属性_城市_周边山峰>FROM<实体>=‘北京’”;
[0085] 子步骤S206、解析SQL语句,优化查询逻辑,按照SQL语句指定的操作从知识库中查询需要获得的实体和实体属性信息,并筛选出来作为对应的实体结果。
[0086] 步骤103、将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;
[0087] 步骤101中基于搜索得到的与查询词相匹配的网页结果通常数量众多,至于某条网页结果对应网页内容具体是否与查询串相关,现有技术中,需要用户点击进入该条网页结果查看网页内容才能确定。
[0088] 而本申请实施例中,步骤102搜索得到的实体结果通常包括知识库中与查询串相关的至少一个实体对象,其通常以词条或者图片等简洁、直观的形式存在,且能够代表领域中的专业知识。本申请实施例将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,分别筛选出每条网页结果对应的目标实体,所述目标实体源自于各网页结果对应的网页内容,相对于现有技术中网页标题和文字摘要部分能够提供更为丰富和直观的标识信息。各目标实体为网页结果中分别与查询串相关的结果,既与查询串对应,又与网页结果相匹配,从而将网页结果中与查询串相关的目标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页面内容的可靠性,因此,本申请为网络搜索结果提供了更为直观和丰富的信息,为用户筛选网页结果提供了更多的信息依据和便利,提高了信息查询的效率。
[0089] 在本申请的一种优选实施例中,所述将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体的步骤具体可以为,在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实体。
[0090] 假设查询串为"北京爬山好去处",步骤102检索得到的实体结果具体可以包括:“香山”、“雾灵山”、“箭扣长城”三个实体对象,很明显,根据常识判断,“箭扣长城”过于险峻,为供专业登山人员进行野外探险的旅游景点,并不适合普通大众进行爬山锻炼;
[0091] 而依据步骤103的匹配结果,网页结果中,条目1对应匹配知识库中的实体结果为“香山”,未匹配的实体结果为”百花山“,条目2分别对应匹配知识库中的实体结果为“香山”和“雾灵山”,未匹配的实体结果为“八大处”等,因此,本申请在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容,筛选出网页结果中与查询串相关的目标实体,也即,将“香山”作为条目1对应的目标实体,将“香山”和“雾灵山”分别作为条目2对应的目标实体。
[0092] 在本申请的一种优选实施例中,所述将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体的步骤,具体可以包括:
[0093] 子步骤S301、对所述网页结果对应的网页正文进行分析;
[0094] 这里的网页正文具体可以包括去掉广告等多余信息的网页内容。
[0095] 子步骤S302、依据网页正文对应的分析结果,提取所述网页正文中的特征内容;所述特征内容具体可以包括:标题、子标题、表格、摘要和加粗文字中的一项或多项;
[0096] 网页正文的内容通常比较多,如果直接将所有网页正文的内容与各实体结果进行匹配,则会花费较多的处理时间;为减少处理时间,提高处理效率,本优选实施例提取出其中的特征内容与各实体结果进行匹配。当然,标题、子标题、表格、摘要和加粗文字中的一项或多项只是作为特征内容的优选实施例,实际上其它特征内容也是可行的,如首段内容、首句内容等等。
[0097] 子步骤S303、将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各实体结果相匹配的目标内容。
[0098] 在实际应用中,所述网页结果中与各实体结果相匹配的目标内容可以为实体结果的正名或别名,对于目标内容为别名的情形,本申请可以将其纠正为正名。
[0099] 由于网页结果的条目较多,并不是所有的网页结果与查询串相关;而源自知识库的实体结果的知识性较强,并不一定适用于普通大众;因此,所述将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体的过程为对各网页结果与各实体结果进行相互筛选的过程,其筛选出的所述网页结果匹配的目标实体,既与查询串相关又且位于大众化的网页结果中,故其为网页结果中与查询串相关的大众化信息。
[0100] 步骤104、将所述目标实体分别与匹配的网页结果进行对应展现。
[0101] 在本申请的一种优选实施例中,所述实体信息具体可以包括实体对象对应的图片和/或实体名称;
[0102] 则所述展现所述网页结果匹配的目标实体的步骤具体可以为,在某条网页结果的周围区域以超级链接的方式对该条搜索结果匹配的目标实体进行展现。
[0103] 其中,所述周围区域可以是上下左右区域;用户点击以超级链接的方式展现的所述目标实体,就可以进入以所述目标实体对应查询串的网络搜索结果页面。
[0104] 在本申请的一种优选实施例中,可以在每条网页结果的标题下方对应展现每条网页结果的实体图片及实体名称;这样用户能够直接通过实体图片快速定位到自己感兴趣的网页结果。
[0105] 对应于上述示例,本申请可以分别在条目1的标题下方展现“香山”的图片,以及,在条目2的标题下方展现“香山”和“雾灵山”的图片。用户可以将图片和网页结果中的标题和摘要进行对照,以判断当前网页结果对应网页内容是否与查询串相关。
[0106] 在本申请的一种优选实施例中,在将所述目标实体分别与匹配的网页结果进行对应展现的步骤之前,所述方法还可以包括:依据所述与所述实体结果相匹配的目标内容分别在各所述网页结果中出现的频率和/或位置,以每条网页结果为单位对所述目标实体进行排序;
[0107] 则所述将所述目标实体分别与匹配的网页结果进行对应展现的步骤具体可以为,依据目标实体的排序结果分别对所述网页结果匹配的各目标实体的标记进行对应展现。
[0108] 总之,本申请能够将网页结果中与查询串相关的目标实体分别筛选出来,并简洁地、直观地展现给用户,无需用户点击查看即可判断当前网页结果对应的页面内容与查询串的相关性,进而判断当前网页结果中所包含的页面内容的可靠性,因此,本申请为网络搜索结果提供了更为直观和丰富的信息,为用户筛选网页结果提供了更多的信息依据和便利,提高了信息查询的效率。
[0109] 在本发明的一种优选实施例中,所述展现的目标实体带有对应的超级链接,所述超级链接分别用于转至所匹配的网页结果;
[0110] 则所述方法还可以包括:在接收对所述目标实体的触发之后,分别将所述网页结果定位至与所述目标实体对应匹配的位置,从而加载所述目标实体对应匹配的网页内容。
[0111] 对应于上述示例,假设本申请分别在网页结果中的条目1的标题下方展现了“香山”的实体图片,以及,在条目2的标题下方展现了“香山”和“雾灵山”的实体图片,并且展现的实体图片带有对应的超级链接,所述超级链接分别用于转至所匹配的网页结果;
[0112] 则在用户点击条目2下方的“雾灵山”实体图片之后,本优选实施例可以加载条目2对应的网页页面,以及,对该网页页面进行分析后,对条目2对应的网页页面中介绍“雾灵山”对应的位置进行确定,并将展现条目2对应的网页页面的浏览器的滑动条自动滑动至确定的“雾灵山”位置附近,从而方便用户直接查看触发的目标实体在该网页结果中直接对应的内容。
[0113] 在将所述目标实体分别与匹配的网页结果进行对应展现的情况下,如果用户点击某网页结果匹配的目标实体,则说明用户对该目标实体感兴趣,而本优选实施例加载所述目标实体匹配的网页,并将该网页定位至与所述目标实体匹配的内容位置,能够直接为用户呈现感兴趣的目标实体在所匹配的网页结果中的对应内容,避免了用户再次滑动浏览器的滑动条以在目标实体所匹配的网页页面中查找匹配的对应内容,从而进一步提高信息查询的效率。
[0114] 在其他实施例中,在接收对所述目标实体的触发之后,也可以直接加载所述目标实体在知识库中对应的实体内容,从而展示与网页结果匹配的目标实体的详细信息,提高了信息查询的效率;或者,在其他实施例中,在接收对所述目标实体的触发之后,也可以向用户提供以所述目标实体为查询串搜索得到的搜索结果,等等,总之,本申请对所述展现的目标实体链接的具体内容不加以限制。
[0115] 与前述方法实施例相应,本申请还提供了一种网络搜索装置,参照图2所示的结构图,具体可以包括:
[0116] 网页搜索单元201,用于搜索与输入的查询串相匹配的网页,得到网页结果;
[0117] 实体搜索单元202,用于在知识库中检索得到所述查询串对应的实体结果;其中,所述知识库中存储全网中的实体对象;
[0118] 实体筛选单元203,用于将所述实体结果分别在各网页结果对应的网页内容中进行分析匹配,筛选出每条网页结果对应的目标实体;及
[0119] 展现单元204,用于将所述目标实体分别与匹配的网页结果进行对应展现。
[0120] 在本申请的一种优选实施例中,所述实体筛选单元203,可具体用于在每条网页结果对应的网页内容中分别筛选出与所述实体结果相匹配的目标内容,并将所述目标内容对应的实体结果作为所述网页结果对应的目标实体。
[0121] 在本申请的一种优选实施例中,所述实体搜索单元202具体可以包括:
[0122] 识别标签化模块,用于识别所述查询串中的实体词和实体属性词,并进行标签化;
[0123] 文法分析模块,用于对所述查询串进行文法分析,得到的文法分析结果中包括文法规则及符合所述文法规则的、标签化的实体词;
[0124] 转换模块,用于将所述文法分析结果转换为机器语言描述的查询语句;及[0125] 机器检索模块,用于依据所述查询语句在知识库中检索得到相应的实体信息,作为实体结果。
[0126] 在本申请的再一种优选实施例中,所述实体筛选单元203具体可以包括:
[0127] 网页分析模块,用于对所述网页结果对应的网页正文进行分析;
[0128] 提取模块,用于依据网页正文对应的分析结果,提取所述网页正文中特征内容;所述特征内容具体可以包括标题、子标题、表格、摘要和加粗文字中的一项或多项;及[0129] 匹配模块,用于将提取到的文字分别与各实体结果进行匹配,得到所述网页结果中与各实体结果相匹配的目标内容。
[0130] 在本申请实施例中,优选的是,所述装置还可以包括:用于在将所述目标实体分别与匹配的网页结果进行对应展现的操作之前,依据所述与所述实体结果相匹配的目标内容分别在各所述网页结果中出现的频率和/或位置,以每条网页结果为单位对所述目标实体进行排序的实体排序单元;
[0131] 则所述展现单元204可具体用于,依据目标实体的排序结果分别对所述网页结果匹配的各目标实体的标记进行对应展现。
[0132] 在本申请实施例中,优选的是,所述展现的目标实体带有对应的超级链接,所述超级链接分别用于转至所匹配的网页结果;
[0133] 则所述装置还可以包括:用于在接收对所述目标实体的触发之后,分别将所述网页结果定位至与所述目标实体对应匹配的位置,从而加载所述目标实体对应匹配的网页内容的加载单元。
[0134] 在本申请实施例中,优选的是,所述装置还可以包括:用于对所述查询串进行预处理操作的预处理单元,其中,所述预处理操作包括纠错、去词和分词操作中的一项或多项;
[0135] 则所述网页搜索单元201可具体用于,在全网中搜索与预处理后的查询串相匹配的网页文档,得到所述查询串对应的网页结果;
[0136] 所述实体搜索单元202可具体用于,在知识库中根据预处理后查询串对全网中的实体对象进行结构化查询,得到所述查询串对应的实体结果。
[0137] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0138] 以上对本申请所提供的一种网络搜索方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈