首页 / 专利库 / 专利权 / 特定技术特征 / 一种基于网络的特定资源获取方法和装置

一种基于网络的特定资源获取方法和装置

阅读:379发布:2020-05-13

专利汇可以提供一种基于网络的特定资源获取方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 的 实施例 提供了一种基于网络的特定资源获取方法。该方法包括:读取特定资源样本空间的对应式字串,所述对应式字串包括至少两个字符序列,各字符序列间具有对应关系;以所述对应式字串为关键词进行网络搜索获取网页;以获取的每个网页为处理对象,学习得到所述对应式字串在各网页的分布特征,提取网页中满足所述分布特征要求的对应式字串;将提取的新的对应式字串增加到所述特定资源样本空间。本发明的实施例还提供了一种于网络的特定资源获取装置。本发明实施例的技术方案提高了特定资源获取的效率和便捷性。,下面是一种基于网络的特定资源获取方法和装置专利的具体信息内容。

1.一种基于网络的特定资源获取方法,其特征在于,该方法包括:
读取特定资源样本空间的对应式字串,所述对应式字串包括至少两个字符序列,各字符序列间具有对应关系;
以所述对应式字串为关键词进行网络搜索获取网页;以获取的每个网页为处理对象,学习得到所述对应式字串在各网页的分布特征,提取网页中满足所述分布特征要求的对应式字串;
将提取的新的对应式字串增加到所述特定资源样本空间。
2.根据权利要求1所述的方法,其特征在于,将提取的新的对应式字串增加到所述特定资源的样本空间后,以所述新的对应式字串循环进行权利要求1所述的各步骤,直至满足预设条件时停止循环过程。
3.根据权利要求2所述的方法,其特征在于,所述预设条件包括样本空间内对应式字串的数量变化是否小于预设阈值,如果是,则停止循环过程。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在学习得到所述对应式字串在各网页的分布特征之前,基于网页代码的可视标签抽取网页的网页正文,对网页正文进行学习和提取操作。
5.根据权利要求4所述的方法,其特征在于,所述网页代码为HTML格式代码。
6.根据权利要求4所述的方法,其特征在于,所述基于网页代码的可视标签抽取网页的网页正文包括:
获取网页代码;根据网页代码的可视标签类型过滤所述网页代码以获取网页正文。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:定位所述对应式字串在网页正文中的位置,由所述对应式字串所在位置向前和/或向后提取网页正文中满足所述分布特征要求的对应式字串。
8.根据权利要求1所述的方法,其特征在于,在将提取的新的对应式字串增加到所述特定资源样本空间之前,对对应式字串进行过滤处理。
9.根据权利要求1至8中任何一项所述的方法,其特征在于,在提取网页中满足所述分布特征要求的对应式字串时,还提取对应式字串的关联信息,将所述的关联信息一并增加到所述特定资源的样本空间。
10.根据权利要求1至8中任何一项所述的方法,其特征在于,以所述对应式字串为关键词进行网络搜索按照预设配置进行,所述预设配置包括对搜索引擎、返回页数、网页爬取参数和/或线程数的配置。
11.一种基于网络的特定资源获取装置,其特征在于,该装置包括:读取单元、搜索单元、学习单元、提取单元和更新单元,以及特定资源样本空间,其中:
所述读取单元,用于读取特定资源样本空间的对应式字串,所述对应式字串包括至少两个字符序列,各字符序列间具有对应关系;
所述搜索单元,用于以所述对应式字串为关键词进行网络搜索获取网页;
所述学习单元,用于从网页中学习得到所述对应式字串在网页中的分布特征;
所述提取单元,用于提取网页中满足所述分布特征要求的对应式字串;
所述更新单元,用于将提取的新的对应式字串增加到所述特定资源样本空间。
12.根据权利要求11所述的装置,其特征在于,将提取的新的对应式字串增加到所述特定资源的样本空间后,以所述新的对应式字串循环调用权利要求11所述的各单元,直至满足预设条件时停止循环过程。
13.根据权利要求12所述的装置,其特征在于,所述预设条件包括样本空间内对应式字串的数量变化是否小于预设阈值,则:所述装置包括判断单元,用于判断样本空间内对应式字串的数量变化是否小于预设阈值,如果是,则停止循环过程。
14.根据权利要求11所述的装置,其特征在于,所述装置还包括抽取单元,用于在学习得到所述对应式字串在各网页的分布特征之前,基于网页代码的可视标签抽取网页的网页正文。
15.根据权利要求14所述的装置,其特征在于,所述抽取单元包括获取子单元和过滤子单元,其中:
所述获取子单元,用于获取网页代码;
所述过滤子单元,用于根据网页代码的可视标签类型过滤所述网页代码以获取网页正文。
16.根据权利要求14所述的装置,其特征在于,所述装置还包括定位单元,用于定位所述对应式字串在网页正文中的位置,则:提取单元由所述对应式字串所在位置向前和/或向后提取网页正文中满足所述分布特征要求的对应式字串。
17.根据权利要求11所述的装置,其特征在于,所述装置还包括过滤单元,用于在将提取的新的对应式字串增加到所述特定资源样本空间之前,对对应式字串进行过滤处理。
18.根据权利要求11至17中任何一项所述的装置,其特征在于,所述提取单元还用于提取对应式字串的关联信息,则:所述更新单元还用于将所述的关联信息一并增加到所述特定资源的样本空间。
19.根据权利要求11至17中任何一项所述的装置,其特征在于,所述搜索单元以所述对应式字串为关键词进行网络搜索按照预设配置进行,所述预设配置包括对搜索引擎、返回页数、网页爬取参数和/或线程数的配置。

说明书全文

一种基于网络的特定资源获取方法和装置

技术领域

[0001] 本发明涉及网络应用技术领域,尤其涉及一种基于网络的特定资源获取方法和相应装置。

背景技术

[0002] 随着信息网络技术的发展与成熟,人们越来越多地通过网络获取需要的资源,然后利用获取的资源进行知识库构建。比如:通过网络获取互译词条,将互译词条用于构建双语词典。由于网络的及时性和开放性特征,通过网络构建词典的方式相对于传统的人工编写模式,不仅大为节省了人成本、提高了效率,而且构建的双语词典内容反映时代特色、全面丰富。现有技术中基于网络获取资源的实现步骤包括:选定关键词,通过搜索引擎获取一批与该关键词相关的网页,然后分析网页找到特定网站,利用预先编写的爬虫程序获取网站资源。然而,这种基于网络的获取资源方式需要根据网站类型预先编写不同的爬取模板,降低了资源获取的效率和便捷性。此外,该方式获取的资源分布范围窄、数量有限。

发明内容

[0003] 有鉴于此,本发明的发明目的在于提供一种新的基于网络的特定资源获取方式与相应的装置,该方法和装置通过网络获取网页后,在对网页进行处理基础上获取资源分布特征,利用资源分布特征获取相应资源,从而避免针对不同的网站编写不同的爬虫模板,提高资源获取的效率和便捷性。
[0004] 本发明实施例提供的一种基于网络的特定资源获取方法包括:
[0005] 读取特定资源样本空间的对应式字串,所述对应式字串包括至少两个字符序列,各字符序列间具有对应关系;
[0006] 以所述对应式字串为关键词进行网络搜索获取网页;以获取的每个网页为处理对象,学习得到所述对应式字串在各网页的分布特征,提取网页中满足所述分布特征要求的对应式字串;
[0007] 将提取的新的对应式字串增加到所述特定资源样本空间。
[0008] 优选地,将提取的新的对应式字串增加到所述特定资源的样本空间后,以所述新的对应式字串循环进行权利要求1所述的各步骤,直至满足预设条件时停止循环过程。
[0009] 优选地,所述预设条件包括样本空间内对应式字串的数量变化是否小于预设阈值,如果是,则停止循环过程。
[0010] 优选地,所述方法还包括:在学习得到所述对应式字串在各网页的分布特征之前,基于网页代码的可视标签抽取网页的网页正文,对网页正文进行学习和提取操作。
[0011] 进一步优选地,所述网页代码为HTML格式代码。
[0012] 进一步优选地,所述基于网页代码的可视标签抽取网页的网页正文包括:
[0013] 获取网页代码;根据网页代码的可视标签类型过滤所述网页代码以获取网页正文。
[0014] 进一步优选地,所述方法还包括:定位所述对应式字串在网页正文中的位置,由所述对应式字串所在位置向前和/或向后提取网页正文中满足所述分布特征要求的对应式字串。
[0015] 优选地,在将提取的新的对应式字串增加到所述特定资源样本空间之前,对对应式字串进行过滤处理。
[0016] 优选地,在提取网页中满足所述分布特征要求的对应式字串时,还提取对应式字串的关联信息,将所述的关联信息一并增加到所述特定资源的样本空间。
[0017] 优选地,以所述对应式字串为关键词进行网络搜索按照预设配置进行,所述预设配置包括对搜索引擎、返回页数、网页爬取参数和/或线程数的配置。
[0018] 本发明还提供了一种基于网络的特定资源获取装置,该装置包括:读取单元、搜索单元、学习单元、提取单元和更新单元,以及特定资源样本空间,其中:
[0019] 所述读取单元,用于读取特定资源样本空间的对应式字串,所述对应式字串包括至少两个字符序列,各字符序列间具有对应关系;
[0020] 所述搜索单元,用于以所述对应式字串为关键词进行网络搜索获取网页;
[0021] 所述学习单元,用于从网页中学习得到所述对应式字串在网页中的分布特征;
[0022] 所述提取单元,用于提取网页中满足所述分布特征要求的对应式字串;
[0023] 所述更新单元,用于将提取的新的对应式字串增加到所述特定资源样本空间。
[0024] 优选地,将提取的新的对应式字串增加到所述特定资源的样本空间后,以所述新的对应式字串循环调用权利要求11所述的各单元,直至满足预设条件时定制循环过程。
[0025] 所述预设条件包括样本空间内对应式字串的数量变化是否小于预设阈值,则:所述装置包括判断单元,用于判断样本空间内对应式字串的数量变化是否小于预设阈值,如果是,则停止循环过程。。
[0026] 优选地,所述装置还包括抽取单元,用于在学习得到所述对应式字串在各网页的分布特征之前,基于网页代码的可视标签抽取网页的网页正文。
[0027] 进一步优选地,所述抽取单元包括获取子单元和过滤子单元,其中:
[0028] 所述获取子单元,用于获取网页代码;
[0029] 所述过滤子单元,用于根据网页代码的可视标签类型过滤所述网页代码以获取网页正文。
[0030] 进一步优选地,所述装置还包括定位单元,用于定位所述对应式字串在网页正文中的位置,则:提取单元由所述对应式字串所在位置向前和/或向后提取网页正文中满足所述分布特征要求的对应式字串。
[0031] 优选地,所述装置还包括过滤单元,用于在将提取的新的对应式字串增加到所述特定资源样本空间之前,对对应式字串进行过滤处理。
[0032] 优选地,所述提取单元还用于提取对应式字串的关联信息,则:所述更新单元还用于将所述的关联信息一并增加到所述特定资源的样本空间。
[0033] 优选地,所述搜索单元以所述对应式字串为关键词进行网络搜索按照预设配置进行,所述预设配置包括对搜索引擎、返回页数、网页爬取参数和/或线程数的配置。
[0034] 本发明实施例给出的技术方案从特定资源样本空间中读取对应式字串后,以对应式字串为关键词进行网络搜索,以搜索获得的各网页为处理对象,从网页中学习得到对应式字串在各网页的分布特征,然后在该网页中提取满足分布特征要求的对应式字串,将提取的新对应字串加入到特定资源样本空间实现更新。与现有技术相比,本发明实施例的技术方案从网页中学习出特征,在网页中寻找满足要求的对应式字串,避免了针对不同的网站编写不同的爬取模板,从而提高了特定资源的获取效率和便捷性。此外,本发明实施例的技术方案可以循环多次进行,对特定资源的样本空间可进行不断迭代更新,扩展了资源分布范围,提高了获取的特定资源的数量。附图说明
[0035] 图1为本发明方法的一个实施例流程图
[0036] 图2为本发明方法的又一个实施例流程图;
[0037] 图3为本发明方法实施例的一个实例流程图;
[0038] 图4为本发明装置的实施例组成框图

具体实施方式

[0039] 本发明实施例的技术方案从特定资源样本空间中读取对应式字串后,以对应式字串为关键词进行网络搜索,以搜索获得的各网页为处理对象,从网页中学习得到对应式字串在各网页的分布特征,然后在该网页中提取满足分布特征要求的对应式字串,将提取的新对应字串加入到特定资源样本空间实现更新,避免了针对不同的网站编写不同的爬虫模板,提高了资源获取的效率和便捷性。
[0040] 为了使本领域技术人员能进一步了解本发明的特征及技术内容,下面结合附图和具体实施例,对本发明的技术方案进行详细描述。
[0041] 在现代信息化社会,对信息的处理早已摆脱了人工方式,几乎均采用电子化设备实现相应的工作。比如双语词典的编辑与扩充、企业黄页信息的收集与整理等,这类知识库的构建逐渐脱离单靠人工的传统方式,而更多的采取基于互联网的实现方法。但是,如前所述,目前的基于网络的资源获取方式不具有通用性,降低了通过网络获取资源的效率和复杂性。为克服现有技术中基于网络实现资源获取存在的缺陷,本发明提供了一种新的基于网络的资源获取方法。参见附图1,该图示出了本发明方法的一个实施例的流程图。该实施例包括:
[0042] 步骤S101:读取特定资源样本空间的对应式字串,所述对应式字串包括至少两个字符序列,各字符序列间具有对应关系;
[0043] 这里的特定资源是指包含对应式字串信息的集合,该集合构成样本空间,“对应”是特定资源的元素的重要特征。对应式字串包括至少两个字符序列,字符序列间具有对应关系,诸如名人与名言、企业名称与企业联系方式、成语与成语的解释、著作与著作中的语句等等均是可形成对应关系的对应式字串。比如毛泽东说:“一切反动派都是纸老虎”,这里“毛泽东”是第一字符序列名人字串,“一切反动派都是纸老虎”是第二字串名言字串,该两个字串具有对应关系。除这种两端式对应字串之外,网络中还存在大量多段式对应字串,比如“北京金山软件有限公司,010-62927777,海淀区小营西路33号”,这里第一字符序列“北京金山软件有限公司”为企业名称字串,第二字符序列“010-62927777”为企业联系方式字串,第三字符序列“海淀区小营西路33号”为企业地址字串,这三个字串具有对应关系。特定资源样本空间在首次进行读取操作时,可预设一定数量的对应式字串,通过后续步骤逐渐扩展该样本空间的容量,从而增加特定资源的数量。
[0044] 步骤S102:以所述对应式字串为关键词进行网络搜索获取网页;
[0045] 从特定资源样本空间读取出对应式字串后,以该对应式字串作为整体进行网络搜索,网络搜索前可对网络搜索的模式进行预先配置,使得网络搜索按照预设的方式进行。这里预设配置包括搜索引擎、返回页数、网页爬取参数、线程数的配置等。如设定搜索使用的搜索引擎种类和数量,每次搜索返回的网页数量,同时开启的线程数。这些因素的具体取值取决于实际应用场合对特定资源获取的容量、精度、类型等的要求。通过对搜索模式的配置,可实现对搜索过程控制,有利于针对性从网络中获取特定资源。
[0046] 步骤S103:以获取的每个网页为处理对象,学习得到所述对应式字串在各网页的分布特征;
[0047] 网页搜索后,将获取包含所述对应式字串的大量网页,以获取的每个网页为处理对象,进行分布特征学习和新对应字串的提取等操作。学习对应式字串的过程包括:解析所述对应式字串在所述网页中的分布形式,提取该分布形式作为分布特征。仍以前述毛泽东的一切反动派均是纸老虎为例:假设在一篇网络中该对应式字串以这种分布形式存在:毛泽东-一切反动派都是纸老虎,其分布形式是“人名”在前,“名言”在后,名人与名言之间通过短划线连接,则分布特征为:()-()。不同的对应式字串在相同的网页中的分布特征可能相同,相同的对应式字串在不同的网页中的分布特征可能不同,由于以每个网页为处理对象,一个对应式字串在一篇网页中可能存在多处,多处出现的对应式字串的分布特征大多数情况下相同,但也可能不同,在不同的情况下,可通过统计频率的方式选择频率最高的分布特征作为该对应式字串的分布特征。
[0048] 步骤S104:提取网页中满足所述分布特征要求的对应式字串;
[0049] 获得对应式字串的分布特征后,即可根据该分布式特征对网页的内容进行匹配,找出其他具有该分布特征的对应式字串。比如在前述网页中,除了有毛泽东的名言外,还可能以这样的方式分布的周恩来的名言:周恩来-要得到人家尊重,首先要尊重人家。按照前述的分布特征,该句名人名言也满足分布特征的要求,由此从网页中提取出该名人名言作为满足分布特征要求的对应式字串。
[0050] 步骤S105:将提取的新的对应式字串增加到所述特定资源样本空间。
[0051] 特定资源样本空间是存储获取的对应式字串的集合,提取的对应式字串包括用于搜索的对应式字串相同的字串,也包括不相同的字串,这里为避免重复,将提取的其他对应式字串(新的对应式字串)增加到特定资源样本空间。
[0052] 本方法实施例给出的技术方案从特定资源样本空间中读取对应式字串后,以对应式字串为关键词进行网络搜索,以搜索获得的各网页为处理对象,从网页中学习得到对应式字串在各网页的分布特征,然后在该网页中提取满足分布特征要求的对应式字串,将提取的新对应字串加入到特定资源样本空间实现更新。与现有技术相比,本方法实施例的技术方案从网页中学习出特征,在网页中寻找满足要求的对应式字串,避免了针对不同的网站编写不同的爬取模板,从而提高了特定资源的获取效率和便捷性。而且,本方法技术方案不受限于特定的网站,具有较好的通用性,可适用于获取具有对应式关系的各种资源。
[0053] 前述实施例中虽然实现对特定资源样本空间的更新,向初始预置的特定资源样本空间增入了新的对应式字串,但是,在实际应用场合,这种资源样本空间的增加数量远不能满足实际需要。为此,参见图2,本发明优选循环进行前述实施例的各步骤,由此构成本发明的又一个实施例。该实施例包括:在将提取的新的对应式字串增加到所述特定资源的样本空间后,再从更新后的特定资源样本空间中读取所述新的对应式字串,然后以该新的对应式字串为关键词进行网络搜索,搜索后对获取的网页进行学习,以得到该对应式字串的分布特征,根据该分布特征提取网页中的其他满足该分布特征的对应式字串,将该对应式字串增加入特定资源样本空间,然后判断特定资源样本空间的样本增加量(样本空间内对应式字串的变化量)是否小于预设阈值,如果是,说明样本空间的字串已达到预定要求,如果否,则继续进行上述步骤。本方法实施例的技术方案通过循环多次进行,对特定资源的样本空间进行不断迭代更新,扩展了资源分布范围,提高了获取的特定资源的数量。值得注意的是:本实施例是通过判断样本空间内对应式字串的数量变化是否小于预设阈值的方式控制循环过程,实际上,采取其他预设条件同样能实现本实施例的发明目的,比如:将是否接收到用户停止循环的指示作为预设条件,当用户指示停止循环时则停止;还可以预先设定需要获取的特定资源样本空间内的对应式字串的数量作为预设条件,当达到预设数量时,则停止循环过程。
[0054] 上述两个实施例在通过搜索获取到大量网页后,可对网页直接进行学习和提取操作,也可对获取的网页进行预处理后进行学习和提取操作。本发明优选后者。对网页进行预处理包括:基于诸如HTML代码的可视标签抽取网页的网页正文。通过该预处理,后续的学习和提取操作可针对网页正文进行,使得学习和提取操作的准确性更高、噪声更低,从而提高了特定资源样本空间的数据质量
[0055] 上述两个实施例中对网页进行对应式字串提取时,可直接从网页的头部开始顺序查找到网页尾部,但是,这样处理可能带来较大的噪声,导致提取的对应式字串出现错误。为此,本发明优选在学习得到对应式字串的分布特征后,先定位所述对应式字串在网页中的位置,然后以该对应式字串所在位置为起点,向前或者向后提取网页中的满足分布特征的对应式字串。通过这种以对应式字串为界对网页内容进行划分,可降低提取过程中的噪声干扰,达到尽可能准确提取新的对应式字串的目的,而且这种方式,还有利于提高获取对应式字串的速度。
[0056] 上述实施例中提取单元除用于提取符合分布特征的对应式字串外,还可以提取网页中与该对应式字串的关联信息,并将这些相关信息一同增加到特定资源的样本空间。比如:对于名人名言,还可以提取名人的国籍,名人的生平事迹、名人的居住地等信息。将这些关联信息增加了特定资源样本空间后将进一步丰富样本空间,增强特定资源的可利用性。
[0057] 为了更清楚地说明本发明的技术方案,下面以一个具体实例进行描述:参见附图3,该图示出了针对名人名言这种对应式特定资源的获取过程。
[0058] 步骤S301:初始化名人名言样本空间和配置文件。名人名言样本空间为本发明特定资源的一种,初始化时可设置各种可能的对应式字串,对应式字串的数量可根据实际需要设置,数量较少时,获得的名人名言的数量较好,但收敛速度快;数量大时,获得的名人名言丰富,但要实现样本空间中的所有对应字串的轮询需要较长的时间。配置文件用于定义搜索摸索,即配置使用的搜索引擎、返回页数、样本地址、网页爬取参数、线程数及文件地址等信息。
[0059] 步骤S302:读取名人名言样本空间中的一组名人名言,例如“毛泽东”、“一切反动派都是纸老虎”为一组名人名言。
[0060] 步骤S303:以所读取的名人名言为关键词按照配置文件的预设配置进行搜索以获得大量的相关网页。
[0061] 步骤S304:基于HTML可视标签抽取网页正文。网页中通常包含大量信息,比如广告、声明、嵌入控件等,这些内容对于本发明的特征学习和字串提取没有直接作用,为了提高处理速度,需要对他们进行剔除。
[0062] 基于HTML可视标签的网页正文抽取过程包括:
[0063] (1)获取网页的HTML代码;
[0064] 获取的网页HTML代码,包括可视代码和非可视代码两种,非可视代码由于不具有识别价值,对其进行删除处理。
[0065] (2)分析HTML代码中的HTML可视标签得到不同类型的标签,根据可视标签类型采取不同的过滤措施:
[0066] 比如:分析HTML标签得到如下三种类型的标签:
[0067] a、需要删除标签及其内容的标签,该类标签包括:
[0068] script|noscript|style|select|......|iframe|frameset|colgroup|button|......|area|link|meta|textarea;
[0069] b、仅需要删除的标签这类标签包括:
[0070] a|abbr|acronym|tt|u|i|b|big|small|......|dfn|pre|var|strong|em|samp|kbd|dir|font|ins|label|sub|sup|q|s|span;
[0071] c、需要替换为回车的标签,这类标签包括:
[0072] body|h\d+|p|br|hr|div|......|tfoot|dir|menu|ul|ol|li|dl|dt|dd;
[0073] 利用前述步骤对网页进行吸收过滤处理,并删除多余空格及回车进行过滤,得到网页正文。
[0074] 以上仅以HTML作为一种实施例,在这里特别说明的是,获取的网页代码不仅限于HTML格式,本发明实施例的技术方案对于HTML各种变体同样适用,例如jsp、asp、php、xhtml格式代码。
[0075] 步骤S305:从各网页正文中学习得到读取的名人名言在该网页中的分布特征。例如该网页特征为“说:”。
[0076] 步骤S306:根据所述分布特征提取网页正文中的名人名言。利用搜索引擎关键词“名人名言”将网页正文一分为二,对于网页正文前半部分自下而上根据分布特征抽取名人名言;对于网页正文的下半部分自上而下根据分布特征抽取名人名言。对于下半部分的抽取还可先将后半部分网页进行翻转后提取。步骤S307:判断名人名言样本空间中的样本是否读取完,如果没有,则返回步骤S302;如果已经读取完,则将提取的新的名人名言增加到名人名言样本空间,进入步骤S308。
[0077] 数据量大时,可以对提取的名人名言进行过滤,提取与样本空间中不同的名言,从新获得的名人名言中删除样本空间中已有名言。
[0078] 特别地,提取出的名人名言对应字串可能存在噪声,混乱字符等无用信息,还可以再进行除噪等过滤处理,过滤掉此类无用信息,有利于扩大特定资源的应用,减少特定资源样本空间的存储量。该过滤过程可以统一进行,也可以每抽取一次名人名言后紧接着过滤。
[0079] 步骤S308:判断新增加的名人名言数量是否小于预设阈值,如果是,则结束流程;如果否,则返回步骤S302读取新增加的一组名人名言。
[0080] 上面的叙述主要针对本发明的方法实施例,实际上,相应地,本发明还提供了一种基于网络的特定资源获取装置的实施例。参见附图4,本发明提供的装置实施例400包括:读取单元401、搜索单元402、学习单元403、提取单元404和更新单元405,以及特定资源样本空间406,其中:
[0081] 读取单元401,用于读取特定资源样本空间的对应式字串,所述对应式字串包括至少两个字符序列,各字符序列间具有对应关系;
[0082] 搜索单元402,用于以所述对应式字串为关键词进行网络搜索获取网页;
[0083] 学习单元403,用于从网页中学习得到所述对应式字串在网页中的分布特征;
[0084] 提取单元404,用于提取网页中满足所述分布特征要求的对应式字串;
[0085] 更新单元405,用于将提取的新的对应式字串增加到所述特定资源样本空间。
[0086] 本装置实施例的工作过程是:读取单元401读取特定资源样本空间406的对应式字串;搜索单元402以读取的对应式字串为关键词进行网络搜索获取网页;然后由学习单元403从获取的网页中学习得到所述对应式字串在网页中的分布特征;提取单元404根据所述分布特征提取网页中满足要求的对应式字串;最后由更新单元405将提取的新的对应式字串增加到所述特定资源样本空间。
[0087] 本装置实施例给出的技术方案从特定资源样本空间中读取对应式字串后,以对应式字串为关键词进行网络搜索,以搜索获得的各网页为处理对象,从网页中学习得到对应式字串在各网页的分布特征,然后在该网页中提取满足分布特征要求的对应式字串,将提取的新对应字串加入到特定资源样本空间实现更新。与现有技术相比,本装置实施例的技术方案从网页中学习出特征,在网页中寻找满足要求的对应式字串,避免了针对不同的网站编写不同的爬取模板,从而提高了特定资源的获取效率和便捷性。而且,本装置实施例不受限于特定的网站,具有较好的通用性,可适用于获取具有对应式关系的各种资源。
[0088] 上述实施例中将提取的新的对应式字串增加到所述特定资源的样本空间后,还可以所述新的对应式字串循环调用前述实施例的各单元,直至满足预设条件时停止循环过程,这里的预设条件可根据实际情况进行设置。比如预设条件可设置为样本空间内对应式字串的数量变化是否小于预设阈值,还可以设置为是否接收到用户的停止循环的指示等等。通过循环操作可扩大样本空间的数量。
[0089] 上述实施例还可以包括抽取单元407,用于在学习得到所述对应式字串在各网页的分布特征之前,基于诸如HTML代码的可视标签抽取网页的网页正文。通过抽取单元对获取的网页进行预处理,净化了网页,使得后续的学习和提取操作可仅针对网页正文进行,从而避免了网页中无关信息的干扰,提高了提取字串的准确度和速度。抽取单元可根据实际情况具有不同的内部结构,本实施例优选抽取单元包括获取子单元和过滤子单元,获取子单元用于获取网页的诸如HTML代码;过滤子单元用于根据诸如HTML代码的可视标签类型过滤HTML代码以获取网页正文。值得说明的是本发明装置实施例的技术方案对于HTML各种变体同样适用,例如jsp、asp、php、xhtml格式代码。
[0090] 上述装置实施例还可以包括定位单元408,用于定位所述对应式字串在网页正文中的位置,则:提取单元由所述对应式字串所在位置向前和/或向后提取网页正文中满足所述分布特征要求的对应式字串。该单元的目的在于减少提取字串过程中的噪声干扰,有利于准确提取字串。
[0091] 上述装置实施例还可以包括过滤单元409,用于在将提取的新的对应式字串增加到所述特定资源样本空间之前,对提取的新的对应式字串进行过滤处理。通过过滤单元可以滤除提取的对应式字串中的冗余信息,有利于扩大特定资源的应用,减少特定资源样本空间的存储量。
[0092] 上述装置实施例所述的提取单元还用于提取对应式字串的关联信息,则:所述更新单元还用于将所述的关联信息一并增加到所述特定资源的样本空间。将这些关联信息增加了特定资源样本空间后将进一步丰富样本空间,增强特定资源的可利用性。
[0093] 上述实施例所述的搜索单元以对应式字串为关键词进行网络搜索按照预设配置进行,预设配置可以包括对搜索引擎、返回页数、网页爬取参数和/或线程数等的配置。通过对搜索模式的配置,可实现对搜索过程的控制,有利于针对性地从网络中获取特定资源。
[0094] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈