首页 / 专利库 / 电脑零配件 / 计算机系统 / 软件 / 系统软件 / 操作系统 / 进程 / 网页数据获取方法、装置、电子设备及存储介质

网页数据获取方法、装置、电子设备及存储介质

阅读:23发布:2020-05-08

专利汇可以提供网页数据获取方法、装置、电子设备及存储介质专利检索,专利查询,专利分析的服务。并且本 申请 提供一种网页数据获取方法、装置、 电子 设备及存储介质。本申请提供的网页数据获取方法,根据待爬取URL集合以及知识模式库确定待爬取队列,待爬取队列包括第一候选队列,第一候选队列包括至少一个第一URL,并获取第一URL所指向的网页数据,根据网页数据所包括的网页内容的网页关键词与目标主题的相关度更新子URL所包括的子深度属性值,直至子深度属性值为零时,停止获取子URL所指向的网页数据,并将子深度属性值非零的所有子URL以及第一URL所指向的网页数据确定为目标网页数据。实现了网页数据的垂直化搜索,为文本聚类等业务提供了参考,提高了所获取的网页数据的准确性以及针对性,降低了获取 进程 的 时空 复杂度。,下面是网页数据获取方法、装置、电子设备及存储介质专利的具体信息内容。

1.一种网页数据获取方法,其特征在于,包括:
根据待爬取统一资源定位符URL集合以及知识模式库确定待爬取队列,所述待爬取队列包括第一候选队列,所述第一候选队列包括至少一个第一URL,所述第一URL为规律模式已知的URL,所述规律模式用于表征所述待爬取URL所指向的网页数据的主题属性,所述待爬取URL包括深度属性值,所述深度属性值用于表征所述待爬取URL所指向的网页数据与父代网页数据之间的亲疏度;
获取所述第一URL所指向的网页数据,所述网页数据包括网页内容以及子URL,所述网页内容包括网页关键词,所述子URL包括子深度属性值;
根据所述网页关键词与目标主题的相关度更新所述子深度属性值;
直至所述子深度属性值为零时,停止获取所述子URL所指向的网页数据,并将所述子深度属性值非零的所有子URL所指向的网页数据以及所述第一URL所指向的网页数据确定为目标网页数据。
2.根据权利要求1所述的网页数据获取方法,其特征在于,所述根据所述网页关键词与目标主题的相关度更新所述子深度属性值,包括:
若所述相关度大于预设阈值,则将所述子深度属性值重置为最大值,以更新所述子深度属性值;
若所述相关度不大于所述预设阈值,则将所述子深度属性值衰减一次,以更新所述子深度属性值。
3.根据权利要求1所述的网页数据获取方法,其特征在于,所述待爬取队列,还包括:
第二候选队列,所述第二候选队列包括至少一个第二URL,所述第二URL为所述规律模式未知的URL;
当停止获取所述第一候选队列中的所有子URL所指向的网页数据,则获取所述第二URL所指向的网页数据。
4.根据权利要求2所述的网页数据获取方法,其特征在于,所述根据待爬取URL集合以及知识模式库确定待爬取队列之前,还包括:
判断预设URL集合中每个URL的所述规律模式是否已知,所述预设URL集合中的每个URL所指向的网页数据与所述目标网页数据具有主题相关性;
若判断结果为是,则根据所述规律模式确定所述知识模式库;
若判断结果为否,则将所述URL加入待学习URL集合,并根据所述待学习URL集合确定所述知识模式库。
5.根据权利要求4所述的网页数据获取方法,其特征在于,所述获取所述第一URL所指向的网页数据之后,还包括:
确定所述第一URL的优先级,所述优先级用于指示所述第一URL在所述第一候选队中的排列顺序;
根据所述排列顺序获取所述子URL所指向的网页数据。
6.根据权利要求5所述的网页数据获取方法,其特征在于,所述确定所述第一URL的优先级,包括:
根据所述网页关键词以及所述深度属性值通过预设算法确定所述第一URL的优先级。
7.一种网页数据获取装置,其特征在于,包括:
第一处理模,用于根据待爬取统一资源定位符URL集合以及知识模式库确定待爬取队列,所述待爬取队列包括第一候选队列,所述第一候选队列包括至少一个第一URL,所述第一URL为规律模式已知的URL,所述规律模式用于表征所述待爬取URL所指向网页数据的主题属性,所述待爬取URL包括深度属性值,所述深度属性值用于表征所述待爬取URL所指向的网页数据与父代网页数据之间的亲疏度;
获取模块,用于获取所述第一URL所指向的网页数据,所述网页数据包括网页内容以及子URL,所述网页内容包括网页关键词,所述子URL包括子深度属性值;
更新模块,用于根据所述网页关键词与目标主题的相关度更新所述子深度属性值;
第二处理模块,用于当所述子深度属性值为零时,停止获取所述子URL所指向的网页数据,并将所述子深度属性值非零的所有子URL所指向的网页数据以及所述第一URL所指向的网页数据确定为目标网页数据。
8.根据权利要求7所述的网页数据获取装置,其特征在于,所述更新模块,具体用于:
若所述相关度大于预设阈值,则将所述子深度属性值重置为最大值,以更新所述子深度属性值;
若所述相关度不大于所述预设阈值,则将所述子深度属性值衰减一次,以更新所述子深度属性值。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的网页数据获取方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的网页数据获取方法。

说明书全文

网页数据获取方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及数据处理技术领域,尤其涉及一种网页数据获取方法、装置、电子设备及存储介质。

背景技术

[0002] 随着计算机技术的飞速发展,互联网已成为反映各类信息数据的主要载体之一,从而使得网页数据呈现爆炸式增长。目前,在很多场景中,均需要从互联网中提取网页数据以供参考使用。如何快速并精准地从海量的网络信息数据中获取与目标主题相关的网页数据尤为重要。
[0003] 传统的网页数据获取方法通常采用网络爬虫技术实现,例如,从一个或者若干个初始的统一资源定位符(Uniform Resource Locator,以下简称URL)开始获取其可能指向的所有的网页数据。
[0004] 然而,现有的方法对于每个URL一视同仁,无法针对URL有选择性地、有主次地通过爬取技术以获取所需的网页数据,从而,造成所获取的网页数据针对性较差、无法实现数据的垂直化搜索以及文本聚类等业务。发明内容
[0005] 本申请提供一种网页数据获取方法、装置、电子设备及存储介质,用以解决现有的网页数据获取方法针对性较差、无法实现数据的垂直化搜索以及文本聚类等业务的技术问题。
[0006] 第一方面,本申请提供一种网页数据获取方法,包括:
[0007] 根据待爬取统一资源定位符URL集合以及知识模式库确定待爬取队列,所述待爬取队列包括第一候选队列,所述第一候选队列包括至少一个第一URL,所述第一URL为规律模式已知的URL,所述规律模式用于表征所述待爬取URL所指向的网页数据的主题属性,所述待爬取URL包括深度属性值,所述深度属性值用于表征所述待爬取URL所指向的网页数据与父代网页数据之间的亲疏度;
[0008] 获取所述第一URL所指向的网页数据,所述网页数据包括网页内容以及子URL,所述网页内容包括网页关键词,所述子URL包括子深度属性值;
[0009] 根据所述网页关键词与目标主题的相关度更新所述子深度属性值;
[0010] 直至所述子深度属性值为零时,停止获取所述子URL所指向的网页数据,并将所述子深度属性值非零的所有子URL所指向的网页数据以及所述第一URL所指向的网页数据确定为目标网页数据。
[0011] 一种可能的设计中,所述根据所述网页关键词与目标主题的相关度更新所述子深度属性值,包括:
[0012] 若所述相关度大于预设阈值,则将所述子深度属性值重置为最大值,以更新所述子深度属性值;
[0013] 若所述相关度不大于所述预设阈值,则将所述子深度属性值衰减一次,以更新所述子深度属性值。
[0014] 一种可能的设计中,所述待爬取队列,还包括:
[0015] 第二候选队列,所述第二候选队列包括至少一个第二URL,所述第二URL为所述规律模式未知的URL;
[0016] 当停止获取所述第一候选队列中的所有子URL所指向的网页数据,则获取所述第二URL所指向的网页数据。
[0017] 一种可能的设计中,所述根据待爬取URL集合以及知识模式库确定待爬取队列之前,还包括:
[0018] 判断预设URL集合中每个URL的所述规律模式是否已知,所述预设URL集合中的每个URL所指向的网页数据与所述目标网页数据具有主题相关性;
[0019] 若判断结果为是,则根据所述规律模式确定所述知识模式库;
[0020] 若判断结果为否,则将所述URL加入待学习URL集合,并根据所述待学习URL集合确定所述知识模式库。
[0021] 一种可能的设计中,所述获取所述第一URL所指向的网页数据之后,还包括:
[0022] 确定所述第一URL的优先级,所述优先级用于指示所述第一URL在所述第一候选队中的排列顺序;
[0023] 根据所述排列顺序获取所述子URL所指向的网页数据。
[0024] 一种可能的设计中,所述确定所述第一URL的优先级,包括:
[0025] 根据所述网页关键词以及所述深度属性值通过预设算法确定所述第一URL的优先级。
[0026] 第二方面,本申请提供一种网页数据获取装置,包括:
[0027] 第一处理模,用于根据待爬取统一资源定位符URL集合以及知识模式库确定待爬取队列,所述待爬取队列包括第一候选队列,所述第一候选队列包括至少一个第一URL,所述第一URL为规律模式已知的URL,所述规律模式用于表征所述待爬取URL所指向网页数据的主题属性,所述待爬取URL包括深度属性值,所述深度属性值用于表征所述待爬取URL所指向的网页数据与父代网页数据之间的亲疏度;
[0028] 获取模块,用于获取所述第一URL所指向的网页数据,所述网页数据包括网页内容以及子URL,所述网页内容包括网页关键词,所述子URL包括子深度属性值;
[0029] 更新模块,用于根据所述网页关键词与目标主题的相关度更新所述子深度属性值;
[0030] 第二处理模块,用于当所述子深度属性值为零时,停止获取所述子URL所指向的网页数据,并将所述子深度属性值非零的所有子URL所指向的网页数据以及所述第一URL所指向的网页数据确定为目标网页数据。
[0031] 一种可能的设计中,所述更新模块,具体用于:
[0032] 若所述相关度大于预设阈值,则将所述子深度属性值重置为最大值,以更新所述子深度属性值;
[0033] 若所述相关度不大于所述预设阈值,则将所述子深度属性值衰减一次,以更新所述子深度属性值。
[0034] 一种可能的设计中,所述第一处理模块,还用于:
[0035] 确定第二候选队列,所述第二候选队列包括至少一个第二URL,所述第二URL为所述规律模式未知的URL;
[0036] 当停止获取所述第一候选队列中的所有子URL所指向的网页数据,则获取所述第二URL所指向的网页数据。
[0037] 一种可能的设计中,所述装置,还包括:
[0038] 第三处理模块,所述第三处理模块,用于:
[0039] 判断预设URL集合中每个URL的所述规律模式是否已知,所述预设URL集合中的每个URL所指向的网页数据与所述目标网页数据具有主题相关性;
[0040] 若判断结果为是,则根据所述规律模式确定所述知识模式库;
[0041] 若判断结果为否,则将所述URL加入待学习URL集合,并根据所述待学习URL集合确定所述知识模式库。
[0042] 一种可能的设计中,所述装置,还包括:
[0043] 第四处理模块,所述第四处理模块,用于:
[0044] 确定所述第一URL的优先级,所述优先级用于指示所述第一URL在所述第一候选队中的排列顺序;
[0045] 根据所述排列顺序获取所述子URL所指向的网页数据。
[0046] 一种可能的设计中,所述第四处理模块,具体用于:
[0047] 根据所述网页关键词以及所述深度属性值通过预设算法确定所述第一URL的优先级。
[0048] 第三方面,本申请提供一种电子设备,包括:
[0049] 至少一个处理器;以及
[0050] 与所述至少一个处理器通信连接的存储器;其中,
[0051] 所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面及可选的方案涉及的网页数据获取方法。
[0052] 第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面及可选的方案涉及的网页数据获取方法。
[0053] 本申请提供一种网页数据获取方法、装置、电子设备及存储介质,首先根据待爬取URL集合以及知识模式库确定待爬取队列,所确定的待爬取队列包括第一候选队列,该第一候选队列中包括至少一个第一URL,并且该第一URL的规律模式已知,然后获取第一URL所指向的网页数据,其中,网页数据包括网页内容以及子URL,而网页内容包括网页关键词,子URL包括子深度属性值,再根据网页关键词与目标主题的相关度更新子深度属性值,当子深度属性值为零时,停止获取子URL所指向的网页数据,并将子深度属性值非零的所有子URL所指向的网页数据以及第一URL所指向的网页数据确定为目标网页数据,从而,实现了网页数据的垂直化搜索,所获取的网页数据为文本聚类等业务提供了参考,提高了所获取的网页数据的准确性以及针对性,降低了网页数据获取进程时空复杂度。附图说明
[0054] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0055] 图1为本申请提供的网页数据获取方法的一种应用场景图;
[0056] 图2为本申请实施例提供的一种网页数据获取方法的流程示意图;
[0057] 图3为本申请实施例提供的一种确定知识模式库的方法的流程示意图;
[0058] 图4为本申请实施例提供的另一种网页数据获取方法的流程示意图;
[0059] 图5为本申请实施例提供的一种网页数据获取装置的结构示意图;
[0060] 图6为本申请实施例提供的一种电子设备的结构示意图。
[0061] 通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

[0062] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。
[0063] 本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0064] 随着计算机技术的飞速发展,互联网已成为反映各类信息数据的主要载体之一,网页数据呈现爆炸式增长。目前,在很多场景中,都需要从互联网中提取网页数据以供参考使用,例如,针对关于售后产品的网页数据,用户可以获取与售后这个主题相关的某产品的网页数据,据此优化产品,提高用户体验。可见,如何快速并精准地从海量的网络信息数据中获取与目标主题相关的网页数据尤为重要,同时也是目前所面临的一个挑战。传统的网页数据获取方法通常采用网络爬虫技术实现,例如,从一个或者若干个初始的URL(Uniform Resource Locator,统一资源定位符)开始获取其可能指向的所有的网页数据。但是,现有的方法对于每个URL一视同仁,无法针对URL有选择性地、有主次地通过爬取技术来获取与目标主题相关的网页数据,从而,导致所获取的网页数据针对性较差、无法实现数据的垂直化搜索以及文本聚类等业务。
[0065] 针对现有技术中存在的上述问题,本申请提供一种网页数据获取方法、装置、电子设备及存储介质。首先根据待爬取URL集合以及知识模式库确定待爬取队列,所确定的待爬取队列包括第一候选队列,该第一候选队列中包括至少一个第一URL,并且该第一URL的规律模式已知,然后获取第一URL所指向的网页数据,其中,网页数据包括网页内容以及子URL,而网页内容包括网页关键词,子URL包括子深度属性值,再根据网页关键词与目标主题的相关度更新子深度属性值,当子深度属性值为零时,停止获取子URL所指向的网页数据,并将子深度属性值非零的所有子URL所指向的网页数据以及第一URL所指向的网页数据确定为目标网页数据,从而,实现了网页的垂直化搜索,所获取的网页数据为文本聚类等业务提供了参考,提高了所获取的网页数据的准确性以及针对性。
[0066] 下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0067] 图1为本申请提供的网页数据获取方法的一种应用场景图,如图1所示,本申请提供的网页数据获取方法由电子设备执行,其中,电子设备可以是手机、计算机、平板电脑服务器等终端设备,图1中以服务器100为例示出。通过本申请提供的网页数据获取方法可以实现对网页的垂直化搜索,从而为后续根据所获取的网页数据进行文本聚类等业务提供了参考。并且,与现有技术相比,提高了所获取的网页数据的准确性以及针对性。
[0068] 参照图1,图1中所示的笔记本电脑200表示互联网中海量网页数据的来源,其中,每个网页数据均对应有一个URL,URL是一种网络资源的位置访问方法的简洁表示,其为互联网上标准资源的地址。因此,从海量的网页数据中获取与主题相关的网页数据,换言之,即为从待爬取的URL中获取与主题相关的网页数据。
[0069] 本申请提供的网页数据获取方法,首先根据待爬取URL集合以及知识模式库确定待爬取队列,其中,待爬取队列包括第一候选队列,而该第一候选队列中包括至少一个第一URL,第一URL的规律模式为已知状态,规律模式用于表征待爬取URL所指向的网页数据的主题属性,例如,网页数据所要表达的主题的名称为关于手机,又或网页数据所表达的主题为家居、服饰、电器等不同类型的相关内容,则例如手机这一名称,以及家居、服饰、电器等这些类型均为规律模式。并且,待爬取URL还包括深度属性值,该深度属性值用于表征该待爬取的URL所指向的网页数据与其父代网页数据之间的亲疏度,可见,每个URL均具有对应的深度属性值。在确定了待爬取队列之后,获取第一候选队列中的第一URL所指向的网页数据,其中,网页数据包括网页内容以及子URL,网页内容包括网页关键词,子URL包括子深度属性值。进一步地,根据网页关键词与目标主题的相关度更新子深度属性值,直到子深度属性值为零时,停止进一步获取子URL所指向的网页数据,并将子深度属性值非零的所有子URL所指向的网页数据以及第一URL所指向的网页数据确定为目标网页数据,从而,实现了对网页数据的垂直化搜索,为进行文本聚类等业务提供了参考,并提高了所获取的网页数据的准确性以及针对性。
[0070] 图2为本申请实施例提供的一种网页数据获取方法的流程示意图。如图2所示,本实施例提供的网页数据获取方法由电子设备执行,该方法包括:
[0071] S201:根据待爬取URL集合以及知识模式库确定待爬取队列。
[0072] 其中,待爬取队列包括第一候选队列,第一候选队列包括至少一个第一URL,第一URL为规律模式已知的URL。规律模式用于表征待爬取URL所指向的网页数据的主题属性,待爬取URL包括深度属性值,深度属性值用于表征待爬取URL所指向的网页数据与父代网页数据之间的亲疏度。
[0073] S202:获取第一URL所指向的网页数据。
[0074] 其中,网页数据包括网页内容以及子URL,网页内容包括网页关键词,子URL包括子深度属性值。
[0075] 将步骤S201与步骤S202结合起来进行说明。
[0076] 待爬取URL集合包括多个待爬取URL,其中的多个为至少两个。待爬取URL集合可以理解为,其代表海量的网页数据,其中可能包含了与目标主题相关的网页数据。每个待爬取URL为任意的URL,对此,本申请实施例不作限定。
[0077] 待爬取URL包括深度属性值,是指待爬取URL集合中的每个待爬取URL对应有确定的深度属性值,其中,深度属性值用于表征待爬取URL所指向的网页数据与父代网页数据之间的亲疏度,换言之,深度属性值用于表征当前的URL可能继承了其父代URL的主题相关度。
[0078] 知识模式库包括多个规律模式,规律模式用于表征待爬取URL所指向的网页数据的主题属性,例如,待爬取URL所指向的网页数据的网页内容主题是关于家居用品、电器用品、服饰,则针对该类型的网页数据从属的URL的规律模式即为家居用品、电器用品、服饰。故而,对于每个URL的规律模式可由本领域技术人员根据所要获取的网页数据针对的主题设置,对此,本申请实施例不作限定。值得说明的是,在本申请实施例中,每个待爬取URL对应一个固定的规律模式。
[0079] 根据待爬取URL集合以及知识模式库确定待爬取队列,可以理解为,将待爬取URL集合中的每个待爬取URL根据知识模式库中的规律模式进行分队,以形成待爬取队列。具体地,将待爬取URL集合中的每个待爬取URL的规律模式与知识模式库中已现存的规律模式进行匹配,若知识模式库中存在待爬取URL的规律模式,换言之,对于知识模式库而言,当待爬取URL的规律模式已知,则将该待爬取URL归为第一候选队列,该待爬取URL即为第一URL。可以理解的是,第一候选队列中的待爬取URL的个数至少为一个。故而,第一候选队列包括至少一个第一URL,其中对于知识模式库而言,第一URL为规律模式已知的URL。
[0080] 获取第一URL所指向的网页数据,即下载并解析第一URL,下载并解析的结果即为第一URL所指向的网页数据。其中,网页数据包括网页内容以及子URL,网页内容包括网页关键词,子URL包括子深度属性值。可以理解的是,网页关键词可以为多个也可以为一个,对此,本申请实施例不作限定。而子深度属性值即表征子URL所指向的网页数据与第一URL所指向的网页数据之间的亲疏度。
[0081] 值得说明的是,第一URL为待爬取URL集合中规律模式在知识模式库中已存在的待爬取URL,在确定待爬取URL的规律模式是否在知识模式库中为已知时,则需要获取该待爬取URL所指向的网页数据,故而,对于步骤S201与步骤202的顺序关系,本申请实施例不作限定。
[0082] S203:根据网页关键词与目标主题的相关度更新子深度属性值。
[0083] 如前所描述,子深度属性值用于表征子URL所指向的网页数据与第一URL所指向的网页数据之间的亲疏度,当获取了第一URL所指向的网页数据之后,根据网页关键词与目标主题的相关度更新子深度属性值。换言之,确定出网页关键词与目标主题之间的相关度,根据该相关度更新子深度属性值。
[0084] 一种可能的实现方式中,若相关度大于预设阈值,则将子深度属性值重置为最大值,以更新子深度属性值。可以理解为,若相关度大于预设阈值,则说明子URL所指向的网页数据对于目标网页数据而言,其具有巨大的爬取潜,故将子深度属性值重置为最大值。其中,最大值的数值设定可根据具体待爬取URL所要爬取的网页的层数决定,例如,最大值设定为30,即为从当前的子URL开始可能还需爬取的网页层数为30层。对此,本申请实施例不作限定。
[0085] 另一种可能的实现方式中,若相关度不大于预设阈值,则将子深度属性值衰减一次,以更新子深度属性值。相关度不大于预设阈值,可以理解为,第一URL所指向的网页数据的网页内容中包括的网页关键词与目标主题的相关度没有超过预设阈值,则将子URL对应的当前子深度属性值衰减一次。
[0086] 对于相关度的预设阈值,可根据待爬取的URL进行设置,本申请实施例不作限定。
[0087] 根据网页关键词与目标主题的相关度更新子深度属性值,可以有限制地控制爬取路径。例如,存在一种情况,第一URL所指向的网页数据包括了子URL,但子URL所指向的网页数据的网页内容所包括的网页关键词与目标主题的相关度没有超过预设阈值,而子URL所指向的网页数据所包括的下一层URL,其所指向的网页数据的网页内容所包括的网页关键词与目标主题的相关度却超过了预设阈值,此时,通过更新子深度属性值,则能够使得爬取路径绕开与目标主题的相关度不大于预设阈值的网页关键词从属的URL,实现对爬取路径的有限制地试探性爬取,能够提高爬虫的覆盖率,减少噪声网页的干扰。
[0088] 可以理解的是,步骤S202与步骤S203为循环步骤,即当更新了前述的子深度属性值之后,又会继续获取子URL所指向的网页数据,该网页数据中又包括了网页内容以及子URL,网页内容也同样包括了网页关键词,当前的子URL同样包括了子深度属性值,则进一步根据当前的网页关键词与目标主题的相关度更新当前的子深度属性值,之后再重复步骤S202,当前的子URL则相当于第一URL。直到子深度属性值为零时,执行步骤S204。
[0089] S204:直至子深度属性值为零时,停止获取子URL所指向的网页数据,并将子深度属性值非零的所有子URL所指向的网页数据以及第一URL所指向的网页数据确定为目标网页数据。
[0090] 循环执行步骤S202与步骤S203,直到子深度属性值为零时,则停止获取子URL所指向的网页数据。可以理解的是,子URL为在步骤S201中所确定的第一URL目录下的所有的子URL,而不仅指与第一URL所指向的网页数据相隔一层的网页数据所从属的URL,相应地,子深度属性值为所有的子URL包括的子深度属性值,而并不仅指与第一URL所指向的网页数据相隔一层的网页数据所从属的URL包括的子深度属性值。当前的子深度属性值为零时,则说明该子深度属性值从属的子URL所在的这条爬取路径已全部获取网页数据结束,则停止继续获取当前子URL所指向的数据,将子深度属性值非零的所有子URL所指向的网页数据,以及当前子URL所在的爬取路径上的第一URL所指向的网页数据确定为目标网页数据。从而完成步骤S201中的第一URL目录下的所有网页数据的获取。
[0091] 可以理解的是,前述的步骤S202至S204是针对第一候选队列中的所有的第一URL而言进行。
[0092] 本实施例提供的网页数据获取方法,通过根据待爬取URL集合以及知识模式库确定待爬取队列,所确定的待爬取队列包括第一候选队列,该第一候选队列中包括至少一个第一URL,并且该第一URL的规律模式已知,以及获取第一URL所指向的网页数据,其中,网页数据包括网页内容以及子URL,而网页内容包括网页关键词,子URL包括子深度属性值,再根据网页关键词与目标主题的相关度更新子深度属性值,循环进行当前步骤,直至子深度属性值为零时,停止继续获取子URL所指向的网页数据,并将子深度属性值非零的所有子URL所指向的网页数据以及第一URL所指向的网页数据确定为目标网页数据,从而,实现了网页数据的垂直化搜索,有限制地控制了爬取路径。通过确定待爬取队列,使得第一候选队列中的待爬取URL都为规律模式已知的URL,使其所指向的网页数据为文本聚类等业务提供了参考。并且,提高了所获取的网页数据的准确性以及针对性。
[0093] 可选地,待爬取队列还包括第二候选队列,其中,第二候选队列包括至少一个第二URL,第二URL为规律模式未知的URL。
[0094] 在根据待爬取URL集合以及知识模式库确定的待爬取队列中,还包括了第二候选队列,可以理解的是,将规律模式相对于知识模式库而言已知的待爬取URL列入第一候选队列,将规律模式相对于知识模式库而言未知的待爬取URL列入第二候选队列,即为第二候选队列包括至少一个第二URL,该第二URL为规律模式未知的URL。
[0095] 当停止获取第一候选队列中的所有子URL所指向的网页数据,则获取第二URL所指向的网页数据。
[0096] 可以理解的是,当第一候选队列中的所有子URL所指向的网页数据都已获取结束,即当停止获取第一候选队列中的所有子URL所指向的网页数据,则获取第二URL所指向的网页数据,换言之,获取规律模式未知的待爬取URL所指向的网页数据。值得说明的是,对于第二候选队列中的待爬取URL所执行的步骤与图1所示实施例中对于第一候选队里中的待爬取URL所执行的步骤相同,也就是对于第二候选队里中的待爬取URL,同样执行步骤S202至S204,直到第二URL所指向的网页数据所包括的子URL的子深度属性值为零时,结束对第二URL所指向的网页数据所包括的子URL所指向的网页数据的获取,并将子深度属性值非零的所有子URL所指向的网页数据以及第二URL所指向的网页数据确定为目标网页数据。
[0097] 通常情况下,在通过第一候选队列中的待爬取URL就能够获得与目标主题相关的预设范围内的目标网页数据。而根据待爬取URL以及知识模式库首先确定出第一候选队列,则为了提高所获取的网页数据的准确性以及针对性。
[0098] 如前所描述,对于任意一个待爬取URL而言,需要根据知识模式库的规律模式确定该待爬取URL是否为第一候选队列,因而,在根据待爬取URL集合以及知识模式库确定待爬取队列之前,还包括需要确定知识模式库。
[0099] 一种可能的设计中,确定知识模式库的方法如图3所示,图3为本申请实施例提供的一种确定知识模式库的方法的流程示意图,该方法包括:
[0100] S301:判断预设URL集合中每个URL的规律模式是否已知。
[0101] 其中,预设URL集合中的每个URL所指向的网页数据与目标网页数据具有主题相关性。
[0102] 从数据分析单元获取到预设URL集合,其中,预设URL集合中的每个URL所指向的网页数据与目标网页数据具有主题相关性,可以理解的是,此处所描述的主题相关性的程度可根据所要获取的目标网页数据的主题进行确定,对此,本申请实施例不作限定。可以理解的是,数据分析单元为网页数据获取的整个工程系统中位于网页数据获取步骤之前的一个单元,从该单元中可以获得与目标网页数据具有主题相关系的预设URL。
[0103] 在本步骤中,判断预设URL集合中的每个URL的规律模式是否已知,换言之,对于预设集合中的每个URL,首先判断该URL的规律模式是否已知,其中,是否已知可以理解为是否为确定的,当已知时,即规律模式为确定的时,执行步骤S302;当未知时,即规律模式为不确定的时,执行步骤S303。
[0104] S302:若判断结果为是,则根据规律模式确定知识模式库。
[0105] 当判断预设URL集合中的URL的规律模式为已知时,则根据该URL的规律模式构建知识模式库,即根据规律模式确定知识模式库。
[0106] S303:若判断结果为否,则将URL加入待学习URL集合,并根据待学习URL集合确定知识模式库。
[0107] 当判断预设URL集合中的URL的规律模式为未知时,则将该URL加入至待学习URL集合,进一步根据待学习URL集合确定知识模式库。具体地,可以当待学习URL集合中每增加N个规律模式未知的URL后进行一次学习,从而确定出新的规律模式,并将该规律模式加入至知识模式库。值得被理解的是,所描述的学习可以理解为从URL中归纳确定出与目标主题相关的新的规律模式。其中的N为任意大于1的正整数,对此,本申请实施例不作限定。
[0108] 本实施例提供的确定知识模式库,首先判断预设URL集合中每个URL的规律模式是否已知,当已知时,直接将该规律模式加入知识模式库;当未知时,将该URL加入待学习URL集合,当待学习URL集合中新加入的规律模式未知的URL达到一定数量时,对其进行学习,从而确定出新的规律模式,并将新的规律模式加入至知识模式库,从而确定出知识模式库。所确定的知识模式库为后续爬取策略阶段确定待爬取队列提供了明确知道,以将待爬取URL根据规律模式确定是否为第一候选队列,进而能够提高获取目标网页数据的准确性以及针对性。
[0109] 在上述实施例的基础上,对于待爬取队列而言,在获取目标网页数据的过程中,为了避免占用内存过大而导致系统崩溃,需要确定待爬取队列的长度,换言之,需要设置待爬取队列的长度的上限。以及,对于待爬取队列内部而言,待爬取URL在其内的排列具有顺序,根据该顺序对每个待爬取URL所指向的网页数据所包括的子URL所指向的网页数据进行获取,能够降低获取目标网页数据的过程的时间复杂度以及空间复杂度,加快获取目标网页数据的进程。
[0110] 一种可能的设计中,在获取第一URL所指向的网页数据之后,还包括如图4所示的步骤,图4为本申请实施例提供的另一种网页数据获取方法的流程示意图,如图4所示,该方法包括:
[0111] S401:确定第一URL的优先级。
[0112] 其中,优先级用于指示第一URL在第一候选队中的排列顺序。
[0113] 如前所描述,待爬取队列的长度需要设置上限,例如,可以设置为30个,可以理解为待爬取队列中的待爬取URL的个数为30个,对此,本申请实施例不作限定。因而,对于待爬取队列内部而言,则需要确定待爬取URL在队列中的排列顺序,即确定待爬取URL的优先级。对于第一候选队列而言,则确定第一URL的优先级,该优先级用于指示第一URL在第一候选队列中的排列顺序。
[0114] 类似地,对于第二候选队列而言,则确定第二URL的优先级,该优先级用于指示第二URL在第二候选队列中的排列顺序。
[0115] 以第一候选队列为例,对于如何确定第一URL的优先级,例如可以根据待爬取URL与目标主题的相关度确定,由或根据待爬取URL爬取路径的可能长度确定,对此,本申请实施例不作限定。
[0116] 一种可能的实现方式为根据网页关键词以及深度属性值通过预设算法确定第一URL的优先级。例如,预设算法可以如下公式所示:
[0117] priority(URL)=a1*Σkeyword Priorityi+a2*depth
[0118] 其中,priority(URL)代表第一URL的优先级,∑keyword Priorityi为第一URL所指向的网页数据所包括的网页关键词与目标主题相关度的权值之和,其能够表征该第一URL与目标主题的可能相关度,depth代表第一URL的深度属性值,α1和α2为各自相应权重,对于该权重可根据具体的待爬取URL以及目标主题进行确定,对此,本申请实施例不作限定。
[0119] 类似地,对于第二候选队中确定第二URL的优先级,也可以通过上述公式进行,在此不再赘述。
[0120] S402:根据排列顺序获取子URL所指向的网页数据。
[0121] 在确定了第一URL在第一候选队列中的排列顺序之后,根据该排列顺序进一步获取第一URL所指向的网页数据所包括的子URL所指向的网页数据,最终确定目标网页数据。
[0122] 类似地,对于第二候选队列而言,在确定了第二URL在第二候选队列中的排列顺序之后,根据该排列顺序进一步获取第二URL所指向的网页数据所包括的子URL所指向的网页数据,最终确定目标网页数据。
[0123] 本实施例提供的网页数据获取方法,在获取第一URL所指向的网页数据之后,确定第一URL的优先级,该优先级用于指示第一URL在第一候选队列中的排列顺序,根据排列顺进一步获取其子URL所指向的网页数据,从而使得第一候选队列中的根据第一URL确定的爬取路径有序进行,能够降低获取目标网页数据的时间复杂度以及空间复杂度,加快获取目标网页数据的进程。
[0124] 类似地,对于第二候选队列而言,在获取第二URL所指向的网页数据之后,确定第二URL的优先级,根据排列顺进一步获取其子URL所指向的网页数据,从而使得第二候选队列中的根据第二URL确定的爬取路径有序进行,能够降低获取目标网页数据的时间复杂度以及空间复杂度,加快获取目标网页数据的进程。
[0125] 图5为本申请实施例提供的一种网页数据获取装置的结构示意图,如图5所示,本实施例提供的网页数据获取装置500,包括:
[0126] 第一处理模块501,用于根据待爬取URL集合以及知识模式库确定待爬取队列。
[0127] 其中,待爬取队列包括第一候选队列,第一候选队列包括至少一个第一URL,第一URL为规律模式已知的URL,而规律模式用于表征待爬取URL所指向网页数据的主题属性,并且,待爬取URL包括深度属性值,深度属性值用于表征待爬取URL所指向的网页数据与父代网页数据之间的亲疏度。
[0128] 获取模块502,用于获取第一URL所指向的网页数据。
[0129] 其中,网页数据包括网页内容以及子URL,以及网页内容包括网页关键词,子URL包括子深度属性值。
[0130] 更新模块503,用于根据网页关键词与目标主题的相关度更新子深度属性值。
[0131] 第二处理模块504,用于当子深度属性值为零时,停止获取子URL所指向的网页数据,并将子深度属性值非零的所有子URL所指向的网页数据以及第一URL所指向的网页数据确定为目标网页数据。
[0132] 本实施例提供的网页数据获取装置500与上述图2所示的方法实施例的实现原理以及效果类似,在此不再赘述。
[0133] 可选地,更新模块503,具体用于:
[0134] 若相关度大于预设阈值,则将子深度属性值重置为最大值,以更新子深度属性值;
[0135] 若相关度不大于预设阈值,则将子深度属性值衰减一次,以更新子深度属性值。
[0136] 一种可能的设计中,第一处理模块501,还用于:
[0137] 确定第二候选队列,第二候选队列包括至少一个第二URL,第二URL为规律模式未知的URL;
[0138] 当停止获取第一候选队列中的所有子URL所指向的网页数据,则获取第二URL所指向的网页数据。
[0139] 一种可能的设计中,网页数据获取装置500,还包括第三处理模块505,用于:
[0140] 判断预设URL集合中每个URL的规律模式是否已知,预设URL集合中的每个URL所指向的网页数据与目标网页数据具有主题相关性;
[0141] 若判断结果为是,则根据规律模式确定知识模式库;
[0142] 若判断结果为否,则将URL加入待学习URL集合,并根据待学习URL集合确定知识模式库。
[0143] 本实施例提供的网页数据获取装置500与上述图3所示的方法实施例的实现原理以及效果类似,在此不再赘述。
[0144] 一种可能的设计中,网页数据获取装置500,还包括第四处理模块506,用于:
[0145] 确定第一URL的优先级,优先级用于指示第一URL在第一候选队中的排列顺序;
[0146] 根据排列顺序获取子URL所指向的网页数据。
[0147] 可选地,第四处理模块506,还用于:
[0148] 确定第二URL的优先级,优先级用于指示第二URL在第二候选队中的排列顺序;
[0149] 根据排列顺序获取子URL所指向的网页数据。
[0150] 本实施例提供的网页数据获取装置500与上述图4所示的方法实施例的实现原理以及效果类似,在此不再赘述。
[0151] 可选地,第四处理模块506,具体用于:
[0152] 根据网页关键词以及深度属性值通过预设算法确定第一URL的优先级。
[0153] 可选地,第四处理模块506,还具体用于:
[0154] 根据网页关键词以及深度属性值通过预设算法确定第二URL的优先级。
[0155] 图6为本申请实施例提供的一种电子设备的结构示意图,如图6所示,本实施例提供的电子设备600包括:
[0156] 至少一个处理器601;以及
[0157] 与至少一个处理器通信连接的存储器602;其中,
[0158] 存储器602存储有可被至少一个处理器601执行的指令,该指令被至少一个处理器601执行,以使至少一个处理器601能够执行上述实施例中的网页数据获取方法的各个步骤,具体可以参考前述方法实施例中的相关描述。
[0159] 在示例性实施例中,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述各实施例中网页数据获取方法的各个步骤。例如,可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
[0160] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求书指出。
[0161] 应当理解的是,本公开不局限于上面已经描述并在附图中示出的精确结构,且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈