首页 / 专利库 / 资料储存系统 / 分布式账本 / 区块链 / 爬虫系统、方法和服务器

爬虫系统、方法和服务器

阅读:102发布:2020-05-12

专利汇可以提供爬虫系统、方法和服务器专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种爬虫系统、方法和 服务器 ,系统包括地址爬虫模 块 、内容爬虫模块、反馈模块和调整模块;地址爬虫模块用于爬取待爬取网页内容的地址,并将地址存储至地址等待队列;内容爬虫模块用于从地址等待队列中提取该地址,爬取该地址对应的网页内容;如果爬取失败,通过反馈模块,将反馈参数发送至调整模块;调整模块用于根据该反馈参数,调整地址爬虫模块和内容爬虫模块的爬取方式。该系统中,对于地址对应的网页内容,如果爬取失败,可以通过调整模块自动调整地址爬虫模块和内容爬虫模块的爬取方式,以保证爬虫 进程 的有效进行,从而提高针对反爬机制的应对措施的实施效果。,下面是爬虫系统、方法和服务器专利的具体信息内容。

1.一种爬虫系统,其特征在于,包括:地址爬虫模、内容爬虫模块、反馈模块和调整模块;所述内容爬虫模块分别与所述地址爬虫模块和所述反馈模块通信连接,所述调整模块分别与所述反馈模块、所述地址爬虫模块和所述内容爬虫模块通信连接;
所述地址爬虫模块用于爬取待爬取网页内容的地址,并将所述地址存储至地址等待队列;
所述内容爬虫模块用于从所述地址等待队列中提取所述地址,爬取所述地址对应的网页内容;还用于如果爬取失败,通过所述反馈模块,将反馈参数发送至所述调整模块;
所述调整模块用于根据所述反馈参数,调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
2.根据权利要求1所述的系统,其特征在于,
所述地址爬虫模块还用于通过一致性哈希算法,将所述地址存储至所述地址等待队列。
3.根据权利要求1所述的系统,其特征在于,
所述内容爬虫模块还用于如果爬取成功,通过所述反馈模块,将爬取的所述网页内容存储至数据库
4.根据权利要求3所述的系统,其特征在于,所述系统还包括地址集合模块;所述地址集合模块分别与所述地址爬虫模块和所述数据库通信连接;
所述地址集合模块用于从所述数据库中,获取爬取成功的所述网页内容对应的所述地址,并更新至所述地址集合模块;
所述地址爬虫模块还用于根据所述地址集合模块,确认已爬取地址,以防止重复爬取。
5.根据权利要求1所述的系统,其特征在于,
所述调整模块还用于将所述反馈参数输入至预先训练好的神经网络模型,以输出对应预设的不同调整策略的概率,按照所述概率从高到低的顺序,选取预设数量的调整策略,以调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
6.根据权利要求1所述的系统,其特征在于,
所述内容爬虫模块还用于如果对应的所述地址等待队列中没有存储新地址,阻塞等待所述地址等待队列。
7.一种爬虫方法,其特征在于,所述方法应用于权利要求1至6任一项所述的爬虫系统;
所述方法包括:
地址爬虫模块爬取待爬取网页内容的地址,并将所述地址存储至地址等待队列;
内容爬虫模块从所述地址等待队列中提取所述地址,爬取所述地址对应的网页内容;
如果爬取失败,通过所述反馈模块,将反馈参数发送至调整模块;
所述调整模块根据所述反馈参数,调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
8.根据权利要求7所述的方法,其特征在于,所述调整模块根据所述反馈参数,调整所述地址爬虫模块和所述内容爬虫模块的爬取方式的步骤包括:
所述调整模块将所述反馈参数输入至预先训练好的神经网络模型,以输出对应预设的不同调整策略的概率,按照所述概率从高到低的顺序,选取预设数量的调整策略,以调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
9.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求7-8任一项所述的爬虫方法。
10.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求7-8任一项所述的爬虫方法。

说明书全文

爬虫系统、方法和服务器

技术领域

[0001] 本发明涉及计算机软件工程技术领域,尤其是涉及一种爬虫系统、方法和服务器。

背景技术

[0002] 当前主流搜索引擎的数据来源大部分来自爬虫系统。一方面爬虫使得网站被收录到搜索引擎,间接提高了网站曝光率和浏览量;另一方面,爬虫增加了网站的负载,占用网络资源,影响网站浏览量统计,同时也将网站的内容直接保存到搜索引擎,这是网络内容运营商较为抵制的;因此大部分网站设计了反爬机制,并不断升级该反爬机制,导致针对该反爬机制的应对措施的实施效果较差。

发明内容

[0003] 本发明的目的在于提供一种爬虫系统、方法和服务器,以提高针对反爬机制的应对措施的实施效果。
[0004] 本发明提供的一种爬虫系统,包括:地址爬虫模、内容爬虫模块、反馈模块和调整模块;所述内容爬虫模块分别与所述地址爬虫模块和所述反馈模块通信连接,所述调整模块分别与所述反馈模块、所述地址爬虫模块和所述内容爬虫模块通信连接;所述地址爬虫模块用于爬取待爬取网页内容的地址,并将所述地址存储至地址等待队列;所述内容爬虫模块用于从所述地址等待队列中提取所述地址,爬取所述地址对应的网页内容;还用于如果爬取失败,通过所述反馈模块,将反馈参数发送至所述调整模块;所述调整模块用于根据所述反馈参数,调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
[0005] 进一步的,所述地址爬虫模块还用于通过一致性哈希算法,将所述地址存储至所述地址等待队列。
[0006] 进一步的,所述内容爬虫模块还用于如果爬取成功,通过所述反馈模块,将爬取的所述网页内容存储至数据库
[0007] 进一步的,所述系统还包括地址集合模块;所述地址集合模块分别与所述地址爬虫模块和所述数据库通信连接;所述地址集合模块用于从所述数据库中,获取爬取成功的所述网页内容对应的所述地址,并更新至所述地址集合模块;所述地址爬虫模块还用于根据所述地址集合模块,确认所述已爬取地址,以防止重复爬取。
[0008] 进一步的,所述调整模块还用于将所述反馈参数输入至预先训练好的神经网络模型,以输出对应预设的不同调整策略的概率,按照所述概率从高到低的顺序,选取预设数量的调整策略,以调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
[0009] 进一步的,所述内容爬虫模块还用于如果对应的所述地址等待队列中没有存储新地址,阻塞等待所述地址等待队列。
[0010] 本发明提供的一种爬虫方法,所述方法应用于上述任一项所述的爬虫系统;所述方法包括:地址爬虫模块爬取待爬取网页内容的地址,并将所述地址存储至地址等待队列;内容爬虫模块从所述地址等待队列中提取所述地址,爬取所述地址对应的网页内容;如果爬取失败,通过所述反馈模块,将反馈参数发送至调整模块;所述调整模块根据所述反馈参数,调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
[0011] 进一步的,所述调整模块根据所述反馈参数,调整所述地址爬虫模块和所述内容爬虫模块的爬取方式的步骤包括:所述调整模块将所述反馈参数输入至预先训练好的神经网络模型,以输出对应预设的不同调整策略的概率,按照所述概率从高到低的顺序,选取预设数量的调整策略,以调整所述地址爬虫模块和所述内容爬虫模块的爬取方式。
[0012] 本发明提供的一种服务器,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述任一项所述的爬虫方法。
[0013] 本发明提供的一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述任一项所述的爬虫方法。
[0014] 本发明提供的爬虫系统、方法和服务器,系统包括地址爬虫模块、内容爬虫模块、反馈模块和调整模块;地址爬虫模块用于爬取待爬取网页内容的地址,并将地址存储至地址等待队列;内容爬虫模块用于从地址等待队列中提取该地址,爬取该地址对应的网页内容;如果爬取失败,通过反馈模块,将反馈参数发送至调整模块;调整模块用于根据该反馈参数,调整地址爬虫模块和内容爬虫模块的爬取方式。该系统中,对于地址对应的网页内容,如果爬取失败,可以通过调整模块自动调整地址爬虫模块和内容爬虫模块的爬取方式,以保证爬虫进程的有效进行,从而提高针对反爬机制的应对措施的实施效果。附图说明
[0015] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016] 图1为本发明实施例提供的一种爬虫系统的结构示意图;
[0017] 图2为本发明实施例提供的一种爬虫方法的流程图
[0018] 图3为本发明实施例提供的另一种爬虫方法的流程图;
[0019] 图4为本发明实施例提供的另一种爬虫方法的流程图;
[0020] 图5为本发明实施例提供的一种通过神经网络输出调整策略的流程示意图;
[0021] 图6为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

[0022] 下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023] 网络爬虫为搜索引擎提供了大量数据信息和索引,是搜索引擎的基本构件;网络爬虫能够自动在互联网搜集目标数据,并为搜索引擎建立相应的索引;当前爬虫技术已经基本成熟,爬虫系统通常基于队列任务调度和广度优先搜索算法;队列任务调度防止爬虫形成递归函数,消耗大量内存和cpu。广度优先搜索防止爬虫过度爬取极端内容。
[0024] 当前主流搜索引擎的数据来源大部分来自爬虫系统;高效的爬虫系统可以在短时间内爬取指定网站的全部内容,并不被网站限制;而在爬虫类型中,分布式爬虫是最具代表性的爬虫类型;分布式爬虫可以在完全无中心控制的情况下,各个节点自主爬取网站内容,并保证爬取内容不重复。基于分布式爬虫设计更加智能的爬虫系统也是爬虫设计的主要方向。
[0025] 分布式爬虫通常使用纯分布式结构设计的多节点爬虫系统,多节点独立进行爬虫程序,不需要通信同步,各自对指定网址进行爬虫而不会重复爬取;也可以理解为,分布式爬虫是在多个计算节点共同执行一个爬虫任务,无需中心控制节点,节点之间互不干涉和影响,自主执行爬虫任务;分布式节点爬取的内容需要不能重复,同时分布式系统可以对节点失败,新增节点,节点更新等行为具有良好的容错性。
[0026] 当前大部分互联网网站对爬虫技术保持中立态度;但考虑到爬虫增加了网站的负载,占用网络资源,影响网站浏览量统计,同时也将网站的内容直接保存到搜索引擎,这是网络内容运营商较为抵制的。因此大部分网站设计了反爬机制,该反爬机制可以理解为,网站运营商为防止自己的网站被爬虫检索和爬取,所设计的针对爬虫的反制措施和设计,比如加入验证码,封地址,设计伪造地址等;针对可疑访问请求,通过反爬机制可以直接设计验证机制,甚至禁止访问。
[0027] 当前应对反爬机制的措施主要包括,使用代理访问网站,更换访问请求类型,更换用户浏览器标识,增加爬虫间隔时间,变换爬虫方式,伪装代理请求,检查目标网站层次布局变化,使用无状态浏览器,使用伪装cookies,防止进入假冒链接,自动用户注册登录,动态页面爬虫等;但同时,网站运营商也会持续升级反爬机制,包括访问流量变化,重复请求监控,设置伪装链接吸引爬虫,监控网站服务器负载变化等,导致针对反爬机制的应对措施的实施效果较差。
[0028] 基于此,本发明实施例提供了一种爬虫系统、方法和服务器,该技术可以应用于爬取网站资源中。
[0029] 为便于对本实施例进行理解,首先对本发明实施例所公开的一种爬虫系统进行详细介绍;如图1所示,该系统包括:地址爬虫模块10、内容爬虫模块11、反馈模块12和调整模块13;该内容爬虫模块11分别与该地址爬虫模块10和该反馈模块12通信连接,该调整模块13分别与该反馈模块12、该地址爬虫模块10和该内容爬虫模块11通信连接。
[0030] 地址爬虫模块10用于爬取待爬取网页内容的地址,并将该地址存储至地址等待队列。
[0031] 在实际实现时,上述爬虫系统可以采用分布式爬虫的方式;上述地址等待队列可以是分布式地址等待队列;上述地址爬虫模块10可以通过广度优先算法,爬取将要爬取的网页内容地址,并将新爬取的地址存储至地址等待队列。
[0032] 内容爬虫模块11用于从地址等待队列中提取地址,爬取地址对应的网页内容;还用于如果爬取失败,通过反馈模块12,将反馈参数发送至调整模块13。
[0033] 在实际实现时,上述内容爬虫模块11可以内容爬虫节点,如果地址等待队列为分布式地址等待队列,则每个内容爬虫节点对应一个地址等待队列;上述调整模块13可以是智能分析进程;上述反馈参数可以理解为网页内容爬取失败所对应的反馈信息,比如Http返回码、代理反馈信息、响应时间等;当有新爬取的地址存储至地址等待队列中时,内容爬虫模块11从地址等待队列的头部提取出该地址,并开始爬取新地址对应的网页内容;如果爬取失败,内容爬虫模块11还会将爬虫反馈结果通过反馈模块12反馈至调整模块13。
[0034] 调整模块13用于根据反馈参数,调整地址爬虫模块10和内容爬虫模块11的爬取方式;在实际实现时,调整模块13根据接收到的反馈参数,自动分析出适合的应对措施,根据该应对措施,自动调整地址爬虫模块10和内容爬虫模块11的爬取方式,保证爬虫进程持续有效进行。
[0035] 本发明实施例提供的爬虫系统,包括地址爬虫模块、内容爬虫模块、反馈模块和调整模块;地址爬虫模块用于爬取待爬取网页内容的地址,并将地址存储至地址等待队列;内容爬虫模块用于从地址等待队列中提取该地址,爬取该地址对应的网页内容;如果爬取失败,通过反馈模块,将反馈参数发送至调整模块;调整模块用于根据该反馈参数,调整地址爬虫模块和内容爬虫模块的爬取方式。该系统中,对于地址对应的网页内容,如果爬取失败,可以通过调整模块自动调整地址爬虫模块和内容爬虫模块的爬取方式,以保证爬虫进程的有效进行,从而提高针对反爬机制的应对措施的实施效果。
[0036] 进一步的,地址爬虫模块10还用于通过一致性哈希算法,将上述地址存储至上述地址等待队列。
[0037] 上述一致性哈希算法可以理解为通过哈希环将地址映射到主机节点。能够在节点变化的情况下保持哈希的稳定性,进而提高哈希效率和稳定性。上述地址爬虫模块10可以通过一致性哈希算法,将新爬取的地址存储至地址等待队列;如果地址等待队列为分布式地址等待队列,可以在增加或减少对应的内容爬虫模块11时,保持分布式地址等待队列的稳定性。
[0038] 进一步的,内容爬虫模块11还用于如果爬取成功,通过上述反馈模块12,将爬取的上述网页内容存储至数据库;在实际实现时,如果内容爬虫模块11成功爬取网页内容,可以通过反馈模块12,将成功爬取的网页内容存入数据库。
[0039] 进一步的,系统还包括地址集合模块;该地址集合模块分别与上述地址爬虫模块10和上述数据库通信连接;地址集合模块用于从数据库中,获取爬取成功的网页内容对应的地址,并更新至地址集合模块;地址爬虫模块10还用于根据地址集合模块,确认已爬取地址,以防止重复爬取。
[0040] 上述地址集合模块可以理解为已成功爬取的网页内容所对应的地址的集合,该地址集合模块可以与网页内容存储在同一个数据库中,为了方便查找地址,也可以将地址集合模块存储在另一个数据库中;当成功爬取的网页内容存入数据库时,地址集合模块可以获取到该网页内容所对应的地址,并将该地址更新至该地址集合模块中;地址爬虫模块10在爬取将要爬取的网页内容地址时,通常会同时扫描该地址集合模块中所存储的地址,以跳过已经存储的扫描过的地址,防止重复爬取。
[0041] 进一步的,调整模块13还用于将上述反馈参数输入至预先训练好的神经网络模型,以输出对应预设的不同调整策略的概率,按照概率从高到低的顺序,选取预设数量的调整策略,以调整地址爬虫模块10和内容爬虫模块11的爬取方式。
[0042] 在实际实现时,上述反馈参数通常包括多种结果,比如http返回码、代理反馈信息、重复爬取信息、验证码检测信息、响应时间、正文检测信息等;上述预先训练好的神经网络模型可以理解为,通过采用反馈参数对预选的神经网络模型进行训练,所得到的可以输出调整策略概率的神经网络模型;可以采用梯度下降法获取Wij和Wjk,进而确定差错函数;该神经网络模型可以使用基本的连接方式和简单的差错函数,输出相应的调整策略的概率,并可以对调整策略成功与否进行评分,比如,如果调整策略成功,则评分为0分;如果调整策略失败,则评分的分数越大;由于神经网络较为简单,可以保证训练的性能较高,速度较快;上述调整策略通常是预先设定好的多种应对措施,比如,更换目标地址、增加代理跳转节点、使用代理隧道、更换代理池、延长请求间隔或更换代理等。
[0043] 在实际实现时,当调整模块13接收到关于网页内容爬取失败的反馈参数时,通常会将该反馈参数输入至上述预先训练好的神经网络模型,以输出调整策略向量,该调整策略向量中的每个元素代表了指定调整策略的推荐使用的概率;通常会选择概率较高的一个、两个、三个或多个调整策略的组合作为最终的调整策略,并通过该最终的调整策略调整地址爬虫模块10和内容爬虫模块11的爬取方式;比如,神经网络输出的调整策略向量中,更换目标地址和增加代理跳转节点的概率相对最高,可以同时采取这两种措施,调整地址爬虫模块10和内容爬虫模块11的爬取方式。
[0044] 进一步的,内容爬虫模块11还用于如果对应的上述地址等待队列中没有存储新地址,阻塞等待该地址等待队列。
[0045] 在实际实现时,如果地址等待队列中没有存储新地址,其对应的内容爬虫模块11通常会阻塞等待该地址等待队列,直到有新的地址存储至该地址等待队列。
[0046] 参见图2所示的一种爬虫方法,该方法应用于上述实施例中任一项的爬虫系统,该方法包括如下步骤:
[0047] 步骤S202,地址爬虫模块爬取待爬取网页内容的地址,并将地址存储至地址等待队列。
[0048] 在实际实现时,地址爬虫模块可以通过广度优先算法,以全面完整地爬取将要爬取的网页内容地址,并将新爬取的地址存储至地址等待队列。
[0049] 步骤S204,内容爬虫模块从地址等待队列中提取地址,爬取地址对应的网页内容;如果爬取失败,通过反馈模块,将反馈参数发送至调整模块。
[0050] 当地址等待队列中存储了新的爬取地址时,内容爬取模块可以根据该地址,爬取对应的网页内容;如果爬取失败,可以通过反馈模块,向调整模块反馈爬取失败所对应的反馈参数。
[0051] 步骤S206,调整模块根据上述反馈参数,调整地址爬虫模块和内容爬虫模块的爬取方式。
[0052] 调整模块可以根据接收到的反馈参数自助匹配反爬机制,并自主选择调整策略,以保证爬虫进程持续有效地进行。
[0053] 本发明实施例提供的爬虫方法,地址爬虫模块爬取待爬取网页内容的地址,并将地址存储至地址等待队列;内容爬虫模块从该地址等待队列中提取该地址,并爬取该地址对应的网页内容;如果爬取失败,通过反馈模块,将反馈参数发送至调整模块;以使调整模块根据该反馈参数,调整地址爬虫模块和内容爬虫模块的爬取方式。该方法中,对于地址对应的网页内容,如果爬取失败,可以通过调整模块自动调整地址爬虫模块和内容爬虫模块的爬取方式,以保证爬虫进程的有效进行,从而提高针对反爬机制的应对措施的实施效果。
[0054] 本发明实施例还提供了另一种爬虫方法,该方法在上述实施例方法的基础上实现;该方法重点描述调整模块根据反馈参数,调整地址爬虫模块和内容爬虫模块的爬取方式的具体过程,具体对应下述步骤S306;如图3所示,该方法包括如下步骤:
[0055] 步骤S302,地址爬虫模块爬取待爬取网页内容的地址,并将地址存储至地址等待队列。
[0056] 步骤S304,内容爬虫模块从地址等待队列中提取地址,爬取地址对应的网页内容;如果爬取失败,通过反馈模块,将反馈参数发送至调整模块。
[0057] 步骤S306,调整模块将反馈参数输入至预先训练好的神经网络模型,以输出对应预设的不同调整策略的概率,按照概率从高到低的顺序,选取预设数量的调整策略,以调整地址爬虫模块和内容爬虫模块的爬取方式。
[0058] 上述爬虫方法,调整模块将反馈参数输入至预先训练好的神经网络模型,以输出对应预设的不同调整策略的概率,按照概率从高到低的顺序,选取预设数量的调整策略,以调整地址爬虫模块和内容爬虫模块的爬取方式;该方法中,对于地址对应的网页内容,如果爬取失败,可以通过预先训练好的神经网络,自主选择适合的调整策略,进而调整地址爬虫模块和内容爬虫模块的爬取方式,以保证爬虫进程的有效进行,从而提高针对反爬机制的应对措施的实施效果。
[0059] 为进一步理解上述实施例,下面提供另一种爬虫方法的流程图;如图4所示,其中包括分布式地址爬虫进程,相当于上述地址爬虫模块;分布式地址等待队列;分布式内容爬虫进程中的内容爬虫节点相当于上述内容爬虫模块;爬虫反馈,相当于上述反馈模块;智能分析进程,相当于上述调整模块;数据库;已扫描地址集合,相当于上述地址集合模块。
[0060] 分布式地址爬虫进程爬取将要爬取的网页内容地址,同时通过已扫描地址集合,跳过已经扫描过的地址,防止重复爬取。分布式地址爬虫进程将新爬取的地址按照一致性哈希的方式存入分布式地址等待队列;分布式内容爬虫进程中的内容爬虫节点阻塞监听对应的地址等待队列,当地址等待队列没有新的地址时,对应的内容爬虫节点阻塞等待,一旦在地址等待队列中有新的地址,内容爬虫节点从地址等待队列头部提取新地址,并开始爬取新地址对应的网页内容;如果爬取失败,内容爬虫进程中的内容爬虫节点会通过爬虫反馈,将爬虫反馈结果反馈给智能分析进程,通过智能分析进程调整爬虫方式;而成功爬取的网页内容会存入数据库;成功爬取的地址会更新到已扫描地址集合。
[0061] 为进一步理解上述实施例,下面提供一种通过神经网络输出调整策略的流程示意图;如图5所示,其中,爬虫反馈参数集合包括http返回码、代理反馈信息、重复爬取信息、验证码检测信息、响应时间和正文检测信息;调整策略中包括更换目标地址、增加代理跳转节点、使用代理隧道、更换代理池、延长请求间隔和更换代理;神经网络为监督学习神经网络,爬虫反馈参数集合作为预选的神经网络的输入向量的元素,训练神经网络;在训练好神经网络后,神经网络的输入是爬虫的反馈参数,输出是调整策略向量,每个调整策略向量中的元素代表使用一个调整策略的概率;图5中ai是i点的输出,aj是j点的输出,ak是k点的输出,Wij是输入层到隐层的权重,Wjk是隐层到输出层的权重;tk是上次预测的结果,使用梯度下降法获取Wij和Wjk,进而确定差错函数 神经网络可以使用基本的连接方式和简单的差错函数输出相应的调整策略的概率。
[0062] 本发明实施例还提供了一种服务器,参见图6所示,该服务器包括处理器130和存储器131,该存储器131存储有能够被处理器130执行的机器可执行指令,该处理器130执行机器可执行指令以实现上述爬虫方法。
[0063] 进一步地,图6所示的服务器还包括总线132和通信接口133,处理器130、通信接口133和存储器131通过总线132连接。
[0064] 其中,存储器131可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0065] 处理器130可能是一种集成电路芯片,具有信号的处理能。在实现过程中,上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131,处理器130读取存储器131中的信息,结合其硬件完成前述实施例的方法的步骤。
[0066] 本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述爬虫方法,具体实现可参见方法实施例,在此不再赘述。
[0067] 本发明实施例所提供的爬虫系统、方法和服务器的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0068] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0069] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈