专利汇可以提供一种网络负载均衡的多代理分布式爬虫系统和方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种网络负载均衡的多代理分布式爬虫系统和方法,其中系统包括用于根据代理 节点 选择 算法 选定 代理节点并将任务下发的中心控 制模 块 、数据计算模块、代理节点监控模块和代理节点获取模块;本发明方法包括计算任务的权重并根据计算结果筛选出新 种子 ;根据代理节点选择算法选定代理节点并将任务下发至选定代理节点实现网络负载均衡。本发明根据网络负载均衡的代理节点选择算法在实现各代理节点网络负载均衡的 基础 上选择物理距离最近、等待时间最短、响应最快、成功概率最高的代理节点,可以更好的完成数据爬虫任务;另一方面本发明能够基于代理节点技术通过中心 控制模块 和代理节点监控模块的协作,有较好的抵御反爬虫系统能 力 。,下面是一种网络负载均衡的多代理分布式爬虫系统和方法专利的具体信息内容。
1.一种网络负载均衡的多代理分布式爬虫系统,包括多个代理节点,所述多个代理节点被配置为执行爬虫任务并返回爬行结果,其特征是,包括:
数据计算模块,被配置为计算任务的权重并根据计算结果筛选出新种子;
中心控制模块,被配置为根据代理节点选择算法选定代理节点并将任务下发至选定代理节点实现网络负载均衡;中心控制模块被进一步配置为:根据任务的权重、任务的特征、代理节点的负载情况计算节点的等待参数,然后将任务下发给等待参数最小的代理节点;
代理节点获取模块,被配置为获取可被使用的代理节点并向代理节点提交新代理节点;
代理节点监控模块,被配置为监控可用代理节点的生存状态及考核代理节点获取模块提交的新代理节点的可用性。
2.根据权利要求1所述的分布式爬虫系统,其特征是:所述中心控制模块,被进一步配置为:用于管理员对系统进行控制,其中系统控制包括启动系统、关闭系统、注入初始种子、请求新可用代理节点、维护节点池、存储代理节点的状态信息、向代理节点监控模块发出节点监控命令以及选择代理节点并分配任务给代理节点。
3.根据权利要求2所述的分布式爬虫系统,其特征是,还包括:
所述中心控制模块与代理节点监控模块被配置为配合完成监控所有当前存活的代理节点的任务;进一步地,中心控制模块被配置为在监控间隔时间范围内随机向代理节点监控模块发出监控命令,代理节点监控模块将在接收命令后,对指定代理节点进行监控;
所述代理节点监控模块,被配置为将代理节点的状态信息提交给中心控制模块;进一步地,还被配置为监控代理节点获取模块所提交的新代理节点,若返回时间小于允许最大返回值,则视为可用,代理节点监控模块将此新代理节点的状态信息提交给中心控制模块,中心控制模块将更新该节点的状态信息,否则将丢弃。
4.一种网络负载均衡的多代理分布式爬虫方法,其特征在于,包括:
计算任务的权重并根据计算结果筛选出新种子;
根据代理节点选择算法选定代理节点并将任务下发至选定代理节点实现网络负载均衡。
5.根据权利要求4所述的分布式爬虫方法,其特征在于,
计算任务的权重时计算公式如下:
其中i为被计算的节点,Weighti为任务权重,WeightMAX为允许的最大任务权重,WeightMIN为允许的最小任务权重,Ri为任务的轮次,r为管理员设定的轮次阀值。
6.根据权利要求5所述的分布式爬虫方法,其特征在于,当一次爬取成功后筛选出的新种子的Ri将加1实现自增,初始种子的任务轮次Ri为0,表达式如下:
其中Rparent为当前已完成任务的轮次。
7.根据权利要求6所述的分布式爬虫方法,其特征在于,当轮次Ri达到预设值时,丢弃该爬虫节点并不再下发该爬虫节点引入的种子。
8.根据权利要求4所述的分布式爬虫方法,其特征在于,根据代理节点选择算法选定代理节点时包括根据任务的权重、任务的特征、代理节点的负载情况计算节点的等待参数,等待参数最小的代理节点将被选中,其中计算代理节点的等待参数的方法包括以下步骤:
(1)计算代理节点i的等待工作队列长度Qi,且允许的最大队列长度为QMAX,若队列已满,则考查下一个备选代理节点;
(2)计算任务k的目标服务器与各代理节点i之间的物理距离Di,并通过历史工作记录表查询出该物理距离的工作次数ci及响应的平均返回时间ti,若ti为负,则视为不可选;
(3)计算代理节点i已工作次数Worki;
(4)计算代理节点的等待参数Ai由下述公式计算:
其中m,n,p为常数。
9.根据权利要求8所述的分布式爬虫方法,其特征在于,还包括若被分配的代理节点无法完成爬取任务,则重新分配代理节点,且该任务的权重将加1;无论爬取是否成功,都会更新该代理节点所对应的状态信息;若爬取失败,则该代理节点的历史工作记录表中将所对应的,记录该代理节点与任务目标服务器之间的距离D的记录的平均返回时间设为-1表示不可选。
10.根据权利要求8所述的分布式爬虫方法,其特征在于,计算任务k的目标服务器与各代理节点i之间的物理距离Di时包含计算任务k的服务器经纬度(J0,W0)并计算所有可用节点i经纬度(J1,W1)与服务器经纬度之间的距离Di,表达式如下:
其中R为地球半径。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
电机选定装置 | 2020-05-11 | 587 |
用于选定电动机系统的选定装置和网络系统 | 2020-05-12 | 549 |
马达选定装置 | 2020-05-11 | 187 |
马达选定装置 | 2020-05-11 | 749 |
焊接线选定方法 | 2020-05-11 | 138 |
具有选定纹理和着色的交易和ID卡 | 2020-05-13 | 708 |
参数选定辅助系统、参数选定辅助方法及参数选定辅助程序 | 2020-05-11 | 956 |
为选定上下文构造词典 | 2020-05-12 | 145 |
优惠选定装置、优惠选定方法以及信息终端 | 2020-05-12 | 847 |
气动装置的选定方法 | 2020-05-12 | 70 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。