专利汇可以提供一种基于B2B平台的多线程数据抓取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于B2B平台的多线程数据抓取方法,1)将B2B平台的首页、多级类型目录结构作为目标对象,对网页源文件进行分析;2)在URL处理器中分析出需要的目标规则;3)通过HTTP解析器,从隧道协议中获取一定格式的数据;4)对每次URL 请求 分配新的线程,通过多线程模式并发处理;5)通过分类管理器进行管理每一种商品大类到小类的规则;6)对该线程超时的设置;7)根据所述固定格式数据,将所有提取的商品数据内容保存至 数据库 ;本发明提供的基于B2B平台的多线程数据抓取方法,在 大数据 并发实时采集、多线程数据抓取上有显著的效果。,下面是一种基于B2B平台的多线程数据抓取方法专利的具体信息内容。
1.一种基于B2B平台的多线程数据抓取方法,其特征在于:包括如下步骤:
(1)将B2B平台的首页、多级类型目录结构作为目标对象,对网页源文件进行分析,对B2B平台数据源的商品数据进行实时采集的方法为:在源文件中剔除无用的信息内容,剔除方式通过的标签库来递归调用;源文件分析出有效URL,将URL转移至下一步骤;
(2)在URL处理器中分析出需要的目标规则,再做一次URL请求,获取下一层的源码内容,将源码内容放置缓冲区,然后将缓冲区的内容转移至下一目标任务进行处理;对该源码内容部分代码过滤其中不需要的内容,包括广告信息、版权信息、标签标记,以达到去伪存精的目的;找到源码内容循环分页的规律,并将源码内容进行分离;
(3)通过HTTP解析器,从隧道协议中获取一定格式的数据、一定格式表示为键值对形式的数据,包装数组结构的数据、以及特征字符的结构数据;数据提取为所需要的目标数据结果,再次对该结果进行格式筛选,去除无效字符;开启多个发出HTTP请求的线程,每个URL请求只请求资源文件的一部分,合并每个线程下载的文件;
(4)线程处理,对每次URL请求分配新的线程,通过多线程模式并发处理;
通过线程管理器实现多线程调用操作,当某一线程失败时将自动挂起;并且每个请求需要一个单独的线程完成;在线程池中,线程数是固定的,线程总数不超过线程池中所能容纳线程的数目,当服务器不利用线程池时处理这些请求时则请求线程总数不大于50000;
(5)分类管理器,通过分类管理器进行管理每一种商品大类到小类的规则,当数据匹配规则成功后,将首先获取大类商品源码,再递归调用子类商品源码文件;
(6)通过对该线程超时的设置,当该超时区间时间内检测不到该线程是否执行成功,那么对该线程处理标记进行设置为失败,当在系统空闲状态时自动触发该线程重新启动;线程池将基于识别直接处理,或增加工作者数处理,进入待处理队列,其他线程池会直接将任务放入待处理队列,等待工作线程去取出执行;
(7)根据所述固定格式数据,将所有提取的商品数据内容保存至数据库中。
2.根据权利要求1的方法,其特征是HTTP解析的步骤,(1)解析Html超文本标记语言源文件,包括Html文件中js脚本文件和css文件,从中进行处理;(2)通过源文件解析器进行处理,按不同的格式进行解析处理;(3)通过http包处理器获取js脚本返回的隐藏内容;(4)隐藏内容的匹配与处理;(5)最终数据处理整合;(6)线程管理器并发处理新的任务。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于智能合约的数据分配方法以及装置 | 2020-05-27 | 633 |
数字版权备份和恢复方法及系统 | 2020-05-15 | 557 |
一种流媒体服务器以及流媒体传送和存储方法 | 2020-06-11 | 855 |
一种压缩版权的传输方法和系统 | 2020-05-11 | 841 |
一种流媒体服务器以及流媒体传送和存储方法 | 2020-06-09 | 856 |
用数字版权分配内容到移动装置的方法及移动装置 | 2020-05-24 | 279 |
经由服务器将版权对象从一个设备移动到另一设备的装置和方法 | 2020-05-18 | 845 |
数字版权管理中数字化作品的权利对象描述和获取的方法 | 2020-06-03 | 344 |
注册版权发行者和域权限及实施安全内容交换功能的方法 | 2020-05-12 | 1009 |
在数字版权管理中用于将权利对象移动到其它设备中的方法 | 2020-06-16 | 331 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。