专利汇可以提供一种基于B2B平台的多线程数据抓取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于B2B平台的多线程数据抓取方法,1)将B2B平台的首页、多级类型目录结构作为目标对象,对网页源文件进行分析;2)在URL处理器中分析出需要的目标规则;3)通过HTTP解析器,从隧道协议中获取一定格式的数据;4)对每次URL 请求 分配新的线程,通过多线程模式并发处理;5)通过分类管理器进行管理每一种商品大类到小类的规则;6)对该线程超时的设置;7)根据所述固定格式数据,将所有提取的商品数据内容保存至 数据库 ;本发明提供的基于B2B平台的多线程数据抓取方法,在 大数据 并发实时采集、多线程数据抓取上有显著的效果。,下面是一种基于B2B平台的多线程数据抓取方法专利的具体信息内容。
1.一种基于B2B平台的多线程数据抓取方法,其特征在于:包括如下步骤:
(1)将B2B平台的首页、多级类型目录结构作为目标对象,对网页源文件进行分析,对B2B平台数据源的商品数据进行实时采集的方法为:在源文件中剔除无用的信息内容,剔除方式通过的标签库来递归调用;源文件分析出有效URL,将URL转移至下一步骤;
(2)在URL处理器中分析出需要的目标规则,再做一次URL请求,获取下一层的源码内容,将源码内容放置缓冲区,然后将缓冲区的内容转移至下一目标任务进行处理;对该源码内容部分代码过滤其中不需要的内容,包括广告信息、版权信息、标签标记,以达到去伪存精的目的;找到源码内容循环分页的规律,并将源码内容进行分离;
(3)通过HTTP解析器,从隧道协议中获取一定格式的数据,一定格式表示为键值对形式的数据、包装数组结构的数据、以及特征字符的结构数据;数据提取为所需要的目标数据结果,再次对该结果进行格式筛选,去除无效字符;开启多个发出HTTP请求的线程,每个URL请求只请求资源文件的一部分,合并每个线程下载的文件;
(4)线程处理,对每次URL请求分配新的线程,通过多线程模式并发处理;
通过线程管理器实现多线程调用操作,当某一线程失败时将自动挂起;并且每个请求需要一个单独的线程完成;在线程池中,线程数是固定的,线程总数不超过线程池中所能容纳线程的数目,当服务器不利用线程池时处理这些请求时则请求线程总数不大于50000;
(5)分类管理器,通过分类管理器进行管理每一种商品大类到小类的规则,当数据匹配规则成功后,将首先获取大类商品源码,再递归调用子类商品源码文件;
(6)通过对线程超时的设置,当超时区间时间内检测不到线程是否执行成功, 那么对该线程处理标记进行设置为失败,当在系统空闲状态时自动触发该线程重新启动;线程池将基于识别直接处理,或增加工作者数处理,进入待处理队列,其他线程池会直接将任务放入待处理队列,等待工作线程去取出执行;
(7)根据所述一定格式数据,将所有提取的商品数据内容保存至数据库中;
HTTP解析的步骤,(1)解析Html超文本标记语言源文件,包括Html文件中js脚本文件和css文件,从中进行处理;(2)通过源文件解析器进行处理,按不同的格式进行解析处理;(3)通过http包处理器获取js脚本返回的隐藏内容;(4)隐藏内容的匹配与处理;(5)最终数据处理整合;(6)线程管理器并发处理新的任务。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种压缩版权的传输方法和系统 | 2020-05-11 | 841 |
一种流媒体服务器以及流媒体传送和存储方法 | 2020-06-09 | 856 |
数字版权备份和恢复方法及系统 | 2020-05-16 | 850 |
基于设备管理协议的软件合法性验证系统及验证方法 | 2020-06-02 | 636 |
移动终端加入域和获取版权对象的方法、系统和相关设备 | 2020-06-17 | 908 |
一种获取数字内容的方法 | 2020-06-08 | 604 |
版权对象的生成与获取方法和系统 | 2020-05-14 | 951 |
在RE和TE间执行平台完整性和DRM软件完整性检查的方法 | 2020-05-28 | 327 |
数字版权管理方法和系统 | 2020-05-13 | 885 |
在数字版权管理中用于将权利对象移动到其它设备中的方法 | 2020-06-15 | 158 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。