专利汇可以提供一种爬虫系统及其方法专利检索,专利查询,专利分析的服务。并且一种爬虫系统及其方法,包括带有用于动态网页的爬虫系统的爬虫 节点 ,爬虫节点同互联网相连接,所述的互联网中包含有 网站 服务器 ,所述的网站服务器中包含有带有频道的网站,所述的爬虫节点中还包括有浏览器、用于采集结果的 数据库 和频道库,所述的网站服务器中还包含有频道列表信息。这样的结构结合其方法避免了 现有技术 中无法通过 访问 时间的值来控制爬虫是否继续爬取网页内容这样就极大地限制了爬虫的使用效率的 缺陷 。,下面是一种爬虫系统及其方法专利的具体信息内容。
1.一种爬虫系统的方法,其特征在于,步骤如下:
步骤1:启动爬虫节点(2)中的用于动态网页的爬虫系统(1)进行数据采集并把数据采集结果存储到用于采集结果的数据库(6)中,并对每个网站服务器(4)中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统(1)再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天;
步骤3:用于动态网页的爬虫系统(1)对该频道所在的网站服务器(4)发起Http请求;
步骤4:该频道所在的网站服务器(4)接收到该Http请求后,把该频道列表信息发送回爬虫节点(2),用于动态网页的爬虫系统(1)就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统(1)对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统(1)则对该频道所在的网站服务器(4)发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,用于动态网页的爬虫系统(1)则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库(6)中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0 db,title1 db, title2 db…titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统(1)则对该频道所在的网站服务器(4)发起针对下一页的http请求,返回步骤4中执行。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
认证中心的系统或方法 | 2020-05-08 | 30 |
一种基于电子公证技术的跨内外网域电子文书签署方法 | 2020-05-11 | 54 |
界面显示方法及装置 | 2020-05-11 | 765 |
一种基于B/S架构的罕见病信息发布系统 | 2020-05-12 | 809 |
基于无人机航拍的海上巡检监管系统 | 2020-05-11 | 281 |
互联网医疗黄牛风险控制的实现方法 | 2020-05-08 | 473 |
用于WEB内容生成的方法和系统 | 2020-05-11 | 758 |
网页的访问方法和系统以及网页信息的传输方法 | 2020-05-11 | 981 |
基于用户行为的个性化营销方法 | 2020-05-11 | 397 |
一种具备引流作用的商业运营模式 | 2020-05-08 | 563 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。