专利汇可以提供一种基于网络爬虫机制的数据抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 提出一种主动获取数据的方式,即一种基于 网络爬虫 机制的数据 抽取 方法,能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的 大数据 环境。本发明的一种基于网络爬虫机制的数据抽取方法包括如下步骤:步骤一,对各个异构系统的 人机界面 中的监控数据添加标记;步骤二,根据所述标记,采用爬虫 算法 对所述监控数据进行抓取。,下面是一种基于网络爬虫机制的数据抽取方法专利的具体信息内容。
1.一种基于网络爬虫机制的数据抽取方法,其特征在于,包括如下步骤:
步骤一,对各个异构系统的人机界面中的监控数据添加标记;
步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。
2.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一中还包括,对各个文档中的监控数据添加标记。
3.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。
4.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。
5.如权利要求4所述的基于网络爬虫机制的数据抽取方法,其特征在于,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。
6.如权利要求4所述的基于网络爬虫机制的数据抽取方法,其特征在于,所述数据模式定义为XML Schema Definition,所述标准数据格式文件为xml文件。
7.如权利要求2所述的基于网络爬虫机制的数据抽取方法,其特征在于,所述异构系统的人机界面为HTML形式;所述文档为word形式或excel形式或pdf形式。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
互联网医疗黄牛风险控制的实现方法 | 2020-05-13 | 21 |
CDN缓存命中率统计方法、系统、网络设备及存储介质 | 2020-05-14 | 46 |
一种基于自然语言处理技术的代码泄露检测系统和方法 | 2020-05-12 | 339 |
应用程序的漏洞检测方法及装置 | 2020-05-12 | 22 |
一种面向装备体系论证评估的智能查询方法 | 2020-05-11 | 947 |
一种智能推荐发型及呈现的方法 | 2020-05-13 | 689 |
一种网络热点分析方法及系统 | 2020-05-14 | 582 |
一种基于分布式爬虫技术的政策资讯采集管理系统 | 2020-05-11 | 860 |
基于网络爬虫的热点词汇提取方法、装置、终端及介质 | 2020-05-11 | 714 |
一种分布式垂直爬虫方法及终端设备 | 2020-05-13 | 132 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。