首页 / 专利库 / 软件 / 网络机器人 / 网络爬虫 / 一种基于网络爬虫机制的数据抽取方法

一种基于网络爬虫机制的数据抽取方法

阅读:43发布:2020-05-14

专利汇可以提供一种基于网络爬虫机制的数据抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 提出一种主动获取数据的方式,即一种基于 网络爬虫 机制的数据 抽取 方法,能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的 大数据 环境。本发明的一种基于网络爬虫机制的数据抽取方法包括如下步骤:步骤一,对各个异构系统的 人机界面 中的监控数据添加标记;步骤二,根据所述标记,采用爬虫 算法 对所述监控数据进行抓取。,下面是一种基于网络爬虫机制的数据抽取方法专利的具体信息内容。

1.一种基于网络爬虫机制的数据抽取方法,其特征在于,包括如下步骤:
步骤一,对各个异构系统的人机界面中的监控数据添加标记;
步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。
2.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一中还包括,对各个文档中的监控数据添加标记。
3.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。
4.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。
5.如权利要求4所述的基于网络爬虫机制的数据抽取方法,其特征在于,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。
6.如权利要求4所述的基于网络爬虫机制的数据抽取方法,其特征在于,所述数据模式定义为XML Schema Definition,所述标准数据格式文件为xml文件。
7.如权利要求2所述的基于网络爬虫机制的数据抽取方法,其特征在于,所述异构系统的人机界面为HTML形式;所述文档为word形式或excel形式或pdf形式。

说明书全文

一种基于网络爬虫机制的数据抽取方法

技术领域

[0001] 本发明属于信息化技术领域,特别涉及一种基于网络爬虫机制的数据抽取方法。

背景技术

[0002] 现有监控平台类型不一、造成数据获取方式不一、监控深度不同,难以规划企业级的整体监控平台。本质上,对于企业级应用,核心是需要的监控数据,对于现有监控平台的监控深度、页面形式、访问方法等都不关注。而目前获取数据的方式主要以API方式为主。但这种方式是一种被动方式,即监控平台提供什么API则可获得什么数据,无形中增大了数据获取的难度,限制了其范围,同时,对于现有的人工上传的文本等仅能够当其转换为相应的数据格式后才能获取。

发明内容

[0003] 本发明提出一种主动获取数据的方式,即一种基于网络爬虫机制的数据抽取方法,能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。
[0004] 本发明的一种基于网络爬虫机制的数据抽取方法的技术方案如下:
[0005] 一种基于网络爬虫机制的数据抽取方法,包括如下步骤:
[0006] 步骤一,对各个异构系统的人机界面中的监控数据添加标记;标记可以是预先定义好的,如一号异构系统的一号设施的温度监控数据的标记可定义为“A_a_001_wd”;如果异构系统的人机界面为html形式,那么就可在HTML代码中将此标记设置到某个
标签的id中去;
[0007] 步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。
[0008] 本发明的一种基于网络爬虫机制的数据抽取方法,在各个异构系统的人机界面中的监控数据添加标记,为爬虫程序提供目标指引,形成一种主动获取数据的方式,24小时对所有异构系统进行自动化数据抽取工作,从而能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。
[0009] 进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对各个文档中的监控数据添加标记。对各个文档中的监控数据添加标记后,文档的监控数据也能被爬虫算法抓取,而从与各个异构系统的人机界面中的监控数据融合在一起。
[0010] 进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。不同的监控数据往往需要不同的抓取频率,因此,对监控数据进行分级并对不同级别的监控数据设置不同的抓取周期能有效提高数据采集的效率。例如,可以根据数据的性质进行分级,也可以根据各个异构系统的重要程度进行分级。
[0011] 进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。根据企业数据标准建立数据模式定义,可以规范接入的信息系统的数据接入标准,为将来的信息系统开发提供了规范的数据格式参考依据。
[0012] 进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。
[0013] 进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述数据模式定义为XML Schema Definition,所述标准数据格式文件为xml文件。
[0014] 进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述异构系统的人机界面为HTML形式;所述文档为word形式或excel形式或pdf形式。附图说明
[0015] 图1是本发明的一种基于网络爬虫机制的数据抽取方法的流程示意图。

具体实施方式

[0016] 以下结合附图和具体实施例对本发明作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
[0017] 实施例1:
[0018] 参考图1,本实施例的一种基于网络爬虫机制的数据抽取方法,包括如下步骤:
[0019] 步骤一,对各个异构系统的人机界面中的监控数据添加标记;标记可以是预先定义好的,如一号异构系统的一号设施的温度监控数据的标记可定义为“A_a_001_wd”;如果异构系统的人机界面为html形式,那么就可在HTML代码中将此标记设置到某个
标签的id中去;
[0020] 步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。
[0021] 本实施例的一种基于网络爬虫机制的数据抽取方法,在各个异构系统的人机界面中的监控数据添加标记,为爬虫程序提供目标指引,形成一种主动获取数据的方式,24小时对所有异构系统进行自动化数据抽取工作,从而能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。
[0022] 作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对各个文档中的监控数据添加标记。对各个文档中的监控数据添加标记后,文档的监控数据也能被爬虫算法抓取,而从与各个异构系统的人机界面中的监控数据融合在一起。
[0023] 作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。不同的监控数据往往需要不同的抓取频率,因此,对监控数据进行分级并对不同级别的监控数据设置不同的抓取周期能有效提高数据采集的效率。例如,可以根据数据的性质进行分级,也可以根据各个异构系统的重要程度进行分级。
[0024] 作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。根据企业数据标准建立数据模式定义,可以规范接入的信息系统的数据接入标准,为将来的信息系统开发提供了规范的数据格式参考依据。
[0025] 作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。
[0026] 作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述数据模式定义为XML Schema Definition,所述标准数据格式文件为xml文件。
[0027] 作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述异构系统的人机界面为HTML形式;所述文档为word形式或excel形式或pdf形式。
[0028] 上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈