首页 / 专利库 / 资料储存系统 / 大数据 / 数据抽取系统和数据抽取方法

数据抽取系统和数据抽取方法

阅读:245发布:2024-01-06

专利汇可以提供数据抽取系统和数据抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种数据 抽取 系统和数据抽取方法。所述系统包括:数据源和 大数据 平台,数据源包括数据复 制模 块 和数据抽取模块,大数据平台包括分布式文件模块和/或 数据仓库 工具模块;数据复制模块用于添加 数据库 触发器至数据源并从数据库触发器复制更新数据,生成增量数据抽取队列;数据抽取模块用于依据设定时间间隔从增量数据抽取队列抽取更新数据并将更新数据发送至大数据平台;大数据平台,用于根据更新数据修正存储数据;分布式文件模块和数据仓库工具模块用于接收更新数据。本发明实施例的技术方案实现了Hadoop大数据平台可实时获取企业管理 软件 SAP对数据表格的处理操作,依据获取的处理操作更新自身存储的数据表格。,下面是数据抽取系统和数据抽取方法专利的具体信息内容。

1.一种数据抽取系统,其特征在于,包括:数据源和大数据平台,所述数据源包括数据复制模和数据抽取模块,所述大数据平台包括分布式文件模块和/或数据仓库工具模块;
所述数据复制模块,用于添加数据库触发器至所述数据源,并从所述数据库触发器中复制更新数据,同时依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
所述数据抽取模块,用于依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至所述大数据平台;
所述大数据平台,用于根据接收的所述更新数据修正存储数据;
所述分布式文件模块和所述数据仓库工具模块均用于接收所述更新数据。
2.根据权利要求1所述的系统,其特征在于,所述数据抽取模块还用于将数据复制规则发送至所述数据复制模块;
所述数据复制模块,具体用于:
依据所述数据复制规则从所述数据库触发器中复制更新数据。
3.根据权利要求1所述的系统,其特征在于,所述更新数据包括:
数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源中存储的数据表格。
4.根据权利要求1所述的系统,其特征在于,还包括:多样化接口系统;
所述多样化接口系统,用于接收所述数据抽取模块发送的所述更新数据,并将接收的所述更新数据发送至所述大数据平台。
5.根据权利要求1-4中任一项所述的系统,其特征在于,所述数据源包括企业管理软件SAP;
所述数据复制模块包括数据同步复制器SLT;
所述数据抽取模块包括数据服务系统DS。
6.根据权利要求1-4中任一项所述的系统,其特征在于,所述大数据平台包括Hadoop大数据平台;
所述分布式文件模块包括分布式文件系统HDFS;
所述数据仓库工具模块包括数据仓库工具HIVE。
7.一种数据抽取方法,其特征在于,包括:
添加数据库触发器至内部数据源,从所述数据库触发器中复制更新数据,依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台。
8.根据权利要求7所述的方法,其特征在于,所述从所述数据库触发器中复制更新数据,包括:
依据数据复制规则从所述数据库触发器中复制更新数据。
9.根据权利要求7所述的方法,其特征在于,所述更新数据包括:
数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源存储的数据表格。
10.根据权利要求7所述的方法,其特征在于,所述依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台,包括:
依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部多样化接口系统;
通过所述颞部多样化接口系统,将所述更新数据发送至内部大数据平台。
11.根据权利要求7-10中任一项所述的方法,其特征在于,所述内部数据源包括企业管理软件SAP。
12.根据权利要求7-10中任一项所述的方法,其特征在于,所述内部大数据平台包括Hadoop大数据平台。

说明书全文

数据抽取系统和数据抽取方法

技术领域

[0001] 本发明实施例涉及大数据处理技术领域,尤其涉及一种数据抽取系统和数据抽取方法。

背景技术

[0002] 随着国民经济的快速发展,各行各业所产生和存储的数据量在急速攀升,“大数据”已经渗透到每一个行业和领域,成为重要的生产要素。Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统,Hadoop可以以可靠、高效、可伸缩的方式进行数据处理,因此,Hadoop现已迅速发展成为分析大数据的领先平台。
[0003] 由于Hadoop无法自主对自身已有数据进行修改和删除,也无法自主增加新数据,因此若需要对Hadoop已有数据进行修改或删除操作,则必须将相应的数据修改说明发送至Hadoop。同时,SAP是一款全球领先的企业管理解决方案的软件,由于SAP对内部数据进行增加、修改和删除等操作时,直接在数据库层面进行修改且无修改记录。
[0004] 因此,当SAP作为数据源,使用Hadoop对SAP中的数据进行抽取时,对于已从SAP中抽取并存储在Hadoop中的数据,Hadoop无法从SAP的现有存储数据中获知SAP对上述数据的操作内容,以致Hadoop无法对上述数据实施与SAP相同的操作。

发明内容

[0005] 有鉴于此,本发明实施例提供了一种数据抽取系统和数据抽取方法,以解决现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷
[0006] 在第一方面,本发明实施例提供了一种数据抽取系统,包括:数据源和大数据平台,所述数据源包括数据复制模和数据抽取模块,所述大数据平台包括分布式文件模块和/或数据仓库工具模块;
[0007] 所述数据复制模块,用于添加数据库触发器至所述数据源,并从所述数据库触发器中复制更新数据,同时依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
[0008] 所述数据抽取模块,用于依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至所述大数据平台;
[0009] 所述大数据平台,用于根据接收的所述更新数据修正存储数据;
[0010] 所述分布式文件模块和所述数据仓库工具模块均用于接收所述更新数据。
[0011] 在上述系统中,优选的是,所述数据抽取模块还用于将数据复制规则发送至所述数据复制模块;
[0012] 所述数据复制模块,具体用于:
[0013] 依据所述数据复制规则从所述数据库触发器中复制更新数据。
[0014] 在上述系统中,优选的是,所述更新数据包括:
[0015] 数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源中存储的数据表格。
[0016] 在上述系统中,优选的是,还包括:多样化接口系统;
[0017] 所述多样化接口系统,用于接收所述数据抽取模块发送的所述更新数据,并将接收的所述更新数据发送至所述大数据平台。
[0018] 在上述系统中,优选的是,所述数据源包括企业管理软件SAP;
[0019] 所述数据复制模块包括数据同步复制器SLT;
[0020] 所述数据抽取模块包括数据服务系统DS。
[0021] 在上述系统中,优选的是,所述大数据平台包括Hadoop大数据平台;
[0022] 所述分布式文件模块包括分布式文件系统HDFS;
[0023] 所述数据仓库工具模块包括数据仓库工具HIVE。
[0024] 在第二方面,本发明实施例提供了一种数据抽取方法,包括:
[0025] 添加数据库触发器至内部数据源,从所述数据库触发器中复制更新数据,依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
[0026] 依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台。
[0027] 在上述方法中,优选的是,所述从所述数据库触发器中复制更新数据,包括:
[0028] 依据数据复制规则从所述数据库触发器中复制更新数据。
[0029] 在上述方法中,优选的是,所述更新数据包括:
[0030] 数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源存储的数据表格。
[0031] 在上述方法中,优选的是,所述依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台,包括:
[0032] 依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部多样化接口系统;
[0033] 通过所述内部多样化接口系统,将所述更新数据发送至内部大数据平台。
[0034] 在上述方法中,优选的是,所述内部数据源包括企业管理软件SAP。
[0035] 在上述方法中,优选的是,其特征在于,所述内部大数据平台包括Hadoop大数据平台。
[0036] 本发明实施例提供了一种数据抽取系统和数据抽取方法,该数据抽取系统包括数据源11和大数据平台12,数据源11包括数据复制模块111和数据抽取模块112,大数据平台12包括分布式文件模块121和/或数据仓库工具模块122,该系统通过数据复制模块111添加数据库触发器至数据源,用以在确定数据源11的数据发生变更时,记录数据变更信息并生成增量数据抽取队列,然后通过数据抽取模块112从增量数据抽取队列中抽取更新数据并发送至大数据平台12,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格。
附图说明
[0037] 图1是本发明实施例一提供的一种数据抽取系统的结构图;
[0038] 图2是本发明实施例二提供的一种数据抽取系统的结构图;
[0039] 图3是本发明实施例三提供的一种数据抽取方法的流程图
[0040] 图4是本发明实施例四提供的一种数据抽取方法的流程图。

具体实施方式

[0041] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
[0042] 另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0043] 实施例一
[0044] 图1为本发明实施例一提供的一种数据抽取系统的结构图,本实施例中数据抽取系统的结构具体包括:
[0045] 数据源11和大数据平台12,数据源11包括数据复制模块111和数据抽取模块112,大数据平台12包括分布式文件模块121和/或数据仓库工具模块122。
[0046] 数据复制模块111,用于添加数据库触发器至数据源11,并从数据库触发器中复制更新数据,同时依据更新数据生成增量数据抽取队列,其中,数据库触发器用于在确定数据源11的数据发生变更时,记录数据变更信息。
[0047] 在本实施例中,数据复制模块111可以在数据源11中添加数据库触发器,该数据库触发器用于在确定数据源11的数据发生变更时,记录数据变更信息形成更新数据。本领域技术人员可以理解的是,数据库触发器可以对数据表格的插入、更新以及删除操作自动进行存储,也就是说,当对数据源11中存储的数据表格被实施数据的插入、更新和删除等操作时,数据库触发器会自动对上述操作进行记录作为更新数据的一部分,同时还会记录每一个操作的执行时间,即时间戳。另外,数据复制模块111所添加的数据库触发器不止一个,而是会对应每一张数据表格添加一个数据库触发器,即数据源11中有多少张数据表格,数据复制模块111就会添加多少个数据库触发器至数据源11,数据库触发器与数据表格一一对应,每一个数据库触发器仅用于记录对应数据表格中的数据的插入、更新以及删除等操作。
[0048] 在本实施例中,数据复制模块111还会依据数据库触发器中存储的更新数据,生成增量数据抽取队列,一般来说数据复制模块111会实时地从数据库触发器中抽取更新数据。进一步需要说明的是,增量数据抽取队列中并不会包括所有数据库触发器中存储的更新数据,而只会包括待更新数据表格对应的数据库触发器中存储的更新数据,其中,待更新数据表格具体可以是数据复制模块111根据接收到的数据抽取模块112发送的数据所确定的数据表格,还可以是数据复制模111块根据用户输入的数据所确定的数据表格等。
[0049] 数据抽取模块112,用于依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至大数据平台12。
[0050] 在本实施例中,数据抽取模块112用于依据设定时间间隔从增量数据抽取队列中抽取更新数据,一般来说,数据抽取模块112会将增量数据抽取队列中的所有数据全部一次性抽取出来,然后会将抽取到的更新数据发送至大数据平台12。其中,设定时间间隔具体可以是依据用户输入的数据确定等,典型的可以是实时或一个小时等。
[0051] 大数据平台12,用于根据接收的更新数据修正存储数据。
[0052] 在本实施例中,大数据平台12会根据接收到的,数据抽取模块112发送的更新数据修正自身的存储数据。
[0053] 在本实施例中,当数据抽取模块112将更新数据发送至大数据平台12之后,会由大数据平台12中的分布式文件模块121或数据仓库工具模块122接收该更新数据,然后分布式文件模块121或数据仓库工具模块122会依据接收的更新数据修正存储的数据。
[0054] 本发明实施例一提供了一种数据抽取系统,该数据抽取系统包括数据源11和大数据平台12,数据源11包括数据复制模块111和数据抽取模块112,大数据平台12包括分布式文件模块121和/或数据仓库工具模块122,该系统通过数据复制模块111添加数据库触发器至数据源,用以在确定数据源11的数据发生变更时,记录数据变更信息并生成增量数据抽取队列,然后通过数据抽取模块112从增量数据抽取队列中抽取更新数据并发送至大数据平台12,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格。
[0055] 实施例二
[0056] 图2是本发明实施例二提供的一种数据抽取系统的结构图。本实施例以上述实施例为基础进行优化,在本实施例中,将数据抽取模块112,优化为还用于将数据复制规则发送至数据复制模块111。
[0057] 相应地,数据复制模块111优化为:具体用于依据数据复制规则从数据库触发器中复制更新数据。
[0058] 进一步地,将更新数据优化为:数据表格的增量数据和增量数据的时间戳,其中,数据表格为数据源11中存储的数据表格。
[0059] 进一步地,优化为还包括:多样化接口系统13,用于接收数据抽取模块112发送的更新数据,并将接收的更新数据发送至大数据平台12。
[0060] 进一步地,将数据源11优化为:企业管理软件SAP;将数据复制模块111优化为:数据同步复制器SLT;将数据抽取模块112优化为:数据服务系统DS。
[0061] 进一步地,将大数据平台12优化为:Hadoop大数据平台;将分布式文件模块121优化为:分布式文件系统HDFS;将数据仓库工具模块122优化为:数据仓库工具HIVE。
[0062] 如图2所示,在本实施例中,数据抽取系统由企业管理软件SAP、Hadoop大数据平台和多样化接口系统13,其中,企业管理软件SAP包括数据同步复制器SLT和数据服务系统DS,Hadoop大数据平台包括分布式文件系统HDFS和数据仓库工具HIVE。
[0063] 在本实施例中,数据服务系统DS,不但用于从增量数据抽取队列中抽取更新数据,同时,还用于将数据复制规则发送至同步复制器SLT,其中,数据复制规则具体是指同步复制器SLT所需抽取数据的数据表格的表格属性。在接收到数据服务系统DS发送的数据复制规则之后,同步复制器SLT就确定了需要进行数据抽取的数据表格,然后,同步复制器SLT就会从需要进行数据抽取的数据表格所对应的数据库触发器中抽取数据。
[0064] 在本实施例中,数据库触发器中存储的更新数据为数据表格的增量数据和增量数据的时间戳,其中,数据表格为企业管理软件SAP中存储的数据表格。本领域技术人员可以理解的是,一些数据源是以数据表格的形式进行数据存储的,即以数据表格作为最小的数据存储单位,因此,当对数据源中的数据进行更新时,也就是对数据源中各个数据表格中的数据进行更新。
[0065] 其中,数据表格的增量数据具体是指企业管理软件SAP中的数据表格所被实施更新操作的相关数据,其中,更新操作具体可以是删除数据操作、增加数据操作或更新数据操作等。其中,增量数据的时间戳具体是指用来表明增量数据的生成时间的时间数据。可以理解的是,在某一数据表格对应的数据库触发器中的更新数据前后两次被抽取的时间间隔内,如果该数据表格中的同一数据被多次进行修改,但是没有对每次修改所产生的并存储在数据库触发器中的增量数据进行时间记录的话,那么,当Hadoop大数据平台接收到上述增量数据之后,无法确定哪一个数值才是最终的修改数值,因此,Hadoop大数据平台无法对自身存储的数据进行正确的更新操作。
[0066] 在本实施例中,增加使用了多样化接口系统13,该多样化接口系统13用于接收数据服务系统DS发送的数据表格的增量数据和增量数据的时间戳,并将接收的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台,也就是说,数据服务系统DS不是直接将抽取的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台,而是先将抽取的数据表格的增量数据和增量数据的时间戳发送至多样化接口系统13。进一步需要说明的是,多样化接口系统13不但可以将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台的分布式文件系统HDFS和数据仓库工具HIVE,而且还可以将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台中的其他模块,另外,多样化接口系统13还可以同时将其他数据源的数据发送至Hadoop大数据平台。
[0067] 示例性的,多样化接口系统13可以将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台中的列式存储系统KUDU、查询系统Impala以及计算引擎SPARK等模块。
[0068] 本发明实施例二提供了一种数据抽取系统,具体化了数据抽取模块112的作用,即可以将数据复制规则发送至数据复制模块111,还具体化了更新数据的内容,更新数据为数据表格的增量数据和增量数据的时间戳,还优化增加了多样化接口系统13,用于将接收到的更新数据发送至大数据平台12,同时还将数据源11具体化为企业管理软件SAP,将大数据平台12具体为Hadoop大数据平台,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格,同时,由于增加了多样化接口系统13,不但使得更新数据可以做为Hadoop大数据平台更多模块的输入数据,而且还扩大了Hadoop大数据平台的数据来源。
[0069] 实施例三
[0070] 图3是本发明实施例三提供的一种数据抽取方法的流程图。本实施例的方法可以由数据抽取系统来执行,该系统可通过硬件和/或软件的方式实现,并一般可集成于计算机或服务器中。本实施例的方法具体包括:
[0071] 310、添加数据库触发器至内部数据源,从数据库触发器中复制更新数据,依据更新数据生成增量数据抽取队列。
[0072] 在本实施例中,内部数据源具体可以是将部分数据或全部数据均以数据表格的形式进行存储的数据源。添加至内部数据源的数据库触发器具体用于在确定数据源的数据发生变更时,记录数据变更信息形成更新数据,数据库触发器与数据表格一一对应,有多少张表格就会添加多少个数据库触发器,每一个数据库触发器仅用于记录对应数据表格中的数据的插入、更新以及删除等操作。其中,内部数据源典型的可以是企业管理软件SAP等。
[0073] 在本实施例中,添加完数据库触发器之后,还会依据数据库触发器中存储的更新数据,生成增量数据抽取队列,一般来说会实时地从数据库触发器中抽取更新数据,以使增量数据抽取队列中的数据与数据源对数据表格的操作保持高度一致。
[0074] 进一步需要说明的是,增量数据抽取队列中并不会包括所有数据库触发器中存储的更新数据,而只会包括待更新数据表格对应的数据库触发器中存储的更新数据,其中,待更新数据表格具体可以是根据接收到的其他内部模块发送的数据所确定的数据表格,还可以是根据用户输入的数据所确定的数据表格等。
[0075] 320、依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部大数据平台。
[0076] 在本实施例中,设定时间间隔具体可以是依据用户输入的数据确定等,典型的可以是实时或一个小时等。一般来说,会将增量数据抽取队列中的所有数据全部一次性抽取出来,然后再将抽取到的更新数据发送至大数据平台。其中,大数据平台典型的可以是Hadoop大数据平台等。
[0077] 本发明实施例三提供了一种数据抽取方法,通过先添加数据库触发器至内部数据源,从数据库触发器中复制更新数据,依据更新数据生成增量数据抽取队列,然后依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部大数据平台,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格。
[0078] 实施例四
[0079] 图4是本发明实施例三提供的一种数据抽取方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将从数据库触发器中复制更新数据,优化为:依据数据复制规则从数据库触发器中复制更新数据。
[0080] 将更新数据优化为:数据表格的增量数据和增量数据的时间戳,其中,数据表格为数据源存储的数据表格。
[0081] 将依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部大数据平台,优化为:依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部多样化接口系统;通过内部多样化接口系统,将更新数据发送至内部大数据平台。
[0082] 将内部数据源优化为:企业管理软件SAP。
[0083] 将内部大数据平台优化为:Hadoop大数据平台。
[0084] 相应地,本实施例的方法具体包括:
[0085] 410、添加数据库触发器至企业管理软件SAP,依据数据复制规则从数据库触发器中复制数据表格的增量数据和增量数据的时间戳,依据数据表格的增量数据和增量数据的时间戳生成增量数据抽取队列。
[0086] 在本实施例中,数据复制规则具体是指所需抽取数据的数据表格的表格属性,依据数据复制规则可以确定哪些表格所对应数据库触发器需要进行数据抽取。
[0087] 在本实施例中,更新数据为数据表格的增量数据和增量数据的时间戳,其中,数据表格为企业管理软件SAP中存储的数据表格。
[0088] 其中,数据表格的增量数据具体是指企业管理软件SAP中的数据表格所被实施更新操作的相关数据,其中,更新操作具体可以是删除数据操作、增加数据操作或更新数据操作等。其中,增量数据的时间戳具体是指用来表明增量数据的生成时间的时间数据。
[0089] 420、依据设定时间间隔从增量数据抽取队列中抽取数据表格的增量数据和增量数据的时间戳,并将数据表格的增量数据和增量数据的时间戳发送至内部多样化接口系统。
[0090] 在本实施例中,增加使用了多样化接口系统13,该多样化接口系统13用于接收从增量数据抽取队列中抽取的数据表格的增量数据和增量数据的时间戳,并将接收的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台。
[0091] 430、通过内部多样化接口系统,将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台。
[0092] 在本实施例中,内部多样化接口系统再接收的数据表格的增量数据和增量数据的时间戳发送至Hadooop大数据平台。
[0093] 进一步地,内部多样化接口系统不但可以将从内部数据源抽取的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台,而且还可以将其他数据源的数据发送至Hadoop大数据平台。
[0094] 本发明实施例四提供了一种数据抽取方法,具体化了从数据库触发器中复制更新数据的方法,还将更新数据具体化为数据表格的增量数据和增量数据的时间戳,将内部数据源具体化为企业管理软件SAP,将内部大数据平台具体化为Hadoop大数据平台,同时,还具体化了从增量数量抽取队列中抽取更新数据并发送的过程,增加了内部多样化接口系统作为抽取的更新数据的传送中介。该方法解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格,同时,由于增加了内部多样化接口系统,扩大了Hadoop大数据平台的数据来源。
[0095] 本发明实施例所提供的数据抽取系统可用于执行本发明任意实施例提供的数据抽取方法,具备相应的功能模块,实现相同的有益效果。
[0096] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈