首页 / 专利库 / 软件 / 数据处理 / 一种数据处理方法和装置

一种数据处理方法和装置

阅读:42发布:2022-10-02

专利汇可以提供一种数据处理方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 数据处理 方法和装置,此方法包括:设置用于描述 大数据 处理的各个环节的操作类型,设置各操作类型对应的组件;接收用户 选定 的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;构建配置文件;根据配置文选取用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照组件执行顺序组成相应操作类型的执行模 块 ,按照操作类型的执行顺序设置各执行模块的执行顺序生成并执行大数据处理程序体。本发明可以根据不同用户的处理需要将预设的组件进行组合提供不同用户处理所需的程序体,可以节省编写相关组件的程序的步骤,极大地提高数据分析、处理的效率。,下面是一种数据处理方法和装置专利的具体信息内容。

1.一种数据处理方法,其特征在于,所述方法包括:
设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体,
其中,所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
2.如权利要求1所述的数据处理方法,其特征在于,
所述设置各操作类型对应的组件包括:操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
3.如权利要求1所述的数据处理方法,其特征在于,
所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
所述根据各组件的参数装配组件包括:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
4.如权利要求1所述的数据处理方法,其特征在于,
所述方法还包括:获知用户需执行大数据处理后,接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
所述按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体和执行所述大数据处理程序体包括:程序主体按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体后,根据所述配置文件中所述服务器的数量,确定相应数量的服务器,向各服务器发送所述大数据处理程序体并指示所述服务器执行所述大数据处理程序体。
5.一种数据处理装置,其特征在于,包括:
设置模块,用于设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
交互模块,用于获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
配置文件构建模块,用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
处理模块,用于加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
分发模块,用于将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体,
其中,所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
6.如权利要求5所述的数据处理装置,其特征在于,
所述设置模块,还用于在操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
7.如权利要求5所述的数据处理装置,其特征在于,
所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
所述处理模块,还用于根据以下方式执行根据各组件的参数装配组件:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
8.如权利要求5所述的数据处理装置,其特征在于,
所述交互模块,还用于接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
所述配置文件构建模块,还用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件;
所述分发模块,还用于根据所述配置文件中所述服务器的数量,确定相应数量的服务器向各服务器发送所述大数据处理程序体。

说明书全文

一种数据处理方法和装置

技术领域

[0001] 本发明涉及数据处理领域,尤其涉及一种数据处理方法和装置。

背景技术

[0002] 目前,在进行大数据分析时,借助开源项目Hadoop搭建的数据存储及分析平台,用来存储设备及用户数据,每天接收并存储数据八亿六千万条,已经平稳运行三年多,积累大量数据。在设备上报数据的描述文件时,描述设备上报的数据项及含义,不同设备使用多组不同编码描述设备数据项。大数据平台存储的数据来源于近百种不同的设备(ID文档不同)。在进行数据处理时,大数据平台使用Hadoop系统的分布式数据处理接口编写数据分析及处理任务,编写好的任务需要提交至大数据平台,并分发到多组服务器上进行处理,环境多,过程复杂。
[0003] 大数据平台积累的大量数据,属于原始数据,由于数据量巨大、数据混杂,无法有效使用。数据分析师根据分析制定数据清洗规则(包括过滤、去重、分组、合并等等),制定不同分类多组规则(不同ID文档不同规则、不同数据使用度不同规则)。大数据平台人员根据这些规则,编写程序完成数据的清洗,并保存到不同的结果数据集(数据仓库)。数据分析师每制定一份规则,均需要由开发人员编写复合大数据平台数据计算分析接口的程序,进行数据分析、处理或转换;复合该接口的程序编制复杂、调试困难,导致产出率低、出错率高。
[0004] 因此,以数据清洗为例,现有技术中的大数据处理存在下述问题:(1)对应每个数据的清洗规则,均需编写一个数据处理任务的程序,以完成该规则的数据清洗;(2)对于大数据分布式的存储系统,没有通用的数据清洗工具;(3)数据分析的需求变化快,数据种类繁多(仅ID文档就有近百份),程序编写困难,工作量大,效率不高;(4)数据分析任务程序编写复杂,过程环节多。

发明内容

[0005] 为了解决现有技术中大数据处理存在的问题,本发明提供了一种数据处理方法和装置。
[0006] 本发明提供了一种数据处理方法,所述方法包括:
[0007] 设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
[0008] 获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
[0009] 根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
[0010] 加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
[0011] 将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体。
[0012] 上述数据处理方法还具有以下特点:
[0013] 所述设置各操作类型对应的组件包括:操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
[0014] 上述数据处理方法还具有以下特点:
[0015] 所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
[0016] 所述根据各组件的参数装配组件包括:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
[0017] 上述数据处理方法还具有以下特点:
[0018] 所述方法还包括:获知用户需执行大数据处理后,接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
[0019] 所述按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体和执行所述大数据处理程序体包括:程序主体按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体后,根据所述配置文件中所述服务器的数量,确定相应数量的服务器,向各服务器发送所述大数据处理程序体并指示所述服务器执行所述大数据处理程序体。
[0020] 上述数据处理方法还具有以下特点:
[0021] 所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
[0022] 本发明还提供了一种数据处理装置,包括:
[0023] 设置模块,用于设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
[0024] 交互模块,用于获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
[0025] 配置文件构建模块,用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
[0026] 处理模块,用于加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
[0027] 分发模块,用于将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体。
[0028] 上述数据处理装置还具有以下特点:
[0029] 所述设置模块,还用于在操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
[0030] 上述数据处理装置还具有以下特点:
[0031] 所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
[0032] 所述处理模块,还用于根据以下方式执行根据各组件的参数装配组件:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
[0033] 上述数据处理装置还具有以下特点:
[0034] 所述交互模块,还用于接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
[0035] 所述配置文件构建模块,还用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件;
[0036] 所述分发模块,还用于根据所述配置文件中所述服务器的数量,确定相应数量的服务器向各服务器发送所述大数据处理程序体。
[0037] 上述数据处理装置还具有以下特点:
[0038] 所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
[0039] 本发明中的数据处理方法和装置,可以实现下述有益效果:
[0040] (1)通过预先设置的涵盖整个数据处理环节的操作类型和相应组件,根据不同用户的处理需要将组件进行组合提供不同用户处理所需的程序体。对于多功能、多数据格式(不同ID文档等)的情况,可以加快应对需求变动的效率,节省编写相关组件的程序的步骤,极大地提高数据分析、处理的效率,尤其对于需要编写复杂程序代码的大数据处理任务,可以极大地简化任务的开发过程,加速产出可以进行数据分析的产物,从而提高数据处理效率。
[0041] (2)可以与大数据分布式系统很好地集成。
[0042] (3)组件及程序结构通用化强,通过不同组件组合可以完成丰富的数据清洗及处理功能,可作为通用工具使用。附图说明
[0043] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0044] 图1是实施例中数据处理方法的流程图
[0045] 图2是实施例中数据处理装置的结构图。

具体实施方式

[0046] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0047] 图1是实施例中数据处理方法的流程图;参考图1,数据处理方法包括:
[0048] 步骤101,设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
[0049] 步骤102,获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
[0050] 步骤103,根据上述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
[0051] 步骤104,加载配置文件,根据配置文选取用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照组件执行顺序组成相应操作类型的执行模块,按照操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
[0052] 步骤105,将大数据处理程序体发送至少一个服务器并指示服务器执行此大数据处理程序体。
[0053] 具体的,
[0054] 本方法中的大数据处理典型的为大数据清洗,步骤101中操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。本方法可以适用于除大数据清洗之外的其它大数据处理方式。
[0055] 步骤101中的设置可以涵盖数据处理过程的每个环节的数据处理功能。设置各操作类型对应的组件时,操作类型只具有一种实现方式时,设置此操作类型所对应的组件指设置此操作类型的实现方式下的组件;其中,组件为实现该操作类型中某一特定功能的代码文件。操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。例如操作类型为关键字映射时,实现方式包括parquet文件映射功能和json文件映射功能,则此操作类型所对应的组件包括这两种实现方式下的组件。操作类型的每个实现方式可以对应于一个组件或一个以上组件,当操作类型对应于一个以上组件时,需获知组件执行顺序。
[0056] 步骤102中,组件的参数包括组件的初始化参数值和组件的数据处理规则。例如组件的数据处理规则包括对提取的数据按整数处理还是按浮点数处理等规则。步骤104中,根据各组件的参数装配组件具体包括:根据组件的初始化参数值对所述组件的参数进行初始化设置,根据数据处理规则设置组件的数据处理方式。
[0057] 步骤102中,获知用户需执行大数据处理后,还接收用户选定的服务器的数量;步骤103中根据上述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件。步骤104中,按照操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体和执行大数据处理程序体具体包括:程序主体按照操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体后,根据配置文件中服务器的数量,确定相应数量的服务器,向各服务器发送所述大数据处理程序体并指示所述服务器执行大数据处理程序体。
[0058] 其中,步骤103中通过页面交互将用户选定的信息生成配置文件,该配置文件的代码形式的文件,使程序主体可以直接解析该配置文件。
[0059] 图2是实施例中数据处理装置的结构图,参考图2,数据处理装置包括:
[0060] 设置模块201,用于设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
[0061] 交互模块202,用于获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、各组件的参数;
[0062] 配置文件构建模块203,用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
[0063] 处理模块204,用于加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
[0064] 分发模块205,用于将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体。
[0065] 其中,
[0066] 设置模块201还用于在操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
[0067] 交互模块202接收到的组件的参数包括组件的初始化参数值和组件的数据处理规则。处理模块204还用于根据以下方式执行根据各组件的参数装配组件:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
[0068] 交互模块202还用于接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量。配置文件构建模块203还用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件。分发模块205还用于根据所述配置文件中所述服务器的数量,确定相应数量的服务器向各服务器发送所述大数据处理程序体。
[0069] 本装置所执行的大数据处理典型的是大数据清洗;操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
[0070] 本发明中的数据处理方法和装置,可以实现下述有益效果:
[0071] (1)通过预先设置的涵盖整个数据处理环节的操作类型和相应组件,根据不同用户的处理需要将组件进行组合提供不同用户处理所需的程序体。对于多功能、多数据格式(不同ID文档等)的情况,可以加快应对需求变动的效率,节省编写相关组件的程序的步骤,极大地提高数据分析、处理的效率,尤其对于需要编写复杂程序代码的大数据处理任务,可以极大地简化任务的开发过程,加速产出可以进行数据分析的产物,从而提高数据处理效率。
[0072] (2)可以与大数据分布式系统很好地集成。
[0073] (3)组件及程序结构通用化强,通过不同组件组合可以完成丰富的数据清洗及处理功能,可作为通用工具使用。
[0074] 上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
[0075] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
[0076] 以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈