一种基于拖拽式流程的大数据挖掘工具及方法专利检索-流程图企业组织专利检索查询-专利查询网

一种基于拖拽式流程的大数据挖掘工具及方法

阅读：994发布：2020-05-13

专利汇可以提供一种基于拖拽式流程的大数据挖掘工具及方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于拖拽式流程的大数据挖掘工具及方法，它包括数据管理模块、算子库模块、流程管理模块、数据挖掘引擎模块和展示设计模块和可视化模块。其有益效果如下：(1)实现了大数据计算和建模的逻辑分离，在多层面降低数据挖掘门槛，大数据计算方面，实现大数据挖掘算法库的高级封装，操作人员无需了解具体的算法实现；大数据建模方面，开发图形化的互动原型，通过直观地拖拽连接实现挖掘流程；(2)可根据挖掘流程的算子内容自动选择最优的计算模式，优化计算效率；(3)在大数据场景下，极大降低计算成本；(4)无需涉及繁琐的集群搭建和维护，降低大数据挖掘使用门槛。，下面是一种基于拖拽式流程的大数据挖掘工具及方法专利的具体信息内容。

权利要求

1.一种基于拖拽式流程的大数据挖掘工具，其特征在于：它包括数据管理模块、算子库模块、流程管理模块、数据挖掘引擎模块和展示设计模块和可视化模块。
2.如权利要求1所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的数据管理模块为挖掘流程提供数据源，通过算子库模块选择、组合算子生成挖掘流程图。
3.如权利要求1所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的流程管理模块实现挖掘流程图解析，并按指定顺序将算子库模块中独立的算子计算逻辑编译为完整的流程计算逻辑，提交挖掘任务。
4.如权利要求1所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的据挖掘引擎模块接收挖掘任务，根据任务内容选择Hive或Spark引擎按上述计算逻辑进行运算，获取挖掘结果。
5.如权利要求1所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的展现设计模块接收挖掘结果，按指定规则转化为各种形式的输出；可视化模块集成于数据挖掘的各个环节，可实现数据管理模块、算子库模块、流程管理模块、数据挖掘引擎模块和展示设计模块操作的可视化。
6.如权利要求1所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的算子库模块提供数据处理和数据挖掘服务。
7.如权利要求6所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的算子库模块基于Hive SQL和Spark API进行二次开发，以算子形式实现对一系列大数据计算的高级封装，并集成在独立的图形化插件中，可通过拖拽、连接、设置插件参数分别实现算子功能调用、算子数据输入，算子计算动作控制，算子库模块集成了算子实例，提供数据清洗、数据集成、数据转换、数据规约、数据生成、数据特征提取、统计分析、关联规则、分类与回归、聚类、模型应用与评估等多项大数据计算服务，算子库模块提供灵活的拓展机制，可通过自定义算子插件编程实现自定义的数据挖掘操作。
8.如权利要求4所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的数据挖掘引擎模块接收挖掘任务，根据任务内容选择Hive SQL或Spark两种数据挖掘引擎按上述计算逻辑进行运算，获取挖掘结果，其中，Hive SQL引擎面向简单的数据挖掘服务，包括数据清洗、数据转换、数据特征提取、统计分析，此类算子通过Hive查询语句生成新的表或视图，避免启动集群与分配计算资源的时间消耗；Spark引擎面向复杂的数据挖掘服务，包括关联规则、分类与回归、聚类等，此类算子通过向下调用Spark API操作Spark的RDD训练模型，具有更高的挖掘效率。
9.如权利要求3所述的一种基于拖拽式流程的大数据挖掘工具，其特征在于：所述的流程管理模块实现挖掘流程图解析，并按指定顺序将算子库模块中独立的算子计算逻辑编译为完整的流程计算逻辑，提交挖掘任务，具体包括流程文件管理和流程控制管理，其中，所述的流程文件管理中采用XML文件作为一项业务流程的载体，文件包含数据源、算子名称及参数、连接顺序等信息，可通过操作XML文件实现业务流程的保存、删除、导入、导出；流程控制管理包括流程验证、流程计算、流程停止等功能，可完成对挖掘流程的灵活控制，流程验证用于对流程设计开发的有效性进行检验；流程计算提供部分提交和全部提交两种计算方式，可选择性计算挖掘子任务；流程停止用于强制停止当前流程计算，可有效处理大数据计算异常或等待计算资源时间过长等场景下出现的未响应现象。
10.一种基于拖拽式流程的大数据挖掘方法，其特征在于：它包括如下步骤，(1)配置数据源，数据挖掘前准备待分析处理数据源，采用系统提供的数据资源；
(2)新建挖掘流程，在当前挖掘任务下创建多个挖掘流程，从而满足对同一数据源进行多项挖掘操作的应用需求；
(3)设计挖掘流程，包括设计流程和导入流程文件两种流程创建方式，设计流程是指通过添加、组装、配置已有大数据算子模块，从而形成完整的挖掘流程；流程文件是指挖掘流程设计完成后主动生成的文件载体，以XML形式存储，包含流程中所有的算子模块、参数配置、连接状态等信息，通过一键导入流程文件，可直接生成相应的挖掘流程；
(4)提交流程，大数据挖掘流程设计完成后，通过提交流程开启流程计算，包括全部提交和部分提交两种方式，其中，全部提交将提交整个挖掘流程，其间的每个算子均将被计算，最终将在完成算子获取整个挖掘流程的输出；部分提交将提交开始算子至指定算子间的部分流程，之后的算子将不会被计算；
(5)挖掘流程验证，提交流程后，将自动对流程进行有效性验证，判断所提交流程在算子连接、参数配置、计算逻辑等方面是否存在错误，若验证通过，则进入流程计算，否则将抛出错误信息；
(6)执行挖掘流程，验证通过后，工具将自动解析流程，根据流程算子内容自动选择合适的挖掘引擎，并将计算结果保存至hive中，计算过程中将实时反馈当前的计算状态，若流程计算成功将提示计算完成，否则将抛出具体错误信息；
(7)挖掘展示设计，流程计算完成后，操作人员可根据流程挖掘结果数据结构，个性化设计数据展现形式，包括流程输出决策树模型，可通过创建树图展现，获取模型的图形化显示；
(8)挖掘结果显示，进入挖掘结果界面，从hive中提取计算结果，按挖掘展示设计规则，输出数据表或图。

说明书全文

一种基于拖拽式流程的大数据挖掘工具及方法

技术领域

[0001] 本发明属于一种大数据挖掘工具及方法，具体涉及一种基于拖拽式流程的大数据挖掘工具及方法。

背景技术

[0002] 数据挖掘是从海量信息中获取潜在的知识的关键技术，已成为推动各领域发展的重要力量。数据挖掘在传统的小数据集上已经得到了充分的利用和发展，但是在大数据集上，由于其在存储和计算上的特殊性，之前成熟的数据挖掘算法无法直接与大数据的计算框架相融合，使得大数据挖掘应用具有较高的成本。

[0003] 在大数据场景下，数据挖掘涉及算法原理、算法并行代码实现，算法组合，对操作人员专业知识要求较高，且挖掘建模是一个反复迭代优化的过程，在代码层面上操作效率低下，不够直观，无法满足快速大数据挖掘分析。

发明内容

[0004] 本发明的目的是提供一种基于拖拽式流程的大数据挖掘工具及方法，针对以上不足之处，应用本发明进行操作无需了解大数据挖掘技术、底层代码的实现细节，只需通过简单地拖拽、组合，即可完成数据建模，降低大数据分析挖掘门槛。

[0005] 本发明的技术方案如下：一种基于拖拽式流程的大数据挖掘工具，它包括数据管理模块、算子库模块、流程管理模块、数据挖掘引擎模块和展示设计模块和可视化模块。

[0006] 所述的数据管理模块为挖掘流程提供数据源，通过算子库模块选择、组合算子生成挖掘流程图。

[0007] 所述的流程管理模块实现挖掘流程图解析，并按指定顺序将算子库模块中独立的算子计算逻辑编译为完整的流程计算逻辑，提交挖掘任务。

[0008] 所述的据挖掘引擎模块接收挖掘任务，根据任务内容选择Hive或Spark引擎按上述计算逻辑进行运算，获取挖掘结果。

[0009] 所述的展现设计模块接收挖掘结果，按指定规则转化为各种形式的输出；可视化模块集成于数据挖掘的各个环节，可实现数据管理模块、算子库模块、流程管理模块、数据挖掘引擎模块和展示设计模块操作的可视化。

[0010] 所述的算子库模块提供数据处理和数据挖掘服务。

[0011] 所述的算子库模块基于Hive SQL和Spark API进行二次开发，以算子形式实现对一系列大数据计算的高级封装，并集成在独立的图形化插件中，可通过拖拽、连接、设置插件参数分别实现算子功能调用、算子数据输入，算子计算动作控制，算子库模块集成了丰富的算子实例，可提供数据清洗、数据集成、数据转换、数据规约、数据生成、数据特征提取、统计分析、关联规则、分类与回归、聚类、模型应用与评估等多项大数据计算服务，算子库模块提供灵活的拓展机制，可通过自定义算子插件编程实现自定义的数据挖掘操作。

[0012] 所述的数据挖掘引擎模块接收挖掘任务，根据任务内容选择Hive SQL或Spark两种数据挖掘引擎按上述计算逻辑进行运算，获取挖掘结果，其中，Hive SQL引擎面向简单的数据挖掘服务，包括数据清洗、数据转换、数据特征提取、统计分析，此类算子通过Hive查询语句生成新的表或视图，避免启动集群与分配计算资源的时间消耗；Spark引擎面向复杂的数据挖掘服务，包括关联规则、分类与回归、聚类等，此类算子通过向下调用Spark API操作Spark的RDD训练模型，具有更高的挖掘效率。

[0013] 所述的流程管理模块实现挖掘流程图解析，并按指定顺序将算子库模块中独立的算子计算逻辑编译为完整的流程计算逻辑，提交挖掘任务，具体包括流程文件管理和流程控制管理，其中，所述的流程文件管理中采用XML文件作为一项业务流程的载体，文件包含数据源、算子名称及参数、连接顺序等信息，可通过操作XML文件实现业务流程的保存、删除、导入、导出；流程控制管理包括流程验证、流程计算、流程停止等功能，可完成对挖掘流程的灵活控制，流程验证用于对流程设计开发的有效性进行检验；流程计算提供部分提交和全部提交两种计算方式，可选择性计算挖掘子任务；流程停止用于强制停止当前流程计算，可有效处理大数据计算异常或等待计算资源时间过长等场景下出现的未响应现象。

[0014] 一种基于拖拽式流程的大数据挖掘方法，它包括如下步骤，

[0015] (1)配置数据源，数据挖掘前准备待分析处理数据源，采用系统提供的数据资源；

[0016] (2)新建挖掘流程，在当前挖掘任务下创建多个挖掘流程，从而满足对同一数据源进行多项挖掘操作的应用需求；

[0017] (3)设计挖掘流程，包括设计流程和导入流程文件两种流程创建方式，设计流程是指通过添加、组装、配置已有大数据算子模块，从而形成完整的挖掘流程；流程文件是指挖掘流程设计完成后主动生成的文件载体，以XML形式存储，包含流程中所有的算子模块、参数配置、连接状态等信息，通过一键导入流程文件，可直接生成相应的挖掘流程；

[0018] (4)提交流程，大数据挖掘流程设计完成后，通过提交流程开启流程计算，包括全部提交和部分提交两种方式，其中，全部提交将提交整个挖掘流程，其间的每个算子均将被计算，最终将在完成算子获取整个挖掘流程的输出；部分提交将提交开始算子至指定算子间的部分流程，之后的算子将不会被计算；

[0019] (5)挖掘流程验证，提交流程后，将自动对流程进行有效性验证，判断所提交流程在算子连接、参数配置、计算逻辑等方面是否存在错误，若验证通过，则进入流程计算，否则将抛出错误信息；

[0020] (6)执行挖掘流程，验证通过后，工具将自动解析流程，根据流程算子内容自动选择合适的挖掘引擎，并将计算结果保存至hive中，计算过程中将实时反馈当前的计算状态，若流程计算成功将提示计算完成，否则将抛出具体错误信息。

[0021] (7)挖掘展示设计，流程计算完成后，操作人员可根据流程挖掘结果数据结构，个性化设计数据展现形式，包括流程输出决策树模型，可通过创建树图展现，获取模型的图形化显示；

[0022] (8)挖掘结果显示，进入挖掘结果界面，从hive中提取计算结果，按挖掘展示设计规则，输出数据表或图。

[0023] 本发明的有益效果如下：(1)本发明提供的数据挖掘工具实现了大数据计算和建模的逻辑分离，在多层面降低数据挖掘门槛，大数据计算方面，实现大数据挖掘算法库的高级封装，操作人员无需了解具体的算法实现；大数据建模方面，开发图形化的互动原型，通过直观地拖拽连接实现挖掘流程；(2)该工具提供基于Hive SQL和Spark的双引擎计算模式，可根据挖掘流程的算子内容自动选择最优的计算模式，优化计算效率；(3)该工具提供部分提交的挖掘方式，操作人员可在无需计算整个流程的前提下，获取指定算子的挖掘结果，在大数据场景下，极大降低计算成本；(4)该工具基于echarts数据图表技术，可实现关联规则、神经网络、决策树等复杂模型的可视化展示，使隐含于数据中不可见现象成为可见，利于操作人员分析、理解数据；(5)以web平台服务方式对外提供大数据计算功能，操作人员可采用本地浏览器形式调用挖掘工具，无需涉及繁琐的集群搭建和维护，降低大数据挖掘使用门槛。附图说明

[0024] 图1为本发明所提供的一种基于拖拽式流程的大数据挖掘工具的各模块间关联示意图；

[0025] 图2为实施实例1大数据清洗流程图；

[0026] 图3为实施实例2大数据神经网络流程计算流程图。

具体实施方式

[0027] 下面结合附图及具体实施例对本发明作进一步详细说明。

[0028] 下面结合附图对本发明中大数据挖掘工具及方法的具体实施步骤方式进一步说明。

[0029] 一种基于拖拽式流程的大数据挖掘工具，它包括数据管理模块、算子库模块、流程管理模块、数据挖掘引擎模块和可视化模块几个部分。

[0030] 如图1所示，一种基于拖拽式流程的大数据挖掘工具中的数据管理模块为挖掘流程提供数据源，通过算子库模块选择、组合算子生成挖掘流程图；流程管理模块实现挖掘流程图解析，并按指定顺序将算子库模块中独立的算子计算逻辑编译为完整的流程计算逻辑，提交挖掘任务；数据挖掘引擎模块接收挖掘任务，根据任务内容选择Hive或Spark引擎按上述计算逻辑进行运算，获取挖掘结果；展现设计模块接收挖掘结果，按指定规则转化为各种形式的输出；可视化模块集成于数据挖掘的各个环节，可实现上述模块操作的可视化。

[0031] 其中，数据管理模块能够实现数据存储功能，提供多元的数据存储方式。数据管理模块为挖掘流程提供数据源，通过连接、组合算子生成挖掘流程图。

[0032] 算子库模块、数据挖掘引擎模块、流程管理模块和展示设计模块共同提供大数据挖掘相关计算、设计、展现服务。

[0033] 其中，算子库模块提供数据处理和数据挖掘服务。算子库模块基于Hive SQL和Spark API进行二次开发，以算子形式实现对一系列大数据计算的高级封装，并集成在独立的图形化插件中，可通过拖拽、连接、设置插件参数分别实现算子功能调用、算子数据输入，算子计算动作控制，简单高效。算子库模块集成了丰富的算子实例，可提供数据清洗、数据集成、数据转换、数据规约、数据生成、数据特征提取、统计分析、关联规则、分类与回归、聚类、模型应用与评估等多项大数据计算服务。算子库模块提供灵活的拓展机制，可通过自定义算子插件编程实现自定义的数据挖掘操作。

[0034] 数据挖掘引擎模块接收挖掘任务，根据任务内容选择Hive SQL或Spark两种数据挖掘引擎按上述计算逻辑进行运算，获取挖掘结果。其中，Hive SQL引擎面向简单的数据挖掘服务，例如数据清洗、数据转换、数据特征提取、统计分析等，此类算子通过Hive查询语句生成新的表或视图，避免启动集群与分配计算资源的时间消耗；Spark引擎面向复杂的数据挖掘服务，例如关联规则、分类与回归、聚类等，此类算子通过向下调用Spark API操作Spark的RDD训练模型，具有更高的挖掘效率。

[0035] 流程管理模块实现挖掘流程图解析，并按指定顺序将算子库模块中独立的算子计算逻辑编译为完整的流程计算逻辑，提交挖掘任务，具体包括流程文件管理和流程控制管理。其中，流程文件管理中本发明采用XML文件作为一项业务流程的载体，文件包含数据源、算子名称及参数、连接顺序等信息，可通过操作XML文件实现业务流程的保存、删除、导入、导出。流程控制管理包括流程验证、流程计算、流程停止等功能，可完成对挖掘流程的灵活控制，流程验证用于对流程设计开发的有效性进行检验；流程计算提供部分提交和全部提交两种计算方式，可选择性计算挖掘子任务；流程停止用于强制停止当前流程计算，可有效处理大数据计算异常或等待计算资源时间过长等场景下出现的未响应现象。

[0036] 展现设计模块接收挖掘结果，按指定规则转化为各种形式的输出，它支持多元的数据展现形式，例如表格、树图、网络图、散列矩阵等，可针对不同类型的挖掘结果灵活配置，生成更具解释力的数据样式。

[0037] 可视化模块集成于数据挖掘的各个环节，可实现上述模块操作的可视化。

[0038] 本发明采用可视化的互动原型，所有数据挖掘服务均可通过操作可视化模块中相应的视图界面获取。其中，包括浏览添加数据挖掘算子的算子视图，设计组装挖掘流程的流程视图，获取挖掘流程开发状态及计算日志的消息视图，显示数据挖掘结果的挖掘结果视图等。简洁、直观的可视化的视图界面提高了挖掘工具的易用性。

[0039] 一种基于拖拽式流程的大数据挖掘方法，主要包括如下步骤，创建挖掘流程、挖掘流程提交计算、挖掘结果展示，现具体描述如下：

[0040] (1)配置数据源，数据挖掘前需准备待分析处理数据源，可采用系统提供的数据资源；

[0041] (2)新建挖掘流程，在当前挖掘任务下创建多个挖掘流程，从而满足对同一数据源进行多项挖掘操作的应用需求；

[0042] (3)设计挖掘流程，可通过设计流程和导入流程文件两种流程创建方式，其中，设计流程是指通过添加、组装、配置已有大数据算子模块，从而形成完整的挖掘流程；流程文件是指挖掘流程设计完成后主动生成的文件载体，以XML形式存储，包含流程中所有的算子模块、参数配置、连接状态等信息，通过一键导入流程文件，可直接生成相应的挖掘流程；

[0043] (4)提交流程，大数据挖掘流程设计完成后，可通过提交流程开启流程计算，包括全部提交和部分提交两种方式，其中，全部提交将提交整个挖掘流程，其间的每个算子均将被计算，最终将在完成算子获取整个挖掘流程的输出；部分提交将提交开始算子至指定算子间的部分流程，之后的算子将不会被计算，具有较大的灵活性。

[0044] (5)挖掘流程验证，提交流程后，将自动对流程进行有效性验证，判断所提交流程在算子连接、参数配置、计算逻辑等方面是否存在错误，若验证通过，则进入流程计算，否则将抛出错误信息。

[0045] (6)执行挖掘流程，验证通过后，工具将自动解析流程，根据流程算子内容自动选择合适的挖掘引擎，并将计算结果保存至hive中。计算过程中将实时反馈当前的计算状态，若流程计算成功将提示计算完成，否则将抛出具体错误信息。

[0046] (7)挖掘展示设计，流程计算完成后，可根据流程挖掘结果数据结构，个性化设计数据展现形式，例如，流程输出决策树模型，可通过创建树图展现，获取模型的图形化显示。

[0047] (8)挖掘结果显示，进入挖掘结果界面，从hive中提取计算结果，按挖掘展示设计规则，输出数据表或图。

[0048] 为了使本技术领域的人员更好地理解本发明方案，下面结合本发明实施实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

[0049] 实施例一：

[0050] 参见图2，本实施以大数据清洗为例，对本发明的具体应用进行详细描述。

[0051] (1)添加开始和完成算子，数据挖掘工具以开始和完成算子作为一个挖掘流程的起止标识，并指引整个流程的计算，未设置开始和完成算子，将无法进行有效计算。

[0052] (2)添加数据源，数据挖掘工具以数据源算子表示待挖掘的数据，可通过直接拖拽数据源算子至流程视图中空白处实现数据导入。

[0053] (3)添加大数据挖掘算子，将“数据选择”算子插件拖拽至流程视图中空白处，实现数据选择功能载入。

[0054] (4)连接算子，连接数据源与“数据选择”算子，实现数据传递，由开始算子至完成算子间的连接顺序即为整个流程的数据转换过程。

[0055] (5)配置算子参数，大部分算子为了执行指定动作需要对其配置正确的参数，此处“数据选择”算子将参数“字段类型”设为“numeric”,表示从数据源中筛选数值型字段。

[0056] (6)重复步骤3～5，依次实现“缺失值替换”、“归一化”算子添加，最后将末端算子与“完成”算子相连，完成流程设计。

[0057] (7)参数验证，点击“参数验证”实现流程一键验证，若流程中算子均显示验证通过，表明当前流程无明显异常，可提交运行，否则，将抛出异常信息，此时应根据提示修正流程，例如“归一化”算子未连接，将提示“Error:归一化无数据输入”。

[0058] 实施例二：

[0059] 参见图3，本实施例以神经网络回归预测为例，对所述大数据提交方式和计算引擎选择方式进行详细描述。

[0060] (1)图3所示流程算子功能描述为，“数据拆分”算子实现训练、测试集划分，“神经网络”算子实现模型训练，“属性选择”算子实现测试集去标签；“模型应用”算子将基于训练模型对测试集进行回归预测；

[0061] (2)全部提交，此时计算引擎将计算由“开始”至“完成”所有算子的输出；

[0062] (3)部分提交，此时计算引擎将计算指定算子的输出，例如“数据选择”算子，通过解析流程XML文件，生成“数据选择”算子依赖路径，仅相关算子(实线)参与大数据计算，避免无关计算消耗。

[0063] (4)Spark引擎，面向复杂挖掘服务，例如步骤2计算任务中，包含“神经网络”训练，此时，将启动Spark引擎进行计算。

[0064] (5)Hive SQL引擎，面向简单挖掘服务，例如步骤3计算任务中，仅涉及简单数据拆分、筛选，将直接通过Hive SQL获取计算结果，避免启动集群与分配计算资源的时间消耗。

标题	发布/更新时间	阅读量
一种高中低压一体化配电网络可靠性混合计算方法	2020-05-08	966
标绘处理方法、共享图像标绘方法及标绘再现方法	2020-05-13	192
授信会签方法、装置、计算机设备及存储介质	2020-05-13	581
对冷站机房的暖通逻辑流程进行编辑的方法和装置	2020-05-08	361
用于列车控制系统的软件测试通用自动化控制方法及装置	2020-05-11	488
一种营销策略的构建方法及装置	2020-05-12	155
基于高精度车载激光移动测量系统铁路工程限界检测方法	2020-05-12	930
一种数据集成方法及装置	2020-05-08	719
人工智能和模糊测试漏洞扫描系统(AIFuzz)	2020-05-11	713
基于微服务的电票业务功能构建方法和系统	2020-05-12	324

一种基于拖拽式流程的大数据挖掘工具及方法

一种基于拖拽式流程的大数据挖掘工具及方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：