首页 / 专利库 / 企业组织 / 流程图 / 一种适用于分布式算法的运行容器及流程图创建方法

一种适用于分布式算法的运行容器及流程图创建方法

阅读:623发布:2020-09-05

专利汇可以提供一种适用于分布式算法的运行容器及流程图创建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种适用于分布式 算法 的运行容器及 流程图 创建方法,运行容器包括 硬件 模 块 和 软件 模块,硬件模块为算法的运行环境; 软件模块 则包括流程图绘 制模 块、关系确定模块、 接口 模块和检测模块。创建方法则包括:首先新建流程;然后往流程里添加算法;增加算法到流程后, 修改 算法中所用到的属性;编排完的流程,在spark分布式计算系统上进行运算,最终获得分析结果。该适用于分布式算法的运行容器及流程图创建方法与 现有技术 相比,通过统一算法的接口和标准,能够让用户自由实现自己的算法,并与系统的其他算法无缝组合;通过绘制算法流程图,实现对算法的不同顺序组合来分析处理数据,分析流程多样化,实用性强。,下面是一种适用于分布式算法的运行容器及流程图创建方法专利的具体信息内容。

1.一种适用于分布式算法的运行容器,其特征在于,包括硬件软件模块,硬件模块为算法的运行环境;软件模块则包括流程图制模块、关系确定模块、接口模块和检测模块;其中:
运行环境,该运行环境采用spark分布式计算系统并用于算法的运行;
流程图绘制模块,提供绘制界面使用户实现对算法流程的绘制,同时该绘制界面还用于添加算法实例节点
关系确定模块,在通过流程图绘制模块添加算法实例节点后,该关系确定模块通过算法实例节点与算法实例节点之间的连线来表示算法实例节点之间的关系;
接口模块,提供用户增加新的算法的接口与标准,且该标准规范实现任意算法在流程图绘制模块中与其它算法随机组合,进行数据分析;
检测模块,检测整个算法添加或组合过程的完整性。
2.根据权利要求1所述的一种适用于分布式算法的运行容器,其特征在于,所述流程图绘制模块中,提供浏览器使用户实现对算法流程的绘制,该绘制的算法流程图中包含算法实例节点以及算法实例节点的关系,算法实例节点的关系是通过算法之间的连线来确定。
3.根据权利要求2所述的一种适用于分布式算法的运行容器,其特征在于,在流程图绘制模块中,当增加一个算法实例节点后,用户通过算法实例节点的属性值界面,修改算法用到的属性,即每一个算法对应已经编写好算法的jar包,统一算法的输入输出的参数信息,以保证算法节点之间的数据流转。
4.根据权利要求1所述的一种适用于分布式算法的运行容器,其特征在于,所述关系确定模块根据算法实例节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据,当执行完一个算法实例节点后,根据算法实例节点的描述自动执行下一个算法实例节点。
5.一种基于适用于分布式算法的运行容器的流程图创建方法,其特征在于,实现过程为:
首先通过流程图绘制模块新建流程;
创建流程以后,往流程里排放算法:已有算法直接添加到流程中;不存在的算法,根据接口模块提供的标准,增加新的算法后,将新增加的算法加入到流程中;
增加算法到流程后,修改算法中所用到的属性;
编排完的流程,在spark分布式计算系统上进行运算,最终获得分析结果。

说明书全文

一种适用于分布式算法的运行容器及流程图创建方法

技术领域

[0001] 本发明涉及大数据技术领域,具体地说是一种实用性强、适用于分布式算法的运行容器及流程图创建方法。

背景技术

[0002] 随着信息时代的到来,数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息,出现了各种不同的数据挖掘算法。
[0003] 在数据挖掘中,无法立即确定最合适的算法,需要通过不断的尝试不同的算法,或者算法组合来获得不同的计算结果。根据对不同的计算结果进行对比,从而获得最佳的算法方案、以及最优的分析结果,以获得最有效的数据反馈信息。
[0004] 数据分析人员需要既懂算法的原理,又要懂算法的具体代码实现。对技术人员要求较高,同时实现不同的算法组合分析数据时候,需要不断调整编码,较为繁琐。
[0005] 算法的改造一般针对三个方向进行,算法处理容器、算法编写规范、分布式运行框架。尤其是分布式算法,分布式算法的编写与传统算法开发差别较大,并且分布式算法的运行依托于特定的平台,而且不同的平台对分布式算法的开发要求不同,这就导致了同一种算法的实现在不同的平台下不同。
[0006] 在数据挖掘中,由于数据量大,导致单一服务器很难快速计算结果。鉴于此,现提供一种基于适用于分布式算法的运行容器及流程图创建方法。通过将绘制好的流程图自动运行到spark分布式计算系统中,通过采用计算的方案,大大增加了运算速率。

发明内容

[0007] 本发明的技术任务是针对以上不足之处,提供一种实用性强、适用于分布式算法的运行容器及流程图创建方法。
[0008] 一种适用于分布式算法的运行容器,包括硬件软件模块,硬件模块为算法的运行环境;软件模块则包括流程图绘制模块、关系确定模块、接口模块和检测模块;其中:运行环境,该运行环境采用spark分布式计算系统并用于算法的运行;
流程图绘制模块,提供绘制界面使用户实现对算法流程的绘制,同时该绘制界面还用于添加算法实例节点
关系确定模块,在通过流程图绘制模块添加算法实例节点后,该关系确定模块通过算法实例节点与算法实例节点之间的连线来表示算法实例节点之间的关系;
接口模块,提供用户增加新的算法的接口与标准,且该标准规范实现任意算法在流程图绘制模块中与其它算法随机组合,进行数据分析;
检测模块,检测整个算法添加或组合过程的完整性。
[0009] 所述流程图绘制模块中,提供浏览器使用户实现对算法流程的绘制,该绘制的算法流程图中包含算法实例节点以及算法实例节点的关系,算法实例节点的关系是通过算法之间的连线来确定。
[0010] 在流程图绘制模块中,当增加一个算法实例节点后,用户通过算法实例节点的属性值界面,修改算法用到的属性,即每一个算法对应已经编写好算法的jar包,统一算法的输入输出的参数信息,以保证算法节点之间的数据流转。
[0011] 所述关系确定模块根据算法实例节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据,当执行完一个算法实例节点后,根据算法实例节点的描述自动执行下一个算法实例节点。
[0012] 一种基于适用于分布式算法的运行容器的流程图创建方法,其实现过程为:首先通过流程图绘制模块新建流程;
创建流程以后,往流程里排放算法:已有算法直接添加到流程中;不存在的算法,根据接口模块提供的标准,增加新的算法后,将新增加的算法加入到流程中;
增加算法到流程后,修改算法中所用到的属性;
编排完的流程,在spark分布式计算系统上进行运算,最终获得分析结果。
[0013] 本发明的一种适用于分布式算法的运行容器及流程图创建方法,具有以下优点:本发明通过设计分布式运行容器,并制定统一算法接口标准,使算法与算法之间可以随机组合。仅通过算法即可实现完整的数据分析过程。根据本发明的算法接口标准增加的算法,可以与原有算法无缝组合。方便用户扩充算法种类、以及增加个性化算法。
[0014] 本发明通过绘制数据分析完整流程图,使得分析数据无需编码实现。数据分析人员只需要懂算法即可。减少了技术人员的要求,以及节省了一般数据分析中,因算法顺序改变而编码调整的时间。同时图形化的数据分析界面,更容易查找整个数据分析流程中不适合的算法节点。
[0015] 针对海量数据的分析,采用自动将流程图解析,获得算法执行顺序。并将算法运算在spark群集上。采用这种云计算的方式,大大缩短了计算的时间,实用性强,适用范围广泛,易于推广。附图说明
[0016] 附图1为本发明的流程图创建流程图。

具体实施方式

[0017] 下面结合附图和具体实施例对本发明作进一步说明。
[0018] 本发明的一种适用于分布式算法的运行容器,为不同算法(如分类、聚类、关联、回归等)制定统一的接口标准,自动在容器中执行,实现数据挖掘的云计算。这就使得用户可以完全不关心分布式代码的写法以及分布式算法的运行环境,只写算法代码即可。同时用户可以根据系统的算法接口标准,灵活实现自己的算法。根据系统接口标准规范增加的算法,可以很好的与其他已有算法进行组合运算,增加了算法实现的可扩充性。
[0019] 该容器包括硬件模块和软件模块,硬件模块为算法的运行环境;软件模块则包括流程图绘制模块、关系确定模块、接口模块和检测模块;其中:运行环境,该运行环境采用采用b/s架构,即Spark和Hadoop组成,算法处理容器能够根据算法信息自动加载并运行算法,这样算法开发人员只需要按照算法编写规范进行分布式算法编码,而不需要关心算法如何去运行,从而降低分布式算法的开发槛;
流程图绘制模块,提供绘制界面使用户实现对算法流程的绘制,同时该绘制界面还用于添加算法实例节点;
关系确定模块,在通过流程图绘制模块添加算法实例节点后,该关系确定模块通过算法实例节点与算法实例节点之间的连线来表示算法实例节点之间的关系;
接口模块,提供用户增加新的算法的接口与标准,且该标准规范实现任意算法在流程图绘制模块中与其它算法随机组合,进行数据分析;
检测模块,检测整个算法添加或组合过程的完整性。在系统中,通过该检测模块使其具备流程的检测功能,检查流程的完整性、正确性。例如:避免出现回路的流程等。系统通过测试功能,来验证整个流程的完整与可执行。
[0020] 所述流程图绘制模块中,提供浏览器使用户实现对算法流程的绘制,该绘制的算法流程图中包含算法实例节点以及算法实例节点的关系,算法实例节点的关系是通过算法之间的连线来确定。
[0021] 在流程图绘制模块中,当增加一个算法实例节点后,用户通过算法实例节点的属性值界面,修改算法用到的属性,即每一个算法对应已经编写好算法的jar包,统一算法的输入输出的参数信息,以保证算法节点之间的数据流转。
[0022] 所述关系确定模块根据算法实例节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据,当执行完一个算法实例节点后,根据算法实例节点的描述自动执行下一个算法实例节点。
[0023] 如附图1所示,一种基于适用于分布式算法的运行容器的流程图创建方法,其实现过程为:首先通过流程图绘制模块新建流程;
创建流程以后,往流程里排放算法:已有算法直接添加到流程中;不存在的算法,根据接口模块提供的标准,增加新的算法后,将新增加的算法加入到流程中;
增加算法到流程后,修改算法中所用到的属性;
编排完的流程,在spark分布式计算系统上进行运算,最终获得分析结果。
[0024] 上述流程即为流程图。
[0025] 在本发明中,通过统一算法的接口和标准,能够让用户自由实现自己的算法,并与系统的其他算法无缝组合。
[0026] 通过绘制算法流程图,实现对算法的不同顺序组合来分析处理数据,分析流程多样化。
[0027] 流程图会自动解析运行在spark的群集上,省去了人工将算法运行在spark上的工作。
[0028] 算法所运行的spark分布式系统是主流的云计算框架之一,运行速度较快。
[0029] 上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种适用于分布式算法的运行容器及流程图创建方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈