专利汇可以提供一种基于超级计算机的应用级多层检查点的优化方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于超级计算机的应用级多层检查点的优化方法,属于 计算机系统 结构和 高性能计算 领域。一种基于超级计算机的应用级多层检查点的优化方法,包括以下步骤:1)替换故障 节点 2)确定各层检查点放置时间序列;3)对 硬件 节点以及运行在节点上的 进程 进行组划分;4)采用故障类型判定 算法 确定发生在进程组内的故障类型;5)针对故障类型,在进程组内采用相应的恢复策略;6)当到达各层检查点放置时间序列中对应的时间点时,采用相应的检查点策略完成中间状态数据的保存;8)继续运行,若尚未运行结束,返回步骤6),否则结束检查点放置。本发明克服了现有的多层检查点优化方法依赖于超级计算机的硬件特性,导致其往往不具备通用性的缺点。,下面是一种基于超级计算机的应用级多层检查点的优化方法专利的具体信息内容。
1.一种基于超级计算机的应用级多层检查点的优化方法,其特征在于,包括以下步骤:
1)探测待分配节点列表,若待分配节点中有节点出现故障,则采用空闲列表中的节点进行替换,替换前后所述节点的顺序不变;
2)读取检查点配置文件,获取检查点配置文件中三种故障类型发生的概率,确定各层检查点的放置时间序列;
所述故障类型包括由于软件错误导致被提交任务的运行失败导致的故障、由于单个硬件节点故障导致被提交任务的运行失败导致的故障和由于多个硬件节点故障导致被提交任务的运行失败导致的故障;
3)根据检查点配置文件中的任务运行信息,采用基于超级计算机体系架构的划分规则对硬件节点及运行在所述节点上的进程进行组划分;
所述任务运行信息包括任务并行规模和每个硬件节点上运行的进程数;
4)在进程组内通过一次MPI通信确定组内缺失数据的进程,采用故障类型判定算法确定发生在缺失数据的进程中的故障类型;
5)针对故障类型,在硬件节点组内采用相应的恢复策略,将任务运行状态回滚至最近一次保存的状态;
6)当运行至检查点放置时间序列中对应的时间点时,采用相应的检查点策略完成中间状态数据的保存;
7)若尚未运行至最后时间点,返回步骤6);否则,结束运行。
2.根据权利要求1所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,步骤1)的具体操作为:
定义待分配节点列表为worklist,空闲节点列表为sparelist;
在提交任务之前,采用ping程序对worklist中的所有待分配节点进行检测,若待分配节点无法ping通,则采用sparelist中的节点对故障节点进行替换;
完成所有故障节点的替换后,利用更新后的worklist进行任务提交。
3.根据权利要求1所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,在步骤2)中确定各层检查点的放置时间序列,具体包括以下步骤:
201)定义三种故障类型分别为level、level2、level3,并且发生概率分别对应为:{p1,p2,p3};
202)定义e1为发生level1故障,e2为发生level2故障,e3为发生level3故障,结合{p1,p2,p3),采用如下故障发生时间序列:
...,e3,e1,e1,e1,e2,e1,e1,e1,e2,e1,e1,e1,e3,e1,...
203)定义s1为设置level1故障对应的检查点事件,s2为设置level2故障对应的检查点事件,s3为设置level1对应的检查点事件,对应多层检查点时间序列为:
...,s3,s1,s1,s1,s2,s1,s1,s1,s2,s1,s1,s1,s3,s1,...。
4.根据权利要求1所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,在步骤3)中,对硬件节点进行组划分的规则为:
定义每个硬件节点上运行p个计算进程,在提交slurm脚本时指定-n参数为p,在程序中体现为每个硬件节点上运行p个进程,此时硬件节点组划分演变为将m个计算进程划分在一个通信组中;
对运行在所述节点上的进程进行组划分的规则为:
在硬件节点组中,将运行在硬件节点上的p个计算进程划分到不同进程组中,每个进程组包含m/p个进程。
5.根据权利要求1所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,在步骤4)中,采用故障类型判定算法确定发生在缺失数据的进程中的故障类型,包括以下步骤:
401)打开进程在硬件节点上对应的共享内存区域,读取位于共享内存区域头部的1字节数据,若该数据为‘*’,则该进程的检查点数据有效,设置has_lost标志位为0;
若该数据为‘#’,则该进程的检查点数据无效,设置has_lost标志位为1;
402)在进程组内对has_lost标志位采用MPI_Allreduce函数进行累加,若has_lost在累加操作之后依旧为0,则说明没有发生硬件节点故障,此时故障类型为level1;
403)定义单进程组内最大容错数为M,若has_lost不为0,且has_lost小于等于M,此时故障类型为level2;
404)若hash_lost大于M,此时故障类型为level3。
6.根据权利要求5所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,在步骤5)中的恢复策略包括以下三种:
1)若故障类型为level1,此时共享内存中的数据全部有效,各个进程直接读取共享内存中保存的数据即可完成恢复;
2)若故障类型为level2,此时共享内存中的数据出现缺失,对出现数据缺失的进程采用RAID5编码策略进行恢复;
3)若故障类型为level3,此时出现多份共享内存的数据缺失,采用并行IO策略进行恢复。
7.根据权利要求6所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,第二种恢复策略中,采用RAID5编码策略进行恢复的操作为:
确定出现了数据缺失的进程;
在该进程对应的进程组内进行一次MPI_Reduce操作进行数据恢复。
8.根据权利要求6所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,第三种恢复策略中,采用并行IO策略进行恢复的操作为:
在进程组内各个进程根据访问文件偏移量创建文件视图,并从超级计算机的lustre文件系统中按照各进程文件视图读取进程组文件,完成数据恢复。
9.根据权利要求6所述的基于超级计算机的应用级多层检查点的优化方法,其特征在于,在步骤6)中,采用相应的检查点策略完成中间状态数据的保存具体如下:
1)对于s1检查点事件,设置共享内存中的标志位为0,使用memcpy将进程的中间状态数据保存到共享内存中,保存完毕后,将该标志位置为1,完成一次检查点的设置;
2)对于s2检查点事件,设置共享内存中的标志位为0,使用memcpy将进程的中间状态数据保存到共享内存中,保存完毕后,对位于共享内存中的数据进行条带划分,条带数目为进程组大小,在进程组内进行一次MPI_Reduce通信,完成RAID5校验和计算,进程组内每个进程分别保存不同条带的校验和,最后设置标志位为1,完成一次检查点的设置;
3)对于s3检查点事件,进程组内各个进程建立独立的文件视图,各进程按照文件视图指定的访问位置将进程数据保存到进程组文件中,完成一次检查点的设置。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种结合负载均衡的工作流回填方法 | 2020-05-08 | 536 |
高性能计算平台与智慧校园融合系统及实现方法 | 2020-05-08 | 460 |
空间智能飞行器云边协同信息处理架构 | 2020-05-15 | 671 |
用于支持边缘计算的超融合服务器系统 | 2020-05-18 | 353 |
一种分簇QoS路由设计方法 | 2020-05-08 | 266 |
一种车路驾驶任务智能化分配系统和方法 | 2020-05-13 | 172 |
一种基于GPU并行的LeapfrogADI-FDTD方法 | 2020-05-14 | 427 |
一种基于区块链的物联网设备认证方法 | 2020-05-17 | 341 |
高性能计算环境中的序列优化 | 2020-05-19 | 284 |
一种缺省的OpenMP调度策略 | 2020-05-16 | 778 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。