专利类型 | 发明公开 | 法律事件 | 公开; 实质审查; 授权; |
专利有效性 | 有效专利 | 当前状态 | 授权 |
申请号 | CN202411765072.5 | 申请日 | 2024-12-04 |
公开(公告)号 | CN119248514A | 公开(公告)日 | 2025-01-03 |
申请人 | 东南大学; 山西天河云计算有限公司; | 申请人类型 | 学校 |
发明人 | 杨雨露; 惠吉峰; 陆望东; 康卿飞; 王艳龙; 宋铁成; 胡静; | 第一发明人 | 杨雨露 |
权利人 | 东南大学,山西天河云计算有限公司 | 权利人类型 | 学校 |
当前权利人 | 东南大学,山西天河云计算有限公司 | 当前权利人类型 | 学校 |
省份 | 当前专利权人所在省份:江苏省 | 城市 | 当前专利权人所在城市:江苏省南京市 |
具体地址 | 当前专利权人所在详细地址:江苏省南京市江宁区东南大学路2号 | 邮编 | 当前专利权人邮编:211189 |
主IPC国际分类 | G06F9/50 | 所有IPC国际分类 | G06F9/50 ; G06F9/48 ; G05D1/00 |
专利引用数量 | 3 | 专利被引用数量 | 0 |
专利权利要求数量 | 10 | 专利文献类型 | A |
专利代理机构 | 南京苏高专利商标事务所 | 专利代理人 | 孟红梅; |
摘要 | 本 发明 提出一种基于深度 强化学习 的智慧 煤 矿算 力 调度方法与系统,方法包括:采掘工作面的设备终端产生实时计算任务,并将实时状态信息发送给 云 端;云端根据状态信息,建立最小化计算时间的算力调度优化模型,采用深度强化学习 算法 ,考虑终端设备的 位置 、任务需求、任务计算量、自身计算能力、信道条件以及边缘计算 服务器 ,形成云边端协同计算策略和无人机的调度方案,并将任务拆分方式、卸载策略、算力分配方案以及无人机 悬停 位置信息等下发至无人机和边缘计算服务器。本发明能够在深度强化学习训练结束后,形成高效的任务卸载和资源分配方案,有效减少采掘工作面计算任务的时延。 | ||
权利要求 | 1.一种基于深度强化学习的智慧煤矿算力调度方法,其特征在于,包括如下步骤: |
||
说明书全文 | 一种基于深度强化学习的智慧煤矿算力调度方法与系统技术领域[0001] 本发明涉及算力调度领域,尤其涉及一种矿山采掘工作面下基于深度强化学习的智慧煤矿算力调度方法与系统。 背景技术[0002] 智慧矿山采掘工作面采用了包括全景摄像机、麦克风阵列以及位置、环境、设备、人员、地质各类传感器进行数据的采集和整合,这些终端设备通过采集周围环境信息,向远程监控中心提供矿山工作面的实时状态,并且根据状态信息做出相应操作和实施反应。因此,面对智慧矿山的海量数据,如何实现超低时延计算,保证环境信息的新鲜度和操作的及时性,成为需要考虑的重点问题。 [0003] 为了满足数据密集型和时延敏感型任务的计算需求,移动边缘计算(Mobile Edge Computing, MEC)成为当前研究热点之一,边缘计算通过将计算资源下沉至更靠近终端的边缘计算服务器上,使终端设备能够将自身的计算任务卸载到边缘计算服务器处理,一方面可以弥补自身算力不足的限制,另一方面大大减少了数据传输至云端的时延,有效提升计算效率。在边缘计算架构中,云平台作为大脑,聚焦长周期、全局大数据的处理,而边缘侧作为中心云的触点延伸,聚焦实时、小数据的处理,灵活解决近实时业务需求,端侧聚焦于智能感知、数据采集、命令执行。然而,在煤矿工作面复杂场景下,通信信号存在覆盖盲区,且采掘过程中通信效果差,因此,采用无人机作为数据转发中继和小型计算服务器,利用无人机的灵活性和视距通信能力,为矿井下的边缘计算数据传输提供了有效的解决方案。 [0004] 边缘计算可以实现云边端的协同计算,然而系统中任务的拆分方式、终端的卸载决策以及有限算力资源的联合分配是亟需解决的问题,同时,由于无人机的灵活性,寻找最优的无人机部署位置和服务方式也成为了系统中的关键问题,现有的研究少有矿山采掘工作面使用无人机辅助边缘计算的研究,且现有算力资源调度方法不能做到资源的联合调度和分配。 发明内容[0005] 发明目的:针对现有技术存在的上述问题,本发明目的在于提出一种基于深度强化学习的智慧煤矿算力调度方法与系统,通过对智慧矿山采掘工作面的终端计算任务进行合理拆分,实现云边端算力的联合调度,满足数据密集型和时延敏感型任务的计算需求。 [0006] 技术方案:为实现上述发明目的,本发明采用如下技术方案:第一方面,本发明提供一种基于深度强化学习的智慧煤矿算力调度方法,包括如下步骤: 采掘工作面的终端设备产生实时计算任务,并将实时状态信息发送给云端;所述状态信息包括设备位置、任务需求、任务计算量、自身计算能力以及通信噪声; 云端周期性获取工作面的状态信息,建立包括终端设备、无人机和边缘计算服务器的通信和计算模型,进而建立最小化计算时间的算力调度优化模型; 云端建立马尔可夫决策过程描述算力调度过程,并训练深度强化学习模型; 云端使用训练完成的深度强化学习模型根据终端设备的实时状态信息形成任务拆分方式、卸载策略、算力分配方案和无人机悬停位置信息,并下发至无人机和边缘计算服务器。 [0007] 进一步地,所述最小化计算时间的算力调度优化模型的优化问题表示为:; 其中: ; t表示时隙,TMAX为优化问题考虑的时间上限,N表示终端设备数量, 表示终端设备n的任务需求, 越大表示任务的时延敏感性越高, 表示边缘计算服务器m的算力资源分配给终端设备n的比例, 表示终端设备n卸载的任务比例,表示终端设备n在本地计算的时间, 为指示函数,取值为 , 表示卸载决策, 表示终端设备n直接将任务传输给边缘 计算服务器, 表示终端设备n通过无人机的中继将任务卸载到边缘计算服务器计算, 表示终端设备n将任务卸载到无人机上计算, 、 和 分别表示终端设备n与边缘计算服务器m之间的通信时间、终端设备n通过无人机w中继到达边缘计算服务器m的通信时间,以及终端设备n与无人机w之间的通信时间,表示终端设备n将任务卸载到边缘计算服务器m所需的计算时间, 表示终 端设备n将任务卸载到无人机w所需的计算时间, 为N维向量,对应N个终端设备的任务拆分方式, 为N维向量,对应N个终端设备的任务卸载策略,F为MN维向量,对应M个边缘计算服务器的算力分配方案, 为3W维向量,对应W个无人机的最佳悬停位置。 [0008] 进一步地,对于终端设备n,任务在本地计算的时间表示为:; 其中, 表示任务计算量, 表示终端设备n计算能力; 当 或 时,终端设备n将任务卸载到边缘计算服务器m所需的计 算时间表示为: ; 其中, 为边缘计算服务器m计算能力; 当 时,终端设备n将任务卸载到无人机w所需的计算时间表示为: ; 其中, 为无人机w计算能力。 [0009] 进一步地,通信时间为卸载的任务计算量与通信速率的比值,其中通信速率根据信噪比计算,信噪比根据信道增益和信道噪声功率计算,信道增益根据通信双方的位置确定。 [0010] 进一步地,所述马尔可夫决策过程的状态空间包括终端设备的位置,终端设备的自身计算能力,边缘计算服务器的位置,边缘计算服务器的计算能力,无人机的计算能力,无人机的通信发射功率,终端设备的任务计算量,任务需求,终端设备的通信发射功率,以及自身环境中传输噪声功率;所述马尔可夫决策过程的动作空间 表示为 ;其中, 为4N 维向量,对应N个终端设备卸载策略的独热编码; 所述马尔可夫决策过程的奖励函数为采用所选算力调度方案后相对于任务全部由终端设备本地计算所节省的计算时间。 [0012] 第二方面,本发明提供一种基于深度强化学习的智慧煤矿算力调度系统,包括云端、部署在矿山工作面的终端设备、边缘计算服务器和无人机;所述终端设备,用于产生实时计算任务,并将实时状态信息发送给云端;所述状态信息包括设备位置、任务需求、任务计算量、自身计算能力以及通信噪声; 所述云端,用于周期性获取工作面的状态信息,建立包括终端设备、无人机和边缘计算服务器的通信和计算模型,进而建立最小化计算时间的算力调度优化模型;建立马尔可夫决策过程描述算力调度过程,并训练深度强化学习模型;以及使用训练完成的深度强化学习模型根据终端设备的实时状态信息形成任务拆分方式、卸载策略、算力分配方案和无人机悬停位置信息,并下发至无人机和边缘计算服务器。 [0013] 有益效果:本发明提出一种基于深度强化学习的智慧煤矿算力调度方法,该方法针对无人机辅助的云边端算力架构,在智慧煤矿应用场景下,对采掘工作面的感知设备产生的数据运算需求进行合理划分,并实现云边端算力的联合分配,优化无人机的悬停位置,满足数据密集型和时延敏感型任务的计算需求。系统中边缘计算服务器可以部署在巷道内,为井下工作设备提供计算资源,无人机设备作为中继设备和小型计算服务器,能够解决矿井环境复杂多变,信号覆盖范围受限的问题,为井下设备提供通信和计算服务。本发明使用的深度强化学习进行算力调度的方法可以有效地减少用户终端任务计算时延,且在复杂度和性能之间取得了很好的平衡。综上所述,智慧矿山采掘工作面无人机辅助的边缘计算场景下,本发明提出的一种基于深度强化学习的算力调度方法在减少用户终端任务计算时延的方面是优越的。附图说明 [0015] 图2为本发明实施例中深度强化学习算法训练过程的示意图。 具体实施方式[0016] 下面结合附图和具体实施例对本发明的技术方案进行进一步说明本发明的核心思想在于:在智慧矿山采掘工作面边缘计算的应用场景中采用无人机进行辅助数据传输和任务计算,提出一种基于深度强化学习的智慧煤矿算力调度方法,对采掘工作面的感知设备产生的数据运算需求进行合理拆分,并优化任务卸载策略和算力分配方案,优化无人机的悬停位置,满足数据密集型和时延敏感型任务的计算需求。具体地,在智慧矿山部署包括中心云平台、边缘计算服务器、无人机以及终端设备在内的边缘计算系统架构,其中云平台负责进行系统的管理和长周期大数据的处理,边缘计算服务器负责对终端设备实时计算任务的卸载和计算,无人机作为数据传输中介和小型计算服务器辅助矿井复杂环境下计算任务的卸载,终端设备进行实时数据的感知和产生计算数据。 [0017] 如图1所示,本发明实施例公开的一种基于深度强化学习的智慧煤矿算力调度方法,步骤如下:(1)采掘工作面的终端设备产生实时计算任务,并将实时状态信息发送给云端;所述状态信息包括设备位置、任务需求、任务计算量、自身计算能力以及通信噪声等。 [0018] (2)云端周期性获取工作面的状态信息。 [0019] (3)云端建立包括终端设备、无人机和边缘计算服务器的通信和计算模型,进而建立最小化计算时间的算力调度优化模型。 [0020] (4)云端建立马尔可夫决策过程描述算力调度过程,定义其状态空间,动作空间,以及奖励函数。 [0021] (5)在云端基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法训练深度强化学习模型。 [0022] (6)在执行阶段,云端使用训练完成的深度强化学习模型根据终端设备的实时状态信息形成任务拆分方式、卸载策略、算力分配方案和无人机悬停位置信息,并下发至无人机和边缘计算服务器。 [0023] (7)无人机和边缘计算服务器进行命令的执行。 [0024] 本实施例中,步骤(3)包括如下具体步骤:(3a)建立矿山采掘工作面下的边缘计算模型,系统包括N个终端设备,W个无人机和M个边缘计算服务器,分别表示为集合 , , ,终端设备n的位置表示为 ,通信发射功率为 ,计算能力为 ,单位为bit/s。无人机w的位置表示为 ,通信发射功率为 ,计算能力为 。边缘计 算服务器m的位置表示为 ,计算能力为 。将时间离散化为长度为 的时 隙,终端设备在时隙t产生的任务计算量记为 ,单位为bit,任务需求定义为 ,其中, 表示任务的紧急程度, 越大表示当前任务的时延敏感性越高,希 望能够尽快计算完成。在任务卸载阶段,计算任务可以被部分卸载到边缘计算服务器上进行计算,部分留在终端设备上计算,任务拆分方式用 表示, 表示终端设 备n卸载的任务比例。卸载决策用 表示, ;其中, 表示终端 设备n的计算任务全部在本地执行, 表示终端设备n直接将任务传输给边缘计算服务器, 表示终端设备n通过无人机的中继将任务卸载到边缘计算服务器计算,表示终端设备n将任务卸载到无人机上计算。由于无人机可搭载的算力有限,本实施例中假设同一时刻无人机只能承担一个计算任务,而对于边缘计算服务器,由于多个边缘计算服务器进行了任务卸载,则需要进行计算资源的分配。对于边缘计算服务器m,算力资源的分配比例表示为 ,为了充分使用算力资源,有 。 [0025] (3b)建立系统通信模型,终端设备n与边缘计算服务器m之间的通信速率表示为:; 其中,B为通信带宽, 为终端设备n与边缘计算服务器m之间的信噪比, 表示为: ; 其中, 表示终端设备与边缘计算服务器之间传输信道噪声功率, 表 示信道增益,计算方式如下: ; 其中, 为衰减系数, 为路径损耗指数, 表示二范数。因此,对于 , 任务终端设备n与边缘计算服务器m之间的通信时间表示为: ; 同理,可以计算得到终端设备n通过无人机w与边缘计算服务器m之间、终端设备n与无人机w之间的通信时间,分别表示为 和 。 [0026] 由于计算结果的数据量相较于原始数据较小,所以计算结果的返回时间可以忽略不计。 [0027] (3c)建立系统计算模型,对于终端设备n,任务在本地计算的时间可以表示为:; 当 或 时,终端设备n将任务卸载到边缘计算服务器m所需的计 算时间表示为: ; 当 时,终端设备n将任务卸载到无人机w计算所需的时间表示为: ; 当任务的所有部分计算完成时认为该任务计算完成,因此本实施例定义任务的完成时间为该任务所有部分的完成时间的最大值,表示为: ; 其中, 为指示函数,取值为 。 [0028] (3d)建立最小化计算时间的算力调度优化模型,综上所述,可以将优化问题表示为:; 其中, 为N维向量,对应N个终端设备的任务拆分方式, 为N维向量,对应N个终端设备的任务卸载策略,F为MN维向量,对应M个边缘计算服务器的算力分配方案, 为 3W维向量,对应W个无人机的最佳悬停位置。TMAX为优化问题考虑的时间上限。 [0029] 本实施例中,步骤(4)包括如下具体步骤:(4a)定义马尔可夫决策过程的状态空间 ,状态空间包括终端设备的位置,终端设备的自身计算能力,边缘计算服务器的位置,边缘计算服务器的计算能力,无人机的计算能力,无人机的通信发射功率,终端设备的任务计算量,任务需求,终端设备的通信发射功率,以及自身环境中传输噪声功率。因此,状态空间表示为: ; 其中, 分别为N个终端设备所有的位置、自身计算能力、计算 任务量、任务需求、通信发射功率、传输噪声功率组成的向量, 分别为M个边缘计算服务器的位置、计算能力组成的向量, 分别为W个无人机的计算能力、通信发射功率组成的向量。 [0030] (4b)定义马尔可夫决策过程的动作空间,该系统中对任务拆分方式、卸载策略、算力分配方案以及无人机悬停位置进行优化,因此动作空间为表示为:; 其中, 向量长度为4N,对应N个终端卸载决策的独热编码。 [0031] (4c)定义马尔可夫决策过程的奖励函数 ,为了最小化计算时间,定义奖励函数为采用当前动作网络输出的算力调度方案后对于当前任务节省的计算时间:; 其中, 为任务全部由本地计算而不进行计算卸载时所需花费的计算时 间,表示为: 。 [0032] 本实施例中,步骤(5)在云端基于DDPG算法训练深度强化学习模型,图2中描述了算法在训练阶段更新深度强化学习网络的流程,包括动作网络、评价网络、目标动作网络以及目标评价网络等四个网络。在其他一些实施例中也可采用其他深度强化学习算法,解决步骤(4)中描述的马尔可夫决策过程。 [0033] 基于DDPG算法训练深度强化学习模型,包括如下具体步骤:(5a)初始化数据缓冲区 ,评价网络、动作网络,以及目标评价网络、目标动作网络,网络参数分别表示为 , , 和 。 [0034] (5b)初始化回合数EPISODE和回合中的时隙t。 [0035] (5c)多智能体根据当前动作网络的输出和探索机制输出动作。 [0036] (5d)终端设备、无人机和边缘计算服务器执行动作,云端根据执行结果产生四元组 ,其中s为当前环境状态, 为执行的动作,r为执行后获得的奖励函数, 为下一时隙的环境状态,并且将四元组存储到 中。 [0037] (5e)当前状态更新为下一时隙的状态。 [0038] (5f)如果 中数据存满,则采样出所设批次数量BATCH_SIZE的四元组作为训练集开始训练深度强化学习模型。 [0039] (5g)将时隙t的环境状态 和动作 输入评价网络,得到时隙t的价值函数的预测值 ,简化表示为 。 [0040] (5h)使用目标动作网络计算下一时隙t+1的预测动作 ,用表示,并使用目标评价网络得到下一时隙t+1的预期价值函数 ,用 表示。 [0041] (5i)更新评价网络,损失函数表示为:; 其中,S为缓冲区大小,MSE表示均方误差函数, 为时隙t的实际奖励函数, 为衰减因子。 [0042] (5j)使用动作网络根据时隙t的环境状态 输出一组动作,用 表示,并使用评价网络输出与动作网络所给出的预测动作相对应的价值函数,为区别于将真实环境和动作作为输入时的输出,这里将输出表示为 ,简化表 示为 。 [0043] (5k)更新动作网络,动作网络的损失函数为步骤(5j)中评价网络的输出 ,通过对动作网络的输入 求偏导数得到网络参数更新方向。 [0044] (5l)为了保证训练的稳定性,对目标网络参数 和 进行软更新,更新步长系数为 ,更新后的网络参数取值为:。 [0045] (5m)判断EPISODE和时隙t是否小于训练总时间长度,若是,则进入步骤(5c),否则结束训练。 [0046] 综上,本发明实施例的算力调度方法,通过对矿山环境下计算资源的合理利用和无人机的合理部署,能够保证海量数据的低时延计算,从而提高采矿工作面的安全性和生产效率。具体实施例时,可将深度强化学习网络部署在远端云平台,利用深度强化学习算法,通过收集智慧矿山工作面终端设备和边缘计算服务器的状态信息,产生任务拆分方式、卸载策略、无人机悬停位置以及算力分配方案。在深度强化学习训练结束后,形成高效的云边端协同计算策略和无人机的调度方案,有效减少采掘工作面计算任务的时延。 [0047] 根据对本发明的说明,本领域的技术人员应该不难看出,本发明提出的基于深度强化学习的智慧煤矿算力调度方法,可以有效减少终端设备任务的计算时延,在复杂度和性能之间取得了很好的平衡。 [0048] 基于相同的发明构思,本发明实施例公开的一种基于深度强化学习的智慧煤矿算力调度系统,包括云端、部署在矿山工作面的终端设备、边缘计算服务器和无人机;所述终端设备,用于产生实时计算任务,并将实时状态信息发送给云端;所述状态信息包括设备位置、任务需求、任务计算量、自身计算能力以及通信噪声;所述云端,用于周期性获取工作面的状态信息,建立包括终端设备、无人机和边缘计算服务器的通信和计算模型,进而建立最小化计算时间的算力调度优化模型;建立马尔可夫决策过程描述算力调度过程,并训练深度强化学习模型;以及使用训练完成的深度强化学习模型根据终端设备的实时状态信息形成任务拆分方式、卸载策略、算力分配方案和无人机悬停位置信息,并下发至无人机和边缘计算服务器。 [0049] 具体最小化计算时间的算力调度优化模型建立和求解过程,参见前述方法实施例,不再赘述。本发明中未作详细描述的内容属于本领域专业技术人员公知的现有技术。 |