首页 / 专利库 / 人工智能 / 状态空间 / 一种逆向深度强化学习的电力通信设备测试资源调度方法

一种逆向深度强化学习的电通信设备测试资源调度方法

阅读:122发布:2020-05-11

专利汇可以提供一种逆向深度强化学习的电通信设备测试资源调度方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种逆向深度 强化学习 的电 力 通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论,分析了基于边缘计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间以及通信时间,采用深度逆向强化学习 算法 框架 ,设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法,提高测试资源利用率。,下面是一种逆向深度强化学习的电通信设备测试资源调度方法专利的具体信息内容。

1.一种逆向深度强化学习的电通信设备测试资源调度方法,其特征在于,该方法具体包括如下步骤:
步骤A,分析基于移动边缘计算的电力信息通信设备计算卸载模型。
步骤B,根据步骤A资源模型的分析,构建基于逆向深度强化学习的资源调度算法模型,并且综合利用已有较好回报值的专家决策数据作为强化学习初始的策略函数样本;
步骤C,综合分析电力信息通信设备计算卸载环境与资源调度算法方案,确定深度强化学习与测试环境交互的状态、动作、奖励等值;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,构建算法流程;
步骤E,最后设计基于逆向深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
其中,步骤A具体包括:
A1,分析基于移动边缘计算的电力信息通信设备自动化计算卸载模型,若进行计算卸载,可分为3个阶段,电力信息数据上传阶段,在移动边缘服务器计算阶段,计算结果回传阶段;若未成功进行计算卸载,则需本地计算。
A2,假设当前需要服务的电力设备数为N,每个设备需要服务信息总量为Lk,其为二进制卸载,其中an表示卸载指标,an=0表示未卸载,an=1表示卸载到服务器。
A3,电力数据上传阶段:设模型为一个服务器,多个电力系统设备,服务器为电力设备提供边缘计算。电力系统设备n的传输速率表示为: 其中pn为用户n的
发射功率,hn为用户n到服务器的信道增益,N0表示噪声。
A4,若电力设备本地计算,则所需时间表示为: 其中,bn表示电力设备计算
1bit数据所需的CPU周期数,fn表示电力设备的CPU周期频率。计算所消耗的能量表示为:
Enloc=μ(fn)2Lnbn若电力设备将任务上传到服务器进行边缘计算,由于结果数据量很小,忽略结果回传时间及能耗。则所需时间由上行传输时间和边缘计算时间构成,所需时间表示为: 其中bMEC表示MEC计算1bit数据所需的CPU周期数,fMEC表示MEC的CPU周期频率。消耗能量表示为:
A5,由上述步骤可知,系统的时间成本表示为:
系统的能耗成本表示为:
其中,步骤B具体包括:
B1,将基于电力通信设备的移动边缘计算的资源调度算法模型分为环境模和逆向深度强化学习训练模块,环境模块包括任务分配、功率分配,计算资源分配等状态,逆向深度强化学习训练模块采用专家高回报示例函数与深度强化学习相结合的模式;
B2,采用逆向深度强化学习时,需要收集一些专家的数据,智能体
通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数,训练时,智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确;
B3,智能体通过学习到的回报函数,使得该回报函数下的所得最优策略在专家的示例策略附近,其中回报函数定义为R(s),参数化的K个特征函数φk(s,a)的和回报函数中的参数为θ。策略π的值函数表示为
B4,提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,进而来更新参数来获得最优的策略,直到达到训练终止条件获得最优的专家策略。
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况等,例如计算任务的输入位,任务n的计算需求,通信设备与基站之间的功率分配,令S定义为状态空间,在t时刻的系统状态st∈S定义为
st={z1(t),z2(t),…zN(t),d1(t),d2(t)…,dN(t),p1(t),p2(t)…pn(t)}
C2,设置动作at,智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少,设置动作空间为at={a1(t),a2(t),…aN(t),b1(t),b2(t),…bN(t)}。
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算和传输任务传输时延,以及过程中所消耗的能耗,将其可表示为线性组合的方法rt=-(ρcptcp+ρcaEcP),其中代表电力通信设备在进行计算卸载时的总成本消耗,其中ccp为总的时间成本,Ecp为总的能耗成本,r越小表示资源利用率越高,时延越小,能耗越小,代表资源调度效果越好,训练模型获得奖励越高。
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。策略梯度函数为:
策略参数梯度下降更新函数为:
其中,步骤E具体包括:
E1,测试人员将计算任务提交到基于移动边缘计算的软件自动化测试平台,资源调度系统提取计算任务需求Ln;
E2,智能体根据电力设备进行计算的已有的专家数据进行学习示例函数,并通过深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v;
E3,执行训练。智能体与分别与环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv;
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax;
E7,获得最优资源分配策略。

说明书全文

一种逆向深度强化学习的电通信设备测试资源调度方法

技术领域

[0001] 本发明属于电力领域,尤其涉及电力信息通信设备测试资源调度方法。

背景技术

[0002] 随着智能电网的发展,通信设备对于泛在电力物联网的运行以及维护起到了决定性的作用,其性能的好坏直接影响网络的安全性和稳定性;传统的通信设备测试也向分布式的通信设备节点测试发展。传统的通信设备测试往往采用人工的方式,费时、费力,同时测试的结果也不准确。

发明内容

[0003] (一)要解决的技术问题
[0004] 为了提高电力信息通信设备测试效率,本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。本发明采用多接入边缘计算方式,利用逆向深度强化学习理论,利用历史上分配和调度的专家数据,增强了调度方法的收敛性,有效的降低了测试时间,提高了测试精度
[0005] (二)技术方案
[0006] 一种逆向深度强化学习的电力通信设备测试资源调度方法,其具体包括如下步骤:
[0007] 步骤A,分析基于移动边缘计算的电力信息通信设备计算卸载模型。
[0008] 步骤B,根据步骤A资源模型的分析,构建基于逆向深度强化学习的资源调度算法模型,并且综合利用已有较好回报值的专家决策数据作为强化学习初始的策略函数样本;
[0009] 步骤C,综合分析电力信息通信设备计算卸载环境与资源调度算法方案,确定深度强化学习与测试环境交互的状态、动作、奖励等值;
[0010] 步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,构建算法流程;
[0011] 步骤E,最后设计基于逆向深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
[0012] 其中,步骤A具体包括:
[0013] A1,分析基于移动边缘计算的电力信息通信设备自动化计算卸载模型,若进行计算卸载,可分为3个阶段,电力信息数据上传阶段,在移动边缘服务器计算阶段,计算结果回传阶段;若未成功进行计算卸载,则需本地计算。
[0014] A2,假设当前需要服务的电力设备数为N,每个设备需要服务信息总量为Lk,其为二进制卸载,其中an表示卸载指标,an=0表示未卸载,an=1表示卸载到服务器。
[0015] A3,电力数据上传阶段:设模型为一个服务器,多个电力系统设备,服务器为电力设备提供边缘计算。电力系统设备n的传输速率表示为: 其中pn为用户n的发射功率,hn为用户n到服务器的信道增益,N0表示噪声。
[0016] A4,若电力设备本地计算,则所需时间表示为: 其中,bn表示电力设备计算1bit数据所需的CPU周期数,fn表示电力设备的CPU周期频率。计算所消耗的能量表示为:Enloc=μ(fn)2Lnbn若电力设备将任务上传到服务器进行边缘计算,由于结果数据量很小,忽略结果回传时间及能耗。则所需时间由上行传输时间和边缘计算时间构成,所需时间表示为: 其中bMEC表示MEC计算1bit数据所需的CPU周期数,fMEC表示MEC的CPU
周期频率。消耗能量表示为:
[0017] A5,由上述步骤可知,系统的时间成本表示为:系统的能耗成本表示为:
[0018] 其中,步骤B具体包括:
[0019] B1,将基于电力通信设备的移动边缘计算的资源调度算法模型分为环境模和逆向深度强化学习训练模块,环境模块包括任务分配、功率分配,计算资源分配等状态,逆向深度强化学习训练模块采用专家高回报示例函数与深度强化学习相结合的模式;
[0020] B2,采用逆向深度强化学习时,需要收集一些专家的数据,智能体
[0021] 通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数。训练时,智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确;
[0022] B3,智能体通过学习到的回报函数,使得该回报函数下的所得最优策略在专家的示例策略附近,其中回报函数定义为R(s),参数化的K个特征函数φk(s,a)的和回报函数中的参数为θ。策略π的值函数表示为
[0023]
[0024] B4,提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,进而来更新参数来获得最优的策略,直到达到训练终止条件获得最优的专家策略。
[0025] 其中,步骤C具体包括:
[0026] C1,设置状态st,指具体测试任务资源配置情况等,例如计算任务的输入位,任务n的计算需求,通信设备与基站之间的功率分配,令S定义为状态空间,在t时刻的系统状态st∈S定义为
[0027] st={z1(t),z2(t),…zN(t),d1(t),d2(t)…,dN(t),p1(t),p2(t)…pn(t)}[0028] C2,设置动作at,:智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少,设置动作空间为at={a1(t),a2(t),…aN(t),b1(t),b2(t),…bN(t)}。
[0029] C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算和传输任务传输时延,以及过程中所消耗的能耗,将其可表示为线性组合的方法rt=-(ρcptcp+ρcaEcP),其中代表电力通信设备在进行计算卸载时的总成本消耗,其中ccp为总的时间成本,Ecp为总的能耗成本。r越小表示资源利用率越高,时延越小,能耗越小,代表资源调度效果越好,训练模型获得奖励越高。
[0030] 其中,步骤D具体包括:
[0031] D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
[0032] A(s,t)=Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
[0033] 其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
[0034] D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。
[0035] 策略梯度函数为:
[0036]
[0037] 策略参数梯度下降更新函数为:
[0038] θ=θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))
[0039] 其中,步骤E具体包括:
[0040] E1,测试人员将计算任务提交到基于移动边缘计算的软件自动化测试平台,资源调度系统提取计算任务需求Ln;
[0041] E2,智能体根据电力设备进行计算的已有的专家数据进行学习示例函数,并通过深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v;
[0042] E3,执行训练。智能体与分别与环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
[0043] E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
[0044] E5,异步更新全局网络参数θ←dθ、θv←dθv;
[0045] E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax;
[0046] E7,获得最优资源分配策略。
[0047] (三)有益效果
[0048] 本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论,分析了基于边缘计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间以及通信时间,采用深度逆向强化学习算法框架,设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法,提高测试资源利用率。附图说明
[0049] 图1本发明实施例的方法流程图

具体实施方式

[0050] 为了提高电力信息通信设备测试效率,本发明公开了一种逆向深度强化学习的电力通信设备测试资源调度方法。该方法首次采用逆向深度强化学习相关理论,分析了基于边缘计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间以及通信时间,采用深度逆向强化学习算法框架,设计了一种电力信息通信设备自动化测试移动边缘计算资源动态调度方法,提高测试资源利用率。
[0051] 也就是说,本发明采用多接入边缘计算方式,利用逆向深度强化学习理论,利用历史上分配和调度的专家数据,增强了调度方法的收敛性,有效的降低了测试时间,提高了测试精度。
[0052] 如图1所示,一种逆向深度强化学习的电力通信设备测试资源调度方法,其具体包括如下步骤:
[0053] 其具体包括如下步骤:
[0054] 步骤A,分析基于移动边缘计算的电力信息通信设备计算卸载模型。
[0055] 步骤B,根据步骤A资源模型的分析,构建基于逆向深度强化学习的资源调度算法模型,并且综合利用已有较好回报值的专家决策数据作为强化学习初始的策略函数样本;
[0056] 步骤C,综合分析电力信息通信设备计算卸载环境与资源调度算法方案,确定深度强化学习与测试环境交互的状态、动作、奖励等值;
[0057] 步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,构建算法流程;
[0058] 步骤E,最后设计基于逆向深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
[0059] 其中,步骤A具体包括:
[0060] A1,分析基于移动边缘计算的电力信息通信设备自动化计算卸载模型,若进行计算卸载,可分为3个阶段,电力信息数据上传阶段,在移动边缘服务器计算阶段,计算结果回传阶段;若未成功进行计算卸载,则需本地计算。
[0061] A2,假设当前需要服务的电力设备数为N,每个设备需要服务信息总量为Lk,其为二进制卸载,其中an表示卸载指标,an=0表示未卸载,an=1表示卸载到服务器。
[0062] A3,电力数据上传阶段:设模型为一个服务器,多个电力系统设备,服务器为电力设备提供边缘计算。电力系统设备n的传输速率表示为: 其中pn为用户n的发射功率,hn为用户n到服务器的信道增益,N0表示噪声。
[0063] A4,若电力设备本地计算,则所需时间表示为: 其中,bn表示电力设备计算1bit数据所需的CPU周期数,fn表示电力设备的CPU周期频率。计算所消耗的能量表示为:Enloc=μ(fn)2Lnbn若电力设备将任务上传到服务器进行边缘计算,由于结果数据量很小,忽略结果回传时间及能耗。则所需时间由上行传输时间和边缘计算时间构成,所需时间表示为: 其中bMEC表示MEC计算1bit数据所需的CPU周期数,fMEC表示MEC的CPU
周期频率。消耗能量表示为:
[0064] A5,由上述步骤可知,系统的时间成本表示为:系统的能耗成本表示为:
[0065] 其中,步骤B具体包括:
[0066] B1,将基于电力通信设备的移动边缘计算的资源调度算法模型分为环境模块和逆向深度强化学习训练模块,环境模块包括任务分配、功率分配,计算资源分配等状态,逆向深度强化学习训练模块采用专家高回报示例函数与深度强化学习相结合的模式;
[0067] B2,采用逆向深度强化学习时,需要收集一些专家的数据,智能体通过从专家示例中学习到回报函数作为深度强化学习初始数据的策略函数。训练时,智能体分别与通信设备计算卸载环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确;
[0068] B3,智能体通过学习到的回报函数,使得该回报函数下的所得最优策略在专家的示例策略附近,其中回报函数定义为R(s),参数化的K个特征函数φk(s,a)的和回报函数中的参数为θ。策略π的值函数表示为
[0069]
[0070] B4,提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,进而来更新参数来获得最优的策略,直到达到训练终止条件获得最优的专家策略。
[0071] 其中,步骤C具体包括:
[0072] C1,设置状态st,指具体测试任务资源配置情况等,例如计算任务的输入位,任务n的计算需求,通信设备与基站之间的功率分配,令S定义为状态空间,在t时刻的系统状态st∈S定义为
[0073] st={z1(t),z2(t),…zN(t),d1(t),d2(t)…,dN(t),p1(t),p2(t)…pn(t)}[0074] C2,设置动作at,:智能体将会对如何为N个电力设备是在本地计算还是在移动边缘服务器计算,执行计算任务的多少,设置动作空间为at={a1(t),a2(t),…aN(t),b1(t),b2(t),…bN(t)}。
[0075] C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算和传输任务传输时延,以及过程中所消耗的能耗,将其可表示为线性组合的方法rt=-(ρcptcp+ρcaEcP),其中代表电力通信设备在进行计算卸载时的总成本消耗,其中ccp为总的时间成本,Ecp为总的能耗成本。r越小表示资源利用率越高,时延越小,能耗越小,代表资源调度效果越好,训练模型获得奖励越高。
[0076] 其中,步骤D具体包括:
[0077] D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
[0078] A(s,t)=Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
[0079] 其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
[0080] D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。
[0081] 策略梯度函数为:
[0082]
[0083] 策略参数梯度下降更新函数为:
[0084] θ=θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))
[0085] 其中,步骤E具体包括:
[0086] E1,测试人员将计算任务提交到基于移动边缘计算的软件自动化测试平台,资源调度系统提取计算任务需求Ln;
[0087] E2,智能体根据电力设备进行计算的已有的专家数据进行学习示例函数,并通过深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v;
[0088] E3,执行训练。智能体与分别与环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
[0089] E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
[0090] E5,异步更新全局网络参数θ←dθ、θv←dθv;
[0091] E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax;
[0092] E7,获得最优资源分配策略。
[0093] 本发明采用多接入边缘计算方式,利用逆向深度强化学习理论,利用历史上分配和调度的专家数据,增强了调度方法的收敛性,有效的降低了测试时间,提高了测试精度。
[0094] 以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈