专利汇可以提供一种电力信息通信设备自动化测试资源调度方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于深度 强化学习 A3C(Actor-Critic Algorithm)的电 力 信息通信设备自动化测试资源调度方法。该方法首次采用深度强化学习A3C相关理论,分析了基于 云 计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间,采用A3C 算法 框架 ,设计了一种电力信息通信设备自动化测试云计算资源动态调度方法,提高测试资源利用率。,下面是一种电力信息通信设备自动化测试资源调度方法专利的具体信息内容。
1.一种电力信息通信设备自动化测试资源调度方法,其特征在于,基于深度强化学习A3C的电力信息通信设备自动化测试资源调度方法能够改善测试资源利用率,提高自动化测试效率,所述方法具体包括如下步骤:
步骤A,分析基于云计算的电力信息通信设备自动化测试平台架构,构建测试平台资源模型。
步骤B,根据步骤A测试平台及其资源模型的分析,构建基于深度强化学习A3C的资源调度算法模型;
步骤C,综合分析电力信息通信设备自动化测试环境与资源调度算法方案,确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励等值,以及智能体与全局网络神经网络交互更新策略;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,加快算法收敛;
步骤E,最后设计基于深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
其中,步骤A具体包括:
A1,分析基于云计算的电力信息通信设备自动化测试平台结构,其可分为用户层、管理层和资源层三层结构,测试人员提交测试任务后,管理层资源调度模块为任务分配相应的测试资源,测试资源由物理资源虚拟化产生;
A2,将基于云计算的测试资源虚拟机表示为Vm={Vm1,Vm2,...Vmn},每个虚拟机占有资源为Vmi={stoi,cali,bani},其中stoi表示虚拟存储,cali表示虚拟计算资源,bani表示虚拟链路带宽;
A3,物理资源层所拥有的物理机表示为Pm={Pm1,Pm2,...Pmn},每个物理机对应的物理资源表为Pmi={STOi,CALi,BANi},其中STOi表示物理存储资源,CALi表示物理存储资源,BANi表示实际的物理链路带宽;
A4,将电力信息通信设备自动化测试任务表示为Tt={t1,t2,...tl},假设每个测试项目有l个测试任务。根据任务资源需求,建立测试任务与虚拟机分配模型为其中dln表示针对测试任务tn调度虚拟机Vmn,如果软件测试项目任务
在此虚拟机上执行,则dln=1,否则为0。
其中,步骤B具体包括:
B1,将基于云计算的资源调度算法模型分为环境模块和A3C强化学习训练模块,环境模块包括测试任务、测试执行、测试资源和资源调度等状态,A3C训练模块采用多智能体与全局网络交互的训练模式;
B2,采用多个智能体进行多线程训练时,每个智能体分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确,然后将每个智能体学习到的参数异步更新到全局网络;
B3,全局网络根据多个智能体提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,再从全局网络获取更新参数,直到达到训练终止条件。
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况等,例如虚拟机CPU和存储器的数量分配情况,将其表示为st={ti,Vmi,Pmi},即测试任务和资源使用状态的集合;
C2,设置动作at,将其表示为at={dln|π},即在动作选取概率策略π(s)下采取的资源映射行为。
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算、存储、带宽资源利用率和测试任务传输时延,将其可表示为线性组合的方法 其中i代表物理机,j代表物理机上的存储、计
算和网络带宽资源;λj表示资源权重因子;Pmiju表示第i台物理机上已经使用的第j类资源,t
Pmij 表示第i台物理机上第j类资源总量;delay表示测试业务传输时延,r越大表示资源利用率越高,时延越小,资源调度效果越好,训练模型获得奖励越高。
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。策略梯度函数为:
策略参数梯度下降更新函数为:
其中,步骤E具体包括:
E1,测试人员将测试任务提交到基于云计算的软件自动化测试平台,资源调度系统提取测试任务需求ti,并感知资源状态;
E2,根据虚拟资源和测试任务等环境状态初始化深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v,全局共享迭代次数T等;
E3,执行训练。多个线程智能体与分别与测试环境环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv;
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax;
E7,获得最优资源分配策略。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
施工现场告警方法、装置、计算机设备和存储介质 | 2020-05-08 | 905 |
基于部分可观测迁移强化学习的自动驾驶决策方法及系统 | 2020-05-13 | 994 |
一种无感知高通量毫米波雷达安检装置及方法 | 2020-05-13 | 291 |
一种医用清洗工作站空气处理系统及其工作方法 | 2020-05-14 | 742 |
基于视觉显著性的HEVC优化算法 | 2020-05-08 | 689 |
一种基于自适应连接神经网络的图像处理方法及装置 | 2020-05-11 | 410 |
一种水田犁底层信息连续感知装置和方法 | 2020-05-11 | 286 |
基于深度学习的无监督端到端的驾驶环境感知方法 | 2020-05-08 | 86 |
一种基于深度卷积神经网络的激光雷达在线标定方法 | 2020-05-08 | 752 |
一种PVDF柔性压力传感器及其制备方法和系统 | 2020-05-12 | 482 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。