一种电力信息通信设备自动化测试资源调度方法专利检索-深度感知显示技术专利检索查询-专利查询网

一种电力信息通信设备自动化测试资源调度方法

阅读：530发布：2020-05-13

专利汇可以提供一种电力信息通信设备自动化测试资源调度方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于深度强化学习 A3C(Actor-Critic Algorithm)的电力信息通信设备自动化测试资源调度方法。该方法首次采用深度强化学习A3C相关理论，分析了基于云计算的通信设备中自动化测试资源需求，综合考虑资源调度时间和测试执行时间，采用A3C 算法框架，设计了一种电力信息通信设备自动化测试云计算资源动态调度方法，提高测试资源利用率。，下面是一种电力信息通信设备自动化测试资源调度方法专利的具体信息内容。

权利要求

1.一种电力信息通信设备自动化测试资源调度方法，其特征在于，基于深度强化学习A3C的电力信息通信设备自动化测试资源调度方法能够改善测试资源利用率，提高自动化测试效率，所述方法具体包括如下步骤：
步骤A，分析基于云计算的电力信息通信设备自动化测试平台架构，构建测试平台资源模型。
步骤B，根据步骤A测试平台及其资源模型的分析，构建基于深度强化学习A3C的资源调度算法模型；
步骤C，综合分析电力信息通信设备自动化测试环境与资源调度算法方案，确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励等值，以及智能体与全局网络神经网络交互更新策略；
步骤D，确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数，加快算法收敛；
步骤E，最后设计基于深度强化学习的资源分配算法具体流程，求解最优资源分配策略。
其中，步骤A具体包括：
A1，分析基于云计算的电力信息通信设备自动化测试平台结构，其可分为用户层、管理层和资源层三层结构，测试人员提交测试任务后，管理层资源调度模块为任务分配相应的测试资源，测试资源由物理资源虚拟化产生；
A2，将基于云计算的测试资源虚拟机表示为Vm＝{Vm1,Vm2,...Vmn}，每个虚拟机占有资源为Vmi＝{stoi,cali,bani}，其中stoi表示虚拟存储，cali表示虚拟计算资源，bani表示虚拟链路带宽；
A3，物理资源层所拥有的物理机表示为Pm＝{Pm1,Pm2,...Pmn}，每个物理机对应的物理资源表为Pmi＝{STOi,CALi,BANi}，其中STOi表示物理存储资源，CALi表示物理存储资源，BANi表示实际的物理链路带宽；
A4，将电力信息通信设备自动化测试任务表示为Tt＝{t1,t2,...tl}，假设每个测试项目有l个测试任务。根据任务资源需求，建立测试任务与虚拟机分配模型为其中dln表示针对测试任务tn调度虚拟机Vmn，如果软件测试项目任务
在此虚拟机上执行，则dln＝1，否则为0。
其中，步骤B具体包括：
B1，将基于云计算的资源调度算法模型分为环境模块和A3C强化学习训练模块，环境模块包括测试任务、测试执行、测试资源和资源调度等状态，A3C训练模块采用多智能体与全局网络交互的训练模式；
B2，采用多个智能体进行多线程训练时，每个智能体分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练，计算优化各自的策略函数和值函数，使策略表现更加准确，然后将每个智能体学习到的参数异步更新到全局网络；
B3，全局网络根据多个智能体提供的参数更新本体策略值函数，智能体下一次与环境交互学习时，再从全局网络获取更新参数，直到达到训练终止条件。
其中，步骤C具体包括：
C1，设置状态st，指具体测试任务资源配置情况等，例如虚拟机CPU和存储器的数量分配情况，将其表示为st＝{ti,Vmi,Pmi}，即测试任务和资源使用状态的集合；
C2，设置动作at，将其表示为at＝{dln|π}，即在动作选取概率策略π(s)下采取的资源映射行为。
C3，设置奖励r，指资源调度系统采取深度强化学习算法下发的动作后获得的回报，为降低复杂度，本发明只考虑计算、存储、带宽资源利用率和测试任务传输时延，将其可表示为线性组合的方法其中i代表物理机，j代表物理机上的存储、计
算和网络带宽资源；λj表示资源权重因子；Pmiju表示第i台物理机上已经使用的第j类资源，t
Pmij 表示第i台物理机上第j类资源总量；delay表示测试业务传输时延，r越大表示资源利用率越高，时延越小，资源调度效果越好，训练模型获得奖励越高。
其中，步骤D具体包括：
D1，算法训练使用n步采样来加快收敛，采用优势函数评估策略，通过评论家网络产生，表示为：
A(s,t)＝Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
其中，γ表示衰减因子，取值(0，1)；n表示状态特征维度；A表示动作集；c表示策略π的熵项熵系数；t表示时间序列；R表示每个动作总回报；V(s)表示输入状态价值函数。
D2，通过更新策略梯度函数，使总回报期望上升，寻找最优策略。策略梯度函数为：
策略参数梯度下降更新函数为：
其中，步骤E具体包括：
E1，测试人员将测试任务提交到基于云计算的软件自动化测试平台，资源调度系统提取测试任务需求ti，并感知资源状态；
E2，根据虚拟资源和测试任务等环境状态初始化深度强化学习模型，主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv，线程智能体网络策略函数和状态值函数参数θ′、θ′v，全局共享迭代次数T等；
E3，执行训练。多个线程智能体与分别与测试环境环境进行状态和动作交互，实施资源分配动作，获得奖励rt和新状态st+1，生成训练数据样本(s,a,r)；
E4，根据奖励回馈，调整资源分配动作，累计n步梯度更新；
E5，异步更新全局网络参数θ←dθ、θv←dθv；
E6，循环迭代训练，直到最大迭代次数Tmax，获得最大奖励Rmax；
E7，获得最优资源分配策略。

说明书全文

一种电力信息通信设备自动化测试资源调度方法

技术领域

[0001] 本发明属于自动化测试领域，尤其涉及电力信息通信设备自动化测试资源调度方法。

背景技术

[0002] 随着智能电网的发展，电力信息通信业务对数据传输网可靠性要求不断提高。电力信息通信设备作为数据网的关键节点，其功能和性能指标直接影响通信质量，部署前需对其进行严格测试。传统人工测试耗费巨大的人力物力资源，且部分测试任务无法完成。随后，传统自动化测试技术被采用，弥补了手工测试过于耗费人力的不足，但测试时需要按需搭建物理测试环境，资源利用率低。目前采用基于云计算的自动化测试方法，云计算的弹性服务能力能够提高供便捷的测试访问，资源按需分配。为进一步提高测试资源利用率和测试效率，需进一步研究资源调度策略。

[0003] 目前针对云计算资源调度方案研究较多，但针对基于云计算的电力通信设备自动化测试资源调度研究很少。在现有研究中，云计算资源分配算法主要有蚁群算法、布谷鸟搜索算法、排队论算法、蛙跳算法、粒子群算法和萤火虫算法等传统资源调度方式。然而，在云计算分布式平台上安排多任务工作是一个NP难题，传统通过基于遍历的算法产生最佳策略非常耗时，算法本身执行也消耗较多的资源。

发明内容

[0004] (一)要解决的技术问题

[0005] 为了提高电力信息通信设备自动化测试资源利用率，发明人考虑到，深度强化学习能够有效地优化资源调度策略，使代理能够根据自己的经验确定理想行为，获得最优动作策略。其中A3C(异步优势演员评论家算法，Asynchronous advantage actor-critic)采用异步梯度下降优化神经网络，通过多线程学习方式，降低执行算法资源和时间开销，且能够提高训练样本的多样性，降低关联性。因此，本发明公开了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。

[0006] (二)技术方案

[0007] 为解决上述技术问题，本发明公开了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法，包括如下步骤：

[0008] 步骤A，分析基于云计算的电力信息通信设备自动化测试平台架构，构建测试平台资源模型。

[0009] 步骤B，根据步骤A测试平台及其资源模型的分析，构建基于深度强化学习A3C的资源调度算法模型；

[0010] 步骤C，综合分析电力信息通信设备自动化测试环境与资源调度算法方案，确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励等值，以及智能体与全局网络神经网络交互更新策略；

[0011] 步骤D，确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数，加快算法收敛；

[0012] 步骤E，最后设计基于深度强化学习的资源分配算法具体流程，求解最优资源分配策略。

[0013] 其中，步骤A具体包括：

[0014] A1，分析基于云计算的电力信息通信设备自动化测试平台结构，其可分为用户层、管理层和资源层三层结构，测试人员提交测试任务后，管理层资源调度模块为任务分配相应的测试资源，测试资源由物理资源虚拟化产生；

[0015] A2，将基于云计算的测试资源虚拟机表示为Vm＝{Vm1,Vm2,...Vmn}，每个虚拟机占有资源为Vmi＝{stoi,cali,bani}，其中stoi表示虚拟存储，cali表示虚拟计算资源，bani表示虚拟链路带宽；

[0016] A3，物理资源层所拥有的物理机表示为Pm＝{Pm1,Pm2,...Pmn}，每个物理机对应的物理资源表为Pmi＝{STOi,CALi,BANi}，其中STOi表示物理存储资源，CALi表示物理存储资源，BANi表示实际的物理链路带宽；

[0017] A4，将电力信息通信设备自动化测试任务表示为Tt＝{t1,t2,...tl}，假设每个测试项目有l个测试任务。根据任务资源需求，建立测试任务与虚拟机分配模型为其中dln表示针对测试任务tn调度虚拟机Vmn，如果软件测试项目任务在此虚拟机上执行，则dln＝1，否则为0。

[0018] 其中，步骤B具体包括：

[0019] B1，将基于云计算的资源调度算法模型分为环境模块和A3C强化学习训练模块，环境模块包括测试任务、测试执行、测试资源和资源调度等状态，A3C训练模块采用多智能体与全局网络交互的训练模式；

[0020] B2，采用多个智能体进行多线程训练时，每个智能体分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练，计算优化各自的策略函数和值函数，使策略表现更加准确，然后将每个智能体学习到的参数异步更新到全局网络；

[0021] B3，全局网络根据多个智能体提供的参数更新本体策略值函数，智能体下一次与环境交互学习时，再从全局网络获取更新参数，直到达到训练终止条件。

[0022] 其中，步骤C具体包括：

[0023] C1，设置状态st，指具体测试任务资源配置情况等，例如虚拟机CPU和存储器的数量分配情况，将其表示为st＝{ti,Vmi,Pmi}，即测试任务和资源使用状态的集合；

[0024] C2，设置动作at，将其表示为at＝{dln|π}，即在动作选取概率策略π(s)下采取的资源映射行为。

[0025] C3，设置奖励r，指资源调度系统采取深度强化学习算法下发的动作后获得的回报，为降低复杂度，本发明只考虑计算、存储、带宽资源利用率和测试任务传输时延，将其可表示为线性组合的方法其中i代表物理机，j代表物理机上的存储、计算和网络带宽资源；λj表示资源权重因子；Pmiju表示第i台物理机上已经使用的第j类资源，Pmijt表示第i台物理机上第j类资源总量；delay表示测试业务传输时延。r越大表示资源利用率越高，时延越小，资源调度效果越好，训练模型获得奖励越高。

[0026] 其中，步骤D具体包括：

[0027] D1，算法训练使用n步采样来加快收敛，采用优势函数评估策略，通过评论家网络产生，表示为：

[0028] A(s,t)＝Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)

[0029] 其中，γ表示衰减因子，取值(0，1)；n表示状态特征维度；A表示动作集；c表示策略π的熵项熵系数；t表示时间序列；R表示每个动作总回报；V(s)表示输入状态价值函数。

[0030] D2，通过更新策略梯度函数，使总回报期望上升，寻找最优策略。

[0031] 策略梯度函数为：

[0032]

[0033] 策略参数梯度下降更新函数为：

[0034] θ＝θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))

[0035] 其中，步骤E具体包括：

[0036] E1，测试人员将测试任务提交到基于云计算的软件自动化测试平台，资源调度系统提取测试任务需求ti，并感知资源状态；

[0037] E2，根据虚拟资源和测试任务等环境状态初始化深度强化学习模型，主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv，线程智能体网络策略函数和状态值函数参数θ′、θ′v，全局共享迭代次数T等；

[0038] E3，执行训练。多个线程智能体与分别与测试环境环境进行状态和动作交互，实施资源分配动作，获得奖励rt和新状态st+1，生成训练数据样本(s,a,r)；

[0039] E4，根据奖励回馈，调整资源分配动作，累计n步梯度更新；

[0040] E5，异步更新全局网络参数θ←dθ、θv←dθv；

[0041] E6，循环迭代训练，直到最大迭代次数Tmax，获得最大奖励Rmax；

[0042] E7，获得最优资源分配策略。

[0043] (三)有益效果

[0044] 为了提高电力信息通信设备自动化测试资源利用率，本发明提出了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。在综合考虑自动化测试计算、存储、带宽资源利用率和测试任务传输时延指标条件下，最大化测试资源利用率，减少测试任务传输时延，提高自动化测试效率，降低自动化测试成本。附图说明

[0045] 图1本发明实施例的方法流程图；

[0046] 图2本发明实施例的方法中测试资源模型构建流程图；

[0047] 图3本发明实施例的方法中基于深度强化学习资源调度算法框架。

[0048] 图4本发明实施例的方法中基于A3C的资源调度算法模型构建流程图；

[0049] 图5本发明实施例的方法中调度算法状态、动作、奖励设定流程；

[0050] 图6本发明实施例的方法中算法优势函数评估策略确定流程图；

[0051] 图7本发明实施例的方法中资源分配具体算法流程。

具体实施方式

[0052] 发明人考虑到，深度强化学习能够有效地优化资源调度策略，使代理能够根据自己的经验确定理想行为，获得最优动作策略。其中A3C(异步优势演员评论家算法，Asynchronous advantage actor-critic)采用异步梯度下降优化神经网络，通过多线程学习方式，降低执行算法资源和时间开销，且能够提高训练样本的多样性，降低关联性。

[0053] 因此，为了提高电力信息通信设备自动化测试资源利用率，本发明提出了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。在综合考虑自动化测试计算、存储、带宽资源利用率和测试任务传输时延指标条件下，最大化测试资源利用率，减少测试任务传输时延，提高自动化测试效率，降低自动化测试成本。

[0054] 本发明在基于云计算的电力信息通信设备自动化测试平台进行实现。配置基于深度强化学习的资源调度算法，提交多个交换机测试任务，上传测试项目相应的测试脚本，执行多任务并行测试方式。

[0055] 如图1所示，本发明公开了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法，包括如下步骤：

[0056] 步骤A，分析基于云计算的电力信息通信设备自动化测试平台架构，构建测试平台资源模型。

[0057] 步骤B，根据步骤A测试平台及其资源模型的分析，构建基于深度强化学习A3C的资源调度算法模型；

[0058] 步骤C，综合分析电力信息通信设备自动化测试环境与资源调度算法方案，确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励等值，以及智能体与全局网络神经网络交互更新策略；

[0059] 步骤D，确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数，加快算法收敛；

[0060] 步骤E，最后设计基于深度强化学习的资源分配算法具体流程，求解最优资源分配策略。

[0061] 下面结合附图和具体实施方式，对本发明做进一步说明。

[0062] 如图2所示，自动化测试平台资源模型建模具体步骤如下：

[0063] 步骤A1，分析基于云计算的电力信息通信设备自动化测试平台结构；

[0064] 步骤A2，确定基于云计算的测试资源虚拟机Vm＝{Vm1,Vm2,...Vmn}，以及每个虚拟机占有资源Vmi＝{stoi,cali,bani}；

[0065] 步骤A3，确定物理资源层所拥有的物理机Pm＝{Pm1,Pm2,...Pmn}，以及每个物理机对应的物理资源Pmi＝{STOi,CALi,BANi}；

[0066] 步骤A4，抽象自动化测试任务模型Tt＝{t1,t2,...tl}，根据任务资源需求，确定测试任务与虚拟机分配模型

[0067] 基于A3C的资源调度算法模型如图3所示，模型构建流程如图4所示，具体步骤如下：

[0068] 步骤B1，构建基于云计算的资源调度算法模型，包括环境模块和A3C强化学习训练模块；

[0069] 步骤B2，多个智能体进行多线程训练，分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练，优化各自的策略函数和值函数，然后将每个智能体学习到的参数异步更新到全局网络；

[0070] 步骤B3，全局网络根据多个智能体提供的参数更新本体策略值函数，智能体下一次与环境交互学习时，再从全局网络获取更新参数，直到达到训练终止条件。

[0071] 确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励值等，如图5所示，具体步骤如下：

[0072] 步骤C1，设置状态st＝{ti,Vmi,Pmi}，即测试任务和资源使用状态的集合；

[0073] 步骤C2，设置动作at＝{dln|π}，即在动作选取概率策略π(s)下采取的资源映射行为。

[0074] 步骤C3，设置资源调度系统采取深度强化学习算法下发的动作后获得的回报奖励[0075] 确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数，如图7所示，具体步骤如下：

[0076] 步骤D1，算法训练使用n步采样来加快收敛，采用优势函数评估策略，通过评论家网络产生，表示为：

[0077] A(s,t)＝Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)

[0078] 步骤D2，通过更新策略梯度函数，使总回报期望上升，寻找最优策略。策略梯度函数为：

[0079]

[0080] 策略参数梯度下降更新函数为：

[0081] θ＝θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))

[0082] 设计基于深度强化学习的资源分配算法具体流程，如图6所示，具体步骤如下：

[0083] 步骤E1，提交测试任务，资源调度系统提取测试任务需求ti，并感知资源状态；

[0084] 步骤E2，初始化深度强化学习模型环境等状态st和训练参数；

[0085] 步骤E3，执行训练，多个线程智能体与分别与测试环境环境进行状态和动作交互，实施资源分配动作，获得奖励rt和新状态st+1，生成训练数据样本(s,a,r)；

[0086] 步骤E4，根据奖励回馈，调整资源分配动作，累计n步梯度更新；

[0087] 步骤E5，异步更新全局网络参数θ←dθ、θv←dθv；

[0088] 步骤E6，循环迭代训练到最大迭代次数Tmax，获得最大奖励Rmax；

[0089] 步骤E7，获得最优资源分配策略。

[0090] 为了提高电力信息通信设备自动化测试资源利用率，本发明提出了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。在综合考虑自动化测试计算、存储、带宽资源利用率和测试任务传输时延指标条件下，最大化测试资源利用率，减少测试任务传输时延，提高自动化测试效率，降低自动化测试成本。

[0091] 以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

标题	发布/更新时间	阅读量
施工现场告警方法、装置、计算机设备和存储介质	2020-05-08	905
基于部分可观测迁移强化学习的自动驾驶决策方法及系统	2020-05-13	994
一种无感知高通量毫米波雷达安检装置及方法	2020-05-13	291
一种医用清洗工作站空气处理系统及其工作方法	2020-05-14	742
基于视觉显著性的HEVC优化算法	2020-05-08	689
一种基于自适应连接神经网络的图像处理方法及装置	2020-05-11	410
一种水田犁底层信息连续感知装置和方法	2020-05-11	286
基于深度学习的无监督端到端的驾驶环境感知方法	2020-05-08	86
一种基于深度卷积神经网络的激光雷达在线标定方法	2020-05-08	752
一种PVDF柔性压力传感器及其制备方法和系统	2020-05-12	482

一种电力信息通信设备自动化测试资源调度方法

一种电力信息通信设备自动化测试资源调度方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：