专利汇可以提供一种基于深度强化学习的飞行器航线跟踪方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于深度 强化学习 的 飞行器 航线 跟踪 方法,属于 机器人 智能控制领域。本方法首先构建飞行器轨迹跟踪控制的 马 尔科夫决策过程模型,分别得到飞行器航线跟踪控制的状态变量,控制变量,转移模型,一步损失函数的表达式;分别建立策略网络和评价网络;通过强化学习,使得飞行器在航线跟踪控制训练中每前进一步不断更新策略网络和评价网络,直至收敛;得到用于航线跟踪控制的最终策略网络。本发明方法的可拓展性强,并不只适用于飞行器航迹跟踪控制问题,只需要重新设定状态变量、控制输入以及损失函数,调节神经网络的结构和参数即可拓展于飞行器控制的其他更加复杂的问题。,下面是一种基于深度强化学习的飞行器航线跟踪方法专利的具体信息内容。
1.一种基于深度强化学习的飞行器航线跟踪方法,其特征在于,包括以下步骤:
(1)构建一个用于飞行器航线跟踪的马尔科夫模型,包括以下步骤:
(1-1)确定马尔科夫模型的状态变量:
用(x,y,z)表示飞行器在惯性坐标系下的水平面坐标x,y和高度z,用 表示飞行器在惯性坐标系下的航向角、俯仰角和横滚角,用(p,q,r)表示飞行器在本体坐标系下三轴线速度,(u,v,w)表示飞行器在本体坐标系下的三轴角速度;
设飞行器的目标高度在惯性坐标系下为zr,则飞行器所处高度z与目标高度之间的相对高度为z-zr,设飞行器目标航向在惯性坐标系下为 则飞行器当前航向角与目标航向角之间的相对误差为
则飞行器的马尔科夫模型的状态变量s为:
其中,β表示飞行器的侧滑角,侧滑角是飞行器飞行速度方向与其纵向对称平面之间的夹角,上标T表示矩阵转置;
(1-2)确定马尔科夫模型的控制变量:
设定飞行器副翼的舵量τ1、飞行器升降舵的舵量τ2和飞行器方向舵的舵量τ3,得到马尔科夫模型的控制变量u,u=[τ1,τ2,τ3]T;
(1-3)确定马尔科夫模型的转移模型,表达式为:sk+1=f(sk,uk),
其中,s为飞行器状态变量,k为飞行器状态采样时刻,该转移模型为一个时间离散的黑箱函数,表示在当前采样时刻k的状态变量sk和控制变量uk与下一采样时刻的状态变量sk+1的关系;
(1-4)确定马尔科夫模型的一步损失函数,表达式为:;
其中,k表示采样时刻,ρ1、ρ2、ρ3、ρ4、λ1、λ2、λ3分别表示相应各项的权重系数,上述权重系数均大于零,其中的 项用于保证飞行器到达指定高度和指定前进
方向, 用于使飞行器横滚角和侧滑角为零,λ1(τ1,k-τ1,k-1)2+λ2(τ2,k-τ2,k-1)2+λ3(τ3,k-τ3,k-1)2用于防止控制变量出现震荡的现象,一步损失函数用于评价在飞行在某个时刻状态下执行控制变量的效果;
(1-5)确定飞行器航线跟踪的目标函数如下:
满足:sk+1=f(sk,uk)k=1,...,∞
其中,uk≥1表示步骤(1-2)的控制变量u的输入序列{u1,u2,...},γ表示对未来损失的权衰减因子,0<γ<1, 表示数学期望;
(2)构建基于深度强化学习的评价网络与策略网络,包括以下步骤:
(2-1)构建一个策略网络:
策略网络的输入为状态变量s,策略网络的输出为控制变量u,策略网络表达式如下:
u=μ(s)
(2-2)构建一个评价网络:
评价网络的输入为状态变量s和控制变量u,评价网络的输出为累计损失量Qμ(s,u),评价网络的表达式如下:
其中,t为求和变量, 表示数学期望;
(3)采用确定性策略梯度方法,对飞行器轨迹跟踪进行控制,具体步骤如下:
(3-1)设定最大迭代次数为M,每次迭代的最大实验步数为T,设定一个训练集,训练集大小为N,设定目标神经网络的追踪比率为τ,设定策略网络滞后时间为D,设定评价网络与策略网络的学习率分别为αω和 αω=0.01, 设定一个对未来损失权重的衰减
因子,γ,0<γ<1;
(3-2)设定步骤(2-1)策略网络μ的权重参数为 即 设定步骤(2-2)评价网络Qμ
(x,u)的权重参数为ωj,j=1,2,即Q(s,u|ωj),初始化时,设定三个网络的权重参数均为0,将初始化后的策略网络记为当前策略网络,将初始化后的评价网络重复记为第一当前评价网络(Q(x,u|ω1))和第二当前评价网络(Q(x,u|ω2));
根据当前策略网络的权重 构造一个目标策略网络 将第一当前评价网络的权
重作为第一目标评价网络的权重,得到第一目标评价网络: 使第二当前评价网
络的权重作为第二目标评价网络的权重,得到第二目标评价网络:
建立一个空的经验集R,并设置集合R大小为100万;从经验集R中抽取一个训练集,训练集的大小为N;
(3-3)迭代开始,令初始化时,迭代次数m为1;
(3-4)初始化策略网络滞后时间d=1,初始化采样时刻k=0,每次迭代的最大步数为T,初始化飞行器的状态变量s0记为:
并令sk=s0;
(3-5)利用步骤(3-2)的当前策略网络 生成采样时刻k控制变量 采用正
太分布随机生成一个探索噪声Δuk,得到马尔科夫模型的控制量 向步
骤(1)的马尔科夫模型输入控制量uk与步骤(3-4)的状态变量sk,得到下一采样时刻的状态变量sk+1和一步损失函数ck+1;
(3-6)将步骤(3-4)至(3-5)得到的状态变量sk+1和一步损失函数ck+1,记为一个经验样本ek=(sk,uk,ck+1,sk+1),并将该经验样本存入步骤(3-2)的经验集R中;
(3-7)统计经验集中的经验样本个数NR,并对NR进行判定:若NR≤N,则转到步骤(3-12);
若NR>N,则进入步骤(3-8);
(3-8)从经验集R中随机抽取N个经验样本e1,e2,...,eN;
(3-9)按照以下公式分别更新步骤(3-2)的第一评价网络权重和第二评价网络权重:
δi=yi-Q(si,ui|ωj),i=1,2,3...,N
其中,j=1,2,并将更新后的第一评价网络权重和第二评价网络权重记为新的当前评价网络;
(3-10)使策略网络滞后时间d=d+1,对d进行判定,若d相对D的余数为零,则进入步骤(3-11),若d相对D的余数不为零,则进入步骤(3-13);
(3-11)采用确定性策略梯度方法,对步骤(3-2)的策略网络权重进行更新:
其中,将更新后的策略网络记为新的当前策略网络,进入步骤(3-12);
(3-12)按照以下公式,对步骤(3-2)的第一目标评价网络、第二目标评价网络和目标策略网络权重进行更新:
(3-13)使采样时刻k=k+1,对k进行判定:若k<T,则返回步骤(3-5),若k≥T,进入步骤(3-14);
(3-14)使迭代次数m=m+1,对m进行判定:若m<M,则返回步骤(3-4),若m≥M,则将当前策略网络 作为最终的策略网络,记为 将步骤(1-1)状态变量输入 该
策略网络输出控制变量,实现对飞行器的基于深度强化学习的航线跟踪。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种人机耦合的纵向避撞控制方法 | 2020-05-13 | 372 |
一种基于负载感知的密集网络负载均衡方法 | 2020-05-18 | 794 |
基于Markov信号博弈的移动目标防御策略选取方法及设备 | 2020-05-24 | 375 |
一种充电站内兼顾预约与排队的电动汽车充电调度方法 | 2020-05-25 | 175 |
基于流量分享的超额预售方法 | 2020-05-11 | 231 |
一种毫米波通信系统中智能波束训练方法及预编码系统 | 2020-05-12 | 215 |
一种双行星排式混合动力汽车非线性模型预测控制方法 | 2020-05-12 | 713 |
基于增强学习的水下机器人姿态控制方法 | 2020-05-20 | 570 |
基于策略梯度在线学习算法的巡航控制系统及设计方法 | 2020-05-21 | 426 |
目标检测与追踪方法、装置、系统、介质和设备 | 2020-05-14 | 112 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。