首页 / 专利库 / 电脑安全 / 引导扇区 / 一种基于K次控制深度强化学习的空管防冲突方法

一种基于K次控制深度强化学习的空管防冲突方法

阅读:258发布:2020-05-11

专利汇可以提供一种基于K次控制深度强化学习的空管防冲突方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于K次控制深度 强化学习 的空管防冲突方法,包括下述步骤:首先设置使用场景中扇区内飞机的数量,并设置防冲突过程中的控制次数K;然后,在训练模式下,进行K次控制,在前K‑1次控制中,通过神经网络的作用,按照二维正态分布的方法,确定下一个 位置 点,并按照强化学习的方法,神经网络参数进行更新,在第K次控制中,将目的地作为下一个位置点,如此循环,完成神经网络的训练;最后,在应用模式下,使用训练完成的神经网络,可以得到不发生冲突的最 短路 径。本发明的方法可以应用在现有空中交通管理系统中,在不与扇区内其他飞机发生冲突的前提下,得到到达目的地的最短路径,对空管路径规划有实践意义。,下面是一种基于K次控制深度强化学习的空管防冲突方法专利的具体信息内容。

1.一种基于K次控制深度强化学习的空管防冲突方法,其特征在于,包括以下步骤:
(1)对扇区内已有飞机进行编号,根据已有飞机的既有飞行计划,按照时间步长,生成从当前时刻到飞机飞出扇区时刻的坐标矩阵P;
(2)利用K次控制深度强化学习的方法,训练深度神经网络,根据控制飞机的当前位置和扇区内飞机的坐标矩阵P,生成控制飞机的路径;
K次控制深度强化学习算法的计算过程为:设置控制次数K;构建深度神经网络,输入为控制飞机当前位置、已有飞机的坐标矩阵P,输出为控制飞机的下一个位置点极坐标如果不是第K次控制,按照二维正态分布的方法,得到下一个位置点极坐标,并根据引导结果按照强化学习的方法更新深度神经网络参数;如果是第K次控制,将飞机的目的地作为下一个位置点,并结束这次训练,进入下次训练;
(3)经过海量训练后,根据输入的控制飞机位置和已有飞机坐标矩阵,快速为控制飞机生成不与其他飞机发生冲突,并到达目的地的最短路径;
(4)在实际使用中,根据实际空情训练多个不同K值的深度神经网络,针对具体问题快速生成引导路径,供空管员使用。
2.根据权利要求1所述的基于K次控制深度强化学习的空管防冲突方法,其特征在于,步骤(1)中,扇区内已有飞机的坐标矩阵P不仅包含当前飞机的坐标,同时包括了按照飞行计划的未来坐标。
3.根据权利要求1所述的基于K次控制深度强化学习的空管防冲突方法,其特征在于,步骤(2)中,控制次数通过参数K调节,在空管引导中灵活设置控制次数;通过二维正态分布选取下一位置点的极和极径,选点公式如下:
其中,μρ,σρ代表极径的正态分布均值和标准差, 代表极角的正态分布均值和标准差;
采用actor-critic的双神经网络结构,critic神经网络的更新公式如下:
actor神经网络的更新公式如下:
其中,αw,αθ为神经网络的学习率,δ=Rt+γV(St+1,w)-V(St,w),Rt为强化学习回报函数,V(St,w)为t时刻状态值函数,γ为折扣因子。
4.根据权利要求1所述的基于K次控制深度强化学习的空管防冲突方法,其特征在于,步骤(3)中,依据神经网络特征识别的特性,根据状态输入快速生成不冲突的K个位置点,控制飞机依次飞过K个控制点,形成不冲突的最短路径。
5.根据权利要求1所述的基于K次控制深度强化学习的空管防冲突方法,其特征在于,步骤(4)中,同时生成多个备选方案,供空管员根据空情灵活选择。

说明书全文

一种基于K次控制深度强化学习的空管防冲突方法

技术领域

[0001] 本发明涉及空中交通管理领域,特别涉及一种基于K次控制深度强化学习的空管防冲突方法。

背景技术

[0002] 近年来,民用航空发展迅速,持续的发展带来严重的空中交通拥堵,给空管员带来较大压。当飞机从一个扇区飞到另一个扇区时,需要规划其航迹,给出正确引导,避免与扇区已有飞机发生冲突。现有算法已可以生成最优或次优航迹并进行飞机引导,但计算效率低,无法满足现实空管中实时性的要求,仍需要进一步研究。深度强化学习执行效率高,使用灵活,改进后能够应用在空管系统中,快速给出引导航迹。

发明内容

[0003] 本发明的目的在于克服现有技术的缺点与不足,提出一种基于K次控制深度强化学习的空管防冲突方法,实现在不与扇区内已有飞机发生冲突的前提下,飞机进入扇区并到达目的地,并可快速形成多个方案供空管员选择。
[0004] 为实现以上目的,本发明采取如下技术方案:
[0005] 一种基于K次控制深度强化学习的空管防冲突方法,包括下述步骤:
[0006] (1)对扇区内已有飞机进行编号,根据已有飞机的既有飞行计划,按照时间步长,生成从当前时刻到飞机飞出扇区时刻的坐标矩阵P;
[0007] (2)利用K次控制深度强化学习的方法,训练深度神经网络,根据控制飞机的当前位置和扇区内飞机的坐标矩阵P,生成控制飞机的路径;
[0008] K次控制深度强化学习算法的计算过程为:设置控制次数K;构建深度神经网络,输入为控制飞机当前位置、已有飞机的坐标矩阵P,输出为控制飞机的下一个位置点极坐标如果不是第K次控制,按照二维正态分布的方法,得到下一个位置点极坐标,并根据引导结果按照强化学习的方法更新深度神经网络参数;如果是第K次控制,将飞机的目的地作为下一个位置点,并结束这次训练,进入下次训练;
[0009] (3)经过海量训练后,深度神经网络具备了引导能力,根据输入的控制飞机位置和已有飞机坐标矩阵,可快速为控制飞机生成不与其他飞机发生冲突,并到达目的地的最短路径;
[0010] (4)在实际使用中,可训练多个不同K值的深度神经网络,针对具体问题快速生成引导路径,供空管员使用。
[0011] 作为优选的技术方案,步骤(1)中,扇区内已有飞机的坐标矩阵P不仅包含当前飞机的坐标,同时包括了按照飞行计划的未来坐标。
[0012] 作为优选的技术方案,步骤(2)中,控制次数通过参数K调节,可以在空管引导中灵活设置控制次数;通过二维正态分布选取下一位置点的极和极径,选点公式如下:
[0013]
[0014] 其中,μρ,σρ代表极径的正态分布均值和标准差, 代表极角的正态分布均值和标准差,这种选点方法满足了强化学习训练过程中的探索性要求;
[0015] 采用actor-critic的双神经网络结构,critic神经网络的更新公式如下:
[0016]
[0017] actor神经网络的更新公式如下:
[0018]
[0019] 其中,αw,αθ为神经网络的学习率,δ=Rt+γV(St+1,W)-V(St,W),Rt为强化学习回报函数,V(St,w)为t时刻状态值函数,γ为折扣因子。
[0020] 作为优选的技术方案,步骤(3)中,可依据神经网络特征识别的特性,根据状态输入快速生成不冲突的K个位置点,控制飞机依次飞过K个控制点,形成不冲突的最短路径。
[0021] 作为优选的技术方案,步骤(4)中,可同时生成多个备选方案,供空管员根据空情灵活选择。
[0022] 本发明相对于现有技术具有如下的优点和效果:
[0023] (1)本发明与传统方法相比,计算效率更高,能在200ms之内生成最优路径。
[0024] (2)本发明对深度强化学习进行改进,控制次数可选择,可根据实际空情选择合理的控制次数。
[0025] (3)本发明将基于K次控制深度强化学习的空管防冲突方法应用在空中交通管理系统中,实现在不与扇区内已有飞机发生冲突的前提下,飞机进入扇区并到达目的地,并可快速形成多个方案供空管员选择,对空管路径规划有实践意义。附图说明
[0026] 图1为本实施例的一种基于K次控制深度强化学习的空管防冲突方法的流程图
[0027] 图2为本实施例的一种基于K次控制深度强化学习的空管防冲突方法的扇区内空管示意图;
[0028] 图3为本实施例的一种基于K次控制深度强化学习的空管防冲突方法的K次控制示意图;
[0029] 图4为本实施例的一种基于K次控制深度强化学习的空管防冲突方法的actor神经网络结构图;
[0030] 图5为本实施例的一种基于K次控制深度强化学习的空管防冲突方法的两点间飞行轨迹图。

具体实施方式

[0031] 为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不限于本发明。
[0032] 一种基于K次控制深度强化学习的空管防冲突方法,如图1所示,包括下述步骤:
[0033] (1)对扇区内已有飞机进行编号,根据已有飞机的既有飞行计划,按照时间步长,生成从当前时刻到飞机飞出扇区时刻的坐标矩阵P;
[0034] (2)利用K次控制深度强化学习的方法,训练深度神经网络,根据控制飞机的当前位置和扇区内飞机的坐标矩阵P,生成控制飞机的路径;
[0035] K次控制深度强化学习算法的计算过程为:设置控制次数K;构建深度神经网络,输入为控制飞机当前位置、已有飞机的坐标矩阵P,输出为控制飞机的下一个位置点极坐标如果不是第K次控制,按照二维正态分布的方法,得到下一个位置点极坐标,并根据引导结果按照强化学习的方法更新深度神经网络参数;如果是第K次控制,将飞机的目的地作为下一个位置点,并结束这次训练,进入下次训练;
[0036] (3)经过海量训练后,深度神经网络具备了引导能力,根据输入的控制飞机位置和已有飞机坐标矩阵,可快速为控制飞机生成不与其他飞机发生冲突,并到达目的地的最短路径;
[0037] (4)在实际使用中,可训练多个不同K值的深度神经网络,针对具体问题快速生成引导路径,供空管员使用。
[0038] 在本实施例中,扇区内已有按照既定航迹飞行的飞机,控制飞机飞入扇区,一种基于K次控制深度强化学习的空管防冲突方法,实现在不与扇区内已有飞机发生冲突的前提下,飞机进入扇区并到达目的地;
[0039] 如图2所示,对扇区内已有飞机进行编号,根据已有飞机的既有飞行计划,按照时间步长,生成从当前时刻到飞机飞出扇区时刻的坐标矩阵P;
[0040] 如图3所示,扇区内已有四架飞机,扇区内已有飞机的坐标矩阵P不仅包含当前飞机的坐标,同时包括了按照飞行计划的未来坐标。
[0041] 在本实施例中,控制次数通过参数K调节,可以在空管引导中灵活设置控制次数,如图3所示,K的值为3;
[0042] 在本实施例中,如图4所示,actor神经网络由三层全连接网络组成,输出为下一位置点的极角和极径的正态分布均值和标准差。
[0043] 在本实施例中,可依据神经网络特征识别的特性,根据状态输入快速生成不冲突的K个位置点,控制飞机依次飞过K个控制点,两个控制点之间的飞行轨迹如图5所示,形成不冲突的最短路径。
[0044] 在本实施例中,使用本方法,可在200ms内生成一个避免冲突的解决方案。一秒钟内可生成五个不同的解决方案供空管员选择,效率明显优于现有方法数秒甚至数十秒才能生成一个解决方案。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈