首页 / 专利库 / 信号处理 / 信号 / 基于深度强化学习的无人机网络多用户接入控制方法

基于深度强化学习的无人机网络多用户接入控制方法

阅读:330发布:2021-06-10

专利汇可以提供基于深度强化学习的无人机网络多用户接入控制方法专利检索,专利查询,专利分析的服务。并且本 发明 属于无线通信技术领域,涉及一种基于深度 强化学习 的无人机网络多用户接入控制方法。本发明利用深度强化学习学习环境中固有的变化规律,提出了适应用无人机网络中多用户接入情况下的深度强化学习 框架 ,并实现了这种在全局网络信息未知情况下基于深度强化学习的无人机网络多用户接入控制方案。本发明提出的接入控制方式与传统的接入控制方式相比能够实现更高的系统吞吐量和更低的切换次数。同时,通过调整切换惩罚项可以在吞吐量和切换次数实现不同的折中,并且在不同切换惩罚情况下性能均可得到保障。,下面是基于深度强化学习的无人机网络多用户接入控制方法专利的具体信息内容。

1.基于深度强化学习的无人机网络多用户接入控制方法,该方法用于以无人机作为移动基站为地面用户UE提供服务的系统,其特征在于,所述控制方法为:
构建分布决策集中训练的深度强化学习框架,即为每个UE配置一个结构相同的神经网络,每个UE根据自身的神经网络独立的获得接入无人机基站的策略;同时设置一个具有相同神经网络的中央节点,用于从各个UE处收集经验信息并训练神经网络参数,在每个训练阶段完成后中央节点把训练好的参数传递给每一个UE;
所述中央节点从各个UE处收集经验信息的具体方法为:
UE需要根据自身状态选择合适的动作,执行后获得相应的奖励,UE的吞吐量主要与基站接入用户数和接收信号强度有关,所以i个UE的状态表示为:
其中,ui,j为定义的接入指示变量,是一个二元指示变量,即为“1”表示接入第j个无人机基站,为“0”表示没有选择接入第j个无人机基站;状态包含了该用户上一个时刻的接入指示变量ui,j(t-1),上一个时刻和此时刻的接收信号强度 和 各个基站在上一个时刻的接入用户数N0(t-1),ωi(t-1)表示该UE在上一个时刻的吞吐量;
UE在做出自身的接入选择之后,向选中的无人机基站发送接入请求,无人机接收请求后,对UE提供传输服务;
所有UE接入决策做完后,环境信息会进行更新,无人机基站统计自身的接入用户数将新的网络信息发送给各个UE,构成UE新的状态;所有UE将原来的状态,做出的接入选择,吞吐量情况以及新的状态传递给中央节点,中央节点对每个UE的奖励函数进行计算,将经验信息进行完善:
其中,ωi(t)表示该UE在当前时刻的吞吐量, 表示该UE在进行
接入选择之后对其他相关用户吞吐量的变化,定义为对其他用户性能的影响,ai(t)和ai(t-
1)表示用户在t时刻和t-1时刻分别所采取的接入动作,C表示对于产生切换的惩罚,η为控制系数。
2.根据权利要求1所述的基于深度强化学习的无人机网络多用户接入控制方法,其特征在于,所述中央节点训练神经网络参数的具体方法为:
中央节点收集了全部UE的经验信息之后,将所有信息存储到本地一个队列形式的存储器中,将全部UE的经验信息进行汇总,然后利用随机梯度下降的方法进行随机采样,所得样本作为本次训练的训练样本,对神经网络参数进行训练。
3.根据权利要求2所述的基于深度强化学习的无人机网络多用户接入控制方法,其特征在于,所述神经网络由长短期记忆网络和全连接网络构成:其中,长短期记忆网络负责提取输入参数中的时间连续性特征,在长短期记忆网络中需要同时输入M个时刻的数据;全连接网络负责对长短期记忆网络提取到的特征进行处理,得到对应的接入策略。

说明书全文

基于深度强化学习的无人机网络多用户接入控制方法

技术领域

[0001] 本发明属于无线通信技术领域,涉及一种基于深度强化学习的无人机网络多用户接入控 制方法。

背景技术

[0002] 传统的接入控制技术,是利用限比较的方式,通过选择不同的度量(例如接收信号强 度等)并选取合适的门限值实现的。当用户设备(UE)来自源基站的接收信号强度低于设定 的门限时,就会选择能够提供高于门限接收信号强度的基站进行接入。但对于利用无人机作 为基站的无人机网络,由于基站具有移动性,所以基站与用户之间的相对距离变化频繁,导 致用户处的接收信号强度变化剧烈,此时传统的接入控制技术会带来频繁切换问题,造成大 量额外的信号开销;另外,多个UE同时进行切换时,传统接入控制技术只能保证单个用户 的吞吐量,而无法保证到整体系统的吞吐量。

发明内容

[0003] 为了解决传统接入控制技术在无人机网络中的频繁切换问题以及保证多用户接入情形网 络整体的吞吐量,本发明主要关注于整体系统长期的吞吐量以及切换次数情况。由于深度强 化学习在复杂的动态环境决策问题中有着优秀的性能,为了克服无人机网络环境中全局网络 信息难以收集的问题,本发明利用深度强化学习学习环境中固有的变化规律,提出了适应用 无人机网络中多用户接入情况下的深度强化学习框架,并实现了这种在全局网络信息未知情 况下基于深度强化学习的无人机网络多用户接入控制方案。
[0004] 在本发明中从利用无人机作为移动基站为地面用户提供服务的度出发建立系统模型, 无人机依据预先设定的轨道进行移动为地面UE提供下行传输服务。在本发明中,每个UE 被视为独立的决策者,在每个时隙选择一个合适的无人机基站进行接入。本发明将决策过程 完全交予UE执行,无人机基站只负责接收接入请求并提供传输服务。在本发明中,多个UE 之间在决策过程中不存在信息交互,也就是说UE的决策过程仅依赖于自身所获得的网络信 息,降低了整体的信号开销。
[0005] 为了解决多用户接入决策问题,本发明提出了一种分布决策集中训练的深度强学习框架, 即存在一个中央节点负责对所有UE的神经网络参数进行训练。在本发明所提出的深度强化 学习框架中,每个UE配有一个结构相同的神经网络,利用本地的网络信息输入神经网络后 得到相应的接入策略;中央节点则负责从各个UE处收集经验信息并训练神经网络参数,在每 个训练阶段完成后中央节点会把训练好的参数传递给用户。UE从中央节点获取训练好的神经 网络参数后,对本地的神经网络参数进更新。本发明将决策和训练过程分隔开,使UE只需 利用训练好的神经网络,降低了UE处的计算复杂度。
[0006] 为了解决无人机网络中基站位置信息难以收集的问题,本发明在用户状态的设计上避开 了位置信息,主要采用用户的接收信号强度等信息,这些信息可以在本地直接进行测量。为 了避免频繁切换的发生和保证多用户情况下整体网络的吞吐量性能,本发明不仅在深度强化 学习奖励函数的设计中考虑了用户自身的吞吐量,还考虑了对UE进行切换抑制以及单个UE 接入动作对其他相关UE的影响。
[0007] 本发明为了更好地捕捉和学习UE处的接收信号强度变化规律,在神经网络设计中还引 入了长短期记忆(LSTM)网络。本发明的神经网络设计简单,在利用LSTM提取特征后交 由三层全连接网络进行处理,获得相应的接入决策输出。
[0008] 本发明提出的接入控制方式与传统的接入控制方式相比能够实现更高的系统吞吐量和更 低的切换次数。同时,通过调整切换惩罚项可以在吞吐量和切换次数实现不同的折中,并且 在不同切换惩罚情况下性能均可得到保障。附图说明
[0009] 图1示出了本发明中无人机网络的系统模型;
[0010] 图2示出了本发明中深度强化学习框架模型;
[0011] 图3示出了本发明中神经网络的结构模型;
[0012] 图4示出了本发明提出的接入控制方案与传统接入控制方案的吞吐量和切换次数对比。

具体实施方式

[0013] 下面结合附图和仿真示例对本发明进行详细描述,以便本领域的技术人员能够更好地理 解本发明。
[0014] 图1表示本发明的系统模型。在此无线通信系统中共有两部分构成,分别为无人机基站 与地面UE。无人机基站在空中按照固定轨道飞行,地面UE。由于无人机基站在空中飞行, 所以信道中存在视距(LOS)和非视距(NLOS)两种成分,两种成分出现的比例主要由无人 机与地面用户之间的仰角所决定。LOS和NLOS成分中均包含了大尺度衰落和小尺度衰落, 大尺度衰落主要由UE与基站之间的距离决定,小尺度衰落分别服从莱斯分布和瑞利分布。 特别地,第j个无人机基站与第i个地面UE之间的信道增益模型可以表示为:
[0015]
[0016] 其中, 和 分别表示LOS和NLOS成分出现的比例, 和 分别表示对应 的信道增益。f表示载波频率,v表示光速。μLOS和μNLOS分别为LOS和NLOS对应的衰减 因子,li,j表示无人机基站与UE之间的距离,αLOS和αNLOS分别为LOS和NLOS对应的路径 损失指数。
[0017] 在所建立的系统模型中,每个无人机传输功率相同,由于在信道增益模型中存在小尺度 衰落,为了消除小尺度衰落带来的,UE在进行接入选择期间对所接收的信号进行采样平均, 采用的平均接收信号强度可以表示为:
[0018]
[0019] 其中,Pt为无人机基站的传输功率,N表示进行平均的信号采样次数。
[0020] 由于所有无人机基站利用同一频谱资源进行传输,所以地面UE在接入一个无人机进行 传输时,会受到来自其他无人机的干扰,用户处的SINR可以表示为:
[0021]
[0022] 其中 表示网络中无人机基站的集合,σ2表示噪声功率。
[0023] 用户在每个时隙选择合适的无人机基站进行接入,对于在单个时隙有多个用户接入的基 站,该基站选择时分多址(TDMA)的形式服务用户,即将时隙平均分为与接入用户数目相 同的同等大小的子时隙。UE的接收速率可以表示为:
[0024]
[0025] 其中,B表示基站传输所用的频带宽度,Nj(t)表示该基站此时接入的用户数。
[0026] 图2表示所提出的深度强化学习框架。该框架共由3部分构成分别为无人机基站,中央 节点和UE。其中无人机基站负责传输服务,中央节点负责训练UE的神经网络参数,UE则 在每个决策阶段做出合适的基站接入选择。每个UE与中央节点配有相同的神经网络,UE处 的神经网络参数从中央节点处获取,可以视作是中央节点处的复制。每个UE在此框架中视 为独立的个体,彼此之间不发生信息交互,独立地选择无人机基站进行接入并负责将自身网 络信息传递给中央节点。
[0027] 对于单个UE而言,其他用户与无人机基站可以视作为环境。所以整体的信息交互过程 由两部分构成,一是UE与环境之间的交互过程,二是UE与中央节点之间经验信息和网络 参数的传递过程。在每个接入选择阶段,每个UE先根据自身的状态选择合适的无人机基站 进行接入。由于我们主要关注用户吞吐量最大化,而用户的接收速率主要与接收信号强度与 基站的接入用户数有关,所以主要将用户连接数和接收信号强度作为状态元素,具体的状态 可以表示为:
[0028]
[0029] 其中,ui,j为一个二元指示变量也可以称为接入指示变量,如果为“1”表示表示接入该 基站,如果为“0”表示没有选择接入该基站。在状态设计中,包含了该用户上一个时刻的接 入指示变量ui,j(t-1),上一个时刻和此时刻的接收信号强度 和 各个基站在上 一个时刻的接入用户数N0(t-1),ωi(t-1)表示该UE在上一个时刻的吞吐量。
[0030] UE在做出自身的接入选择之后,向选中的无人机基站发送接入请求,无人机接收请求后, 对UE提供传输服务。所有UE接入决策做完后,环境信息会进行更新,无人机基站统计自 身的接入用户数将新的网络信息发送给各个UE,构成UE新的状态。所有UE将原来的转态, 做出的接入选择,吞吐量情况以及新的状态传递给中央节点。中央节点对每个UE的奖励函 数进行计算,将经验信息进行完善。最终的奖励函数可以表示为:
[0031]
[0032] 其中, 表示该UE在进行接入选择之后对其他相关用户性能的 影响。ai(t)和ai(t-1)表示用户在t时刻和t-1时刻分别所采取的接入动作,C表示对于产生 切换的惩罚,η为一个控制系数。
[0033] 中央节点在收集了全部UE的经验信息之后,将所有信息存储到本地一个队列形式的存 储器中,将所有用户的经验信息进行汇总。之后中央节点利用随机梯度下降的方法对从中进 行随机采样作为本次训练的训练样本,对神经网络参数进行训练。中央节点在每次训练结束 后,将训练好的神经网络参数发送给每个UE。UE在获取新的神经网络参数后,对本地参数 进行更新,根据自身新的状态利用更新后的神经网络进行切换决策。
[0034] 图3表示了本发明中所采用的神经网络架构。该神经网络结构由两部分网络构成:LSTM 网络和全连接网络。其中,LSTM网络负责提取输入参数中的时间连续性特征,在LSTM网 络中需要同时输入M个时刻的数据;全连接网络负责对LSTM网络提取到的特征进行处理, 得到对应的接入策略。
[0035] 图4展示了本发明提出的接入控制技术在不同的切换惩罚系数下系统吞吐量和切换次数 的性能情况。其中,测试结果为测试时间为1000个时隙的情况下的结果。可以发现,与传统 的接入控制方法(基于接收信号强度的接入控制方法以及基于学习算法的接入控制方法)相 比较,所提出的接入控制方法可以在切换次数更小的情况下实现更高的系统吞吐量。并且在 不同的切换惩罚情况下,所提出的接入控制技术均可以实现最优的性能,并且可以通过调整 不同的切换惩罚项可以实现切换次数与系统吞吐量之间的不同折中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈