首页 / 专利库 / 控制系统 / 信道选择器 / 一种基于深度增强学习的无线网络资源分配方法

一种基于深度增强学习的无线网络资源分配方法

阅读:489发布:2020-05-08

专利汇可以提供一种基于深度增强学习的无线网络资源分配方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于深度增强学习的无线网络资源分配方法,能够以较低复杂度最大限度地提高时变信道环境中的 能量 效率。所述方法包括:建立深度增强学习模型;将基站与用户终端之间的时变信道环境建模为有限状态的时变 马 尔科夫信道,确定归一化信道系数,并输入 卷积神经网络 qeval,选择输出回报值最大的动作作为决策动作,为用户分配 子载波 ;根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定回报函数,并将回报函数反馈回深度增强学习模型;根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,确定时变信道环境下功率局部最优分配。本发明涉及无线通信以及 人工智能 决策领域。,下面是一种基于深度增强学习的无线网络资源分配方法专利的具体信息内容。

1.一种基于深度增强学习的无线网络资源分配方法,其特征在于,包括:
S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;
S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波
S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;
S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设范围内,或者连续多次所得的系统能量效率值高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配;
其中,所述归一化信道系数表示为:
其中,Hn,k为归一化信道系数,表示基站与用户终端n在子载波k上的归一化信道增益;
hn,k表示基站与用户终端n在子载波k上的信道增益; 表示在子载波k上的噪声功率;
其中,所述输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波包括:
将所述归一化信道系数输入卷积神经网络qeval,卷积神经网络qeval通过决策公式选择输出回报值最大的动作作为决策动作,为用户分配子载波;
其中,θeval表示卷积神经网络qeval的权值参数,Q函数Q(s,a′;θeval)表示权值为θeval的卷积神经网络qeval在状态s时执行动作a′所获得的回报值,所述状态s为输入的归一化信道系数;a表示深度增强学习模型的决策动作,即最优子载波分配结果,其中,依据回报值最大的动作的索引获取最优子载波分配结果;
其中,为用户分配的下行功率表示为:
其中,pn,k表示基站在子载波k上为用户终端n分配的下行发射功率;p’k表示基站在子载波k上分配的下行发射功率;α表示衰减因子;Kmax表示在非正交多址接入网络中,当前串行干扰消除器能承受的复杂度下,每个子载波上复用的最大用户数;
其中,所述基于分配的下行功率确定系统能量效率包括:
确定基站子载波k到用户终端n的最大无失真信息传输速率rn,k;
根据确定的基站与用户之间的归一化信道系数,子载波分配结果和分配的下行功率,确定系统功率消耗UP(X);
根据确定的rn,k和UP(X),确定系统能量效率;
其中,基站子载波k到用户终端n的最大无失真信息传输速率rn,k表示为:
rn,k=log2(1+γn,k)
其中,γn,k表示用户终端n从子载波k获得的信号信噪比
系统功率消耗UP(X)表示为:
其中,pk表示电路消耗功率,ψ表示基站能量回收系数,xn,k表示用户终端n是否使用子载波k;
其中,系统能量效率表示为:
其中,een,k表示子载波k到用户终端n的能量效率, 表示子载波k信道带宽,N表示用户终端的集合,K表示当前基站下可使用的子载波的集合;
其中,所述基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型包括:
对不符合预设的建模约束条件的系统能量效率,以基于值回报的弱监督算法,按照不符合建模约束条件的种类对该系统能量效率做惩罚,得到深度增强学习模型做出决策动作后的回报函数,并将所述回报函数反馈回深度增强学习模型;其中,所述回报函数表示为:
其中,rewardt表示第t次训练时计算的回报函数;Rmin表示用户服务质量最低标准,即最低下行传输速率;Hinnter表示工作于相同子载波频率的最近基站与当前优化的基站之间最短距离对应的归一化信道系数;Ik表示第k个子载波频段能承受的跨层干扰上限;ξcase1~ξcase3表示三种不符合建模约束的情况对系统能量效率的惩罚系数;
其中,所述根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设范围内,或者连续多次所得的系统能量效率值高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配包括:
将回报函数、信道环境、决策动作和转移到的次态作为四元组存入深度增强学习模型的记忆回放单元memory,其中,所述memory表示为:
memory:D(t)={e(1),...,e(t)}
e(t)=(s(t),a(t),r(t),s(t+1))
其中,s(t)表示第t次训练深度增强学习模型时输入的状态;a(t)表示第t次训练深度增强学习模型时,深度增强学习模型做出的决策动作;r(t)表示第t次训练深度增强学习模型时,深度增强学习模型在动作a(t)做出后,得到的回报函数rewardt;s(t+1)表示t+1次训练深度增强学习模型时,根据有限状态的时变马尔科夫信道更新后的次态;
从深度增强学习模型的记忆回放单元随机选取记忆数据用于两张卷积神经网络的学习以及梯度下降更新,其中,梯度下降只更新卷积神经网络qeval的参数,在深度增强学习模型训练过程中每隔固定次数,更新qtarget参数θtarget为qeval参数θeval;
若连续多次所得的系统能量效率值与预设阈值之间的差值在预设范围内,或者连续多次所得的系统能量效率值高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配;
其中,梯度下降更新公式表示为:
其中 , 表示训练学习速率 ;λ表示对决策体次态评估的折扣因子;
表示在输入为当前记忆e(t)的次态s(t+1)时,权值为θtarget的卷积
神经网络qtarget决策出的能够收获最大回报的动作a′;Q(s(t),a(t);θeval)表示在输入为当前记忆e(t)的状态s(t)时,权值为θeval的卷积神经网络qeval执行动作a(t)所获得的回报值;
表示对参数为θeval的卷积神经网络做梯度下降运算。

说明书全文

一种基于深度增强学习的无线网络资源分配方法

技术领域

[0001] 本发明涉及无线通信以及人工智能决策领域,特别是指一种基于深度增强学习的无线网络资源分配方法。

背景技术

[0002] 长期演进(Long Term Evolution,LTE)时代开始,建网架构从宏网络向宏微协同转变,宏蜂窝(Macro Cell)可持续发展面临着诸多挑战,例如,不可预期的业务增长需求、泛在接入需求、随机的热点部署以及宏蜂窝自身较大的成本压。因此,微蜂窝、家庭基站等小基站(Small Cell)精准覆盖,补充盲区的优点得以体现,并逐渐成为网络部署中与宏基站协同工作,分摊宏基站服务压力的重要环节。第五代移动通信,是继4G之后的延伸,5G并不是一个单一的无线接入技术,而是多种新型无线接入技术和现有无线接入技术演进集成后的解决方案的总称。如今5G网络又开始进入人们的视线,业界普遍认为用户体验速率是5G最重要的性能指标。5G的技术特点可以用几个数字来概括:1000x的容量提升、1000亿+的连接支持、10GB/s的最高速度、1ms以下的延迟。5G中主要技术包括超大规模多天线,新型多址接入技术以及超密集网络,其中,小基站的部署与宏基站构成了超密集异构网络,为用户提供泛在业务。
[0003] 随着移动用户数量的剧增,小基站的布设也趋于超密集化,无线通信领域带来的能源消耗是非常巨大的,针对我国环境污染严重以及能源日益紧缺的国情,绿色通信必然是值得研究与探索的方向,因此,在保证满足用户数据需求以及服务质量基础上,通过合理的资源分配方式实现更高的能量效率是一个重要的研究方向,但是,现有技术中,还没有有效的优化方法能够考虑时变信道的影响,模拟实际时变信道环境,以较低计算复杂度分配网络资源并得到较高能量效率的优化方法。

发明内容

[0004] 本发明要解决的技术问题是提供一种基于深度增强学习的无线网络资源分配方法,以解决现有技术所存在的无法有效地实现时变信道环境中无线资源分配的问题。
[0005] 为解决上述技术问题,本发明实施例提供一种基于深度增强学习的无线网络资源分配方法,包括:
[0006] S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;
[0007] S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波
[0008] S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;
[0009] S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。
[0010] 进一步地,所述归一化信道系数表示为:
[0011]
[0012] 其中,Hn,k为归一化信道系数,表示基站与用户终端n在子载波k上的归一化信道增益;hn,k表示基站与用户终端n在子载波k上的信道增益; 表示在子载波k上的噪声功率。
[0013] 进一步地,所述输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波包括:
[0014] 将所述归一化信道系数输入卷积神经网络qeval,卷积神经网络qeval通过决策公式选择输出回报值最大的动作作为决策动作,为用户分配子载波;
[0015] 其中,θeval表示卷积神经网络qeval的权值参数,Q函数Q(s,a′;θeval)表示权值为θeval的卷积神经网络qeval在状态s时执行动作a′所获得的回报值,所述状态s为输入的归一化信道系数;a表示深度增强学习模型的决策动作,即最优子载波分配结果,其中,依据回报值最大的动作的索引获取最优子载波分配结果。
[0016] 进一步地,为用户分配的下行功率表示为:
[0017]
[0018] 其中,pn,k表示基站在子载波k上为用户终端n分配的下行发射功率;p’k表示基站在子载波k上分配的下行发射功率;a表示衰减因子;Kmax表示在非正交多址接入网络中,当前串行干扰消除器能承受的复杂度下,每个子载波上复用的最大用户数。
[0019] 进一步地,所述基于分配的下行功率确定系统能量效率包括:
[0020] 确定基站子载波k到用户终端n的最大无失真信息传输速率rn,k;
[0021] 根据确定的基站与用户之间的归一化信道系数,子载波分配结果和分配的下行功率,确定系统功率消耗UP(X);
[0022] 根据确定的rn,k和UP(X),确定系统能量效率。
[0023] 进一步地,基站子载波k到用户终端n的最大无失真信息传输速率rn,k表示为:
[0024] rn,k=log2(1+γn,k)
[0025]
[0026] 其中,γn,k表示用户终端n从子载波k获得的信号信噪比,γn,k表示用户终端n从子载波k获得的信号信噪比;
[0027] 系统功率消耗UP(X)表示为:
[0028]
[0029] 其中,pk表示电路消耗功率,ψ表示基站能量回收系数,xn,k表示用户终端n是否使用子载波k。
[0030] 进一步地,系统能量效率表示为:
[0031]
[0032] 其中,een,k表示子载波k到用户终端n的能量效率, 表示子载波k信道带宽,N表示用户终端的集合,K表示当前基站下可使用的子载波的集合。
[0033] 进一步地,所述基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型包括:
[0034] 对不符合预设的建模约束条件的系统能量效率,以基于值回报的弱监督算法,按照不符合建模约束条件的种类对该系统能量效率做惩罚,得到深度增强学习模型做出决策动作后的回报函数,并将所述回报函数反馈回深度增强学习模型;其中,所述回报函数表示为:
[0035]
[0036] 其中,rewardt表示第t次训练时计算的回报函数;Rmin表示用户服务质量最低标准,即最低下行传输速率;Hinnter表示工作于相同子载波频率的最近基站与当前优化的基站之间最短距离对应的归一化信道系数;Ik表示第k个子载波频段能承受的跨层干扰上限;ξcase1~ξcase3表示三种不符合建模约束的情况对系统能量效率的惩罚系数。
[0037] 进一步地,所述根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配包括:
[0038] 将回报函数、信道环境、决策动作和转移到的次态作为四元组存入深度增强学习模型的记忆回放单元memory,其中,所述memory表示为:
[0039] memory:D(t)={e(1),...,e(t)}
[0040] e(t)=(s(t),a(t),r(t),s(t+1))
[0041] 其中,s(t)表示第t次训练深度增强学习模型时输入的状态;a(t)表示第t次训练深度增强学习模型时,深度增强学习模型做出的决策动作;r(t)表示第t次训练深度增强学习模型时,深度增强学习模型在动作a(t)做出后,得到的回报函数rewardt;s(t+1)表示t+1次训练深度增强学习模型时,根据有限状态的时变马尔科夫信道更新后的次态;
[0042] 从深度增强学习模型的记忆回放单元随机选取记忆数据用于两张卷积神经网络的学习以及梯度下降更新,其中,梯度下降只更新卷积神经网络qeval的参数,在深度增强学习模型训练过程中每隔固定次数,更新qtarget参数θtarget为qeval参数θeval;
[0043] 若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。
[0044] 进一步地,梯度下降更新公式表示为:
[0045]
[0046] 其中, 表示训练学习速率;λ表示对决策体次态评估的折扣因子;表示在输入为当前记忆e(t)的次态s(t+1)时,权值为θtarget的卷积
神经网络qtarget决策出的能够收获最大回报的动作a′;Q(s(t),a(t);θeval)表示在输入为当前记忆e(t)的状态s(t)时,权值为θeval的卷积神经网络qeval执行动作a(t)所获得的回报值;
表示对参数为θeval的卷积神经网络做梯度下降运算。
[0047] 本发明的上述技术方案的有益效果如下:
[0048] 上述方案中,建立由两张卷积神经网络qeval、qtarget构成深度增强学习模型;将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配;这样,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,以便在考虑了高复杂度的时变信道基础上,使用深度增强学习模型,将计算复杂度转换到训练深度增强学习模型的过程中,从而以较低复杂度选取决策动作,确定时变信道环境下,基站到用户终端的子载波局部最优分配,最大限度地提高时变信道环境中的能量效率。附图说明
[0049] 图1为本发明实施例提供的基于深度增强学习的无线网络资源分配方法的流程示意图;
[0050] 图2为本发明实施例提供的基于深度增强学习的无线网络资源分配方法的详细流程示意图。

具体实施方式

[0051] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0052] 本发明针对现有的无法有效地实现时变信道环境中无线资源分配的问题,提供一种基于深度增强学习的无线网络资源分配方法。
[0053] 如图1所示,本发明实施例提供的基于深度增强学习的无线网络资源分配方法,包括:
[0054] S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型(Deep Q Network,DQN);
[0055] S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;
[0056] S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;
[0057] S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。
[0058] 本发明实施例所述的基于深度增强学习的无线网络资源分配方法,建立由两张卷积神经网络qeval、qtarget构成深度增强学习模型;将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配;这样,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,以便在考虑了高复杂度的时变信道基础上,使用深度增强学习模型,将计算复杂度转换到训练深度增强学习模型的过程中,从而以较低复杂度选取决策动作,确定时变信道环境下,基站到用户终端的子载波局部最优分配,最大限度地提高时变信道环境中的能量效率。
[0059] 本实施例中的深度增强学习是一种基于人工智能的决策方法,其特征为在动态变化的环境中决策体做出的序贯决策,可以构造深度增强学习所需要的状态、动作、奖赏,决策体在训练深度增高学习模型时可自动化并且优化决策动作。本实施例所述的基于深度增强学习的无线网络资源分配方法,能够模拟时变信道环境,以较低计算复杂度最大限度地优化时变网络场景中无线网络资源的分配,达到快速决策与能量效率共同提升的效果。训练好的深度增强学习模型能够继续用于时变信道环境无线资源的管理,并做出高回报的快速决策。在大范围的无线网络优化中,可将此深度增强学习模型进行分布式计算,从而降低复杂度。
[0060] 为了更好地理解本实施例所述的基于深度增强学习的无线网络资源分配方法,对所述方法进行详细说明,其具体步骤可以包括:
[0061] A11,构建深度增强学习模型DQN
[0062] 本实施例中,初始建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;所述深度增强学习模型的决策过程由Q函数Q(s,a;θ)确定,其中,θ表示卷积神经网络的权值参数,卷积神经网络qeval和qtarget的参数分别为θeval和θtarget,二者初始化时相同;Q函数Q(s,a;θ)表示权值为θ的卷积神经网络在状态s时执行动作a,所获得的回报值。
[0063] 本实施例中,每个卷积神经网络由两个卷积层、两个池化层以及两个全连接层构成;每次训练输入为[nsamples,N,K],第一个维度nsamples表示输入样本数量,第二、三个维度([N,K])表示一个输入样本,即维度为[N,K]的归一化信道系数矩阵;每次训练中输入数量为nsamples的归一化信道系数矩阵,每次输入卷积神经网络的归一化信道系数矩阵是[N,K]数据,输出为当前信道状态下所有可能的动作,每个动作得到的回报值Qaction_val,Qaction_val的数据结构为一维向量[Actionnum],其中,ActionNum表示所有可能的动作数量,输入信道状态数量为nsamples,每个状态下做出所有动作获得的回报值[Actionnum],因此输出为nsamples个一维向量[Actionnum]构成的二维矩阵。
[0064] A12,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波
[0065] 本实施例中,在一定范围内,部署多个同频小基站(SBS),小基站包括室外微基站、皮基站以及室内家庭基站。每个小基站覆盖范围内设置6个用户终端(UE)以及3个非正交多址接入网络中可用的子载波(SC)以小基站为中心的一定区域内撒点分布。本实施例在每个小基站上运行一个独立的深度增强学习模型,达到分布式处理的效果。初始化小基站以及用户终端的参数,所述参数包括但不限于:SBS与UEn在子载波k上的归一化信道系数Hn,k、为此基站分配的信道带宽B、子载波信道带宽BSC、电路消耗功率pk等,其中,UEn表示用户终端n,SCk表示子载波k,同时初始化用户-子载波关联矩阵XN,K和有限状态的时变马尔科夫信道(Finite State Markov Channel,FSMC)转移概率矩阵 N表示用户终端的集合,K表示当前基站下可使用的子载波的集合;初始化得到的用户-子载波关联矩阵XN,K和有限状态的时变马尔科夫信道转移概率矩阵 用作后续用户关联矩阵优化和计算更新信道状态。
[0066] 本实施例中,优化信道环境为有限状态的时变马尔科夫信道,经过空间随机撒点得初始坐标,并计算初始归一化信道系数矩阵,将所得数值十阶量化,量化边界为bound0,...,bound9,优化场景基于时变马尔科夫信道转移概率矩阵 变化。转移概率矩阵 中的元素可用概率转移指示符pi,j表示,其中,i表示当前状态,j表示次态(在当前状态中执行动作后的状态),pi,j表示从当前状态i转移至次态j的概率;规定i=j时pi,j取最大值,即保持原信道状态的概率最大,转移至相邻第二个状态的概率是转移至相邻第一个状态概率的二分之一,每次迭代按 更新环境。
[0067] 本实施例中,用户-子载波关联矩阵XN,K的元素可以用用户-子载波分配指示符xn,k表示,xn,k表示用户终端n是否使用子载波k,在具体应用中,例如,可以用二进制1(xn,k=1)表示用户终端n使用子载波k,用二进制0(xn,k=0)表示用户终端n没有使用子载波k,即没有申请到使用子载波k的资源。所有可能的子载波分配计算方法如下:
[0068] 引入组合数C,假设规定了非正交多址接入网络子载波复用人数上限为2,且每个用户只能使用一个子载波的情况下(可根据实际应用进行调整),种类共有为了便于说明,本实施例,采用了小容量的小基站网络模型,计算
的简化情况。将Actionnum种可能的子载波分配方法以列表的结构存
储,表示为Actionlist,列表索引对应着可能的子载波分配方法,可根据索引值匹配子载波分配方法,从而降低了DQN处理的复杂度,DQN决策动作设计为整数[0,Actionnum-1];其中,每种子载波分配方法对应一个用户-子载波关联矩阵XN,K。
[0069] 本实施例中,将基站与用户终端间的增益与噪声的比值作为归一化信道系数,所述归一化信道系数由以下公式确定:
[0070]
[0071] 其中,Hn,k为归一化信道系数,表示基站与用户终端n在子载波k上的归一化信道增益;hn,k表示基站与用户终端n在子载波k上的信道增益,根据瑞丽快衰落以及距离造成的大尺度衰落计算,基于小基站的通用服务范围是室内环境,加入两层墙损; 表示在子载波k上的噪声功率,其中,E[·]表示数学期望, 表示均值为0,方差为 的加性高斯白噪声。
[0072] 本实施例中,将所述归一化信道系数输入卷积神经网络qeval,卷积神经网络qeval通过决策公式 选择输出回报值最大的动作作为决策动作,为用户分配子载波;
[0073] 其中,Q函数Q(s,a′;θeval)表示卷积神经网络qeval决策体在状态s时执行动作a′所获得的回报值,所述状态s为输入的归一化信道系数;a表示深度增强学习模型的决策动作,即最优子载波分配结果,是一种可能的XN,K,表示用户终端n与子载波k的关联矩阵。
[0074] 本实施例中,深度增强学习模型DQN的输入为DQN决策体所处的状态s,即归一化信道系数(具体为:二维归一化信道系数矩阵HN,K);输出为一维向量Qaction_val,在Qaction_val中选择值最大的动作a′作为子载波分配的决策动作(最优子载波分配结果),因此,在Qaction_val中选择值最大的动作的索引进入Actionlist匹配得到当前决策动作XN,K,从而得到使基站到用户终端的子载波取得局部最优分配值时的用户-子载波关联矩阵XN,K,这样,根据索引值匹配子载波分配方法,能够降低DQN处理的复杂度。
[0075] A13,根据最优子载波分配结果,基于固定子载波分配的分数阶算法,即同一子载波下按照信道增益系数反比规则为每个子载波上复用的用户分配下行功率(其中,信道增益较大的用户分配较小功率,信道增益小的用户分配较大功率)。
[0076] 本实施例中,为用户分配的下行功率表示为:
[0077]
[0078] 其中,pn,k表示基站在子载波k上为用户终端n分配的下行发射功率;p’k表示基站在子载波k上分配的下行发射功率;a表示衰减因子,约束条件为0
[0079] A14,确定基站子载波k到用户终端n的最大无失真信息传输速率rn,k
[0080] 本实施例中,基站子载波k到用户终端n的最大无失真信息传输速率rn,k表示为:
[0081] rn,k=log2(1+γn,k)
[0082]
[0083] 其中,γn,k表示用户终端n从子载波k获得的信号信噪比,γn,k表示用户终端n从子载波k获得的信号信噪比。
[0084] 本实施例中,在非正交多址接入网络中,将复用在同一子载波上的用户归一化信道系数按降序排列,表示为:
[0085] |H1,k|≥|H2,k|≥…≥|Hn,k|≥|Hn+1,k|≥…≥|HKmax,k|
[0086] 基于串行干扰消除器最优解码顺序,当用户终端i在该排序中位于j之前,可成功解码并移除来自用户终端j的干扰,用户终端j会接收到用户终端i的信号,并作为干扰一并接受。非正交多址接入网络中,考虑用户间公平性以及减少同频干扰的原则,分配功率时,信道条件好的用户分配较小功率,即上述实例中,若Hi,k>Hj,k,则分配pi,k
[0087] 考虑小基站场景下尽量减少同频干扰和计算复杂度,预定义每个子载波复用人数为Kmax=2,用户终端i与用户终端j的最大信息传输速率是一个信号与干扰加噪声比(Signal to Interference plus Noise Ratio,SINR)的对数函数。χINNER=pi,kHj,k表示用户终端j在当前基站服务下受到的层内同频干扰。
[0088] 本实施例中,用户终端i与用户终端j的最大传输速率表示为:
[0089] ri,k=log2(1+γi,k),rj,k=log2(1+γj,k),γi,k=pi,kHi,k,
[0090] 即:
[0091] ri,k=log2(1+pi,kHi,k),
[0092]
[0093] A16,确定系统功率消耗UP(X)
[0094] 本实施例中,考虑小基站具有能量回收单元,所述系统功率消耗UP(X)表示为:
[0095]
[0096] 本实施例中,pk表示电路消耗功率;ψ表示基站能量回收系数,可根据实际硬件属性更改。
[0097] A17,根据确定的γn,k和UP(X),确定系统能量效率
[0098] 本实施例中,根据得到的基站子载波k到用户终端n的最大无失真信息传输速率rn,k和系统功率消耗UP(X),计算子载波k到用户终端n的能量效率een,k:
[0099]
[0100] 其中, 表示子载波k信道带宽。
[0101] 本实施例中,系统能量效率表示为:
[0102]
[0103] 其中,een,k表示子载波k到用户终端n的能量效率, 表示子载波k信道带宽,N表示用户终端的集合,K表示当前基站下可使用的子载波的集合。
[0104] A17,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型
[0105] 本实施例中,对不符合预设的建模约束条件(所述建模约束条件由用户间公平性原则、服务质量最低标准、跨层干扰上限等因素决定)的系统能量效率,以基于值回报的弱监督算法,按照不符合建模约束条件的种类对该系统能量效率做惩罚,得到深度增强学习模型做出决策动作后的回报函数,并将回报函数反馈回深度增强学习模型;其中,所述回报函数表示为:
[0106]
[0107] 其中,rewardt表示第t次训练时计算的回报函数;Rmin表示用户服务质量(Quality of Service,QoS)最低标准,即最低下行传输速率;Hinnter表示工作于相同子载波频率的最近基站与当前优化的基站之间最短距离对应的归一化信道系数,可根据步骤A12中的方法计算;Ik表示第k个子载波频段能承受的跨层(跨站)干扰上限,根据具体应用设定调整干扰上限值;ξcase1~ξcase3表示三种不符合建模约束的情况对能量效率的惩罚系数。
[0108] 另需要说明的是:在直接以系统能量效率作为回报函数时,xn,k、α还需满足其他约束条件,结合上述约束条件,此时,xn,k、a需满足的约束条件为:
[0109]
[0110] 其中,BSpeak表示小基站峰值功率;条件1 强制用户终端只能同时与1个子载波相关联;条件2 限制了非正交多址接入网络中,同一个子载
波上复用的最大用户数量,该数量为Kmax,目的是减少站内干扰并降低串行干扰消除器的复杂度;条件3 为QoS约束,由基站服务的所有用户终端的信息传输速率
应超过用户服务质量最低限制。条件4 是对从基站在子载波k的最
大发射功率的限制。条件5 是一种有效的干扰协调机制,限制当前优
化的基站对于其他基站的干扰。条件6 是分配功率时,对衰减因子的限制。
[0111] A18,将回报函数、信道环境、决策动作和转移次态存入DQN记忆回放单元[0112] 本实施例中,将回报函数、信道环境、决策动作和转移次态(转移到的状态)作为四元组存入DQN记忆回放单元memory,memory表示为:
[0113] memory:D(t)={e(1),...,e(t)}
[0114] e(t)=(s(t),a(t),r(t),s(t+1))
[0115] 其中,s(t)表示第t次训练模型时输入的归一化信道系数(状态);a(t)表示第t次训练深度增强学习模型时,DQN做出的决策动作,即用户-子载波关联矩阵;r(t)表示第t次训练深度增强学习模型时,DQN在动作a(t)做出后,得到的回报函数rewardt;s(t+1)表示t+1次训练深度增强学习模型时,根据有限状态的时变马尔科夫信道更新后的归一化信道系数(次态)。
[0116] 本实施例中,通过对记忆回放类进行定义,并将memory设为对象数组或字典的数据结构,存储每组e(t)。
[0117] A19,使用批处理模式训练深度增强学习模型,从DQN记忆回放单元随机选取固定大小的批量记忆数据用于两张卷积神经网络的学习以及梯度下降更新。
[0118] 本实施例中,利用损失函数Loss(θ)处理记忆数据,损失函数Loss(θ)表示为:
[0119]
[0120] 梯度下降更新公式表示为:
[0121]
[0122] 其中, 表示训练学习速率;λ表示对决策体次态评估的折扣因子;表示在输入为当前记忆e(t)的次态s(t+1)时,权值为θtarget的卷积
神经网络qtarget决策出的能够收获最大回报的动作a′;Q(s(t),a(t);θeval)表示在输入为当前记忆e(t)的状态s(t)时,权值为θeval的卷积神经网络qeval执行动作a(t)所获得的回报值;
表示对参数为θeval的卷积神经网络做梯度下降运算,即修改卷积神经网络qeval的参数θeval,使得卷积神经网络qtarget与qeval的输出相减后最小。
[0123] 本实施例中,减法Q(s(t),a(t);θeval)的操作属于对应动作索引位置的操作,如记忆单元e(1)选择了动作2,则通过梯度下降更新公式,仅更新两张卷积神经网络中[1,2]处的数值,第一个维度中其余动作对应的数值不变,并且为保证训练的稳定性,梯度下降只更新卷积神经网络qeval的参数。
[0124] A20,在深度增强学习模型训练过程中每隔固定次数,更新qtarget参数为qeval参数,表示为:
[0125]
[0126] 其中,Citer表示训练中的计数器,用于记录训练次数;Cmax表示qtarget参数与qeval参数的更新间隔,同时也为Citer的变化周期,因此Citer等于Cmax时,予以归零。
[0127] A21,由步骤A19和A20更新后得到的qtarget网络参数和qeval网络参数,若连续多次优化的系统能量效率值与预设阈值(指定值)之间的差值在预设的范围之内,或高于预设阈值,则可认为该深度增强学习模型可以适用于此时变信道环境的无线资源分配,当前分配的下行功率为时变信道环境下功率局部最优分配,当前深度增强学习模型对网络资源的分配达到该时变环境下的局部最优,所得深度增强学习模型可在实际时变信道环境下持续使用;
[0128] A22,否则,按 更新环境,判断Citer=Cmax是否成立,若成立,则令Citer=0、θtarget=θeval,再执行步骤A12;否则,直接执行步骤A12,直至重新计算得到的系统能量效率值与预设阈值之间的差值在预设的范围内,或高于预设阈值,此时,达到时变信道环境中的最佳优化。
[0129] 本实施例中,随着优化次数t的增加,DQN模型在时变信道环境中的回报值会从低逐渐趋向于较高平,该过程即为基于深度增强学习的无线网络资源分配方法,从而实现时变信道环境中对子载波、功率分配的优化。
[0130] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0131] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈