频谱资源受限下的广义感知模型及分布式Q学习接入方法专利检索-认知计算人工智能专利检索查询-专利查询网

频谱资源受限下的广义感知模型及分布式Q学习接入方法

阅读：259发布：2020-05-12

专利汇可以提供频谱资源受限下的广义感知模型及分布式Q学习接入方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种频谱资源受限下的广义感知模型及分布式Q学习感知接入方法。所述模型为：考虑频谱资源受限和网络环境的动态性，针对多时隙信道感知顺序优化问题，提出一种基于添零拉丁方矩阵的信道感知机制。所述方法步骤如下：首先构建博弈模型，参与者是网络内所有认知用户；基于所述广义感知模型，各个用户从相应的添零拉丁方矩阵中随机选择一个信道感知顺序策略并进行感知；每个活跃用户计算当前状态的回报值并以此为依据进行下一时隙的Q值更新和概率更新；认知用户循环进行时隙感知，直至所有认知用户的信道感知顺序策略选择全部实现收敛。本发明在频谱资源受限条件下，有效降低了多时隙信道感知顺序冲突，提高了系统认知用户的吞吐量。，下面是频谱资源受限下的广义感知模型及分布式Q学习接入方法专利的具体信息内容。

权利要求

1.一种基于频谱资源受限下的广义感知模型的分布式Q学习感知接入方法，其特征在于，考虑频谱资源受限和网络环境的动态性，针对多时隙信道感知顺序优化问题，建立一种基于添零拉丁方矩阵的信道感知机制，信道感知顺序周期由多个时隙周期组成，时隙周期分为两个阶段：感知阶段和传输阶段；网络内所有认知用户在资源受限情况下，即认知用户数大于信道数时，每个时隙内选择单个信道进行感知；认知用户根据信道感知情况，判断在当前时隙剩余时间内选择接入或者保持静默；所有用户从添零拉丁方矩阵中选择信道感知顺序策略进行感知；各个认知用户受到的信道感知顺序冲突水平为，该认知用户与其它认知用户同时接入同一个空闲信道所造成的累积冲突；
具体包括以下步骤：
步骤1，将多时隙信道感知顺序优化问题建模为势能博弈，博弈的参与者是网络内所有认知用户；
步骤2，初始化所有用户的策略空间集，Q值以及用户对于每个策略的选择概率；
步骤3，每个活跃用户依照概率从自身策略空间集中选择一个信道感知顺序策略，并进行信道感知、竞争和数据传输过程，计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值，并以此作为当前策略选择的回报值；
步骤4，每个活跃用户根据回报值更新Q值，并进一步更新每个策略的选择概率；
步骤5，循环步骤3～步骤5进行信道感知，直至每个认知用户选择策略收敛至稳定，循环结束。
2.根据权利要求1所述基于频谱资源受限下广义感知模型的分布式Q学习感知接入方法，其特征在于，步骤1中将多时隙信道感知顺序优化问题建模为势能博弈模型，该博弈模型定义为：
该博弈模型中包含三个组成部分，为活跃认知用户集合，即博弈参与者；An为活跃认知用户n的信道感知顺序策略空间集合；un为活跃认知用户n的效用函数。
3.根据权利要求1所述基于频谱资源受限下广义感知模型的分布式Q学习感知接入方法，其特征在于，步骤3中每个活跃用户计算在当前信道感知顺序周期选择当前信道感知顺序策略的效用函数值，具体如下：
一个信道感知顺序周期由多个时隙周期组成；一个时隙周期分为两个阶段：感知阶段和传输阶段；网络内所有认知用户，在每个时隙内选择单个信道进行感知，并根据感知情况决定在剩余时间内接入信道或者保持静默；定义τ表示每个时隙内用户感知单个信道所需的归一化时长；定义用户n的吞吐量为每个时隙用来传输数据的归一化时长，且的定义如式(1)所示：
其中ji表示第j个信道感知顺序周期中第i个时隙；
定义用户n在第j个信道感知顺序周期的平均吞吐量则为且的定义如式(2)所示：
其中N为所有认知用户的个数；
记此时认知用户n选择的信道感知顺序策略为an＝(qn1,qn2,...,qnN)，定义任意用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数为且
的定义如式(3)所示：
4.根据权利要求1所述基于频谱资源受限下广义感知模型的分布式Q学习感知接入方法，其特征在于，步骤4中每个活跃用户根据回报值更新Q值，并进一步更新每个策略的选择概率，具体如下：
用户利用如下公式更新Q值：
其中表示用户n在第k个信道感知顺序周期选择信道感知顺序策略an的更新后的Q值，表示用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数；
更新Q值后，用户进一步更新每个策略的选择概率，选择概率更新如式(5)如示：
其中表示用户n在接下来的第k+1个信道感知顺序周期选择信道感知顺序策略an的概率，γ为学习参数。

说明书全文

频谱资源受限下的广义感知模型及分布式Q学习接入方法

技术领域

[0001] 本发明属于无线通信技术领域，提出了一种频谱资源受限情况下的广义信道感知模型及分布式Q学习算法。

背景技术

[0002] 频谱需求的急剧增长和某些频段的低效利用促生了机会频谱接入技术(Opportunistic Spectrum Access，OSA)。机会频谱接入需要可重新配置的网络设备，被称为认知无线电(Cognitive Radio，CR)设备，它可以根据其相应环境刺激而改变行为(参考文献J.Mitola III and G.Q.Maguire Jr.，“Cognitive Radio:Making Software Radio more Personal，”IEEE Pers.Communications，vol.6，no.4，pp.13–18，Aug.1999)。这些认知设备或认知用户(Secondary User，SU)需要通过频谱检测确保当主用户(Primary User，PU)活跃时不占用该频段，从而避免对主用户造成干扰。因此，机会频谱接入技术可以更高效利用授权频谱。

[0003] 在机会频谱接入中，用户采用多时隙传输模式。次级用户在每个时隙的第一阶段感知信道，第二阶段用来接入空闲信道(参考文献Z.Khan，J. L.DaSilva，and M.Latva-aho，“Autonomous sensing order selection strategies exploiting channel access information，”IEEE Trans.Mobile Comput.，vol.12，no.2，pp.274–288，Feb.2013.)。同时为了确保不影响主用户工作，即当主用户要工作时，认知用户应立即让出该信道(参考文献Q.Zhao，S.Geirhofer，L.Tong，and B.M.Sadler，“Opportunistic spectrum access via periodic channel sensing，”IEEE Transactions on Signal Processing，vol.56，no.2，pp.785–796，Feb.2008.)，主用户需要对频谱进行周期感知。目前的周期感知策略主要分为两类：单信道周期感知策略和信道顺序周期感知策略。在单信道周期感知策略下，认知用户在每个时隙首先选择单个信道进行感知，如果发现空闲则立即接入，否则在该时隙剩余时间保持静默。在信道顺序周期感知策略下，次级用户首先选择一个信道感知顺序，然后在多时隙内按照信道感知顺序对信道依次感知。在信道顺序周期感知策略相关研究中，R.Fan等人针对两个次级用户网络通过一个协调器实现最佳感知顺序(参考文献R.Fan and H.Jiang“, Channel sensing-order setting in cognitive radio networks:a two-user case,”IEEE Transactions on Vehicular Technology,vol.58,no.9,pp.4997–5008,Nov.2009.)，但是当认知网络中存在大量用户时，协调难度很大。H.T.Cheng等人假设认知用户知道每个信道的增益，并且每个认知用户根据信道速率降序依次排列信道(参考文献H.T.Cheng and W.Zhuang,“Simple channel sensing order in cognitive radio networks,”IEEE Journal on Selected Areas in Communications,vol.29,no.4,pp.676–688,2011.)。Z.Khan等人为了避免认知用户之间发生碰撞，提出了一种自适应持续策略算法(参考文献Z.Khan,J. L.DaSilva,and M.Latva-aho“,Autonomous sensing order selection strategies exploiting channel access information,”IEEE Trans.Mobile Comput.,vol.12,no.2,pp.274–288,Feb.2013.)。Y.Xu等人考虑用户动态性、网络环境不确定信息等，将问题建模为非合作博弈模型，并提出了一种在线随机学习算法(参考文献Y.Xu,Q.Wu,J.Wang,L.Shen,and A.Anpalagan,“Robust multiuser sequential channel sensing and access in dynamic cognitive radio networks:Potential games and stochastic leraning,”IEEE Transactions on Vehicular Technology,vol.64,no.2,pp.3594-3607,August.2015.)。

[0004] 然而，上述提到的研究中大多数忽略了频谱资源受限(认知用户数大于信道数)和网络环境动态性改变的问题，而在实际的通信场景中，系统资源并非时刻充足，用户并不是时刻活跃的，同时认知网络中信道占用情况也是时变的。

发明内容

[0005] 本发明的目的在于提供一种能够降低多时隙信道感知顺序冲突，提高了系统认知用户吞吐量的频谱资源受限下的广义感知模型以及分布式Q学习感知接入方法。

[0006] 实现本发明目的的技术解决方案为：

[0007] 一种频谱资源受限下的广义感知模型，信道感知顺序周期由多个时隙周期组成。时隙周期分为两个阶段：感知阶段和传输阶段；网络内所有认知用户，在资源受限情况下，即认知用户数大于信道数时，每个时隙内选择单个信道进行感知；认知用户根据信道感知情况，判断在当前时隙剩余时间内选择接入或者保持静默；所有用户从添零拉丁方矩阵中选择信道感知顺序策略进行感知；各个认知用户受到的信道感知顺序冲突水平为，该认知用户与其它认知用户同时接入同一个空闲信道所造成的累积冲突。

[0008] 一种基于所述频谱资源受限下广义感知模型的分布式Q学习感知接入方法，包括以下步骤：

[0009] 步骤1，将多时隙信道感知优化问题建模为势能博弈模型，博弈的参与者是网络内所有认知用户；

[0010] 步骤2，初始化所有用户的策略空间集，Q值以及用户对于每个策略的选择概率；

[0011] 步骤3，每个活跃用户依照概率从自身策略空间集中选择一个信道感知顺序策略，并进行信道感知、竞争和数据传输过程，计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值，并以此作为选择当前策略的回报值；

[0012] 步骤4，每个活跃用户根据回报值更新Q值，并进一步更新每个策略的选择概率；

[0013] 步骤5，循环步骤3～步骤5进行信道感知，直至每个认知用户选择策略收敛至稳定，循环结束。

[0014] 进一步地，步骤1中将多时隙信道感知顺序优化问题建模为势能博弈模型，该博弈模型定义为：

[0015]

[0016] 该博弈模型中包含三个组成部分，为活跃认知用户集合，即博弈参与者；An为活跃认知用户n的信道感知顺序策略空间集合；un为活跃认知用户n的效用函数。

[0017] 进一步地，步骤3中每个活跃用户计算在当前信道感知顺序周期选择此时感知顺序策略的效用函数值，具体如下：

[0018] 一个信道感知顺序周期由多个时隙周期组成；一个时隙周期分为两个阶段：感知阶段和传输阶段；网络内所有认知用户，在每个时隙内选择单个信道进行感知，并根据感知情况决定在剩余时间内接入信道或者保持静默；定义τ表示每个时隙内用户感知单个信道所需的归一化时长；定义用户n的吞吐量为每个时隙用来传输数据的归一化时长，且的定义如式(1)所示：

[0019]

[0020] 其中ji表示第j个信道感知顺序周期中第i个时隙。

[0021] 定义用户n在第j个信道感知顺序周期的平均吞吐量则为且的定义如式(2)所示：

[0022]

[0023] 其中N为所有认知用户的个数。

[0024] 记此时认知用户n选择的信道感知顺序策略为an＝(qn1,qn2,...,qnN)，定义任意用户n在第k个信道感知顺序周期时选择信道感知顺序策略rn的效用函数为且的定义如式(3)所示：

[0025]

[0026] 进一步地，步骤4中每个活跃用户根据回报值更新Q值，并进一步更新每个策略的选择概率，具体如下：

[0027] 用户利用如下公式更新Q值：

[0028]

[0029] 其中表示用户n在第k个信道感知顺序周期选择信道感知顺序策略an的更新后的Q值，表示用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数。

[0030] 更新Q值后，用户进一步更新每个策略的选择概率，选择概率更新如式(5)如示：

[0031]

[0032] 其中表示用户n在接下来的第k+1个信道感知顺序周期选择信道感知顺序策略an的概率，γ为学习参数。

[0033] 本发明与现有技术相比，其显著优点在于：(1)充分考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性，针对多时隙信道感知顺序优化问题，提出一种基于添零拉丁方矩阵的信道感知机制和受限情况下的广义感知模型，更好地刻画了频谱资源受限下多用户感知信道的竞争与干扰问题；(2)将多时隙信道感知顺序优化问题构建为势能博弈，并利用分布式Q学习算法求解问题，达到系统存在的纳什均衡点，从而降低资源受限下多时隙信道感知顺序冲突，提高了系统认知用户的吞吐量。附图说明

[0034] 图1是本发明频谱资源受限情况下的广义感知模型的系统示意图。

[0035] 图2是本发明M＝3时的拉丁方阵。

[0036] 图3是本发明添零拉丁方矩阵生成信道感知顺序策略选择的过程示意图。

[0037] 图4是本发明实施例中系统用户的干扰拓扑示意图。

[0038] 图5是本发明实施例中模型方法与现有模型方法的网络吞吐量性能比较示意图。

具体实施方式

[0039] 本发明频谱资源受限情况下的广义感知模型，旨在对多时隙信道感知顺序优化问题进行更加精确地刻画。考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性，针对多时隙信道感知顺序优化问题，提出一种基于添零拉丁方矩阵的信道感知机制。信道感知顺序周期由多个时隙周期组成。时隙周期分为两个阶段：感知阶段和传输阶段。网络内所有认知用户根据感知情况选择接入信道或者保持静默。

[0040] 图1是本发明所提出的频谱资源受限下的广义感知模型，对多时隙信道感知进行如下刻画：考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性，即认知用户并非时刻活跃，只有在有数据传输的时候才活跃，认知网络中信道占用情况也是时变的。信道感知顺序周期由多个时隙周期组成。时隙周期分为两个阶段：感知阶段和传输阶段。网络内所有认知用户根据感知情况选择接入信道或者保持静默。

[0041] 在该模型中，包括1个宏基站，N个微蜂窝，N个认知用户，M个正交可用信道，且N＞M。在用户数大于信道数时，必然存在多个用户选择相同的信道感知顺序策略从而发生冲突，结合图2与图3，本发明提出一种添零拉丁方矩阵来避免冲突。拉丁方矩阵指的是每个信道索引在矩阵的每一行和每一列中只出现一次的矩阵。为了便于理解，图2给出了信道数M＝3时的拉丁方矩阵。但频谱资源受限下，即N＞M时，由于信道感知顺序策略空间集合拉丁方矩阵中共有M种策略，必然存在大于或等于两个用户选择相同的信道感知顺序策略从而发生碰撞。为解决该问题，构想在信道感知顺序策略空间集合拉丁方矩阵中第一行添加(N-M)个0，0代表用户不感知信道，从而生成新的策略空间集合，共有N种策略。则此时用户n的信道感知顺序rn＝(qn1,qn2,...,qnM)变为rn＝(qn1,qn2,...,qnN)，即用户在第一个时隙感知信道感知顺序策略中的第一个信道，第二个时隙感知信道感知顺序策略中的第二个信道，依次进行感知。因此可实现每个用户选择的信道感知顺序策略互不相同，从而避免发生碰撞。

[0042] 本发明基于干扰水平与吞吐量之间的近似反比例关系，将优化目标设计为最小化全网累积干扰水平，以达到最大化网络吞吐量的目标。本发明基于所述频谱资源受限下广义感知模型的分布式Q学习感知接入方法，包括以下步骤：

[0043] 步骤1，将多用户多时隙接入信道问题建模为势能博弈模型，博弈的参与者是网络内所有认知用户；

[0044] 步骤2，初始化所有用户的策略空间集，Q值以及用户对于每个策略的选择概率；

[0045] 步骤3，每个活跃用户依照概率从自身策略空间集中选择一个信道感知顺序策略，并进行信道感知、竞争和数据传输过程，计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值，并以此作为选择当前策略的回报值；

[0046] 步骤4，每个活跃用户根据回报值更新Q值，并进一步更新每个策略的选择概率；

[0047] 步骤5，循环步骤3～步骤5进行信道感知，直至每个认知用户选择策略收敛至稳定，循环结束。

[0048] 本发明的具体实施如下：

[0049] 一、步骤1中所述将多时隙信道感知顺序优化问题建模为势能博弈模型，该博弈模型定义为：

[0050]

[0051] 该博弈模型中包含三个组成部分：为活跃认知用户集合，即博弈参与者；An为活跃认知用户n的信道感知顺序策略空间集合；un为活跃认知用户n的效用函数。

[0052] 二、步骤3所述每个活跃用户计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值，具体如下：

[0053] 一个信道感知顺序周期由多个时隙周期组成；一个时隙周期分为两个阶段：感知阶段和传输阶段；网络内所有认知用户，在每个时隙内选择单个信道进行感知，并根据感知情况决定在剩余时间内接入信道或者保持静默；定义τ表示每个时隙内用户感知单个信道所需的归一化时长；定义用户n的吞吐量为每个时隙用来传输数据的归一化时长，且的定义如式(1)所示：

[0054]

[0055] 其中ji表示第j个信道感知顺序周期中第i个时隙。

[0056] 定义用户n在第j个信道感知顺序周期的平均吞吐量则为且的定义如式(2)所示：

[0057]

[0058] 其中N为所有认知用户的个数。

[0059] 记此时认知用户n选择的信道感知顺序策略为an＝(qn1,qn2,...,qnN)，定义任意用户n在第k个信道感知顺序周期时选择信道感知顺序策略rn的效用函数为且的定义如式(3)所示：

[0060]

[0061] 三、步骤4所述每个活跃用户根据回报值更新Q值，并进一步更新每个策略的选择概率，具体如下：

[0062] 用户利用如下公式更新Q值：

[0063]

[0064] 其中表示用户n在第k个信道感知顺序周期选择信道感知顺序策略an的更新后的Q值，表示用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数。

[0065] 更新Q值后，用户进一步更新每个策略的选择概率，选择概率更新如式(5)如示：

[0066]

[0067] 其中表示用户n在接下来的第k+1个信道感知顺序周期选择信道感知顺序策略an的概率，γ为学习参数。

[0068] 四、博弈的优化目标：考虑到不完美信道感知情况，即漏检情况和误检情况，记Pα和Pβ分别为误检概率和漏检概率，Pc为信道c空闲概率。在不完美信道感知情况下，信道c被用户n感知为空闲的概率为Pc(1-Pα)Pβ。同时，考虑到用户并不是时刻活跃的，只有活跃用户才参与上述过程，记为当前时隙活跃用户的集合，an＝(qn1,qn2,...,qnN)和am＝(qm1,qm2,...,qmN)分别为用户n和用户m的信道感知顺序。活跃用户集合中用户n的冲突水平定义为：

[0069]

[0070] 其中，

[0071]

[0072] ⊙是位异或符号，是用户n信道感知序列中信道qnl空闲的概率，Pα是误检概率，Pβ是漏检概率，δ是指示函数，满足：

[0073]

[0074] 其中，dnm为活跃用户n与m之间的实际距离，d0为邻居用户距判别门限值。

[0075] 由于用户选择信道感知顺序策略后的效用值受其他活跃用户的策略影响，因此用户n的效用函数可表示为如式(9)所示：

[0076]

[0077] 用户以(9)的效用函数为优化目标进行多时隙信道感知选择，最终可以实现全网累积干扰水平最小化的优化目标如式(10)所示：

[0078]

[0079] 公式(10)说明，多时隙信道感知的博弈优化目标为最小化全网累积干扰水平。以公式(10)为优化目标进行多时隙信道感知选择，能够实现最小化全网累积干扰水平。

[0080] 进一步地，进行多时隙信道感知，步骤如下：

[0081] 1)初始化：每个用户随机从添零拉丁方矩阵中选择一个信道感知顺序策略进行感知。

[0082] 2)感知：各个用户根据自身选择的信道感知顺序策略an＝(qn1,qn2,...,qnN)依次对信道进行感知，即用户在第一个时隙感知信道感知顺序策略中的第一个信道，第二个时隙感知信道感知顺序策略中的第二个信道，依次进行感知。各认知用户根据感知情况选择接入信道或者保持静默，计算在当前迭代次数时选择当前策略得到的回报值。

[0083] 3)计算回报：各认知用户根据感知情况选择接入信道或者保持静默，并按照公式(3)计算选择当前策略得到的回报值。

[0084] 4)Q值更新和概率更新：各个用户根据当前状态分别按照公式(4)和(5)进行Q值更新和概率更新。

[0085] 实施例1

[0086] 本发明的一个具体实施例如下：系统仿真采用Matlab 软件，参数设定不影响一般性。该实施例验证所提模型与方法的有效性和与收敛性。场景设置为在100m×100m的区域内，用户数N＝10，信道数M＝4，该网络中干扰距离门限值d0＝30m。每个时隙时长为T＝100ms，感知单个信道时长为Tsense＝5ms，归一化后感知时长为τ＝0.05。仿真中加入了不完美信道感知的情况，误检概率Pα＝0.05，漏检概率Pβ＝0.1。Q学习算法参数γ＝1000，无悔学习算法参数μ＝4。

[0087] 本发明提出的频谱资源受限情况下的广义感知模型的分布式Q学习算法，具体步骤如下：

[0088] 步骤1，初始化：初始化迭代次数k＝0，每个认知用户从添零拉丁方矩阵中随机选择一个信道感知顺序策略进行感知。

[0089] 步骤2，计算回报值：每个活跃用户根据感知结果计算选择各自效用函数值，并以此作为选择当前策略的回报值。

[0090] 步骤3，Q值更新和概率更新：各个用户根据回报值进行Q值更新和概率更新。

[0091] 步骤4，策略收敛：循环执行步骤2、3多次后，直至每个认知用户选择一个信道感知顺序策略均接近1时(大于0.99)，系统实现收敛。

[0092] 图4为系统用户的干扰拓扑示意图。图中圆点表示认知用户，其覆盖半径为10m，虚线表示认知用户之间因为距离小于干扰距离门限值而产生的干扰。从图4中可以看出，当前认知用户分布密集，认知用户之间的干扰关系复杂。优化全网吞吐量为目标，图5展示了所提方法模型与传统方法模型的比较。从图5可以看出，所提模型与方法在频谱资源受限条件下有效降低了感知顺序冲突，且系统用户总吞吐量性能明显优于随机选择算法。

[0093] 综上，本发明提出的频谱资源受限情况下的广义感知模型考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性，针对多时隙信道感知顺序优化问题，提出一种基于添零拉丁方矩阵的信道感知机制，解决了资源受限下多时隙信道感知顺序优化问题，降低了全网累积干扰水平，增加了全网吞吐量；在达到相同效果的同时，提升了优化问题的收敛速度；利用分布式Q学习感知接入方法实现了完全分布式的时隙接入，避免了集中式方式存在的计算量大的缺陷，更加适用于超密集网络场景。

标题	发布/更新时间	阅读量
基于沉浸式的手脚部混合的注意力测训装置及系统	2020-05-08	262
一种考虑用户有限理性的电动汽车充电需求分析方法	2020-05-12	488
用于运行成像的定位设备的方法以及成像的定位设备	2020-05-12	898
一种认知障碍训练与评估系统和方法	2020-05-08	71
一种基于虚拟现实技术的自闭症训练系统、方法及装置	2020-05-11	915
一种方便快捷的神经认知功能评估方法及装置	2020-05-13	394
脑网络多特征分析的轻度认知障碍辅助诊断系统及方法	2020-05-11	41
学习特征数据的处理方法及装置、电子设备	2020-05-08	121
一种基于5G网络的沉浸式可视化校园系统	2020-05-13	636
一种小学数学圆面积认知教学用探究教具	2020-05-12	41

频谱资源受限下的广义感知模型及分布式Q学习接入方法

频谱资源受限下的广义感知模型及分布式Q学习接入方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：