首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 强化学习 / 一种基于多智能体Q学习的车载通信MAC层信道接入方法

一种基于多智能体Q学习的车载通信MAC层信道接入方法

阅读:355发布:2020-05-12

专利汇可以提供一种基于多智能体Q学习的车载通信MAC层信道接入方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于多智能体Q学习的车载通信MAC层信道接入方法,在VANETs环境中每个车辆 节点 构建自己的联合状态—动作对映射关系和联合策略;然后判断VANET网络中是否有新的车辆节点加入;若有,则新加入的车辆节点通过迁移学习快速获取动作空间、 状态空间 、和奖赏函数,此后每个车辆节点更新自己的联合状态—动作对关系和联合策略;若没有,则判断当前车辆节点是否有数据需要发送;若有数据要发送,则根据eCEQ 算法 确定满足相关均衡的动作策略解;从动作集中选择能使多智能体系统最终达到相关均衡的动作;确定CW值并以该CW值接入无线信道发送数据。本发明提高了数据成功发送的概率,减少了退避次数,数据包接收率及端到端传输时延问题等都得到有效改善。,下面是一种基于多智能体Q学习的车载通信MAC层信道接入方法专利的具体信息内容。

1.一种基于多智能体Q学习的车载通信MAC层信道接入方法,其特征在于,所述方法包括如下步骤:
步骤1:在VANETs环境中,每个车辆节点根据当前网络环境和其他车辆节点构建自己的联合状态—动作对映射关系和联合策略;
步骤2:判断VANET网络中是否有新的车辆节点加入;
步骤3:若有,则新加入的车辆节点通过迁移学习快速获取动作空间、状态空间、和奖赏函数,此后每个车辆节点更新自己的联合状态—动作对关系和联合策略;
步骤4:若没有,则判断当前车辆节点是否有数据需要发送;
步骤5:若有数据要发送,则根据eCEQ算法确定满足相关均衡的动作策略解;
步骤6:从{I,K,R}动作集中选择能使多智能体系统最终达到相关均衡的动作;
步骤7:执行完动作后确定CW值,以该CW值接入无线信道发送数据;
步骤8:当前车辆节点是否还有消息需要发送,若无,则结束;若有,则返回执行步骤2;
QL-CWMulti-agent算法包括如下内容:
整个车载自组织网络中车辆数量为N,即多智能体Q学习系统中智能体集合为N={1,
2,...,N},用An表示车载自组织网络中车辆n在接入信道的退避过程中可执行动作的离散集An∈{I,K,R},即包括增加(Increase)竞争窗口、保持(Keep)竞争窗口大小不变、减小(Reduce)竞争窗口,车辆n在某时刻从An中选取执行的动作用an表示,那么N辆车在退避过程中选取竞争窗口值的联合动作集为A=A1×A2×...×AN,车辆某时刻接入无线信道所用的竞争窗口值即环境状态的离散集为S={15,31,63,127,255,511,1023},用Rn表示车辆n在接入信道过程中成功发送数据从网络环境中获得报酬的奖赏函数,由于多智能体系统的奖赏值取决于全部车辆的联合动作,则奖赏值用S×A→R表示,车辆n在t时刻采取固定的一步策略 则联合策略用π表示;
车载自组织网络中车辆节点需要发送数据接入无线信道的退避过程中,任意两个车辆节点之间的动作模型、状态空间和奖赏函数都相同,那么当车载自组织网络中有新的车辆加入时,由于某一车辆节点学习所得的知识可用于强化其他车辆节点的学习,这样改善车辆节点的学习速度和效率,为使新车辆节点快速学习适应网络环境,就迁移学习直接向其他车辆节点学习,从而快速学得自己的状态—动作对映射关系和更新Q表的Q值迭代方法,最终目标是使新加入车载自组织网络的车辆节点利用最少的从其他车辆节点学到的先验知识快速学习适应环境和解决任务,所以多智能体系统中各智能体之间进行知识迁移,新加入的车辆节点利用迁移学习更快地学习网络环境,迁移学习过程如下:
迁移什么:任意两个车辆节点在Q学习过程中的动作空间、状态空间及奖赏函数都相同,所以车载自组织网络中的车辆节点通过Q学习得到的Q表就通过迁移学习迁移到新加入车载自组织网络的车辆节点,考虑到通信开销,只迁移Q表中前q个最大项(按Q值排序);
如何迁移:使用广播通信根据请求对已学信息进行广播;
何时迁移:当有新的车辆节点加入车载自组织网络时进行迁移;
具体迁移过程为:当有新的车辆节点加入车载自组织网络时,新车辆节点会广播一条迁移请求信息,每个接收到这条消息的车辆节点启动定时器,定时器值与车间距离成反比,定时器先到时的车辆先广播自己Q表中最大的q项,新加入的车辆节点一旦接收到迁移信息,就根据迁移信息更新自己的Q表,从而加快学习过程。
2.根据权利要求1所述的基于多智能体Q学习的车载通信MAC层信道接入方法,其特征在于步骤3中,若有新的车辆节点加入VANET中时,新加入的节点会通过迁移学习快速获取状态空间、动作空间和奖赏函数,并构建受其他车辆节点约束的联合状态—动作对映射关系和联合策略。

说明书全文

一种基于多智能体Q学习的车载通信MAC层信道接入方法

技术领域

[0001] 本发明属于物联网技术领域,涉及车载通信中的基于多智能体Q学习的MAC层信道接入的实现方法。

背景技术

[0002] 自第二次工业革命发明了机动车辆之后,随着汽车领域的快速发展,汽车已成为人们现代生活中不可或缺的一部分。随着人们日常生活节奏的加快,公共汽车、私家车等交通工具的使用日益普遍。汽车在为人们日常出行带来便利的同时也引发了许多问题,例如交通拥堵、环境污染、交通事故等。其中交通堵塞已成为严重的社会问题,为道路使用者带来很多难题,每年由于交通堵塞造成大量燃料浪费和时间浪费。不仅使人们日常出行将大量时间浪费在车路上,燃料浪费及尾气排放等造成的雾霾严重危害着人类健康。交通事故也已成为人类生活的最大威胁之一。鉴于此,就需要未来车辆出行更安全、更绿色(例如尾气排放更少)、完全自动化、让乘客有更舒适的娱乐体验等。因此为使交通基础设施更加安全和高效,交通系统就必须足够智能。ITS(Intelligent Transportation Systems,智能交通系统)为改善道路交通安全、缓解交通拥堵、减少汽车油耗保护环境应运而生,在学术界和工业领域都受到广泛关注。ITS旨在利用信息和通信技术提高未来交通系统的质量、效率和安全。未来将会部署更先进的ITS技术有效管理城市交通,提高高速公路及道路安全。另外,通过ITS技术接入宽带网络有望能彻底变革乘客和司机QoE(quality of experience,质量体验)的娱乐应用。而VANET(vehicular ad-hoc network,车载自组织网络)能支持ITS应用,作为ITS的重要组成部分旨在改善交通安全,提高交通效率,通过缓解交通拥堵减少油耗保护环境,为乘客提供安全舒适的体验,因此大多新型应用(例如行动资讯娱乐)应运而生。VANETs应用可被分为以下几类:安全相关应用、交通管理和交通效率应用、用户娱乐服务及网络连通性应用等。这些VANETs应用对VANET网络的需求各不相同。安全消息要保证快速访问且传输时延要短,消息仅在短时间内有效。娱乐服务数据量较大,对同步要求比较严格。由于预期的VANETs应用各种各样,因此VANETs网络就需要支持各种需求。安全应用应能在相邻车辆之间无线广播警告消息以便快速通知司机危险情况。为确保效率,安全应用周期性传输数据时延要越低越好,而MAC(Media Access Control,介质访问控制)协议在VANET提供有效数据传输中起至关重要的作用。MAC协议位于数据链路层,它不仅要确保信道访问的公平性,还需提供多信道协作和差错控制。因此就必须为VANET设计高效可靠的MAC协议。
[0003] 目前已有多种VANETs MAC协议被相继提出,WAVE标准采用IEEE 802.11p实现MAC层,以CSMA/CA为基础。但是,当多辆车的退避计数器递减到零要同时接入信道时,基于CSMA的协议就会发生不可避免的碰撞,尤其是在高密度场景中,还会导致接入时延无限增加和严重的丢包。除了CSMA协议,大多数研究人员更倾向于在VANETs尤其是安全应用中采用基于TDMA的访问机制。TDMA协议为距离最接近的不同车辆分配不同的时隙,因此TDMA协议具有确定的信道接入时延,可扩展性好,传输干扰小。但是由于车载环境的高速移动性和网络密度的动态性,使VANETs分布式时隙调度变得非常困难。除此之外还有一些文献对传统的退避算法进行了改进,在传统二进制指数退避算法的基础上对MILD和EIED算法进行了研究和对比,对这两种算法进行优化后改善了网络性能,之后在newMILD算法基础上提出了基于统计次数的退避算法,即当车辆节点接入无线信道成功发送数据后,理应减小竞争窗口,但该算法设置了一个阈值用于增加数据发送失败的车辆节点接入无线信道的机会。当节点连续接入无线信道成功发送数据的次数大于该阈值时,就将该节点的竞争窗口值设为最大值。类似地,当节点接入无线信道发送数据连续失败的次数大于该阈值时,就将该节点的竞争窗口值设为最小值。最后通过仿真证明了该算法有效降低了隐藏节点对网络性能的影响,提高了节点接入无线信道的公平性。还有文献提出一种基于邻居节点数估计的最小竞争窗口调整算法,即Adaptive CWmin算法,该算法改变了最小CW(Contention Window,竞争窗口)的调整规则,并根据网络信道的使用情况动态地调整CWmin。在IEEE 802.11广播退避尔科夫模型的基础上推导了CW值和节点数量的关系,通过估测邻居节点的数量动态调整最小CW值,通过仿真证明该算法对提高广播接收率要优于其他方法。此外,节点成功发送数据后,根据函数计算出适应车载网络状况的最优的CWmin值。利用该文献中提出的算法在数据包重传之后选择合理的CW,缩短了竞争节点等待重传的时间,使网络吞吐量增加。
[0004] 但是上述现有技术都是在BEB算法的基础上进行了改进,总的来说,数据发生碰撞要退避时还是倍乘CW值,数据成功发送后CW就恢复为15,若有多个节点都同时成功发送完数据,CW值都恢复为15,再次发送数据时又发生碰撞。网络负载情况考虑较少,不适用于不同负载程度的网络,即对不同密度的交通流不具可扩展性,且信道接入公平性也没有得到有效改善。

发明内容

[0005] 本发明针对上述现有技术存在的一些问题,提出一种基于多智能体Q学习的车载通信MAC层信道接入的实现方法,该方法是基于多智能体Q学习的IEEE 802.11p MAC层数据传输方法——QL-CWMulti-Agent算法,它完全不同于以往传统的BEB算法,而是各个车辆节点在VANET网络环境中都利用Q学习算法,不断地与周围环境交互学习。车辆节点在VANETs环境中不断地反复试错,根据从周围环境中获得的反馈信号(即奖赏值),动态地调整竞争窗口(CW),新加入VANET网络环境中的车辆节点利用迁移学习更快地学习网络环境。车辆节点在网络环境中不仅要根据环境学习自己的状态——动作对映射关系,还要学习其他车辆节点的状态——动作对关系,从而为自己构建受其他车辆节点约束的联合状态——动作对关系,最终获得自己的联合策略,根据联合策略选择能使其他车辆节点也能获得最高奖赏值的CW值,使节点总能以最佳的CW(即从周围环境中获得奖赏值最大时所选的CW值)接入信道,以减少数据碰撞率和传输时延,提高节点接入信道的公平性。
[0006] 为此,本发明采取的技术方案是一种基于多智能体Q学习的车载通信MAC层信道接入方法,该方法包括如下步骤:
[0007] 步骤1:在VANETs环境中,每个车辆节点根据当前网络环境和其他车辆节点构建自己的联合状态—动作对映射关系和联合策略;
[0008] 步骤2:判断VANET网络中是否有新的车辆节点加入;
[0009] 步骤3:若有,则新加入的车辆节点通过迁移学习快速获取动作空间、状态空间、和奖赏函数,此后每个车辆节点更新自己的联合状态—动作对关系和联合策略;
[0010] 步骤4:若没有,则判断当前车辆节点是否有数据需要发送;
[0011] 步骤5:若有数据要发送,则根据eCEQ算法确定满足相关均衡的动作策略解;
[0012] 步骤6:从{I,K,R}动作集中选择能使多智能体系统最终达到相关均衡的动作;
[0013] 步骤7:执行完动作后确定CW值,以该CW值接入无线信道发送数据;
[0014] 步骤8:当前车辆节点是否还有消息需要发送,若无,则结束;若有,则返回执行步骤2。
[0015] 进一步的,步骤3中,若有新的车辆节点加入VANET中时,新加入的节点会通过迁移学习快速获取状态空间、动作空间和奖赏函数,并构建受其他车辆节点约束的联合状态—动作对映射关系和联合策略。
[0016] 与现有技术相比,本发明的有益效果:
[0017] 1、本发明的车辆节点利用Q学习算法与周围环境不断交互,根据网络环境反馈的奖赏信号,动态地调整竞争窗口,使节点下次发送数据时总能以最佳的CW值接入信道,提高了数据成功发送的概率,减少了退避次数,数据包接收率及端到端传输时延问题等都得到有效改善。
[0018] 2、新加入网络环境的车辆节点通过迁移学习快速学习状态——动作对映射关系,获得联合策略。采用本发明提出的QL-CWMulti-agent算法的通信节点能快速适应未知环境,数据包接收率和数据包传输时延都得到有效改善,更重要的是QL-CWMulti-agent算法能为节点接入信道提供更高的公平性,适用于各种不同负载程度的网络环境。
[0019] 3、本发明减少了数据帧碰撞率和传输时延,提高了节点接入信道的公平性,不同车辆节点在VANET中进行Q学习根据学习结果使用不同的CW值接入无线信道,可以看出,如果车辆节点消息发送成功不再是直接就把CW值降为15,而是利用Q学习不断探索逐渐减小CW值,同时还考虑其他车辆节点接入无线信道的机会,最终使得车辆节点在车载自组织网络中接入无线信道的公平性得到显著提高,而且不论是网络中有多少车辆节点,算法都同样适用,即本文提出的无线信道接入方法能对不同的网络负载场景具有扩展性。附图说明
[0020] 图1所示为车载通信中车辆节点利用本发明接入无线信道的流程图

具体实施方式

[0021] 下面结合附图对本发明创造作进一步的详细说明。
[0022] 如图1所示,本发明的方法包括如下步骤:
[0023] 步骤1:在VANETs环境中,每个车辆节点根据当前网络环境和其他车辆节点构建自己的联合状态—动作对映射关系和联合策略;
[0024] 步骤2:判断VANET网络中是否有新的车辆节点加入;
[0025] 步骤3:若有,则新加入的车辆节点通过迁移学习快速获取动作空间、状态空间、和奖赏函数,此后每个车辆节点更新自己的联合状态—动作对关系和联合策略;
[0026] 步骤4:若没有,则判断当前车辆节点是否有数据需要发送;
[0027] 步骤5:若有数据要发送,则根据eCEQ算法确定满足相关均衡的动作策略解;
[0028] 步骤6:从{I,K,R}动作集中选择能使多智能体系统最终达到相关均衡的动作;
[0029] 步骤7:执行完动作后确定CW值,以该CW值接入无线信道发送数据;
[0030] 步骤8:当前车辆节点是否还有消息需要发送,若无,则结束;若有,则返回执行步骤2。
[0031] 其中,QL-CWMulti-agent算法包括如下内容:
[0032] 整个车载自组织网络中车辆数量为N,即多智能体Q学习系统中智能体集合为N={1,2,...,N},用An表示车载自组织网络中车辆n在接入信道的退避过程中可执行动作的离散集An∈{I,K,R},即包括增加(Increase)竞争窗口、保持(Keep)竞争窗口大小不变、减小(Reduce)竞争窗口,车辆n在某时刻从An中选取执行的动作用an表示。那么N辆车在退避过程中选取竞争窗口值的联合动作集为A=A1×A2×...×AN,车辆某时刻接入无线信道所用的竞争窗口值即环境状态的离散集为S={15,31,63,127,255,511,1023},用Rn表示车辆n在接入信道过程中成功发送数据从网络环境中获得报酬的奖赏函数,由于多智能体系统的奖赏值取决于全部车辆的联合动作,则奖赏值用S×A→R表示。车辆n在t时刻采取固定的一步策略 则联合策略用π表示。
[0033] 车载自组织网络中车辆节点需要发送数据接入无线信道的退避过程中,任意两个车辆节点之间的动作模型、状态空间和奖赏函数都相同,那么当车载自组织网络中有新的车辆加入时,由于某一车辆节点学习所得的知识可用于强化其他车辆节点的学习,这样可以改善车辆节点的学习速度和效率,为使新车辆节点快速学习适应网络环境,就可以迁移学习直接向其他车辆节点学习,从而快速学得自己的状态—动作对映射关系和更新Q表的Q值迭代方法,最终目标是使新加入车载自组织网络的车辆节点利用最少的从其他车辆节点学到的先验知识快速学习适应环境和解决任务。所以多智能体系统中各智能体之间可以进行知识迁移,新加入的车辆节点利用迁移学习可以更快地学习网络环境。迁移学习过程如下:
[0034] 迁移什么:任意两个车辆节点在Q学习过程中的动作空间、状态空间及奖赏函数都相同,所以车载自组织网络中的车辆节点通过Q学习得到的Q表就可以通过迁移学习迁移到新加入车载自组织网络的车辆节点,考虑到通信开销,只迁移Q表中前q个最大项(按Q值排序)。
[0035] 如何迁移:使用广播通信根据请求对已学信息进行广播。
[0036] 何时迁移:当有新的车辆节点加入车载自组织网络时进行迁移。
[0037] 具体迁移过程为:当有新的车辆节点加入车载自组织网络时,新车辆节点会广播一条迁移请求信息,每个接收到这条消息的车辆节点启动定时器,定时器值与车间距离成反比。定时器先到时的车辆先广播自己Q表中最大的q项。新加入的车辆节点一旦接收到迁移信息,就根据迁移信息更新自己的Q表,从而加快学习过程。
[0038] 由于Q学习算法很大程度上依赖于动作值函数,即Q函数。单智能体Q学习过程中,*智能体选择的策略表达式(即状态到选择每个动作概率的映射关系)为π(s),Q值函数Q(s,a)为智能体在状态s下执行完动作a后从环境中获取的期望奖赏值,之后智能体按照策略执行下一状态的动作。那么多智能体系统中,车辆n的Q值函数Qn取决
于所有智能体的联合动作A并受限于联合策略π,表达式如下:
[0039]
[0040]
[0041] 其中s(t+1)表示下一个状态,即车辆n执行完动作an(t)后再次发送数据需要接入无线信道时使用的竞争窗口值。其中T:S×A×S→[0,1]表示状态转移概率函数。则T(s(t),a1(t),a2(t),...,aN(t),s(t+1))表示从状态s(t)转移到状态s(t+1)的转移概率。∑A(t+1)表示各个智能体按照策略πn执行完动作an(t+1)后得到奖赏值Qn(s(t+1),a1(t+1),...,aN(t+1))的权重和,即车辆n执行完I/K/R动作(增加CW/保持CW不变/减少CW)后再次发送数据接入无线信道所使用的CW值(即s(t+1)的值)可从网络环境中获得的奖赏值的权重和。γ∈[0,1)为折扣因子,γ越大表示对当前奖赏值的重视程度越高,反之表示对后续奖赏值的重视程度高。公式1表示车辆n在t时刻有数据要发送并以竞争窗口s(t)接入无线信道时,其他车辆分别选择执行动作a1到aN(每个动作分别表示增加CW/保持CW不变/减少CW),之后车辆会继续按照此策略在车载自组织网络环境中交互学习,一旦车辆需要接入无线信道发送数据时能使每辆车都以最优的CW值执行退避过程后接入无线信道发送数据。
[0042] 强化学习最终目标是各个智能体都能找到最优策略,选择值函数最大的动作。协作博弈中,相关均衡是联合动作空间上的概率分布的矩阵。最终实现相关均衡的Q学习方法通过基于相关动作策略的Q函数的线性组合定义状态—值函数,定义如下:
[0043]
[0044] 其中Vnk(sk)表示智能体n在第k次迭代时在sk状态下的状态—值函数,表示多智能体在此状态下的相关均衡协作程度;a=[a1,...,an,...,aN],an是第n个智能体执行的动作,N表示多智能体系统中智能体的个数;A表示多智能体在状态sk下的可用联合动作集;Qn(k-1)(sk,a)表示智能体n在第k-1次迭代过程中在sk状态下执行联合动作a的Q值函数。πn*(sk,a)是联合动作集A的概率分布向量,代表智能体n在sk下的最佳相关均衡动作策略。
[0045] 多智能体强化学习中智能体的联合动作策略考虑了其他智能体的决策和Q值函数,从而增加了所有智能体的累计奖赏值。对于状态sk下从联合动作策略中选择分配给第n个智能体的动作可以通过如下不等式约束来确定相关均衡动作策略:
[0046]
[0047] A-n=Πm≠nAm,
[0048] a-n=Πm≠nam,
[0049] a=(a-n,an)  公式4
[0050] 其中An表示第n个智能体的动作集,A-n表示除了智能体n之外其他智能体的联合动作集,an∈An表示第n个智能体的动作,a-n∈A-n表示除了智能体n之外其他智能体的联合动作。an'表示智能体n动作集中的任意一个动作;πn表示第n个智能体满足上式相关均衡的所有动作策略(即动作概率)的可行解。4.4式中为求解最佳相关均衡点定义了一组线性不等式约束,πn是未知变量,Q值函数是已知变量。
[0051] 根据公式4确定了满足相关均衡的动作策略解后,根据eCEQ(Correlated Equilibrium Q,相关均衡Q学习)算法(即最大化所有智能体奖励的最小值)求得πn的最优解,再根据公式3为各智能体确定总能使系统状态—值函数最大的动作,从而使多智能体系统最终能达到相关均衡。
[0052] 本发明所述VANETs环境中,车辆节点利用Q学习算法在周围环境中通过反复试错与环境不断交互学习,根据VANETs环境给予的反馈信号,在节点退避过程中动态地调整竞争窗口(即CW),使节点总能以最佳的CW(即从周围环境中获得的奖赏值最大时所选的CW值)接入信道。
[0053] 本发明将多智能体Q学习算法应用到车载通信MAC信道接入方法中,推导了多个车辆节点在Q学习过程中的联合动作集和受限于联合策略π的Q值迭代表达式。车辆节点在车载自组织网络中利用Q学习方法接入无线信道的过程中为降低与其他车辆节点的竞争,选择执行与其他车辆节点相关的联合动作。同时在多智能体Q学习系统中引入迁移学习,加快了新加入车载自组织网络的车辆节点的学习速度,大大降低了车辆节点接入无线信道发送数据的时延。最后为使多智能体系统最终达到相关均衡,根据eCEQ(最大化所有智能体奖励的最小值,即使车辆节点接入无线信道成功发送数据的次数最大化)方法计算动作策略的最优解,再根据最优动作策略为车辆节点分配总能使奖赏值最大化的动作,尽可能使每个车辆节点每次都能以最优的CW值接入无线信道成功发送数据,使得各个车辆节点接入无线信道的公平性得到显著提高。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈