首页 / 专利库 / 诊断设备和程序 / 梯度线圈 / 一种基于深度强化学习的自适应交通信号控制系统及方法

一种基于深度强化学习的自适应交通信号控制系统及方法

阅读:782发布:2022-01-15

专利汇可以提供一种基于深度强化学习的自适应交通信号控制系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 属于智能交通领域,提出一种基于深度 强化学习 的自适应交通 信号 控制系统及方法。本发明利用交互模 块 实现交叉口环境和 控制器 的实时交互,即由状态 感知 模块实时采集交叉口交通状态以及通过控制决策模块给出当前交通状态下的优化决策方案;同时,本发明可以由更新模块,采用强化学习的 框架 ,不断更新控制器内部的控制核心(Q值网络),以进一步提高未来控制方案的优化效果。本发明可以在时间和空间两个维度上综合收集各种影响因素;利用循环神经网络,提高对于高维输入矩阵的特征 抽取 能 力 和泛化能力;可以实现自适应交通信号控制中对复杂性、实时性、动态性、随机性、适应性等要求,提高交叉口交通控制的效率,降低出行延误。,下面是一种基于深度强化学习的自适应交通信号控制系统及方法专利的具体信息内容。

1.一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,包括交互模和更新模块;所述交互模块包括状态感应模块、第一Q值网络和控制决策模块,所述更新模块包括第二Q值网络、回放记忆池和误差模块;所述第一Q值网络为当前值网络,所述第二Q值网络包括所述当前值网络和目标值网络;
所述状态感应模块,用于获取交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st,并将交通状态st传入所述当前值网络;
所述当前值网络,用于控制所述控制决策模块的输入,且所述当前值网络在所述更新模块中不断更新;
所述控制决策模块,根据当前的交通状态st,从所述当前值网络选取相应的动作at,根据动作at决定交叉口在当前时刻是否跳转相位
所述回放记忆池,存储用于更新当前值网络的相关数据;
所述第二Q值网络中所述目标值网络为所述当前值网络每隔C步的拷贝;所述第二Q值网络用于对不同的交通状态实时给出合适的相位控制动作at;
所述误差模块,基于小批次数据更新当前值网络的参数。
2.根据权利要求1所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,所述状态感应模块从时间和空间两个维度收集交叉口的交通信息ot,具体为:
ot=[Dt,pt,ct]
式中,Dt为交叉口车辆延误行向量,pt∈{0,1,2,3}为交叉口在t时刻内所处的相位编码,ct为交叉口持续当前相位不翻转次数;
式中,Dt能够反映当前交叉口车辆行驶信息,Dt的计算方法为:
式中,将控制交叉口所在道路进行离散化网格处理,共得到[1/c]个网格,形成[1/c]维度的行向量Dt;Dt由网格延误 组成, 的计算方式为:
若网格i内无车,对应位置的 为0;否则,利用车辆行驶信息和交叉口地理位置定义代表在t时刻结束时处于网格i的车辆的集合, 代表在t时刻结束时处
于网格i的车辆的数目;dt(k)代表车辆k在时刻t内所产生的延误, 即
t时刻内针对车辆k实际行程距离lt(k)理想的行程时间 和实际的行程时间Δt的差值,其中延误dt(k)值为负数;
式中,交叉口持续当前相位不翻转次数ct计算如下:
3.根据权利要求1所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,所述构建当前时刻交叉口的交通状态st的方法为:
st=[ot-ξ+1,ot-ξ+2,...,ot]
式中,ξ代表记忆堆的容量,表明时间维度上向前回看的时间步数。
4.根据权利要求1所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,所述当前值网络的结构采用长短期记忆神经网络LSTM,依次包括输入层、全连接层、LSTM层、输出层;所述当前值网络的输入为交通状态st,输出为状态动作Q值估计(st,at);当前网络的参数为w,当前值网络表示为
所述目标值网络拥有和当前值网络相同的结构,参数不同,其中当前值网络的参数w经过每次训练均会更新到最新的参数;但是目标值网络每隔C步由当前值网络拷贝参数w′=w,在中间过程中目标值网络保持的参数w′不变;目标值网络多数时间步内拥有滞后参数w′,且目标值网络自身无须单独训练;目标值网络表示为
5.根据权利要求4所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,控制决策模块在训练神经网络过程和利用训练好的网络选择交通信号自适应控制动作at的策略不同;
在训练神经网络的过程中:采用ε-greedy策略选择动作at,即生成一个随机数rand,若rand<ε,从动作集中随机选择一个动作at∈{0,1}进行执行;否则,则依赖当前值网络选择最大 所对应的动作at,即
且ε随着训练的进行逐渐减小;
在利用训练好的神经网络进行交通信号自适应控制的过程中,设置ε=0,即完全最优化选择动作
6.根据权利要求2所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,所述控制决策模块根据动作at决定交叉口在当前时刻是否跳转相位,具体为:
交叉口控制时间周期T通过Δt划分为若干小段,并以时间t命名;若动作at=0,则交通信号维持原相位不变,即pt=pt-1,ct=ct-1+1,并持续Δt秒;
若选择动作at=1,则交通信号灯翻转进入下一相位,且相位pt在0,1,2,3四个相位循环,即pt-1=0,1,2时pt=(pt-1+1),当pt-1=3时,pt=0;ct=0,持续tyellow+Δt秒,其中tyellow为黄灯过渡时间。
7.根据权利要求2所述一种单点自适应交通信号控制系统,其特征在于,所述状态感应模块还用于构建当前时间段内动作at的控制效果rt,构建方法为:
式中,Ut代表时间段t内处于交叉口进口道所有车辆的集合,dt(k)代表车辆k在时刻t内所产生的延误。
8.根据权利要求7所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,所述回放记忆池定义为经验样本集合D={e1 … eN},N为回放记忆池的容量,经验et=(st,at,rt,st+1);
构成回放记忆池的形式为:每个时刻t末,收集本时刻的经验et=(st,at,rt,st+1),存储进入回放记忆池D,以堆的形式存储,当经验容量>N时,采用压出最底端的经验,压入最新的经验的方式保证回放记忆池D的容量始终为N,以不增加对存储空间的压
9.根据权利要求8所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,所述误差模块基于小批次数据更新当前值网络的参数,具体为:
当前值网络的参数为w,采用回放记忆池D={e1 … eN}中随机抽取mini-batch小批量经验样本et=(st,at,rt,st+1),通过更新参数w以最小化损失函数L(w):
10.一种基于深度强化学习的自适应交通信号控制方法,采用权利要求1-9所述一种基于深度强化学习的自适应交叉口交通信号控制系统,其特征在于,包括以下步骤:
步骤1深度强化学习训练神经网络,包括:
步骤1.1自适应交叉口交通信号控制系统和环境的交互过程
步骤1.1.1通过线圈、视频及V2X的方式,利用状态感应模块获得当前时刻t交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st,并将交通状态st传入所述当前值网络;
步骤1.1.2所述控制策略模块,从所述当前值网络获取动作at,根据动作at决定交叉口在当前时刻是否跳转相位;
步骤1.1.3交叉口信号灯执行动作at,at=0时,交通信号维持原相位不变,持续时间Δt;at=1时,交通信号灯翻转进入下一相位,持续时间tyellow+Δt秒;
步骤1.1.4经过车辆在时间段t的运行,经状态感应模块获得当前时间段内动作at的控制效果rt及下一个时刻t+1的交通状态st+1;
步骤1.1.5存储经验et=(st,at,rt,st+1)到回放记忆池D;
步骤1.1.6判断时刻t+1仿真是否结束,若是,开始神经网络更新参数过程,即步骤1.2;
否则,返回步骤1.1;
步骤1.2神经网络更新参数过程
步骤1.2.1从回放记忆池D={e1 … eN}中随机抽取mini-batch小批量经验样本et=(st,at,rt,st+1);
步骤1.2.2分别利用当前值网络和目标值网络计算st和st+1的 和
步骤1.2.3通过误差模块获得相应mini-batch的损失函数并采用Adam优化器梯度下降技术更新当前值网络参数w;
步骤1.2.4每隔C步拷贝当前值网络参数w到目标值网络参数w′,即w′=w,完成神经网络参数的更新;
步骤2根据已训练好的神经网络进行自适应交通信号控制:
步骤2.1通过线圈、视频及V2X的方式,利用状态感应模块获得当前时刻t交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st;
步骤2.2所述控制策略模块,从所述当前值网络获取动作at,根据动作at决定交叉口在当前时刻是否跳转相位;
步骤2.3重复步骤1到步骤2.2。

说明书全文

一种基于深度强化学习的自适应交通信号控制系统及方法

技术领域

[0001] 本发明涉及智能交通领域,特别是一种基于深度强化学习的自适应交通信号控制系统及方法。

背景技术

[0002] 随着中国城市化进程的深入,城市的人口及车辆持续增长,因此城市交通管理十分需要提出一种可以满足动态需求的自适应城市交通信号控制方法。城市交通系统的显著特征有:交通需求的动态波动性、时间和空间不稳定性、影响因素多样化、控制策略较复杂等。
[0003] 现有技术中的自适应控制方法,多采用模糊控制,神经网络,遗传算法等控制系统方法,现有技术中自适应控制方案有以下特点:由于计算条件及建模原因,大多数自适应控制方案考虑现实交通状况的人工抽取的特征变量,如交通量、密度及速度等,简化交通系统表达的复杂度,进而建立控制模型进行动态交通信号控制,但是城市交通系统是一个巨复杂系统,仅考虑部分人工抽取的特征变量,无法获得城市交通系统的全部信息,进而无法针对一些极端及随机情况进行控制,其次是对一些相似有细微差别的交通情景,无法实现精细化差异控制;同时,大多数自适应信号控制方案,需要大量的计算量以确定信号控制的最优方案,为在计算量和计算精度上达到平衡,现有的自适应交通信号控制的时间粒度可能较大,以提供充足的时间计算相应的优化方案。
[0004] 强化学习,作为机器学习中重要的一个分支,无须对交通环境的精确建模,可以通过控制器和交通环境的交互来获得不同信号控制策略的反馈,通过多次反馈可以学习不同随机交通环境下控制策略,最终获得不同随机动态交通环境下的最优信号控制策略。以Q学习为典型代表的离线强化学习,可以将城市交通信号控制的学习和控制分离,因此尽管控制器可能需要一段时间来学习交通环境和最优控制策略映射关系,学习好的控制器在面对随机动态的交通环境可以快速地提供实时最优信号控制方案。
[0005] 传统强化学习在交通控制信号领域的应用,以Q学习为常见。然而,以Q学习为代表的自适应信号控制方案,通常采用人工特征变量作为交通状态,简化交通状况表达的复杂度,无法充分考虑交通状况的各种潜在信息;其次,Q学习核心是以状态-行为值表格的映射关系,导致Q学习有导致较大的状态空间、学习效率低下、控制策略效率低下。

发明内容

[0006] 针对上述技术问题,本发明提供一种基于深度强化学习的自适应交通信号控制系统及方法,通过构建控制决策模、状态感应模块、Q值网络、回放记忆池和误差模块,可以实现对单个交叉口的实时响应信号控制,进一步可以有效降低交叉口交通拥堵的延误时间和提高交叉口通行效率。
[0007] 本发明是通过以下技术方案实现的:
[0008] 一种基于深度强化学习的自适应交叉口交通信号控制系统,包括交互模块和更新模块;所述交互模块包括状态感应模块、第一Q值网络和控制决策模块,所述更新模块包括第二Q值网络、回放记忆池和误差模块;所述第一Q值网络为当前值网络,所述第二Q值网络包括所述当前值网络和目标值网络;
[0009] 所述状态感应模块,用于获取交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st,并将交通状态st传入所述当前值网络;
[0010] 所述当前值网络,用于控制所述控制决策模块的输入,且所述当前值网络在所述更新模块中不断更新;
[0011] 所述控制决策模块,根据当前的交通状态st,从所述当前值网络选取相应的动作at,根据动作at决定交叉口在当前时刻是否跳转相位
[0012] 所述回放记忆池,存储用于更新当前值网络的相关数据;
[0013] 所述第二Q值网络中所述目标值网络为所述当前值网络每隔C步的拷贝;所述第二Q值网络用于对不同的交通状态实时给出合适的相位控制动作at;
[0014] 所述误差模块,基于小批次数据更新当前值网络的参数。
[0015] 进一步地,所述状态感应模块从时间和空间两个维度收集交叉口的交通信息ot,具体为:
[0016] ot=[Dt,pt,ct]
[0017] 式中,Dt为交叉口车辆延误行向量,pt∈{0,1,2,3}为交叉口在t时刻内所处的相位编码,ct为交叉口持续当前相位不翻转次数;
[0018] 式中,Dt能够反映当前交叉口车辆行驶信息,Dt的计算方法为:
[0019]
[0020] 式中,将控制交叉口所在道路进行离散化网格处理,共得到[1/c]个网格,形成[1/c]维度的行向量Dt;Dt由网格延误 组成, 的计算方式为:
[0021] 若网格i内无车,对应位置的 为0;否则,利用车辆行驶信息和交叉口地理位置定义 代表在t时刻结束时处于网格i的车辆的集合, 代表在t时刻结束时处于网格i的车辆的数目;dt(k)代表车辆k在时刻t内所产生的延误,
即t时刻内针对车辆k实际行程距离lt(k)理想的行程时间 和实
际的行程时间Δt的差值,其中延误dt(k)值为负数;
[0022] 式中,交叉口持续当前相位不翻转次数ct计算如下:
[0023]
[0024] 进一步地,所述构建当前时刻交叉口的交通状态st的方法为:
[0025] st=[ot-ξ+1,ot-ξ+2,...,ot]
[0026] 式中,ξ代表记忆堆的容量,表明时间维度上向前回看的时间步数。
[0027] 进一步地,所述当前值网络的结构采用长短期记忆神经网络LSTM,依次包括输入层、全连接层、LSTM层、输出层;所述当前值网络的输入为交通状态st,输出为状态动作Q值估计(st,at);当前网络的参数为w,当前值网络表示为
[0028] 所述目标值网络拥有和当前值网络相同的结构,参数不同,其中当前值网络的参数w经过每次训练均会更新到最新的参数;但是目标值网络每隔C步由当前值网络拷贝参数w′=w,在中间过程中目标值网络保持的参数w′不变;目标值网络多数时间步内拥有滞后参数w′,且目标值网络自身无须单独训练;目标值网络表示为
[0029] 进一步地,控制决策模块在训练神经网络过程和利用训练好的网络选择交通信号自适应控制动作at的策略不同;
[0030] 在训练神经网络的过程中:采用ε-greedy策略选择动作at,即生成一个随机数rand,若rand<ε,从动作集中随机选择一个动作at∈{0,1}进行执行;否则,则依赖当前值网络 选择最大 所对应的动作at,即且ε随着训练的进行逐渐减小;
[0031] 在利用训练好的神经网络进行交通信号自适应控制的过程中,设置ε=0,即完全最优化选择动作
[0032] 进一步地,所述控制决策模块根据动作at决定交叉口在当前时刻是否跳转相位,具体为:
[0033] 交叉口控制时间周期T通过Δt划分为若干小段,并以时间t命名;若动作at=0,则交通信号维持原相位不变,即pt=pt-1,ct=ct-1+1,并持续Δt秒;
[0034] 若选择动作at=1,则交通信号灯翻转进入下一相位,且相位pt在0,1,2,3四个相位循环,即pt-1=0,1,2时pt=(pt-1+1),当pt-1=3时,pt=0;ct=0,持续tyellow+Δt秒,其中tyellow为黄灯过渡时间。
[0035] 进一步地,所述状态感应模块还用于构建当前时间段内动作at的控制效果rt,构建方法为:
[0036]
[0037] 式中,Ut代表时间段t内处于交叉口进口道所有车辆的集合,dt(k)代表车辆k在时刻t内所产生的延误。
[0038] 进一步地,所述回放记忆池定义为经验样本集合D={e1…eN},N为回放记忆池的容量,经验et=(st,at,rt,st+1);
[0039] 构成回放记忆池的形式为:每个时刻t末,收集本时刻的经验et=(st,at,rt,st+1),存储进入回放记忆池D,以堆的形式存储,当经验容量>N时,采用压出最底端的经验,压入最新的经验的方式保证回放记忆池D的容量始终为N,以不增加对存储空间的压
[0040] 进一步地,所述误差模块基于小批次数据更新当前值网络的参数,具体为:
[0041] 当前值网络的参数为w,采用回放记忆池D={e1…eN}中随机抽取mini-batch小批量经验样本et=(st,at,rt,st+1),通过更新参数w以最小化损失函数L(w):
[0042]
[0043] 一种基于深度强化学习的自适应交通信号控制方法,采用所述一种基于深度强化学习的自适应交叉口交通信号控制系统,包括以下步骤:
[0044] 步骤1深度强化学习训练神经网络,包括:
[0045] 步骤1.1自适应交叉口交通信号控制系统和环境的交互过程
[0046] 步骤1.1.1通过线圈、视频及V2X的方式,利用状态感应模块获得当前时刻t交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st,并将交通状态st传入所述当前值网络;
[0047] 步骤1.1.2所述控制策略模块,从所述当前值网络获取动作at,根据动作at决定交叉口在当前时刻是否跳转相位;
[0048] 步骤1.1.3交叉口信号灯执行动作at,at=0时,交通信号维持原相位不变,持续时间Δt;at=1时,交通信号灯翻转进入下一相位,持续时间tyellow+Δt秒;
[0049] 步骤1.1.4经过车辆在时间段t的运行,经状态感应模块获得当前时间段内动作at的控制效果rt及下一个时刻t+1的交通状态st+1;
[0050] 步骤1.1.5存储经验et=(st,at,rt,st+1)到回放记忆池D;
[0051] 步骤1.1.6判断时刻t+1仿真是否结束,若是,开始神经网络更新参数过程,即步骤1.2;否则,返回步骤1.1;
[0052] 步骤1.2神经网络更新参数过程
[0053] 步骤1.2.1从回放记忆池D={e1…eN}中随机抽取mini-batch小批量经验样本et=(st,at,rt,st+1);
[0054] 步骤1.2.2分别利用当前值网络和目标值网络计算st和st+1的 和
[0055] 步骤1.2.3通过误差模块获得相应mini-batch的损失函数并采用Adam优化器梯度下降技术更新当前值网络参数w;
[0056] 步骤1.2.4每隔C步拷贝当前值网络参数w到目标值网络参数w′,即w′=w,完成神经网络参数的更新;
[0057] 步骤2根据已训练好的神经网络进行自适应交通信号控制:
[0058] 步骤2.1通过线圈、视频及V2X的方式,利用状态感应模块获得当前时刻t交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st;
[0059] 步骤2.2所述控制策略模块,从所述当前值网络获取动作at,根据动作at决定交叉口在当前时刻是否跳转相位;
[0060] 步骤2.3重复步骤1到步骤2.2。
[0061] 本发明的有益效果在于:
[0062] (1)本发明所述方法能够充分考虑交叉口影响信号配时的各种影响因素,同时可以考虑时序信息、交叉口的地理位置信息和交叉口车辆行驶信息,以在时间和空间两个维度上收集信息,以实时提出交叉口信号控制方案,更好地满足自适应交通控制对复杂性、实时性、动态性、随机性、适应性等要求。
[0063] (2)本发明所述系统通过构建LSTM(循环神经网络)可以获得不同交通状态下交通控制策略的收益,提高对于高维输入矩阵(交通状态)的特征抽取能力和泛化能力,增强系统对不同交通状态的学习效果。
[0064] (3)相比于传统的定时控制和感应控制,本发明所述方法应用深度强化学习的城市自适应控制系统能够针对交通状况的变化,能够快速响应变化,做出适时调整,因而更好地适应交通流的动态和随机变化;最终可以实现提高交通口通行效率,降低出行延误,提高路网效率等目标。附图说明
[0065] 图1为本发明实施例中的一种单点自适应交通信号控制系统的结构示意图;
[0066] 图2为本发明实施例中一种基于深度强化学习的自适应交通信号控制方法的流程示意图;
[0067] 图3为本发明实施例中典型交叉口示意图;
[0068] 图4(a)-(d)为本发明实施例中的相位示意图及控制决策模块控制策略示意图;
[0069] 图5位本发明实施例中当前值网络的结构示意图。

具体实施方式

[0070] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0071] 相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
[0072] 本发明提供一种基于深度强化学习的自适应交叉口交通信号控制系统,如图1所示,所述系统包括:包括交互模块和更新模块;
[0073] 所述交互模块包括状态感应模块、第一Q值网络和控制决策模块,所述更新模块包括第二Q值网络、回放记忆池和误差模块;所述第一Q值网络为当前值网络,所述第二Q值网络包括所述当前值网络和目标值网络;
[0074] 图3为本实施例中典型交叉口示意图;所述状态感应模块,用于获取交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st,并将交通状态st传入所述当前值网络;
[0075] 所述当前值网络,用于控制所述控制决策模块的输入,且所述当前值网络在所述更新模块中不断更新;通过当前值网络,控制决策模块可以针对当前交叉口交通信息获得相应的控制动作;
[0076] 所述控制决策模块,根据当前的交通状态st,从所述当前值网络选取相应的动作at,根据动作at决定交叉口在当前时刻是否跳转相位;
[0077] 所述回放记忆池,存储用于更新当前值网络的相关数据;
[0078] 所述第二Q值网络中所述目标值网络为所述当前值网络每隔C步的拷贝,以在误差模块的计算中降低相关数据的时间相关性,提高数据的有效率;所述第二Q值网络能够对不同的交通状态实时给出合适的相位控制动作at;
[0079] 所述误差模块,基于小批次数据更新当前值网络的参数。
[0080] 在本实施例中,所述状态感应模块从时间和空间两个维度收集交叉口的交叉口信号控制信息及车辆行驶信息,获得交通信息ot,及构建当前时刻交叉口的交通状态st,具体方法包括以下步骤:
[0081] S101.将控制交叉口所在道路进行离散化网格处理,共得到[l/c]个网格,形成[l/c]维度的行向量Dt;
[0082] S102.若网格i内无车,对应位置的网格延误 为0;否则,利用车辆行驶信息和交叉口地理位置定义 代表在t时刻结束时处于网格i所有车辆的集合,dt(k)代表车辆k在时刻t内所产生的延误, 即t时刻内针对车辆k实际行程
距离lt(k)理想的行程时间 和实际的行程时间Δt的差值,其中延误dt(k)值为负数;
[0083] S103 .由网格延误 组成交叉口车辆延误的行向量Dt,其形式为该矩阵旨在数字格式化的方式收集控制交叉口的车辆行驶信
息。
[0084] S104.对交叉口在时刻t的交通信息ot为:ot=[Dt,pt,ct];pt和ct旨在对交叉口信号控制信息给出数字化表征,其中pt为交叉口在t时刻内内所处的相位编码,pt∈{0,1,2,3},ct为交叉口持续当前相位不翻转次数。式中,ct计算如下:
[0085]
[0086] S105.当前时刻交叉口的交通状态st为:st=[ot-ξ+1,ot-ξ+2,...,ot],对于时刻t之前观察值的提取,可以采用记忆堆的方式实现。其中记忆堆的容量设置为ξ,每个时间刻末,均存储交叉口交通信息o进入记忆堆;当t时刻末可以将记忆堆的数据[ot-ξ+1,ot-ξ+2,...,ot]提取为二维矩阵以表示交通状态st。通过收集之前时间段的交叉口观察值,交通状态可以收集时间维度上的交通状态变化,获得类似于棋盘的交通信息表征状态,从时间和控制两个维度刻画交通状态的动态变化信息。
[0087] S106.同时,当时刻t结束时,状态感应模块可以获得时间段t其控制动作at的控制效果 其中Ut代表Ut代表时间段t内处于交叉口进口道的所有车辆的集合,dt(k)代表车辆k在时刻t内所产生的延误。
[0088] 如图4所示,为本发明实施例中的相位示意图及控制决策模块控制策略示意图;在本实施例中,所述控制系统通过控制决策模块实现对交叉口的自适应感知控制,具体为:
[0089] S201.采用经典四相位控制,其中相位包括Phase={NSL,NST,WEL,WET},其中NSL的编码为0代表南北左转相位,NST的编码为1代表南北直行相位,WEL编码为2代表东西左转相位,WET编码为3代表东西直行相位;
[0090] S202.根据信号灯控制动作at决定是否切换下一相位,其中at=0代表维持当前相位,at=1代表切换当前相位进入下一相位;
[0091] S203.控制决策模块中定义控制策略为离散化交叉口信号控制时间,即将交叉口控制时间周期T通过Δt划分为若干小段,并以时间t命名;在每个时刻t开始之前,通过状态感应模块收集交通状态st,经过当前值网络计算Q值 控制决策模块根据交通状态st选择动作at,以决定在时刻t初是否开始跳转信号相位;
[0092] 若at=0,则交通信号维持原相位不变,即pt=pt-1,ct=ct-1+1,并持续Δt秒;若选择动作at=1,则交通信号灯翻转进入下一相位,且相位pt在0,1,2,3四个相位循环,即pt-1=0,1,2时pt=(pt-1+1),当pt-1=3时,pt=0;ct=0,持续tyellow+Δt秒,其中tyellow为黄灯过渡时间;本实施例中考虑相位翻转过程中的车辆行驶安全,因此在相位翻转过程中引入黄灯过渡过程tyellow,同时为了对at=0和at=1两种情形建立相同的评价标准,在计算观察ot,状态st,奖励rt的过程中均基于过程时间段Δt而非时间段tyellow+Δt。
[0093] S204.控制决策模块在训练神经网络过程和利用训练好的网络选择交通信号自适应控制动作at的策略不同;
[0094] 在训练神经网络的过程中:采用ε-greedy策略选择动作at,即生成一个随机数rand,若rand<ε,从动作集中随机选择一个动作at∈{0,1}进行执行;否则,则依赖当前值网络 选择最大 所对应的动作at,即且ε随着训练的进行逐渐减小,优选地,在训练的过程中
不断降低ε的值,每1000步设置ε=ε2,本实施例中,ε初值设为0.99;
[0095] 在利用训练好的神经网络进行交通信号自适应控制的过程中,设置ε=0,即完全最优化选择动作
[0096] 如图5所示为本实施例中当前值网络的结构示意图,在本实施例中,所述当前值网络的结构采用长短期记忆神经网络LSTM,依次包括输入层、全连接层、LSTM层、输出层;所述当前值网络的输入为交通状态st,输出为状态动作Q值估计(st,at);当前网络的参数为w,当前值网络表示为 优选地,其中,全连接层包括64个神经元、采用Relu激活函数;LSTM层包括64个神经元、采用Relu激活函数,步长为ξ;当前网络训练参数时使用Adam优化器进行训练;
[0097] 所述目标值网络拥有和当前值网络相同的结构,参数不同,其中当前值网络的参数w经过每次训练均会更新到最新的参数;但是目标值网络每隔C步由当前值网络拷贝参数w′=w,在中间过程中目标值网络保持的参数w′不变;目标值网络多数时间步内拥有滞后参数w′,且自身无须单独训练;目标值网络表示为 当前值网络和目标值网络的结合使用旨在降低数据之间的关联性,提高算法的稳定性。
[0098] 在本实施例中,所述回放记忆池定义为经验样本集合D={e1…eN},N为回放记忆池的容量,经验et=(st,at,rt,st+1);
[0099] 构成回放记忆池的形式为:每个时刻t末,收集本时刻的经验et=(st,at,rt,st+1),存储进入回放记忆池D,以堆的形式存储,当经验容量>N时,采用压出最底端的经验,压入最新的经验的方式保证回放记忆池D的容量始终为N,以不增加对存储空间的压力。
[0100] 在本实施例中,所述误差模块基于小批次数据更新当前值网络的参数,具体为:
[0101] 当前值网络的参数为w,采用回放记忆池D={e1…eN}中随机抽取mini-batch小批量经验样本et=(st,at,rt,st+1),通过更新参数w以最小化损失函数L(w):
[0102]E代表期望;
[0103] 所述误差模块的上述机制称为经验回放机制,可以增加历史数据的使用有效率以及降低数据之间的关联性提高训练过程的稳定性。
[0104] 本实施例提供的基于深度强化学习的自适应交叉口交通信号控制系统中:
[0105] 交互模块用于交叉口环境和整个控制系统的交互,针对每个时刻,通过状态感应模块获取当前交叉口的交通信息,并结合之前的交通信息获得相应的交通状态;通过当前值网络,控制决策模块可以针对当前交叉口交通信息获得相应的控制动作;如此往复,控制系统逐渐积累路口控制经验,同时环境获得相应的控制方案,从而能够降低交通口的延误时间和提高效率。
[0106] 更新模块,利用回放记忆池中的数据不断更新当前值网络中的参数以提高整个控制系统的控制效果,获得更优的控制方案。强化深度学习是一种基于数据驱动的优化控制方案,随着环境与控制系统之间不断的交互,回放记忆池中的经验不断增加,相关的经验增多,通过更新模块以提高当前值网络的优化泛化功能。
[0107] 综上,本发明所述控制系统利用交互模块实现交叉口环境和控制器的实时交互,即由状态感知模块实时采集交叉口交通状态以及通过控制决策模块给出当前交通状态下的优化决策方案;同时由更新模块,采用强化学习的框架,不断更新控制器内部的控制核心(Q值网络),以进一步提高未来控制方案的优化效果;可以在时间和空间两个维度上综合收集各种影响因素;利用循环神经网络,提高对于高维输入矩阵的特征抽取能力和泛化能力;可以实现自适应交通信号控制中对复杂性、实时性、动态性、随机性、适应性等要求,提高交叉口交通控制的效率,降低出行延误。
[0108] 如图2所示,本发明还提供一种基于深度强化学习的自适应交叉口信号控制方法,包括以下步骤:
[0109] 步骤1深度强化学习训练神经网络,包括:
[0110] 步骤1.1自适应交叉口信号控制系统与环境的交互过程:
[0111] 步骤1.1.1通过线圈、视频及V2X的方式,利用状态感应模块获得当前时刻t交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st,并将交通状态st传入所述当前值网络;
[0112] 步骤1.1.2所述控制决策模块,从所述当前值网络获取动作at,根据动作at决定交叉口在当前时刻是否跳转相位;
[0113] 步骤1.1.3交叉口信号灯执行动作at,at=0时,交通信号维持原相位不变,持续时间Δt;at=1时,交通信号灯翻转进入下一相位,持续时间tyellow+Δt秒;
[0114] 步骤1.1.4经过车辆在时间段t的运行,经状态感应模块获得当前时间段内动作at的控制效果rt及下一个时刻t+1的交通状态st+1;
[0115] 步骤1.1.5存储经验et=(st,at,rt,st+1)到回放记忆池D;
[0116] 步骤1.1.6判断时刻t+1仿真是否结束,若是,开始神经网络更新参数过程,即步骤1.2;否则,返回步骤1.1;
[0117] 步骤1.2神经网络更新参数过程
[0118] 步骤1.2.1从回放记忆池D={e1…eN}中随机抽取mini-batch小批量经验样本et=(st,at,rt,st+1);
[0119] 步骤1.2.2分别利用当前值网络和目标值网络计算st和st+1的 和
[0120] 步骤1.2.3通过误差模块获得相应mini-batch的损失函数并采用Adam优化器梯度下降技术更新当前值网络参数w;
[0121] 步骤1.2.4每隔C步拷贝当前值网络参数w到目标值网络参数w′,即w′=w,完成神经网络参数的更新;
[0122] 步骤2根据已训练好的神经网络进行自适应交通信号控制:
[0123] 步骤2.1通过线圈、视频及V2X的方式,利用状态感应模块获得当前时刻t交叉口的交通信息ot,将交通信息ot保存到容量为ξ的记忆堆中,构建当前时刻交叉口的交通状态st;
[0124] 步骤2.2所述控制决策模块,从所述当前值网络获取动作at,根据动作at决定交叉口在当前时刻是否跳转相位;
[0125] 步骤2.3重复步骤1到步骤2.2。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈