专利类型 | 发明授权 | 法律事件 | 公开; 实质审查; 授权; |
专利有效性 | 有效专利 | 当前状态 | 授权 |
申请号 | CN202310483068.9 | 申请日 | 2023-05-01 |
公开(公告)号 | CN116504060B | 公开(公告)日 | 2024-05-14 |
申请人 | 兰州理工大学; | 申请人类型 | 学校 |
发明人 | 张红; 王红燕; 巩蕾; 张玺君; 朱思雨; 李扬; 伊敏; 魏骄云; 杨俊译; | 第一发明人 | 张红 |
权利人 | 兰州理工大学 | 权利人类型 | 学校 |
当前权利人 | 兰州理工大学 | 当前权利人类型 | 学校 |
省份 | 当前专利权人所在省份:甘肃省 | 城市 | 当前专利权人所在城市:甘肃省兰州市 |
具体地址 | 当前专利权人所在详细地址:甘肃省兰州市七里河区兰工坪路287号 | 邮编 | 当前专利权人邮编:730050 |
主IPC国际分类 | G08G1/01 | 所有IPC国际分类 | G08G1/01 ; G06N3/0464 ; G06N3/08 |
专利引用数量 | 7 | 专利被引用数量 | 0 |
专利权利要求数量 | 6 | 专利文献类型 | B |
专利代理机构 | 兰州振华专利代理有限责任公司 | 专利代理人 | 董斌; |
摘要 | 基于Transformer的扩散图注意 力 网络交通流预测方法,所述的交通流组合预测方法,T‑DGAN方法采用Transformer 编码器 ‑ 解码器 架构,其中编码器和解码器包含多个 时空 卷积网络模 块 (ST‑Conv Block)和扩散图注意力模块(DGA‑Block),ST‑Conv Block通过时间 门 控卷积网络和空间卷积网络分别捕获交通流的时间依赖性和空间相关性,DGA‑Block利用查询键值自注意力机制自适应学习每个扩散步的扩散参数,并动态更新邻接转移矩阵,以捕获交通流的动态空间相关性。此外,解码器增加了信息辅助模块,以聚合编码器和解码器之间的交通流信息。 | ||
权利要求 | 1.一种基于Transformer的扩散图注意力网络交通流预测方法,所述的交通流组合预测方法采用Transformer编码器‑解码器架构,其中编码器和解码器包含多个时空卷积网络模块和扩散图注意力模块;时空卷积网络模块通过时间门控卷积网络和空间卷积网络分别捕获交通流的时间依赖性和空间相关性,扩散图注意力模块利用查询键值自注意力机制自适应学习每个扩散步的扩散参数,并动态更新邻接转移矩阵,以捕获交通流的动态时空相关性;解码器增加信息辅助模块,以聚合编码器和解码器之间的交通流信息,最后,通过解码器输出预测序列进行预测; |
||
说明书全文 | 基于Transformer的扩散图注意力网络交通流预测方法技术领域[0001] 本发明涉及智能交通技术领域,具体是涉及基于Transformer的扩散图注意力网络(T‑DGAN)交通流预测技术。 背景技术[0002] 交通流预测作为智能交通系统(ITS)的重要组成部分,可以为城市交通系统的管理和规划提供科学依据。根据预测的交通状态,交通部门可以提前部署和引导交通流,从而提高路网的运行效率,缓解交通拥堵。 [0003] 在过去的几十年里,研究人员对交通流预测方法进行了广泛的研究,包括自回归移动平均(ARIMA)、卡尔曼滤波(KF)和多层感知器(MLP)等方法。但由于时间序列基于平稳性假设,这些方法无法处理复杂的非线性交通流数据。因此,为了处理复杂的交通状况和捕获交通流的非线性关系,已经采用了许多机器学习方法来预测交通流。例如,采用K近邻(KNN)方法进行短时交通流预测,该方法考虑了相邻路段的空间关联特性。贝叶斯网络方法对不确定信息进行处理并进行概率推理,用于短时交通流预测。支持向量机(SVM)方法作为一种基于统计学习理论的机器学习方法,能较好的进行短时交通流预测。长短期记忆网络(LSTM)有效的捕获了交通动态的非线性,该方法可以克服记忆块反向传播误差衰减的问题。然而,由于交通流具有高度非线性和动态时空依赖性,上述方法在长期交通流预测任务中表现不佳。 [0004] 近年来,随着深度学习在交通领域中的广泛应用,研究人员使用卷积神经网络(CNN)和递归神经网络(RNN)来分别捕获交通流的空间依赖性和时间依赖性,虽然这种方法捕获了交通流的时空依赖性,但CNN适用于具有规则网格的欧几里德数据,并且建模不规则道路网络会丢失交通网络的拓扑信息。为了解决这个问题,使用图卷积网络(GCN)代替CNN来更好地处理交通道路网络中的非欧几里得数据。尽管现有的基于GCN和RNN的混合方法在预测性能上有很大的提高,但这些方法仍然存在一些缺陷。由于GCN使用图的拉普拉斯特征矩阵来计算和更新图中所有节点的特征信息,GCN在捕获交通流的空间相关性时灵活性和扩展性较差。 [0005] 在上述方法中,道路网络的空间结构是通过预定义的邻接矩阵来表示的,由于交通流的复杂性和动态性,预定义的邻接矩阵限制了学习交通流的动态时空特征的可能性。针对这一问题,研究人员在图注意力机制的基础上,提出使用门控注意力网络从交通流中学习交通流的动态空间相关性,提出图多注意力网络(GMAN)用于交通流预测,并在GMAN中使用时空注意力机制来捕获交通流的动态时空相关性。同时,Transformer作为一种深度学习方法,它利用编码器和解码器结构对序列建模,并使用多头注意力机制来学习数据中的动态特征,该方法有利于解决由于使用预定义相邻矩阵难以捕获交通流的动态时空相关性问题。 发明内容[0006] 本发明的目的是更好的捕获交通流的复杂时空相关性,本发明提出基于Transformer的扩散图注意力网络(T‑DGAN)交通流预测方法。 [0007] 本发明是基于Transformer的扩散图注意力网络交通流预测方法,所述的交通流组合预测方法,即T‑DGAN采用Transformer编码器‑解码器架构,其中编码器和解码器包含多个时空卷积网络模块,即ST‑Conv Block,和扩散图注意力模块,即DGA‑Block。ST‑Conv Block通过时间门控卷积网络和空间卷积网络分别捕获交通流的时间依赖性和空间相关性,DGA‑Block利用查询键值自注意力机制自适应学习每个扩散步的扩散参数,并动态更新邻接转移矩阵,以捕获交通流的动态空间相关性;解码器增加了信息辅助模块,以聚合编码器和解码器之间的交通流信息。 [0008] 本发明具有如下优点: [0009] 1.本发明提出基于Transformer的扩散图注意力网络交通流预测方法(T‑DGAN)。该方法采用编码器‑解码器架构,编解码器堆叠多个时空卷积网络模块(ST‑Conv Block)和扩散图注意力模块(DGA‑Block),通过动态图来描述路网信息。解码器在编码器的基础上增加信息辅助模块(Auxiliary Block),以聚合编码器和解码器之间的交通流信息。 [0010] 2.本发明使用时空卷积网络(ST‑Conv Block)来学习交通流的时空相关性。时间门控卷积层用于捕获交通流的时间依赖性,空间卷积层用于捕获交通流的空间相关性。 [0011] 3.本发明使用扩散图注意力(DGA‑Block)方法对交通流的动态空间相关性进行建模,该方法利用查询键值自注意力机制自适应的学习每个扩散步的扩散参数,并动态更新邻接转移矩阵,以反映交通流的空间动态变化特性。 [0013] 图1是T‑DGAN方法框架图,图2是时间卷积网络图,图3是T‑DGAN与PeMS03真实值对比图,node=11,图4是T‑DGAN与PeMS03真实值对比,node=190,图5是T‑DGAN与METR‑LA真实值对比,node=119,图6是T‑DGAN与METR‑LA真实值对比,node=176,图7是PeMS03数据集中的邻接矩阵Te,Td(step 0),图8是METR‑LA数据集中的邻接矩阵Te,Td(step 5)。 [0014] 实施方式 [0015] 下面结合实施例对本发明做进一步的详细说明。 [0016] 1方法 [0017] 本发明提出了基于Transformer的扩散图注意力网络交通流预测方法(T‑DGAN),其中,编码器层由时空卷积网络模块(ST‑Conv Block)和扩散图注意力模块(DGA‑Block)组成,而解码器层由时空卷积模块(ST‑Conv Block)、扩散图注意力模块(DGA‑Block)以及信息辅助模块(Auxiliary Block)组成。编码器和解码器分别有L‑1层和L′‑1层。给定T‑DGAN方法的输入X{t‑T′+1,...,t}和邻接矩阵A,首先将它们分别转换为特征矩阵 和transition矩阵 其中,D表示A具有自环的度矩 阵,即 和 分别表示X{t‑T+1,...,t}的编码器和解码器的加权矩阵, 和 分别表示编码器和解码器的偏置。 和 分别表示编码器和解码器的邻接transition矩阵。通过 计算交通流预测的结果,其中 表示全连接层的 transformation矩阵,表示相应的偏差。将最后一层编码器的输出 和 输入到每一层解码器的Diffusion Attention模块,以聚合编码器和解码器之间的交通流时空特征信息。 [0018] 2问题定义 [0019] 在本发明中,将道路网络表示为图G=(V,E,A),其中V表示一组N个道路网络节点,N×NE表示一组边的集合,A∈R 表示加权邻接矩阵,若vi,vj∈V且(vi,vj)∈E,则Aij为1,否则为N×C 0。在每个时间步长t中,给定图G上的交通流Xt∈R ,其中C表示每个节点的特征数。交通流预测问题旨在学习一个函数f,它可以将X{t‑T+1,...,t}作为输入,并预测未来T个时间步长的交通流,该映射关系如下所示: [0020] [0021] 2.1用于提取时空特征的卷积编码器 [0022] 编码器用于从历史交通流数据中提取时空特征,由时空卷积模块(ST‑Conv Block)和扩散图注意力模块(DGA‑Block)组成。具体而言,每个ST‑Conv Block包含一个时间门控卷积层和一个空间卷积层,分别用于捕获交通流的时间特征和空间特征。DGA‑Block利用查询键值注意力来学习每个扩散步的扩散参数,并动态更邻接转移矩阵,以反映交通流的空间动态变化特性。 [0023] (1)时间门控卷积层 [0024] 时间门控卷积层包含一个一维卷积,使用门控线性单元(GLU)来捕获交通流的时间依赖性。对于交通网络G中的每个节点,时间卷积以零填充来探索输入元素的相邻时间步长,以使时间维度大小保持不变。给定每个节点的时间卷积输入 它是一个长度为P的序列,具有Din特征,使用一个1D卷积核 核大小为(Kt,1),输入大小Din和输出大小2Dout得到输出 P,Q沿特征维度分成两部分并输入到GLU。因此,时间门控卷积层可以表示为: [0025] [0026] 其中,P,Q分别是GLU中门的输入,⊙表示基于元素的Hadamard乘积,σ(Q)使用Sigmoid函数作为激活函数,选择性的获取隐藏状态和输入X中的信息。 [0027] (2)图卷积网络 [0028] 图卷积运算基于图结构将邻居节点的特征聚合到中心节点,以更新节点特征,图卷积网络(GCN),通过一阶近似简化了ChebNet: [0029] [0030] 其中, 表示具有自环的归一化邻接矩阵, 表示具有Din特征的N节点的输入图信号, 表示输出, 表示可学习的参数矩阵。基本GCN只适用于无向图,不符合交通网络的有向性质。为了便于有向图上的卷积,扩散卷积可以推广为公式(4)的形式: [0031] [0032] 其中,Mk表示转移矩阵的幂级数,K表示扩散步数。在有向图中,扩散过程分为前向T和后向两个方向,其中前向转移矩阵为Mf=A/rowsum(A)后向转移矩阵为Mb=A /rowsum(A)。 [0033] (3)空间卷积层 [0034] 本发明提出了空间卷积层来捕获交通流的局部和全局空间依赖关系。本发明使用预定义的加权邻接矩阵在正向和反向的两个方向执行K步扩散卷积,以捕获K阶局部空间依赖关系,对应于公式(4)。形式上,给定空间卷积层 的输入,对输入张量的每个时隙 进行空间卷积运算,该计算过程可以表示为: [0035] [0036] 其中,W表示与邻接矩阵A进行卷积运算的可学习参数矩阵。 [0037] 2.2扩散图注意力网络编码器 [0038] 本发明以第l层为例,给定输入 和 输出特征矩阵 如下所示: [0039] [0040] 其中, 表示残差连接, 表示多头扩散注意力, 表示可学习的权重矩阵,表示线性transformation矩阵。给定 的head数量为H,则有: [0041] [0042] 其中, 表示一个单独的头部扩散注意力,||表示连接运算。 [0043] k表示扩散步长,K表示最大扩散阶数, 由公式(8)计算: [0044] [0045] 其中,θk表示扩散权重系数,对于相应的扩散步 本发明利用Query‑Key‑Value注意力来获得适当的θk,如下所示: [0046] [0047] 其中,WV表示Value的transformation矩阵,view表示矩阵的reshape运算,即给定N×N原始矩阵的形状为R ,输出是一个单行向量,其维度为 表示Query‑Key‑Value注意力的输入序列。eik表示两个不同 的扩散步i和k之间的注意力分数,eij表示两个不同的扩散步i和j之间的注意力分数。eij通过公式(10)计算: [0048] [0049] 其中,dqs表示Query的大小,WQ和WK分别表示Query和Key的transformation矩阵。和 分别表示扩散步i和j的Query‑Key‑Value注意力的输 入。 [0050] 通过残差连接计算输出邻接转移矩阵 如下所示: [0051] [0052] 其中, 表示残差连接, 表示adjacency transition的动态更新部分,其计算如下: [0053] [0054] 其中,m∈[1,M]表示replica索引,M表示replica的数量, 表示 的第i行第j列元素, 表示第m个replica的注意力分数,其计算如下: [0055] [0057] 2.3用于交通流量预测的时空解码器 [0058] 解码器用于接收编码器提取的时空特征,以生成未来的交通流序列。单层解码器由时空卷积模块(ST‑Conv Block)、扩散图注意力模块(DGA‑Block)以及聚合编码器和解码器之间信息的辅助模块(Auxiliary Block)组成。第l层解码器的输入为 和 则第l层解码器的DGA‑Block模块的输出如下所示: [0059] [0060] [0061] 其中, 表示多头扩散注意力,其计算过程与公式(7)相同, 表示可学习的权重矩阵, 表示线性transformation矩阵。 和 的计算过程同公式(11)和(12)。和 与 和 一起输入到辅助模块(Auxiliary Block)中,以聚合编码器和解码器之间的交通流信息。 [0062] 然后,第l层解码器的输出如下所示: [0063] [0064] [0065] 其中, 表示扩散注意力,其计算过程与公式(7)类似,扩散参数的计算公式(9)所示,注意力分数计算如公式(10)所示。将 和 分别表示为 的扩散参数和注意力分数,则 的计算过程如下: [0066] [0067] 其中, 表示Value的transformation矩阵, 表示输入序列。 由公式(19)计算: [0068] [0069] 其中,dqs表示Query的大小, 和 分别表示Query和Key的transformation矩阵。 和 分别表示扩散步i和j的Query‑Key‑Value注意力的输入。 [0070] 3.实验 [0071] 3.1数据描述 [0072] 本发明使用了两组交通数据集PeMS03和METR‑LA来验证本发明提出的T‑DGAN方法的性能。实验的交通数据集包含不同的属性,数据集的详细信息如表1所示: [0073] 表1.实验数据集描述 [0074] [0075] PeMS03由Caltrans性能测量系统(PeMS)每30秒收集一次,并记录交通流数据监测传感器的空间位置信息。PeMS03中的传感器数量为555个。采集时间段为2018年1月1日至2018年1月31日,每5分钟汇总一次交通速度。 [0076] METR‑LA数据集来源于洛杉矶高速路上的环路检测器,时间跨度为2012年3月1日到2012年3月7日,选择207个传感器收集的历史交通速度,每5分钟汇总一次交通速度。 [0077] 3.2实验设置 [0078] 本实验是在Windows服务器上进行编译并执行的(CPU:Intel(R)Core(TM)i7‑1065G7CPU@1.30GHz 1.50GHz、16GBRAM,GPU:NVIDIAGeForce RTX 2080TI),基于Pytorch深度学习框架,在PyCharm软件中进行T‑DGAN方法的搭建和训练。 [0079] 本发明将数据集以60%:10%:30%的比例分成训练集、验证集和测试集。batch size大小设置为8,DGA‑Block中扩散注意力和图注意力的头数量均设置为8,节点嵌入的维度设置为16,最大扩散步长设置为3,PeMS03和METR‑LA数据集的训练epochs分别设置为60和80,历史数据长度和预测数据长度分别设置为12和12,使用Adam优化器对方法进行训练,初始学习率为0.001。 [0080] 3.3评价指标与基线方法 [0081] (1)评价指标 [0082] 为了更好的评估方法的预测性能,本发明使用平均绝对误差(MAE),均方根误差(RMSE)和平均绝对百分比误差(MAPE)作为T‑DGAN方法的评价指标: [0083] 1)平均绝对误差(MAE): [0084] [0085] 2)均方根误差(RMSE): [0086] [0087] 3)平均绝对百分比误差(MAPE): [0088] [0089] 式中,yi和 分别表示实际交通速度和预测交通速度。n表示交通路网上的节点数。 [0090] (2)基线方法 [0091] 本发明主要与深度学习方法以及其他的基线方法进行比较,基线方法有: [0092] 1)历史平均方法(HA):使用历史时期的平均交通信息作为预测。 [0093] 2)向量自回归(VAR):向量自回归描述在同一样本期间内的n个变量可以作为它们历史值的线性函数。 [0094] 3)支持向量回归方法(SVR):支持向量回归使用线性支持向量机来训练方法以获得输入和输出之间的关系来预测交通流。 [0096] 5)自回归移动平均方法(ARIMA):带有卡尔曼滤波器的自回归移动平均方法。 [0097] 6)长短期记忆网络(FC‑LSTM):具有全连接LSTM隐藏单元的循环神经网络。 [0098] 7)扩散卷积循环神经网络(DCRNN):将扩散卷积与循环神经网络相结合,用于交通流预测。 [0099] 8)Graph WaveNet(G‑WN):G‑WN网络结合了图卷积网络和膨胀因果卷积网络。 [0100] 9)时空图卷积网络(STGCN):时空图卷积网络,它结合了图卷积和一维卷积。 [0101] 10)基于注意力的时空图卷积网络(ASTGCN):进一步将时空注意力机制集成到时空图卷积网络中,用于捕获交通流的动态时空模式。 [0102] 11)自适应图卷积递归网络(AGCRN):通过使用节点自适应参数学习和数据自适应图生成模块来改进传统的图卷积网络,分别用于学习节点特定的模式和捕获空间相关性。 [0103] 12)图多注意力网络(GMAN):多个时空注意力块集成编码器‑解码器架构,在编码器和解码器之间转换注意力。 [0104] 3.4实验结果与分析 [0105] 本发明对PeMS03和METR‑LA数据集进行预测可视化。将时间范围设置为288个持续时间,在PeMS03数据集中随机选择节点11和190可视化,结果如图3和图4所示。在METR‑LA数据集中随机选择节点119和176可视化,如图5和图6所示。可以发现T‑DGAN方法的预测结果精确地遵循了交通速度的真实值。 [0106] 本发明将提出的T‑DGAN方法与多种基线方法在PeMS03和METR‑LA数据集上进行实验,表2,表3显示了T‑DGAN方法与基线方法在15分钟,30分钟和60分钟的预测结果,实验结果表明,本发明提出的T‑DGAN方法在两个数据集上均获得了良好的预测结果。 [0107] 通过表2和表3可以观察到,传统的时间序列分析方法的预测结果并不理想,表明这些方法对交通流的非线性和高度复杂性的建模能力有限。同时,基于深度学习的方法比传统的时间序列分析方法取得了更好的预测结果。例如,DCRNN,STGCN,ASTGCN方法和本发明的T‑DGAN方法同时考虑了时空相关性,其性能优于ARIMA和FC‑LSTM等传统时间序列方法。此外,GMAN方法的性能优于G‑WN,STGCN,ASTGCN等方法,表明GMAN中使用的编码器‑解码器架构能有效的捕获交通流的动态时空相关性。 [0108] 相比之下,本发明提出的T‑DGAN方法相比于基线方法取得了更好的预测结果,证明了T‑DGAN方法对捕获交通流动态时空相关性的有效性。同时,T‑DGAN方法通过编码器‑解码器架构来捕获交通流的时空相关性,通过时空卷积网络与扩散图注意力机制相结合,对历史时间步长和未来时间步长之间的直接关系进行建模,有助于缓解预测时间步长之间的误差传播问题。 [0109] 表2.在PeMS03数据集上的预测性能比较 [0110] [0111] 表3.在METR‑LA数据集上的预测性能比较 [0112] [0113] 为了评估本发明提出的T‑DGAN方法中不同模块的性能,进行消融实验。 [0114] (1)动态图对预测结果的影响 [0115] 本发明在PeMS03和METR‑LA数据集上进行了动态图与静态图的消融实验,研究了动态图和静态图对交通流预测的影响。通过表4的消融实验结果可以看出,动态图的预测性能优于静态图的预测性能,证明了动态图相比于静态图对交通流的预测具有更好的预测性能。 [0116] 表4.动态图与静态图设置实验结果 [0117] [0118] (2)时空卷积(ST‑Conv Block)对预测结果的影响 [0119] 为研究T‑DGAN方法中不同模块的性能,设计了T‑DGAN方法的变体(NST‑Conv Block:没有时空卷积网络模块),通过验证时空卷积模块对方法预测性能产生的影响,并将NST‑Conv Block变体方法与T‑DGAN方法在PeMS03和METR‑LA数据集上进行15分钟,30分钟和60分钟的交通流预测,如表5所示。 [0120] 表5.T‑DGAN方法与变体方法的预测结果对比 [0121] [0122] 在15分钟下,T‑DGAN方法相比NST‑Conv Block方法在PeMS03和METR‑LA数据集上的MAE分别降低了约6.67%,1.52%,RMSE分别降低了约3.47%,2.02%。在30分钟下,MAE分别降低了约7.16%,2.01%,RMSE分别降低了约3.91%,0.94%。在60分钟下,MAE分别降低了约11.56%,2.04%,RMSE分别降低了约6.93%,1.08%。通过表5可得,在不同的预测时间步下,T‑DGAN方法具有更好的预测性能,特别是在长期预测中,T‑DGAN方法相比NST‑Conv Block方法的差异更为显著,证明了ST‑Conv Block模块有效地缓解了误差传播的影响。 [0123] (3)动态邻接矩阵对预测结果的影响 [0124] 邻接转移矩阵包含了顶点之间的边权重信息,而边权重反映了交通传感器之间的交通流,因此,动态更新的邻接矩阵显示了路段上动态变化的交通流。通过实验证明邻接转移矩阵在学习过程中是动态更新的。在PeMS03和METR‑LA数据集上的结果分别如图7、图8所示,最后一个批量Te,Td在随机截断的时间节点上是不同的,证明了Te,Td是在学习过程中不断变化的。 [0125] 虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。 |