首页 / 专利库 / 视听技术与设备 / 图像分割 / 轨迹预测方法及装置

轨迹预测方法及装置

阅读:584发布:2024-02-25

专利汇可以提供轨迹预测方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供一种轨迹预测方法及装置,涉及 机器人 及智能车辆的局部导航领域,应用于设置有车载摄像头的车辆,该方法包括:利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列。从该视频序列中 定位 该周围车辆并提取该周围车辆的历史轨迹信息,将该视频序列进行 图像分割 得到的场景语义信息作为辅助信息。将该历史轨迹信息和该辅助信息输入神经网络模型,得到该周围车辆的预测轨迹。该轨迹预测方法可提高预测车辆轨迹的准确度。,下面是轨迹预测方法及装置专利的具体信息内容。

1.一种轨迹预测方法,应用于设置有车载摄像头的车辆,其特征在于,所述方法包括:
利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列;
从所述视频序列中定位所述周围车辆并提取所述周围车辆的历史轨迹信息,将所述视频序列进行图像分割得到的场景语义信息作为辅助信息;
将所述历史轨迹信息和所述辅助信息输入神经网络模型,得到所述周围车辆的预测轨迹。
2.如权利要求1所述的轨迹预测方法,其特征在于,所述神经网络模型包括卷积神经网络、第一层长短期记忆网络、第二层长短期记忆网络和全连接层,则所述将所述历史轨迹信息和所述辅助信息输入神经网络模型,得到所述周围车辆的预测轨迹包括:
将所述辅助信息输入给所述卷积神经网络,得到空间特征信息;
将所述历史轨迹信息输入所述第一层长短期记忆网络,得到时间特征信息;
将所述空间特征信息和所述时间特征信息输入所述第二层长短期记忆网络,得到联合特征信息;
将所述联合特征信息输入全连接层,得到所述预测轨迹。
3.如权利要求1所述的轨迹预测方法,其特征在于,所述神经网络模型包括以下公式:
J←Mp(h,a):H×A;
其中,J表示所述预测轨迹,M表示H、A与J之间的映射关系,H表示所述历史轨迹信息,A表示所述辅助信息,p表示所述周围车辆,h表示在第t视频序列中车辆p的位置信息,a表示在第t帧视频序列中车辆p的场景语义信息,j表示在从T+1帧起第t帧视频序列中车辆p的位置信息,t表示每帧。
4.如权利要求1所述的轨迹预测方法,其特征在于,所述预测轨迹为二维空间预测轨迹,所述车辆中还设置有深度相机,则所述方法还包括:
通过所述深度相机,分别获取所述车辆与各所述周围车辆的最小相对距离;
根据所述最小相对距离,将所述二维空间预测轨迹转换为三维空间预测轨迹。
5.如权利要求4所述的轨迹预测方法,其特征在于,通过以下公式,根据所述最小相对距离,将所述二维空间预测轨迹转换为三维空间预测轨迹:
其中,x,y,w,h分别表示二维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,xr,yr,wr,hr分别表示三维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,f表示为所述深度相机的焦距,dmin表示为所述车辆与各所述周围车辆的最小相对距离。
6.一种轨迹预测装置,应用于设置有车载摄像头的车辆,其特征在于,所述装置包括:
获取模,用于利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列;
提取分割模块,用于从所述视频序列中定位所述周围车辆并提取所述周围车辆的历史轨迹信息,将所述视频序列进行图像分割得到的场景语义信息作为辅助信息;
输出模块,用于将所述历史轨迹信息和所述辅助信息输入神经网络模型,得到所述周围车辆的预测轨迹。
7.如权利要求6所述的轨迹预测装置,其特征在于,所述神经网络模型包括卷积神经网络、第一层长短期记忆网络、第二层长短期记忆网络和全连接层,则,
所述输出模块,还用于将所述辅助信息输入给所述卷积神经网络,得到空间特征信息;
所述输出模块,还用于将所述历史轨迹信息输入所述第一层长短期记忆网络,得到时间特征信息;
所述输出模块,还用于将所述空间特征信息和所述时间特征信息输入所述第二层长短期记忆网络,得到联合特征信息;
所述输出模块,还用于将所述联合特征信息输入全连接层,得到所述预测轨迹。
8.如权利要求6所述的轨迹预测装置,其特征在于,所述神经网络模型包括以下公式:
J←Mp(h,a):H×A;
其中,J表示所述预测轨迹,M表示H、A与J之间的映射关系,H表示所述历史轨迹信息,A表示所述辅助信息,p表示所述周围车辆,h表示在第t帧视频序列中车辆p的位置信息,a表示在第t帧视频序列中车辆p的场景语义信息,j表示在从T+1帧起第t帧视频序列中车辆p的位置信息,t表示每帧。
9.如权利要求6所述的轨迹预测装置,其特征在于,所述预测轨迹为二维空间预测轨迹,所述车辆中还设置有深度相机,
所述获取模块,还用于通过所述深度相机,分别获取所述车辆与各所述周围车辆的最小相对距离;
则所述装置还包括转换模块,
所述转换模块,用于根据所述最小相对距离,将所述二维空间预测轨迹转换为三维空间预测轨迹。
10.如权利要求9所述的轨迹预测装置,其特征在于,
所述转换模块,还用于通过以下公式,根据所述最小相对距离,将所述二维空间预测轨迹转换为三维空间预测轨迹:
其中,x,y,w,h分别表示二维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,xr,yr,wr,hr分别表示三维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,f表示为所述深度相机的焦距,dmin表示为所述车辆与各所述周围车辆的最小相对距离。

说明书全文

轨迹预测方法及装置

技术领域

[0001] 本发明涉及机器人及智能车辆的局部导航领域,尤其涉及一种轨迹预测方法及装置。

背景技术

[0002] 在车辆行驶过程中,预测其他交通参与者的未来轨迹以避免自动驾驶的车辆撞向其他车辆是十分重要的。假设所有交通参与者都遵守交通规则,人类驾驶员可以潜意识地预测目标的未来轨迹,则对于自动驾驶车辆而言,通常采用建立模型的方法来预测其他交通参与者的未来轨迹。
[0003] 然而,目前大多数工作都是使用静态图像来提取视觉语义消息,或者采用端对端的结构来学习驾驶网络,前者忽略驾驶情形中的时间连续性,而后者缺乏训练网络可解释性,因此会造成预测车辆轨迹准确度不高的问题。

发明内容

[0004] 本发明的主要目的在于提供一种轨迹预测方法及装置,可提高预测车辆轨迹的准确度。
[0005] 本发明实施例第一方面提供的轨迹预测方法,应用于设置有车载摄像头的车辆,所述方法包括:利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列;从所述视频序列中定位所述周围车辆并提取所述周围车辆的历史轨迹信息,将所述视频序列进行图像分割得到的场景语义信息作为辅助信息;将所述历史轨迹信息和所述辅助信息输入神经网络模型,得到所述周围车辆的预测轨迹。
[0006] 本发明实施例第二方面提供的轨迹预测装置,应用于设置有车载摄像头的车辆,所述装置包括:获取模,用于利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列;提取分割模块,用于从所述视频序列中定位所述周围车辆并提取所述周围车辆的历史轨迹信息,将所述视频序列进行图像分割得到的场景语义信息作为辅助信息;输出模块,用于将所述历史轨迹信息和所述辅助信息输入神经网络模型,得到所述周围车辆的预测轨迹。
[0007] 从上述实施例中可知,通过车载摄像头获取包括周围车辆和车辆背景的视频序列,并且将视频序列进行图像分割获取场景语义信息,接着将场景语义信息和历史轨迹信息输入神经网络模型获取预测轨迹,而不是采用静态图像来提取场景语义信息进行分析,从而保证了本实施例中神经网络模型的时间连续性,进而提高了预测车辆轨迹的准确度。附图说明
[0008] 图1是本发明第一实施例提供的轨迹预测方法的实现流程示意图;
[0009] 图2是本发明第二实施例提供的轨迹预测方法的实现流程示意图;
[0010] 图3是本发明第二实施例提供的轨迹预测方法的神经网络模型的示意图;
[0011] 图4是本发明第二实施例提供的轨迹预测方法的应用示意图;
[0012] 图5是本发明第三实施例提供的轨迹预测装置的结构示意图。

具体实施方式

[0013] 为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0014] 请参阅图1,图1是本发明第一实施例提供的轨迹预测方法的实现流程示意图,该方法应用于设置有车载摄像头的车辆。如图1所示,该轨迹预测方法主要包括以下步骤:
[0015] 101、利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列。
[0016] 具体的,在车辆的自动行驶过程中,假设所有交通参与者都遵守交通规则,采用建立模型的方法来预测其他交通参与者的未来轨迹。在建立模型的过程中,需获取周围的环境信息,因此首先利用车辆上的车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列。其中,视频序列的每秒数可根据实际情况进行选用。其中,周围车辆可指与设置有车载摄像头的车辆的距离位于一定范围以内,对设置有车载摄像头的车辆存在潜在影响的车辆,该范围可为设置有车载摄像头的车辆的周围30米处。
[0017] 102、从该视频序列中定位该周围车辆并提取该周围车辆的历史轨迹信息,将该视频序列进行图像分割得到的场景语义信息作为辅助信息。
[0018] 具体的,视频序列中的运动为快速连续地显示帧所形成的运动的假象,每一帧的视频序列为静止的图像,则在每一帧的视频序列中定位周围车辆,从连续的多帧视频序列中可以看到周围车辆的轨迹信息,因此对于当前帧的视频序列而言,从过去多帧的视频序列中获取到的是周围车辆的历史轨迹信息。
[0019] 其中,将每一帧的视频序列进行图像分割得到的场景语义信息作为辅助信息。图像分割是指将每一帧的视频序列中的物体按照语义类别进行分割并标注场景语义信息,如行人、周围车辆、建筑物、天空、植被、道路障碍、车道线、道路标识信息和交通信号灯信息等,进而识别当前帧的视频序列中的可行驶区域。通过将场景语义信息作为辅助信息可对于目标的表观变化具有一定的鲁棒性。
[0020] 可选的,由于不同的语义类别所对应的区域为不同特征区域,而不同特征区域的分界线是边缘,因此可采用边缘检测对每一帧的视频序列进行分割,从而提取出所需要的目标。其中,边缘是表明一个特征区域的结束和另一个特征区域的开始,所需要的目标的内部特征或属性是一致的,与其他特征区域内部的特征或属性不一致,如灰度、颜色或者纹理等特征。
[0021] 103、将该历史轨迹信息和该辅助信息输入神经网络模型,得到该周围车辆的预测轨迹。
[0022] 具体的,神经网络是由大量且简单的神经元广泛地互相连接而形成的复杂网络系统,是一个高度复杂的非线性动学习系统,具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。因此,利用神经网络建立数学模型得到神经网络模型,并将得到的历史轨迹信息和辅助信息输入神经网络模型,得到周围车辆的预测轨迹。
[0023] 在本发明实施例中,通过车载摄像头获取包括周围车辆和车辆背景的视频序列,并且将视频序列进行图像分割获取场景语义信息,接着将场景语义信息和历史轨迹信息输入神经网络模型获取预测轨迹,而不是采用静态图像来提取场景语义信息进行分析,从而保证了本实施例中神经网络模型的时间连续性,进而提高了预测车辆轨迹的准确度。
[0024] 请参阅图2,图2是本发明第二实施例提供的轨迹预测方法的实现流程示意图,该方法应用于设置有车载摄像头的车辆。如图2所示,该轨迹预测方法主要包括以下步骤:
[0025] 201、利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列。
[0026] 202、从该视频序列中定位该周围车辆并提取该周围车辆的历史轨迹信息,将该视频序列进行图像分割得到的场景语义信息作为辅助信息。
[0027] 203、将该辅助信息输入给该卷积神经网络,得到空间特征信息。
[0028] 具体的,该神经网络模型包括卷积神经网络、第一层长短期记忆网络、第二层长短期记忆网络和全连接层。
[0029] 其中,卷积神经网络是一种前馈神经网络。视频序列进行图像分割和标注后得到场景语义信息作为辅助信息输入到卷积神经网络,得到空间特征信息。辅助信息为图像信息,可采用一位有效编码进行编码,以频道数作为语义类别数量,将该辅助信息输入四层的卷积神经网络,该卷积核可为3*3*4,得到空间特征信息,该空间特征信息以6维向量表示。
[0030] 其中,如图3所示,卷积神经网络包括卷积层、线性修正单元、池化层和Dropout层。卷积层可提取辅助信息中的特征。线性层可引入非线性特征。池化层可对输入的辅助信息进行压缩,并提取主要特征。Dropout层可用于缓解过拟合问题。
[0031] 204、将该历史轨迹信息输入该第一层长短期记忆网络,得到时间特征信息。将该空间特征信息和该时间特征信息输入该第二层长短期记忆网络,得到联合特征信息。
[0032] 具体的,长短期神经(Long-short Term Memory,LSTM)网络是一种时间递归网络。历史轨迹信息有一定的时序性,并且位置上存在一定上下文关联,即历史轨迹信息作为一个序列的输入需要不断进行学习前后的位置特征,因此利用LSTM网络对历史轨迹信息进行训练,并连接历史帧的轨迹信息用于推测当前帧的轨迹信息。
[0033] 其中,如图3所示,历史轨迹信息输入第一层LSTM网络,得到时间特征信息,将该时间特征信息和步骤203中得到的空间特征信息输入到第二层LSTM网络,得到联合表征信息。并且由于立体空间网格维数为6,第一层LSTM网络不仅可以学习到时间特征信息,而且可以使时间特征信息和空间特征信息的维数一致。在实际应用中,第一层LSTM网络的单元数可为100,第二层LSTM网络可包括两层单元数均为300的LSTM网络。
[0034] 205、将该联合特征信息输入全连接层,得到该预测轨迹。
[0035] 具体的,全连接层的每一个结点都与上一层的所有结点相连,用来把上一层提取到的所有特征综合起来,因此将联合表征信息输入全连接层,进行一系列的矩阵相乘得到神经网络模型的输出,得到T个时间步长的预测轨迹J。在实际应用中,时间T可为1.6s(单位:秒)
[0036] 其中,该神经网络模型包括以下公式:
[0037] J←Mp(h,a):H×A。
[0038]
[0039]
[0040]
[0041] 其中,J表示该预测轨迹,M表示H、A与J之间的映射关系,H表示该历史轨迹信息,A表示该辅助信息,p表示该周围车辆,h表示在第t帧视频序列中车辆p的位置信息,a表示在第t帧视频序列中车辆p的场景语义信息,j表示在从T+1帧起第t帧视频序列中车辆p的位置信息,t表示每帧。
[0042] 其中,如图3所示,本实施例中提出图像分割-长短期记忆网络(Segmentation-Long-short Term Memory,SEG-LSTM)将历史帧的多流融合起来并预测周围车辆的未来轨迹。
[0043] 其中,LSTM网络的层数、每层LSTM网络的单元数、卷积神经网络的层数以及卷积核的尺寸都属于网络超参数,是经过交叉验证确定的。交叉验证的作用是确定最优的超参数,同时避免模型过拟合。示例性的,首先,将数据集分为训练集和测试集,比例为5:1。接着训练集均分为5部分,将每一部分轮流作为验证集,其余4部分作为训练集进行5次训练和验证,使用不同超参数可得到对应的平均准确率,取效果最优的超参数来确定其数值。
[0044] 如图4所示,将视频序列按帧划分为多个时间步长的视频序列,并从每一帧的视频序列进行检测与跟踪得到位置信息,进行图像分割,得到语义信息。随后,将同一帧的位置信息和语义信息输入LSTM网络进行训练,通过对多个历史帧和当前帧的视频序列进行训练,得到预测轨迹,
[0045] 206、通过该深度相机,分别获取该车辆与各该周围车辆的最小相对距离。根据该最小相对距离,将该二维空间预测轨迹转换为三维空间预测轨迹。
[0046] 具体的,该预测轨迹为二维空间预测轨迹,该车辆中还设置有深度相机。
[0047] 其中,通过以下公式,根据该最小相对距离,将该二维空间预测轨迹转换为三维空间预测轨迹:
[0048]
[0049] 其中,x,y,w,h分别表示二维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,xr,yr,wr,hr分别表示三维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,f表示为该深度相机的焦距,dmin表示为该车辆与各该周围车辆的最小相对距离。
[0050] 其中,若忽略下标p,历史轨迹信息和预测轨迹可定义为一个三维空间占据网格,即
[0051] H,J∈R6={x,y,w,h,dmin,dmax}
[0052] 式中,dmax表示该车辆与各该周围车辆的最大距离。
[0053] 在本发明实施例中,首先,通过车载摄像头获取包括周围车辆和车辆背景的视频序列,并且将视频序列进行图像分割获取场景语义信息,接着将场景语义信息和历史轨迹信息输入神经网络模型获取预测轨迹,而不是采用静态图像来提取场景语义信息进行分析,从而保证了本实施例中神经网络模型的时间连续性,进而提高了预测车辆轨迹的准确度。另外,采用卷积神经网络和LSTM网络可提高对周围车辆追踪的鲁棒性,并且采用图像分割得到场景语义信息,可提高训练过程的可解释性。
[0054] 请参阅图5,图5是本发明第三实施例提供的轨迹预测装置的结构示意图,应用于设置有车载摄像头的车辆。如图5所示,该轨迹预测装置主要包括:
[0055] 获取模块301,用于利用车载摄像头对周围环境进行摄影,获取包括有周围车辆和车辆背景的视频序列。
[0056] 提取分割模块302,用于从视频序列中定位周围车辆并提取周围车辆的历史轨迹信息,将视频序列进行图像分割得到的场景语义信息作为辅助信息。
[0057] 输出模块303,用于将历史轨迹信息和辅助信息输入神经网络模型,得到周围车辆的预测轨迹。
[0058] 进一步地,神经网络模型包括卷积神经网络、第一层长短期记忆网络、第二层长短期记忆网络和全连接层,则,
[0059] 输出模块303,还用于将辅助信息输入给卷积神经网络,得到空间特征信息。
[0060] 输出模块303,还用于将历史轨迹信息输入第一层长短期记忆网络,得到时间特征信息。
[0061] 输出模块303,还用于将空间特征信息和时间特征信息输入第二层长短期记忆网络,得到联合特征信息。
[0062] 输出模块303,还用于将联合特征信息输入全连接层,得到预测轨迹。
[0063] 进一步地,神经网络模型包括以下公式:
[0064] J←Mp(h,a):H×A。
[0065]
[0066]
[0067]
[0068] 其中,J表示预测轨迹,M表示H、A与J之间的映射关系,H表示历史轨迹信息,A表示辅助信息,p表示周围车辆,h表示在第t帧视频序列中车辆p的位置信息,a表示在第t帧视频序列中车辆p的场景语义信息,j表示在从T+1帧起第t帧视频序列中车辆p的位置信息,t表示每帧。
[0069] 进一步地,预测轨迹为二维空间预测轨迹,车辆中还设置有深度相机,[0070] 获取模块301,还用于通过深度相机,分别获取车辆与各周围车辆的最小相对距离。
[0071] 则装置还包括转换模块304,
[0072] 转换模块304,用于根据最小相对距离,将二维空间预测轨迹转换为三维空间预测轨迹。
[0073] 进一步地,转换模块304,还用于通过以下公式,根据最小相对距离,将二维空间预测轨迹转换为三维空间预测轨迹:
[0074]
[0075] 其中,x,y,w,h分别表示二维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,xr,yr,wr,hr分别表示三维空间预测轨迹在每一帧视频序列中的像素边界框中的元素,f表示为深度相机的焦距,dmin表示为车辆与各周围车辆的最小相对距离。
[0076] 上述模块实现各自功能的过程具体可参考上述如图1至图4所示实施例中的相关内容,此处不再赘述。
[0077] 在本发明实施例中,通过车载摄像头获取包括周围车辆和车辆背景的视频序列,并且将视频序列进行图像分割获取场景语义信息,接着将场景语义信息和历史轨迹信息输入神经网络模型获取预测轨迹,而不是采用静态图像来提取场景语义信息进行分析,从而保证了本实施例中神经网络模型的时间连续性,进而提高了预测车辆轨迹的准确度。
[0078] 在本申请所提供的多个实施例中,应该理解到,所揭露的方法及装置,可以通过其他的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅作为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以使通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其他的形式。
[0079] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0080] 另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中。也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的方式实现,也可以采用软件功能模块的形式实现。
[0081] 需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
[0082] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0083] 以上为对本发明所提供的一种轨迹预测方法及装置、终端及计算机可读存储介质的描述,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈