基于强化学习和双线性卷积网络的车型识别方法专利检索-强化学习机器学习人工智能人工智能专利检索查询-专利查询网

基于 强化学习和双线性卷积网络的车型识别方法

阅读：923发布：2020-05-11

专利汇可以提供基于强化学习和双线性卷积网络的车型识别方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于强化学习和双线性卷积网络的车型识别方法，构建深度网络模型，设置细粒度分类网络的超参数并初始化网络；建立优化显著性特征的马尔科夫决策模型；对数据集进行尺度变换；优化注意力区域：在细粒度分类网络参数固定的情况下，将数据集输入细粒度分类网络，并采用强化学习算法优化显著性区域，选择最优的注意力区域；建立对细粒度分类网络参数进行更新的损失函数；融合特征后重复训练网络直到注意力区域不再变化为止；采用需要测试的车型图像输入到训练完成的模型中，获得相应的检测结果。本发明利用强化学习网络来提取底层的显著性特征，并通过双线性插值法来对高层语义特征和低层的显著性特征进行融合提高识别准确率。，下面是基于强化学习和双线性卷积网络的车型识别方法专利的具体信息内容。

权利要求

1.一种基于强化学习和双线性卷积网络的车型识别方法，其特征在于，包括以下步骤：
(1)构建深度网络模型：构建用于进行车辆识别的基于强化学习和双线性卷积网络的细粒度分类网络；
(2)设置细粒度分类网络的超参数：所述超参数包括网络的学习率、迭代次数和批量大小；
(3)初始化网络：初始化细粒度分类网络的权值和阈值；
(4)建立优化显著性特征的马尔科夫决策模型；
(5)预处理数据集：对数据集进行尺度变换；
(6)优化注意力区域：在细粒度分类网络参数固定的情况下，将数据集输入细粒度分类网络，并采用强化学习算法优化显著性区域，选择最优的注意力区域；
(7)构造损失函数：建立对细粒度分类网络参数进行更新的损失函数，损失函数的定义为数据的真实标签与数据的预测标签的误差平方和；
(8)融合特征：对数据集中的每个数据，利用步骤(6)优化的注意力区域和第五卷积层的特征，可以得到最终融合的结果，并用于进行分类；
(9)训练网络：在固定最优注意力区域的情况下，利用数据集并采用梯度下降方法对细粒度分类网络再次训练，直到训练误差小于预设的阈值；
(10)交替训练：重复执行(6)-(9)直到注意力区域不再变化为止；
(11)采用需要测试的车型图像输入到训练完成的深度网络模型中，获得相应的检测结果。
2.根据权利要求1所述的基于强化学习和双线性卷积网络的车型识别方法，其特征在于，所述步骤(1)中所述的双线性卷积网络的并行特征提取层采用VGG16的第一卷积层至第五卷积层，所述第一卷积层至第五卷积层输出的特征从细节特征向高级的语义特征注意力过渡，在所述第五卷积层后通过外积操作获得一个双线性向量，最后连接全连接层，并在输出上进行软最大化操作，实现对车型的识别与分类。
3.根据权利要求1所述的基于强化学习和双线性卷积网络的车型识别方法，其特征在于，所述步骤(4)建立优化显著性特征的马尔科夫决策模型的包括：
401)状态空间X设为第三卷积层生成的特征中尺度大小为第五卷积层的所有子特征构成的集合，X＝{x1，x2，...，xn}；
402)动作空间U设为状态在状态空间的上下左右的移动构成的集合；
403)状态迁移函数为f：X×U→X，对于状态空间中的任意状态x∈X，从动作空间中任意一个动作u∈U，下一个状态为动作u发生后的状态，该状态为第三卷积层生成的特征中的尺度大小为第五卷积层的某个子特征；
404)奖赏函数为：r：X×U→R，对于状态空间中的任意x∈X，从动作空间中任意一个动作u∈U，得到的立即奖赏。
4.根据权利要求3所述的基于强化学习和双线性卷积网络的车型识别方法，其特征在于，所述动作空间U＝{0，1，2，3}，0表示状态向上的移动，1表示状态向左的移动，2表示状态向下的移动，3表示状态向右的移动。
5.根据权利要求1所述的基于强化学习和双线性卷积网络的车型识别方法，其特征在于，所述步骤(6)优化注意力区域包括步骤：
601设置参数的值：折扣率γ，衰减因子λ，迭代的轮数e，每个迭代对应的最大时间步T，学习率α，探索率ε；
602)对于初始化Q01(x，u)＝0，Q02(x，u)＝0；
603)判断情节数已达到最大值E：如果达到，转入步骤612)；否则转入步骤604)；
604)判断是否达到最大时间步：如果达到，转入步骤603)；否则转入步骤605)
605)初始化当前状态x＝x0；
606)在(0，1)之间随机产生一个概率p，判断p＜ε是否成立：如果成立，在当前状态选择的动作为：u＝argmaxu(Q1(x，u)+Q2(x，u))；否则在动作集中随机选择任意一个动作；
607)执行当前选择的动作u，得到其对应的下一个状态x′；
608)判断输出层得到的分类结果与真实标签是否一样：如果相同，立即奖赏r＝1；否则立即奖赏r＝0；
609)在(0，1)之间随机产生一个概率p，判断p＜0.5是否成立：如果成立，更新Q值：Q1(x，u)＝r+γmaxuQ1(x′，u)；否则更新Q值：Q2(x，u)＝r+γmaxuQ2(x′，u)；
610)更新当前时间步：t＝t+1，并转步骤604)进行判断；
611)更新当前情节：e＝e+1；
612)输出当前的最优策略和值函数Q1(x，u)、Q2(x，u)。
6.根据权利要求1所述的基于强化学习和双线性卷积网络的车型识别方法，其特征在于，所述步骤(7)中损失函数为：
其中，y表示网络得到处的车型分类结果，y′表示车型图片的真实的标签。

说明书全文

基于强化学习和双线性卷积网络的车型识别方法

技术领域

[0001] 本发明涉及一种车型识别方法，特别是涉及一种基于强化学习和双线性卷积网络的车型识别方法。

背景技术

[0002] 车型识别问题可以看作是细粒度分类问题一个应用分支，即对外观非常相似的同一个类别的不同子类进行分类。由于日常采集的车型图片容易受到姿势、视角和遮挡等因素影响，使得不同品牌的车型之间存在着较小的差异，而同一品牌的车型之间反而存在着较大的差异。如何有效地对车型识别是细粒度分类中的一个亟需解决的应用问题。

[0003] 双线性卷积网络是近年来能以较高精度来实现细粒度分类的一种模型，具有结构简单和训练高效的优点，但其仅将最后一层的特征作为分类的输入特征，利用这类特征来进行训练时，会丢失较多的细节信息，而保留大部分的高层特征。由于细粒度分类的对象往往是外型相似，但在细节的表现上各不相同的物体，因此对于细节特征的刻画对于细粒度分类的识别率有着很大的影响。如果直接将双线性网络的底层特征和高层特征融合，由于底层特征的尺度较大，因此在和高层特征融合时，需要采用一些方法进行降维。当降维后得到的特征损失的主要信息为细节信息时，不仅无法提高分类的准确率，反而会延长网络的训练时间和最终的分类效率。

[0004] 强化学习作为一种序列决策问题的求解方法，通过将要求解的问题建模为MDP模型，再采用强化学习中的经典方法如时间差分算法、最小二乘时间差分算法和行动者评论家算法等来求解最优策略。因此，强化学习是一种非常适合用来提取底层特征中的显著性的方法。

发明内容

[0005] 本发明的目的是提供一种基于强化学习和双线性卷积网络的车型识别方法，在较少的车型图片情况下提高车型识别准确率。

[0006] 本发明的技术方案是这样的：一种基于强化学习和双线性卷积网络的车型识别方法，包括以下步骤：

[0007] (1)构建深度网络模型：构建用于进行车辆识别的基于强化学习和双线性卷积网络的细粒度分类网络；

[0008] (2)设置细粒度分类网络的超参数：所述超参数包括网络的学习率、迭代次数和批量大小；

[0009] (3)初始化网络：初始化细粒度分类网络的权值和阈值；

[0010] (4)建立优化显著性特征的马尔科夫决策模型；

[0011] (5)预处理数据集：对数据集进行尺度变换；

[0012] (6)优化注意力区域：在细粒度分类网络参数固定的情况下，将数据集输入细粒度分类网络，并采用强化学习算法优化显著性区域，选择最优的注意力区域；

[0013] (7)构造损失函数：建立对细粒度分类网络参数进行更新的损失函数，损失函数的定义为数据的真实标签与数据的预测标签的误差平方和；

[0014] (8)融合特征：对数据集中的每个数据，利用步骤(6)优化的注意力区域和第五卷积层的特征，可以得到最终融合的结果，并用于进行分类；

[0015] (9)训练网络：在固定最优注意力区域的情况下，利用数据集并采用梯度下降方法对细粒度分类网络再次训练，直到训练误差小于预设的阈值；

[0016] (10)交替训练：重复执行(6)-(9)直到注意力区域不再变化为止；

[0017] (11)采用需要测试的车型图像输入到训练完成的深度网络模型中，获得相应的检测结果。

[0018] 进一步地，所述步骤(1)中所述的双线性卷积网络的并行特征提取层采用VGG16的第一卷积层至第五卷积层，所述第一卷积层至第五卷积层输出的特征从细节特征向高级的语义特征注意力过渡，在所述第五卷积层后通过外积操作获得一个双线性向量，最后连接全连接层，并在输出上进行软最大化操作，实现对车型的识别与分类。

[0019] 进一步地，所述步骤(4)建立优化显著性特征的马尔科夫决策模型的包括：

[0020] 401)状态空间X设为第三卷积层生成的特征中尺度大小为第五卷积层的所有子特征构成的集合，X＝{x1,x2,…,xn}；

[0021] 402)动作空间U设为状态在状态空间的上下左右的移动构成的集合；

[0022] 403)状态迁移函数为f:X×U→X，对于状态空间中的任意状态x∈X，从动作空间中任意一个动作u∈U，下一个状态为动作u发生后的状态，该状态为第三卷积层生成的特征中的尺度大小为第五卷积层的某个子特征；

[0023] 404)奖赏函数为：r:X×U→R，对于状态空间中的任意x∈X，从动作空间中任意一个动作u∈U，得到的立即奖赏。

[0024] 优选地，所述动作空间U＝{0,1,2,3}，0表示状态向上的移动，1表示状态向左的移动，2表示状态向下的移动，3表示状态向右的移动。

[0025] 进一步地，所述(6)优化注意力区域包括步骤：

[0026] 601)设置参数的值：折扣率γ，衰减因子λ，迭代的轮数e，每个迭代对应的最大时间步T，学习率α，探索率ε；

[0027] 602)对于初始化Q01(x,u)＝0，Q02(x,u)＝0；

[0028] 603)判断情节数已达到最大值E：如果达到，转入步骤612)；否则转入步骤604)；

[0029] 604)判断是否达到最大时间步：如果达到，转入步骤603)；否则转入步骤605)[0030] 605)初始化当前状态x＝x0；

[0031] 606)在(0,1)之间随机产生一个概率p，判断p<ε是否成立：如果成立，在当前状态选择的动作为：u＝argmaxu(Q1(x,u)+Q2(x,u))；否则在动作集中随机选择任意一个动作；

[0032] 607)执行当前选择的动作u，得到其对应的下一个状态x'；

[0033] 608)判断输出层得到的分类结果与真实标签是否一样：如果相同，立即奖赏r＝1；否则立即奖赏r＝0；

[0034] 609)在(0,1)之间随机产生一个概率p，判断p<0.5是否成立：如果成立，更新Q值：Q1(x,u)＝r+γmaxuQ1(x′,u)；否则更新Q值：Q2(x,u)＝r+γmaxuQ2(x′,u)；

[0035] 610)更新当前时间步：t＝t+1，并转步骤604)进行判断；

[0036] 611)更新当前情节：e＝e+1；

[0037] 612)输出当前的最优策略和值函数Q1(x,u)、Q2(x,u)。

[0038] 进一步地，所述步骤(7)中损失函数为：

[0039]

[0040] 其中，y表示网络得到处的车型分类结果，y′表示车型图片的真实的标签。

[0041] 本发明所提供的技术方案的有益效果是，采用双线性卷积网络作为基本的深度网络构架，利用强化学习网络来提取底层的显著性特征，并通过双线性插值法来对高层语义特征和低层的显著性特征进行融合，最后，通过双线性卷积网络的全连接层和软最大化操作进行具体的车型识别，提高了车型识别准确率。结合强化学习网络，可在车型图片较少时很好地提取车型图片的显著性特征，适合进行在线车型识别，能被应用于视频监控领域的在线实时识别。附图说明

[0042] 图1为本发明方法的流程图；

[0043] 图2为本发明方法网络模型图；

[0044] 图3为本发明方法中双线性模型的单网络模型细化图。

具体实施方式

[0045] 请结合图1所示，本实例涉及的基于强化学习和双线性卷积网络的车型识别方法，包含以下步骤：

[0046] (1)构建深度网络模型：构建用于进行车辆识别的基于强化学习和双线性卷积网络的细粒度分类网络，其模型图如图2及图3所示。双线性卷积网络的并行特征提取层采用VGG16的第一卷积层至第五卷积层，第一卷积层至第五卷积层输出的特征从细节特征向高级的语义特征注意力过渡，在第五卷积层后通过外积操作获得一个双线性向量，最后连接全连接层，并在输出上进行软最大化操作，实现对车型的识别与分类。

[0047] (2)设置网络的超参数：网络的学习率为0.02，迭代次数为10000次，批量大小为10张图片，训练的阈值为0.01；

[0048] (3)初始化网络：设置网络的所有权值和阈值为0.00001；

[0049] (4)构建MDP模型：构建优化显著性特征的马尔科夫决策模型，建立的MDP模型如下：

[0050] 401)状态空间建模：状态空间是在Conv3的输出特征图的基础上，所有能采用第五卷积层的尺度在第三卷积层输出特征上得到的特征构成了状态空间，其中，状态空间中包含4个包含边缘四个角落的特征图；

[0051] 402)动作空间建模：动作空间建模向上、向作、向下和向右的移动，分别采用数字0、1、2和3对动作进行刻画；

[0052] 403)迁移函数建模：假设当前状态对应的特征所对应的位置为(x,y)，则：

[0053] 如果采取了向上的动作后，下一个状态的位置为(x,y-1)；

[0054] 如果采取了向左的动作，下一个状态的位置为(x-1,y)；

[0055] 如果采取了向下的动作，下一个状态的位置为(x,y+1)

[0056] 如果采取了向右的动作，下一个状态的位置为(x+1,y)

[0057] 404)奖赏函数建模：奖赏函数的建模依赖于深度网络当前的输出，即在将某一车型图输入深度网络时，采用目前的最优的注意力区域，得到的车型类别。当车型类别与真实类别相同时，立即奖赏为1；否则，奖赏为0。

[0058] (5)预处理数据集：下载数据集，并对数据集进行尺度变换，即平移和旋转等操作，对原始的数据集进行扩充，扩充的目的是增加网络的鲁棒性，即在对一些有噪声的图，网络具有很好的识别能力，同时防止训练时的过拟合现象。数据集Car-196下载的地址为：Car-196:https://ai.stanford.edu/～jkrause/cars/car_dataset.html。

[0059] 为了使得网络具有更好的泛化能力，在训练阶段也采用鸟类数据集CUB-200和飞机类FGVC-Aircraft进行训练，其下载地址分别为：

[0060] CUB-200:http://www.vision.caltech.edu/visipedia/CUB-200.html和FGVC-Aircraft:http://www.robots.ox.ac.uk/～vgg/data/fgvc-aircraft/。

[0061] (6)优化注意力区域：采用强化学习算法优化显著性区域，进行网络的训练，选择最优的注意力区域，优化的具体实施过程可以描述为：

[0062] 601)设置参数的值：折扣率γ＝0.9，衰减因子λ＝0.95，迭代的轮数E＝200，每个迭代对应的最大时间步T＝1000，学习率α＝0.5，探索率ε＝0.1；

[0063] 602)对于初始化Q01(x,u)＝0，Q02(x,u)＝0，判断情节数已达到最大值E：

[0064] 如果达到：

[0065] 转入步骤

[0066] 否则：

[0067] 转入步骤604)；

[0068] 603)判断是否达到最大时间步：

[0069] 如果达到：

[0070] 转入步骤603)

[0071] 否则：

[0072] 转入步骤605)

[0073] 604)随机初始化当前状态x＝x0；

[0074] 605)在(0,1)之间随机产生一个概率p，判断p<ε是否成立：

[0075] 如果成立：

[0076] 在当前状态选择的动作为：u＝argmaxu(Q1(x,u)+Q2(x,u))

[0077] 否则：

[0078] 在动作集中随机选择四个动作中的任意一个；

[0079] 606)执行当前选择的动作u，得到其对应的下一个状态x′

[0080] 607)判断输出层得到的分类结果与真实标签是否一样：

[0081] 如果相同：

[0082] 立即奖赏r＝1

[0083] 否则：

[0084] 立即奖赏r＝0

[0085] 608)在(0,1)之间随机产生一个概率p，判断p<0.5是否成立：

[0086] 如果成立：

[0087] 更新Q值：Q1(x,u)＝r+γmaxuQ1(x′,u)

[0088] 否则：

[0089] 更新Q值：Q2(x,u)＝r+γmaxuQ2(x′,u)

[0090] 609)更新当前时间步：t＝t+1，并转步骤4)进行判断

[0091] 610)更新当前情节：e＝e+1

[0092] 611)输出当前的最优策略和值函数Q1(x,u)、Q2(x,u)

[0093] (7)构造损失函数：构造网络训练的损失函数为：

[0094]

[0095] 其中，y表示网络得到处的车型分类结果，y′表示车型图片的真实的标签。

[0096] (8)融合特征：在获得了最优值的特征区域后，固定该区域，并用于对高层特征(第5个卷积模块的输出)采用加和的方式进行融合，得到融合的高层特征，各层特征的输出以及融合特征的输出如图2所示；

[0097] (9)训练网络：在固定最优注意力区域的情况下，利用数据集，并采用梯度下降方法对网络再次训练，直到训练误差小于预设的阈值；

[0098] (10)交替训练：重复执行(6)-(9)直到注意力区域不再变化为止；

[0099] (11)采用需要测试的车型图像输入到深度网络模型中，获得相应的检测结果。

[0100] 采用本发明方法进行车型识别方法在各数据集的识别准确率如下表：

[0101]

标题	发布/更新时间	阅读量
一种基于深度强化学习的异构网络选择方法	2020-05-08	113
视频摘要模型的训练方法、视频摘要生成方法及装置	2020-05-13	605
基于强化学习和双线性卷积网络的车型识别方法	2020-05-11	923
基于深度增强学习的预观控制仿人机器人步态规划方法	2020-05-12	704
基于改进直流潮流算法的电网无功潮流调整方法及装置	2020-05-12	393
一种用辩证法研究钢琴教学的方法	2020-05-13	164
一种基于相似上下文和强化学习的中文词向量生成方法	2020-05-13	585
基于强化学习的波动鳍推进水下作业机器人追踪控制方法	2020-05-11	144
一种基于强化学习的人脸识别方法	2020-05-11	825
一种电力信息通信设备自动化测试资源调度方法	2020-05-13	665

基于强化学习和双线性卷积网络的车型识别方法

基于强化学习和双线性卷积网络的车型识别方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：