基于多尺度注意力卷积神经网络的驾驶员行为识别方法专利检索-卷积神经网络深度神经网络前馈神经网络人工神经网络机器学习人工智能人工智能专利检索查询-专利查询网

基于多尺度注意力 卷积神经网络的驾驶员行为识别方法

阅读：0发布：2021-05-21

专利汇可以提供基于多尺度注意力卷积神经网络的驾驶员行为识别方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于多尺度注意力卷积神经网络的驾驶员行为识别方法，包括如下步骤：(1)拍摄驾驶员行为识别的图像数据集；(2)对拍摄得到的驾驶员行为数据集做数据增强并将增强得到的样本同时纳入训练数据中；(3)构建神经网络模型，包括三个模块，分别为：多尺度卷积模块、注意力模块和分类模块；(4)训练多尺度注意力卷积神经网络；使用Pytorch开源工具搭建网络模型，使用随机梯度下降方法优化网络参数；(5)对多列卷积神经网络进行测试。本发明将多尺度模型和注意力机制引入到驾驶员行为识别任务中用于提取具有区分度的行为细粒度特征表示，可进一步提高驾驶员行为识别准确率。，下面是基于多尺度注意力卷积神经网络的驾驶员行为识别方法专利的具体信息内容。

权利要求

1.一种基于多尺度注意力卷积神经网络的驾驶员行为识别方法，其特征在于，包括如下步骤：
(1)拍摄驾驶员行为识别的图像数据集；
(2)对拍摄得到的驾驶员行为数据集做数据增强并将增强得到的样本同时纳入训练数据中；
(3)构建神经网络模型，包括三个模块，分别为：多尺度卷积模块、注意力模块和分类模块；
(4)训练多尺度注意力卷积神经网络；使用Pytorch开源工具搭建网络模型，使用随机梯度下降方法优化网络参数；
(5)对多列卷积神经网络进行测试。
2.如权利要求1所述的基于多尺度注意力卷积神经网络的驾驶员行为识别方法，其特征在于，步骤(1)中，驾驶员行为涵盖6种不同的驾驶行为，包括C0：安全驾驶；C1:脱离方向盘驾驶；C2：打电话驾驶；C3:低头看手机；C4：抽烟驾驶；C5：与乘客交谈。
3.如权利要求1所述的基于多尺度注意力卷积神经网络的驾驶员行为识别方法，其特征在于，步骤(2)中，对拍摄得到的驾驶员行为数据集做数据增强并将增强得到的样本同时纳入训练数据中具体包括如下步骤：
(21)采用随机裁剪的数据增强方法，将输入的图像归一化为256×256，随机选取224×
224的图像块作为训练样本；
(22)采用基于图像内容变换的数据增强方法，包含小角度旋转、镜像、加噪和高斯平滑；
(23)若训练集中包含K个训练样本，则记为X＝{χ1,χ2,...χN}，而对于训练集中的第n个样本表示为χk＝{Ik,lk}，其中Ik表示第k个三通到图像，尺寸为为224×224×3，lk表示其对应的类别标签。
4.如权利要求1所述的基于多尺度注意力卷积神经网络的驾驶员行为识别方法，其特征在于，步骤(3)中，多尺度卷积模块以原始图像为输入，采用不同尺度的卷积核对图像进行逐层滤波，最大值选择单元作为每个多尺度卷积块的激励函数，以自适应的融合逐层的多尺度信息已初步提取行为特征；注意力模块对行为特征进行细化，该模块通过学习像素级权重矩阵和通道级权重矩阵获取行为特征的像素级显著性和通道级显著性，并使用软注意的策略对行为特征进行细化；分类模块通过全连接层和softmax层对驾驶员行为进行分类。
5.如权利要求1所述的基于多尺度注意力卷积神经网络的驾驶员行为识别方法，其特征在于，步骤(3)中，构建神经网络模型具体包括如下步骤：
(31)设计的网络框架以224×224×3的原始图像作为输入，第一层为基础卷积层，用64个7×7×3的卷积核对原始图像进行滤波，最大值池化层将输入降维成56×56×64的特征图，其具体表示如下：
xbc＝σ(I*W+b)  (1)
Fbc＝down(xbc)  (2)
其中*表示卷积操作，θbc＝{W,b}表示基础卷积层权值和阈值参数，σ(·)表示ReLU激励函数，down(·)表示最大值池化操作，Fbc表示基础卷积层的输出特征图；
剩余的卷积层由8个多尺度卷积块堆叠而成，多尺度卷积块由4种不同尺度(1×1，3×
3，5×5，7×7)的滤波核并行组合而成，每个多尺度卷积块通过最大值选择单元实现自适应的多尺度信息融合，使用残差学习方法抑制梯度爆炸和梯度弥散现象；
第l个多尺度卷积块对上一个块输出的特征图进行卷积，表示为：
x(l)＝F(l-1)*W(l)+b(l),l＝{1,2,...,8}  (3)
其中表示第l个多尺度卷积块的权值和阈值参数，F(l-1)表示上一次多
尺度卷积块的输出，x(l)表示第l个块的多尺度卷积特征图，第一个多尺度卷积块的输入为基础卷积的输出特征图；
对于给定的批样本，第l个块的卷积图输出记为批数据的期望和方差
记为：
其中K表示批样本的数量，表示第k个样本第l个块上的多尺度卷积输出，E(·)和Var(·)分别表示批样本的期望和方差；
批规范化后的特征表示为：
其中ε取近似于0的正常数以提高特征规范化的泛化能力，α和β表示尺度和偏移变换参数，表示规范化后的特征；
最大值选择单元用来自适应的融合多尺度卷积特征图，第l个块的规范化特征值表示为其中(c,i,j)表示规范化特征的通道和坐标，scale记录了对应的卷积核尺寸(1×1，3×3，5×5，7×7)，最大值选择单元的输出表示为：
其中最大值选择单元的输出y(l)在(c,i,j)的值为不同尺度特征图在(c,i,j)位置上的最大值；
多尺度卷积块的输出表示为：
F(l)＝σ(F(l-1)+y(l))  (8)
其中F(l-1)和F(l)分别表示上一个块的输出和第l个块的输出，σ(·)表示ReLU激励函数；
通过8个多尺度卷积块，多尺度卷积模块的输出记为F(8)，特征图的尺寸为7×7×512；
(8)
(32)注意力模块以最后一个多尺度卷积块的特征图F 作为输入，注意力机制引导网络关注到显著性表征以实现特征细化；
像素级注意机制和通道级注意机制在模型中被使用，其中像素注意力层以卷积特征图作为输入，通过学习一个像素权重矩阵权衡特征图中每一个像素点的重要性，表示为：
αp＝tanh(WpaU+bpa)  (9)
其中为输入特征图的二维矩阵化形式，θpa＝{Wpa,bpa}表示权重和阈值参数，tanh(·)表示双曲正切函数，表示计算得到的像素级权重矩阵，该矩阵用来反映每个像素点对于行为识别的重要程度；
最终输出的像素注意力特征图即输入的卷积特征图和像素级权重的矩阵相乘，具体表示为：
其中表示矩阵乘法，PA(·|)表示一个从输入特征图到输出注意力特征图的映射，最后输出的像素注意力特征图即为
通道注意力层以卷积特征图作为输入，通过学习一个通道权重矩阵学习特征图中每一个通道对行为分类的贡献值，表示为：
αc＝tanh(WcaV+bca)  (12)
其中为输入特征图的二维矩阵化形式，θca＝{Wca,bca}表示权重和阈值参数，tanh(·)表示双曲正切函数，表示计算得到的通道级权重矩阵，该矩阵用来反映特征图每个通道对于行为识别的重要程度；
最终输出的通道注意力特征图即输入的卷积特征图和通道级权重的矩阵相乘，具体表示为：
其中表示矩阵乘法，CA(·|)表示一个从输入特征图到输出注意力特征图的映射，最后输出的通道注意力特征图即为
使用并行连接的方式对卷积特征图进行像素注意和通道注意，最后输出的注意力特征图即为二者的相加融合，表示为：
Fatt＝PA(F(8))+CA(F(8))  (15)
其中F(8)表示输入的最后一个多尺度卷积块的特征图，PA(·)和CA(·)分别表示像素和通道注意，Fatt表示最后输出的注意力特征图；
(33)分别模块由一个全连接层和一个softmax层组合而成，该模块以注意力特征图Fatt作为输入，最后的输出为不同驾驶行为类别的概率；
全连接层将尺寸为7×7×512注意力特征图降维成1000维特征向量，具体表示为：
f＝WfcFatt+bfc  (16)
其中θfc＝{Wbc,bbc}表示全连接层的权值和阈值参数，f表示输出的1000维特征向量；
在softmax层中，输出单元个数与行为类别个数相同，其输出值为softmax分类器计算得到的不同类别的概率，具体表示为：
其中P(j)表示特征f属于第j类的后验概率，θcls＝{Wcls,bcls}的权值和阈值参数，score＝{s1,s2,...,sn}表示softmax层输出的不同行为类别的概率分布。
6.如权利要求1所述的基于多尺度注意力卷积神经网络的驾驶员行为识别方法，其特征在于，步骤(4)中，训练多尺度注意力卷积神经网络；使用Pytorch开源工具搭建网络模型，使用随机梯度下降方法优化网络参数，使用交叉损失熵函数衡量真实标签和预测结果之间的距离，具体表示为：
其中l表示类别真实值标签，P(j)即softmax层的输出，表示属于第j类别的后验概率；
对于批数据，整个网络的参数通过softmax损失作为监督进行优化，其具体表示为：
其中||θ||表示损失函数的正则化项，用来减轻网络训练过程中可能出现的过拟合。
7.如权利要求1所述的基于多尺度注意力卷积神经网络的驾驶员行为识别方法，其特征在于，步骤(5)中，对多列卷积神经网络进行测试具体为：给定一张驾驶员识别图像，将测试图像归一化为224×224的尺寸作为多列融合卷积神经网络的输入，通过多列融合网络的前向传播获得测试图像的行为识别结果。

说明书全文

基于多尺度注意力 卷积神经网络的驾驶员行为识别方法

技术领域

[0001] 本发明涉及图像处理和模式识别技术领域，尤其是一种基于多尺度注意力卷积神经网络的驾驶员行为识别方法。

背景技术

[0002] 近年来，随着科技水平和生活水平的不断提高，汽车已经走进了千家万户，目前国内的汽车保有量达到3.25亿辆，仅次于美国。汽车的普及给人们的出行带来了诸多便捷，同时也对交通安全造成了潜在的隐患。根据中国交通部的相关统计，2017年全国范围内共发生了212846起交通事故，造成63093人死亡，其中80％以上的交通事故与驾驶员的违规驾驶行为息息相关。由于交通法规意识的淡薄，驾驶员玩手机、吸烟等不良驾驶行为较为常见。实际生活中，不安全的驾驶操作严重分散司机的注意力，降低了反应和动作速度，轻则造成交通堵塞，重则引发交通事故。因此驾驶员行为识别算法的研究对道路安全管理和交通智能化有重要的意义。

[0003] 在高级驾驶辅助系统中(Advanced Driver Assistance System，ADAS)，内置的车载相机可以捕获驾驶员的行为状态，然而基于视觉自动分析的驾驶员行为识别准确率较低，但仍然存在一系列的挑战：

[0004] (1)不同的驾驶行为如正常驾驶、脱离方向盘、驾车抽烟等都属于驾驶这一大的行为类别，而这些子类在图像层面上的类间方差很微小，在全局特征上相似度很高，仅在某些局部细节特征上有所区别；

[0005] (2)不同的驾驶员有着多种不同的驾驶习惯，如握方向盘的方式存在明显差异。这就使得驾驶员在图像姿态上呈现较大的类内方差，同时光照遮挡等也对精确识别造成了难度。

发明内容

[0006] 本发明所要解决的技术问题在于，提供一种基于多尺度注意力卷积神经网络的驾驶员行为识别方法，将多尺度模型和注意力机制引入到驾驶员行为识别任务中用于提取具有区分度的行为细粒度特征表示，可进一步提高驾驶员行为识别准确率。

[0007] 为解决上述技术问题，本发明提供一种基于多尺度注意力卷积神经网络的驾驶员行为识别方法，包括如下步骤：

[0008] (1)拍摄驾驶员行为识别的图像数据集；

[0009] (2)对拍摄得到的驾驶员行为数据集做数据增强并将增强得到的样本同时纳入训练数据中；

[0010] (3)构建神经网络模型，包括三个模块，分别为：多尺度卷积模块、注意力模块和分类模块；

[0011] (4)训练多尺度注意力卷积神经网络；使用Pytorch开源工具搭建网络模型，使用随机梯度下降方法优化网络参数；

[0012] (5)对多列卷积神经网络进行测试。

[0013] 优选的，步骤(1)中，驾驶员行为涵盖6种不同的驾驶行为，包括C0：安全驾驶；C1:脱离方向盘驾驶；C2：打电话驾驶；C3:低头看手机；C4：抽烟驾驶；C5：与乘客交谈。

[0014] 优选的，步骤(2)中，对拍摄得到的驾驶员行为数据集做数据增强并将增强得到的样本同时纳入训练数据中具体包括如下步骤：

[0015] (21)采用随机裁剪的数据增强方法，将输入的图像归一化为256×256，随机选取224×224的图像块作为训练样本；

[0016] (22)采用基于图像内容变换的数据增强方法，包含小角度旋转、镜像、加噪和高斯平滑；

[0017] (23)若训练集中包含K个训练样本，则可记为X＝{χ1,χ2,...χN}，而对于训练集中的第n个样本可以表示为χk＝{Ik,lk}，其中Ik表示第k个三通到图像，尺寸为为224×224×3，lk表示其对应的类别标签。

[0018] 优选的，步骤(3)中，多尺度卷积模块以原始图像为输入，采用不同尺度的卷积核对图像进行逐层滤波，最大值选择单元作为每个多尺度卷积块的激励函数，以自适应的融合逐层的多尺度信息已初步提取行为特征；注意力模块对行为特征进行细化，该模块通过学习像素级权重矩阵和通道级权重矩阵获取行为特征的像素级显著性和通道级显著性，并使用软注意的策略对行为特征进行细化；分类模块通过全连接层和softmax层对驾驶员行为进行分类。

[0019] 优选的，步骤(3)中，构建神经网络模型具体包括如下步骤：

[0020] (31)设计的网络框架以224×224×3的原始图像作为输入，第一层为基础卷积层，用64个7×7×3的卷积核对原始图像进行滤波，最大值池化层将输入降维成56×56×64的特征图，其具体表示如下：

[0021] xbc＝σ(I*W+b) (1)

[0022] Fbc＝down(xbc) (2)

[0023] 其中*表示卷积操作，θbc＝{W,b}表示基础卷积层权值和阈值参数，σ(·)表示ReLU激励函数，down(·)表示最大值池化操作，Fbc表示基础卷积层的输出特征图；

[0024] 剩余的卷积层由8个多尺度卷积块堆叠而成，多尺度卷积块由4种不同尺度(1×1，3×3，5×5，7×7)的滤波核并行组合而成，每个多尺度卷积块通过最大值选择单元实现自适应的多尺度信息融合，使用残差学习方法抑制梯度爆炸和梯度弥散现象；

[0025] 第l个多尺度卷积块对上一个块输出的特征图进行卷积，可表示为：

[0026] x(l)＝F(l-1)*W(l)+b(l),l＝{1,2,...,8} (3)

[0027] 其中表示第l个多尺度卷积块的权值和阈值参数，F(l-1)表示上一次多尺度卷积块的输出，x(l)表示第l个块的多尺度卷积特征图，第一个多尺度卷积块的输入为基础卷积的输出特征图；

[0028] 对于给定的批样本，第l个块的卷积图输出可记为批数据的期望和方差可以记为：

[0029]

[0030]

[0031] 其中K表示批样本的数量，表示第k个样本第l个块上的多尺度卷积输出，E(·)和Var(·)分别表示批样本的期望和方差；

[0032] 批规范化后的特征可以表示为：

[0033]

[0034] 其中ε取近似于0的正常数以提高特征规范化的泛化能力，α和β表示尺度和偏移变换参数，表示规范化后的特征；

[0035] 最大值选择单元用来自适应的融合多尺度卷积特征图，第l个块的规范化特征值可以表示为其中(c,i,j)表示规范化特征的通道和坐标，scale记录了对应的卷积核尺寸(1×1，3×3，5×5，7×7)，最大值选择单元的输出可以表示为：

[0036]

[0037] 其中最大值选择单元的输出y(l)在(c,i,j)的值为不同尺度特征图在(c,i,j)位置上的最大值；

[0038] 多尺度卷积块的输出可以表示为：

[0039] F(l)＝σ(F(l-1)+y(l)) (8)

[0040] 其中F(l-1)和F(l)分别表示上一个块的输出和第l个块的输出，σ(·)表示ReLU激励函数；

[0041] 通过8个多尺度卷积块，多尺度卷积模块的输出可记为F(8)，特征图的尺寸为7×7×512；

[0042] (32)注意力模块以最后一个多尺度卷积块的特征图F(8)作为输入，注意力机制引导网络关注到显著性表征以实现特征细化；

[0043] 像素级注意机制和通道级注意机制在模型中被使用，其中像素注意力层以卷积特征图作为输入，通过学习一个像素权重矩阵权衡特征图中每一个像素点的重要性，可表示为：

[0044] αp＝tanh(WpaU+bpa) (9)

[0045]

[0046] 其中为输入特征图的二维矩阵化形式，θpa＝{Wpa,bpa}表示权重和阈值参数，tanh(·)表示双曲正切函数，表示计算得到的像素级权重矩阵，该矩阵用来反映每个像素点对于行为识别的重要程度；

[0047] 最终输出的像素注意力特征图即输入的卷积特征图和像素级权重的矩阵相乘，具体可表示为：

[0048]

[0049] 其中表示矩阵乘法，PA(·|)表示一个从输入特征图到输出注意力特征图的映射，最后输出的像素注意力特征图即为

[0050] 通道注意力层以卷积特征图作为输入，通过学习一个通道权重矩阵学习特征图中每一个通道对行为分类的贡献值，可表示为：

[0051] αc＝tanh(WcaV+bca) (12)

[0052]

[0053] 其中为输入特征图的二维矩阵化形式，θca＝{Wca,bca}表示权重和阈值参数，tanh(·)表示双曲正切函数，表示计算得到的通道级权重矩阵，该矩阵用来反映特征图每个通道对于行为识别的重要程度；

[0054] 最终输出的通道注意力特征图即输入的卷积特征图和通道级权重的矩阵相乘，具体可表示为：

[0055]

[0056] 其中表示矩阵乘法，CA(·|)表示一个从输入特征图到输出注意力特征图的映射，最后输出的通道注意力特征图即为

[0057] 使用并行连接的方式对卷积特征图进行像素注意和通道注意，最后输出的注意力特征图即为二者的相加融合，可表示为：

[0058] Fatt＝PA(F(8))+CA(F(8)) (15)

[0059] 其中F(8)表示输入的最后一个多尺度卷积块的特征图，PA(·)和CA(·)分别表示像素和通道注意，Fatt表示最后输出的注意力特征图；

[0060] (33)分别模块由一个全连接层和一个softmax层组合而成，该模块以注意力特征图Fatt作为输入，最后的输出为不同驾驶行为类别的概率；

[0061] 全连接层可以将尺寸为7×7×512注意力特征图降维成1000维特征向量，具体可表示为：

[0062] f＝WfcFatt+bfc (16)

[0063] 其中θfc＝{Wbc,bbc}表示全连接层的权值和阈值参数，f表示输出的1000维特征向量；

[0064] 在softmax层中，输出单元个数与行为类别个数相同，其输出值为softmax分类器计算得到的不同类别的概率，具体可表示为：

[0065]

[0066] 其中P(j)表示特征f属于第j类的后验概率，θcls＝{Wcls,bcls}的权值和阈值参数，score＝{s1,s2,...,sn}表示softmax层输出的不同行为类别的概率分布。

[0067] 优选的，步骤(4)中，训练多尺度注意力卷积神经网络；使用Pytorch开源工具搭建网络模型，使用随机梯度下降方法优化网络参数，使用交叉损失熵函数衡量真实标签和预测结果之间的距离，具体可表示为：

[0068]

[0069] 其中l表示类别真实值标签，P(j)即softmax层的输出，表示属于第j类别的后验概率；

[0070] 对于批数据，整个网络的参数可以通过softmax损失作为监督进行优化，其具体可表示为：

[0071]

[0072] 其中||θ||表示损失函数的正则化项，用来减轻网络训练过程中可能出现的过拟合。

[0073] 优选的，步骤(5)中，对多列卷积神经网络进行测试具体为：给定一张驾驶员识别图像，将测试图像归一化为224×224的尺寸作为多列融合卷积神经网络的输入，通过多列融合网络的前向传播获得测试图像的行为识别结果。

[0074] 本发明的有益效果为：(1)本发明采用了多尺度卷积模块对原始图像进行滤波，最大值选择单元自适应的融合每个卷积块的多尺度特征；(2)本发明采用了注意力机制权衡特征图的通道显著性和像素显著性用于特征细化及行为细粒度特征表示。附图说明

[0075] 图1为本发明中不同驾驶行为的样例示意图。

[0076] 图2为本发明中数据增强示意图。

[0077] 图3为本发明中多尺度注意力卷积神经网络模型的架构示意图。

[0078] 图4为本发明多尺度卷积块示意图。

[0079] 图5为本发明中注意力机制示意图。

具体实施方式

[0080] 一种基于多尺度注意力卷积神经网络的驾驶员行为识别方法，包括如下步骤：

[0081] 步骤1：拍摄驾驶员行为识别的图像数据集。所有的图像由内置车载摄像头在不同角度和不同光线条件下录制。驾驶员行为数据集共有42816张图片，涵盖6种不同的驾驶行为，如图1所示，分别为：

[0082] C0：安全驾驶；

[0083] C1:脱离方向盘驾驶；

[0084] C2：打电话驾驶；

[0085] C3:低头看手机；

[0086] C4：抽烟驾驶；

[0087] C5：与乘客交谈；

[0088] 将拍摄得到的图片数据集划分为训练集和测试集各包含17087个训练图片和25729个测试图片。

[0089] 步骤2：对拍摄得到的驾驶员行为数据集做数据增强并将增强得到的样本同时纳入训练数据中，其中主要包含两种数据增强方式，具体如下：

[0090] 步骤201：采用随机裁剪的数据增强方法：将输入的图像归一化为256×256，随机选取224×224的图像块作为训练样本。

[0091] 步骤202：采用基于图像内容变换的数据增强方法，包含小角度旋转，镜像，加噪，高斯平滑等，如图2所示，加入这些增强样本可以提高算法的抗噪能力，并有效的提高了深度神经网络的鲁棒能力。

[0092] 步骤203：若训练集中包含K个训练样本，则可记为X＝{χ1,χ2,...χN}。而对于训练集中的第n个样本可以表示为χk＝{Ik,lk}，其中Ik表示第k个三通到图像，尺寸为为224×224×3，lk表示其对应的类别标签。

[0093] 步骤3：构建神经网络模型，所设计的模型包含三个模块，分别为：多尺度卷积模块、注意力模块和分类模块。网络的结构图示意图如图3所示。其中多尺度卷积模块以原始图像为输入，采用不同尺度的卷积核对图像进行逐层滤波，最大值选择单元作为每个多尺度卷积块的激励函数，以自适应的融合逐层的多尺度信息已初步提取行为特征。注意力模块对行为特征进行细化，该模块通过学习像素级权重矩阵和通道级权重矩阵获取行为特征的像素级显著性和通道级显著性，并使用软注意的策略对行为特征进行细化。分类模块通过全连接层和softmax层对驾驶员行为进行分类。具体描述如下：

[0094] 步骤301：设计的网络框架以224×224×3的原始图像作为输入，第一层为基础卷积层，用64个7×7×3的卷积核对原始图像进行滤波。最大值池化层将输入降维成56×56×64的特征图，其具体表示如下：

[0095] xbc＝σ(I*W+b) (1)

[0096] Fbc＝down(xbc) (2)

[0097] 其中*表示卷积操作，θbc＝{W,b}表示基础卷积层权值和阈值参数。σ(·)表示ReLU激励函数。down(·)表示最大值池化操作，Fbc表示基础卷积层的输出特征图。

[0098] 剩余的卷积层由8个多尺度卷积块堆叠而成。多尺度卷积块由4种不同尺度(1×1，3×3，5×5，7×7)的滤波核并行组合而成，每个多尺度卷积块通过最大值选择单元实现自适应的多尺度信息融合，使用残差学习方法抑制梯度爆炸和梯度弥散现象。多尺度卷积块的结构示意图如图4所示。

[0099] 具体地，第l个多尺度卷积块对上一个块输出的特征图进行卷积，可表示为：

[0100] x(l)＝F(l-1)*W(l)+b(l),l＝{1,2,...,8} (3)

[0101] 其中表示第l个多尺度卷积块的权值和阈值参数，F(l-1)表示上一次多尺度卷积块的输出，x(l)表示第l个块的多尺度卷积特征图。特别地，第一个多尺度卷积块的输入为基础卷积的输出特征图。

[0102] 批规范化跟随在每个卷积操作之后，以增加网络学习的泛化性。对于给定的批样本，第l个块的卷积图输出可记为批数据的期望和方差可以记为：

[0103]

[0104]

[0105] 其中K表示批样本的数量，表示第k个样本第l个块上的多尺度卷积输出，E(·)和Var(·)分别表示批样本的期望和方差。

[0106] 批规范化后的特征可以表示为：

[0107]

[0108] 其中ε取近似于0的正常数以提高特征规范化的泛化能力。α和β表示尺度和偏移变换参数，表示规范化后的特征。

[0109] 最大值选择单元用来自适应的融合多尺度卷积特征图。第l个块的规范化特征值可以表示为其中(c,i,j)表示规范化特征的通道和坐标，scale记录了对应的卷积核尺寸(1×1，3×3，5×5，7×7)，最大值选择单元的输出可以表示为：

[0110]

[0111] 其中最大值选择单元的输出y(l)在(c,i,j)的值为不同尺度特征图在(c,i,j)位置上的最大值。

[0112] 残差学习被引入到多尺度卷积块中用于提高网络的收敛能力。残差单元使用了shortcut的连接方式，即为残差单元的输出加入一个输入的恒等映射。多尺度卷积块的输出可以表示为：

[0113] F(l)＝σ(F(l-1)+y(l)) (8)

[0114] 其中F(l-1)和F(l)分别表示上一个块的输出和第l个块的输出，σ(·)表示ReLU激励函数。

[0115] 通过8个多尺度卷积块，多尺度卷积模块的输出可记为F(8)，特征图的尺寸为7×7×512。

[0116] 步骤302：注意力模块以最后一个多尺度卷积块的特征图F(8)作为输入，注意力机制引导网络关注到显著性表征以实现特征细化，具体的注意力模型可以自动的强调局部细节信息，抑制冗余的全局背景信息，本设计中使用的注意力模型如图5所示。

[0117] 像素级注意机制和通道级注意机制在模型中被使用。其中像素注意力层以卷积特征图作为输入，通过学习一个像素权重矩阵权衡特征图中每一个像素点的重要性，可表示为：

[0118] αp＝tanh(WpaU+bpa) (9)

[0119]

[0120] 其中为输入特征图的二维矩阵化形式，θpa＝{Wpa,bpa}表示权重和阈值参数，tanh(·)表示双曲正切函数，表示计算得到的像素级权重矩阵，该矩阵用来反映每个像素点对于行为识别的重要程度。

[0121] 最终输出的像素注意力特征图即输入的卷积特征图和像素级权重的矩阵相乘，具体可表示为：

[0122]

[0123] 其中表示矩阵乘法，PA(·|)表示一个从输入特征图到输出注意力特征图的映射，最后输出的像素注意力特征图即为

[0124] 相似地，通道注意力层以卷积特征图作为输入，通过学习一个通道权重矩阵学习特征图中每一个通道对行为分类的贡献值，可表示为：

[0125] αc＝tanh(WcaV+bca) (12)

[0126]

[0127] 其中为输入特征图的二维矩阵化形式，θca＝{Wca,bca}表示权重和阈值参数，tanh(·)表示双曲正切函数，表示计算得到的通道级权重矩阵，该矩阵用来反映特征图每个通道对于行为识别的重要程度。

[0128] 最终输出的通道注意力特征图即输入的卷积特征图和通道级权重的矩阵相乘，具体可表示为：

[0129]

[0130] 其中表示矩阵乘法，CA(·|)表示一个从输入特征图到输出注意力特征图的映射，最后输出的通道注意力特征图即为

[0131] 使用并行连接的方式对卷积特征图进行像素注意和通道注意，最后输出的注意力特征图即为二者的相加融合，可表示为：

[0132] Fatt＝PA(F(8))+CA(F(8)) (15)

[0133] 其中F(8)表示输入的最后一个多尺度卷积块的特征图，PA(·)和CA(·)分别表示像素和通道注意，Fatt表示最后输出的注意力特征图。

[0134] 步骤303：分别模块由一个全连接层和一个softmax层组合而成，该模块以注意力特征图Fatt作为输入，最后的输出为不同驾驶行为类别的概率。

[0135] 全连接层可以将尺寸为7×7×512注意力特征图降维成1000维特征向量，具体可表示为：

[0136] f＝WfcFatt+bfc (16)

[0137] 其中θfc＝{Wbc,bbc}表示全连接层的权值和阈值参数，f表示输出的1000维特征向量。

[0138] 在softmax层中，输出单元个数与行为类别个数相同，其输出值为softmax分类器计算得到的不同类别的概率，具体可表示为：

[0139]

[0140] 其中P(j)表示特征f属于第j类的后验概率，θcls＝{Wcls,bcls}的权值和阈值参数，score＝{s1,s2,...,sn}表示softmax层输出的不同行为类别的概率分布。

[0141] 步骤4：训练多尺度注意力卷积神经网络。使用Pytorch开源工具搭建网络模型。使用随机梯度下降方法优化网络参数。

[0142] 使用交叉损失熵函数衡量真实标签和预测结果之间的距离，具体可表示为：

[0143]

[0144] 其中l表示类别真实值标签，P(j)即softmax层的输出，表示属于第j类别的后验概率。

[0145] 对于批数据，整个网络的参数可以通过softmax损失作为监督进行优化，其具体可表示为：

[0146]

[0147] 其中||θ||表示损失函数的正则化项，用来减轻网络训练过程中可能出现的过拟合。

[0148] 步骤5：对多列卷积神经网络进行测试。给定一张驾驶员识别图像，将测试图像归一化为224×224的尺寸作为多列融合卷积神经网络的输入，通过多列融合网络的前向传播获得测试图像的行为识别结果。

标题	发布/更新时间	阅读量
一种引入对抗训练的基于内容的实例检索方法	2021-01-08	2
一种基于人工智能的消化内镜检查质量自动评估方法和系统	2021-04-02	2
一种面向嵌入式应用的深度对抗网络优化方法	2022-12-14	1
一种基于改进卷积神经网络的焊缝缺陷识别方法	2022-09-21	1
卷积神经网络压缩方法及人脸检测方法	2022-10-24	0
一种面向智慧社区的多摄像机联动多目标追踪方法及系统	2020-09-04	0
一种实现神经网络模型的装置及方法	2023-06-24	0
神经网络分类	2020-09-03	1
一种无切分的脱机手写汉字文本识别方法	2023-07-25	0
关键点检测、图像处理方法、装置、电子设备及存储介质	2020-05-27	1

基于多尺度注意力卷积神经网络的驾驶员行为识别方法

基于多尺度注意力卷积神经网络的驾驶员行为识别方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：