基于机器视觉的多人异常行为检测与识别方法专利检索-联合编码信号处理专利检索查询-专利查询网

基于机器视觉的多人异常行为检测与识别方法

阅读：891发布：2022-12-19

专利汇可以提供基于机器视觉的多人异常行为检测与识别方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于机器视觉的多人异常行为检测与识别方法，包括步骤：1)扶梯区域视频图像采集；2)提取梯度方向直方图HOG特征并利用Adaboost分类器对手扶电梯乘客人脸进行检测；3)利用卡尔曼滤波器对手扶电梯乘客人脸进行跟踪；4)利用OpenPose 深度学习网络从图像中提取乘客骨架特征；5)基于乘客人脸相对位置对乘客进行遮挡判断，乘客发生遮挡时，基于运动特征对乘客进行异常行为检测，乘客没有遮挡时，基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类。通过本发明可以对扶梯上的多乘客目标进行跟踪，端到端、准确、实时地对扶梯上的多位乘客进行异常行为检测与识别。，下面是基于机器视觉的多人异常行为检测与识别方法专利的具体信息内容。

权利要求

1.基于机器视觉的多人异常行为检测与识别方法，其特征在于：该方法对手扶电梯多乘客目标进行异常行为检测，识别异常行为的种类，包括以下步骤：
1)扶梯区域视频图像采集；
2)提取梯度方向直方图HOG特征并利用Adaboost分类器对手扶电梯乘客人脸进行检测；
3)利用卡尔曼滤波器对手扶电梯乘客人脸进行跟踪；
4)利用OpenPose 深度学习网络从图像中提取乘客骨架特征；
5)基于乘客人脸相对位置对乘客进行遮挡判断，当乘客发生遮挡时，基于运动特征对乘客进行异常行为检测，当乘客没有遮挡时，基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类。
2.根据权利要求1所述的基于机器视觉的多人异常行为检测与识别方法，其特征在于：
在步骤1)中，采用1280*720图像分辨率大小的广角摄像头以斜上方往下的角度拍摄扶梯区域，采集监控视频图像，为了能够拍摄乘客人脸，使摄像头光轴与扶梯扶手带平行，拍摄角度覆盖整个扶梯运行区域，得到带俯视角度的乘客人脸清晰图像。
3.根据权利要求1所述的基于机器视觉的多人异常行为检测与识别方法，其特征在于：
在步骤2)中，提取HOG特征并利用Adaboost分类器对手扶电梯乘客人脸进行检测，包括以下步骤：
2.1)标准化颜色空间
对每个颜色通道进行平方根Gamma压缩，RGB和LAB颜色空间的结果相似，但如果使用灰度空间，会有性能下降，Gamma压缩公式为：
H(x,y)＝H(x,y)Gamma
其中Gamma为压缩因子，取Gamma值为0.5，H(x,y)为像素点(x,y)的像素值；
2.2)计算图像梯度
使用简单的[-1,0,1]模板及其转置对图像做卷积运算，计算图像梯度，计算梯度前不进行高斯平滑，增加高斯平滑会降低性能，对于带颜色的图像，分别计算每个颜色通道的梯度，以范数最大者作为该点的梯度向量，扶梯图像中像素点H(x,y)的梯度是一个向量：
其中，Gx(x,y)为像素点(x,y)在水平方向上的梯度，Gy(x,y)为像素点(x,y)在垂直方向上的梯度，分别为：
梯度的幅值和方向分别为：
其中，G(x,y)为梯度的幅值，为梯度的方向；
2.3)为每个细胞单元构建梯度方向直方图
以8*8个像素点组合得到细胞单元，计算细胞单元内每个像素的梯度，为某个基于方向的bin投票，从而形成梯度方向直方图，直方图的方向bin在0度到180度，为了减少混叠现象，梯度投票需要进行方向和位置上的三线性插值，投票的权重根据梯度幅值本身进行计算，精细的方向编码对取得好的结果至关重要，然而空间采样可以做的相当粗糙；
2.4)块内归一化梯度方向直方图
把细胞单元组合成大的块，块内归一化梯度方向直方图，由于局部光照的变化，以及前景背景对比度的变化，使得梯度强度的变化范围非常大，这就需要对梯度做局部归一化，将细胞单元组成更大的块，然后针对每个块进行归一化，最终的描述子是块内的细胞单元的直方图构成的向量，块之间是有重叠的，归一化之后的块描述符就称之为HOG描述符，块归一化策略采用L2截断；
2.5)收集HOG特征
对检测窗口中所有重叠的块收集其HOG特征，并将它们结合成最终的特征向量供分类使用，检测窗口需要包含图像的上下文信息，采用的64*128大小的检测窗口在人体周围会产生大约16个像素的空白边缘，此空白边缘增加了有助于检测的上下文信息；
2.6)利用Adaboost分类器对扶梯乘客人脸进行检测
AdaBoost 算法的基本思路是在同一个数据集上用多轮训练若干个弱分类器，并由它们组合成强分类器，弱分类器的分类准确率大于随机猜测的分类准确率，弱分类器是一种能够处理加权数据的分类器，弱分类器的精确率和召回率均比强分类器差，利用简单的分类器作为弱分类器往往能够得到较好的效果，利用单层决策树作为弱分类器能够用来处理各种类型的数据，因此采用单层决策树作为弱分类器，单层决策树hj(x)为：
其中，x为某一个样本的特征向量，xj为特性向量中第j个特征的值，θj为第j个特征的判定阈值，pj的取值为1或-1，用来决定判断的标准是大于阈值还是小于阈值，因此一个弱分类器取决于符号方向、维度的特征选择、判定阈值三个参数，以错误率最小的弱分类器作为该轮得到的最佳弱分类器，AdaBoost强分类器训练的基本思路是为数据集中的每一个训练样本赋予一个权重，并初始化为相等的值；首先在此数据集上训练出一个弱分类器，然后调整每个样本的权重，上一次分类正确的样本的权重会降低，分类错误的样本的权重会升高，在该数据集上再次训练弱分类器，当弱分类器的个数到达规定数量或错误率低于一定阈值则训练完成。
4.根据权利要求1所述的基于机器视觉的多人异常行为检测与识别方法，其特征在于：
在步骤3)中，利用卡尔曼滤波器对手扶电梯乘客人脸进行跟踪，具体如下：
卡尔曼滤波器通过估计运动系统的状态变量进行迭代，最终收敛至一个最优自回归解，即状态变量的最优估计，能够预测下一时刻的目标位置，是一个十分高效的线性递归滤波器，在时域上求解状态空间，它能够从一段不完整以及有噪声干扰的信号中，预测系统的最优状态，它能够利用信号的当前测量值和先验状态的估计值，预测信号的最优值，对一个离散时间的控制系统，它的状态方程为：
xk＝Axk-1+Buk+wk-1
其中，xk表示控制系统在k时刻的状态，A是状态转移矩阵，代表从k-1时刻到k时刻的系统状态变化，uk则代表k时刻从外界到系统的输入变量，B是转换矩阵，用于控制外界输入量的增益，wk-1代表实际应用中的过程噪声；
系统的观测方程为：
zk＝Hxk+vk
其中，zk表征控制系统在k时刻状态的观测值，H是测量矩阵，代表k时刻系统的状态值xk和观测值zk之间的关系，vk表示实际应用中的测量噪声；
假设过程噪音和测量噪音不随系统的变化而改变，且是均值为0的白噪声，设过程噪音的协方差矩阵为Qk，测量噪音的协方差矩阵为Rk，通过状态方程计算下一时刻的系统状态，状态方程为：
其中，是上一时刻的最优化结果，是根据上一时刻的结果预测得到的系统状态值，更新系统当前的状态后，需要更新对应的协方差，协方差的更新方程为：
Pk,k-1＝Ak,k-1Pk-1ATk,k-1+Qk-1
其中，Pk-1为的协方差，Pk,k-1是的协方差，完成对系统状态的预测，然后计算卡尔曼滤波的增益，结合系统k时刻的观测值修正预测值，就能得到最优化的预测值，卡尔曼滤波增益Kk为：
通过状态修正能够获得k时刻状态的最优化估计值
更新对应的协方差Pk，不停地对卡尔曼滤波器进行迭代，协方差更新方程为：
Pk＝Pk,k-1-KkHkPk,k-1
总而言之，卡尔曼滤波器的本质就是一个不断预测并更新修正的过程。
5.根据权利要求1所述的基于机器视觉的多人异常行为检测与识别方法，其特征在于：
在步骤4)中，利用OpenPose深度学习网络从图像中提取乘客骨架特征，具体如下：
相对于光流、外观和深度信息，骨架能够更好地描述乘客的行为信息，而利用OpenPose深度学习网络能够在光照不均匀、存在阴影的条件下准确、实时、稳定地提取乘客的二维人体骨架，目前的姿态估计方法分为自上而下和自下而上的方法，自上而下的方法需要先从图像中检测出每个人，然后对每个人分别进行姿态估计，提取该人的二维骨架，该方法受人体检测器的性能影响，且随着图像中人数的增加，算法的耗时会随之增加，与自上而下方法相对的是自下而上的方法，自下而上进行姿态估计不需要先对人体进行检测，算法耗时不受人的数量大小影响，但却忽略了行人整体与其所属骨架关节点之间的关联信息，需要采用别的方法将行人所属骨架关节点关联到行人整体，针对自下而上进行骨架提取的问题，OpenPose深度学习网络提出部分亲和字段PAFs对人体部位关节点的连接进行非参数的明确表示，PAFs是一组二维向量的集合，每段身体骨骼对应一幅PAFs图，与原图的大小相同，图中的每一点是一个二维向量，分别表示水平方向和竖直方向的分量，编码了一段骨骼的位置和方向，利用PAFs能够将属于一个行人整体的身体部位关节点连接起来，提取乘客二维骨架，OpenPose网络分为多个阶段，每个阶段的输出与真实值进行比较，得到相应的损失函数，将所有阶段的损失函数累加得到总损失函数，有助于模型收敛，优化总损失函数，迭代训练得到最终的模型；
实际测试时，输入图像通过模型能够输出一系列人体关节点置信图和骨骼PAFs图，其中人体关节点置信图的数量与骨架关节点数量一致，骨骼PAFs图的数量与骨架骨骼段数量一致，人体二维骨架包括鼻子、颈、左肩、左肘、左腕、左髋、左膝盖、左脚踝、右肩、右肘、右腕、右髋、右膝盖、右脚踝共14个人体关节点和由其相连而成的13段人体骨骼，然后将人体两两关节点的最优连接问题转化为最大权值二分图匹配问题，将骨架关节点作为二分图中的节点，将PAFs作为二分图中边的权值，利用匈牙利匹配和贪心解析算法，使骨架关节点和骨骼相连得到完整的人体骨架。
6.根据权利要求1所述的基于机器视觉的多人异常行为检测与识别方法，其特征在于：
在步骤5)中，基于乘客人脸相对位置对乘客进行遮挡判断，具体如下：
乘客在搭乘扶梯的过程中，由于相互之间的位置过于靠近会出现拥挤情况，而摄像头的拍摄角度是由近到远对扶梯区域进行拍摄，与摄像头距离近的乘客会遮挡与摄像头距离远的乘客，导致被遮挡的乘客缺失部分骨架，缺失的骨架不能很好地描述乘客的行为，很容易导致异常行为误检，因此，需要对乘客进行遮挡判断，若乘客发生遮挡，则基于乘客的运动特征进行异常行为检测，若乘客没有发生遮挡，则基于乘客的骨架特征进行异常行为检测，进行乘客遮挡判断时，对该乘客分别计算其与周围乘客的距离dist，若该距离小于自适应遮挡阈值Tdist，Tdist为：
Tdist＝(W1+W2)*0.6
其中，W1和W2分别为两位乘客的人脸跟踪框的宽度，且该乘客人脸中心点的纵坐标小于另一位乘客人脸中心点的纵坐标，则判断该乘客被另一位乘客遮挡；
当乘客发生遮挡时，基于运动特征对乘客进行异常行为检测，具体如下：
乘客的运动特征是由乘客的速度大小和速度方向组成，考虑到乘客人脸部位不容易发生遮挡，所以计算乘客运动速度时是基于乘客的人脸位置进行计算的，当骨架提取完整时，完整的骨架相对于乘客的运动特征能够更好地描述乘客的行为，当骨架提取不完整时，不完整的骨架容易发生异常行为误检，运动特征相对于骨架特征能够更好地描述乘客的行为，因此，当乘客发生遮挡时，利用乘客的运动特征进行乘客异常行为检测，设每隔t 帧计算乘客的运动速度，第l帧人脸框中心为Pl＝(xl,yl)，人脸框面积为Sl，xl为中心横坐标，yl为中心纵坐标，帧率为fps，则运动速度vl、速度大小|vl|、速度方向θl分别为：
vl＝Pl-Pl-t＝(xl-xl-t,yl-yl-t)
乘客搭乘扶梯时的正常状态是站立在扶梯上，速度与扶梯运行速度一致，即乘客速度大小和速度方向均和扶梯的运行速度大小和方向相同，若乘客在连续几帧时间内速度大小和速度方向超出正常范围，即乘客的速度大小和速度方向满足以下条件：
其中，为校正后的乘客运动速度，Tv为正常状态时的最大运动速度阈值，Tθ1为正常状态时的最小运动方向阈值，Tθ2为正常状态时的最大运动方向阈值，因为摄像头拍摄近处物体的成像会比远处物体的成像大，导致越靠近摄像头，乘客在图像中计算得到的运动速度越大，需要除以乘客人脸的面积对速度大小进行校正，若乘客的运动速度大小和方向连续Tl帧满足上述条件，则检测到该乘客发生异常行为；
当乘客没有遮挡时，基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类，具体如下：
乘客搭乘扶梯时的正常状态是双手垂下，放在身体两侧，双腿站立在扶梯上，头朝前方，身体正面朝向摄像头，而异常行为一般具有大幅度的动作特征，与正常行为相比具有明显的差异，因此，根据乘客正常状态的行为特点，选取20个处于正常行为状态的乘客的人体骨架，作为正常行为模板，选取的正常行为模板能够体现正常状态时乘客行为的各种小幅度变化，使得制作的模板更具泛化性，能容忍乘客行为的正常幅度改变，分别与每一帧图像中提取得到的乘客人体骨架进行基于欧式距离的模板匹配，判断是否为异常骨架，为了适应由于乘客距离摄像头远近和乘客体型差异造成的成像大小变化，进行模板匹配的时候，分别提取模板骨架和乘客骨架的人体姿态特征向量，然后计算两个向量的欧氏距离得到两者的匹配相似度，计算骨架的人体姿态特征向量时，将人体骨架的13段人体骨骼看作是包含13个元素的特征J，每个元素是一个二维向量：
J＝{J1,J2,…,J13}
其中Jm为由首端关节点Bm与尾端关节点Em相互连接而成的第m段骨骼，骨骼向量的首端坐标为为首端横坐标，为首端纵坐标，尾端坐标为为尾端横坐标，
为尾端纵坐标，水平方向角度为αm，竖直方向角度为βm，骨骼向量表示为
水平方向余弦值和竖直方向余弦值分别为：
13段骨骼分别计算其水平方向余弦值和竖直方向余弦值，然后按骨骼排列顺序依次连
1 1 13 13
接得到一个26维的特征向量{cosα,cosβ,…,cosα ,cosβ }作为人体姿态特征向量，进而计算待匹配骨架SKD和模板骨架SKT的匹配相似度O(SKD,SKT)为：
其中，是待匹配骨架第i段骨骼的水平和竖直方向余弦值，为
模板骨架第i段骨骼的水平和竖直方向余弦值，若乘客的骨架与所有模板骨架的匹配相似度均小于正常阈值，则判断该乘客骨架为异常骨架，若乘客骨架连续Tl帧被判断为异常骨架，则检测到该乘客发生异常行为；
若基于骨架特征检测到乘客发生异常行为，则将乘客的异常骨架按时间顺序组合得到异常骨架序列，输入到时空图卷积模型，识别异常行为的种类，时空图卷积模型用于人类行为识别，基于人体关节点位置的时间序列对动态骨骼进行建模，在二维或三维坐标形式下，动态骨骼模态能够自然地由人类关节位置的时间序列表示，然后，通过分析其动作模式能够做到人类行为识别，使用关节点的位置信息没有利用骨骼空间信息，需要连通骨骼，通过将图卷积网络扩展到时空图模型，设计用于行为识别的骨骼序列通用表示，得到时空图卷积网络，图中存在两种类型的边，即符合关节的自然连接的空间边和在连续的时间步骤中连接相同关节的时间边，在此基础上构建多层的时空图卷积，它允许信息沿着空间和时间两个维度进行整合，图卷积模型为图结构数据的处理提供了一个崭新的思路，将深度学习中常用于图像的卷积神经网络应用到图数据上，图上的卷积网络的卷积方式采用空间域卷积，是卷积神经网络泛化到任意结构图形而得到，给定二维或三维坐标系下的身体关节序列，就能构造一个时空图，其中，人体关节对应图的节点，人体身体结构的连通性和时间上的连通性对应图的两类边，因此，时空图卷积模型的输入是图节点的联合坐标向量，对输入数据应用多层的时空图卷积操作，能够生成更高级别的特征图，然后，它将被标准的SoftMax分类器分类到相应的动作类别，经观察，乘客搭乘扶梯时，发生的异常行为主要有向前摔倒、向后摔倒、攀爬扶手带、往扶梯外探头和往扶梯外探手五种异常行为，其他种类的异常行为都能够归类到上述五种行为之中，因此，识别的动作类别包括向前摔倒、向后摔倒、攀爬扶手带、往扶梯外探头和往扶梯外探手五种异常行为。

说明书全文

基于机器视觉的多人异常行为检测与识别方法

技术领域

[0001] 本发明涉及图像处理及行为识别的技术领域，尤其是指一种基于机器视觉的多人异常行为检测与识别方法。

背景技术

[0002] 智能视频监控系统相对于人工监控，具有稳定可靠、廉价实用的特点，人工监控需要人力成本且监控效果不稳定，容易受人的状态影响，而智能视频监控系统可利用机器进行自动监控，节省人力成本且监控效果稳定，因此，应用智能视频监控系统对手扶电梯中的多位乘客进行异常行为检测，若发现异常行为，识别异常行为的种类，根据异常行为的危险等级控制扶梯的运行状态，及时制止安全事故的发生，具有重要意义，吸引众多学者对此进行相关研究。

[0003] 目前为止，国内针对手扶梯电梯应用场景的多人异常行为检测与识别方法研究较少，因此，发明一种基于机器视觉的多人异常行为检测与识别方法，通过安装在手扶电梯楼层板正上方的摄像头，利用训练得到的Adaboost人脸分类器从输入图像中实时准确地检测手扶电梯区域中的乘客人脸，再通过卡尔曼滤波器对乘客人脸进行跟踪得到乘客的运动特征，利用OpenPose 深度学习网络从图像中提取乘客骨架特征，最后，对乘客进行遮挡判断，若乘客发生遮挡，则基于运动特征对乘客进行异常行为检测，若乘客乘客没有遮挡，则基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类。

[0004] 综合以上所述，利用机器学习和深度学习知识，来实现手扶电梯多人异常行为检测与识别，及时避免安全事故的发生，具有较高的社会价值和实际意义。

发明内容

[0005] 本发明的目的在于克服现有技术的不足，提出了一种基于机器视觉的多人异常行为检测与识别方法，对扶梯上的多乘客目标进行跟踪，端到端、准确、实时地对扶梯上的多位乘客进行异常行为检测与识别。

[0006] 为实现上述目的，本发明所提供的技术方案为：基于机器视觉的多人异常行为检测与识别方法，包括以下步骤：

[0007] 1)扶梯区域视频图像采集；

[0008] 2)提取梯度方向直方图(Histogram of Oriented Gradient,HOG)特征并利用Adaboost分类器对手扶电梯乘客人脸进行检测；

[0009] 3)利用卡尔曼滤波器对手扶电梯乘客人脸进行跟踪；

[0010] 4)利用OpenPose深度学习网络从图像中提取乘客骨架特征；

[0011] 5)基于乘客人脸相对位置对乘客进行遮挡判断；当乘客发生遮挡时，基于运动特征对乘客进行异常行为检测；当乘客没有遮挡时，基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类。

[0012] 在步骤1)中，采用1280*720图像分辨率大小的广角摄像头以斜上方往下的角度拍摄扶梯区域，采集监控视频图像，为了能够拍摄乘客人脸，使摄像头光轴与扶梯扶手带平行，拍摄角度覆盖整个扶梯运行区域，得到略带俯视角度的乘客人脸清晰图像。

[0013] 在步骤2)中，提取HOG特征并利用Adaboost分类器对手扶电梯乘客人脸进行检测，包括以下步骤：

[0014] 2.1)标准化颜色空间

[0015] 对每个颜色通道进行平方根Gamma压缩，RGB和LAB颜色空间的结果相似，但如果使用灰度空间，会有性能下降，Gamma压缩公式为：

[0016] H(x,y)＝H(x,y)Gamma

[0017] 其中Gamma为压缩因子，取Gamma值为0.5，H(x,y)为像素点(x,y)的像素值；

[0018] 2.2)计算图像梯度

[0019] 使用简单的的[-1,0,1]模板及其转置对图像做卷积运算，计算图像梯度，计算梯度前不进行高斯平滑，增加高斯平滑会降低性能，对于带颜色的图像，分别计算每个颜色通道的梯度，以范数最大者作为该点的梯度向量，扶梯图像中像素点H(x,y)的梯度是一个向量：

[0020]

[0021] 其中，Gx(x,y)为像素点(x,y)在水平方向上的梯度，Gy(x,y)为像素点(x,y)在垂直方向上的梯度，分别为：

[0022]

[0023] 梯度的幅值和方向分别为：

[0024]

[0025] 其中，G(x,y)为梯度的幅值，为梯度的方向；

[0026] 2.3)为每个细胞单元构建梯度方向直方图

[0027] 以8*8个像素点组合得到细胞单元，计算细胞单元内每个像素的梯度，为某个基于方向的bin投票，从而形成梯度方向直方图，直方图的方向bin在0度到180度，为了减少混叠现象，梯度投票需要进行方向和位置上的三线性插值，投票的权重根据梯度幅值本身进行计算，精细的方向编码对取得好的结果至关重要，然而空间采样可以做的相当粗糙；

[0028] 2.4)块内归一化梯度方向直方图

[0029] 把细胞单元组合成大的块，块内归一化梯度方向直方图，由于局部光照的变化，以及前景背景对比度的变化，使得梯度强度的变化范围非常大，这就需要对梯度做局部归一化，将细胞单元组成更大的块，然后针对每个块进行归一化，最终的描述子是块内的细胞单元的直方图构成的向量，块之间是有重叠的，归一化之后的块描述符就称之为HOG描述符，块归一化策略采用L2截断；

[0030] 2.5)收集HOG特征

[0031] 对检测窗口中所有重叠的块收集其HOG特征，并将它们结合成最终的特征向量供分类使用，检测窗口需要包含图像的上下文信息，采用的64*128大小的检测窗口在人体周围会产生大约16个像素的空白边缘，此空白边缘增加了有助于检测的上下文信息；

[0032] 2.6)利用Adaboost分类器对扶梯乘客人脸进行检测

[0033] AdaBoost 算法的基本思路是在同一个数据集上用多轮训练若干个弱分类器，并由它们组合成强分类器，弱分类器的分类准确率略大于随机猜测的分类准确率，弱分类器是一种能够处理加权数据的分类器，弱分类器的精确率和召回率均比强分类器差，利用简单的分类器作为弱分类器往往能够得到较好的效果，利用单层决策树作为弱分类器可以用来处理各种类型的数据，因此采用单层决策树作为弱分类器，单层决策树hj(x)为：

[0034]

[0035] 其中，x为某一个样本的特征向量，xj为特性向量中第j个特征的值，θj为第j个特征的判定阈值，pj的取值为1或-1，用来决定判断的标准是大于阈值还是小于阈值，因此一个弱分类器取决于符号方向、维度的特征选择、判定阈值三个参数，以错误率最小的弱分类器作为该轮得到的最佳弱分类器，AdaBoost强分类器训练的基本思路是为数据集中的每一个训练样本赋予一个权重，并初始化为相等的值。首先在此数据集上训练出一个弱分类器，然后调整每个样本的权重，上一次分类正确的样本的权重会降低，分类错误的样本的权重会升高，在该数据集上再次训练弱分类器，当弱分类器的个数到达规定数量或错误率低于一定阈值则训练完成。

[0036] 在步骤3)中，利用卡尔曼滤波器对手扶电梯乘客人脸进行跟踪，具体如下：

[0037] 卡尔曼滤波器通过估计运动系统的状态变量进行迭代，最终收敛至一个最优自回归解，即状态变量的最优估计，能够预测下一时刻的目标位置，是一个十分高效的线性递归滤波器，在时域上求解状态空间，它能够从一段不完整以及有噪声干扰的信号中，预测系统的最优状态，它可以利用信号的当前测量值和先验状态的估计值，预测信号的最优值，对一个离散时间的控制系统，它的状态方程为：

[0038] xk＝Axk-1+Buk+wk-1

[0039] 其中，xk表示控制系统在k时刻的状态，A是状态转移矩阵，代表从k-1时刻到k时刻的系统状态变化，uk则代表k时刻从外界到系统的输入变量，B是转换矩阵，用于控制外界输入量的增益，wk-1代表实际应用中的过程噪声；

[0040] 系统的观测方程为：

[0041] zk＝Hxk+vk

[0042] 其中，zk表征控制系统在k时刻状态的观测值，H是测量矩阵，代表k时刻系统的状态值xk和观测值zk之间的关系，vk表示实际应用中的测量噪声；

[0043] 假设过程噪音和测量噪音不随系统的变化而改变，且是均值为0的白噪声，设过程噪音的协方差矩阵为Qk，测量噪音的协方差矩阵为Rk，通过状态方程计算下一时刻的系统状态，状态方程为：

[0044]

[0045] 其中，是上一时刻的最优化结果，是根据上一时刻的结果预测得到的系统状态值，更新系统当前的状态后，需要更新对应的协方差，协方差的更新方程为：

[0046] Pk,k-1＝Ak,k-1Pk-1ATk,k-1+Qk-1

[0047] 其中，Pk-1为的协方差，Pk,k-1是的协方差，完成对系统状态的预测，然后计算卡尔曼滤波的增益，结合系统k时刻的观测值修正预测值，就能得到最优化的预测值，卡尔曼滤波增益Kk为：

[0048]

[0049] 通过状态修正能够获得k时刻状态的最优化估计值

[0050]

[0051] 更新对应的协方差Pk，不停地对卡尔曼滤波器进行迭代，协方差更新方程为：

[0052] Pk＝Pk,k-1-KkHkPk,k-1

[0053] 总而言之，卡尔曼滤波器的本质就是一个不断预测并更新修正的过程。

[0054] 在步骤4)中，利用OpenPose深度学习网络从图像中提取乘客骨架特征，具体如下：

[0055] 相对于光流、外观和深度等信息，骨架能够更好地描述乘客的行为信息，而利用OpenPose深度学习网络能够在光照不均匀、存在阴影的条件下准确、实时、稳定地提取乘客的二维人体骨架，目前的姿态估计方法可分为自上而下和自下而上的方法，自上而下的方法需要先从图像中检测出每个人，然后对每个人分别进行姿态估计，提取该人的二维骨架，该方法受人体检测器的性能影响，且随着图像中人数的增加，算法的耗时会随之增加，与自上而下方法相对的是自下而上的方法，自下而上进行姿态估计不需要先对人体进行检测，算法耗时不受人的数量大小影响，但却忽略了行人整体与其所属骨架关节点之间的关联信息，需要采用别的方法将行人所属骨架关节点关联到行人整体，针对自下而上进行骨架提取的问题，OpenPose深度学习网络提出部分亲和字段(Part Affinity Fields，PAFs)对人体部位关节点的连接进行非参数的明确表示，PAFs是一组二维向量的集合，每段身体骨骼对应一幅PAFs图，与原图的大小相同，图中的每一点是一个二维向量，分别表示水平方向和竖直方向的分量，编码了一段骨骼的位置和方向，利用PAFs可将属于一个行人整体的身体部位关节点连接起来，提取乘客二维骨架，OpenPose网络分为多个阶段，每个阶段的输出与真实值进行比较，得到相应的损失函数，将所有阶段的损失函数累加得到总损失函数，有助于模型收敛，优化总损失函数，迭代训练得到最终的模型；

[0056] 实际测试时，输入图像通过模型可输出一系列人体关节点置信图和骨骼PAFs图，其中人体关节点置信图的数量与骨架关节点数量一致，骨骼PAFs图的数量与骨架骨骼段数量一致，人体二维骨架包括鼻子、颈、左肩、左肘、左腕、左髋、左膝盖、左脚踝、右肩、右肘、右腕、右髋、右膝盖、右脚踝共14个人体关节点和由其相连而成的13段人体骨骼，然后将人体两两关节点的最优连接问题转化为最大权值二分图匹配问题，将骨架关节点作为二分图中的节点，将PAFs作为二分图中边的权值，利用匈牙利匹配和贪心解析算法，使骨架关节点和骨骼相连得到完整的人体骨架。

[0057] 在步骤5)中，基于乘客人脸相对位置对乘客进行遮挡判断，具体如下：

[0058] 乘客在搭乘扶梯的过程中，由于相互之间的位置过于靠近会出现拥挤情况时，而摄像头的拍摄角度是由近到远对扶梯区域进行拍摄，与摄像头距离近的乘客会遮挡与摄像头距离远的乘客，导致被遮挡的乘客缺失部分骨架，缺失的骨架不能很好地描述乘客的行为，很容易导致异常行为误检，因此，需要对乘客进行遮挡判断，若乘客发生遮挡，则基于乘客的运动特征进行异常行为检测，若乘客没有发生遮挡，则基于乘客的骨架特征进行异常行为检测，进行乘客遮挡判断时，对该乘客分别计算其与周围乘客的距离dist，若该距离小于自适应遮挡阈值Tdist，Tdist为：

[0059] Tdist＝(W1+W2)*0.6

[0060] 其中，W1和W2分别为两位乘客的人脸跟踪框的宽度，且该乘客人脸中心点的纵坐标小于另一位乘客人脸中心点的纵坐标，则判断该乘客被另一位乘客遮挡。

[0061] 当乘客发生遮挡时，基于运动特征对乘客进行异常行为检测，具体如下：

[0062] 乘客的运动特征是由乘客的速度大小和速度方向组成，考虑到乘客人脸部位不容易发生遮挡，所以计算乘客运动速度时是基于乘客的人脸位置进行计算的，当骨架提取完整时，完整的骨架相对于乘客的运动特征能够更好地描述乘客的行为，当骨架提取不完整时，不完整的骨架容易发生异常行为误检，运动特征相对于骨架特征能够更好地描述乘客的行为，因此，当乘客发生遮挡时，利用乘客的运动特征进行乘客异常行为检测，设每隔t 帧计算乘客的运动速度，第l帧人脸框中心为Pl＝(xl,yl)，人脸框面积为Sl，xl为中心横坐标，yl为中心纵坐标，帧率为fps，则运动速度vl、速度大小|vl|、速度方向θl分别为：

[0063] vl＝Pl-Pl-t＝(xl-xl-t,yl-yl-t)

[0064]

[0065]

[0066] 乘客搭乘扶梯时的正常状态是站立在扶梯上，速度与扶梯运行速度一致，即乘客速度大小和速度方向均和扶梯的运行速度大小和方向相同，若乘客在连续几帧时间内速度大小和速度方向超出正常范围，即乘客的速度大小和速度方向满足以下条件：

[0067]

[0068] 其中，为校正后的乘客运动速度，Tv为正常状态时的最大运动速度阈值，Tθ1为正常状态时的最小运动方向阈值，Tθ2为正常状态时的最大运动方向阈值，因为摄像头拍摄近处物体的成像会比远处物体的成像大，导致越靠近摄像头，乘客在图像中计算得到的运动速度越大，需要除以乘客人脸的面积对速度大小进行校正，若乘客的运动速度大小和方向连续Tl帧满足上述条件，则检测到该乘客发生异常行为。

[0069] 当乘客没有遮挡时，基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类，具体如下：

[0070] 乘客搭乘扶梯时的正常状态是双手垂下，放在身体两侧，双腿站立在扶梯上，头朝前方，身体正面朝向摄像头，而异常行为一般具有大幅度的动作特征，与正常行为相比具有明显的差异，因此，根据乘客正常状态的行为特点，选取20个处于正常行为状态的乘客的人体骨架，作为正常行为模板，选取的正常行为模板能够体现正常状态时乘客行为的各种小幅度变化，使得制作的模板更具泛化性，能容忍乘客行为的正常幅度改变，分别与每一帧图像中提取得到的乘客人体骨架进行基于欧式距离的模板匹配，判断是否为异常骨架，为了适应由于乘客距离摄像头远近和乘客体型差异造成的成像大小变化，进行模板匹配的时候，分别提取模板骨架和乘客骨架的人体姿态特征向量，然后计算两个向量的欧氏距离得到两者的匹配相似度，计算骨架的人体姿态特征向量时，将人体骨架的13段人体骨骼看作是包含13个元素的特征J，每个元素是一个二维向量：

[0071] J＝{J1,J2,…,J13}

[0072] 其中Jm为由首端关节点Bm与尾端关节点Em相互连接而成的第m段骨骼，骨骼向量的首端坐标为为首端横坐标，为首端纵坐标，尾端坐标为为尾端横坐标，为尾端纵坐标，水平方向角度为αm，竖直方向角度为βm，骨骼向量表示为水平方向余弦值和竖直方向余弦值分别为：

[0073]

[0074] 13段骨骼分别计算其水平方向余弦值和竖直方向余弦值，然后按骨骼排列顺序依次连接得到一个26维的特征向量{cosα1,cosβ1,…,cosα13,cosβ13}作为人体姿态特征向量，进而计算待匹配骨架SKD和模板骨架SKT的匹配相似度O(SKD,SKT)为：

[0075]

[0076] 其中，是待匹配骨架第i段骨骼的水平和竖直方向余弦值，为模板骨架第i段骨骼的水平和竖直方向余弦值，若乘客的骨架与所有模板骨架的匹配相似度均小于正常阈值，则判断该乘客骨架为异常骨架，若乘客骨架连续Tl帧被判断为异常骨架，则检测到该乘客发生异常行为；

[0077] 若基于骨架特征检测到乘客发生异常行为，则将乘客的异常骨架按时间顺序组合得到异常骨架序列，输入到时空图卷积模型，识别异常行为的种类，时空图卷积模型用于人类行为识别，基于人体关节点位置的时间序列对动态骨骼进行建模，在二维或三维坐标形式下，动态骨骼模态可以自然地由人类关节位置的时间序列表示，然后，通过分析其动作模式可以做到人类行为识别，使用关节点的位置信息没有利用骨骼空间信息，需要连通骨骼，通过将图卷积网络扩展到时空图模型，设计用于行为识别的骨骼序列通用表示，得到时空图卷积网络，图中存在两种类型的边，即符合关节的自然连接的空间边和在连续的时间步骤中连接相同关节的时间边，在此基础上构建多层的时空图卷积，它允许信息沿着空间和时间两个维度进行整合，图卷积模型为图结构数据的处理提供了一个崭新的思路，将深度学习中常用于图像的卷积神经网络应用到图数据上，图上的卷积网络的卷积方式采用空间域卷积，是卷积神经网络泛化到任意结构图形而得到，给定二维或三维坐标系下的身体关节序列，就能构造一个时空图，其中，人体关节对应图的节点，人体身体结构的连通性和时间上的连通性对应图的两类边，因此，时空图卷积模型的输入是图节点的联合坐标向量，对输入数据应用多层的时空图卷积操作，可以生成更高级别的特征图，然后，它将被标准的SoftMax分类器分类到相应的动作类别，经观察，乘客搭乘扶梯时，发生的异常行为主要有向前摔倒、向后摔倒、攀爬扶手带、往扶梯外探头和往扶梯外探手五种异常行为，其他种类的异常行为都可归类到上述五种行为之中，因此，识别的动作类别包括向前摔倒、向后摔倒、攀爬扶手带、往扶梯外探头和往扶梯外探手五种异常行为。

[0078] 本发明与现有技术相比，具有如下优点与有益效果：

[0079] 本发明应用场景主要是地铁站、写字楼等公共场所的手扶电梯，可以对扶梯上的多乘客目标进行准确实时的异常行为检测，并进一步识别异常行为的种类，进而将异常行为结果通过无线通讯装置及时反馈到手扶电梯控制台，根据发生的异常行为类别启动相应的安全事故应急方案，控制扶梯的运行状态，及时制止安全事故的发生。附图说明

[0080] 图1为本发明方法的流程框图。

[0081] 图2为本发明中摄像头的安装位置示意图。

[0082] 图3为摄像头采集得到的扶梯监控区域原始图像。

[0083] 图4为基于Adaboost分类器的乘客人脸检测结果图。

[0084] 图5为卡尔曼滤波器人脸跟踪结果图。

[0085] 图6为OpenPose深度学习网络骨架提取效果图。

[0086] 图7为乘客遮挡检测结果图。

[0087] 图8为乘客异常行为识别结果图。

具体实施方式

[0088] 下面结合具体实施例对本发明作进一步说明。

[0089] 本实施例所提供的基于机器视觉的多人异常行为检测与识别方法，首先利用HOG描述子和Adaboost分类器检测乘客人脸，用卡尔曼滤波跟踪乘客人脸，然后利用OpenPose深度学习网络从图像中提取乘客骨架特征，接着基于乘客人脸相对位置对乘客进行遮挡判断，当乘客发生遮挡时，基于运动特征对乘客进行异常行为检测，当乘客乘客没有遮挡时，基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类，流程框图如图1所示，其具体情况如下：

[0090] 1)扶梯区域视频图像采集

[0091] 采用1280*720图像分辨率大小的广角摄像头以斜上方往下的角度拍摄扶梯区域，采集监控视频图像，为了能够拍摄乘客人脸，使摄像头光轴与扶梯扶手带平行，拍摄角度覆盖整个扶梯运行区域，得到略带俯视角度的乘客人脸清晰图像，摄像头安装位置示意图如图2所示，采集得到的扶梯监控区域原始图像如图3所示。

[0092] 2)提取HOG特征并利用Adaboost分类器对手扶电梯乘客人脸进行检测

[0093] 提取乘客人脸的HOG特征并利用Adaboost分类器对手扶电梯乘客人脸进行检测，包括以下步骤：

[0094] 2.1)标准化颜色空间

[0095] 对每个颜色通道进行平方根Gamma压缩，RGB和LAB颜色空间的结果相似，但如果使用灰度空间，会有性能下降，Gamma压缩公式为：

[0096] H(x,y)＝H(x,y)Gamma

[0097] 其中Gamma为压缩因子，取Gamma值为0.5，H(x,y)为像素点(x,y)的像素值；

[0098] 2.2)计算图像梯度

[0099] 使用简单的的[-1,0,1]模板及其转置对图像做卷积运算，计算图像梯度，计算梯度前不进行高斯平滑，增加高斯平滑会降低性能，对于带颜色的图像，分别计算每个颜色通道的梯度，以范数最大者作为该点的梯度向量，扶梯图像中像素点H(x,y)的梯度是一个向量：

[0100]

[0101] 其中，Gx(x,y)为像素点(x,y)在水平方向上的梯度，Gy(x,y)为像素点(x,y)在垂直方向上的梯度，分别为：

[0102]

[0103] 梯度的幅值和方向分别为：

[0104]

[0105] 其中，G(x,y)为梯度的幅值，为梯度的方向；

[0106] 2.3)为每个细胞单元构建梯度方向直方图

[0107] 以8*8个像素点组合得到细胞单元，计算细胞单元内每个像素的梯度，为某个基于方向的bin投票，从而形成梯度方向直方图，直方图的方向bin在0度到180度，为了减少混叠现象，梯度投票需要进行方向和位置上的三线性插值，投票的权重根据梯度幅值本身进行计算，精细的方向编码对取得好的结果至关重要，然而空间采样可以做的相当粗糙；

[0108] 2.4)块内归一化梯度方向直方图

[0109] 把细胞单元组合成大的块，块内归一化梯度方向直方图，由于局部光照的变化，以及前景背景对比度的变化，使得梯度强度的变化范围非常大，这就需要对梯度做局部归一化，将细胞单元组成更大的块，然后针对每个块进行归一化，最终的描述子是块内的细胞单元的直方图构成的向量，块之间是有重叠的，归一化之后的块描述符就称之为HOG描述符，块归一化策略采用L2截断；

[0110] 2.5)收集HOG特征

[0111] 对检测窗口中所有重叠的块收集其HOG特征，并将它们结合成最终的特征向量供分类使用，检测窗口需要包含图像的上下文信息，采用的64*128大小的检测窗口在人体周围会产生大约16个像素的空白边缘，此空白边缘增加了有助于检测的上下文信息；

[0112] 2.6)利用Adaboost分类器对扶梯乘客人脸进行检测

[0113] AdaBoost算法的基本思路是在同一个数据集上用多轮训练若干个弱分类器，并由它们组合成强分类器，弱分类器的分类准确率略大于随机猜测的分类准确率，弱分类器是一种能够处理加权数据的分类器，弱分类器的精确率和召回率均比强分类器差，利用简单的分类器作为弱分类器往往能够得到较好的效果，利用单层决策树作为弱分类器可以用来处理各种类型的数据，因此采用单层决策树作为弱分类器，单层决策树hj(x)为：

[0114]

[0115] 其中，xj为样本的特性向量中第j个特征的值，θj为第j个特征的判定阈值，pj的取值为1或-1，用来决定判断的标准是大于阈值还是小于阈值，因此一个弱分类器取决于符号方向、维度的特征选择、判定阈值三个参数，以错误率最小的弱分类器作为该轮得到的最佳弱分类器，AdaBoost强分类器训练的基本思路是为数据集中的每一个训练样本赋予一个权重，并初始化为相等的值，首先在此数据集上训练出一个弱分类器，然后调整每个样本的权重，上一次分类正确的样本的权重会降低，分类错误的样本的权重会升高，在该数据集上再次训练弱分类器，当弱分类器的个数到达规定数量或错误率低于一定阈值则训练完成，Adaboost分类器的乘客人脸检测结果如图4所示，乘客的人脸检测位置用圆形框表示。

[0116] 3)利用卡尔曼滤波器对手扶电梯乘客人脸进行跟踪

[0117] 利用卡尔曼滤波器对手扶电梯乘客人脸进行跟踪，具体如下：

[0118] 卡尔曼滤波器通过估计运动系统的状态变量进行迭代，最终收敛至一个最优自回归解，即状态变量的最优估计，能够预测下一时刻的目标位置，是一个十分高效的线性递归滤波器，在时域上求解状态空间，它能够从一段不完整以及有噪声干扰的信号中，预测系统的最优状态，它可以利用信号的当前测量值和先验状态的估计值，预测信号的最优值，对一个离散时间的控制系统，它的状态方程为：

[0119] xk＝Axk-1+Buk+wk-1

[0120] 其中，xk表示控制系统在k时刻的状态，A是状态转移矩阵，代表从k-1时刻到k时刻的系统状态变化，uk则代表k时刻从外界到系统的输入变量，B是转换矩阵，用于控制外界输入量的增益，wk-1代表实际应用中的过程噪声；

[0121] 系统的观测方程为：

[0122] zk＝Hxk+vk

[0123] 其中，zk表征控制系统在k时刻状态的观测值，H是测量矩阵，代表k时刻系统的状态值xk和观测值zk之间的关系，vk表示实际应用中的测量噪声；

[0124] 假设过程噪音和测量噪音不随系统的变化而改变，且是均值为0的白噪声，设过程噪音的协方差矩阵为Qk，测量噪音的协方差矩阵为Rk，通过状态方程计算下一时刻的系统状态，状态方程为：

[0125]

[0126] 其中，是上一时刻的最优化结果，是根据上一时刻的结果预测得到的系统状态值，更新系统当前的状态后，需要更新对应的协方差，协方差的更新方程为：

[0127] Pk,k-1＝Ak,k-1Pk-1ATk,k-1+Qk-1

[0128] 其中，Pk-1为的协方差，Pk,k-1是的协方差，完成对系统状态的预测，然后计算卡尔曼滤波的增益，结合系统k时刻的观测值修正预测值，就能得到最优化的预测值，卡尔曼滤波增益Kk为：

[0129]

[0130] 通过状态修正能够获得k时刻状态的最优化估计值

[0131]

[0132] 更新对应的协方差Pk，不停地对卡尔曼滤波器进行迭代，协方差更新方程为：

[0133] Pk＝Pk,k-1-KkHkPk,k-1

[0134] 总而言之，卡尔曼滤波器的本质就是一个不断预测并更新修正的过程，卡尔曼滤波器人脸跟踪结果图如图5所示，用矩形框标记当前时刻的人脸跟踪位置，用实心圆点表示之前所有时刻的人脸跟踪位置中心点。

[0135] 4)利用OpenPose深度学习网络从图像中提取乘客骨架特征，具体如下：

[0136] 相对于光流、外观和深度等信息，骨架能够更好地描述乘客的行为信息，而利用OpenPose深度学习网络能够在光照不均匀、存在阴影的条件下准确、实时、稳定地提取乘客的二维人体骨架，目前的姿态估计方法可分为自上而下和自下而上的方法，自上而下的方法需要先从图像中检测出每个人，然后对每个人分别进行姿态估计，提取该人的二维骨架，该方法受人体检测器的性能影响，且随着图像中人数的增加，算法的耗时会随之增加，与自上而下方法相对的是自下而上的方法，自下而上进行姿态估计不需要先对人体进行检测，算法耗时不受人的数量大小影响，但却忽略了行人整体与其所属骨架关节点之间的关联信息，需要采用别的方法将行人所属骨架关节点关联到行人整体，针对自下而上进行骨架提取的问题，OpenPose深度学习网络提出部分亲和字段(Part Affinity Fields，PAFs)对人体部位关节点的连接进行非参数的明确表示，PAFs是一组二维向量的集合，每段身体骨骼对应一幅PAFs图，与原图的大小相同，图中的每一点是一个二维向量，分别表示水平方向和竖直方向的分量，编码了一段骨骼的位置和方向，利用PAFs可将属于一个行人整体的身体部位关节点连接起来，提取乘客二维骨架，OpenPose网络分为多个阶段，每个阶段的输出与真实值进行比较，得到相应的损失函数，将所有阶段的损失函数累加得到总损失函数，有助于模型收敛，优化总损失函数，迭代训练得到最终的模型；

[0137] 实际测试时，输入图像通过模型可输出一系列人体关节点置信图和骨骼PAFs图，其中人体关节点置信图的数量与骨架关节点数量一致，骨骼PAFs图的数量与骨架骨骼段数量一致，人体二维骨架包括鼻子、颈、左肩、左肘、左腕、左髋、左膝盖、左脚踝、右肩、右肘、右腕、右髋、右膝盖、右脚踝共14个人体关节点和由其相连而成的13段人体骨骼，然后将人体两两关节点的最优连接问题转化为最大权值二分图匹配问题，将骨架关节点作为二分图中的节点，将PAFs作为二分图中边的权值，利用匈牙利匹配和贪心解析算法，使骨架关节点和骨骼相连得到完整的人体骨架，OpenPose深度学习网络骨架提取效果图如图6所示，关节点用实心圆形标记，骨骼用直线段表示。

[0138] 5)基于乘客人脸相对位置对乘客进行遮挡判断，具体如下：

[0139] 乘客在搭乘扶梯的过程中，由于相互之间的位置过于靠近会出现拥挤情况时，而摄像头的拍摄角度是由近到远对扶梯区域进行拍摄，与摄像头距离近的乘客会遮挡与摄像头距离远的乘客，导致被遮挡的乘客缺失部分骨架，缺失的骨架不能很好地描述乘客的行为，很容易导致异常行为误检，因此，需要对乘客进行遮挡判断，若乘客发生遮挡，则基于乘客的运动特征进行异常行为检测，若乘客没有发生遮挡，则基于乘客的骨架特征进行异常行为检测，进行乘客遮挡判断时，对该乘客分别计算其与周围乘客的距离dist，若该距离小于自适应遮挡阈值Tdist，Tdist为：

[0140] Tdist＝(W1+W2)*0.6

[0141] 其中，W1和W2分别为两位乘客的人脸跟踪框的宽度，且该乘客人脸中心点的纵坐标小于另一位乘客人脸中心点的纵坐标，则判断该乘客被另一位乘客遮挡，乘客遮挡检测结果图如图7所示，处于图像右边位置的乘客被处于图像中间位置的乘客遮挡。

[0142] 当乘客发生遮挡时，基于运动特征对乘客进行异常行为检测，具体如下：

[0143] 乘客的运动特征是由乘客的速度大小和速度方向组成，考虑到乘客人脸部位不容易发生遮挡，所以计算乘客运动速度时是基于乘客的人脸位置进行计算的，当骨架提取完整时，完整的骨架相对于乘客的运动特征能够更好地描述乘客的行为，当骨架提取不完整时，不完整的骨架容易发生异常行为误检，运动特征相对于骨架特征能够更好地描述乘客的行为，因此，当乘客发生遮挡时，利用乘客的运动特征进行乘客异常行为检测，设每隔t帧计算乘客的运动速度，第l帧人脸框中心为Pl＝(xl,yl)，人脸框面积为Sl，xl为中心横坐标，yl为中心纵坐标，帧率为fps，则运动速度vl、速度大小|vl|、速度方向θl分别为：

[0144] vl＝Pl-Pl-t＝(xl-xl-t,yl-yl-t)

[0145]

[0146]

[0147] 乘客搭乘扶梯时的正常状态是站立在扶梯上，速度与扶梯运行速度一致，即乘客速度大小和速度方向均和扶梯的运行速度大小和方向相同，若乘客在连续几帧时间内速度大小和速度方向超出正常范围，即乘客的速度大小和速度方向满足以下条件：

[0148]

[0149] 其中，为校正后的乘客运动速度，Tv＝5为正常状态时的最大运动速度阈值，Tθ1＝200为正常状态时的最小运动方向阈值，Tθ2＝250为正常状态时的最大运动方向阈值，因为摄像头拍摄近处物体的成像会比远处物体的成像大，导致越靠近摄像头，乘客在图像中计算得到的运动速度越大，需要除以乘客人脸的面积对速度大小进行校正，若乘客的运动速度大小和方向连续Tl＝3帧满足上述条件，则检测到该乘客发生异常行为。

[0150] 当乘客没有遮挡时，基于骨架特征对乘客进行异常行为检测，并进一步利用时空图卷积模型识别异常行为的种类，具体如下：

[0151] 乘客搭乘扶梯时的正常状态是双手垂下，放在身体两侧，双腿站立在扶梯上，头朝前方，身体正面朝向摄像头，而异常行为一般具有大幅度的动作特征，与正常行为相比具有明显的差异，因此，根据乘客正常状态的行为特点，选取20个处于正常行为状态的乘客的人体骨架，作为正常行为模板，选取的正常行为模板能够体现正常状态时乘客行为的各种小幅度变化，使得制作的模板更具泛化性，能容忍乘客行为的正常幅度改变，分别与每一帧图像中提取得到的乘客人体骨架进行基于欧式距离的模板匹配，判断是否为异常骨架，为了适应由于乘客距离摄像头远近和乘客体型差异造成的成像大小变化，进行模板匹配的时候，分别提取模板骨架和乘客骨架的人体姿态特征向量，然后计算两个向量的欧氏距离得到两者的匹配相似度，计算骨架的人体姿态特征向量时，将人体骨架的13段人体骨骼看作是包含13个元素的特征J，每个元素是一个二维向量：

[0152] J＝{J1,J2,…,J13}

[0153] 其中Jm为由首端关节点Bm与尾端关节点Em相互连接而成的第m段骨骼，骨骼向量的首端坐标为为首端横坐标，为首端纵坐标，尾端坐标为为尾端横坐标，为尾端纵坐标，水平方向角度为αm，竖直方向角度为βm，骨骼向量表示为水平方向余弦值和竖直方向余弦值分别为：

[0154]

[0155] 13段骨骼分别计算其水平方向余弦值和竖直方向余弦值，然后按骨骼排列顺序依次连接得到一个26维的特征向量{cosα1,cosβ1,…,cosα13,cosβ13}作为人体姿态特征向量，进而计算待匹配骨架SKD和模板骨架SKT的匹配相似度O(SKD,SKT)为：

[0156] 其中，是待匹配骨架第i段骨骼的水平和竖直方向余弦值，为模板骨架第i段骨骼的水平和竖直方向余弦值，若乘客的骨架与所有模板骨架的匹配相似度均小于正常阈值，则判断该乘客骨架为异常骨架，若乘客骨架连续Tl＝3帧被判断为异常骨架，则检测到该乘客发生异常行为；

[0157] 若基于骨架特征检测到乘客发生异常行为，则将乘客的异常骨架按时间顺序组合得到异常骨架序列，输入到时空图卷积模型，识别异常行为的种类，时空图卷积模型用于人类行为识别，基于人体关节点位置的时间序列对动态骨骼进行建模，在二维或三维坐标形式下，动态骨骼模态可以自然地由人类关节位置的时间序列表示，然后，通过分析其动作模式可以做到人类行为识别，使用关节点的位置信息没有利用骨骼空间信息，需要连通骨骼，通过将图卷积网络扩展到时空图模型，设计用于行为识别的骨骼序列通用表示，得到时空图卷积网络，图中存在两种类型的边，即符合关节的自然连接的空间边和在连续的时间步骤中连接相同关节的时间边，在此基础上构建多层的时空图卷积，它允许信息沿着空间和时间两个维度进行整合，图卷积模型为图结构数据的处理提供了一个崭新的思路，将深度学习中常用于图像的卷积神经网络应用到图数据上，图上的卷积网络的卷积方式采用空间域卷积，是卷积神经网络泛化到任意结构图形而得到，给定二维或三维坐标系下的身体关节序列，就能构造一个时空图，其中，人体关节对应图的节点，人体身体结构的连通性和时间上的连通性对应图的两类边，因此，时空图卷积模型的输入是图节点的联合坐标向量，对输入数据应用多层的时空图卷积操作，可以生成更高级别的特征图，然后，它将被标准的SoftMax分类器分类到相应的动作类别，经观察，乘客搭乘扶梯时，发生的异常行为主要有向前摔倒、向后摔倒、攀爬扶手带、往扶梯外探头和往扶梯外探手五种异常行为，其他种类的异常行为都可归类到上述五种行为之中，因此，识别的动作类别包括向前摔倒、向后摔倒、攀爬扶手带、往扶梯外探头和往扶梯外探手五种异常行为，图8为异常行为识别效果图，其中，利用矩形框标记乘客人脸位置，利用直线段标记乘客的骨骼，并用圆点标记乘客的运动轨迹，每个圆点位置代表乘客在历史时刻相应帧中的位置，图中的乘客在扶梯中发生往扶梯外探头的异常行为。

[0158] 以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

标题	发布/更新时间	阅读量
用于联合多声道编码的方法和设备	2020-05-11	350
联合生成矩阵和校验矩阵的LDPC编码器和编码方法	2020-05-13	804
基于高维混沌系统和算术编码的联合编码方法	2020-05-11	417
用于多副载波联合预编码的技术	2020-05-13	337
一种联合均衡联合预编码设计方法	2020-05-11	200
二阶影像联合压缩编码及译码系统	2020-05-12	535
多元LDPC码与编码SSD的联合设计方法	2020-05-12	6
一种预编码与功率分配联合优化方法	2020-05-11	878
信号编码方法及装置、联合反馈信号编码方法	2020-05-11	565
一种联合装置的视频编码方法及架构	2020-05-12	588

基于机器视觉的多人异常行为检测与识别方法

基于机器视觉的多人异常行为检测与识别方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：