专利汇可以提供一种基于融合神经网络的视频中人体行为识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于融合神经网络的视频中人体行为识别方法,首先对原始视频的图像 帧 做预处理,构建训练样本数据集;通过改进的VGG神经网络模型,提取所述训练样本数据集中的 图像空间 信息特征;利用iDT 算法 提取预处理后的原始视频序列中人体运动轨迹特征;构建带有 门 控循环单元GRU网络的seq2seq模型,将VGG的输出向量和iDT算法提取的 特征向量 分别输入GRU网络中进行特征提取,得到输出预测结果;将输出的两种预测结果加权融合,实现所述原始视频中人体行为的识别。上述方法可实现人体行为的准确识别,且对环境的光照变化适应性较好,能达到高效精确的识别结果。,下面是一种基于融合神经网络的视频中人体行为识别方法专利的具体信息内容。
1.一种基于融合神经网络的视频中人体行为识别方法,其特征在于,所述方法包括:
步骤1、对原始视频的图像帧做预处理,构建训练样本数据集;
步骤2、通过改进的VGG神经网络模型,提取所述训练样本数据集中的图像空间信息特征;
步骤3、利用改进的密集轨迹iDT算法提取预处理后的原始视频序列中人体运动轨迹特征,具体通过密集采样特征点、特征点轨迹跟踪和轨迹特征提取来实现;
步骤4、构建带有门控循环单元GRU网络的seq2seq模型,从所构建的seq2seq模型的encoder端将步骤2得到的VGG的输出向量和步骤3得到的iDT算法提取的特征向量依照时间序列分别输入GRU网络中进行特征提取,并从seq2seq模型的decoder端分别输出预测结果;
步骤5、将输出的两种预测结果加权融合,实现所述原始视频中人体行为的识别。
2.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法,其特征在于,所述步骤1的过程具体为:
首先在原始视频的图像上,标注出目标检测感兴趣区域;
对所述感兴趣区域进行预处理,包括旋转、镜像操作、光照微调,以此构建训练样本数据集。
3.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法,其特征在于,在步骤2中,所述改进的VGG神经网络模型一共有13个卷积层,3个池化层,每个卷积层后有一层BatchNorm用以加速训练并获得更加稳定的输出;所述卷积层均为1×1或3×3的小卷积核,池化为最大池化层,且为了保证模型具有非线性性质,每两个卷积层之间均有一个非线性激活函数Relu;
在前四个最大池化层后均加了一个dropout层,并将经过BatchNorm层的浅层特征图与深层特征图通过Concat层进行特征融合,再经过最大池化层进行降维;
然后删去原始模型末尾的三个全连接层,用大小为H×W,步长为1的卷积层代替,所述改进的VGG神经网络模型的输出特征维度变为1×1×C。
4.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法,其特征在于,所述步骤3的过程具体为:
首先将经过预处理的图片通过上采样和下采样生成8个空间尺度,在每个空间尺度的图片上通过网格划分的方式密集采样特征点,网格大小W=5,通过计算像素点自相关矩阵的特征值,去除低于某个阈值的特征点;
针对某个特征点在连续15帧图像上的位置构成一段轨迹,后续特征提取即沿着各个轨迹进行,具体提取到的轨迹描述是15帧图片分别在x,y方向的位移矢量共30维;
所提取的特征向量包括:光流直方图HOF特征、光流图像梯度直方图MBH特征。
5.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法,其特征在于,在步骤4中,所构建的seq2seq模型包括encoder端和decoder端,encoder端用于输入向量的特征提取工作,decoder端用于重构特征向量输出预测值,其中:
在decoder端连接全连接层,softmax分类层输出结果,将上一时刻的softmax层输出的三个最大概率及其对应结果给到下一时刻GRU输入,使得模型增加参考信息,以此降低对上一时刻预测结果的单一依赖。
6.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法,其特征在于,在步骤4中,所述seq2seq模型输出采取softmax函数与交叉墒损失相结合的方式,损失函数Loss表示如下:
式中,x是特征值,i和j表示类别编号;
并进一步引入Focal损失函数做不平衡校正,其表达式如下:
Focalloss(pt)=-(1-pt)γlg(pt)
式中,pt是特征值属于某一类的概率,γ是调节变化幅度的参数;
结合上述损失函数Loss公式,改进后的损失函数表示为:
通过上述改进后的损失函数能解决训练数据的不平衡性,并提升最终识别精度。
7.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法,其特征在于,所述步骤5的过程为:
将步骤4输出的两种预测结果加权融合,最终输出[0,1]内任一数字,0代表无危险行为;1代表有危险行为;
当连续m帧出现非0结果时,则发出告警提醒管理人员注意监控视频区域内的人员动态。
8.根据权利要求7所述基于融合神经网络的视频中人体行为识别方法,其特征在于,在步骤5进行加权融合的过程中,当VGG输入与iDT输入的权重比为0.41:0.59时,所述seq2seq模型达到最好的识别效果。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
车载环视图像的特征点标定方法、装置和可读存储介质 | 2020-10-02 | 0 |
一种水声定位与授时浮标及其工作方法 | 2021-10-15 | 2 |
一种新式延缓磨损延长固态硬盘使用寿命的方法 | 2022-05-13 | 0 |
基于维数任意的分块哈达玛测量矩阵的压缩感知信号重建方法 | 2020-06-15 | 0 |
六相逆变器供电的无轴承磁通切换电机驱动方法及系统 | 2020-10-03 | 0 |
改进遗传禁忌搜索的深井巷道WSN分簇路由方法及装置 | 2020-11-10 | 0 |
一种跟踪路由处理方法和装置 | 2022-10-18 | 1 |
基于xgboost算法的工业设计匹配服务方预测方法 | 2020-12-20 | 0 |
一种S=8编码方式的低功耗蓝牙维特比联合解调解码算法 | 2020-05-20 | 3 |
空调控制方法、装置和车辆 | 2022-01-11 | 2 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。