首页 / 专利库 / 人工智能 / 机器学习 / 模式识别 / 一种基于稀疏低秩的人体行为识别方法

一种基于稀疏低秩的人体行为识别方法

阅读:947发布:2020-05-11

专利汇可以提供一种基于稀疏低秩的人体行为识别方法专利检索,专利查询,专利分析的服务。并且本 发明 属于数字 图像处理 技术领域,涉及 计算机视觉 、 模式识别 、 机器学习 和 数据挖掘 等相关理论知识。本发明首先利用光流直方图对相邻两 帧 图片提取光流特征,并对单帧图像提取梯度直方图信息,获得监测场景内的运动特征信息,采用低维空间的特征信息并按照[动作1|动作2|动作3|……]的方式排列;然后用K均值的方式聚类,得到聚类中心后,将聚类中心作为过完备字典,求解测试样本在过完备字典下的稀疏低秩表达,得到表达矩阵;最后根据表达矩阵中的最大值求解出该测试样本所属的行为类别。本发明采用基于低秩稀疏的人体动作识别,采用交叉验证的方法,识别率92.3~98.79%,误识率1.21~7.6%。本发明具有具有低秩特点,且识别率上达到92.3~98.79%,误识率1.21~7.6%。,下面是一种基于稀疏低秩的人体行为识别方法专利的具体信息内容。

1.一种基于稀疏低秩的人体行为识别方法,具体步骤如下:
步骤1、视频图像灰度转换并提取场景特征;
步骤1-1:首先接收监测设备采集到的视频流,对得到的单图像进行灰度化处理;
步骤1-2:将每帧图片归一化成96*48的大小;每个cell的大小为8*8的像素点,每个block中包含2*2个cell即16*16的像素点;相邻block有一半的区域是重叠的;梯度方向分为9个方向,这样得到的一张图片的HOG特征向量为1980维;
HOF的计算是对连续两帧灰度图像在3*3的网格中提取光流直方图特征,即每3*3的网格求出一个光流特征向量,根据视频帧的不同大小可以得到N个光流特征向量,将光流范围
0~2π等分成32个子空间,构建32维的直方图B,在统计直方图时,根据度值对应位置投票,投票所得结果作为权值,因此得权值向量h=[hk],k={1,2,3...,K},其中k为每个网格的索引值,K是网格总数,hk为第k个网格中32维直方图B对应的权值;
步骤2、特征聚类
设特征向量x=[xi],i={1,2,3...,m},对于每一个特征向量,动作类型计算公式:
对于每类j,重新计算该类质心
步骤3、低秩稀疏表达
步骤3-1:将聚类中心构成的字典D=[dk],k={1,2,3...,n},则X为一个ds×n的矩阵,ds为特征维度,测试样本集X=[xk],k={1,2,3...,n},X中的任意一列xi都可以用D进行线性表达,将这种关系式写为:X=DZ+E,其中Z的每一列表示X的对应列用D进行线性表达的系数,矩阵Z称之为表达子,E为由噪声引起的误差;
步骤3-2:据此建立目标函数:
argminZ,E||Z||*+β||Z||1+γ||E||1 s.t.X=DZ+E   (1)
其中β和γ分别表示各项的关注因子,它们的值越大,表示相关项越受关注,这里β=2,γ=2,公式中分别用核范数和L1范数求解低秩和稀疏问题;
步骤3-3:求解步骤3-2中的公式(1),这里用到了增广拉格朗日乘数法,得到目标函数后分别对各个参数进行迭代优化,则参数的迭代过程为:
其中
Y1,k+1=Y1,k+μk(X-DZk+1-Ek+1),
Y2,k+1=Y2,k+μk(Zk+1-WK+1),
μk+1=ρμk,
其中函数J和Θ分别表示奇异值压缩算子和压缩算子, ρ=1.1,各参量的初始值为Z0=W0=E0=Y1,0=Y2,0=0;μk为惩罚参数,μk=10-6;
步骤4、行为识别
步骤4-1、通过步骤3求得的稀疏低秩矩阵Z,其中Z的每一列就是测试样本在D中的线性表达,现在只需要找出表达最大的那个系数即可知道测试样本所属的类别,采用最大池化法,即找出矩阵Z中每一行的最大值;令yi=max(|zi1|,|zi2|,...|zin|),i=1,2,...T,in=
1,2...l表示从Z的l个行向量中,提取T个最大值,形成向量yi,i=1,2,...T;
步骤4-2、分别找出这T个值所对应的相应类别,并计算该类别在矩阵Z中对应的系数,并把相同类别的系数叠加起来,得到的最大值所对应的类别即为最终的识别结果;
分别找出对应的 i=1,2,...T<K;C为之前步骤2的聚类结果;
i=1,2,...T,j∈Pj其中δ(·)是Dirac Delta函数,PreC
即为最终的识别结果,T取5~10。
2.如权利要求1所述基于稀疏低秩的人体行为识别方法,其特征在于:所述步骤4-1中最大池化法是指:选择图像区域的最大值作为该区域池化后的值;所谓池化,是指对图像中不重合区域的聚合操作。

说明书全文

一种基于稀疏低秩的人体行为识别方法

技术领域

[0001] 本发明属于数字图像处理技术领域,涉及计算机视觉模式识别机器学习数据挖掘等相关理论知识。

背景技术

[0002] 视频人体动作的分析与表示是计算机视觉领域的一个研究热点,其主要任务是从视频中检测、提取和表示人体运动信息,它涉及图像处理、机器学习、应用物理、数学等多个学科,具有重要的理论和实际应用价值。由于人体运动的复杂性和多样性,尽管经历了十几年的研究,视频人体动作识别仍然难以应用于实际环境。作为人体动作识别的核心,动作表示和识别仍然存在大量亟待解决的问题。
[0003] 人体动作识别通常可以分为两个步骤:行为描述(表示)和行为分类,行为分类问题通常采用支持向量机(SVM),最近邻分类法(KNN),但根据不同的行为特征提取方法,行为描述也相应的有不同的表示方法,行为描述方法涉及行为特征的排列组合,聚合与抽象,因此行为描述的是否恰当直接影响行为识别的优劣。
[0004] 行为描述存在的问题有:
[0005] 1、当视频画面中存在较大人体运动信息时,这时运动信息的初级特征会呈现快速膨胀,这就意味着需要消耗大量时间和内存资源进行聚类运算,而且聚类中心个数的确定也是一个较难处理的问题,尤其是在数据集容量很大的情况下。
[0006] 2、在复杂背景环境下,人体行为既存在大量遮挡,同时光照强度的频繁变化都不利于对人体行为进行正确的描述。
[0007] 当前行为表达主要有以下几种方法:
[0008] 一、基于特征袋模型(Bag-of-Features, BOF)结合局部时空形状信息用于动作描述,然后对这些动作描述子进行聚类,形成可视化的聚类中心,因此可将不同的行为以不同的聚类中心进行表达,最后应用K近邻法,计算行为描述子与聚类中心的距离,根据距离大小进行图像分类的方法,获得很好的识别率。这种方法的将完整的运动图像割裂为等长排列的向量,忽略了运动信息的时空特性,因此对于“跳跃”和“奔跑”等相近动作识别效果不佳。
[0009] 二、基于低秩的行为表达,这种表达方法首先提取不同动作的行为特征,然后用这些特征建立过完备字典,并假定待分类的动作可以用过完备字典进行线性表达,并且这种线性表达存在低秩性质,也即过完备字典中的某些列向量对表示待分类样本起作用,而其他列向量不起作用,同样这种行为描述法也取得了很好的效果,但这种方法,忽略了表达的稀疏性,因此表达存在信息冗余。
[0010] 目前行为识别算法主要是采用图像分类的处理方法,即先将训练样本中的运动视频提取特征,然后将这些特征按照时间顺序依次排列,从而得到若干时空立方体,为了保证有保留视频中的局部信息的往往将这些立方体分割成小的立方体,然后将这些立方体向量化,同样按照时间顺序依次排列,对每个动作视频都采用上述方式进行处理后,得到一个样本字典,接下来对样本字典进行聚类,聚类的结果是得到特征均值,相当于得到了训练样本的模板,最后对测试样本同样采用提取特征,分割的处理后,得到测试视频的样本集,最后计算测试样本集与模板之间的距离,根据距离大小判定测试样本所属的类别。这种方法由于采用了向量化的处理方法,忽略了运动特征的时空分布特性,因此存在明显的信息损失,而且这种方法需要大量的距离运算,运算复杂度较高,同时聚类中心的数目也对识别结果产生很大的影响。

发明内容

[0011] 针对上述存在问题或不足,本发明提出了一种基于稀疏低秩的人体行为识别方法。
[0012] 该基于稀疏低秩的人体行为识别方法,包括场景特征提取,特征聚类,低秩稀疏表达和行为识别四个步骤。如图1所示,具体步骤如下:
[0013] 步骤1、视频图像灰度转换并提取场景特征
[0014] 步骤1-1:首先接收监测设备采集到的视频流,对得到的单图像进行灰度化处理。
[0015] 步骤1-2:将每帧图片归一化成96*48的大小;每个cell的大小为8*8的像素点,每个block中包含2*2个cell即16*16的像素点;相邻block有一半的区域是重叠的;梯度方向分为9个方向,这样得到的一张图片的HOG特征向量为1980维。
[0016] HOF的计算是对连续两帧灰度图像在3*3的网格中提取光流直方图特征,即每3*3的网格求出一个光流特征向量,根据视频帧的不同大小可以得到 个光流特征向量,将光流范围0 2 等分成32个子空间,构建32维的直方图 ,在统计直方图时,根据度值对应位~置投票,投票所得结果作为权值,因此得权值向量 ,其中
为每个网格的索引值, 是网格总数, 为第 个网格中32维直方图 对应的权值。
[0017] 步骤2、特征聚类
[0018] 设光流特征向量 ,对于每一个特征向量,动作类型计算公式:
[0019]
[0020] 对于每类j,重新计算该类质心 。
[0021] 步骤3、低秩稀疏表达
[0022] 步骤3-1:将聚类中心构成的字典 则 为一个的矩阵, 为特征维度,测试样本集 , 中的任意
一列 都可以用 进行线性表达,将这种关系式写为: ,其中 的每一列表
示 的对应列用 进行线性表达的系数,矩阵 称之为表达子,为由噪声引起的误差。
[0023] 步骤3-2:据此建立目标方程:
[0024]   式(1)
[0025] 其中 和 分别表示各项的关注因子,它们的值越大,表示相关项越受关注。这里,公式中分别用核范数和L1范数求解低秩和稀疏问题。
[0026] 步骤3-3:求解步骤3-2中的公式(1),这里用到了增广拉格朗日乘数法,得到目标函数后分别对各个参数进行迭代优化,则参数的迭代过程为:
[0027] ;
[0028] 其中 ,
[0029] ,
[0030] ,
[0031] ,
[0032] ,
[0033] ,
[0034] 其中函数 和 分别表示奇异值压缩算子和压缩算子,= ,  ,各参量的初始值为 ; 。
[0035] 步骤4、行为识别
[0036] 步骤4-1、通过步骤3求得的稀疏低秩矩阵Z,其中Z的每一列就是测试样本在D中的线性表达,现在只需要找出表达最大的那个系数即可知道测试样本所属的类别,采用最大池化法,即找出矩阵Z中每一行的最大值。
[0037] 令 表 示 从个行向量中,提取T个最大值,形成向量 。
[0038] 步骤4-2、分别找出这T个值所对应的相应类别,并计算该类别在矩阵 中对应的系数,并把相同类别的系数叠加起来,得到的最大值所对应的类别即为最终的识别结果。相应的计算公式如下:
[0039]
[0040] 上式表示取 中行向量中最大值的前T个。
[0041] 步骤2的聚类结果。
[0042] PreC  = ,  其中 是Dirac Delta函数,PreC即为最终的识别结果,T取5 10。
~
[0043] 所述步骤4-1中最大池化法是指:选择图像区域的最大值作为该区域池化后的值,所谓池化,是指对图像中不重合区域的聚合操作。
[0044] 本发明首先利用光流直方图对相邻两帧图片提取光流特征,并对单帧图像提取梯度直方图信息,获得监测场景内的运动特征信息,为了保持场景分析的时空一致性,因而采用低维空间的特征信息,对特征信息按照[动作1|动作2|动作3|……]的方式排列;然后用K均值的方式聚类,得到聚类中心后,将聚类中心作为过完备字典,求解测试样本在过完备字典下的稀疏低秩表达,得到表达矩阵;最后根据表达矩阵中的最大值求解出该测试样本所属的行为类别。本发明采用基于低秩稀疏的人体动作识别,采用交叉验证的方法,识别率92.3 98.79%,误识率1.21 7.6%。
~ ~
[0045] 本发明通过使用基于稀疏低秩表达的行为识别方法,该方法的主要特点是,模板字典的建立并不是特征向量的堆叠而是采用聚类中心为过完备字典,字典具有更好的凝聚作用,并且在字典于测试样本的距离计算上,并不是采用欧式距离直接计算,而是找出测试样本在字典下的线性表达,通过线性表达具有的稀疏性与低秩性,以此来表征行为类别的距离。
[0046] 综上所述,本发明具有具有低秩特点,且识别率上达到92.3 98.79%,误识率1.21~ ~7.6%。
附图说明
[0047] 图1为稀疏低秩表达的人体行为识别总体流程示意图;
[0048] 图2为当T =10时,不同聚类数目下的识别率;
[0049] 图3为聚类中心数K=2000时,不同T值的识别率;
[0050] 图4分别为:图4A运用词袋法,图4B运用低秩表示和图4C运用稀疏低秩表示的在实际拍摄视频中得到的混淆矩阵;
[0051] 图5为低秩稀疏表达流程伪代码。

具体实施方式

[0052] 实现语言:Matlab
[0053] 硬件平台:Intel i3 2120+4G DDR RAM
[0054] 本发明方法通过在Matlab上进行直观、有效的算法验证。
[0055] 通过在学校广场采集行人活动对词袋法,低秩法以及本专利描述的方法进行测试,行人活动主要包括:弯腰、跌倒、拍手、挥手、跑步、蹲下、走路7种行为,测试结果,如图4所示。相比之下,运用本专利描述的方法取得了较好的识别效果。其中运用词袋法(图4A)识别效果明显低于低秩表示法和本专利所述方法,而低秩表示法在弯腰,跌倒动作上和低秩稀疏表示法基本持平,但在其他动作识别上要略低于本专利所述方法。
[0056] 图2为当T =10时,不同聚类数目下的识别率。
[0057] 图3为聚类中心数K=2000时,不同T值的识别率。
[0058] 图5为低秩稀疏表达流程伪代码。
[0059] 通过大量的有效测试,与传统的异常行为检测算法相比较,本发明的方法具很高的正确识别率以及在简单环境中具有很好的鲁棒性。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈