首页 / 专利库 / 视听技术与设备 / 图像分割 / 一种基于深度学习的人群统计方法

一种基于深度学习的人群统计方法

阅读:68发布:2024-02-10

专利汇可以提供一种基于深度学习的人群统计方法专利检索,专利查询,专利分析的服务。并且本方法公开了一种基于 深度学习 的人群统计方法,该方法通过对视频提取运动前景,使用人体区域模型保证摄像头视 角 和透视不变性,通过预处理、提取、检测,最终确定人体区域统计人数。该方法不仅可以减少滑动窗口搜索区域提高搜索效率,也克服了监控视频由于视角、距监控场景距离等原因引起的形变且系统安装部署简单,基于深度学习 卷积神经网络 的检测模型提高人体检测准确率,使用非极大值抑制方法排除冗余子区域减少重复计数,使得检测人体, 定位 人体和统计人群数量的结果更加精确。,下面是一种基于深度学习的人群统计方法专利的具体信息内容。

1.一种基于深度学习的人群统计方法,其特征在于,包括以下步骤:
步骤1,采用灰度世界算法对预处理图像进行白平衡预处理;
步骤2,采用K近邻算法的背景分割方法提取预处理后的图像;
步骤3,采用保证视和透视不变性的方法遍历提取出的图像像素,将其坐标(x,y)输入训练好的线性模型得到人体区域的尺寸;
步骤4,采用卷积神经网络作为人体检测模型;
步骤5,统计最终人体数量。
2.根据权利要求1所述的一种基于深度学习的人群统计方法,其特征在于:步骤1所述灰度世界算法对图像进行白平衡预处理,进一步包括以下步骤:
1)对预处理图像三个通道取平均值;
2)求取各个通道的增益并将增益值叠加到原图;
3)对结果做规划处理;
公式如下:
lout=(Rnew,Gnew,Bnew)
其中MR、MG、MB分别表示输入图像R、G、B三个通道的均值,α则表示三个通道的全局均值,K表示各个通道的增益值,Rnew、Gnew、Bnew表示叠加增益后三通道,Iout表示经过增益叠加后的图像;对于上式处理,可能会存在溢出(>255,不会出现小于0的)现象,实验表明若直接将>
255像素设置为255可能会造成图像整体偏白,因此采用计算所有Rnew、Gnew、Bnew的最大值,然后利用该最大值将将计算后数据重新线性映射到[0,255]内。
3.根据权利要求1或2所述的一种基于深度学习的人群统计方法,其特征在于:步骤1中所述图像经过白平衡预处理会自动均衡像素的灰度值。
4.根据权利要求1所述的一种基于深度学习的人群统计方法,其特征在于:其中步骤2所述提取图像采用K近邻算法的背景分割方法,遍历输入图像的每个像素,寻找该像素某个邻域内与之距离最近的K个像素点,对这些点的所属类别进行多数表决,确定当前像素的类别;分类决策规则如下:
其中I(·)为指示函数,即当yi=cj时函数去1,否则0。
5.根据权利要求1或4所述的一种基于深度学习的人群统计方法,其特征在于:对步骤2中所述提取预处理后的图像进行膨胀腐蚀运算。
6.根据权利要求1所述的一种基于深度学习的人群统计方法,其特征在于:其中步骤3所述采用保证视角和透视不变性的方法遍历前景区域每个像素,以像素坐标(x,y)作为子区域中心,将像素坐标(x,y)输入训练好的线性模型得到人体区域的尺寸;人体区域尺寸的计算公式如下:
w=θ0+θ1·x+θ2·y
h=ω0+ω1·x+ω2·y
其中w,h分别表示在坐标(x,y)的人体区域的宽和高;θ,ω分别代表求人体区域宽和高的线性模型的权重,θi和ωi是可学习的权重,通过从检测场景中手动截取人体区域并使用线性回归算法训练得到。
7.根据权利要求1所述的一种基于深度学习的人群统计方法,其特征在于:在步骤4中将从原图截取经计算后的所有人体区域子图像输入卷积神经网络判断是否为人体。
8.根据权利要求7所述的一种基于深度学习的人群统计方法,其特征在于:将所有被判定存在人体的区域按照网络输出值即判定为人体的置信度排序,将置信度最高的区域作为标准,去掉超过某个设定阈值的所有区域;公式如下:
其中,Sover表示参与判定的两个区域的重叠部分的面积;S表示参与判定的两个区域面积的总和;将f(o)为0的区域去除,剩下的区域为最终结果。
9.根据权利要求1所述的一种基于深度学习的人群统计方法,其特征在于:步骤4所述的卷积神经网络作为人体检测模型,其网络结构参考caffe深度学习框架中cifar10网络,对网络各层的参数进行了简化。
10.根据权利要求1所述的一种基于深度学习的人群统计方法,其特征在于:所述的人体尺寸计算是基于线性回归的人体区域模型。

说明书全文

一种基于深度学习的人群统计方法

所属技术领域

[0001] 本方法属于视频智能监控领域,具体涉及一种基于深度学习的人群统计方法。

背景技术

[0002] 随着视频监控系统的普及,摄像头已遍布城市各个落。首先,面对如此海量的摄像头和监控视频,使用人工方式去甄别监控场景中的人群行为和属性是不现实的。其次,面对雨天、天、夜景或者人群超密集等复杂场景,单纯凭借肉眼来识别其中的人尚且困难,更不用说统计其中人数。
[0003] 目前,应用于视频监控系统的人群统计方法主要分为三类:第一类利用检测器在图像中滑动逐个判定并统计人体;第二类对图像提取人群运动轨迹特征并聚类,聚类结果为人群计数结果;第三类利用统计学方法估计人群的分布以计算人群的密度,计算得到人群数量。然而以上几种方法均采用手工提取特征的方式,不适用于较复杂场景,要么未引入透视和观察角度不变性使得方法不能处理由于视角和透视原因引起的物体形变,不能很好适用于视野开阔的场景,要么采用了解决透视和观察角度不变性的方法但精确度过于依赖用户手动测量摄像头拍摄角度、观测距离等参数,使得系统的安装配置复杂化。而单纯采用检测器处理图像则取决于检测器的好坏,且采用滑动窗口对全图进行遍历计算量巨大,实时性难以保证。发明内容
[0004] 本发明提供一种方法,不但可以最大限度减少滑动窗口的搜索区域来提高检测效率和降低复杂场景对人体检测的干扰,而且只需简单配置即可实现透视和观察角度不变性。
[0005] 为了达到上述目的,本发明提出的一种基于深度学习的人群统计方法包括以下步骤:
[0006] 步骤1,采用灰度世界算法对预处理图像进行白平衡预处理;
[0007] 步骤2,采用K近邻算法的背景分割方法提取预处理后的图像;
[0008] 步骤3,采用保证视角和透视不变性的方法遍历提取出的图像像素,将其坐标(x,y)输入训练好的线性模型得到人体区域的尺寸;
[0009] 步骤4,采用卷积神经网络作为人体,检测模型;
[0010] 步骤5,统计最终人体数量。
[0011] 进一步地,步骤1所述灰度世界算法对图像进行白平衡预处理,进一步包括以下步骤:
[0012] 1)对预处理图像三个通道取平均值;
[0013] 2)求取各个通道的增益并将增益值叠加到原图;
[0014] 3)对结果做规划处理;
[0015] 公式如下:
[0016]
[0017]
[0018]
[0019]
[0020]
[0021] Iout=(Rnew,Gnew,Bnew)
[0022] 其中MR、MG、MB分别表示输入图像R、G、B三个通道的均值,α则表示三个通道的全局均值,K表示各个通道的增益值,Rnew、Gnew、Bnew表示叠加增益后三通道,Iout表示经过增益叠加后的图像;对于上式处理,可能会存在溢出(>255,不会出现小于0的)现象,实验表明若直接将>255像素设置为255可能会造成图像整体偏白,因此采用计算所有Rnew、Gnew、Bnew的最大值,然后利用该最大值将将计算后数据重新线性映射到[0,255]内。所述图像经过白平衡预处理会自动均衡像素的灰度值。
[0023] 进一步地,其中步骤2所述提取图像采用K近邻算法的背景分割方法,遍历输入图像的每个像素,寻找该像素某个邻域内与之距离最近的K个像素点,对这些点的所属类别进行多数表决,确定当前像素的类别;分类决策规则如下:
[0024]
[0025] 其中I(·)为指示函数,即当yi=cj时函数去1,否则0。
[0026] 进一步地,对步骤2中所述提取预处理后的图像进行膨胀腐蚀运算。
[0027] 进一步地,其中步骤3所述采用保证视角和透视不变性的方法遍历前景区域每个像素,以像素坐标(x,y)作为子区域中心,将像素坐标(x,y)输入训练好的线性模型得到人体区域的尺寸;人体区域尺寸的计算公式如下:
[0028] w=θ0+θ1·x+θ2·y
[0029] h=ω0+ω1·x+ω2·y
[0030]
[0031]
[0032] 其中w,h分别表示在坐标(x,y)的人体区域的宽和高;θ,ω分别代表求人体区域宽和高的线性模型的权重,θi和ωi是可学习的权重,通过从检测场景中手动截取人体区域并使用线性回归算法训练得到。
[0033] 进一步地,在步骤4中将从原图截取经计算后的所有人体区域子图像输入卷积神经网络判断是否为人体。所述的人体尺寸计算是基于线性回归的人体区域模型。将所有被判定存在人体的区域按照网络输出值即判定为人体的置信度排序,将置信度最高的区域作为标准,去掉超过某个设定阈值的所有区域;公式如下:
[0034]
[0035]
[0036] 其中,Sover表示参与判定的两个区域的重叠部分的面积;S表示参与判定的两个区域面积的总和;将f(o)为0的区域去除,剩下的区域为最终结果。
[0037] 更进一步地,步骤4所述的卷积神经网络作为人体检测模型,其网络结构参考caffe深度学习框架中cifar10网络,对网络各层的参数进行了简化。
[0038] 因为本发明采用以上技术方案,所以具备以下有益效果:
[0039] 本方法公开了一种基于深度学习的人群统计方法,该方法通过对视频提取运动前景,使用人体区域模型保证摄像头视角和透视不变性,通过预处理、提取、检测,最终确定人体区域统计人数。该方法不仅可以减少滑动窗口搜索区域提高搜索效率,也克服了监控视频由于视角、距监控场景距离等原因引起的形变且系统安装部署简单,基于深度学习卷积神经网络的检测模型提高人体检测准确率,使用非极大值抑制方法排除冗余子区域减少重复计数,使得检测人体,定位人体和统计人群数量的结果更加精确。附图说明
[0040] 图1为人数统计方法流程图
[0041] 图2为人体区域模型训练流程图;
[0042] 图3为人体检测模型训练流程图;
[0043] 图4为人体检测卷积神经网络结构图。

具体实施方式

[0044] 下面结合附图和实施例对本发明做进一步说明。
[0045] 如图1-3所示,一种基于深度学习的人群统计方法,包括以下步骤:
[0046] 步骤1,采用灰度世界算法对预处理图像进行白平衡预处理;
[0047] 进一步地,所述灰度世界算法的白平衡预处理方法分别先对预处理图像三个通道取平均值,然后求取各个通道的增益并将增益值叠加到原图,最后对结果做规划处理。经过白平衡处理的图像会自动均衡像素的灰度值,防止图像整体偏亮或偏暗,在一定程度上去除光照的干扰。
[0048] 公式如下:
[0049]
[0050]
[0051]
[0052]
[0053]
[0054] Iout=(Rnew,Gnew,Bnew)
[0055] 其中MR、MG、ME分别表示输入图像R、G、B三个通道的均值,α则表示三个通道的全局均值,K表示各个通道的增益值,Rnew、Gnew、Bnew表示叠加增益后三通道,Iout表示经过增益叠加后的图像。对于上式处理,可能会存在溢出(>255,不会出现小于0的)现象,实验表明若直接将>255像素设置为255可能会造成图像整体偏白,因此采用计算所有Rnew、Gnew、Bnew的最大值,然后利用该最大值将将计算后数据重新线性映射到[0,255]内。
[0056] 步骤2,采用K近邻算法的背景分割方法提取预处理后的图像;
[0057] 进一步地,所述基于K近邻(KNN)算法的视频运动前景提取技术,遍历输入图像的每个像素,寻找该像素某个邻域内与之距离最近的K个像素点,对这些点的所属类别进行多数表决,确定当前像素的类别,并更新背景。将视频的每一化分为背景或前景;分类决策规则如下:
[0058]
[0059] 其中I(·)为指示函数,即当yi=cj时函数去1,否则0。
[0060] 进一步地,对提取的运动前景进行膨胀腐蚀运算,用以消除噪声,得到最终前景区域。
[0061] 膨胀是将与物体接触的所有背景点合并到该物体中,使边界向外部扩张的过程。如使用3x3的结构元素即膨胀运算模板。扫描图像的每一个像素用结构元素与其覆盖的二值图像做“或”操作,如果都为0,结果图像的该像素为0,否则为1。结果使二值图像扩大一圈。
[0062] 腐蚀是一种消除边界点,使边界向内部收缩的过程。可以用来消除小且无意义的物体。比如用3x3的腐蚀运算模板。扫描图像的每一个像素用结构元素与其覆盖的二值图像做“与”操作,如果都为1,结果图像的该像素为1,否则为0。结果使二值图像减小一圈。
[0063] 步骤3,采用保证视角和透视不变性的方法遍历提取出的图像像素,将其坐标(x,y)输入训练好的线性模型得到人体区域的尺寸;
[0064] 进一步地,使用滑动窗口方法遍历前景区域每个像素,然后遍历的每一个像素点坐标(x,y)输入人体区域模型,得到人体区域尺寸,采用保证视角和透视不变性,使用线性回归模型,建立固定场景图像像素空间坐标与人体区域尺寸的关系。训练前,从场景中手动截取各个位置上的人体区域,尽可能覆盖由远及近的所有坐标。然后使用线性回归训练模型,得到人体区域模型。公式如下:
[0065]
[0066]
[0067] 其中公式(1)为目标函数,hθ(x)表示对目标问题的线性估计函数,y表示目标问题的真实取值;公式(2)是权重更新函数,θ表示线性模型的权重,α表示学习率。
[0068] 将Iout截取子图像输入训练好的线性人体模型,判断是否是人体。具体是以每个遍历的像素坐标(x,y)作为子区域中心,从Iout截取子图像作为待检测图像。人体区域尺寸的计算公式如下:
[0069] w=θ0+θ1·x+θ2·y
[0070] h=ω0+ω1·x+ω2·y
[0071]
[0072]
[0073] 其中w,h分别表示在坐标(x,y)的人体区域的宽和高。θ,ω分别代表求人体区域宽和高的线性模型的权重,θi和ωi是可学习的权重,通过从检测场景中手动截取人体区域并使用线性回归算法训练得到。由于物体远近与大小透视关系是一种线性关系,所以人体尺寸计算是基于线性回归的人体区域模型。使用机器学习方法保证视角和透视不变性,使得无论安装部署系统,还是改变摄像头拍摄角度、拍摄距离之后重新校正系统都更简单。
[0074] 步骤4,采用卷积神经网络作为人体检测模型;
[0075] 卷积神经网络作为人体检测模型其网络结构参考caffe深度学习框架中cifar10网络,对网络各层的参数进行了简化。基于深度学习的卷积神经网络模型,在训练过程中,首先从大量的监控视频即人体数据库中采集人体样本,最终获得具有1600正样本及1600负样本的人体样本数据库,以此数据库作为训练样本网络,得到人体检测模型。
[0076] 如图4所示的卷积神经网络的结构,其中含有两个卷积层(convolution),两个最大值池化层(max pooling),两个局部归一化层(local response normalization),两个全连接层(full connection),一个softmax分类器。卷积层的作用是进行特征提取;池化层对输入的特征图进行压缩,并减少特征的尺度以获取更具有归纳性的特征;局部归一化层作用类似于激活层,作用是归一化输入特征以便加速训练;全连接层作用对输入特征进行总结并将其映射到特定的高位空间以便分类;softmax层则是为了对特征向量进行分类。在人体检测卷积网络模型中,模型的输入为具有3通道的24*24图像,经过第一个卷积层Conv1及激活函数层Relu1得到16通道的24*24的特征图,然后经过池化层Max Pooling1采样后得到16通道12*12的特征图,接着经过局部归一化层特征图保持尺寸不变,之后分别再依次输入卷积层Conv2,激活函数层Relu2,局部归一化层及池化层Max Pooling2得到16通道尺寸为
6*6的特征图,最后经过两个全连接层和一个softmax分类器将特征图变换为一个2维特征向量。这样一个具有3通道的24*24的输入图像经过卷积网络被归纳为2个类别,人体或非人体。
[0077] 步骤5,统计最终人体数量。
[0078] 进一步地,对步骤4中所有判断为人体的子区域采用非极大值抑制算法,去除冗余区域。将所有被判定存在人体的区域按照网络输出值即判定为人体的置信度排序,然后将置信度最高的区域作为标准,去掉超过某个设定阈值的所有区域。公式如下:
[0079]
[0080]
[0081] 其中,Sover表示参与判定的两个区域的重叠部分的面积;S表示参与判定的两个区域面积的总和;o表示面积重叠部分占全部区域的比例。将f(o)为0的区域去除,剩下的区域为最终结果。根据实验,σ=0.2时方法取得最佳效果。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈