技术领域
背景技术
[0002] 近年来,基于
卷积神经网络的视频
图像分析成为
机器视觉领域的一项热
门课题,其应用非常广泛。其中,人群密度估计是一个重要分支。人群密度估计是指将高密度人群图片通过卷积神经网络输出相对应的人群密度图,对密度图中所有
像素进行求和得到总人数的过程。
[0003] 目前,除了传统的人群计数
算法,很多基于
深度学习的人群计数算法被不断提出。对于深度学习算法来讲,由于损失函数的影响,使得网络学习出来的密度图较为模糊,与真实对应的密度图差异较大,同时还可能造成过估计的问题。为了解决这种问题,采用对人口密度的大小进行分别处理,而这种处理方式较统一进行人口估计的情况误差小的多,能改善密度图分布不相似的问题,且鲁棒性更高,给大型人群聚集场所的安全方面与规划方面带来最为准确的数据。
发明内容
[0004] 本发明的目的在于提供一种人群密度估计方法。
[0005] 为解决上述问题,本发明提供一种人群密度估计方法,包括:
[0006] 根据密度大于预设
阈值的人群图像数据集给定的对应人群
位置坐标构建相应真值图,训练用于图像情况分类的AlexNet网络、训练密集情况下的融合注意
力机制的特征网络和训练稀疏情况下的融合空洞卷积的特征网络;
[0007] 将所述AlexNet网络、融合注意力机制的特征网络和融合空洞卷积的特征网络搭建成一个具有分类图像、提取人群密度图像的最终训练网络。
[0008] 进一步的,在上述方法中,根据密度大于预设阈值的人群图像数据集给定的对应人群位置坐标构建相应真值图,包括:
[0009] 获取密度大于预设阈值的人群图像数据集中的原始图像,分为人群相对密集原始图像与稀疏原始图像两种情况对分别赋予不同的疏密情况标号;
[0010] 利用自适应高斯核的人群密度图生成方法分别获得所述人群相对密集原始图像与稀疏原始图像中的人群位置坐标所对应的人群密度真值图。
[0011] 进一步的,在上述方法中,训练用于图像情况分类的AlexNet网络,包括:
[0012] 构建AlexNet网络,共8层,其中5层卷积层,3层全连接层。
[0013] 分别将人群相对密集原始图像与稀疏原始图像作为输入,并将对应的疏密情况标号作为输出,将所述输入和输出导入到所述AlexNet网络中训练,训练完成,获得相对密集的图像集A与相对稀疏的图像集B,并保留训练后的AlexNet网络中的所有参数不变。
[0014] 进一步的,在上述方法中,训练密集情况下的融合注意力机制的特征网络,包括:
[0015] 构建融合注意力机制的特征网络;
[0016] 将所述相对密集图像集A作为输入,导入到融合注意力机制的特征网络中进行训练,训练完成后,保留训练后该融合注意力机制的特征网络中的所有参数不变。
[0017] 进一步的,在上述方法中,训练稀疏情况下的融合空洞卷积的特征网络,包括:
[0018] 构建融合空洞卷积的特征网络
[0019] 将所述相对稀疏图像集B作为输入,导入到融合空洞卷积特征网络中进行训练,训练完成后,保留训练后该融合空洞卷积的特征网络中的所有参数不变。
[0020] 进一步的,在上述方法中,将所述AlexNet网络、融合注意力机制的特征网络和融合空洞卷积的特征网络搭建成一个具有分类图像、提取人群密度图像的最终训练网络之后,还包括:
[0021] 在验证环节中,将待估计的单张人群密度图像输入到最终训练网络,获得相应的人群密度图片,对所述人群密度图中所有像素进行求和得到该人群密度图片中的总人数。
[0022] 进一步的,在上述方法中,将所述AlexNet网络、融合注意力机制的特征网络和融合空洞卷积的特征网络搭建成一个具有分类图像、提取人群密度图像的最终训练网络,包括:
[0023] 以训练完成的AlexNet网络作为总分类依据,以训练完成的密集情况下的融合注意力机制的特征网络、稀疏情况下的融合注意力机制的特征网络作为各分支情况下的处理方式,以此搭建最终训练网络。
[0024] 与
现有技术相比,本发明通过使用AlexNet网络将人群图片数据集分为密集与稀疏两类,然后针对这两类图像密度特征的不同将其分别送入对应的特征提取网络,从而获取更好有效的人群密度估计特征。本发明用于估计高密度人群图片中的人群数量,可
预防人群过度拥挤造成的意外情况发生。本发明是一种组合式网络人群密度估计算法,通过对人群稠密、稀疏这两类情况分别做人群密度估计。该发明能更好的提供有效的人群密度估计特征,且能改善密度图分布不相似的问题,具有较好的鲁棒性。
附图说明
[0025] 图1是本发明一
实施例的整体训练模型的生成
流程图;
[0026] 图2是本发明一实施例的人群密度估计方法的流程图。
具体实施方式
[0027] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0028] 如图1和2所示,本发明提供一种人群密度估计方法,在训练环节中包括:
[0029] 步骤S1,根据密度大于预设阈值的人群图像数据集给定的对应人群位置坐标构建相应真值图,训练用于图像情况分类的AlexNet网络、训练密集情况下的融合注意力机制的特征网络和训练稀疏情况下的融合空洞卷积的特征网络;
[0030] 步骤S2,将所述AlexNet网络、融合注意力机制的特征网络和融合空洞卷积的特征网络搭建成一个具有分类图像、提取人群密度图像的最终训练网络。
[0031] 在此,通过对目前的人群计数算法研究发现,无论是传统人群计数算法还是基于深度学习的人群计数算法,其都有其各自的问题。对于深度学习算法来讲,由于损失函数的影响,使得网络学习出来的密度图较为模糊,与真实对应的密度图差异较大,同时还可能造成过估计的问题,这对准确进行人群密度估计造成了困难。并且,由于遮挡、透视畸变、尺度变化和人群分布的多样性等问题,精准的人群计数一直是
计算机视觉中一个具有挑战性的问题。为了解决尺度变化的问题,本发明选择融合空洞卷积的网络结构,使网络能够提取到不同尺度的人群特征,以此来扩充上下文信息,辅助人群计数,此网络结构对于稀疏人群图像特征提取表现更好。对于相对密集的人群图像,使用了融合注意力机制的网络结构,通过注意力模
块引导网络更多地关注人群头部位置,抑制背景噪声,以此提供更有效的人群密度图估计信息。
[0032] 本发明通过使用AlexNet网络将人群图片数据集分为密集与稀疏两类,然后针对这两类图像密度特征的不同将其分别送入对应的特征提取网络,从而获取更好有效的人群密度估计特征。
[0033] 本发明用于估计高密度人群图片中的人群数量,可预防人群过度拥挤造成的意外情况发生。本发明是一种组合式网络人群密度估计算法,通过对人群稠密、稀疏这两类情况分别做人群密度估计。该发明能更好的提供有效的人群密度估计特征,且能改善密度图分布不相似的问题,具有较好的鲁棒性。
[0034] 通过本发明的方法,可准确的处理人群稠密或稀疏的问题,改善密度图分布不相似的问题,提高人群估计的准确性。且该发明具有较高的鲁棒性,能给大型人群聚集场所的安全方面与规划方面带来最为准确的数据。
[0035] 本发明的人群密度估计方法一实施例中,步骤S2,将所述AlexNet网络、融合注意力机制的特征网络和融合空洞卷积的特征网络搭建成一个具有分类图像、提取人群密度图像的最终训练网络之后,还包括:
[0036] 步骤S3,在验证环节中,将待估计的单张人群密度图像输入到最终训练网络,获得相应的人群密度图片,对所述人群密度图中所有像素进行求和得到该人群密度图片中的总人数。
[0037] 在此,本发明的方法分为两个环节,其分别为训练环节与验证环节。通过该方法对高密度图像人数的估计,能给大型人群聚集场所的安全方面与规划方面带来最为准确的数据。
[0038] 本发明的人群密度估计方法一实施例中,根据密度大于预设阈值的人群图像数据集给定的对应人群位置坐标构建相应真值图,包括:
[0039] 步骤S11,获取密度大于预设阈值的人群图像数据集中的原始图像,分为人群相对密集原始图像与稀疏原始图像两种情况对分别赋予不同的疏密情况标号;
[0040] 步骤S12,利用自适应高斯核的人群密度图生成方法分别获得所述人群相对密集原始图像与稀疏原始图像中的人群位置坐标所对应的人群密度真值图。
[0041] 本发明的人群密度估计方法一实施例中,训练用于图像情况分类的AlexNet网络,包括:
[0042] 步骤S111,构建AlexNet网络,共8层,其中5层卷积层,3层全连接层。
[0043] 步骤S112,分别将人群相对密集原始图像与稀疏原始图像作为输入,并将对应的疏密情况标号作为输出,将所述输入和输出导入到所述AlexNet网络中训练,训练完成,获得相对密集的图像集A与相对稀疏的图像集B,并保留训练后的AlexNet网络中的所有参数不变。
[0044] 本发明的人群密度估计方法一实施例中,训练密集情况下的融合注意力机制的特征网络,包括:
[0045] 步骤S121,构建融合注意力机制的特征网络;
[0046] 步骤S122,将所述相对密集图像集A作为输入,导入到融合注意力机制的特征网络中进行训练,训练完成后,保留训练后该融合注意力机制的特征网络中的所有参数不变。
[0047] 本发明的人群密度估计方法一实施例中,训练稀疏情况下的融合空洞卷积的特征网络,包括:
[0048] 步骤S131,构建融合空洞卷积的特征网络
[0049] 步骤S132,将所述相对稀疏图像集B作为输入,导入到融合空洞卷积特征网络中进行训练,训练完成后,保留训练后该融合空洞卷积的特征网络中的所有参数不变。
[0050] 本发明的人群密度估计方法一实施例中,步骤S2,将所述AlexNet网络、融合注意力机制的特征网络和融合空洞卷积的特征网络搭建成一个具有分类图像、提取人群密度图像的最终训练网络,包括:
[0051] 以训练完成的AlexNet网络作为总分类依据,以训练完成的密集情况下的融合注意力机制的特征网络、稀疏情况下的融合注意力机制的特征网络作为各分支情况下的处理方式,以此搭建最终训练网络。
[0052] 具体的,如图1所示,这是人群密度估计的训练环节,该环节的主要目的为获得能自主分类人口密度情况且能作出相应人口密度估计的模型。首先,将高密度人群图片数据集作为输入,用于训练AlexNet网络,使该网络获得具有分辨人群密度情况的能力。而后将分类后的两个图像集A、B根据不同的类别进行处理,最终获得相应的人群密度图像。将相对密集的人群图片输入到融合注意力机制的特征提取网络;将相对稀疏的人群图片输入到融合空洞卷积的特征提取网络。保持以上三个网络的参数不变,将其组合成一个整体网络。
[0053] 如图2所示为本发明整体算法流程图。该算法包含两个环节,训练环节与验证环节。训练环节是将高密度人群图片数据集当做输入,训练并构成具有分辨人群密度情况且能够具有估计人群密度的模型。而在验证环节,则是需要将预估计的人群密度图像输入到训练好的模型中,则可以获得其相应的人群密度估计图。而后将密度图中所有像素相加即为该图的人群数量估计值。
[0054] 本发明分为两个环节,其分别为训练环节与验证环节。通过训练环节产生的模型用于验证环节的人口估计。在训练环节中做了以下处理:
[0055] ①根据密度大于预设阈值的人群图像数据集给定的对应人群位置坐标构建相应真值图:
[0056] 首先,将密度大于预设阈值的人群图像数据集中的原始图像进行分类,相对密集的人群图像赋予标号1,相对稀疏是人群图像赋予标号0。获取每张图中对应人群位置的坐标数据,而后利用自适应高斯核的人群密度图生成方法获得对应人群密度真值图。
[0057] ②训练用于图像情况分类的AlexNet网络:
[0058] 构建AlexNet网络,共8层,其中5层卷积层,3层全连接层。而后将人群图像数据集作为输入,其对应的疏密情况作为输出,导入到AlexNet网络中训练。训练完成,获得相对密集的图像集A与相对稀疏的图像集B,并保留训练后AlexNet网络中的所有参数不变。
[0059] ③训练密集情况下的融合注意力机制的特征网络:
[0060] 根据注意力机制的特性,在密集人口情况下构建融合注意力机制的特征网络。而后将步骤②得到的相对密集图像集A作为输入,人群密度真值图像作为输出,导入到特征网络中进行训练,并设置
迭代周期为400。训练完成后,保留训练后该融合注意力机制的特征网络中的所有参数不变。
[0061] ④训练稀疏情况下的融合空洞卷积的特征网络:
[0062] 根据融合空洞卷积的特性,在相对稀疏人群情况下构建融合空洞卷积的特征网络。将步骤②得到的相对稀疏图像集B作为输入,其对应的人群密度图像作为输出,导入到特征网络中进行训练,设置迭代周期为400。训练完成后,保留训练后该融合空洞卷积的特征网络中的所有参数不变。
[0063] ⑤搭建具有分类图像、提取人群密度图像的整体训练模型:
[0064] 该整体训练模型以AlexNet网络作为总分类依据,以密集情况下的融合注意力机制的特征网络和稀疏情况下的融合注意力机制的特征网络作为各分支情况下的处理方式,以此搭建整个训练模型。
[0065] 而在验证环节,将待估计的单张人群密度图像输入到整体训练模型中,获得相应的人群密度图片,而后对人群密度图中所有像素进行求和得到该图片中的总人数。通过该算法对高密度图像人数的估计,能给大型人群聚集场所的安全方面与规划方面带来最为准确的数据。
[0066] 本
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0067] 专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以
电子硬件、计算机
软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0068] 显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些
修改和变型属于本发明
权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。