首页 / 专利库 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 深度神经网络 / 卷积神经网络 / 一种基于黎曼流形的行人重识别方法

一种基于黎曼流形的行人重识别方法

阅读:879发布:2024-02-20

专利汇可以提供一种基于黎曼流形的行人重识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及 模式识别 技术领域,具体涉及基于属性学习与黎曼流形相结合的一种行人重识别方法。该方法通过研究行人的表征以及语义属性,提出一种泛化能 力 更强的模型,通过引入行人属性标签,使用 卷积神经网络 模型,采用多目标损失函数,模型不仅要准确地预测出行人ID,还要预测出各项正确的行人属性。将行人图片通过训练完毕的卷积神经网络得到卷积层的输出张量,分别计算每一张行人图片的协方差描述子。利用协方差描述子进行特征融合以消除特征冗余,进而研究描述子所在黎曼流形的度量,实现更准确的相似度计算。,下面是一种基于黎曼流形的行人重识别方法专利的具体信息内容。

1.一种基于属性学习与黎曼流形相结合的行人重识别方法,其特征在于:
A.从行人重识别领域专家设定的属性中选择最具代表性并适合本行人重识别任务的
27个属性,包括了与服装相关的属性及与人体生物特征相关的属性。
B.构建一个深度学习模型并对该模型进行训练,深度学习模型使用Resnet残差卷积神经网络模型,使用50层的Resnet结构,采用MSRA初始化方法对网络权值进行初始化。
C.该卷积神经网络模型中损失函数的设计,在网络最后连接m+1个全连接层,其中m个给出的是对行人属性特征的预测,1个给出对行人ID的预测。采用多目标损失函数,在给定行人图片后,网络可以同时预测行人标签和属性标签。
D.在深度学习模型中损失函数的设计采用多目标损失函数,其中,对于行人ID的分类任务采用交叉熵损失函数,对于属性学习的分类任务同样采用交叉熵损失函数,而深度学习模型总的损失函数定义为 其中LID,Latt分别表示行人ID分类的损失
函数和属性标签分类的损失函数,参数λ的作用是平衡两类损失函数在预测任务中的贡献。
E.对训练好的卷积神经网络输入测试样本图像,经过多次卷积和下采样的过程得到最后一个卷积层的输出张量F∈RL×L×N。
F.在卷积层的输出张量F∈RL×L×N中,设 是F内的N维特征向量,定义输出特征
张量的协方差描述子为 其中μ是特征张量中所有特征向量
的均值。
G.将测试集中的每张行人图片输入训练完毕的卷积神经网络,均如前所述得到输出张量,并分别计算每一张行人图片的协方差描述子。
H.这些协方差描述子均是N×N的对称、半正定矩阵,它们构成 维线性空间中
的一个凸锥,由于N维特征向量的每一维的方差皆非零,所以对称正定的协方差描述子对应于上述凸锥的内部,凸锥内部是一个微分流形,通过对其赋予一个可计算的有效度量,使其满足黎曼流形的要求,即可运用微分几何的方法,给出流形上点之间距离的计算。
I.本发明使用一种仿射不变度量用于协方差矩阵构成的凸锥上,该度量的主要思想是:对于黎曼流形M上任一点X,均可作一个切空间SX,并构造切空间SX和流形M的微分同胚,对切空间SX中的向量V,可通过指数映射将V映射成为流形M上从点X出发的等长同向测地线。
J.查找所述特征相似度高于预设相似度阈值的参考行人图像;将特征相似度高于预设相似度阈值的参考行人图像所对应的参考行人确认为所述目标行人图像中的目标行人。所述确定所述目标行人图像中的目标行人和所述参考行人图像中的参考行人为同一个行人,按照所述特征相似度由高至低的排序顺序对所述参考行人图像进行排名,以生成相似度排名;在所述相似度排名中查找排名超过预定名次的参考行人图像;将排名超过预定名次的参考行人图像所对应的参考行人确认为所述目标行人图像中的目标行人。
2.根据权利要求1所述的基于属性学习与黎曼流形相结合的行人重识别方法,其特征在于,所述步骤A中,从行人重识别领域专家设定的属性中选择最具代表性并适合本行人重识别任务的27个属性,包括了与服装相关的属性及与人体生物特征相关的属性。人体生物特征相关属性有3个:性别(男性、女性),年龄(儿童、青少年、成人、老人),发型(长发、短发);服装类相关属性有24个:袖长(长袖、短袖),裤长(长,短),下装类型(裤装、裙装),帽子(有、无),双肩背包(有、无),手提袋(有、无),手包(有、无),上装颜色(黑、白、红、紫、黄、灰、蓝、绿),下装颜色(黑、白、粉、紫、黄、灰、蓝、绿、棕)。
3.据权利要求1所述的基于属性学习与黎曼学习相结合的行人重识别方法,其特征在于,所述步骤B中,本发明采用Resnet-50残差卷积神经网络模型,通过随机梯度下降算法调整网络权值,公式为: 其中θ*为更新后的权值,η为学习率,
根据学习阶段的不同,可对η的大小进行调整,m为训练集中抽取的用于完成一次权值更新的样本小批次的容量。通过对所有训练样本进行60次迭代训练,即对网络权值的60次更新,训练得到能够精确提取图像语义属性特征的卷积神经网络。每一次迭代取一个样本批次,批次的大小m设置为64,学习率η初始化为0.001,在最后5次迭代时变为0.0001,用随机梯度下降算法来对每个小批次更新网络权值。

说明书全文

一种基于黎曼流形的行人重识别方法

技术领域

[0001] 本发明涉及模式识别技术领域,具体涉及基于属性学习与黎曼流形相结合的一种行人重识别方法。

背景技术

[0002] 随着在监控视频中,由于相机分辨率和拍摄度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,行人重识别就成为了一个非常重要的替代品技术。行人重识别,即是指在照射区域无重叠的多摄像头画面下自动匹配同一行人对象的技术,用以快速准确地发现行人对象在多摄像头下的活动画面和轨迹。
[0003] 传统行人重识别方法通常是依据来自图像或视频中行人的颜色,纹理等底层信息来进行的,其效果往往并不理想,主要原因在于,行人在不同摄像头下的视角可能差别很大,不同摄像头所覆盖的区域往往并不交叠不同,摄像头所在位置处的光照条件可能不同,从而导致同一物体在不同摄像头下的外貌可能相差很大;行人可能背对或侧面朝向摄像头行走,导致无法捕捉到人脸信息,或者即使能捕捉到人脸信息,由于监控摄像头的分辨率通常较低。也无法清晰地看到人脸。虽然行人重识别技术在视频控制、智能交通、多媒体检索等领域有着广泛的应用前景,但是由于行人重识别中的图片来源于不同的摄像头,而不同摄像头所处的角度、光照等环境的影响,同一个行人的不同图片中,外貌特征会有一定程度的变化;相反,由于行人姿势及摄像头角度的变化,在不同摄像头中,不同行人的外貌特征可能比同一个人的外貌特征更相似,因此,行人重识别依旧存在着巨大的应用挑战。行人重识别已经在学术界研究多年,但直到最近几年随着深度学习的发展,才取得了非常巨大的突破。
[0004] 基于表征学习的方法是一类非常常用的行人重识别方法。这主要得益于深度学习,尤其是卷积神经网络的快速发展。由于卷积神经网络可以自动从原始的图像数据中根据任务需求自动提取出表征特征,所以有些研究者把行人重识别问题看做分类问题或者验证问题:(1)分类问题是指利用行人的ID或者属性等作为训练标签来训练模型;(2)验证问题是指输入一对行人图片,让网络来学习这两张图片是否属于同一个行人。
[0005] 在过去的行人重识别研究中,有很多研究关于行人特征提取的方法,如利用Classification/Identification loss和verification loss来训练网络,网络输入为若干对行人图片,包括分类子网络和验证子网络。分类子网络对图片进行ID预测,根据预测的ID来计算分类误差损失。验证子网络融合两张图片的特征,判断这两张图片是否属于同一个行人,该子网络实质上等于一个二分类网络。经过足够数据的训练,再次输入一张测试图片,网络将自动提取出一个特征,这个特征用于行人重识别任务。
[0006] 但是也有研究认为光靠行人的ID信息不足以学习出一个泛化能足够强的模型。在这些工作中,它们额外标注了行人图片的属性特征,例如性别、头发、衣着等属性。通过引入行人属性标签,模型不但要准确地预测出行人ID,还要预测出各项正确的行人属性,这大大增加了模型的泛化能力,多数论文也显示这种方法是有效的。
[0007] 早期的关于特征提取的研究,大家主要关注点还是在全局特征上,就是用整图得到一个特征向量进行图像检索。但是后来逐渐发现全局特征遇到了瓶颈,于是对于行人图片的局域特征的研究开始兴起。常用的提取局部特征的思路主要有图像切、利用骨架关键点定位以及姿态矫正等等。图片切块是一种很常见的提取局部特征方式。图片被垂直等分为若干份,因为垂直切割更符合我们对人体识别的直观感受,所以行人重识别领域很少用到平切割。之后,被分割好的若干块图像块按照顺序送到一个长短时记忆网络,最后的特征融合了所有图像块的局部特征。但是这种缺点在于对图像对齐的要求比较高,如果两幅图像没有上下对齐,那么很可能出现头和上身对比的现象,反而使得模型判断错误。
[0008] 本论文的研究目标和研究内容的提出正是在上述相关工作分析的基础上提炼和综合而成的。本论文旨在结合属性学习和协方差流形度量的优势,通过深度学习方法学习出行人图片中的相关属性,并以此建立更有效的行人特征描述方式。基于黎曼流形的度量分析理论的日臻成熟,为本论文的实现提供了有力的基础。

发明内容

[0009] 本发明的目的在于提出了一种基于黎曼流形和属性学习的行人重识别方法。本发明通过研究行人的表征以及语义属性,提出一种泛化能力更强的模型,通过引入行人属性标签,模型不仅要准确地预测出行人ID,还要预测出各项正确的行人属性,并利用协方差描述子进行特征融合以消除特征冗余,在对描述子所在黎曼流形的研究,进行更准确的相似度计算。
[0010] 通过深入分析行人重识别基本问题,从理论层面发现现有方法的不足。如今有大量工作是基于表征学习,表征学习也成为了行人重识别领域的一个非常重要的方法,并且表征学习的方法比较鲁棒,训练比较稳定,结果也比较容易复现。
[0011] 随着对行人重识别研究的不断深入,行人重识别模型不断被细化,表达越来越精准。目前,已有多种基于语义属性的行人重识别模型被提出,基于语义属性的方法有三个优点:1)对于不同的摄像头,基于语义属性的方法较基于底层视觉特征的差异性更为鲁棒,不同的监控视频下的同一行人,其语义属性的描述通常是不变的;2)语义属性结合原始数据更加协同高效;3)基于语义属性的行人重识别方法交互性强,因此允许搜索特定行人,便于进行搜索初始化或者约束条件搜索。由于语义属性特征表示的复杂性,多维度之间可能存在较强耦合,因此,将基于协方差描述子实现属性特征的融合,将度量空间从传统的欧式空间转移到黎曼流形空间,完成相似度计算过程。
[0012] 本发明是一种基于黎曼流形和属性学习的行人重识别方法。具体步骤如下:
[0013] 步骤1,从行人识别领域专家设定的属性中选择最具代表性的、适合本行人识别目标的多个属性,包括性别、发型等人体生物相关属性和服装相关属性;
[0014] 步骤2,构建一个深度学习模型并对模型进行训练,深度学习模型可以采用Resnet、Caffenet等卷积神经网络模型,本发明中使用Resnet残差卷积神经网络模型,使用50层的Resnet结构,并采用随机梯度下降方法对网络权值进行更新;
[0015] 步骤3,该卷积神经网络模型中损失函数的设计,在网络最后连接m+1个全连接层,其中m个给出的是对行人属性特征的预测,1个给出对行人ID的预测。采用多目标损失函数,在给定行人图片后,网络可以同时预测行人标签和属性标签。
[0016] 步骤4,将数据集分为训练集和测试集,使用训练集中的样本对卷积神经网络进行训练直至网络收敛,这一过程即是通过属性学习增强了网络整体的可解释性,使模型获得更好的泛化能力。
[0017] 步骤5,对训练好的卷积神经网络输入测试样本图像,经过多次卷积和下采样的过程得到最后一个卷积层的输出张量,通过对于行人属性的学习,模型可以提取行人图片较高层的语义特征。
[0018] 步骤6,在卷积层的输出张量F∈RL×L×N中,对N维特征向量,计算L×L个特征向量的协方差为 其中μ是特征张量块中所有特征向量的均值。
[0019] 步骤7,将测试集中的每张行人图片输入训练完毕的卷积神经网络,均如前所述得到输出张量,并分别计算每一张行人图片的协方差描述子。在纹理识别和目标检测领域常用协方差描述子来进行特征描述,协方差描述子可以比较好的融合特征,并将度量空间转换至黎曼流形上。
[0020] 步骤8,这些协方差描述子均是N×N的对称、正定矩阵,通过对其赋予一个可计算的有效度量,使其满足黎曼流形的要求,即可运用微分几何的方法,给出流形上相似度的计算。
[0021] 步骤9,查找所述特征相似度高于预设相似度阈值的参考行人图像;将特征相似度高于预设相似度阈值的参考行人图像所对应的参考行人确认为所述目标行人图像中的目标行人。所述确定所述目标行人图像中的目标行人和所述参考行人图像中的参考行人为同一个行人,按照所述特征相似度由高至低的排序顺序对所述参考行人图像进行排名,以生成相似度排名;在所述相似度排名中查找排名超过预定名次的参考行人图像;将排名超过预定名次的参考行人图像所对应的参考行人确认为所述目标行人图像中的目标行人。
[0022] 本发明的特点及其意义:
[0023] (1)总结分析现有用于建立行人重识别模型的方法,综合考虑全局与局部特征的优势,尝试建立多尺度描述的行人重识别模型。
[0024] (2)区别于传统行人重识别建模研究方法中广泛采用的图片切块和关键点定位方法,通过属性学习的方式找到属性与ID之间的依赖关系,增强模型的泛化能力。
[0025] (3)深入分析度量问题,从中发现现有特征向量相似度测量的不足,考虑通过微分几何方法,更准确的建模特征协方差矩阵所在黎曼流形的度量关系,提升行人识别过程中的特征的相关独立性以及度量精确性。附图说明
[0026] 图1:基于属性学习和黎曼流形的行人重识别方法流程图

具体实施方式

[0027] 本发明基于属性学习和黎曼流形相结合的行人重识别方法,分为深度学习、属性学习、流形度量和测试四个部分。将深度学习与属性学习相结合,从而提取图像的深层特征并通过较好的语义来表示。其中,深度学习分为构建深度学习模型和模型训练两个阶段。在构建深度学习模型阶段,构造一个多层的卷积神经网络模型,初始化模型并设定模型的相关参数;在模型训练阶段将训练样本输入已构建的模型进行深度学习,通过随机梯度下降的训练方法调整卷积神经网络参数,并在损失函数的计算上采用多目标损失函数,同时学习行人的ID和语义属性,使得网络可以同时预测行人ID标签和属性标签。在测试部分,将样本输入训练完毕的卷积神经网络得到样本的语义特征,语义特征是根据卷积神经网络最后一个卷积层输出,计算该输出张量的协方差矩阵。根据协方差描述子所在黎曼流形的度量关系,给出其余行人图片和目标行人的相似程度,从而判断图像所属类别。
[0028] 具体是依序采用如下步骤:
[0029] 第一步,从行人重识别领域专家设定的属性中选择最具代表性并适合本行人重识别任务的27个属性,包括了与服装相关的属性及与人体生物特征相关的属性。本发明训练和验证数据集均采用Market-1501行人数据集,该数据集采集自校园开放环境中的6个不同拍摄角度,共包括1501个行人,其中训练集包括751个行人,12936张行人图片,测试集包括750个行人,19732张行人图片,图片尺寸大小为64×128,具有姿态和光照等多变性。
[0030] 进一步,所述步骤1中,从行人重识别领域专家设定的属性中选择最具代表性并适合本行人重识别任务的27个属性,包括了与服装相关的属性及与人体生物特征相关的属性。人体生物特征相关属性有3个:性别(男性、女性),年龄(儿童、青少年、成人、老人),发型(长发、短发);服装类相关属性有24个:袖长(长袖、短袖),裤长(长,短),下装类型(裤装、裙装),帽子(有、无),双肩背包(有、无),手提袋(有、无),手包(有、无),上装颜色(黑、白、红、紫、黄、灰、蓝、绿),下装颜色(黑、白、粉、紫、黄、灰、蓝、绿、棕)。
[0031] 第二步,构建一个深度学习模型并对该模型进行训练,深度学习模型使用Resnet残差卷积神经网络模型,使用50层的Resnet结构,采用MSRA初始化方法对网络权值进行初始化。
[0032] 进一步,所述步骤2中,本发明采用Resnet-50残差卷积神经网络模型,通过随机梯度下降算法调整网络权值,公式为: 其中θ*为更新后的权值,η为学习率,根据学习阶段的不同,可对η的大小进行调整,m为训练集中抽取的用于完成一次权值更新的样本小批次的容量。
[0033] 通过对所有训练样本进行60次迭代训练,即对网络权值的60次更新,训练得到能够精确提取图像语义属性特征的卷积神经网络。每一次迭代取一个样本批次,批次的大小m设置为64,学习率η初始化为0.001,在最后5次迭代时变为0.0001,用随机梯度下降算法来对每个小批次更新网络权值。
[0034] 第三步,给定行人图片后,卷积神经网络同时预测行人标签和属性标签。网络模型中,最后一个全连接层的输出为z=[z1,z2,…,zk]∈RK,对于给定的一张行人图片,网络预测的每一ID类别的概率为
[0035] 第四步,在深度学习模型中损失函数的设计采用多目标损失函数,其中,对于行人ID的分类任务采用交叉熵损失函数,即
[0036]
[0037] 对于属性学习的分类任务同样采用交叉熵损失函数,即
[0038]
[0039] 而深度学习模型总的损失函数定义为 其中LID,Latt分别表示行人ID分类的损失函数和属性标签分类的损失函数,参数λ的作用是平衡两类损失函数在预测任务中的贡献。
[0040] 第五步,对训练好的卷积神经网络输入测试样本图像,经过多次卷积和下采样的L×L×N过程得到最后一个卷积层的输出张量F∈R 。
[0041] 进一步,所述步骤五中,对训练好的卷积神经网络输入测试样本图像,经过多次卷积和下采样的过程得到最后一个卷积层的输出张量的尺寸为56×56×16。
[0042] 第六步,在卷积层的输出张量F∈RL×L×N中,设 是F内的N维特征向量,定义输出特征张量的协方差描述子为 其中μ是特征张量块中所有特征向量的均值。
[0043] 进一步,所述步骤六中,对输出张量中的16维特征向量计算其协方差描述子,该协方差描述子是16×16的对称正定矩阵,将测试集中的每张行人图片输入训练完毕的卷积神经网络,均如前所述得到输出张量,并分别计算每一张行人图片的协方差描述子。
[0044] 第七步,将测试集中的每张行人图片输入训练完毕的卷积神经网络,均如前所述得到输出张量,并分别计算每一张行人图片的协方差描述子。
[0045] 第八步,这些协方差描述子均是N×N的对称、半正定矩阵,它们构成 维线性空间中的一个凸锥,由于N维特征向量的每一维的方差皆非零,所以对称正定的协方差描述子对应于上述凸锥的内部,凸锥内部是一个微分流形,通过对其赋予一个可计算的有效度量,使其满足黎曼流形的要求,即可运用微分几何的方法,给出流形上点之间距离的计算。
[0046] 第九步,本发明使用一种仿射不变度量用于协方差矩阵构成的凸锥上,该度量的主要思想是:对于黎曼流形M上任一点X,均可作一个切空间SX,并构造切空间SX和流形M的微分同胚,对切空间SX中的向量V,可通过指数映射将V映射成为流形M上从点X出发的等长同向测地线。
[0047] 该指数映射expX(V)的定义为:expX(V)=X1/2exp(X-1/2VX-1/2)X1/2
[0048] 指数映射的逆映射,即对数映射,将流形上的点X到点Y的测地线映射为切空间SX中等长同向的向量V:
[0049] logX(V)=X1/2log(X-1/2VX-1/2)X1/2
[0050] 以目标行人的协方差描述子作为黎曼流形上的基准点构造切空间,将其余点投影至该切空间上等长同向的向量,其余点至该目标点的距离可通过下式计算得到:
[0051] d2(X,Y)=<logX(Y),logX(Y)>X=trace(log2(X-1/2YX-1/2))
[0052] 第十步,查找所述特征相似度高于预设相似度阈值的参考行人图像;将特征相似度高于预设相似度阈值的参考行人图像所对应的参考行人确认为所述目标行人图像中的目标行人。所述确定所述目标行人图像中的目标行人和所述参考行人图像中的参考行人为同一个行人,按照所述特征相似度由高至低的排序顺序对所述参考行人图像进行排名,以生成相似度排名;在所述相似度排名中查找排名超过预定名次的参考行人图像;将排名超过预定名次的参考行人图像所对应的参考行人确认为所述目标行人图像中的目标行人。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈