首页 / 专利库 / 电脑零配件 / 固件 / 软件 / 基于PTGAN区域差距与深度神经网络的行人图像搜索算法

基于PTGAN区域差距与深度神经网络的行人图像搜索算法

阅读:952发布:2023-05-26

专利汇可以提供基于PTGAN区域差距与深度神经网络的行人图像搜索算法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于PTGAN区域差距与 深度神经网络 相结合的 大数据 行人图像搜索 算法 ,包括以下步骤:基于MLbase 机器学习 库搭建Spark大数据平台;搭建基于PTGAN与多分支相结合的 深度学习 神经网络,并进行行人图像 数据库 训练,提取相应图像特征,完成行人重识别图像数据库;将视频文件传入Spark大数据平台中,对视频关键 帧 分段后对目标图像做基于深度学习算法提取特征信息;检测并计算出目标图像中的目标行人特征和所有行人对象特征的相似度,排序并搜索出最相似的行人信息与行人图像。本发明可应用于行人特征提取和实时行人检测搜索视频 监控系统 ,可靠性高,辩识度好,鲁棒性好,步骤计算简单,能保持高效率和实时性。,下面是基于PTGAN区域差距与深度神经网络的行人图像搜索算法专利的具体信息内容。

1.一种基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,包括以下步骤:
S1、基于MLbase机器学习库搭建Spark大数据平台;
S2、搭建基于PTGAN与多分支相结合的深度学习神经网络,并进行行人图像数据库训练,提取相应图像特征,完成行人重识别图像数据库;
S3、将视频文件传入Spark大数据平台中,对视频关键分段后对目标图像做基于深度学习算法提取特征信息;
S4、检测并计算出目标图像中的目标行人特征和所有行人对象特征的相似度,然后排序并搜索出最相似的行人信息与行人图像。
2.如权利要求1所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述步骤S2包括以下步骤:
S2.1、将普通视频图像进行PTGAN处理,得到待识别的图像,所述待识别的图像为行人前景不变且背景差异区域迁移的图像;
S2.2、将所述待识别的图像采用多个分支联合训练,具体的步骤如下:
S2.2.1将所述待识别的图像输入训练模型,获取多个分支对应的特征向量,具体如下:
给定输入的处理过后的行人图像,RAM则生成一组功能向量,具体为五个共享卷积层生成特征映射M,然后,M被馈送到四个分支以生成不同的特征,四个分支包括全局分支、BN分支、属性分支和局部区域分支;
S2.2.2局部特征提取,使用局部区域分支来生成区域特征,具体如下:局部区域分支将特征映射M从上到下均匀地划分为K个重叠的局部区域,同时使用重叠区域来增强学习特征对可能的未对准或视点变化的鲁棒性,在每个区域之后嵌入池化层后应用FC层以从它们中的每一个生成区域特征,使用具有行人身份信息ID标签的分类任务来监督每个区域特征学习;
S2.2.3属性特征提取,属性分支将全局分支中第一个FC层的输出作为输入,然后由FC层生成属性特征,最后,在属性分类任务中学习属性特征;
S2.2.4特征向量模型训练,将行人正面和背面特征当成两个不同类别训练,重复上述S2.2.1、S2.2.2和S2.2.3训练过程并形成特征向量;RAM的每个分支都通过具有softmax损失的单独分类任务进行训练,并且通过逐次添加全局分支、BN分支、属性分支和局部区域分支进行模型训练,以训练出满足需要的特征向量模型。
3.如权利要求2所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,在进行所述步骤S2.1中的PTGAN处理时采用的损失函数为:
LPTGAN=LStyle+λ1LID
其中,LStyle代表生成的格损失或区域差异domain损失,LID代表生成图像的身份信息损失,λ1是平衡风格损失和身份信息损失的权重。
4.如权利要求3所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述LStyle的具体公式为:
其中,A,B为两帧做GAN处理的图像,令G为图像A到B风格映射功能函数,为B到A的风格映射功能函数,λ2为分割损失和身份信息损失的权重。
5.如权利要求3所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述步骤S2.1中,还用PSPNet对视频图像进行前景分割,得到面具层区域,所述LID的具体公式为:
其中,G(a)是图像a中转移的行人图像, 是图像b中转移的行人图像,IEa~pdata(a)为图像A的数据分布,IEb~pdata(b)为B的数据分布,M(a)和M(b)是两个分割出来的面具层区域。
6.如权利要求2所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述步骤S2.2.1中,生成的特征为:fc、fb、fa、frt、frm和frb,其中fc来自全局分支,fb来自BN分支,fa来自属性分支,frt、frm和frb分别来自行人头部,上半身和下半身的局部区域分支;全局和BN分支分别从整个特征映射生成全局特征fc和fb;BN分支向全局分支添加批量标准化操作以学习互补的全局特征;局部区域分支首先将要素图划分为三个重叠区域,分别表示为:顶部Rt,中部Rm,底部Rb,然后使用三组完全连接的层来从相应的区域生成区域特征frt,frm和frb。
7.如权利要求6所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述全局分支提取相应特征的方法如下:全局分支首先将特征映射M汇集到6×6×512,然后使用两个完全连接层来生成特征fc;fc在分类任务中使用行人身份信息ID进行训练;所述BN分支提取相应特征的方法如下:在特征映射M和池化层之间嵌入BN层,生成新的特征映射Mb,然后使用两个FC层来生成特征fb。
8.如权利要求7所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述步骤S2.2.4中,RAM在多个分类任务中采用的整体目标函数为:
L(Θ)=lconv+λ3lBN+λ4lre+λ5latt
其中Θ表示深层模型中的参数;lconv,lBN,lre和latt分别表示全局、BN、局部区域和属性分支中的分类损失;λ3,λ4,λ5表示相应损失的权重;所述lre由不同区域的三个等权重分类损失组成。
9.如权利要求1所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述步骤S3中的对视频关键帧分段步骤包括:
根据视频文件中不同帧数据的不同,区分I帧、P帧数据,取出视频的关键帧信息;
当运动目标出现或消失时进行判断,根据此二者得出分段的准确时间以及文件位置
基于视频智能分段的依据将视频文件智能分段并输出,其中视频智能分段的依据包括以下约束项:1)视频分段点为视频关键帧;2)视频中运动目标开始出现或者刚消失的时间点;3)片段时长不能小于30秒,且不能超过6分钟。
10.如权利要求1所述的基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,其特征在于,所述步骤S4中,相似度计算公式如下:

说明书全文

基于PTGAN区域差距与深度神经网络的行人图像搜索算法

技术领域

[0001] 本发明涉及计算机视觉和视频侦查领域,具体涉及一种基于PTGAN(Person Transfer GAN)区域差距与深度神经网络相结合的大数据行人图像搜索算法。

背景技术

[0002] 给定一个监控行人图像,检索跨设备下的该行人图像。在监控视频中,由于相机分辨率和拍摄度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,Re-ID就成为了一个非常重要的替代品技术。Re-ID有一个非常重要的特性就是跨摄像头,所以检索出不同摄像头下的相同行人图片就成为了Re-ID的关键。
[0003] 虽然行人重识别的检测能已经显著提升,但是在实际场合中很多具有挑战性的问题还没被完全解决:比如在复杂的场景,光线差异,视角和姿势的改变,大量的行人在一个监控摄像头网络中等情况。在这些情况下,跨摄像头的检索通常难度会很大,同时前期进行视频图像样本训练时的标注工作代价昂贵,需要耗费大量的人力,并且往往现有算法通常无法达到预期效果,重识别准确率较低。

发明内容

[0004] 本发明的主要目的是提供一种基于PTGAN区域差距与深度神经网络的行人图像搜索算法,旨在解决在实际复杂的场景中,跨摄像头的检索通常难度会很大,同时前期进行视频图像样本训练时的标注工作代价昂贵,需要耗费大量的人力,并且往往现有算法通常无法达到预期效果,重识别准确率较低的问题。
[0005] 为实现上述目的,本发明提供的一种基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,包括以下步骤:
[0006] S1、基于MLbase机器学习库搭建Spark大数据平台;
[0007] S2、搭建基于PTGAN与多分支相结合的深度学习神经网络,并进行行人图像数据库训练,提取相应图像特征,完成行人重识别图像数据库;
[0008] S3、将视频文件传入Spark大数据平台中,对视频关键分段后对目标图像做基于深度学习算法提取特征信息;
[0009] S4、检测并计算出目标图像中的目标行人特征和所有行人对象特征的相似度,然后排序并搜索出最相似的行人信息与行人图像。
[0010] 优选地,所述步骤S2包括以下步骤:
[0011] S2.1、将普通视频图像进行PTGAN处理,得到待识别的图像,所述待识别的图像为行人前景不变且背景差异区域迁移的图像;
[0012] S2.2、将所述待识别的图像采用多个分支联合训练,具体的步骤如下:
[0013] S2.2.1将所述待识别的图像输入训练模型,获取多个分支对应的特征向量,具体如下:给定输入的处理过后的行人图像,RAM则生成一组功能向量,具体为五个共享卷积层生成特征映射M,然后,M被馈送到四个分支以生成不同的特征,四个分支包括全局分支、BN分支、属性分支和局部区域分支;
[0014] S2.2.2局部特征提取,使用局部区域分支来生成区域特征,具体如下:局部区域分支将特征映射M从上到下均匀地划分为K个重叠的局部区域,同时使用重叠区域来增强学习特征对可能的未对准或视点变化的鲁棒性,在每个区域之后嵌入池化层后应用FC层以从它们中的每一个生成区域特征,使用具有行人身份信息ID标签的分类任务来监督每个区域特征学习;
[0015] S2.2.3属性特征提取,属性分支将全局分支中第一个FC层的输出作为输入,然后由FC层生成属性特征,最后,在属性分类任务中学习属性特征;
[0016] S2.2.4特征向量模型训练,将行人正面和背面特征当成两个不同类别训练,重复上述S2.2.1、S2.2.2和S2.2.3训练过程并形成特征向量;RAM的每个分支都通过具有softmax损失的单独分类任务进行训练,并且通过逐次添加全局分支、BN分支、属性分支和局部区域分支进行模型训练,以训练出满足需要的特征向量模型。
[0017] 优选地,在进行所述步骤S2.1中的PTGAN处理时采用的损失函数为:
[0018] LPTGAN=LStyle+λ1LID
[0019] 其中,LStyle代表生成的格损失或区域差异domain损失,LID代表生成图像的身份信息损失,λ1是平衡风格损失和身份信息损失的权重。
[0020] 优选地,所述LStyle的具体公式为:
[0021]
[0022] 其中,A,B为两帧做GAN处理的图像,令G为图像A到B风格映射功能函数, 为B到A的风格映射功能函数,λ2为分割损失和身份信息损失的权重。
[0023] 优选地,所述步骤S2.1中,还用PSPNet对视频图像进行前景分割,得到面具层区域,所述LID的具体公式为:
[0024]
[0025] 其中,G(a)是图像a中转移的行人图像, 是图像b中转移的行人图像,IEa~pdata(a)为图像A的数据分布,IEb~pdata(b)为B的数据分布,M(a)和M(b)是两个分割出来的面具层区域。
[0026] 优选地,所述步骤S2.2.1中,生成的特征为:fc、fb、fa、frt、frm和frb,其中fc来自全局分支,fb来自BN分支,fa来自属性分支,frt、frm和frb分别来自行人头部,上半身和下半身的局部区域分支;全局和BN分支分别从整个特征映射生成全局特征fc和fb;BN分支向全局分支添加批量标准化操作以学习互补的全局特征;局部区域分支首先将要素图划分为三个重叠区域,分别表示为:顶部Rt,中部Rm,底部Rb,然后使用三组完全连接的层来从相应的区域生成区域特征frt,frm和frb。
[0027] 优选地,所述全局分支提取相应特征的方法如下:全局分支首先将特征映射M汇集到6×6×512,然后使用两个完全连接层来生成特征fc;fc在分类任务中使用行人身份信息ID进行训练;所述BN分支提取相应特征的方法如下:在特征映射M和池化层之间嵌入BN层,生成新的特征映射Mb,然后使用两个FC层来生成特征fb。
[0028] 优选地,所述步骤S2.2.4中,RAM在多个分类任务中采用的整体目标函数为:
[0029] L(Θ)=lconv+λ3lBN+λ4lre+λ5latt
[0030] 其中Θ表示深层模型中的参数;lconv,lBN,lre和latt分别表示全局、BN、局部区域和属性分支中的分类损失;λ3,λ4,λ5表示相应损失的权重;所述lre由不同区域的三个等权重分类损失组成。
[0031] 优选地,所述步骤S3中的对视频关键帧分段步骤包括:
[0032] 根据视频文件中不同帧数据的不同,区分I帧、P帧数据,取出视频的关键帧信息;
[0033] 当运动目标出现或消失时进行判断,根据此二者得出分段的准确时间以及文件位置
[0034] 基于视频智能分段的依据将视频文件智能分段并输出,其中视频智能分段的依据包括以下约束项:1)视频分段点为视频关键帧;2)视频中运动目标开始出现或者刚消失的时间点;3)片段时长不能小于30秒,且不能超过6分钟。
[0035] 优选地,所述步骤S4中,相似度计算公式如下:
[0036]
[0037] 本发明提出的技术方案中,以Spark大数据平台的结构组成和大数据智能分析为基础,依次实现基于深度学习的行人识别算法、基于视频的行人搜索技术、以及视频关键帧智能分段算法,同时结合对Spark开源框架下采用深度学习算法进行行人重识别,视频数据智能分段进行了改进,以达到更好的实际应用效果。本发明可靠性高,辩识度好,鲁棒性好,同时步骤计算简单,能保持高效率,实时性也能满足需求。附图说明
[0038] 为了更清楚地说明本发明实施例现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0039] 图1为本发明的整体算法流程图
[0040] 图2为本发明的Spark平台的组件结构示意图;
[0041] 图3为本发明的视频智能分析结构图;
[0042] 图4是本发明的行人图像转换效果对比图;
[0043] 图5是本发明的多重分支结构的整体结构图。
[0044] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0045] 应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0046] 参照图1,为本发明基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法的一实施例,所述基于PTGAN区域差距与深度神经网络相结合的大数据行人图像搜索算法,包括以下步骤:
[0047] S1、基于MLbase机器学习库搭建Spark大数据平台。
[0048] 在过去的十年中,可扩展的分布式编程框架已经出现,用以管理大数据。第一个编程模型是MapReduce和它的开源实现Apache Hadoop。近几年来出现了一个新的分布式框架Apache Spark。这是一个快速和通用地进行大规模数据处理的平台。基于内存计算的Spark平台,天然地适应于大数据处理和分析。
[0049] Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。由于视频数据存储在HDFS文件系统中,Spark采用基于TCP sockets方式接入数据源,使用Map-Reduce分布式计算模型来进行智能视频分析。
[0050] Spark的组件结构如图2所示。MLlib是Spark对常用的机器学习算法的实现库。MLlib目前支持四种常见的机器学习问题:二元分类、回归、聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法。该机器学习算法包含训练以及预测两个部分,训练出模型,然后对未知样本进行预测。MLbase针对分布式执行进行自动优化,算法选择是根据MLbase最佳实践和基于成本的模型实现。本发明系统使用MLbase这个工具来处理视频中的车辆、人脸、行人、遗留物品等信息特征检测及训练处理。
[0051] 依照相应组件搭建完基于MLbase机器学习库搭建Spark大数据平台后,在平台上接入视频图像,进行后续算法操作。
[0052] S2、搭建基于PTGAN与多分支相结合的深度学习神经网络,并进行行人图像数据库训练,提取相应图像特征,完成行人重识别图像数据库。
[0053] 本发明所述的神经网络的基础网络均为基于Resnet-50。
[0054] S2具体包括以下步骤:
[0055] S2.1、将普通视频图像进行PTGAN处理,得到待识别的图像,所述待识别的图像为行人前景不变且背景差异区域迁移的图像。
[0056] PTGAN是一个针对于重识别Re-ID问题的生成对抗网络。本发明中,PTGAN最大的特点就是在尽可能保证行人前景不变的前提下实现背景区域差异的迁移。首先PTGAN网路的损失函数为:LPTGAN=LStyle+λ1LID
[0057] 其中,LStyle代表生成的风格损失或区域差异domain损失,就是生成的图像是否像新的数据集风格;LID代表生成图像的身份信息损失,就是验证生成的图像是否和原始图像是同一个人;λ1是平衡风格损失和身份信息损失的权重;
[0058] 所述风格损失LStyle的具体公式为:
[0059]
[0060] 其中,A,B为两帧做GAN处理的图像,令G为图像A到B风格映射功能函数,为B到A的风格映射功能函数,λ2为分割损失和身份信息损失的权重。该部分损失函数的目的是为了保证生成的图片和期望的数据集的差异区域(domain)是一样的。
[0061] 其次,为了保证图片迁移过程中前景不变,先用PSPNet对视频图像进行了前景分割,得到mask面具层区域。通常来说,传统的生成对抗网络如CycleGAN等并不是用于Re-ID任务,因此也不需要保证前景物体的身份信息不变,这样的结果就是前景可能模糊之类的质量很差,更糟糕的现象是行人的外观可能改变。为了解决这个问题,本发明提出LID损失,用PSPNet对视频图像进行前景分割,这个前景就是一个面具层区域,最后身份信息损失为:
[0062]
[0063] 其中,G(a)是图像a中转移的行人图像, 是图像b中转移的行人图像,IEa~pdata(a)为图像A的数据分布,IEb~pdata(b)为B的数据分布,M(a)和M(b)是两个分割出来的面具层区域,身份信息损失函数(Loss)将会约束行人前景在迁移过程中尽可能的保持不变。
[0064] 最后转换的效果如图4所示,可以看出,本发明算法直观上和传统的环形生成对抗网络等(CycleGAN)相比能够更好的保证行人的身份信息。
[0065] S2.2、将基于PTGAN算法进行背景差异区域迁移处理后的视频行人图像采用多个分支联合训练,为了有效结合行人的全局和局部信息,得到更准确的身份信息;
[0066] 多重分支结构的整体结构图如图5所示,算法具体步骤如下:
[0067] S2.2.1、将处理过后待识别的图像输入训练模型,获取其全局特征向量,具体如下:
[0068] 给定输入的处理过后的行人图像,RAM则生成一组功能向量,具体为五个共享卷积层生成特征映射M,然后,M被馈送到四个分支以生成不同的特征,四个分支包括全局分支、BN分支、属性分支和局部区域分支;然后,被馈送到四个分支以生成不同的特征,fc来自全局分支,fb来自BN分支,fa来自属性分支,frtfrm和frb分别来自行人头部,上半身和下半身的局部区域分支;全局和BN分支分别从整个特征映射生成全局特征fc和fb;BN分支向全局分支添加批量标准化操作以学习互补的全局特征;区域分支首先将要素图划分为三个重叠区域,分别表示为:顶部Rt,中部Rm,底部Rb,然后使用三组完全连接的层来从相应的区域生成区域特征frt,frm和frb;
[0069] 所述全局分支提取相应特征的方法如下:全局分支首先将特征映射M汇集到6×6×512,然后使用两个完全连接层(FC)层来生成特征fc;fc在分类任务中使用行人身份信息ID进行训练;该网络结构和培训策略鼓励网络定位并关注在目标行人分类中具有辨别力的一些区域,即定位有效地最小化分类损失的局部区域;全局分支学习的相应特征图M将显示这些更高区域的激活值;高度活化的区域覆盖行人ID图像上的不同区域对于行人信息分类至关重要。
[0070] 除了在M上突出显示的区域之外,其他区域也可用于行人的重识别Re-ID;为了使模型专注于更多和更大的上下文区域,本发明同时设计了一个BN分支,具体分支结构如图5总体结构中所示。
[0071] 所述BN分支提取相应特征的方法如下:在M和池化层之间嵌入BN层以生成新的特征映射Mb,然后使用两个层来生成特征fb;类似地,基于行人的身份信息的分类任务最终用于训练BN分支。
[0072] BN操作倾向于抑制特征图上的高度激活的局部区域并增加其他区域的可见性;这使得BN分支除了由全局分支捕获的那些之外还描绘额外的上下文提示;很明显,Mb描绘了更大的上下文区域,可以产生互补的全局特征。
[0073] S2.2.2、局部特征提取
[0074] 通常类似行人身份之间的差异可能存在于某些局部区域,因此,本发明设计了一个局部区域分支来生成区域特征,具体如下:
[0075] 首先,局部区域分支将特征映射M从上到下均匀地划分为K个重叠的局部区域,这些局部区域表示为:Rt表示头部,Rm表示上半身,Rb表示下半身,这些区域中的每一个仅对应于整个行人的一部分;
[0076] 同时使用重叠区域来增强学习特征对可能的未对准或视点变化的鲁棒性,在每个区域之后嵌入池化层后应用FC层以从它们中的每一个生成区域特征,即Rt属于的frt,来自Rm的frm和来自Rb的frb;
[0077] 最后,使用具有行人身份信息ID标签的分类任务来监督每个区域特征学习;在每个分支的训练期间,更新FC层以仅识别具有一部分特征图作为输入的行人图像;
[0078] 在此过程中,强制网络提取每个区域中的判别细节,很明显,可以识别比全局分支的特征图更多的区别性局部区域。
[0079] S2.2.3属性特征提取
[0080] 衣着,颜色等行人属性可视为行人的中级描述,与视觉特征相比,属性特征对于由视点,照明,背景等的变化引起的外观变化具有更强的鲁棒性;因此,属性特征是可以在全局和局部图像上提取的视觉特征互补的,所以,本发明使用属性来学习行人重识别Re-ID的特征。
[0081] 通常来说,属性预测可以被认为是比细粒度行人识别更容易的识别方式,本发明从行人Re-ID的属性分支中学习属性特征,属性分支将全局分支中第一个FC层的输出作为输入;然后由FC层生成属性特征fa;最后,在属性分类任务中学习属性特征;与直接学习输入图像的属性特征相比,该策略引入的参数更少,使训练过程更容易。
[0082] S2.2.4特征向量模型训练
[0083] 为了更快速的精准识别行人身份信息,将行人正面和背面当成两个不同类别训练,重复上述训练过程并形成特征向量;
[0084] 本发明算法中,RAM的每个分支都通过具有softmax损失的单独分类任务进行训练,RAM在多个分类任务中进行了优化,整体目标函数可以表示为:
[0085] L(Θ)=lconv+λ3lBN+λ4lre+λ5latt,
[0086] 其中Θ表示深层模型中的参数;lconv,lBN,lre和latt分别表示全局、BN、局部和属性分支中的分类损失;λ3,λ4,λ5表示相应损失的权重;其中,lre由不同区域的三个等权重分类损失组成;
[0087] 通常一开始训练四个分支通常来说可能很难收敛,所以,本发明算法采取一步一步地训练模型;我们首先训练一个只有全局分支的模型,其他分支,即BN,局部和属性分支有序地添加,卷积层将由不同的分支共享,并在多个分类任务中进行微调,如上所示,最终训练出满足需要的特征向量模型。
[0088] S3、将视频文件传入Spark大数据平台中,对视频关键帧分段后对目标图像做基于深度学习算法提取特征信息。
[0089] 将实时视频或者录像文件传入Spark大数据平台中。由于实时视频没有结尾,也不包含起点信息,故不支持并行运算;对于历史视频,如录像文件则可以进行智能分段,同时可以对录像文件进行并行运算。视频图像数据经过Map方法,自动切分为视频片段,然后接入视频图像的深度学习算法进行处理,处理结果传递到Reduce方法进行自动汇聚,数据存储。视频智能分析结构图如图3所示。
[0090] 基于视频关键帧进行视频分段处理,是为了更好地将视频进行并行化处理。
[0091] 分段处理大致分为以下两个步骤:1、根据视频文件中不同帧数据的不同,区分I帧、P帧数据,取出视频的关键帧信息,从而作为视频文件的分段关键点;2、结合基于现有的运动目标的检测方法,当运动目标出现或消失时进行判断,根据此二者得出分段的准确时间以及文件位置,视频智能分段的依据为如下3个约束项:视频中运动目标,如目标行人开始出现,或者刚消失的时间点;视频分段点必须为视频关键帧,依此分片的文件才能得到完整视频图像;片段时长不能小于30秒,且不能超过6分钟。最后,将智能分段后的视频图像输出。
[0092] 另外,考虑到实际应用中目标检测的需要,本发明在将搜索区域的尺度设置图片的长宽比可变,总体图片大小不变。这不仅有利于增加视频图像的处理需求,也大大减少了计算量。对于原始的输入图片,RPN网络会得到约两万个搜索框。在实际应用时,一些超出图片边界的搜索框会被剔除;同时,对于同一目标重叠覆盖的搜索框,采用非极大值抑制(Non-Maximum Suppression,NMS)方法来处理,以达到去除重叠搜索框的目的。上述策略可显著提高候选目标框的搜索效率。
[0093] 最后,通过上述步骤S2搭建的深度学习网络进行特征提取出特征向量并存储,值得注意的是,输入训练图像越多,模型越准确,涵盖范围越广。
[0094] 通过巨量的行人图像学习样本进行行人目标的训练,以及大量实地系统调整和测试,还采集了描述衣服、面部、上半身、下半身等各个部分的外形轮廓、相对位置、颜色、纹理等多种特征,组成了海量的辅助分类信息,与行人的年龄、性别等结果一起最终可得到综合可信度分值。
[0095] S4、检测并计算出目标图像中的目标行人特征和所有行人对象特征的相似度,然后排序并搜索出最相似的行人信息与行人图像。
[0096] 相似度计算通常采用余弦距离计算,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小;相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上,公式如下:
[0097]
[0098] 计算得到的数值越小,则相似度越高,最后结合输出最终重识别系统模型;
[0099] 将本发明中提出的方法实际上可嵌入FPGA实现,运用于具有实时的行人重识别的系统中。
[0100] 在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0101] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0102] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0103] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0104] 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈