首页 / 专利库 / 变压器和转换设备 / 传感器 / 传感器 / 光探测器 / 光电二极管 / PIN光电二极管 / 本征区 / 基于一致性区域深度学习特征的近重复图像检索方法

基于一致性区域深度学习特征的近重复图像检索方法

阅读:357发布:2024-02-17

专利汇可以提供基于一致性区域深度学习特征的近重复图像检索方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于一致性区域 深度学习 特征的近重复图像检索方法,具体为:提取图像库中的所有图像的SIFT特征,将SIFT特征量化为视觉单词,为所有的SIFT特征建立倒排索引文件;保留每个图像的K个目标区域,计算目标区域的CNN特征C(Rc);提取查询图像的SIFT特征,将其量化为视觉单词;利用倒排索引文件,找出候选图像;在查询图像中找出与每个候选图像的每个目标区域近似重复的近重复区域;提取近重复区域的CNN特征C(RQ);计算任意C(Rc)和该CNN特征相应的C(RQ)的余弦相似度,作为该组的相似度评分;在每个候选图像中,选择余弦相似度最高的一组评分作为该候选图像与查询图像之间的相似度评分。本发明在提高检索效率的同时,大大的提高了图像检索的准确度。,下面是基于一致性区域深度学习特征的近重复图像检索方法专利的具体信息内容。

1.基于一致性区域深度学习特征的近重复图像检索方法,其特征在于,具体包括如下步骤:
步骤1:提取图像库中的所有图像的SIFT特征;
步骤2:利用K-means聚类法,将每个SIFT特征量化为视觉单词,将来自不同图像,且视觉单词相同的任意两个SIFT特征认为是相互匹配的;则基于视觉单词,为所有的SIFT特征建立倒排索引文件;
步骤3:利用EdgeBox算法,计算得到每个图像的目标区域,删除面积小于M/5×N/5的目标区域,所述M和N分别图像的宽和高;在剩下的目标区域中留下k个目标区域,并删除其他目标区域;利用改进CNN特征提取法计算每个目标区域的CNN特征C(Rc);
步骤4:提取查询图像的SIFT特征;利用K-means聚类方法将查询图像的SIFT特征量化为视觉单词;利用倒排索引文件,找出候选图像;所述候选图像为图像库中与查询图像之间存在5对以上的SIFT特征对;所述一对SIFT特征对由两个相互匹配的SIFT特征组成;
步骤5:根据查询图像与每个候选图像中的每个目标区域之间存在的SIFT特征对,在查询图像中找出与该目标区域近似重复的近重复区域;将该近重复区域与该目标区域组成一组近重复的区域对;
步骤6:利用改进CNN特征提取法,提取任意一组近重复的区域对中近重复区域的CNN特征C(RQ);将该组近重复的区域对中C(RQ)和C(RC)的余弦相似度作为该组的相似度评分;在每个候选图像中,选择余弦相似度最高的一组评分作为该候选图像与查询图像之间的相似度评分。
2.根据权利要求1所述的方法,其特征在于,所述步骤2或步骤4中将每个SIFT特征量化为视觉单词,具体为:对提取的所有SIFT特征进行K-means聚类,从而将所有SIFT特征划分为E个类别,每个类别用一个视觉单词表示。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中对面积大于等于M/5×N/5的每个目标区域按照其所包含的SIFT特征的个数由多到少排列,选择前k个目标区域。
4.根据权利要求1所述的方法,其特征在于,所述步骤5的具体方法为:
步骤5.1:利用倒排索引文件,找出查询图像与某个候选图像中的某个目标区域之间的n对SIFT特征对;
步骤5.2:在n对SIFT特征对中随机选择ns对SIFT特征对,
Y为在n对SIFT特征对中存在Y对真实匹配的SIFT特征对,n≤Y<1;所述真实匹配的SIFT特征对由来自不同图像,且对图像的内容描述是一致的两个SIFT特征组成;P(ns)为在ns对特征对中至少有一对真实匹配的SIFT特征对的概率;
步骤5.3:根据ns对特征对中的任意一对特征对fQ=[σQ,θQ,(xQ,yQ)T]和fC=[σC,θC,(xC,yC)T],其中fQ为查询图像中的SIFT特征,σQ、θQ、(xQ,yQ)分别表示该SIFT特征的尺度、主方向和坐标;fC为目标区域中的SIFT特征,σC、θC、(xC,yC)分别表示该SIFT特征的尺度、主方向和坐标;利用如下公式确定一个近重复区域,即查询图像与该目标区域之间有ns个近重复的区域对;
其中,(uQ,vQ)T、wQ和hQ分别是查询图像中近重复区域RC的中心坐标,宽度和高度;
5.根据权利要求4所示的方法,其特征在于,所述步骤3或步骤6中提取CNN特征的方法,具体为:将任意一个目标区域/近重复区域作为AlexNet模型的输入图像,则该模型输出256个大小为W×H的特征图,即可得到维度为W×H×256的特征向量;W和H分别为该特征图的宽度和高度,且与输入图像的宽度和高度成正比;利用求和池化聚合操作将每个特征图的尺寸W×H压缩到m×m;对每256/d个大小为m×m的特征图进行合并和求和池化聚合操作,从而得到m×m×d维的特征向量,0<d<256,且d为256的倍数;最后,将生成的m×m×d维的特征向量进行L2归一化,并将归一化后的m×m×d维的特征向量作为输入图像的CNN特征。
6.根据权利要求1所示的方法,其特征在于,所述步骤6中,计算余弦相似度的方法为:

说明书全文

基于一致性区域深度学习特征的近重复图像检索方法

技术领域

[0001] 本发明属于信息安全领域,尤其涉及一种基于一致性区域深度学习特征的近重复图像检索方法。

背景技术

[0002] 由于强大的图像处理工具的广泛使用和互联网技术的快速发展,数字图像数据在网络上越来越容易被非法复制,篡改和传输。实际上,这些非法图像就是近重复图像,它们共享小的复制区域,经历各种图像修改,例如重新缩放,遮挡,噪声添加,以及亮度颜色变化。为了防止图像内容被未经授权的使用和隐私侵犯,检测受版权保护图像的非法部分复制版本已成为迫切的问题。因此,作为基于内容的图像检索的分支,近重复图像检索在版权和隐私保护领域中起着非常重要的作用。此外,它还应用于其他新兴的领域,如信息隐藏,图像标注和近重复图像去冗。
[0003] 近几年,深度学习特征已经成功地用于基于内容的图像检索任务中,并且与传统的手工特征相比,它们提供了更优越的性能。根据特征提取的方式,现有的基于CNN特征的图像检索方法主要分为两类:基于图像的CNN特征和基于区域的CNN特征。通常,基于图像的CNN特征直接将卷积层或者全连接层的激活值作为CNN特征。其中,最具有代表性的是直接将图像输入到预训练或者微调的卷积神经网络中,并且从网络中的全连接层提取CNN特征(Krizhevsky A,Sutskever I,and Hinton G,Imagenet classification with deep convolutional neural networks[C],2012 Advances in Neural Information Processing Systems,2012:1097-1105.)。然而,从全连接层提取的CNN特征往往缺少空间位置信息,导致提取的CNN特征具有有限的辨识性。为了提高CNN特征的辨识性,开始将从全连接层转向从卷积层提取CNN特征,主要是因为卷积层的特征是由卷积滤波器的激活值组成,包含丰富的局部空间信息(Babenko  A and Lempitsky V,Aggregating deep convolutional features for image retrieval[J],Computer Science,2015;Kalantidis Y,Mellina C,and Osindero S,Cross-dimensional weighting for aggregated deep convolutional features[C],2016 European Conference on Computer Vision,2016:685-701.)。由于基于图像的CNN特征主要描述了整幅图像的视觉模式或语义含义,直观地,这些方法不适用于检索那些共享小的部分区域的近重复图像。与基于图像的CNN特征不同,基于区域的CNN特征这类方法通常使用区域作为基本单元,从图像区域中提取CNN特征。值得注意的是,这类方法大多是通过简单地将图像划分为一系列的图像或直接使用现有的区域检测方法来得到图像区域,例如选择性搜索(Uijlings,J.R,Sande V,et al.,Selective search for object recognition[J],International Journal ofComputer Vision,2013,104(2):154-171.)、EdgeBox(Zitnick C and Dollár P,Edge Boxes:locating object proposals from edges[C],2014European Conference on Computer Vision,2014:391-405.)和区域检测网络(Region proposal network,RPN,SalvadorA,Giro-I-Nieto X,Marques F,et al.,Faster r-cnn features for instance search[C],2016 Computer Vision&Pattern Recognition Workshops,2016:394-401.)。
虽然这些算法在一定程度上能满足生成图像区域的要求,但如果对候选图像和查询图像使用相同的区域检测方法,当图像遭受一系列图像攻击时,近重复图像之间会检测到不一致的区域对,这会严重影响图像检索的准确度。
[0004] 近重复图像检索的研究虽然已经取得了很大的进展,但现有的近重复图像检索方法主要有以下几个技术难题:
[0005] 1)现有的近重复图像检索方法,大多是基于整幅图像进行特征提取和匹配,不适于检索那些共享小的部分复制区域的近重复图像。
[0006] 2)现有的近重复图像检索方法,对候选图像和查询图像使用相同的区域检测方法,当图像遭受一系列图像攻击时,近重复图像之间检测到的区域对存在不一致。
[0007] 3)现有的近重复图像检索方法,一般直接将卷积层或者全连接层提取的激活值作为CNN特征,维度过高导致降低特征提取和匹配的效率。
[0008] 4)现有的近重复图像检索方法,一般直接对图像库中的所有图像进行区域检测并特征提取,图像中不相关的图像会耗费更多的时间成本,降低图像检索的效率。

发明内容

[0009] 发明目的:为解决现有检索技术不适用于共享小的部分复制区域的近重复图像、检索效率低等问题;本发明提供一种基于一致性区域深度学习特征的近重复图像检索方法。
[0010] 技术方案:本发明提供一种基于一致性区域深度学习特征的近重复图像检索方法;具体包括如下步骤:
[0011] 步骤1:提取图像库中的所有图像的SIFT特征;
[0012] 步骤2:利用K-means聚类法,将每个SIFT特征量化为视觉单词,将来自不同图像,且视觉单词相同的任意两个SIFT特征认为是相互匹配的;则基于视觉单词,为所有的SIFT特征建立倒排索引文件;
[0013] 步骤3:利用EdgeBox算法,计算得到每个图像的目标区域,删除面积小于M/5×N/5的目标区域,所述M和N分别图像的宽和高;在剩下的目标区域中留下k个目标区域,并删除其他目标区域;利用改进CNN特征提取法计算每个目标区域的CNN特征C(Rc);
[0014] 步骤4:提取查询图像的SIFT特征;利用K-means聚类方法将查询图像的SIFT特征量化为视觉单词;利用倒排索引文件,找出候选图像;所述候选图像为图像库中与查询图像之间存在5对以上的SIFT特征对;所述一对SIFT特征对由两个相互匹配的SIFT特征组成;
[0015] 步骤5:根据查询图像与每个候选图像中的每个目标区域之间存在的SIFT特征对,在查询图像中找出与该目标区域近似重复的近重复区域;将该近重复区域与该目标区域组成一组近重复的区域对;
[0016] 步骤6:利用改进CNN特征提取法,提取任意一组近重复的区域对中近重复区域的CNN特征C(RQ);将该组近重复的区域对中C(RQ)和C(RC)的余弦相似度作为该组的相似度评分;在每个候选图像中,选择余弦相似度最高的一组评分作为该候选图像与查询图像之间的相似度评分。
[0017] 进一步的,所述步骤2或步骤4中将每个SIFT特征量化为视觉单词,具体为:对提取的所有SIFT特征进行K-means聚类,从而将所有SIFT特征划分为E个类别,每个类别用一个视觉单词表示。
[0018] 进一步的,所述步骤3中对面积大于等于M/5×N/5的每个目标区域按照其所包含的SIFT特征的个数由多到少排列,选择前k个目标区域。
[0019] 进一步的,所述步骤5的具体方法为:
[0020] 步骤5.1:利用倒排索引文件,找出查询图像与某个候选图像中的某个目标区域之间的n对SIFT特征对;
[0021] 步骤5.2:在n对SIFT特征对中随机选择ns对SIFT特征对,Y为在n对SIFT特征对中存在Y对真实匹配的SIFT特征对,n≤Y<1;所述真实匹配的SIFT特征对由来自不同图像,且对图像的内容描述是一致的两个SIFT特征组成;P(ns)为在ns对特征对中至少有一对真实匹配的SIFT特征对的概率;
[0022] 步骤5.3:根据ns对特征对中的任意一对特征对fQ=[σQ,θQ,(xQ,yQ)T]和fC=[σC,θC,(xC,yC)T],其中fQ为查询图像中的SIFT特征,σQ、θQ、(xQ,yQ)分别表示该SIFT特征的尺度、主方向和坐标;fC为目标区域中的SIFT特征,σC、θC、(xC,yC)分别表示该SIFT特征的尺度、主方向和坐标;利用如下公式确定一个近重复区域,即查询图像与该目标区域之间有ns个近重复的区域对;
[0023]
[0024] 其中,(uQ,vQ)T、wQ和hQ分别是查询图像中近重复区域RC的中心坐标,宽度和高度;
[0025] 进一步的,所述步骤3或步骤6中提取CNN特征的方法,具体为:将任意一个目标区域/近重复区域作为AlexNet模型的输入图像,则该模型输出256个大小为W×H的特征图,即可得到维度为W×H×256的特征向量;W和H分别为该特征图的宽度和高度,且与输入图像的宽度和高度成正比;利用求和池化聚合操作将每个特征图的尺寸W×H压缩到m×m;对每256/d个大小为m×m的特征图进行合并和求和池化聚合操作,从而得到m×m×d维的特征向量,0<d<256,且d为256的倍数;最后,将生成的m×m×d维的特征向量进行L2归一化,并将归一化后的m×m×d维的特征向量作为输入图像的CNN特征。
[0026] 进一步的,所述步骤6中,计算余弦相似度的方法为:
[0027]
[0028] 有益效果:
[0029] (1)本发明采用基于BOW模型的SIFT特征匹配,根据SIFT特征匹配结果过滤掉一些不相关的图像,大大减少了候选图像的数量,所以本发明可以更快速地实现近重复图像检索。
[0030] (2)因为SIFT特征对常见的攻击具有鲁棒性,本发明将SIFT特征的特性用于检测视觉一致性的区域对,所以当遭受常见的图像攻击时,近重复图像之间检测到视觉一致的区域对。
[0031] (3)本发明采用了两阶段的sum-pooling策略,所以在充分编码区域的空间编码的同时,还生成紧凑的CNN特征。
[0032] (4)本发明计算得到的CNN特征具有较强的辨识能,能够捕捉图像的语义特性,提高了图像检索的准确度。附图说明
[0033] 图1是本发明的总体框架示意图;
[0034] 图2是本发明中倒排索引结构示意图。

具体实施方式

[0035] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0036] 如图1所示,本实施例提供一种基于一致性区域深度学习特征的近重复图像检索方法:在离线阶段,对图像库中的所有图像提取SIFT特征,然后利用K-Means聚类方法将每个SIFT特征量化为视觉单词,并存储到构建的倒排索引文件中。在线阶段,对输入的查询图像使用相同的特征提取以及量化方法,将量化的SIFT特征与索引文件中的特征计算相似度,并对获得的相似度结果进行排序,依次输出与查询图像相关的图像即候选图像。以上过程就是利用Bag-of-visual-words(BOW)模型进行图像检索。另外,为了降低检测图像中目标区域以及特征提取的计算复杂度,本发明在离线阶段使用现有的区域检测EdgeBox算法对上述图像库中所有图像提取目标区域,并对候选图像中的所有目标区域提取CNN特征。为了确保近重复图像之间检测到视觉一致性的区域对,在在线阶段中,充分利用SIFT特征的特性来定位查询图像中与目标区域一致的近重复区域,组成近重复的区域对,并对近重复的区域对提取紧凑的CNN特征,从而提高近重复图像检索的准确度和效率。具体的步骤如下所示:
[0037] 步骤1:对图像库中的所有图像提取128维的SIFT特征。
[0038] 步骤2:对提取到的SIFT特征进行BOW量化:对提取的所有SIFT特征进行K-means聚类,将提取的所有SIFT特征划分为E个类别,每个类别用一个视觉单词来表示,并将量化为相同视觉单词的SIFT特征归为一个类别。所有视觉单词标号的集合,就构成了视觉词典。因此,每个图像都可以用若干视觉单词来描述。
[0039] 步骤3:为了提高图像检索的效率,为所有的SIFT特征建立倒排索引。索引后的特征不仅记录其所属图像的ID,还有它的方向,尺度和坐标以及其他相关信息。这些信息将进一步用于生成潜在的近重复的区域对。所述的倒排索引如图2所示。
[0040] 步骤4:通过使用倒排索引结构,将来自不同图像任何两个量化为相同视觉单词的SIFT特征被认为是匹配的,并且根据统计两幅图像之间共享的SIFT特征的数量来衡量图像之间的相似度。当图像库中的图像与输入的查询图像共享5对及以上的SIFT特征对时,将这些图像认为是候选图像。因此,可以过滤掉大量不相关的图像,降低图像检测区域和特征提取的时间复杂度。
[0041] 步骤5:由于EdgeBox算法通过计算信息边缘图,可以实现高召回率,从图像中检测有意义的目标区域,这些有意义的目标区域最有可能在近重复图像之间进行复制和传播。此外,该算法的边缘计算是有效的并且计算的边缘图是稀疏的,具有较低的计算复杂度。最重要的是,该算法可以直接从图像的边缘信息中检测目标区域,无需基于深度学习网络的学习过程。因此,该算法具有较强的灵活性。具体步骤如下:
[0042] 步骤5-1:使用EdgeBox算法,为每个候选图像检测到一组目标区域。
[0043] 步骤5-2:为了避免小的区域给图像检索带来负面影响,本实施例将删除面积小于M/5×N/5的区域,其中M和N分别是图像的宽和高。
[0044] 步骤5-3:理论上,对于检测到的目标区域,SIFT特征的数量可以在一定程度上反映其纹理复杂度,因为从纹理良好的区域提取的SIFT特征的数量要远远大于从平坦区域提取的SIFT特征。因此,为了节省计算资源,对候选图像中检测到的所有目标区域根据每个区域中包含的SIFT特征数量进行降序排序,保留前k个目标区域(检测到的区域);删除其他目标区域。
[0045] 步骤6:根据查询图像与任意一个候选图像中的任意一个目标区域之间的SIFT特征对,在查询图像中找出与该目标区域近似重复的近重复区域;将该近重复区域与该目标区域组成一组近重复的区域对。具体如下所示:
[0046] 步骤6-1:利用倒排索引文件,找出查询图像与某个候选图像中的某个目标区域之间存在的n对SIFT特征对,SIFT特征对数量n可能高达数百个,如果直接由所有的SIFT特征匹配来定位查询图像中对应的潜在近重复的区域对,虽然可以定位出很多正确的近重复的区域对,但计算消耗非常大。实际中,我们只需要保证定位的近重复的区域对中至少包含一对真实匹配的SIFT特征对,就可以保证近重复图像检测的正确性;所述真实匹配的SIFT特征对由来自不同图形,且对图像内容的描述是一致的两个SIFT特征组成;因此,为了降低计算量,假设真实匹配的概率是pT, Y为在n对特征对中存在Y对特征对为真实匹配的特征对,当随机选择nS对SIFT特征匹配时,其中至少包含一个真实匹配的SIFT特征对的概率近似为:
[0047]
[0048] 所以,挑选nS对SIFT特征匹配对来定位近重复的区域对,可以保证至少有一对SIFT特征匹配对是真实的匹配,从而可以至少定位出一对正确的近重复的区域对。
[0049] 步骤6-2:SIFT特征的检测是基于图像的内容,因此局部特征的尺度、主方向和特征点的坐标,分别与缩放、旋转和平移变换共同变化。所以,可以根据两个匹配的局部特征之间的属性变化来估计变换的参数。
[0050] 假设两个SIFT特征fQ和fC的特性分别为[σQ,θQ,(xQ,yQ)T]和[σC,θC,(xC,yC)T];其中fQ为查询图像中的SIFT特征,σQ、θQ、(xQ,yQ)分别表示该SIFT特征的尺度、主方向和坐标;fC为该目标区域中的SIFT特征,σC、θC、(xC,yC)分别表示该SIFT特征的尺度、主方向和坐标。利用如下公式确定一个近重复区域(定位到的区域),即查询图像与该目标区域之间有ns个近重复的区域对;
[0051]
[0052] 其中,(uQ,vQ)T、wQ和hQ分别是查询图像中近重复区域RC的中心坐标,宽度和高度;
[0053] 直观地,如果这两个特征是真实匹配的,那么RC和RQ很有可能是正确的近重复的区域对。
[0054] 步骤7:在检测到潜在的近重复的区域对之后,对这些近重复的区域对提取紧凑的CNN特征,其步骤如下:
[0055] 步骤7-1:将任意一个目标区域/近重复区域作为AlexNet模型的输入图像,则该模型输出256个大小为W×H的特征图,即可得到维度为W×H×256的特征向量。
[0056] 步骤7-2:进入第一个sum-pooling阶段,对于输入的任意大小的区域,将大小为m×m的空间sum-pooling应用于区域的激活以获得m×m×256维特征图。
[0057] 步骤7-3:进入第二个sum-pooling阶段,通过对m×m×256维特征图的激活值进行汇总并连接汇集结果来压缩特征以生成m×m×d维的特征向量。其中256是d倍数。最后,将生成的m×m×d维的特征向量通过L2归一化,并将归一化后的m×m×d维的特征作为CNN特征。
[0058] 步骤8:在线检索阶段,通过比较近重复区域与候选图像的目标区域之间的CNN特征,以衡量两幅图像之间的相似度来达到检索近重复图像版本的目的。对于给定的进重复的区域对RQ(近重复区域)和RC(目标区域),它们所对应的CNN特征分别为C(RQ)和C(RC),其计算余弦相似度:
[0059]
[0060] 步骤9:在查询图像与某个候选图像之间,选择余弦相似度得分最高的一组近重复的区域对的得分作为查询图像与该候选图像之间的相似度评分。
[0061] 另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈