首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 一种基于异构图具有自反馈特性的半监督图像重排序方法

一种基于异构图具有自反馈特性的半监督图像重排序方法

阅读:977发布:2020-10-09

专利汇可以提供一种基于异构图具有自反馈特性的半监督图像重排序方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于异构图具有自反馈特性的半监督图像重排序方法,该方法的步骤如下:步骤(1):对需要重排序的图像,提取文本特征和视觉特征;步骤(2):使用图像的文本特征和视觉特征来构建异构图,计算模态内相似性和模态间相似性作为异构图对应 节点 之间的权值;步骤(3):在异构图上使用自反馈的半 监督学习 算法 ,计算得到图像文本特征排序得分和视觉特征排序得分;步骤(4):根据步骤(3)中计算的图像文本特征得分和视觉特征得分,计算图像排序得分,从而实现对图像进行重排序。该方法不仅对搜索结果有提高,不需要用户的额外输入,而且运行时间较少,适合用在现实的图像检索系统中,提高图像重排序技术的性能。,下面是一种基于异构图具有自反馈特性的半监督图像重排序方法专利的具体信息内容。

1.一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,该方法的步骤如下:
步骤(1):对需要重排序的图像,提取文本特征和视觉特征;
步骤(2):使用图像的文本特征和视觉特征来构建异构图,计算模态内相似性和模态间相似性作为异构图对应节点之间的权值;
步骤(3):在异构图上使用自反馈的半监督学习算法,计算得到图像文本特征排序得分和视觉特征排序得分;
步骤(4):根据步骤(3)中计算的图像文本特征得分和视觉特征得分,计算图像排序得分,按照得分由高到低,对图像进行重排序。
2.如权利要求1所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,所述步骤(1)中,
提取视觉特征的方法为:对每幅图像提取SIFT特征,然后将图像表示为一个词袋;
提取图像的文本特征的方法为:对每幅图像收集图像关联文本,利用话题模型LDA将所述图像关联文本聚成多个潜在主题,然后将图像的文本信息也表示为一个词袋。
3.如权利要求1所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,所述步骤(2)中,构建异构图的过程如下:
首先构建一个多边图,所述多边图中每一个节点为一副图像,包含图像的文本特征和视觉特征,多边图中任意两个节点之间包含4条边,所述两个节点包含第一节点和第二节点,所述4条边分别为两个节点的视觉特征之间的边、两个节点的文本特征之间的边、第一节点的视觉特征与第二节点的文本特征之间的边和第一节点的文本特征与第二节点的视觉特征之间的边;
其中,两个节点的文本特征之间的边和两个节点的视觉特征之间的边用于刻画模态内相似性,第一节点的视觉特征与第二节点的文本特征之间的边和第一节点的文本特征与第二节点的视觉特征之间的边用于刻画模态间相似性;
然后,将多边图中的每个节点分为文本特征节点和视觉特征节点两种类型,节点之间相连,权重为对应的模态内相似性或是模态间相似性,从而得到异构图。
4.如权利要求1所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,所述步骤(3)的具体步骤如下:
*
步骤(31):使用每个节点的图像的文本特征和视觉特征的排序得分f 来更新初始的排序得分向量y;
*
步骤(32):使用每个节点的图像的文本特征和视觉特征的排序得分f 来更新相似度矩阵S中模态间的相似度;
步骤(33):使用步骤(32)中得到的相似度矩阵S来更新拉普拉斯矩阵L;
步骤(34):如果平均精度大于当前最优精度,则把该平均精度赋值给当前最优精度,反馈继续,跳到重排序算法的步骤(1)继续进行;否则,反馈停止,重排序算法终止。
5.如权利要求4所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,
*
所述图像的文本特征和视觉特征的排序得分f 的计算方法如下:
其中,f=[ft,fv]是需要求的异构图中排序得分,f(i),f(j)分别是第i,j幅图像的排序得分,y=[yt,yv]是初始的异构图中的排序得分,S是相似度矩阵,D是一个三矩阵,其中对角线上第i个元素是S矩阵第i行的元素的和,μ是平衡参数,用来调整式子右半部份的两个项,0<μ<1,i,j的取值范围是1<i<N,1<j<N,N为要重排序的图像总数目;
所述公式(1)运行首先需要对图像的文本特征和视觉特征的排序得分分别进行初始化;
其中,文本特征排序得分和视觉特征排序得分的初始化均使用归一化的图像搜索引擎返回的得分,即:
其中,N是待排序的图像数量,ri是图像在搜索引擎返回的结果中的排序。
6.如权利要求5所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,所述公式(1)的迭代公式如下:
其中,f(t)是第t次迭代的排序得分,μ与公式(1)中的含义相同,μ是平衡参数,0<μ<1,t是迭代次数,f(0)=y,L为由相似度矩阵S和三角矩阵D计算得到的拉普拉斯矩阵。
7.如权利要求1所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,所述步骤(4)中,图像最后的排序得分由图像的文本特征排序得分和图像的视觉特征的排序得分混合得到,计算公式如下:
RankScore(i)=αf(ti)+(1-α)f(vi) (4)
其中,RankScore(i)是图像最后的排序得分,f(ti)是图像文本特征排序得分,f(vi)是图像视觉特征排序得分,α是混合的参数,介于0到1之间。
8.如权利要求3所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,
所述模态内相似性包括文本特征和文本特征之间的相似性、视觉特征和视觉特征之间的相似性;所述模态间相似性是指文本特征和视觉特征之间的相似性。
9.如权利要求3或7所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,
所述模态内相似性的计算方法为余弦相似度;
所述模态间相似性的影响因素包括:模态间的一致性、图像文本特征的相似度、图像视觉特征之间的相似度。
10.如权利要求8所述的一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,
所述模态间的一致性计算公式为:
其中,ti表示第i幅图像的文本特征,vi表示第i幅图像视觉特征,f(ti),f(vi)分别为使用文本特征的排序得分和使用视觉特征的排序得分,σ为缩放因子(σ>0),i的取值范围是1<i<N,N为要重排序的图像总数目;
所述模态间相似性的计算公式如下:
s(ti,vj)=c(ti,vj)[αs(ti,tj)+(1-α)s(vi,vj)] (7)
其中,ti表示第i幅图像的文本特征,vi表示第i幅图像的视觉特征,tj表示第j幅图像的文本特征,vj分别表示第j幅图像的视觉特征,c(ti,vj)为模态间的一致性,s(ti,tj)为文本特征之间的相似性,s(vi,vj)为视觉特征之间的相似性,α为混合的参数(0<α<1),i的取值范围是1<i<N,N为要重排序的图像总数目。

说明书全文

一种基于异构图具有自反馈特性的半监督图像重排序方法

技术领域

[0001] 本发明针对图像搜索引擎返回的搜索结果进行重新排序,具体来说,提出了一种基于异构图具有自反馈特性的半监督图像重排序方法。

背景技术

[0002] 简单的来说,图像重排序就是来用图像所包含的特征信息对图像搜索引擎返回的结果进行重新排序,得到更加令用户满足的搜索结果。一般而言,图像的特征信息包括图像的文本信息和图像的视觉信息。
[0003] 现有的web图像搜索引擎,使用图像相关联的文本特征对图像排序,例如图像周围的文本,锚文本等。由于文本特征还有太多的噪声和忽略了图像的视觉特征,搜索返回的结果很容易令用户不满意。因此,图像重排序技术有很好的理论研究和应用背景。
[0004] 大多数图像重排序算法采用视觉特征进行重排序,有很多这方面的研究工作。总结起来,可以分成下面三类算法:基于聚类的方式;基于分类的方式和基于图的方式。其中基于图的方式获得许多的关注,而且在图像和视频的检索中取得了非常不错的结果。在基于图的方法中,图像用来作为图中的节点,图像之间的相似性用来作为图像之间的权值。基于图的方式通常基于图中排序结果的一致性,例如相邻的节点应该具有相似的排序结果。其中随机游走和半监督学习是基于图的算法中常用的两种框架
[0005] 但是许多研究指出,只使用图像视觉信息进行重排序不能取得令人满意的结果。因此,许多研究者提出了融合多种图像特征进行图像的重排序的基于图的算法,其中“早期融合”和“晚期融合”是最常见的两种方式。不过这些算法很少考虑文本特征和视觉特征的语义一致性。一般来说一副图像的文本特征和视觉特征应该具有一致的语义信息,因而图像的文本信息和视觉信息的一致性应该是重排序中考虑的一个重要因素。
[0006] 半间督学习算法是介于监督学习算法和非监督学习算法之间的一类算法。许多不同的半间督学习算法已经被提出了。
[0007] 总而言之,现有技术亟需解决的技术问题是如何使用半监督学习算法进行图像重排序。发明内容
[0008] 为了克服现有技术的不足,本发明提出一种基于异构图具有自反馈特性的半监督图像重排序方法,使用图像的文本特征和视觉特征构建异构图,然后采用基于异构图的具有自反馈特性的半监督学习算法进行图像重排序的方法。该方法不仅对搜索结果有提高,不需要用户的额外输入,而且运行时间较少,适合用在现实的图像检索系统中,提高图像重排序技术的性能。
[0009] 为了实现上述目的,本发明采用如下技术方案:
[0010] 一种基于异构图具有自反馈特性的半监督图像重排序方法,其特征是,该方法的步骤如下:
[0011] 步骤(1):对需要重排序的图像,提取文本特征和视觉特征;
[0012] 步骤(2):使用图像的文本特征和视觉特征来构建异构图,计算模态内相似性和模态间相似性作为异构图对应节点之间的权值;
[0013] 步骤(3):在异构图上使用自反馈的半监督学习算法,计算得到图像文本特征排序得分和视觉特征排序得分;
[0014] 步骤(4):根据步骤(3)中计算的图像文本特征得分和视觉特征得分,计算图像排序得分,按照得分由高到低,对图像进行重排序。
[0015] 所述步骤(1)中,
[0016] 提取视觉特征的方法为:对每幅图像提取SIFT特征,然后将图像表示为一个词袋;
[0017] 提取图像的文本特征的方法为:对每幅图像收集图像关联文本,利用话题模型LDA将所述图像关联文本聚成多个潜在主题,然后将图像的文本信息也表示为一个词袋。
[0018] 所述步骤(2)中,构建异构图的过程如下:
[0019] 首先构建一个多边图,所述多边图中每一个节点为一副图像,包含图像的文本特征和视觉特征,多边图中任意两个节点之间包含4条边,所述4条边分别为两个节点的视觉特征之间的边、两个节点的文本特征之间的边、两个节点的视觉特征与文本特征之间的边;
[0020] 其中,两个节点的文本特征之间的边和两个节点的视觉特征之间的边用于刻画模态内相似性,两个节点的视觉特征与文本特征之间的边用于刻画模态间相似性;
[0021] 然后,将多边图中的每个节点分为文本特征节点和视觉特征节点两种类型,节点之间相连,权重为对应的模态内相似性或是模态间相似性,从而得到异构图。
[0022] 所述步骤(3)的具体步骤如下:
[0023] 步骤(31):使用每个节点的图像的文本特征和视觉特征的排序得分f*来更新初始的排序得分向量y;
[0024] 步骤(32):使用每个节点的图像的文本特征和视觉特征的排序得分f*来更新相似度矩阵S中模态间的相似度;
[0025] 步骤(33):使用步骤(32)中得到的相似度矩阵S来更新拉普拉斯矩阵L;
[0026] 步骤(34):如果平均精度大于当前最优精度,则把该平均精度赋值给当前最优精度,反馈继续,跳到重排序算法的步骤(1)继续进行;否则,反馈停止,重排序算法终止。
[0027] 所述图像的文本特征和视觉特征的排序得分f*的计算方法如下:
[0028]
[0029] 其中,f=[ft,fv]是需要求的异构图中排序得分,f(i),f(j)分别是第i,j幅图像的排序得分,y=[yt,yv]是初始的异构图中的排序得分,S是相似度矩阵,D是一个三矩阵,其中对角线上第i个元素是S矩阵第i行的元素的和,μ是平衡参数,用来调整式子右半部份的两个项,0<μ<1,i,j的取值范围是1<i<N,1<j<N,N为要重排序的图像总数目;
[0030] 所述公式(1)运行首先需要对图像的文本特征和视觉特征的排序得分分别进行初始化;
[0031] 其中,文本特征排序得分和视觉特征排序得分的初始化均使用归一化的图像搜索引擎返回的得分,即:
[0032]
[0033] 其中,N是待排序的图像数量,ri是图像在搜索引擎返回的结果中的排序。
[0034] 所述公式(1)的迭代公式如下:
[0035]
[0036] 其中,f(t)是第t次迭代的排序得分,μ与公式(1)中的含义相同,μ是平衡参数,0<μ<1,t是迭代次数,f(0)=y,L为由相似度矩阵S和三角矩阵D计算得到的拉普拉斯矩阵。
[0037] 所述步骤(4)中,图像最后的排序得分由图像的文本特征排序得分和图像的视觉特征的排序得分混合得到,计算公式如下:
[0038] RankScore(i)=αf(ti)+(1-α)f(vi) (4)
[0039] 其中,RankScore(i)是图像最后的排序得分,f(ti)是图像文本特征排序得分,f(vi)是图像视觉特征排序得分,α是混合的参数,介于0到1之间。
[0040] 所述模态内相似性包括文本特征和文本特征之间的相似性、视觉特征和视觉特征之间的相似性;所述模态间相似性是指文本特征和视觉特征之间的相似性。
[0041] 所述模态内相似性采用余弦相似度计算方法,即:
[0042]
[0043] 其中,p和q表示文本特征向量或者视觉特征向量。
[0044] 所述模态间相似性的影响因素包括:模态间的一致性、图像文本特征的相似度、图像视觉特征之间的相似度。
[0045] 所述模态间的一致性计算公式为:
[0046]
[0047] 其中,ti表示第i幅图像的文本特征,vi表示第i幅图像视觉特征,f(ti),f(vi)分别为使用文本特征的排序得分和使用视觉特征的排序得分,σ为缩放因子(σ>0),i的取值范围是1<i<N,N为要重排序的图像总数目;
[0048] 所述模态间相似性的计算公式如下:
[0049] s(ti,vj)=c(ti,vj)[αs(ti,tj)+(1-α)s(vi,vj)] (7)
[0050] 其中,ti表示第i幅图像的文本特征,vi表示第i幅图像的视觉特征,tj表示第j幅图像的文本特征,vj分别表示第j幅图像的视觉特征,c(ti,vj)为模态间的一致性,s(ti,tj)为文本特征之间的相似性,s(vi,vj)为视觉特征之间的相似性,α为混合的参数(0<α<1),i的取值范围是1<i<N,N为要重排序的图像总数目。
[0051] 本发明的有益效果是:
[0052] 1、本发明提出的算法在文本特征和视觉特征中不一致的情况,可以改善搜索结果;
[0053] 2、本发明提出的算法不需要用户的额外输入,适合实际的图像检索系统应用;
[0054] 3、本发明提出的算法而且运行时间较少,适合大规模的图像检索系统。附图说明
[0055] 图1为本发明的结构示意图;
[0056] 图2为本发明的异构图示意图。

具体实施方式

[0057] 下面结合附图和实施例对本发明作进一步说明;图1为本发明的算法流程图,结合该流程图,下面对本算法实施以及具体细节做进一步说明。
[0058] 一种基于异构图具有自反馈特性的半监督图像重排序方法,该方法的步骤如下:
[0059] 步骤(1):对需要重排序的图像,提取文本特征和视觉特征;
[0060] 步骤(2):使用图像的文本特征和视觉特征来构建异构图,计算模态内相似性和模态间相似性作为异构图对应节点之间的权值;
[0061] 步骤(3):在异构图上使用自反馈的半监督学习算法,计算得到图像文本特征排序得分和视觉特征排序得分;
[0062] 步骤(4):根据步骤(3)中计算的图像文本特征得分和视觉特征得分,计算图像排序得分,按照得分由高到低,对图像进行重排序。
[0063] 所述步骤(1)中,
[0064] 提取可视特征的方法为:对每幅图像使用密集采样(dense sampling)的方式提取SIFT特征,然后使用K-means聚类算法将得到的特征进行聚类,得到词典,然后将图像表示为一个视觉特征词袋vi;提取图像文本特征的方法为:对每幅图像收集图像关联文本,利用话题模型LDA将这些文本聚成多个主题,然后将图像的文本信息也表示为一个文本特征词袋ti。
[0065] 所述步骤(2)中,构建异构图的过程如下:
[0066] 首先构建一个多边图,所述多边图中每一个节点为一副图像,包含图像的文本特征和视觉特征,多边图中每两个节点之间包含4条边(比如,假定两个节点分别为节点1和节点2,那么4条边分别为:节点1的视觉特征与节点2的视觉特征之间的边、节点1的视觉特征与节点2的文本特征之间的边、节点1的文本特征与节点2的视觉特征之间的边、节点1的文本特征和节点2的文本特征之间的边);其中,2条刻画模态内相似性,另外2条刻画模态间相似性;
[0067] 然后,将多边图中的每个节点分为文本特征节点和视觉特征节点两种类型,节点之间相连,权重为对应的模态内相似性或是模态间相似性,从而得到异构图。
[0068] 如图(2)所示,其中矩阵t(i)表示图像i的文本特征,矩阵t(j)表示图像j的文本特征,圆形v(i)表示图像i的视觉特征,圆v(j)表示图像j的视觉特征,实线表示模态内相似度,虚线表示模态间的相似度。
[0069] 所述模态内相似性包括文本特征和文本特征之间的相似性、视觉特征和视觉特征之间的相似性;所述模态间相似性是指文本特征和视觉特征之间的相似性。
[0070] 所述模态内相似性的计算方法包括:欧氏距离的倒数,余弦相似度,直方图相交。
[0071] 所述模态间相似性的影响因素包括:模态间的一致性、图像文本特征的相似度、图像视觉特征之间的相似度。
[0072] 所述模态间的一致性计算公式为:
[0073]
[0074] 其中,ti表示第i幅图像的文本特征,vi表示第i幅图像视觉特征,f(ti),f(vi)分别为使用文本特征的排序得分和使用视觉特征的排序得分,σ为缩放因子(σ>0),i的取值范围是1<i<N,N为要重排序的图像总数目。
[0075] 所述模态间相似性的计算公式如下:
[0076] s(ti,vj)=c(ti,vj)[αs(ti,tj)+(1-α)s(vi,vj)] (7)
[0077] 其中,ti表示第i幅图像的文本特征,vi表示第i幅图像的视觉特征,tj表示第j幅图像的文本特征,vj分别表示第j幅图像的视觉特征,c(ti,vj)为模态间的一致性,s(ti,tj)为文本特征之间的相似性,s(vi,vj)为视觉特征之间的相似性,α为混合的参数(0<α<1),i的取值范围是1<i<N,N为要重排序的图像总数目。
[0078] 所述步骤(3)中,基于异构图,采用具有自反馈特性的半监督学习算法来得到图像的重排以后的排序得分;
[0079] 所述半监督学习算法的目标函数如下:
[0080]
[0081] 其中,f=[ft,fv]是需要求的异构图中排序得分,f(i),f(j)分别是第i,j幅图像的排序得分,y=[yt,yv]是初始的异构图中的排序得分,S是相似度矩阵,D是一个三角矩阵,其中对角线上第i个元素是S矩阵第i行的元素的和,μ是平衡参数,用来调整式子右半部份的两个项,0<μ<1,i,j的取值范围是1<i<N,1<j<N,N为要重排序的图像总数目。
[0082] 所述半监督学习算法的迭代公式如下:
[0083]
[0084] 其中,f(t)是第t次迭代的排序得分,μ与公式(3)中的含义相同,μ是平衡参数,0<μ<1,t是迭代次数,f(0)=y,L为由相似度矩阵S和三角矩阵D计算得到的拉普拉斯矩阵。
[0085] 该算法运行首先需要对图像的文本特征和视觉特征的排序得分分别进行初始化。
[0086] 其中,文本特征排序得分和视觉特征排序得分的初始化均使用归一化的图像搜索引擎返回的得分,即:
[0087]
[0088] 其中,N是待排序的图像数量,ri是图像在搜索引擎返回的结果中的排序。
[0089] 为了利用模态间的特征来得到更好的图像排序得分,提出了自反馈算法,能够自动的使用上面得到的f*来更新相似度矩阵S,从而进行下一次迭代。
[0090] 所述自反馈算法的步骤如下:
[0091] 步骤(31):使用f*来更新初始的排序得分向量y;
[0092] 步骤(32):使用f*来更新相似度矩阵S中模态间的相似度;
[0093] 步骤(33):使用步骤(32)中得到的相似度矩阵S来更新拉普拉斯矩阵L;
[0094] 步骤(34):如果平均精度(ap)大于当前最优精度(apbest),则把该平均精度(ap)赋值给当前最优精度(apbest),反馈继续,跳到重排序算法的步骤(1)继续进行;否则,反馈停止,重排序算法终止。
[0095] 所述步骤(4)中,图像最后的排序得分由图像的文本特征排序得分和图像的视觉特征的排序得分混合得到,计算公式如下:
[0096] RankScore(i)=αf(ti)+(1-α)f(vi) (4)
[0097] 其中,RankScore(i)是图像最后的排序得分,f(ti)是图像文本特征排序得分,f(vi)是图像视觉特征排序得分,α是混合的参数,介于0到1之间。
[0098] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改变形仍在本发明的保护范围以内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈