首页 / 专利库 / 人工智能 / 机器学习 / 监督学习 / 一种基于自适应量化多模态哈希检索方法及系统

一种基于自适应量化多模态哈希检索方法及系统

阅读:83发布:2020-05-13

专利汇可以提供一种基于自适应量化多模态哈希检索方法及系统专利检索,专利查询,专利分析的服务。并且本公开提供了一种基于自适应量化多模态哈希检索方法及系统,通过将异构模态转换为具有投影一致性的多模态因子,来探索不同模态之间的关系;通过利用具有代表性的 原型 近似多模态因子,将同构潜在特征转换为紧凑的哈希码,提出了一种新的多模态自适应权重方案;根据不同的查询内容自动计算适当的模态组合权值,可以建立不同模态之间的相关性,但不需要额外的超参数。在无监督自适应量化多模态哈希方法的 基础 上,将其扩展到 监督学习 模式,利用样本间语义标签来指导投影学习过程,提高了哈希码的识别能 力 ,速度快,操作简单,保证了学习效率。,下面是一种基于自适应量化多模态哈希检索方法及系统专利的具体信息内容。

1.一种基于无监督自适应量化多模态哈希检索方法,其特征在于,包括:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希检索的目标函数;
采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
2.如权利要求1所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,对于图像模态,将其输入到VGG-16网络模型中,提取多维的图像特征;对于文本模态,将标签利用词袋模型提取多维的文本特征。
3.如权利要求1所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,所述无监督自适应量化多模态哈希的目标函数,具体为:
s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
其中, 是第l模态的特征矩阵,dl是对应的特征维度;Rl是转换
矩阵,Hl是第l模态的基矩阵;C=[C1,...,CM]为由M个独立的码本组成的码本矩阵;其中每一个码本 包含K个码字,分别对应于训练集中K个原型;||bmn||0
=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
4.如权利要求3所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,将异构模态的Xl转换为具有投影一致性的多模态因子Hl;
利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码;
利用显式的样本间语义标签增强哈希码的识别能
5.如权利要求1所述的基于无监督自适应量化多模态哈希检索方法,其特征在于,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
6.一种基于监督自适应量化多模态哈希检索方法,其特征在于,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
根据训练集的多模态特征,利用样本间语义标签矩阵指导投影学习过程,构造基于监督自适应量化多模态哈希检索的目标函数;
采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
7.如权利要求6所述的基于监督自适应量化多模态哈希检索方法,其特征在于,基于监督自适应量化多模态哈希的目标函数,具体为:
s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
其中,超参θ用于支持语义嵌入; 是语义标签矩阵,其中c是语义类别数;
是转换矩阵,它可以捕获数据的内在和潜在结构; 是第
l模态的特征矩阵,dl是对应的特征维度;Rl是转换矩阵,Hl是第l模态的基矩阵;C=[C1 ,...,CM]为由M个独立的码本组成的码本矩阵 ;其中每一个码本
包含K个码字,分别对应于训练集中K个原型;||bmn||0=1保证每
个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目;
或者,
对于图像模态,将其输入到VGG-16网络模型中,提取多维的图像特征;对于文本模态,将标签利用词袋模型提取多维的文本特征;
或者,
计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
8.一种基于自适应量化多模态哈希检索系统,其特征在于,包括:
数据预处理模,被配置为获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
特征提取模块,被配置为将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
目标函数构造模块,被配置为根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希的目标函数和/或基于监督自适应量化多模态哈希的目标函数;
目标优化模块,被配置为采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
在线权重自适应量化哈希检索模块,被配置为构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-
5任一项所述的基于无监督自适应量化多模态哈希检索方法的步骤;
和/或,
该程序被处理器执行时实现如权利要求6-7任一项所述的基于监督自适应量化多模态哈希检索方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于自适应量化多模态哈希方法中的步骤;
和/或,
包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求6-7任一项所述的基于监督自适应量化多模态哈希中的步骤。

说明书全文

一种基于自适应量化多模态哈希检索方法及系统

技术领域

[0001] 本公开涉及多模态检索技术领域,特别涉及一种基于自适应量化多模态哈希的社交图像检索方法及系统。

背景技术

[0002] 本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术
[0003] 随着信息技术的快速发展,多媒体数据的表现形式越来越多样化,包括图像、文本、视频、音频等。多模态数据爆炸式增长的同时,多模态检索问题也越来越受到人们的关注。多模态哈希能够将来自不同模态的多模态特征编码成紧凑的二进制码,有着检索速度快,存储开销小,能够有效的支持大规模图像检索的优点。根据哈希码的产生方式不同,多模态哈希方法可以分为两大类:基于投影的多模态哈希和基于量化的多模态哈希。基于投影的哈希首先通过模态间相关性的最大化将高维数据投影到一个连续的同构潜在空间中,然后通过样本阈值化将同构嵌入量化为二进制哈希码。基于量化的哈希主要关注如何生成一个由训练数据中的代表性原型构成的码本(Codebook),其中每个代表性原型对应一个二进制代码。
[0004] 本公开发明人在研究中发现,尽管基于投影的哈希虽然取得了显著的效果,但是采用投影和量化两个步骤来学习统一的哈希码过于简化。一方面,通过线性哈希函数不能有效地保持数据的内部结构,另一方面,通过简单的符号阈值化也不能保证最小的量化误差,这导致大量的量化损失,因此无法很好地捕捉到具有复杂内在结构的数据特征。近年来,基于量化的哈希算法多侧重于单模态哈希和跨模态哈希来建立具有鉴别的复杂数据关系模型,而对多模态哈希的关注较少。
[0005] 目前现存的多模态哈希方法存在具有如下挑战:
[0006] (1)与单模态和多模态哈希方法不同,利用多模态特征的互补性是学习多模态哈希码的重要手段。然而,现有的多模态哈希方法都是采用固定权值来组合多个特征。它们采用权值参数来利用哈希学习中各视图之间的互补性和一个额外的超参来平衡正则化项。在实现过程中,超参的调整过程是不现实和低效的,特别是在在线查询阶段,查询的语义标签是未知的。此外,固定的权重无法对变化非常快,而且非常动态的查询样本进行查询。
[0007] (2)哈希学习本质上是一个离散优化问题。然而,现有的多模态哈希方法大多采用两步松弛+舍入的哈希优化策略,该方法首先对离散约束条件进行松弛,求解近似连续值,然后通过阈值化计算二进制码。这种松弛哈希优化策略会带来显著的量化误差,并导致次优解出现。而且,现有的离散多模态哈希方法主要采用离散循环坐标下降法(DCC),该方法必须对哈希码进行逐位学习,这在处理大规模多模态数据时仍然非常耗时。

发明内容

[0008] 为了解决现有技术的不足,本公开提供了一种基于自适应量化多模态哈希检索方法及系统,通过利用有代表性的原型来学习判别哈希码,能更好地逼近相邻关系,并且训练时间和存储成本低,解决了现有技术中进行图像检索时存在的参数问题和放松优化的问题。
[0009] 为了实现上述目的,本公开采用如下技术方案:
[0010] 第一方面,本公开提供一种基于无监督自适应量化多模态哈希检索方法,包括以下步骤:
[0011] 获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
[0012] 将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
[0013] 根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希检索的目标函数;
[0014] 采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
[0015] 构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
[0016] 作为可能的一些实现方式,对于图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,将标签利用词袋模型提取1386维的文本特征。
[0017] 作为可能的一些实现方式,所述基于无监督自适应量化多模态哈希检索方法的目标函数,具体为:
[0018]
[0019] s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
[0020] 其中, 是第l模态的特征矩阵,dl是对应的特征维度;Rl是转换矩阵,Hl是第l模态的基矩阵,C=[C1,...,CM]为由M个独立的码本组成的码本矩阵;
其中每一个码本 包含K个码字,分别对应于训练集中K个原型;||
bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
[0021] 作为可能的一些实现方式,将异构模态的Xl转换为具有投影一致性的多模态因子Hl;
[0022] 利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码;
[0023] 利用显式的样本间语义标签增强哈希码的识别能力。
[0024] 作为可能的一些实现方式,所述计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
[0025] 第二方面,本公开提供一种基于监督自适应量化多模态哈希检索方法,包括以下步骤:
[0026] 获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
[0027] 将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
[0028] 根据训练集的多模态特征,利用样本间语义标签矩阵指导投影学习过程,构造基于监督自适应量化多模态哈希检索的目标函数;
[0029] 采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
[0030] 构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
[0031] 作为可能的一些实现方式,基于监督自适应量化多模态哈希检索方法的目标函数,具体为:
[0032]
[0033] s.t.(Rl)TRl=ID×D,p∈ΔL,||bmn||0=1,bmn∈{-1,1}K
[0034] 其中,超参θ用于支持语义嵌入; 是语义标签矩阵,其中c是语义类别数;是转换矩阵,它可以捕获数据的内在和潜在结构; 是第
l模态的特征矩阵,dl是对应的特征维度;Rl是转换矩阵,Hl是第l模态的基矩阵;C=[C1 ,...,CM]为由M个独立的码本组成的码本矩阵 ;其中每一个码本
包含K个码字,分别对应于训练集中K个原型;||bmn||0=1保证每
个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
[0035] 作为可能的一些实现方式,对于社交图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,将标签利用词袋模型提取1386维的文本特征;
[0036] 作为可能的一些实现方式,所述计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
[0037] 第三方面,本公开提供一种基于自适应量化多模态哈希检索系统,包括:
[0038] 数据预处理模,被配置为获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
[0039] 特征提取模块,被配置为将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
[0040] 目标函数构造模块,被配置为根据训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希的目标函数;
[0041] 目标优化模块,被配置为采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
[0042] 在线权重自适应量化哈希检索模块,被配置为构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
[0043] 第四方面,本公开提供一种基于自适应量化多模态哈希检索系统,包括:
[0044] 数据预处理模块,被配置为获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
[0045] 特征提取模块,被配置为将训练集中的两个模态的原始数据分别输入到预先构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征;
[0046] 目标函数构造模块,被配置为根据训练集的多模态特征,构造训练集的基于监督自适应量化多模态哈希的目标函数;
[0047] 目标优化模块,被配置为采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
[0048] 在线权重自适应量化哈希检索模块,被配置为构造并利用在线权重自适应量化哈希的目标函数,根据得到的训练集的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算测试集中每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
[0049] 第五方面,本公开提供一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希检索方法中的步骤。
[0050] 第六方面,本公开提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希方法中的步骤。
[0051] 与现有技术相比,本公开的有益效果是:
[0052] 1、本公开使用有代表性的原型来学习判别哈希码,它能更好地逼近相邻关系,并且可以减少计算量和存储空间,这是第一次尝试探索量化的多模态检索。
[0053] 2、本公开提出了一种新的多模态自适应权重方案,根据不同的查询内容自动计算适当的模态组合权值,与为所有查询采用一组固定权值的现有方法相比,我们的方法可以为每个查询自动定制一组特定的适当的权值。
[0054] 3、本公开直接学习二进制哈希码,有效地降低了现有方法中松弛策略的量化误差。此外,哈希码可以快速学习,操作简单,具有较高的计算和存储效率。这些优点是大规模多媒体检索所需要的。附图说明
[0055] 图1为本公开实施例1提供的基于无监督和监督的自适应量化多模态哈希检索方法整体框架
[0056] 图2为本公开实施例2提供的基于监督自适应量化多模态哈希检索方法的流程图
[0057] 图3为本公开实施例3所述的基于监督自适应量化多模态哈希检索方法的流程图。

具体实施方式

[0058] 应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0059] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0060] 在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0061] 实施例1:
[0062] 如图1所示,本公开实施例1提供了一种基于无监督自适应量化多模态哈希检索方法,包括:
[0063] S1:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
[0064] 训练集有n个样本,每个样本都包括成对的图像和文本两个模态数据。样本的图像特征矩阵表示为 d1表示图像特征的维度,样本的文本特征矩阵表示为 d2表示文本特征的维度,目标是学习共享的哈希码B∈[-1,1]n×r,
r表示哈希码的长度。
[0065] S2:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征表示;
[0066] 对于图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,利用Bag-of-words模型(词袋模型)提取1386维的文本特征。
[0067] S3:对于训练集的多模态特征,构造基于无监督自适应量化多模态哈希检索方法的目标函数;
[0068] S31:量化哈希学习,具体方法为:为了利用多模态数据的一致性信息,本文首先采用矩阵分解的方法来寻找低维潜在语义空间,而不是直接在原始的特征X进行量化。然后,通过使用学习过的码本对哈希码进行量化来学习哈希码。该过程通过考虑数据的几何结构和模态相关,可以有效地对数据的结构信息进行建模。
[0069] 这一过程的目标函数如下:
[0070]
[0071] 其中, 是第l模态的特征矩阵,dl是对应的特征维度。Rl是转换矩阵,Hl是第l模态的基矩阵。C=[C1,...,CM]为由M个独立的码本组成的码本矩阵。其中每一个码本 包含K个码字,分别对应于训练集中K个原型。特别
地,||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
[0072] 第一项将异构模态的Xl转换为具有投影一致性的多模态因子Hl。特别地,Hl可以映射组合多个模态,弥补异构模态之间的差距,避免模态间的冗余。第二项控制量化项,利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码。
[0073] S32:自适应参数学习,对于多模态哈希,关键问题是如何有效地利用多模态特征的相关性和互补性。多模式哈希码应该在多种模式下保持样本相关性。现有的方法大多采用固定的权值来组合多个特征。他们采用权参数来探索哈希学习的各种模态之间的互补性,并增加一个超参数来平衡正则化项。在实现过程中,这种超参的调整过程是不现实和低效的,特别是在在线查询阶段,查询的语义标签是未知的。此外,固定的权重无法捕获查询的变化,这些变化非常快,而且非常动态。
[0074] 为了建立不同模态之间的相关性,现存方法通常采用如下方式构造目标函数:
[0075]
[0076] 其中,μl是第l模态的权重参数,它能够度量不同模态特征的重要性。通过适当的权值设置,可以很好地利用多模态特征的互补性。另外第二项用来平滑权重分布,特别地,额外的参数λ它在正则化项之间起到平衡的作用。
[0077] 具体来说,如果没有这个正则化项(或λ→0),则将重构损失最小的最佳模态的权重赋值为1,其他模态的权重为0。因此,超参数λ是必要的。另一方面,当λ→∞时,将为每种模式分配一个相等的权重。在这种情况下,权值对多模态特征互补关系的影响逐渐消失。因此,建议这个参数加权哈希学习包含一个额外的超参数λ,其最佳值被确认为与数据相关。但是在实际应用中,这意味着在离线哈希码和函数学习中需要花费更多的时间进行超参数调整。此外,参数调整要求也与我们在实际检索过程中无法手动为每个查询设置合适的超参数这一事实相矛盾。
[0078] 为了解决这一问题,在本开发中,我们引入了一个虚拟权值,并提出了一种新的一致多模态特征映射,该映射与公式(2)可以达到相同的目的,但不需要额外的超参数。具体地,我们计划将这部分表述为:
[0079]
[0080] 特别地,公式(3)可以进行如下转化:
[0081]
[0082] 其中,
[0083] 证明过程如下:
[0084]
[0085] 其中,由于 所以等式(a)成立。根据Cauchy-Schwarz不等式,所以等式(b)成立。因此,
[0086]
[0087] 因此,可以得到:
[0088]
[0089] S33:综合步骤S31和S32,得到基于无监督自适应量化多模态哈希检索方法的目标函数f1如下:
[0090]
[0091] 其中, 是第l模态的特征矩阵,dl是对应的特征维度。Rl是转换矩阵,Hl是第l模态的基矩阵。C=[C1,...,CM]为由M个独立的码本组成的码本矩阵。
其中每一个码本 包含K个码字,分别对应于训练集中K个原型。特
别地,||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。
[0092] 第一项将异构模态的Xl转换为具有投影一致性的多模态因子Hl。特别地,Hl可以映射组合多个模态,弥补异构模态之间的差距,避免模态间的冗余。第二项控制量化项,利用M个码本近似Hl,将同构潜在特征转换为紧凑的二进制码。
[0093] S4:采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
[0094] 由于目标函数中含有多个未知变量,无法直接求解,因此本实施例采用迭代求解算法,固定其他变量,求解一个变量,从而获得最终的最优解。
[0095] 具体优化步骤如下:
[0096] S41:固定其他变量更新基矩阵 目标函数变为:
[0097]
[0098] 在约束(Rl)TRl的条件下,我们将上述方程转换为以下等价形式:
[0099]
[0100] 其中,G=Xl(Hl)T。因此, 可以通过如下公式求解得到:
[0101] Rl=PQT    (11)
[0102] 其中,P和Q分别由G的左奇异向量和右奇异向量组成。
[0103] S42:固定其他变量更新 目标函数变为:
[0104]
[0105] 对 求偏导,并将其设为零,可以得到:
[0106]
[0107] S43:固定其他变量更新C,目标函数变为:
[0108]
[0109] 对C求偏导,并将其设为零,可以得到:
[0110]
[0111] S44:固定其他变量更新自适应参数p,目标函数变为:
[0112]
[0113] 根据公式(5)的推导,
[0114]
[0115] 结合Cauchy-Schwarz不等式,得到最优解:
[0116]
[0117] S45:固定其他变量,求哈希码B。
[0118] 由于二进制码的离散约束,哈希码的求解是一个np难问题。注意,哈希码Bn(n=1,...,N)是相互独立的,因此将B的优化问题被分成N个子问题。具体来说,优化问题可以归结为一个高阶尔可夫随机场问题。我们采用一种广泛使用的迭代条件模态(ICM)算法来求解。
[0119] 更新Bn的目标函数可以表示为:
[0120]
[0121] 给定{bm,n}m,≠m固定,我们更新bmn的方法是检查码本中的所有码字,从而使公式(19)中的目标值最小,并将该bmn对应项设置为1,其余项设置为0。如前所述,约束保证每个码本只能激活一个码字来近似输入数据。重复上述步骤直到收敛,即可得到训练样本的二进制哈希码和特定于模态的投影矩阵。该策略代替了DCC方法,有效地减少了训练阶段的收敛时间,提高了大规模检索任务的效率。
[0122] S5:构造并利用在线权重自适应量化哈希的目标函数,根据计算得到的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
[0123] 在线权重自适应量化哈希的目标函数为:
[0124]
[0125] 其中nq是查询样本的数量。另外,变换矩阵 和码本 是来自离线学习过程。Bq是查询样本的哈希码矩阵。 是每个模态的自适应权重,用来测量每个模态的贡献。在本实例中,虚拟权重用于捕获查询的变化,因此可以提高检索性能。
[0126] 采用以下迭代步骤将新的查询样本映射到哈希码中。
[0127] S51:固定其他变量,求自适应权重p,优化公式为:
[0128]
[0129] S52:固定其他变量更新 可以得到:
[0130]
[0131] S53:固定其他变量更新Bq,目标函数可以表示为:
[0132]
[0133] 与公式(19)相似,Bq的优化问题可以通过ICM算法来解决。给定{bqm,n}m,≠m固定,我们更新bqmn。当找到目标值最小化的元素后,我们将相应的{bqm,n}设置为1,其他的都设置为0。
[0134] 本实施例采用TopK-精度(TopK-precision)和平均精度(Mean Average Precision,MAP)作为评价指标,它们的值越大表示检索性能越好。具体定义分别为:
[0135] 1)TopK-precision
[0136] 该标准反映了检索精度随着检索到的样本数量的变化而变化的情况。获取检索到前K个样本,TopK-precision表示K个样本中相关样本所占的比例。
[0137] 2)MAP
[0138] 给定一个检索样本集合,其中每个检索样本的平均准确率(AP)定义为:
[0139]
[0140] 其中,R是返回的检索样本总数,N是返回的与查询相关的样本总数,P(r)表示前r个检索结果的精度,如果第r个检索得到的样本与查询样本相关则δ(r)=1,否则δ(r)=0,所有样本的AP值的平均值即MAP。
[0141] 实施例2:
[0142] 如图2所示,本公开实施例2提供了一种基于监督自适应量化多模态哈希检索方法,包括:
[0143] S1:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
[0144] S2:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征表示;
[0145] S3:对于训练集的多模态特征,利用样本间语义标签矩阵来指导投影学习过程,构造基于监督自适应量化多模态哈希检索方法目标函数;
[0146] S31:量化哈希学习,具体方法为:为了利用多模态数据的一致性信息,本文首先采用矩阵分解的方法来寻找低维潜在语义空间,而不是直接在原始的特征X进行量化。然后,通过使用学习过的码本对哈希码进行量化来学习哈希码。该过程通过考虑数据的几何结构和模态相关,可以有效地对数据的结构信息进行建模。
[0147] S32:自适应参数学习,为了建立不同模态之间的相关性,现存方法通常采用如下方式构造目标函数:
[0148]
[0149] 其中,μl是第l模态的权重参数,它能够度量不同模态特征的重要性。通过适当的权值设置,可以很好地利用多模态特征的互补性。另外第二项用来平滑权重分布,特别地,额外的参数λ它在正则化项之间起到平衡的作用。
[0150] S33:监督学习,大多数现有的多模态哈希方法都侧重于无监督方法。然而,它们不能有效地利用非监督学习中不同模态特征的互补性。因此我们进一步在有监督语义标签的指导下进行哈希学习。
[0151] S34:综合步骤S31、S32和S33,得到基于监督自适应量化多模态哈希检索方法的目标函数f2如下:
[0152]
[0153] 其中, 是第l模态的特征矩阵,dl是对应的特征维度。Rl是转换矩阵,Hl是第l模态的基矩阵。C=[C1,...,CM]为由M个独立的码本组成的码本矩阵。其中每一个码本 包含K个码字,分别对应于训练集中K个原型。特别
地,||bmn||0=1保证每个码本只能激活一个码字来近似输入数据,||·||0=1可以简单地计算向量的非零元素的数目。超参θ用于支持语义嵌入。 是样本间语义标签矩阵。
是转换矩阵,它可以捕获数据的内在和潜在结构,其中c是语义类别的数量。
[0154] 第一项将异构模态特征转化为具有投影一致性的一致多模态因子,第二项控制量子化项,将同构潜在特征转化为紧凑的二进制码,第三项利用显式的样本间语义标签来增强哈希码的识别能力。
[0155] S4:采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
[0156] 由于目标函数中含有多个未知变量,无法直接求解,因此本实施例采用迭代求解算法,固定其他变量,求解一个变量,从而获得最终的最优解。
[0157] 具体优化步骤如下:
[0158] S41:固定其他变量更新基矩阵 可以通过如下公式求解得到:
[0159] Rl=PQT    (27)
[0160] 其中,P和Q分别为Xl(Hl)T的左奇异向量和右奇异向量。
[0161] S42:固定其他变量更新 可以得到:
[0162]
[0163] S43:固定其他变量更新C,可以得到:
[0164]
[0165] S44:固定其他变量更新自适应参数p,结合Cauchy-Schwarz不等式,得到最优解:
[0166]
[0167] S45:固定其他变量更新Wl,可以通过如下公式求解得到:
[0168] Wl=PQT    (31)
[0169] 其中,P和Q分别为HlLT的左奇异向量和右奇异向量。
[0170] S46:固定其他变量,求哈希码B。
[0171] 我们采用一种广泛使用的迭代条件模态(ICM)算法来求解。
[0172] 更新Bn的目标函数可以表示为:
[0173]
[0174] 给定{bm,n}m,≠m固定,我们更新bmn的方法是检查码本中的所有码字,从而使公式(19)中的目标值最小,并将该bmn对应项设置为1,其余项设置为0。如前所述,约束保证每个码本只能激活一个码字来近似输入数据。重复上述步骤直到收敛,即可得到训练样本的二进制哈希码和特定于模态的投影矩阵。
[0175] S5:构造并利用在线权重自适应量化哈希的目标函数,根据计算得到的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
[0176] 实施例3:
[0177] 如图3所示,本公开实施例3提供了一种基于自适应量化多模态哈希检索系统,包括:
[0178] 数据预处理模块,被配置为:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据;
[0179] 特征提取模块,被配置为:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,得到提取后的多模态特征表示;
[0180] 目标函数构造模块,被配置为:对于训练集的多模态特征,构造训练集的基于无监督自适应量化多模态哈希的目标函数f1和/或基于监督自适应量化多模态哈希的目标函数f2;
[0181] 目标优化模块,被配置为:采用迭代求解算法求解上述目标函数,得到训练集的基矩阵和码本;
[0182] 在线权重自适应量化哈希检索模块,被配置为:构造并利用在线权重自适应量化哈希的目标函数,根据计算得到的基矩阵和码本,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
[0183] 实施例4:
[0184] 本公开提供一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希检索方法中的步骤。
[0185] 实施例5:
[0186] 本公开提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如本公开第一方面和/或第二方面所述的基于自适应量化多模态哈希方法中的步骤。
[0187] 以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈