专利汇可以提供基于可信度自适应匹配网络的跨模态图像文本检索方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了基于可信度自适应匹配网络的跨模态图像文本检索方法,属于计算机多媒体领域,包括以下步骤:S1:给定图像-文本数据集,进行数据准备,包括图像特征 抽取 以及文本的分词和id表示,S2:构建可信度自适应匹配网络模型,S3:模型在训练集上充分训练,S4:检索性能测试。该基于可信度自适应匹配网络的跨模态图像文本检索方法通过引入可信度评估可以有效解决传统的细粒度检索方法中的相似度估计偏差问题,获得了性能上的提升,在Flickr30k上,图像检索文本任务上最大可以提升1.7%(Recall@5),文本检索图像任务上最大可以提升7.7%(Recall@5),在MSCOCO上,图像检索文本可以最大提升1.3%,而在文本检索图像上可以提升2.8%。,下面是基于可信度自适应匹配网络的跨模态图像文本检索方法专利的具体信息内容。
1.基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于,包括以下步骤:
S1:给定图像-文本数据集,进行数据准备,包括图像特征抽取以及文本的分词和id表示,具体为以下内容:
图像特征表示:采用基于深度学习的对象检测模型Faster R-CNN来抽取图像信息;具体来说,将给定图像,I,输入到Faster R-CNN中,Faster R-CNN会自动检测图像中出现实体的区域,通过极大抑制法,抽取了36个区域特征,并通过线性变换得到图像特征表示,用V=d
{vi∈R|i∈[1,36]}表示,其中每个vi都是一个1024维度的向量;为了便于下文描述,称V为图像的局部特征集,也可以通过平均池化操作得到图像的全局特征,即
文本特征表示:采用双向门控循环单元来抽取每个词的特征;给定含有m个词的文本,Bi-GRU可以从两个方向得到每个词的特征,用 和 分别表示第j个词的前向特征和后向特征;然后将这两种特征平均得到最终的每个词的特征,用tj来表示,则有 用大d
写T={tj|j∈[1,m],tj∈R}表示词特征集合,其中每个tj特征维度是1024;进一步地,将第一个词的后向特征和最后一个词的前向特征平均得到文本特征,即
S2:构建可信度自适应匹配网络模型,具体为以下内容:
本发明提出的基于可信度自适应匹配网络的跨模态特征匹配方法首先使用注意力模型捕捉词和图像区域的依赖关系,然后使用一种模态的全局信息去监督另外一种模态的局部信息,使得在做相似度估计的时候不遗漏不匹配的关键语义信息;不同于别的方法只用注意力模型来捕捉局部的细粒度关系,本发明的方法引入了可信度匹配网络来对这种局部关系的建模方式进行可信度的评价,使得最终的相似度估计能够考虑不配对的语义信息;
此外,本发明的基于可信度的自适应匹配网络可以构建在不同的局部关系建模模型之上;
这里,具体阐述两种:基于图像空间的可信度自适应匹配网络以及基于文本空间的可信度自适应匹配网络;
基于图像空间的可信度自适应匹配网络:首先使用注意力模型得到局部关系;具体来说,从S1的跨模态特征表示方法中,得到了图像的区域特征集合V={vi∈Rd|i∈[1,n]}以及文本的词特征集合{tj|j∈[1,m],tj∈Rd},利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine(vi,tj);经过规范化后的关系系数为 可以给
每个vi计算得到文本上下文信息, 其中 接着,为每个vi
定义一个相关性得分, 使用文本的全局特征 来衡量每个vi的
可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;vi的可信度可以定义为 其中sigmoid是一个带有sigmoid激活函数的门控
非线性层;则图像I和文本S的相似度可以为:
基于文本空间的可信度自适应匹配网络;首先利用cosine函数计算每个区域vi和每个词tj的关系,即sij=cosine (vi,tj) ;经过规范化后的关系系数为
可以给每个tj计算得到图像上下文信息, 其中
接着,为每个tj定义一个相关性得分, 使
用图像的全局特征 来衡量每个tj的可信度,并把可信度得分加权到相关性得分中来得到最终的相似性估计;tj的可信度可以定义为 其中sigmoid
是一个带有sigmoid激活函数的门控非线性层;则图像I和文本S的相似度可以为:
S3:模型在训练集上充分训练,具体为以下内容:
初始化可信度自适应匹配网络所有可学参数,每次从训练集中随机采样一个128个图像文本对,组成一个batch数据,输入到可信自适应匹配网络中得到一个128x128维的相似度评分矩阵,矩阵的每个元素表示图像和文本的相似度得分;然后使用基于最难负例的三元组损失函数训练模型,损失函数中Δ是一个可调参数,默认设置为0.2;网络使用Adam作为优化器进行训练,Flickr30k上学习率设置为2e-4,训练15轮后衰减为2e-5,总共训练30轮;COCO上学习率设置为5e-4,训练10轮后衰减为5e-5,总共训练20轮;
S4:检索性能测试,具体为以下内容:
对于图像检索文本任务,首先构建一个文本库,然后给定一张图片作为测试样例,利用训练好的可信度自适应匹配网络从文本库中检索出相似度最高的10个文本,计算对应的召回率指标;为了测试的便利,保证每张图片在文本库中都有对应的匹配的文本;对于文本检索图像任务,构建图像库,给定一个文本,利用训练好的可信度自适应匹配网络从图像库中检索出相似度最高的10个图像,计算对应的召回率指标;同样,保证每个文本在图像库中都有对应的匹配图像。
2.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S3中,训练时通过最小化一种基于最难负例的三元组损失函数来优化模型参数,使得在共享的潜在语义空间中,相似的图像和文本距离小,而不相似的图像和文本距离大;给定配对图像I和文本S,首先在采样得到的batch中找到其各自的最难负例Ih和Sh,满足: 和 然后计算损失函数为:L(I,S)=max(0,Δ-
F(I,S)+F(I,Sh))+max(0,Δ-F(I,S)+F(Ih,S)),Δ控制正例的相似度比最难负例大的程度。
3.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S2中,基于不同的局部关系建模模型,对每一种局部关系进行可信度度量,并把度量结果加入到最终的相似度估计过程中,降低了估计偏差。
4.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S2中,基于图像空间的可信度自适应匹配网络首先通过计算机每个图像区域和每个词的关系,并通过注意力模型得到每个图像区域对应的文本上下文特征,接着计算每个图像区域特征和对应的文本上下文特征的相关性得分,此外,通过sigmoid门函数计算图像区域特征和文本全局特征的关系得到每个图像区域的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。
5.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:在S2中,基于文本空间的可信度自适应匹配网络首先通过计算机每个图像区域和每个词的关系,并通过注意力模型得到每个词对应的图像上下文特征,接着计算每个词特征和对应的图像上下文特征的相关性得分,此外,通过sigmoid门函数计算词特征和图像全局特征的关系得到每个词的可信度度量,最后将对可信度度量和相关性得分乘积并累加得到图像和文本的相似性估计。
6.根据权利要求1所述的基于可信度自适应匹配网络的跨模态图像文本检索方法,其特征在于:基于图像空间的可信度自适应匹配网络与基于文本空间的可信度自适应匹配网络单独训练,测试时可以单独使用,也可以使用组合使用。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于相似度度量的人脸确认方法 | 2020-05-11 | 463 |
一种知识图谱驱动型的法律智能咨询系统 | 2020-05-14 | 582 |
软件相似性度量方法及装置 | 2020-05-12 | 466 |
一种学术资源推荐服务系统与方法 | 2020-05-12 | 322 |
一种基于物品时间流行性的推荐方法 | 2020-05-08 | 846 |
基于语义指导与记忆机制的视频描述方法 | 2020-05-12 | 422 |
编码医学词汇的映射 | 2020-05-11 | 640 |
一种基于隔离森林的海量数据异常值检测算法 | 2020-05-13 | 628 |
使用来自正交行和列的全局机器学习特征的表头部检测 | 2020-05-15 | 917 |
一种基于事理推荐的逻辑图谱构建及预警方法和装置 | 2020-05-13 | 921 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。