首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 一种图像描述生成方法、装置、设备以及可读存储介质

一种图像描述生成方法、装置、设备以及可读存储介质

阅读:1037发布:2020-06-16

专利汇可以提供一种图像描述生成方法、装置、设备以及可读存储介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种图像描述生成方法、装置、设备以及计算机可读存储介质,包括:将待描述的产品图像输入至预先完成训练的图像 编码器 中,输出所述产品图像的 特征向量 ;将所述产品的属性描述信息输入至预先完成训练的 属性信息 编码器中,输出所述产品属性信息的特征向量;利用多层 感知 器对所述特征向量与所述字符向量进行特征融合,得到所述产品图像的目标特征向量;将所述目标特征向量输入至预先完成训练的 解码器 中,生成并输出所述产品图像的目标图像描述。本发明所提供的方法、装置、设备以及计算机可读存储介质,可以为产品图像自动生成具有针对性的、丰富的图像描述。,下面是一种图像描述生成方法、装置、设备以及可读存储介质专利的具体信息内容。

1.一种图像描述生成方法,其特征在于,包括:
将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量
将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;
利用多层感知器对所述产品图像的特征向量与所述产品属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;
将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。
2.如权利要求1所述的方法,其特征在于,所述将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的图像特征前还包括:
利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。
3.如权利要求1所述的方法,其特征在于,所述将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量包括:
利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量。
4.如权利要求3所述的方法,其特征在于,所述利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量包括:
对所述产品的属性描述信息进行分词处理后,利用预先完成训练的word2vec模型提取所述属性描述信息的词向量与字向量。
5.如权利要求1所述的方法,其特征在于,所述将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述包括:
将所述目标特性向量输入至注意机制后,将所述注意力机制的输出输入至预先完成训练的长短时记忆神经网络中,输出所述产品图像的目标图像描述。
6.一种图像描述生成装置,其特征在于,包括:
图像特征向量提取模,用于将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;
属性特征向量提取模块,用于将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;
特征融合模块,用于利用多层感知器对所述产品图像的特征向量与所述产品属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;
图像描述生成模块,用于将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。
7.如权利要求6所述的装置,其特征在于,所述特征向量提取模块前还包括:
训练模型,用于利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。
8.如权利要求6所述的装置,其特征在于,所述图像描述生成模块具体用于:
将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先完成训练的长短时记忆神经网络中,输出所述产品图像的目标图像描述。
9.一种图像描述生成设备,其特征在于,包括:
存储器,用于存储计算机程序
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述一种图像描述生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种图像描述生成方法的步骤。

说明书全文

一种图像描述生成方法、装置、设备以及可读存储介质

技术领域

[0001] 本发明涉及图像处理技术领域,特别是涉及一种图像描述生成方法、装置、设备以及计算机可读存储介质。

背景技术

[0002] 在互联网信息大爆发的时代下,内容化具有很重要的业务价值,各个领域开始从粗放争夺用户量转向精细化争夺用户量的过渡,特别是电商产品信息发布。随着互联网应用的全面普及以及技术的快速发展,网络数据吞吐量非常大,整体数据量也呈井喷式增长。与此同时,数据的形式也不再是单一的文本模式,而是日趋多样化,图文结合的信息更能吸引网民的观看,成为人们获取网络内容的重要形式。以产品信息获取为例,产品评测是用户获新发布产品信息的第一手资料。这些图文信息能够帮助用户掌握产品信息,帮助厂商推广产品,为用户的消费提供专业建议。目前图像描述主要还是依靠人工完成,存在工作量大、工作乏味、工作效率低和成本高等问题。
[0003] 现有技术中的图像描述方法可总结为基于生成的方法、基于检索的方法以及基于编码-解码的方法三大类。目前在图像描述领域效果最好的是基于编码-解码的方法,该方法分为编码和解码两个阶段,编码阶段用深度卷积神经网络提取图像的视觉特征,然后将提取到的图像视觉特征作为解码阶段的输入。由于产品图像的属性描述并不能从图像特征中获取,因此上述图像描述的方法并不适用于产品图像的描述。
[0004] 大多数基于编码-解码模型进行改进的图像描述技术,由于使用的是MSCOCO或Flickr30K这些公开数据集,研究方法仅致于生成能反映图像特征的上下文描述。所以,这些方法生成的句子通常是对视觉内容的一般描述,而忽略了背景信息。在真实世界中,以电商产品图像为例,图像视觉信息并不会完全表达产品的一些背景信息。
[0005] 综上所述可以看出,如何有效生成产品图像的图像描述是目前有待解决的问题。

发明内容

[0006] 本发明的目的是提供一种图像描述生成方法、装置、设备以及计算机可读存储介质,以解决现有技术中的图像描述方法无法对产品图像进行针对性描述的问题。
[0007] 为解决上述技术问题,本发明提供一种图像描述生成方法,包括:将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;利用多层感知器对所述产品图像的特征向量与所述属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。
[0008] 优选地,所述将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的图像特征前还包括:
[0009] 利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。
[0010] 优选地,所述将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量包括:
[0011] 利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量。
[0012] 优选地,所述利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量包括:
[0013] 对所述产品的属性描述信息进行分词处理后,利用预先完成训练的word2vec模型提取所述属性描述信息的词向量与字向量。
[0014] 优选地,所述将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述包括:
[0015] 将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先完成训练的长短时记忆神经网络中,输出所述产品图像的目标图像描述。
[0016] 本发明还提供了一种图像描述生成装置,包括:
[0017] 图像特征向量提取模,用于将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;
[0018] 属性特征向量提取模块,用于将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;
[0019] 特征融合模块,用于利用多层感知器对所述产品图像的特征向量与所述属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;
[0020] 图像描述生成模块,用于将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。
[0021] 优选地,所述特征向量提取模块前还包括:
[0022] 训练模型,用于利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。
[0023] 优选地,所述图像描述生成模块具体用于:
[0024] 将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先完成训练的长短时记忆神经网络中,输出所述产品图像的目标图像描述。
[0025] 本发明还提供了一种图像描述生成设备,包括:
[0026] 存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种图像描述生成方法的步骤。
[0027] 本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种图像描述生成方法的步骤。
[0028] 本发明所提供的图像描述生成方法,将待描述的产品图像输入至预先完成训练的图像编码器中,提取所述产品图像的图像特性向量。将所述产品图像中对应产品的属性描述信息输入至属性信息编码器中,得到产品属性信息的特征向量。将所述产品图像的特征向量与所述属性信息的特征向量进行融合,得到所述产品图像的目标特征向量。将所述目标特性向量输入至所述预先完成训练的解码器中,生成所述产品图像的目标图像描述。本发明所提供的方法,为了解决现有的图像描述方法不能从产品图像中获取产品属性描述信息,导致不能对产品图像生成具有针对性的图像描述的问题,将利用图像编码器提取到的产品图像的特性向量与属性描述编码器提取的产品属性描述信息的字符向量进行融合,从而生成更加丰富的、具有针对性的图像描述。附图说明
[0029] 为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030] 图1为本发明所提供的图像描述生成方法的第一种具体实施例的流程图
[0031] 图2为本发明所提供的图像描述生成方法的第二种具体实施例的流程图;
[0032] 图3为LSTM模型的网络结构示意图;
[0033] 图4为本发明实施例所提供的产品图像描述生成算法的网络框架示意图;
[0034] 图5为本发明实施例提供的一种图像描述生成装置的结构框图

具体实施方式

[0035] 本发明的核心是提供一种图像描述生成方法、装置、设备以及计算机可读存储介质,可以自动为产品图像生成具有针对性的图像描述。
[0036] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037] 请参考图1,图1为本发明所提供的图像描述生成方法的第一种具体实施例的流程图;具体操作步骤如下:
[0038] 步骤S101:将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;
[0039] 在本实施例中,可以采用VGG16卷积神经网络作为图像编码器,VGG16模型由13个卷积层与3个全连接层叠加而成,通过采用多个大小的卷积层堆叠的方式以获得更多的非线性变换,增加了图像的特征表达能力。所述VGG16模型可以很好地对图像特征进行编码,并且训练速度快。在本实施例中,基于迁移学习的方式,利用ImageNet数据集对所述VGG16模型进行训练,从而得到训练完成的图像编码器。
[0040] 步骤S102:将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;
[0041] 在本实施例中,可以利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的字符向量。
[0042] 每个产品的描述可能会包含一些描述产品的属性词语,而这些词语针对不同的产品会有不同的描述。每个产品的描述包含多个属性描述,即产品的固有属性,如外观、颜色等,还有隐含的信息,如使用体验等。
[0043] 步骤S103:利用多层感知器对所述产品图像的特征向量与所述属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;
[0044] 可以利用v=(v1,v2,...,vn)表示所述产品图像的特征向量,利用a=(a1,a2,...,al)表示所述属性信息的特征向量。
[0045] 步骤S104:将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。
[0046] 为了解决基于现有技术中基于编码-解码模型的图像描述方法忽略了产品的属性描述信息的问题,本实施例通过向编码-解码模型中引入图像的背景信息,例如图像中产品的一些独有的属性和使用感受信息等,通过这些信息指导训练生成模型,从而使模型能够生成具有针对性的、符合给定产品图像的描述句子。本实施例所提供的方法相对于传统的描述生成方法,引入了额外信息,使描述更丰富;并且可以自动生成具有针对性的图像描述。
[0047] 基于上述实施例,在本实施例中,可以将语料分别依据词语分字及依据单个文字分字的方式训练一个word2vec模型以获得产品属性描述信息的词向量与字向量。在本实施例中,还可以结合注意力机制与长短时记忆神经网络(LSTM)构建解码器。请参考图2,图2为本发明所提供的图像描述生成方法的第二种具体实施例的流程图;具体操作步骤如下:
[0048] 步骤S201:将待描述的产品图像输入至预先完成训练的VGG16模型中,输出所述产品图像的特征向量;
[0049] 步骤S202:对所述产品的属性描述信息进行分词处理后,利用预先完成训练的word2vec模型提取所述属性描述信息的词向量与字向量;
[0050] 所述产品的属性描述信息多种多样,可能会存在不包含在语料中的词语,即未登录词。由于词语的组合比字的组合要多很多,所以如果将额外信息按照词语划分,出现未登录词的几率会很高。因此,我们将语料按词语分词和按单个文字分字的方式训练一个word2vec模型以获得词语和字的向量表示,这样可以有效解决未登录词的情况。
[0051] 在实际使用中,将所述属性描述信息进行分词处理并尝试获取词语的词向量,如果发现该词不存在于语料中,则将其拆分成字,获取字向量。
[0052] 步骤S203:利用多层感知器对所述特征向量、所述词向量与所述字向量进行特征融合,得到所述产品图像的目标特征向量;
[0053] 步骤S204:将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先完成训练的长短时记忆神经网络中,输出所述产品图像的目标图像描述。
[0054] 常规的语言模型,在生成每个词语wt(wt=w1,...,wn)时,会受到前面已生成词语的影响,例如一个句子的概率为
[0055] 我们的语言模型加入了限制条件,即图像与属性描述信息的融合特征,记为c,则每次生成一个词语时都会受到前面已生成词语和融合特征的影响。
[0056] 所述语言模型即为解码器,在本实施例中,可以使用长短时记忆神经网络(LSTM)实现,所述LSTM模型的网络结构如图3所示。LSTM模型是一个时间循环神经网络,适合于处理和预测有时间序列关系的数据,在自然语言生成中有广泛的应用。它引入了一个记忆单元,将有用的信息进行保存,所以对于长时间序列的数据来说具有不错的效果。LSTM拥有三个来保护和控制记忆单元的状态:输入门、输出门和遗忘门,它们的信息流向为:
[0057] ft=σ(Wf·[ht-1,xt]+bf)
[0058] it=σ(Wi·[ht-1,xt]+bi)
[0059] Ct=ft*Ct-1+it*tanh(WC·[ht-1,xt]+bC)
[0060] ot=σ(Wo·[ht-1,xt]+bo)
[0061] ht=ot*tanh(Ct)
[0062] 其中,ft,it,ot分别表示t时刻遗忘门、输入门和输出门的状态;ht表示t时刻LSTM的隐藏层输出;Ct表示t时刻记忆单元的状态;σ(·)表示sigmoid激活函数;tanh是一个双曲正切激活函数。
[0063] 为了在LSTM模型的每个时间步从大量特征中快速筛选出高价值特征,将注意力机制引入解码器中以计算LSTM的每个时间步对特征的关注点。
[0064] 本实施例所提供的产品图像描述生成算法,包括两个编码器,一个多层感知机(MLP)和一个解码器,总体框架结构如图4所示。所述产品图像描述生成算法的输入数据为所述产品图像与包含图像隐藏信息的属性描述信息,利用预先完成训练的VGG16模型以及word2vec模型分别对所述产品图像与所述属性描述信息进行编码得到两个向量,然后利用MLP对所述两个向量进行特征融合,得到一个目标特征向量并输入至注意力机制,将所述注意力机制的输出输入至LSTM模型中,由所述LSTM模型对输入向量进行解码生成目标图像描述。本实施例所提供的图像描述生成方法,将图像的背景隐藏信息引入编码端和图像特征相融合,通过这些信息指导训练生成模型,从而使模型能够生成具有针对性的、符合给定图像的描述句子。本实施例还使用词向量和字向量结合的方式编码文字,有效应对未登录词的情况。
[0065] 请参考图5,图5为本发明实施例提供的一种图像描述生成装置的结构框图;具体装置可以包括:
[0066] 图像特征向量提取模块100,用于将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;
[0067] 属性特征向量提取模块200,用于将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;
[0068] 特征融合模块300,用于利用多层感知器对所述产品图像的特征向量与所述属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;
[0069] 图像描述生成模块400,用于将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。
[0070] 本实施例的图像描述生成装置用于实现前述的图像描述生成方法,因此图像描述生成装置中的具体实施方式可见前文中的图像描述生成方法的实施例部分,例如,图像特征向量提取模块100,属性特征向量提取模块200,特征融合模块300,图像描述生成模块400,分别用于实现上述图像描述生成方法中步骤S101,S102,S103和S104,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
[0071] 本发明具体实施例还提供了一种图像描述生成设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种图像描述生成方法的步骤。
[0072] 本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种图像描述生成方法的步骤。
[0073] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0074] 专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0075] 结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
[0076] 以上对本发明所提供的图像描述生成方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈