首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 多层感知器 / 确定图像标签准确度的方法、装置及计算机可读存储介质

确定图像标签准确度的方法、装置及计算机可读存储介质

阅读:1014发布:2020-06-07

专利汇可以提供确定图像标签准确度的方法、装置及计算机可读存储介质专利检索,专利查询,专利分析的服务。并且本公开是关于一种确定图像标签准确度的方法、装置及计算机可读存储介质,属于 图像处理 领域,能够得到输入图像对应的每个标签的准确度,有效的提升搜索排序的相关性和准确度,有效地去除错误标签对搜索结果的影响,并降低准确度低的标签的排序顺位。该方法包括:提取输入图像的图像 特征向量 ;计算与所述输入图像相对应的每个标签的词嵌入向量;将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及基于所述联合特征向量计算每个所述标签的准确度。,下面是确定图像标签准确度的方法、装置及计算机可读存储介质专利的具体信息内容。

1.一种确定图像标签准确度的方法,其特征在于,包括:
提取输入图像的图像特征向量
计算与所述输入图像相对应的每个标签的词嵌入向量;
将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及基于所述联合特征向量计算每个所述标签的准确度。
2.根据权利要求1所述的方法,其特征在于,所述提取输入图像的图像特征向量包括:
利用卷积神经网络提取所述输入图像的图像特征向量。
3.根据权利要求1所述的方法,其特征在于,所述计算与所述输入图像相对应的每个标签的词嵌入向量包括:
通过word2vec模型计算与所述输入图像相对应的每个标签的词嵌入向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所述联合特征向量计算每个所述标签的准确度,包括:
利用多层感知器并基于所述联合特征向量,计算每个所述标签的准确度。
5.一种确定图像标签准确度的装置,其特征在于,包括:
图像特征向量提取模,用于提取输入图像的图像特征向量;
词嵌入向量计算模块,用于计算与所述输入图像相对应的每个标签的词嵌入向量;
拼接模块,用于将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及
准确度计算模块,用于基于所述联合特征向量计算每个所述标签的准确度。
6.根据权利要求5所述的装置,其特征在于,所述图像特征向量提取模块包括:
图像特征向量提取子模块,用于利用卷积神经网络提取所述输入图像的图像特征向量。
7.根据权利要求5所述的装置,其特征在于,所述词嵌入向量计算模块包括:
词嵌入向量计算子模块,用于通过word2vec模型计算与所述输入图像相对应的每个标签的词嵌入向量。
8.根据权利要求5所述的装置,其特征在于,所述准确度计算模块包括:
准确度计算子模块,用于利用多层感知器并基于所述联合特征向量,计算每个所述标签的准确度。
9.一种确定图像标签准确度的装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器
其中,所述处理器被配置为:
提取输入图像的图像特征向量;
计算与所述输入图像相对应的每个标签的词嵌入向量;
将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及基于所述联合特征向量计算每个所述标签的准确度。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~4中任一项所述方法的步骤。

说明书全文

确定图像标签准确度的方法、装置及计算机可读存储介质

技术领域

[0001] 本公开涉及图像处理领域,尤其涉及一种确定图像标签准确度的方法、装置及计算机可读存储介质。

背景技术

[0002] 常用的图像搜索功能一般是通过关键字(也即图像标签)对图像进行搜索。相关技术中,在图像数据库中,每张图像会有其相对应的若干标签,这些标签一般通过用户上传图像时附带的标记来自动生成,或者是在图像数据库中通过图像识别技术自动生成。以图1所示的图像为例。利用用户上传图像时附带的标记或者利用图像识别技术自动生成的标签可能包括天空、大海、轮船、港口和海,其中前四个标签为正确标签,最后一个标签“海鸟”为错误标签。而且,由于标签中存在一些错误并且每个标签的权重是相同的,所以会影响后续的图像搜索排序的准确度。发明内容
[0003] 为克服相关技术中存在的问题,本公开提供一种确定图像标签准确度的方法、装置及计算机可读存储介质。
[0004] 根据本公开实施例的第一方面,提供一种确定图像标签准确度的方法,包括:
[0005] 提取输入图像的图像特征向量
[0006] 计算与所述输入图像相对应的每个标签的词嵌入向量;
[0007] 将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及
[0008] 基于所述联合特征向量计算每个所述标签的准确度。
[0009] 可选地,所述提取输入图像的图像特征向量包括:利用卷积神经网络提取所述输入图像的图像特征向量。
[0010] 可选地,所述计算与所述输入图像相对应的每个标签的词嵌入向量包括:通过word2vec模型计算与所述输入图像相对应的每个标签的词嵌入向量。
[0011] 可选地,所述基于所述联合特征向量计算每个所述标签的准确度,包括:利用多层感知器并基于所述联合特征向量,计算每个所述标签的准确度。
[0012] 根据本公开的第二实施例,提供一种确定图像标签准确度的装置,包括:
[0013] 图像特征向量提取模,用于提取输入图像的图像特征向量;
[0014] 词嵌入向量计算模块,用于计算与所述输入图像相对应的每个标签的词嵌入向量;
[0015] 拼接模块,用于将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及
[0016] 准确度计算模块,用于基于所述联合特征向量计算每个所述标签的准确度。
[0017] 可选地,所述图像特征向量提取模块包括:图像特征向量提取子模块,用于利用卷积神经网络提取所述输入图像的图像特征向量。
[0018] 可选地,所述词嵌入向量计算模块包括:词嵌入向量计算子模块,用于通过word2vec模型计算与所述输入图像相对应的每个标签的词嵌入向量。
[0019] 可选地,所述准确度计算模块包括:准确度计算子模块,用于利用多层感知器并基于所述联合特征向量,计算每个所述标签的准确度。
[0020] 根据本公开的第三实施例,提供一种确定图像标签准确度的装置,包括:
[0021] 处理器;
[0022] 用于存储处理器可执行指令的存储器
[0023] 其中,所述处理器被配置为:
[0024] 提取输入图像的图像特征向量;
[0025] 计算与所述输入图像相对应的每个标签的词嵌入向量;
[0026] 将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及
[0027] 基于所述联合特征向量计算每个所述标签的准确度。
[0028] 根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一实施例所提供的确定图像标签准确度的方法的步骤。
[0029] 通过采用上述技术方案,由于能够将输入图像的图像特征向量与该输入图像的每个标签的词嵌入向量进行拼接得到联合特征向量,然后基于所述联合特征向量计算每个所述标签的准确度,也即能够将图像的文本信息(例如标签)与图像信息(例如,图像特征向量)结合起来进行分析以得到输入图像对应的每个标签的准确度,这样输入图像的每个标签的权重就是不同的,从而在做图像搜索排序时,可以有效的提升搜索排序的相关性和准确度,有效地去除错误标签对搜索结果的影响,并降低准确度低的标签的排序顺位。
[0030] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明
[0031] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0032] 图1示出了一种示例性的图像。
[0033] 图2是根据一示例性实施例示出的一种确定图像标签准确度的方法的流程图
[0034] 图3是根据一示例性实施例示出的一种确定图像标签准确度的装置的框图
[0035] 图4是根据一示例性实施例示出的一种确定图像标签准确度的装置的框图。

具体实施方式

[0036] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0037] 图2是根据一示例性实施例示出的一种确定图像标签准确度的方法的流程图,如图2所示,该方法用于终端中,包括以下步骤。
[0038] 在步骤S21中,提取输入图像的图像特征向量。
[0039] 每一幅图像都具有能够区别于其他类图像的自身特征,有些是可以直观感受到的自然特征,如亮度、边缘、纹理和色彩等;有些则是需要通过变换或处理才能得到的,如矩、直方图以及主成份等。在对图像进行识别时,通常会将图像对象的多个或多种特性组合在一起,形成一个图像特征向量来代表该图像对象,如果只有单个数值特征,则图像特征向量为一个一维向量,如果是n个特性的组合,则为一个n维的图像特征向量。以图1所示的图像为例,提取出的图像特征向量可以为例如{A,B,C,D}。本领域技术人员应当理解的是,这里的图像特征向量仅是示例。
[0040] 在步骤S22中,计算与所述输入图像相对应的每个标签的词嵌入向量。
[0041] 仍然以图1所示的图像为例。该图像所对应的标签包括天空、大海、轮船、港口和海鸟。则在该步骤中,可以计算每个标签的词嵌入向量,也即将每个标签的词语表达形式转换成向量的表达形式。例如,经计算,标签“天空”的词嵌入向量为{E,F},标签“大海”的词嵌入向量为{G,H,I},标签“轮船”的词嵌入向量为{J,K},标签“港口”的词嵌入向量为{L,M,N},标签“海鸟”的词嵌入向量为{O,P}。本领域技术人员应当理解的是,这里的词嵌入向量仅是示例。
[0042] 在步骤S23中,将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量。
[0043] 这里的拼接指的是将图像特征向量与词嵌入向量接在一起。仍然以图1所示的图像为例。在该步骤中,将图像特征向量分别与标签“天空”、“大海”、“轮船”、“港口”、“海鸟”的词嵌入向量进行拼接,得到以下五个联合特征向量:{A,B,C,D,E,F}、{A,B,C,D,G,H,I}、{A,B,C,D,J,K}、{A,B,C,D,L,M,N}、{A,B,C,D,O,P}。
[0044] 在步骤S24中,基于所述联合特征向量计算每个所述标签的准确度。
[0045] 通过采用上述技术方案,由于能够将输入图像的图像特征向量与该输入图像的每个标签的词嵌入向量进行拼接得到联合特征向量,然后基于所述联合特征向量计算每个所述标签的准确度,也即能够将图像的文本信息(例如标签)与图像信息(例如,图像特征向量)结合起来进行分析以得到输入图像对应的每个标签的准确度,这样输入图像的每个标签的权重就是不同的,从而在做图像搜索排序时,可以有效的提升搜索排序的相关性和准确度,有效地去除错误标签对搜索结果的影响,并降低准确度低的标签的排序顺位。
[0046] 在一种可能的实施方式中,步骤S21中所述的提取输入图像的图像特征向量可以包括:利用卷积神经网络(convolutional neural network,CNN)提取所述输入图像的图像特征向量。其中,可以首先将CNN网络在ImageNet数据集上进行训练,然后将训练之后的CNN网络用作图像特征提取器来提取输入图像的图像特征向量。另外,除了CNN网络,还可以利用gabor、hog等来提取图像特征向量。
[0047] 在一种可能的实施方式中,步骤S22中所述的计算与所述输入图像相对应的每个标签的词嵌入向量可以包括:通过word2vec模型计算与所述输入图像相对应的每个标签的词嵌入向量。其中,word2vec模型是预训练好的模型,能够将词语转换成向量的表达形式。本领域技术人员应当理解的是,这里的word2vec仅是示例。实际上,任何能够将词语转换成向量的工具都可以用来计算每个标签的词嵌入向量。
[0048] 在一种可能的实施方式中,步骤S24中所述的基于所述联合特征向量计算每个所述标签的准确度,可以包括:利用多层感知器(multilayer perceptron,MLP)网络并基于所述联合特征向量,计算每个所述标签的准确度。本领域技术人员应当理解的是,在计算准确度时,本公开并不局限于使用MLP网络,任何能够计算图像与其标签之间的相关度也即标签标记的准确度的工具都可以使用,例如SVM、逻辑回归等都可以被使用。
[0049] 仍然以图1所示的图像为例,将步骤S23中得到的各个联合特征向量输入到MLP网络中,经过MLP网络的处理,可以得到每个标签的准确度,例如标签“天空”对图1所示的图像进行标记的准确度为0.9,标签“大海”对图1所示的图像进行标记的准确度为0.92,标签“轮船”对图1所示的图像进行标记的准确度为0.94,标签“港口”对图1所示的图像进行标记的准确度为0.48,标签“海鸟”对图1所示的图像进行标记的准确度为0.03。
[0050] 另外,MLP网络通过大量人工标注过的数据进行训练,也就是对于每一个标签,人工收集了很多张图片,然后进行训练。训练好的MLP网络就能够用来计算每个标签的准确度,也即输入图像与其相对应的各个标签之间的相关度。
[0051] 根据本公开的又一实施例,提供一种确定图像标签准确度的装置,如图3所示,该装置包括:图像特征向量提取模块31,用于提取输入图像的图像特征向量;词嵌入向量计算模块32,用于计算与所述输入图像相对应的每个标签的词嵌入向量;拼接模块33,用于将所述图像特征向量与每个所述词嵌入向量分别进行拼接,得到联合特征向量;以及准确度计算模块34,用于基于所述联合特征向量计算每个所述标签的准确度。
[0052] 通过采用上述技术方案,由于拼接模块33能够将输入图像的图像特征向量与该输入图像的每个标签的词嵌入向量进行拼接得到联合特征向量,然后准确度计算模块34能够基于所述联合特征向量计算每个所述标签的准确度,也即能够将图像的文本信息(例如标签)与图像信息(例如,图像特征向量)结合起来进行分析以得到输入图像对应的每个标签的准确度,这样输入图像的每个标签的权重就是不同的,从而在做图像搜索排序时,可以有效的提升搜索排序的相关性和准确度,有效地去除错误标签对搜索结果的影响,并降低准确度低的标签的排序顺位。
[0053] 在一种可能的实施方式中,所述图像特征向量提取模块31包括:图像特征向量提取子模块,用于利用卷积神经网络提取所述输入图像的图像特征向量。
[0054] 在一种可能的实施方式中,所述词嵌入向量计算模块32包括:词嵌入向量计算子模块,用于通过word2vec模型计算与所述输入图像相对应的每个标签的词嵌入向量。
[0055] 在一种可能的实施方式中,所述准确度计算模块34包括:准确度计算子模块,用于利用多层感知器并基于所述联合特征向量,计算每个所述标签的准确度。
[0056] 关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0057] 图4是根据一示例性实施例示出的一种用于确定图像标签准确度的装置400的框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0058] 参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
[0059] 处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的确定图像标签准确度的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
[0060] 存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0061] 电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
[0062] 多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0063] 音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
[0064] I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和定按钮。
[0065] 传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器压力传感器或温度传感器。
[0066] 通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。
在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0067] 在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程阵列(FPGA)、控制器微控制器微处理器或其他电子元件实现,用于执行上述确定图像标签准确度的方法。
[0068] 在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述确定图像标签准确度的方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
[0069] 本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0070] 应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈