基于卷积神经网络和概念格的图像语义完备标注方法专利检索-叠加信号信号信号处理专利检索查询-专利查询网

基于 卷积神经网络和概念格的图像语义完备标注方法

阅读：891发布：2020-05-08

专利汇可以提供基于卷积神经网络和概念格的图像语义完备标注方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于卷积神经网络和概念格的图像语义完备标注方法，首先构建自适应CNN网络，分割待标注图像并提取其特征，以此来获得近邻图像集与其一系列相对应的标签集合；然后利用概念格进行标签本身潜在的语义分析，有效地改善了标注效果，并保证了语义标注的完备性；最后利用投票的方式，得到最优语义标签。采用基准数据集Corel5k进行实验，验证了该方法能有效地丰富图像标签语义，提高标签召回率，并提高图像语义检索效率。，下面是基于卷积神经网络和概念格的图像语义完备标注方法专利的具体信息内容。

权利要求

1.基于卷积神经网络和概念格的图像语义完备标注方法，包括采用VGG19模型进行卷
积神经网络通用模型预训练方法；提取待标注图像的初始标注词和深度特征；概念格改善
初始标注结果；利用候选标签集进行标签预测。
2.根据权利要求1提出的基于卷积神经网络和概念格的图像语义完备标注方法，其特
征在于，提取待标注图像的初始标注词和深度特征包括下述步骤：
步骤1：初始化图像标签数量，对待标注图像进行归一化聚类分割，为不陷入局部最优，
减少过拟合，将图像标签数量作为深度网络有效的监督信息，标签个数为Ncut聚类因子，扩大4倍原始聚类数为Ncut聚类输入，即N_cluster＝4*inti_labels，N_cluster为扩大后的
聚类数，inti_labels为初始标签数；
步骤2：分割后得到的区域利用选择性搜索算法得到图像的候选区域，输入卷积神经网
络，将高维的输入图像转化为低维的抽象信号特征，将边缘特征抽象组合成更为简单的特
征输出，用以计算；
步骤3：采用最大池化操作，减少卷积操作后存在的冗余信息及降低特征维数，即，设第
i层为池化层，输入的图像值为fi，分割成的图像块区域为Rk(k＝1,2,...,k)，计算如下：
步骤4：进行全连接层计算。对倒数第二个全连接层输出的4096*1的向量做softmax回
归，得到特征向量，从深度学习网络得到最大的20个标签的概率中选择最大概率对应的标
签作为相应图像块的标签，计算如式(4)所示，重复该步骤直至所有图像块被标记，得到初始标注集合W0；
。
3.根据权利要求1提出的基于卷积神经网络和概念格的图像语义完备标注方法，其特
征在于：概念格改善初始标注结果，分析标签语义关系，具体为：
步骤1：将卷积神经网络模型去掉softmax层，作为一个图像通用特征提取器，为每个图
像保存由全连接层第二层输出的4096维特征向量，再使用主成分分析法进行维数缩减以保
持80％的特征差异，最终输出对应的图像特征；对得到的图像特征归一化之后转换为向量，若选择性搜索后得到的图像个数为N，则图像转换成大小为65535*N的向量矩阵。后对该矩
阵奇异值分解，得到降序排列的特征值，利用特征值计算权值wi，得到相似图像的权重，wi的计算公式如：其中，λi表示图像的特征值；
步骤2：假设待标注图像I0，将图像块的权重值wi大于0.5对应图像构成近邻图像集合I，
得到若干张与待标注图像I0最相似的近邻图像I1-I5，得到近邻图像集合I＝{I0,I1,I2,I3,I4,I5}，然后获取图像I0及近邻图像集合I中所有图像的标签并入标签集合T中，则
T＝{“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”}，用以生成形式背景G，并得到近邻图像与标签映射关系并进行归一化处理；
步骤3：分别计算出概念-概念相关度Rel(dist(zi,zj))、外延-概念相关度Rel(I,z)、内
涵-概念相关度Rel(T,z)，综合考虑概念-概念、外延-概念、内涵-概念以上三者对图像语义相关度的影响，得到每个概念节点之间的相关度Rel(zi,zj)：Rel(zi,zj)＝Rel(I,z)×α+
Rel(T,z)+Rel(dist(zi,zj))×γ，其中，α、β、γ是各部分所占的权重比，且α+β+γ＝1；α＝β＝0.25，则γ＝0.5；
步骤4：计算所有概念之间的语义相关度，降序排列得到近邻图像对其图像语义的支持
度并将其归一化，利用相似图像之间的语义相关度，进一步衡量图像之间相似程度，减少噪声图像标签的加入；
步骤5：将包含同一对象的不同概念节点相关度叠加得到图像之间的语义相关度，待标
注图像I0与图像I1的语义相关度为1.322，且与图像I5的语义相关度为0.257；得到待标注图像Ii与训练集Ij视觉相似度。
4.根据权利要求1提出的基于卷积神经网络和概念格的图像语义完备标注方法，其特
征在于，利用候选标签集进行标签预测方法，具体为：通过计算图像标签之间的语义相关
度，获取一系列同待标注图像关联密切的近邻图像标签作为候选标签，对初始预测标签进
行语义扩展，本文融合CNN标注结果并结合近邻图像与待标注图像的语义相关度，从视觉和语义两个角度，筛选候选标签集中关联程度强的候选标签，保留支持度更高的标签标记图
像，计算候选标签集中每个关键词对待标注图像的支持度sup(tgj,Ii)
其中，是近邻图像Ik与标签tj的所属关系，若近邻图像Ik被赋予标签tj，则
反之为计算sup(tgj,Ii)并得到每个标签词的分数之后，将sup(tgj,
Ii)进行归一化处理，将支持度大于0.01且去除标签噪声后的候选标签词，作为待标注图像最终标记标签。

说明书全文

基于卷积神经网络和概念格的图像语义完备标注方法

技术领域

[0001] 本文发明一种基于卷积神经网络和概念格的图像语义完备标注方法，属于图像处理领域。

背景技术

[0002] 网络图像数据的爆炸性增长以及图像标记的主观性和随意性，造成大量图像的标签缺失和语义噪声，不能很好地描述图像内容。而且这些海量的图像数据通常都包含着丰富的语义内容，但标签的不完备却给基于文本的图像检索带来了巨大挑战，影响了其他相关产业的发展。为丰富图像标签内容，提高图像检索准确率，许多研究者对缺失标签进行自动补全的图像标签完备方法展开深入研究，但同时也存在以下不足：1)需要选择组合图像底层特征，不能主动学习图像特征，可能会导致图像部分视觉信息缺失，导致标注不精确；2)缺失了语义标签本身的相关性的研究，将图像不同贡献程度的标签内容同等权重处理，忽视了标签语义分布的不均匀性和相关性。

发明内容

[0003] 本发明就是针对上述问题，提出了一种基于卷积神经网络和概念格的图像语义完备方法，以解决现有的图像底层组合特征繁琐、缺少标签语义相关性等图像标注问题。

[0004] 本发明提供一种基于卷积神经网络和概念格的图像语义完备标注方法，结合上述通用CNN模型以及概念格语义相关度计算规则，给出算法具体步骤。

[0005] 具体步骤如下：

[0006] 输入：待完备图像，初始标签集合，已训练好卷积神经网络CNN；

[0007] 输出：待完备图像缺失的标签集合；

[0008] Step1.预处理。利用Ncut算法对图像进行分块，每块图像为不同聚类区域；

[0009] Step2.图像特征提取。对每块图像进行选择性搜索，得到每一块子图像感兴趣区域，利用CNN得到抽象特征图；

[0010] Step3.初始候选标签获取。将特征图做softmax线性回归，根据权利要求2计算得到标记图像的标签概率，以及输出初始标签集合W0；

[0011] Step4.标签丰富。去掉卷积神经网络中的softmax层，根据权利要求3计算相似图像块权重并排序得到近邻图像集，利用基于概念格的语义相关度计算对标签-图像相关度计算，将与待标注图像语义最相关的近邻图像标签传播给待标注图像的候选标签集W0'；

[0012] Step5.标签预测。根据权利要求4，计算并选取每个关键词tgi对待标注图像的支持度高的标签对其进行标注，更新候选标签集W0'＝{tg1,tg2,...,tgn}；

[0013] Step6.输出待完备图像I0缺失的标签集合W0'。

[0014] 本文涉及的定义及名词如下：

[0015] 定义1.在概念格理论之中，一般会将形式背景作为一个三元组C＝(U，A，R)，在这之中，对象集即为U，属性集即为A，及一个二元关系。若对于一个对象与任意属性，存在关系R，那么称为“对象u具有属性a”，记为uRa，用“x”标记出对象与属性之间的映射关系。

[0016] 定义2.对于任意一个二元组z＝(I，T)，在对象集和属性集上分别满足如下运算：

[0017]

[0018]

[0019] 若f(I)＝T，g(T)＝I，则定义z＝(I,T)是基于形式背景C(U，A，R)这一基础之上的形式概念，所以形式概念z的外延即为I，而形式概念z的内涵即为T。

[0020] 定义3.设z1＝(I1,T1)、z2＝(I2,T2)表示形式背景C(U，A，R)上的两个形式概念，若则z1是z2的子类节点，z2是z1父类节点。将用这种偏序关系组成的集合称为C上的概念格，记为，其中≤表示概念格内节点之间的偏序关系，同时，根据形式背景C中的偏序关系可以得到相应概念格的Hasse图。

[0021] 定义4.概念-概念相关度Rel(dist(zi,zj)).由图4可知，两个概念之间形成的通路越短，则概念间的相似度越大，若Dist(zi,zj)表示一个格结构中两个概念之间形成通路的最短路径长度，则基于概念-概念之间的相关度计算公式如(1)定义如下：

[0022] Rel(dist(zi,zj))＝τ/(τ+Dist(zi,zj)) (1)

[0023] 其中，Rel(dist(zi,zj))表示概念zi和概念zj间的语义相关度；τ为大于0的实数，这里取τ＝1。

[0024] 定义5.外延-概念相关度Rel(I,z)。随着深度的增加，由定义2可知，概念节点中外延数逐渐减少，共同拥有的内涵数就会越具体，概念之间的相似度也会随之减小。因此，本文通过考虑概念节点间的关系和概念节点所处的深度对图像语义相关度的影响，给出基于外延-概念的相关度计算公式如式(2)定义如下：

[0025]

[0026] 其中，Rel(I,z)表示的是基于外延-概念的相关度，|Ii|∩|Ij|表示的是概念zi＝(Ii,Ti)和概念zj＝(Ij,Tj)间相同的外延个数；dep1和dep2分别代表的是概念节点zi和概念节点zj所处的深度，设概念格顶层概念的层次为1，其节点深度为上邻节点概念层数加1；σ是为体现概念节点深度对其影响的修正参数，这里取σ＝0.1。

[0027] 定义6.内涵-概念相关度Rel(T,z)。概念格结构中，概念与概念之间距离越远，则外延所共同拥有的内涵数越少。由此可以得出，随着概念格Hasse图概念节点的深度增大，概念外延的语义相关度与外延共同拥有的内涵数成正相关性。因此，本文通过考虑概念节点间的关系和概念节点所处的深度对相关度的影响，提出基于内涵-概念的相关度计算公式如式(3)定义如下：

[0028]

[0029] 其中，Rel(T,z)表示的是概念-内涵的相关度，|Ti|∩|Tj|表示的是概念节点zi和概念节点zj所拥有共同内涵数的个数；σ是修正参数，作用同定义5。

[0030] 名词1：标签映射关系

[0031] 标签映射关系指的是在构建概念格形式背景的过程中，通常，将该图像拥有某标签称为该图像与此标签具有某种标签映射关系，即图像具有某标签。具体实施方案

[0032] 采用VGG19模型进行卷积神经网络通用模型预训练方法包括下述步骤：

[0033] 步骤1：将大型数据集ImageNet作为进行卷积神经网络通用模型训练的训练集；

[0034] 步骤2：数据增强；

[0035] 步骤3：确定感受野的大小；

[0036] 步骤4：构建8个卷积层、2个全连接层以及1个softmax 输出层；卷积层CONV大小为3*3*3，步长数为1，边界填充padding采用“same”方式，为保持图片形状不变，每次卷积完之后采用最大池化操作，池化大小为2*2*3，步长数扩大至2，进行下采样，减小图片尺寸，加快计算速度；

[0037] 步骤5：参数共享；

[0038] 步骤6：提取低阶/高阶特征；

[0039] 步骤7：采用激活函数层ReLu对每层特征非线性化处理；

[0040] 步骤8：归一化BN层，防止梯度爆炸和梯度弥散，加快网络的收敛速度；

[0041] 提取待标注图像的初始标注词和深度特征包括下述步骤：

[0042] 步骤1：初始化图像标签数量，其Normalized cut聚类分割，为不陷入局部最优，减少过拟合，将初始化图像标签数量作为深度网络有效的监督信息，标签个数为Ncut聚类因子，扩大4倍原始聚类数为Ncut聚类输入，其中，N_cluster＝4*inti_labels，N_cluster为扩大后的聚类数，inti_labels为初始标签数；

[0043] 步骤2：分割后得到的区域利用选择性搜索算法得到图像的候选区域然后分割出图像，输入卷积神经网络，将高维的输入图像转化为低维的抽象的信号特征，将边缘特征抽象组合成更为简单的特征输出，进行计算；

[0044] 步骤3：采用最大池化操作，减少卷积操作后存在的冗余信息及降低特征维数，即，设第i层为池化层，输入的图像值为fi，分割成的图像块区域为Rk(k＝1,2,...,k)，计算如下：

[0045]

[0046] 步骤4：进行全连接层计算。对倒数第二个全连接层输出的4096*1的向量做softmax回归，得到特征向量Zi，由深度学习网络得到最大的20个标签概率f(Zi)，从中选择最大概率对应的标签作为相应图像块的标签，计算如式(4)所示，重复该步骤直至所有图像块被标记，得到初始标注集合W0。

[0047]

[0048] 概念格改善初始标注结果包括下述步骤：

[0049] 步骤1：将卷积神经网络模型去掉softmax层，作为一个图像通用特征提取器，为每个图像保存由全连接层第二层输出的4096维特征向量，再使用主成分分析法进行维数缩减以保持80％的特征差异，最终输出对应的图像特征；对得到的图像特征归一化之后转换为向量，若选择性搜索后得到的图像个数为N，则图像转换成大小为65535*N的向量矩阵。后对该矩阵奇异值分解，得到降序排列的特征值，利用特征值计算权值wi，得到相似图像的权重，wi的计算公式如：其中，λi表示图像的特征值；

[0050] 步骤2：假设待标注图像I0，将图像块的权重值wi大于0.5对应图像构成近邻图像集合I，得到k张(假设k＝5)与待标注图像I0最相似的近邻图像I1-I5，得到近邻图像集合I＝{I0,I1,I2,I3,I4,I5}，然后获取图像I0及近邻图像集合I中所有图像的标签并入标签集合T中，则

[0051] T＝{“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”}，用以生成形式背景G。例如，当图像A具有标签a时，我们认为图像A与标签a存在标签映射关系“x”。因此，根据概念格相关知识(定义1-3)，得到近邻图像与标签映射关系并进行0-1归一化处理，即将图像与标签词之间存在映射关系“x”，置换为1，反之，若图像与标签之间不存在映射关系“x”，则置换为0，构造出形式背景G，共包含16个概念节点。为方便表示，分别用“t1-t10”按序表示标签集合中的词，并依形式背景G构造Hasse图，如图1所示，记录节点的深度dep1和dep2。

[0052] 步骤3：根据定义4-6，依据式(1)、式(2)、式(3)分别计算出概念-概念相关度Rel(dist(zi,zj))、外延-概念相关度Rel(I,z)、内涵-概念相关度Rel(T,z)，综合考虑概念-概念、外延-概念、内涵-概念以上三者对图像语义相关度的影响，得到每个概念节点之间的相关度Rel(zi,zj)，计算公式如下：

[0053] Rel(zi,zj)＝Rel(I,z)×α+Rel(T,z)+Rel(dist(zi,zj))×γ，其中，α、β、γ是各部分所占的权重比，且α+β+γ＝1。由于内涵和外延在概念对中具有同等大小的权重比，根据概念格的对偶原则，这里取α＝β＝0.25，则γ＝0.5。

[0054] 步骤4：据此计算所有概念之间的语义相关度，随后，降序排列得到近邻图像对其图像语义的支持度并将其归一化，利用相似图像之间的语义相关度，进一步衡量图像之间相似程度，大大减少噪声图像标签的加入。

[0055] 利用候选标签集进行标签预测：

[0056] 通过计算图像标签之间的语义相关度Rel(zi,zj)，获取一系列同待标注图像关联密切的近邻图像标签作为候选标签，对初始预测标签进行语义扩展，融合CNN标注结果并结合近邻图像与待标注图像的语义相关度，从视觉和语义两个角度，筛选候选标签集中关联程度强的候选标签，从而保留支持度更高的标签标记图像，计算候选标签集中每个关键词对待标注图像的支持度sup(tgj,Ii)，公式如(4)所示：

[0057]

[0058] 其中，是近邻图像Ik与标签tj的所属关系，若近邻图像Ik被赋予标签tj，则反之为计算sup(tgj,Ii)并得到每个标签词的分数之后，将sup(tgj,
Ii)进行归一化处理，为减少不相关的标签语义词，本文将支持度大于0.01的候选标签词保留，去除标签噪声后，作为待标注图像最终标注标签词。
附图说明

[0059] 图1是形式背景G的Hasse图；

[0060] 图2是在利用大数据集训练卷积神经网络时模型的收敛情况以及损失函数图；

[0061] 图3是数据集MS Coco在不同深度训练模型VGG16和VGG19的ROC-AUC曲线对比图；

[0062] 图4是数据集VOC2012在不同深度训练模型VGG16和VGG19的ROC-AUC曲线对比图。

[0063] 图5展示了一组不同预测个数对Precision以及Recall影响的P-R曲线图；

[0064] 图6是实验结果对比图。

具体实施方式

[0065]

[0066] 下面结合具体实施例对本发明做进一步的详细说明，但是本发明的保护范围并不限于这些实施例，凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。

[0067] 本发明基于卷积神经网络和概念格的图像语义完备标注方法，包括采用VGG19模型进行卷积神经网络通用模型预训练方法；提取待标注图像的初始标注词和深度特征；概念格改善初始标注结果；利用候选标签集进行标签预测四个部分，具体如下：

[0068] 本发明选用VGG19网络结构作为模型初始标注的预训练模型。首先将测试集图像调整为256×256，然后从每幅图像中随机提取224×224(及其水平映射)，通过减去每个提
取的图像块的平均值进行预处理，输入CNN的第一卷积层，直至最后输出softmax层产生
1000类的概率分布，选取候选标签集中Top-5作为图像的最终标签。训练网络时，使用动量为0.9且重量衰减为0.0005的随机梯度下降来训练网络。为了克服过度拟合，对全连接层中前两层都进行丢失率为50％的删除操作。将所有层的学习率均初始化为0.01，每20步下降到当前速率的十分之一(总共90步)，训练完成后保存网络模型。

[0069] 第一阶段、采用VGG19模型进行卷积神经网络通用模型预训练方法包括下述步骤：

[0070] 步骤1：将大型数据集ImageNet作为进行卷积神经网络通用模型训练的训练集；

[0071] 步骤2：数据增强；

[0072] 步骤3：确定感受野的大小；

[0073] 步骤4：构建8个卷积层、2个全连接层以及1个softmax输出层；卷积层CONV大小为3*3*3，步长数为1，边界填充padding采用“same”方式，为保持图片形状不变，每次卷积完之后采用最大池化操作，池化大小为2*2*3，步长数扩大至2，进行下采样，减小图片尺寸，加快计算速度；

[0074] 步骤5：参数共享；

[0075] 步骤6：提取低阶/高阶特征；

[0076] 步骤7：采用激活函数层ReLu对每层特征非线性化处理；

[0077] 步骤8：归一化BN层，防止梯度爆炸和梯度弥散，加快网络的收敛速度；第二阶段、提取待标注图像的初始标注词和深度特征包括下述步骤：

[0078] 步骤1：初始化图像标签数量，其Normalized cut聚类分割，为不陷入局部最优，减少过拟合，将初始化图像标签数量作为深度网络有效的监督信息，标签个数为Ncut聚类因子，扩大4倍原始聚类数为Ncut聚类输入，其中，N_cluster＝4*inti_labels，N_cluster为扩大后的聚类数，inti_labels为初始标签数；

[0079] 步骤2：分割后得到的区域利用选择性搜索算法得到图像的候选区域然后分割出图像，输入卷积神经网络，将高维的输入图像转化为低维的抽象的信号特征，将边缘特征抽象组合成更为简单的特征输出，进行计算；

[0080] 步骤3：采用最大池化操作，减少卷积操作后存在的冗余信息及降低特征维数，即，设第i层为池化层，输入的图像值为fi，分割成的图像块区域为Rk(k＝1,2,...,k)，计算如下：

[0081]

[0082] 步骤4：进行全连接层计算。对倒数第二个全连接层输出的4096*1的向量做softmax回归，得到特征向量Zi，由深度学习网络得到最大的20个标签概率f(Zi)，从中选择最大概率对应的标签作为相应图像块的标签，计算如式(4)所示，重复该步骤直至所有图像块被标记，得到初始标注集合W0。

[0083]

[0084] 第三阶段、概念格改善初始标注结果包括下述步骤：

[0085] 步骤1：将卷积神经网络模型去掉softmax层，作为一个图像通用特征提取器，为每个图像保存由全连接层第二层输出的4096维特征向量，再使用主成分分析法进行维数缩减以保持80％的特征差异，最终输出对应的图像特征；对得到的图像特征归一化之后转换为向量，若选择性搜索后得到的图像个数为N，则图像转换成大小为65535*N的向量矩阵。后对该矩阵奇异值分解，得到降序排列的特征值，利用特征值计算权值wi，得到相似图像的权重，wi的计算公式如：其中，λi表示图像的特征值；

[0086] 步骤2：假设待标注图像I0，将图像块的权重值wi大于0.5对应图像构成近邻图像集合I，得到k张(假设k＝5)与待标注图像I0最相似的近邻图像I1-I5，得到近邻图像集合I＝{I0,I1,I2,I3,I4,I5}，然后获取图像I0及近邻图像集合I中所有图像的标签并入标签集合T中，则

[0087] T＝{“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”}，用以生成形式背景G。例如，当图像A具有标签a时，我们认为图像A与标签a存在标签映射关系“x”。因此，根据概念格相关知识(定义1-3)，得到近邻图像与标签映射关系并进行0-1归一化处理，即将图像与标签词之间存在映射关系“x”，置换为1，反之，若图像与标签之间不存在映射关系“x”，则置换为0，构造出形式背景G，共包含16个概念节点。为方便表示，分别用“t1-t10”按序表示标签集合中的词，并依形式背景G构造Hasse图，如图1所示，记录节点的深度dep1和dep2。

[0088] 步骤3：根据定义4-6，依据式(1)、式(2)、式(3)分别计算出概念-概念相关度Rel(dist(zi,zj))、外延-概念相关度Rel(I,z)、内涵-概念相关度Rel(T,z)，综合考虑概念-概念、外延-概念、内涵-概念以上三者对图像语义相关度的影响，得到每个概念节点之间的相关度Rel(zi,zj)，计算公式如下：

[0089] Rel(zi,zj)＝Rel(I,z)×α+Rel(T,z)+Rel(dist(zi,zj))×γ，其中，α、β、γ是各部分所占的权重比，且α+β+γ＝1。由于内涵和外延在概念对中具有同等大小的权重比，根据概念格的对偶原则，这里取α＝β＝0.25，则γ＝0.5。

[0090] 步骤4：据此计算所有概念之间的语义相关度，随后，降序排列得到近邻图像对其图像语义的支持度并将其归一化，利用相似图像之间的语义相关度，进一步衡量图像之间相似程度，大大减少噪声图像标签的加入。

[0091] 在形式背景G中，从节点#2和#3、#3和#4存在上下位关系，节点#2和#15为同层次概念，由式(9)可以得出如下关系，

[0092] Rel(z2,z3)＝(1/2+3/6)×0.25×(1+0.1)3+4+1/2×0.5≈0.737

[0093] Rel(z2,z15)＝(0+1/6)×0.25×(1+0.1)4+4+1/(1+2)×0.5≈0.257

[0094] Rel(z3,z4)＝(2/4+1/3)×0.25×(1+0.1)2+3+1/2×0.5≈0.585

[0095] Rel(z2,z15)＜Rel(z3,z4)＜Rel(z2,z3)

[0096] 由此可知，父节点的语义相似度要比同层次概念节点的高，同时，随着概念格层次的逐渐加深，父子节点之间的语义相似度也会随之增大。

[0097] 将包含同一对象的不同概念节点相关度叠加得到图像之间的语义相关度，由节点#2、#3、#4可知待标注图像I0与图像I1的语义相关度为1.322，与图像I5的语义相关度为
0.257。由此可得，待标注图像Ii与训练集Ij视觉相似度。当待标注图像Ii越高时，图像Ij与Ii的语义相关度越高时，其标签贡献值越大，越有可能被标记。

[0098] 第四阶段、利用候选标签集进行标签预测：

[0099] 通过计算图像标签之间的语义相关度Rel(zi,zj)，获取一系列同待标注图像关联密切的近邻图像标签作为候选标签，对初始预测标签进行语义扩展，融合CNN标注结果并结合近邻图像与待标注图像的语义相关度，从视觉和语义两个角度，筛选候选标签集中关联程度强的候选标签，从而保留支持度更高的标签标记图像，计算候选标签集中每个关键词对待标注图像的支持度sup(tgj,Ii)，公式如(4)所示：

[0100]

[0101] 其中，是近邻图像Ik与标签tj的所属关系，若近邻图像Ik被赋予标签tj，则反之为计算sup(tgj,Ii)并得到每个标签词的分数之后，将sup(tgj,
Ii)进行归一化处理，为减少不相关的标签语义词，本文将支持度大于0.01的候选标签词保留，去除标签噪声后，作为待标注图像最终标注标签词。

[0102] 本发明选用数据集Corel5k作为对比实验的验证数据集，它拥有50个类别，每张图片大小为192*128，每张图片均有1～5个标签，由于深度网络是针对单标签进行训练，所以在进行深度学习时，后选取Corel5k中的500张测试集(263个标签)进行测试，与之前的一些经典的图像标注算法进行对比实验，对比方法包括：TMC标注模型、特征融合和语义相似(Feature Fusion and Semantic Similarity，FFSS)和标签传播算法(Tag Propagation，TagProp)、Muti-Label CNN方法。

[0103] 表2是实验结果对比表，通过图6(或表2)可以看出，与算法(TMC标注模型、标签传播算法(Tag Propagation，TagProp)、FFSS)相比，基于CNN和概念格的图像完备方法在准确率和召回率上分别达到40％、51％，有着不错的表现。在传统的标签传播算法中，大多需要手工选择特征进行融合寻找视觉近邻，而深度学习网络摒弃了复杂的特征融合方法，利用大数据集辅助特征学习迁移微调网络，有更强的区分效果。同时通过与Muti-Label CNN算法比较的实验结果可以看出，虽然准确率相差不大，但进行语义扩展改善后的算法比多标签排序策略的深度卷积神经网络的召回率提高了16％，改进效果明显。这是由于当待标注图像Ii与训练集Ij视觉相似度越高时，图像Ij与Ii拥有的共同标签数越多，标签贡献值越大，支持度更高；由于图像集I是根据图像底层特征搜索降序而得，并且同时考虑了底层特征与高层语义的相似性，兼顾近邻语义对标注结果的影响，从而避免某些标签过少或过多，改善标注结果，丰富图像的语义内容。

[0104] 图3和图4分别给出了数据集MS Coco、数据集VOC2012不同深度训练模型VGG16和VGG19在上的ROC-AUC曲线对比图，由图3、图4可知，虽然两个卷积网络模型均表现出良好的学习能力，但VGG19的曲线更靠近左上方，模型的泛化能力要更强，预测精度可达91％，证明VGG19模型在训练数据上的损失函数值更小，拥有更好的抽象特征的能力，这可以为下一步提取训练集通用特征提供可靠的保障。因此，本文选用VGG19网络结构作为模型初始标注的预训练模型。

[0105] 图5展示了一组不同个数预测个数对Precision以及Recall影响的P-R曲线图。为验证概念格语义扩展的有效性，针对候选标签集中最终标记的不同标签个数，本发明设置两组实验进行对比，一组基于VGG19模型对待标注图像进行多标签排序标注，另一组在获得初始标注之后，利用概念格对CNN标注结果进行语义扩展改善。首先将测试集图像调整为
256×256，然后从每幅图像中随机提取224×224(及其水平映射)，通过减去每个提取的图
像块的平均值进行预处理，输入CNN的第一卷积层，直至最后输出softmax层产生1000类的概率分布，选取候选标签集中Top-5作为图像的最终标签。训练网络时，本文使用动量为0.9且重量衰减为0.0005的随机梯度下降来训练网络。为了克服过度拟合，对全连接层中前两层都进行丢失率为50％的删除操作。将所有层的学习率均初始化为0.01，每20步下降到当前速率的十分之一(总共90步)，训练完成后保存网络模型。实验结果如图2所示。

[0106] 由图5可以得出，曲线刚开始无明显变化，随着图像召回率Recall的增加，基于VGG-net网络多标签排序算法标注精度率先开始下降，而本文方法在保证准确率的基础上，召回率更高，说明本文方法更优。该实验表明，采用概念格对图像进行语义相关度分析对提高图像标注标签的召回率具有重要意义。当召回率达到54.74％，准确率开始下降，这是因为在概念格对标签进行语义扩展时，当候选标签集预测个数不断增大，会有一部分噪声标签被标记图像，造成过度标注。由于很多标签词存在关联性，利用图像-标签之间的上下位关系，在视觉近邻的基础上，可以得出图像之间的语义关联程度。在预测标准个数一定的情况下，若仅根据图像的边界特征进行分类识别和标注，不足以丰富图像的标签语义内容，且准确率和召回率显然不如本文中的方法，这证明了本文方法对标签改善的有效性，在某种程度上提高标签标记的可能性。

[0107] 表1形式背景G表

[0108]

标题	发布/更新时间	阅读量
短视频制作系统、方法、电子设备及可读存储介质	2020-05-08	831
一种微弱信标信号畸变波前的高速探测装置及探测方法	2020-05-11	411
北斗多模授时接收装置	2020-05-08	201
波导缝隙发射相控阵天线实时监测网络和自校准方法	2020-05-08	203
一种楼宇信息综合管理系统	2020-05-08	867
一种超长距离光纤高精度射频信号传递系统和方法	2020-05-08	546
一种卫星帆板电源阵列模拟器及其电压嵌位方法	2020-05-08	669
一种应答式水下多目标定位跟踪方法	2020-05-08	43
基于递归压缩感知的电力线通信系统脉冲噪声抑制方法	2020-05-08	90
一种寻线器接收器的检测电路	2020-05-08	617

基于卷积神经网络和概念格的图像语义完备标注方法

基于卷积神经网络和概念格的图像语义完备标注方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：