首页 / 专利库 / 电脑编程 / K最近邻算法 / 基于深度卷积特征和语义近邻的多标签图像补全方法

基于深度卷积特征和语义近邻的多标签图像补全方法

阅读:234发布:2020-05-08

专利汇可以提供基于深度卷积特征和语义近邻的多标签图像补全方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于深度卷积特征和语义近邻的多标签图像补全方法,首先,通过改进 卷积神经网络 的损失函数,构建一个融合深度卷积特征和语义近邻的卷积神经网络(CNN-KNN)模型,然后,将CNN的预分类结果输入到语义近邻 算法 中利用图像标注词间的依赖或共生关系对网络模型输出结果进行改善,最后,优化多标签重要性排序算法,将改善的结果按此算法排序并分配与图像内容表述一致的标注词预测图像的最终标注结果。采用基准数据集iaprtc12进行实验,验证了该方法能有效地补全图像标签语义。,下面是基于深度卷积特征和语义近邻的多标签图像补全方法专利的具体信息内容。

1.一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是包括下述内容:
(1)在AlexNex通用模型基础上,改进AlexNex模型参数并设计多标签损失函数;
(2)基于K最近邻构建语义近邻模型;
(3)融合上述两个模型构建的模型构建融合深度卷积特征和语义近邻的CNN-KNN模型,将等补全社会化图像输入到CNN-KNN,模型输出候选标签集经带权无向图邻接矩阵滤噪算法过滤噪声标签,输出粗选标签集;
(4)利用CNN-KNN的多标签重要性排序算法对第3步输出的粗选标签集再次过滤噪声标签,并确定最终补全结果。
2.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是改进AlexNex模型参数并设计多标签损失函数步骤是:
步骤1:所有卷积层中卷积核的间隔与池化间隔都设置为2,同时加入一个动量项为0.9的异步随机梯度,并将网络初始的学习速率设为0.001;
步骤2:设计多标签损失函数,假设每个标签之间都是相互独立的,那么这些标签可以组成一个标签向量y∈R1×c,其中c为图像集中标签的总数,R∈{0,1},yj=1表示图像包含第j个标签,yj=0表示图像不包含第j个标签,通过正则化y得到图像xi与标签j的概率设计损失函数 其中n为图像数量。
3.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是构建基于KNN的语义近邻模型方法是:
针对社会化图像中存在视觉相似但语义不相同的问题,本文从语义上对图像特征加以区分,以提高图像的补全效果。首先,划分语义组构建语义近邻;然后,通过视觉相似度构建视觉近邻;最后,根据距离值确定各标签的贡献值,通过对贡献值排序完成标签预测。
d
符号定义为,图像集I={I1,I2,...,In},Ii∈R表示图像,其中n为图像数量,d为标签数量,R为d维向量,R∈{0,1}d;标签集W={w1,w2,...,wm},其中m为标签数量,wi为标签;训练集Ω={(I1,W1),(I2,W2),...,(In,Wn)},其中Wi为m维向量,Wi∈{0,1}M,当Wij=1时,表示图像i包含标签wj,当Wij=0时,表示图像i不含标签wj,步骤包括:
步骤1:划分语义组构建语义近邻,将每个标签包含的所有图像看成一个语义组,所有标签对应的语义组集表示为 其中wi表示标签, 表示与标
签wi关联的所有图像,
步骤2:将图像补全预测问题转化为求后验概率问题,定义条件概率p(I|wi)表示标签wi和图 像 I 的 概 率关 系 ,由 概率 转 换 公 式 可 知 ,图 像 标签 的 预 测 值 为其中p(wi)和p(I)为先验概率;
步骤3:构建待补全图像的邻域图像集,令 表示标签wi对应的语义组,对于待标注图像I,从Gi中选出与图像I视觉相似度最高的k幅图像得到局部子集 其中k为正整数,当所有语义组的局部子集都获取后,合并子集,最终得到待标注图像I的邻域图像集
步骤4:对贡献值排序完成标签预测,对于给定标签 它与图像I构成的概率关系表示为 其中 表示图像Ii对于图像I的贡献值,p(wi|Ii)∈
{0,1}用于控制在图像Ii中标签需要增加的贡献值。
4.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是带权无向图的邻接矩阵滤噪方法为:
步骤1:定义候选标签间关系,标签与标签之间的关系表示为Rn×n:label×label,其中label为候选标签列表,Rn×n(ci)={w1,w2,w3},其中ci∈label,n为候选标签数量,wi为标签来源权重的平均值,其中cnn输出权重为4,knn输出权重为3,原标注权重为3;
步骤2:确定多标签候选比,在邻接矩阵Rn×n中,对于第i个标签,在多标签中的候选比为其中Hi表示第i标签在所有标签中的候选比,wij表示邻接矩阵中第i个标签
的权重;
步骤3:根据固定阈值过滤掉候选比小的标签,选取 的标签作为候选标签,其中为固定阈值,取值为0.4。
5.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是优化多标签重要性排序算法为:
步骤1:使用数据集中图像与标签的关系,构建标签关系矩阵,对其进行非负矩阵分解,得到标签的社团关系矩阵,令Wn×k表示标签节点所属社团关系矩阵,对于第i个标签节点,多标签社团的结点贡献比表示为 其中n表示标签总数,Ci表示标签对构成各个社团的支持度,wij表示标签所属社团的关系矩阵中第i个标签的贡献,k表示社团个数;
步骤2:根据标签间的社团关系及各个标签的重要性程度对候选标签排序,从排序结果选择排序前5的标签作为最终标签结果。

说明书全文

基于深度卷积特征和语义近邻的多标签图像补全方法

技术领域

[0001] 本文发明一种基于深度卷积特征和语义近邻的多标签图像补全方法,属于图像处理领域。

背景技术

[0002] 随着移动互联网的迅猛发展与智能移动设备的不断普及,图像数据产生和获取的成本逐渐降低,基于图像标注的算法也获得了蓬勃发展。在传统的图像标注算法中,每个样本只标注一个标签。然而在一些实际应用中,图像往往包含复杂多样的语义信息,加上图像的视觉特征与人类图像识别之间存在着巨大语义鸿沟,使得多标签分类比传统的分类问题更为复杂。
[0003] 近年来,在图像标注领域出现了大量的多标签标注算法,如:组合分类器链(ECC)算法、Binary relevance(BR)算法、多类标注算法(Supervised Multiclass Labeling,SML)、多标签SVM等。尽管这些多标签学习算法在某些领域有着较好的应用,但也存在着一些不足:如待定参数过多、标签不完备和泛化能差。其中,标签不完备对图像标注和检索影响尤为明显,主要表现在用户只能获取到与关键词匹配的部分图像。在图像数量不大的情况下这种不足表现的不是很明显,但是在图像数量爆炸式增长、图像来源不断扩大、图像种类日益繁多的现实条件下,这种不足尤为明显。因此,完备的图像文本标签在图像标注和图像检索领域起着关键性的作用,如何快速有效地提高图像标签的完备性,成为大数据时代图像自动标注研究的新挑战。
[0004] 随着大数据时代的到来,含更多隐含层的深度卷积神经网络具有更复杂的网络结构,与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型,自提出以来就在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩。
[0005] 卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,从图像像素中提取图像特征,这种处理方式更加接近人类大脑视觉系统的处理方式。另外,卷积神经网络的权值共享属性和池化层使网络需要训练的参数大大减小,简化了网络模型,提高了训练的效率,因而在图像多标签标注领域得到了更为广泛的应用。
[0006] K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。由于KNN方法主要依靠周围有限邻近的样本,而不是靠判别类域的方法来确定所属类别,因此对于标签之间的依赖或共生来说,KNN方法较其他方法更为适合。
[0007] 因此,基于卷积神经网络的特征提取,融合KNN标签间的依赖共生关系,结合多标签重要性排序算法,在多标签图像补全问题上具有重要的研究价值。

发明内容

[0008] 针对社会化图像初始标注不完备、不准确的问题,通过融合深度卷积特征和语义近邻的方法实现社会化图像的标签补全工作,解决了由于标签不完备导致基于图像的检索结果不完整问题。
[0009] 本发明首先,在AlexNex通用模型基础上,改进AlexNex模型参数并设计多标签损失函数,同时基于K最近邻(k-Nearest Neighbor,KNN)构建语义近邻模型;接着,融合前面构建的两个模型构建融合深度卷积特征和语义近邻的CNN-KNN模型;然后,将等补全社会化图像输入到CNN-KNN,模型输出的标签集依次经带权无向图邻接矩阵滤噪算法、多标签重要性排序算法过滤噪声标签后输出候选标签集;最后,从候选标签集中选择排序前5的标签作为最终补全结果。
[0010] 一种基于深度卷积特征和语义近邻的多标签图像补全方法,其内容包括改进AlexNex模型参数,设计AlexNex模型的损失函数;构建基于KNN的语义近邻模型;融合AlexNex和KNN构建CNN-KNN模型;优化多标签重要性排序算法。
[0011] 1、在AlexNex通用模型基础上,改进AlexNex模型参数并设计多标签损失函数[0012] (1)所有卷积层中卷积核的间隔与池化间隔都设置为2,同时加入一个动量项为0.9的异步随机梯度,并将网络初始的学习速率设为0.001;
[0013] (2)设计多标签损失函数,假设每个标签之间都是相互独立的,那么这些标签可以组成一个标签向量y∈R1×c,其中c为图像集中标签的总数,R∈{0,1},yj=1表示图像包含第j个标签,yj=0表示图像不包含第j个标签,通过正则化y得到图像xi与标签j的概率设计损失函数 其中n为图像数量;
[0014] 2、构建基于KNN的语义近邻模型
[0015] (1)划分语义组构建语义近邻,将每个标签包含的所有图像看成一个语义组,所有标签对应的语义组集表示为 其中wi表示标签, 表示与标签wi关联的所有图像,
[0016] (2)将图像补全预测问题转化为求后验概率问题,定义条件概率p(I|wi)表示标签wi和图像 I的 概率关 系,由 概率转换公式 可知 ,图像 标签的预测值 为其中p(wi)和p(I)为先验概率;
[0017] (3)构建待补全图像的邻域图像集,令 表示标签wi对应的语义组,对于待标注图像I,从Gi中选出与图像I视觉相似度最高的k幅图像得到局部子集 其中k为正整数,当所有语义组的局部子集都获取后,合并子集,最终得到待标注图像I的邻域图像集
[0018] (4)对贡献值排序完成标签预测,对于给定标签 它与图像I构成的概率关系表示为 其中 表示图像Ii对于图像I的贡献值,p(wi|Ii)∈{0,1}用于控制在图像Ii中标签需要增加的贡献值。
[0019] 3、带权无向图的邻接矩阵滤噪
[0020] (1)定义候选标签间关系,标签与标签之间的关系表示为Rn×n:label×label,其中label为候选标签列表,Rn×n(ci)={w1,w2,w3},其中ci∈label,n为候选标签数量,wi为标签来源权重的平均值,其中cnn输出权重为4,knn输出权重为3,原标注权重为3;
[0021] (2)确定多标签候选比,在邻接矩阵Rn×n中,对于第i个标签,在多标签中的候选比为 其中Hi表示第i标签在所有标签中的候选比,wij表示邻接矩阵中第i个标签的权重;
[0022] (3)根据固定阈值过滤掉候选比小的标签,选取 的标签作为候选标签,其中为固定阈值,取值为0.4。
[0023] 4、多标签重要性排序并确定最终补全结果
[0024] (1)使用数据集中图像与标签的关系,构建标签关系矩阵,对其进行非负矩阵分解,得到标签的社团关系矩阵,令Wn×k表示标签节点所属社团关系矩阵,对于第i个标签节点,多标签社团的结点贡献比表示为 其中n表示标签总数,Ci表示标签对构成各个社团的支持力度,wij表示标签所属社团的关系矩阵中第i个标签的贡献,k表示社团个数;
[0025] (2)根据标签间的社团关系及各个标签的重要性程度对候选标签排序,从排序结果选择排序前5的标签作为最终标签结果。
[0026] 5、本发明的有益效果
[0027] 对于社会化图像,由于标注者情感、文化背景等原因导致互联网上的图像存在标签不完备、不准确的问题。社会化图像标签不完备致使基于图像的检索结果不全面,不完整,甚至出现检索错误的情形,这往往给图像检索者带来困扰。
[0028] 针对社会化图像标签不完备的问题,本发明基于深度卷积特征和语义近邻算法构建CNN-KNN模型,利用CNN在图像特征抽取方面的优势,保障模型对待补全图像分类结果的准确性,基于KNN利用标签之间语义的共生依赖关系,进一步丰富图像的标签内容。在CNN-KNN标签补全过程中会产生噪声标签,利用带权无向图的邻接矩阵滤噪方法进行粗粒度噪声标签过滤;经粗粒度过滤后的结果在多标签重要性排序中进行细粒度二次过滤,并选择排序前5的标签作为最终补全结果。
[0029] 社会化图像经过CNN-KNN模型补全后基本上能表达图像的整体内容和细节内容,为检索者理解、检索图像带来方便。附图说明
[0030] 下面结合附图和实施方式对本发明进一步说明。
[0031] 图1CNN-KNN模型结构示意图。
[0032] 图2为社会化图像标签补全过程。
[0033] 图3为本发明中的方法(CNN-KNN)在iaprtc12数据集上的测试准确率趋势图。
[0034] 图4为本发明中的方法(CNN-KNN)中改进的损失值在整个训练过程中的变化趋势图。

具体实施方式

[0035] 输入:有初始正确标签的图像(初始标签集合W0)或无标签的图像I0。
[0036] 输出:给输入图像分配指定数量的标注词集合W0'。
[0037] Step1.调整AlexNet模型参数并改进损失函数用于度量模型预测值与样本真实值之间的差异;
[0038] Step2.构建一个基于AlexNet的卷积神经网络模型,使用iaprtc12数据集训练模型,将待补全图像及原始标签输入到训练好的CNN模型,输入图像经卷积、池化后在全连接层输出待补全图像的候选标签集1;
[0039] Step3.构建一个基于标签语义相关的语义近邻算法,将待补全图像及原始标签输入到语义近邻算法中,利用标签间语义的共生依赖关系输出待补全图像的候选标签集2;
[0040] Step4.将候选标签集1和候选标签集2组合为候选标签集,并将CNN模型和近邻算法融合为CNN-KNN模型,利用CNN-KNN模型的带权无向图的邻接矩阵滤噪算法从候选标签集初步筛选出指定数量的待补全标签集;
[0041] Step5.将初选的待补全标签集经CNN-KNN的多标签重要性排序算法再次过滤噪声标签,并从中选择排序前5的标签作为最终的补全结果。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈