首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 深度学习 / 一种深度学习网络实现大类别图像识别的方法

一种深度学习网络实现大类别图像识别的方法

阅读:307发布:2023-12-19

专利汇可以提供一种深度学习网络实现大类别图像识别的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 深度学习 网络实现大类别 图像识别 的方法,包括训练和识别过程,训练过程中,首先提取样本图片的Gabor特征并进行最大选取,此后使用经过聚类处理的特征码本进行线性局部编码,最后使用空间金字塔方法进行特征矢量的导出,并使用 支持向量机 分类器进行训练;识别过程中,将测试图片的特征矢量使用训练好的支持向量机分类器进行识别。本发明克服传统方法提取局部特征时语义信息的缺乏,能显著提升多类别图像识别的识别率。,下面是一种深度学习网络实现大类别图像识别的方法专利的具体信息内容。

1.一种深度学习网络实现大类别图像识别的方法,其特征在于,采用深度学习网络进行大类别图像识别,所述深度学习网络包括第一简单层S1层,第一复杂层C1层,第二简单层S2层和第二复杂层C2层;
识别过程包括以下步骤:
(1)训练过程:
(11)对样本图片进行预处理,所述样本图片包括多种类别;
(12)对样本图片进行Gabor特征提取,得到Gabor特征矩阵,即S1层中的特征矩阵;
(13)对步骤(12)得到的S1层中的特征矩阵进行局部最大选取,得到局部最大化的Gabor特征矩阵,即C1层中的特征矩阵;
(14)使用特征码本对步骤(13)得到的C1层中的特征矩阵进行局部线性编码,得到S2层中的特征矩阵;
(15)使用空间金字塔方法对步骤(14)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,即C2层的特征矢量:
(16)将步骤(15)得到的C2层的特征矢量送入支持向量机分类器进行训练;
(2)识别过程:
(21)对测试图片进行预处理;
(22)对测试图片进行Gabor特征提取,得到Gabor特征矩阵,即S1层中的特征矩阵;
(23)对步骤(22)得到的S1层中的特征矩阵进行局部最大选取,得到局部最大化的Gabor特征矩阵,即C1层中的特征矩阵;
(24)使用特征码本对步骤(23)得到的C1层中的特征矩阵进行局部线性编码,得到S2层中的特征矩阵;
(25)使用空间金字塔方法对步骤(24)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,即C2层的特征矢量:
(26)将步骤(25)得到的C2层的特征矢量送入步骤(16)训练好的支持向量机分类器进行识别。
2.根据权利要求1所述的深度学习网络实现大类别图像识别的方法,其特征在于,步骤(14)所述使用特征码本对步骤(13)得到的C1层中的特征矩阵进行局部线性编码,具体为:
在C1层中,对于样本图片中任意点,当以该点为基点时,在该基点周围提取特征码本中的特征模板大小内的各点,并转为一维特征矢量,使用特征码本对一维特征矢量进行局部线性编码;对样本图像所有基点进行局部线性编码后,得到C1层中的特征矩阵经过局部线性编码的编码结果,此编码结果为S2层中的特征矩阵;
其中,所述局部线性编码具体实现如下:假设当前一维特征矢量是xi,其特征码本是B,设定经过局部线性编码后的输出为ci,一维特征矢量xi、特征码本B和输出ci必须满足下面最优化公式,其数学表达式如下所示:
T
s.t.1ci=1
其 中 dist(xi,B)=[dist(xi,b1),...,dist(xi,bi)]T 为 一
维特征矢量与特征码本的距离向量, 为元素间相乘;该局部线性编码有解析解为所述特征码本的提取过程如下:
在每张样本图片的C1层中,随机选取20个4x4的,15个8x8的块,10个12x12的块及5个16x16的块,按空间顺序转为一维量后用k-means方法按大小分别对所有块进行聚类,将聚类后的中心作为特征码本。
3.根据权利要求2所述的深度学习网络实现大类别图像识别的方法,其特征在于,步骤(24)使用特征码本对步骤(23)得到的C1层中的特征矩阵进行局部线性编码,具体为:
使用步骤(14)得到的特征码本对步骤(23)得到的C1层中的特征矩阵进行局部线性编码。
4.根据权利要求1所述的深度学习网络实现大类别图像识别的方法,其特征在于,步骤(15)使用空间金字塔方法对步骤(14)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,具体为:
先对样本图片的S2层中的特征矩阵进行一次全局最大选取;再将样本图片划分成2x2的小区域,对各小区域的S2层中的特征矩阵分别进行最大选取,将全局最大选取和各小区域的最大选取结果统一转换成一维特征矢量,得到视觉图像特征和局部线性编码相结合的特征矢量。
5.根据权利要求1所述的深度学习网络实现大类别图像识别的方法,其特征在于,步骤(25)使用空间金字塔方法对步骤(24)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,具体为:
先对测试图片的S2层中的特征矩阵进行一次全局最大选取;再将测试图片划分成2x2的小区域,对各小区域的S2层中的特征矩阵分别进行最大选取,将全局最大选取和各小区域的最大选取结果统一转换成一维特征矢量,得到视觉图像特征和局部线性编码相结合的特征矢量。
6.根据权利要求1所述的深度学习网络实现大类别图像识别的方法,其特征在于,步骤(11)所述对样本图片进行预处理,具体为:
将样本图片进行灰度化处理,并调整为140x140的尺度,再以2^1/4的比例进行N-1次缩小,得到N个图像层,N>2。
7.根据权利要求1所述的深度学习网络实现大类别图像识别的方法,其特征在于,步骤(21)所述对测试图片进行预处理,具体为:
将测试图片进行灰度化处理,并调整为140x140的尺度,再以2^1/4的比例进行N-1次缩小,得到N个图像层,N>2。

说明书全文

一种深度学习网络实现大类别图像识别的方法

技术领域

[0001] 本发明涉及模式识别人工智能技术领域,特别涉及一种深度学习网络实现大类别图像识别的方法。

背景技术

[0002] 图像识别是指根据要求识别出当前给出的图像或搜索到的图像是否所需图像的一种技术,它是模式识别与人工智能技术领域中一个重要研究内容,目前已有许多的图像识别的研究成果,如专利200710179461.X提出一种基于特征提取和分类器的图像识别方法。它通过经训练的判别器选择适用于测试图片的不同类别的特征类别和分类器,从而使得图像识别能够适用于不同的环境,并通过所选择的多个类别的特征提取和分类器组合分别进行图像识别,即有效组织多种特征提取方法和多种分类器进行图像识别,然后再根据多个组合得到的识别结果综合决策,从而提高了图像识别结果的可靠性。专利201110081240.5提出一种基于提升稀疏约束双线性模型的图像进行分类方法,该方法首先在图像上提取图像的局部特征;然后从图像上密集的提取多个部件;接着将各个部件用视觉词的直方图作为部件的特征表示,并将每个部件的特征表示按顺序排列起来,用一个矩阵的形式来表示图像;最后使用提升稀疏约束双线性模型模拟视觉词到部件、部件到图像类别之间的关系,从而达到对图像分类的目的。专利201110049008.3提出了基于特征值高斯统计特性的极化SAR图像分类方法,主要解决现有技术对特征分布特性认知上不足和类别判决界限需要人为确定的问题。该发明具有对极化SAR图像分类效果显著的优点,可用于极化SAR图像目标检测和目标识别。目前的图像识别的方法主要还是通过提取图像的局部特征,但是由于图像的局部特征缺乏语义性,所以当处理大类别图像识别的时候,其性能不太理想。

发明内容

[0003] 为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种深度学习网络实现大类别图像识别的方法,克服传统方法提取局部特征时语义信息的缺乏,能显著提升多类别图像识别的识别率。
[0004] 本发明的目的通过以下技术方案实现:
[0005] 一种深度学习网络实现大类别图像识别的方法,采用深度学习网络进行大类别图像识别,所述深度学习网络包括第一简单层S1层,第一复杂层C1层,第二简单层S2层和第二复杂层C2层;
[0006] 识别过程包括以下步骤:
[0007] (1)训练过程:
[0008] (11)对样本图片进行预处理,所述样本图片包括多种类别;
[0009] (12)对样本图片进行Gabor特征提取,得到Gabor特征矩阵,即S1层中的特征矩阵;
[0010] (13)对步骤(12)得到的S1层中的特征矩阵进行局部最大选取,得到局部最大化的Gabor特征矩阵,即C1层中的特征矩阵;
[0011] (14)使用特征码本对步骤(13)得到的C1层中的特征矩阵进行局部线性编码,得到S2层中的特征矩阵;
[0012] (15)使用空间金字塔方法对步骤(14)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,即C2层的特征矢量:
[0013] (16)将步骤(15)得到的C2层的特征矢量送入支持向量机分类器进行训练;
[0014] (2)识别过程:
[0015] (21)对测试图片进行预处理;
[0016] (22)对测试图片进行Gabor特征提取,得到Gabor特征矩阵,即S1层中的特征矩阵;
[0017] (23)对步骤(22)得到的S1层中的特征矩阵进行局部最大选取,得到局部最大化的Gabor特征矩阵,即C1层中的特征矩阵;
[0018] (24)使用特征码本对步骤(23)得到的C1层中的特征矩阵进行局部线性编码,得到S2层中的特征矩阵;
[0019] (25)使用空间金字塔方法对步骤(24)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,即C2层的特征矢量:
[0020] (26)将步骤(25)得到的C2层的特征矢量送入步骤(16)训练好的支持向量机分类器进行识别。
[0021] 步骤(14)所述使用特征码本对步骤(13)得到的C1层中的特征矩阵进行局部线性编码,具体为:
[0022] 在C1层中,对于样本图片中任意点,当以该点为基点时,在该基点周围提取特征码本中的特征模板大小内的各点,并转为一维特征矢量,使用特征码本对一维特征矢量进行局部线性编码;对样本图像所有基点进行局部线性编码后,得到C1层中的特征矩阵经过局部线性编码的编码结果,此编码结果为S2层中的特征矩阵;
[0023] 其中,所述局部线性编码具体实现如下:假设当前一维特征矢量是xi,其特征码本是B,设定经过局部线性编码后的输出为ci,一维特征矢量xi、特征码本B和输出ci必须满足下面最优化公式,其数学表达式如下所示:
[0024]
[0025] s.t.1Tci=1
[0026] 其 中 dist(xi,B)=[dist(xi,b1),...,dist(xi,bi)]T 为一维特征矢量与特征码本的距离向量, 为元素间相乘;该局部线性编码有解析解为[0027] 特征码本的提取过程如下:
[0028] 在每张样本图片的C1层中,随机选取20个4x4的,15个8x8的块,10个12x12的块及5个16x16的块,按空间顺序转为一维量后用k-means方法按大小分别对所有块进行聚类,将聚类后的中心作为特征码本。
[0029] 步骤(24)使用特征码本对步骤(23)得到的C1层中的特征矩阵进行局部线性编码,具体为:
[0030] 使用步骤(14)得到的特征码本对步骤(23)得到的C1层中的特征矩阵进行局部线性编码。
[0031] 步骤(15)使用空间金字塔方法对步骤(14)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,具体为:
[0032] 先对样本图片的S2层中的特征矩阵进行一次全局最大选取;再将样本图片划分成2x2的小区域,对各小区域的S2层中的特征矩阵分别进行最大选取,将全局最大选取和各小区域的最大选取结果统一转换成一维特征矢量,得到视觉图像特征和局部线性编码相结合的特征矢量。
[0033] 步骤(25)使用空间金字塔方法对步骤(24)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,具体为:
[0034] 先对测试图片的S2层中的特征矩阵进行一次全局最大选取;再将测试图片划分成2x2的小区域,对各小区域的S2层中的特征矩阵分别进行最大选取,将全局最大选取和各小区域的最大选取结果统一转换成一维特征矢量,得到视觉图像特征和局部线性编码相结合的特征矢量。
[0035] 步骤(11)所述对样本图片进行预处理,具体为:
[0036] 将样本图片进行灰度化处理,并调整为140x140的尺度,再以2^1/4的比例进行N-1次缩小,得到N个图像层,N>2。
[0037] 步骤(21)所述对测试图片进行预处理,具体为:
[0038] 将测试图片进行灰度化处理,并调整为140x140的尺度,再以2^1/4的比例进行N-1次缩小,得到N个图像层,N>2。
[0039] 与现有技术相比,本发明具有以下优点和有益效果:
[0040] (1)本发明首先模拟人眼的视觉特性提取图片的Gabor特征,然后利用局部线性编码方法模拟神经元,将局部视觉特征进行组合,并利用空间金字塔方法提取最终具有语义的特征矢量,提取的特征矢量在支持矢量机分类器中做最终识别。本发明的识别过程类似人类大脑的识别过程,在大类别图像分类过程中,性能要优化传统的基于局部特征的方法。
[0041] (2)本发明使用特征码本对局部最大化的Gabor特征进行局部线性编码,使得即使在样本图片库中采样大数量的块集合,也只得到较小维数的S2特征。同时由于放松了对块集合采样数量的限制,特征模板性的多样性可以得到保证。
[0042] (3)本发明采用了空间金字塔方法,使特征矢量依然能够保留一定的几何结构信息,支持向量机分类器进行分类处理时,几何结构信息有助于提高图像的识别性能。附图说明
[0043] 图1为本发明的实施例的深度学习网络实现大类别图像识别的方法的流程图

具体实施方式

[0044] 下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
[0045] 实施例
[0046] 如图1所示,本实施例的深度学习网络实现大类别图像识别的方法,采用深度学习网络进行大类别图像识别,所述深度学习网络包括第一简单层S1层,第一复杂层C1层,第二简单层S2层和第二复杂层C2层;
[0047] 识别过程包括以下步骤:
[0048] (1)训练过程:
[0049] (11)对样本图片进行预处理,样本图片包括共1000种类别,每种类别的图片40张:
[0050] 将样本图片进行灰度化处理,并调整为140x140的尺度,再以2^1/4的比例进行N-1次缩小,得到N个图像层(N>2,本发明设定N为9层);
[0051] (12)对样本图片进行Gabor特征提取,得到Gabor特征矩阵:
[0052] 对步骤(11)得到N个图像层,利用Gabor滤波器滤波,得到Gabor特征矩阵,即S1层中的特征矩阵;
[0053] (13)对步骤(12)得到的S1层中的特征矩阵进行局部最大选取,得到局部最大化的Gabor特征矩阵,即C1层中的特征矩阵;
[0054] (14)使用特征码本对步骤(13)得到的C1层中的特征矩阵进行局部线性编码,得到S2层中的特征矩阵,具体为:
[0055] 在C1层中,对于样本图片中任意点,当以该点为基点时,在该基点周围提取特征码本中的特征模板大小内的各点,并转为一维特征矢量,使用特征码本对一维特征矢量进行局部线性编码;对样本图像所有基点进行局部线性编码后,得到C1层中的特征矩阵经过局部线性编码的编码结果,此编码结果为S2层中的特征矩阵;
[0056] 其中,所述局部线性编码具体实现如下:假设当前一维特征矢量是xi,其特征码本是B,设定经过局部线性编码后的输出为ci,一维特征矢量xi、特征码本B和输出ci必须满足下面最优化公式,其数学表达式如下所示:
[0057]T
[0058] s.t.1ci=1
[0059] 其 中 dist(xi,B)=[dist(xi,b1),...,dist(xi,bi)]T 为一维特征矢量与特征码本的距离向量, 为元素间相乘;该局部线性编码有解析解为[0060] 特征码本的提取过程如下:
[0061] 在每张样本图片的C1层中,随机选取20个4x4的块,15个8x8的块,10个12x12的块及5个16x16的块,按空间顺序转为一维量后用k-means方法按大小分别对所有块进行聚类,将聚类后的中心作为特征码本B。
[0062] (15)使用空间金字塔方法对步骤(14)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量,即C2层的特征矢量:
[0063] 所述空间金字塔方法即将图像进行分层,第一层为样本图像,第二层是将样本图片划分成2x2的小区域。为此,算法先对样本图片的S2层中的特征矩阵进行一次全局最大选取;再将样本图片划分成2x2的小区域,对各小区域的S2层中的特征矩阵分别进行最大选取,将全局最大选取和2x2的小区域的最大选取结果统一转换成一维特征矢量,即可得到视觉图像特征和局部线性编码相结合的C2层的特征矢量。
[0064] (16)将步骤(15)得到的视觉图像特征和局部线性编码相结合的特征矢量送入支持向量机分类器(SVM分类器)进行训练。
[0065] (2)识别过程:
[0066] (21)对测试图片进行预处理:
[0067] 将测试图片进行灰度化处理,并调整为140x140的尺度,再以2^1/4的比例进行N-1次缩小,得到N个图像层;
[0068] (22)对测试图片进行Gabor特征提取,得到Gabor特征矩阵,即S1层中的特征矩阵;
[0069] (23)对步骤(22)得到的S1层中的特征矩阵进行局部最大选取,得到局部最大化的Gabor特征矩阵,即C1层中的特征矩阵;
[0070] (24)对步骤(23)得到的C1层中的特征矩阵进行局部线性编码:
[0071] 使用步骤(14)得到的特征码本对步骤(23)得到的C1层中的特征矩阵进行局部线性编码,得到S2层中的特征矩阵;
[0072] (25)使用空间金字塔方法对步骤(24)得到的S2层中的特征矩阵进行最大选取,得到视觉图像特征和局部线性编码相结合的特征矢量:
[0073] 先对测试图片的S2层中的特征矩阵进行一次全局最大选取;再将测试图片划分成2x2的小区域,对各小区域的S2层中的特征矩阵分别进行最大选取,将全局最大选取和2x2的小区域的最大选取结果统一转换成一维特征矢量,即可得到视觉图像特征和局部线性编码相结合的C2层的特征矢量;
[0074] (26)将步骤(25)得到的视觉图像特征和局部线性编码相结合的特征矢量送入步骤(16)训练好的支持向量机分类器进行识别。
[0075] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈