首页 / 专利库 / 电脑图像 / 像素 / 一种图像关键区域检测方法及其系统、终端设备

一种图像关键区域检测方法及其系统、终端设备

阅读:1024发布:2020-07-01

专利汇可以提供一种图像关键区域检测方法及其系统、终端设备专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种图像关键区域检测方法及其系统、终端设备,其利用 深度学习 方法对待分类的商品训练出一个分类网络,用该神经网络对待分类的商品进行前向推理,得到商品的类别和激活图,进一步基于与商品的类别匹配的编码作为神经网络的梯度,进行反向传播,获得可反映待处理图像的关键区域的梯度激活图,从而可将与所需的分类信息相关度不大的非重要区域剔除,从而减少原始待处理图像的背景干扰,并获得所需的关键区域。与现有的需要进行人工标注的方法不同,本发明所提供的技术方案,可通过神经网络的自身训练而得到,通过这样的检测方法及其系统得到的关键区域相比于通过人为手工标注的关键区域可具有更优的鲁棒性。,下面是一种图像关键区域检测方法及其系统、终端设备专利的具体信息内容。

1.一种图像关键区域检测方法,其特征在于:其包括如下的步骤:
步骤S1,训练获得一神经网络;
步骤S2,输入一待处理图像,基于该神经网络对待处理图像进行前向推理,以获得待处理图像中商品的分类结果及所需激活图;其中,所述激活图为在神经网络进行前向推理的过程中,最后一个卷积层上对应的特征图;
步骤S3,将分类结果转换为编码结果,并将编码结果作为所述神经网络中的梯度进行反向传播,以获得所需梯度图;及
步骤S4,计算最后一个卷积层对应的梯度图中每一维通道对应像素的平均梯度值;将获得的平均梯度值与对应的通道数相乘获得对应梯度图的乘积值;将乘积值分别与获得的激活图进行加权平均运算,以获得所需的梯度激活图;所述梯度激活图可代表待处理图像的关键区域。
2.如权利要求1所述图像关键区域检测方法,其特征在于:在上述步骤S4之后,包括如下步骤:
步骤S5,将梯度激活图转换为热图;及
步骤S6,将热力图与待处理图像进行叠加,得到关键区域,基于该关键区域以优化新分类神经网络。
3.如权利要求2所述图像关键区域检测方法,其特征在于:在上述步骤S6中,基于该关键区域以优化新分类神经网络具体包括以下步骤:将关键区域裁剪出来获得新的裁剪图像,以继续训练优化新分类神经网络;或将待处理图像中增加一个通道以存放所述热力图,并继续训练优化新分类神经网络。
4.如权利要求1所述图像关键区域检测方法,其特征在于:上述步骤S1之后,在进行步骤S2之前,还需要判断步骤S1中的神经网络是否训练收敛,若是,则进入步骤S2,若否,则返回步骤S1继续训练;在步骤S2中所获得的激活图,其具体为在神经网络进行前向推理中,最后一个卷积层上的激活图。
5.如权利要求1所述图像关键区域检测方法,其特征在于:在上述步骤S3中,对分类结果转换为编码结果,具体包括:对分类结果进行one hot编码,每一个分类对应一个one hot编码。
6.一种图像关键区域检测系统,其特征在于:其包括:
训练模,其被配置为用于训练获得一神经网络;
获取激活图模块,其被配置为用于输入一待处理图像,基于该神经网络对待处理图像进行前向推理,以获得待处理图像中商品的分类结果及所需激活图;
获取梯度图模块,其被配置为用于将分类结果转换为编码结果,并将编码结果作为所述神经网络中的梯度进行反向传播,以获得所需梯度图;及
获取梯度激活图模块,其被配置为计算最后一个卷积层对应的梯度图中每一维通道对应像素的平均梯度值;将获得的平均梯度值与对应的通道数相乘获得对应梯度图的乘积值;将乘积值分别与获得的激活图进行加权平均运算,以获得所需的梯度激活图,所述梯度激活图可代表待处理图像的关键区域。
7.如权利要求6所述图像关键区域检测系统,其特征在于:所述图像关键区域检测系统还包括:
判断模块,用于判断所述训练模块中训练获得的神经网络是否训练收敛;
图像转换模块,用于将梯度激活图转换为热力图;及
获取关键区域模块,用于将热力图与待处理图像进行叠加得到关键区域,并基于该关键区域以优化新分类神经网络。
8.如权利要求7所述图像关键区域检测系统,其特征在于:所述图像转换模块还包括:
均值计算单元,用于计算不同卷积层对应的梯度图的平均值;
乘积计算单元,用于将不同卷积层对应的梯度图的平均值与不同的卷积层的通道数相乘获得对应梯度图的乘积值;及
加权平均计算单元,用于将乘积值分别与激活图进行加权平均运算,以获得所需的梯度激活图。
9.一种终端设备,其特征在于:所述终端设备包括存储单元和处理单元,所述存储单元用于存储计算机程序,所述处理单元用于通过所述存储单元存储的计算机程序执行所述权利要求1-5中任一项所述图像关键区域检测方法中的步骤。

说明书全文

一种图像关键区域检测方法及其系统、终端设备

【技术领域】

[0001] 本发明涉及人工智能领域,其特别涉及一种图像关键区域检测方法及其系统、终端设备。【背景技术】
[0002] 随着图像处理量的剧增,如何对图像进行高效的标注、分类处理,越来越得到人们的关注。在现有技术中,主要是基于人的先验知识,对图像中的关键区域、关键点进行手动的标注,其标注的关键内容可让神经网络进行学习。但是,这样的关键区域的划分需要耗费大量的人、物力和时间成本,而且由于个人经验的差异,其还存在标注不准确的问题,尤其是针对具有相似包装标签等具有相似特征的瓶子、箱子、袋子或者盒子这样的包装商品时,由于特征差异较小,因此,依据个人经验很难定义出合适的关键点或者关键区域,例如在一些标注分类的过程中,往往会出现将具有相似包装标签的箱子或者盒子选择出相同的关键区域。【发明内容】
[0003] 为解决现有技术难以定义出合适的关键区域的技术问题,本发明提供一种图像关键区域检测方法及其系统、终端设备。
[0004] 本发明为解决上述技术问题,提供如下的技术方案:一种图像关键区域检测方法,其包括如下的步骤:步骤S1,训练获得一神经网络;步骤S2,输入一待处理图像,基于该神经网络对待处理图像进行前向推理,以获得待处理图像中商品的分类结果及所需激活图(activation map);其中,所述激活图为在神经网络进行前向推理的过程中,最后一个卷积层上对应的特征图;;步骤S3,将分类结果转换为编码结果,并将编码结果作为所述神经网络中的梯度进行反向传播,以获得所需梯度图(gradient map);及步骤S4,计算最后一个卷积层对应的梯度图中每一维通道对应像素的平均梯度值;将获得的平均梯度值与对应的通道数相乘获得对应梯度图的乘积值;将乘积值分别与步骤S2获得的激活图进行加权平均运算,以获得所需的梯度激活图(gradient activation map),所述梯度激活图可代表待处理图像的关键区域。
[0005] 优选地,在上述步骤S4之后,包括如下步骤:步骤S5,将梯度激活图转换为热力图;及步骤S6,将热力图与待处理图像进行叠加,得到关键区域,基于该关键区域以优化新分类神经网络。
[0006] 优选地,在上述步骤S6中,基于该关键区域以优化新分类神经网络具体包括以下步骤:将关键区域裁剪出来获得新的裁剪图像,以继续训练优化新分类神经网络;或将待处理图像中增加一个通道以存放所述热力图,并继续训练优化新分类神经网络。
[0007] 优选地,上述步骤S1之后,在进行步骤S2之前,还需要判断步骤S1中的神经网络是否训练收敛,若是,则进入步骤S2,若否,则返回步骤S1继续训练;在步骤S2中所获得的激活图,其具体为在神经网络进行前向推理中,最后一个卷积层上的激活图;
[0008] 优选地,在上述步骤S3中,对分类结果转换为编码结果,具体包括:对分类结果进行one hot编码(一位有效编码),每一个分类对应一个one hot编码。
[0009] 本发明为解决上述技术问题,提供又一的技术方案:一种图像关键区域检测系统,其包括:训练模,其被配置为用于训练获得一神经网络;获取激活图模块,其被配置为用于输入一待处理图像,基于该神经网络对待处理图像进行前向推理,以获得待处理图像中商品的分类结果及所需激活图;获取梯度图模块,其被配置为用于将分类结果转换为编码结果,并将编码结果作为所述神经网络中的梯度进行反向传播,以获得所需梯度图;及获取梯度激活图模块,其被配置为计算最后一个卷积层对应的梯度图中每一维通道对应像素的平均梯度值;将获得的平均梯度值与对应的通道数相乘获得对应梯度图的乘积值;将乘积值分别与步骤S2获得的激活图进行加权平均运算,以获得所需的梯度激活图,所述梯度激活图可代表待处理图像的关键区域。
[0010] 优选地,所述图像关键区域检测系统还包括:判断模块,用于判断所述训练模块中训练获得的神经网络是否训练收敛;图像转换模块,用于将梯度激活图转换为热力图;及获取关键区域模块,用于将热力图与待处理图像进行叠加得到关键区域,并基于该关键区域以优化新分类神经网络。
[0011] 优选地,所述图像转换模块还包括:均值计算单元,用于计算不同卷积层对应的梯度图的平均值;乘积计算单元,用于将不同卷积层对应的梯度图的平均值与不同的卷积层的通道数相乘获得对应梯度图的乘积值;及加权平均计算单元,用于将乘积值分别与激活图进行加权平均运算,以获得所需的梯度激活图。
[0012] 本发明为解决上述技术问题,提供又一的技术方案:一种终端设备,其特征在于:所述终端设备包括存储单元和处理单元,所述存储单元用于存储计算机程序,所述处理单元用于通过所述存储单元存储的计算机程序执行上述图像关键区域检测方法中的步骤。
[0013] 与现有技术相比,本发明所提供的所述图像关键区域检测方法及其系统、终端设备具有如下的有益效果:
[0014] 本发明所提供的图像关键区域检测方法及其系统,利用深度学习方法对待分类的商品训练出一个分类网络,用该神经网络对待分类的商品进行前向推理,得到商品的类别和激活图,进一步基于与商品的类别匹配的编码作为神经网络的梯度,进行反向传播,获得可反映待处理图像的关键区域的梯度激活图,从而可将与所需的分类信息相关度不大的非重要区域剔除,从而可有效减少原始待处理图像的背景干扰,从而可进一步集中在区分度更高的关键区域。
[0015] 与现有的需要进行人工标注的方法不同,本发明所提供的图像关键区域检测方法及其系统,可通过神经网络的自身训练而得到,通过这样的检测方法及其系统得到的关键区域相比于通过人为手工标注的关键区域可具有更优的鲁棒性(Robust)。
[0016] 进一步地,在本发明中,将获得的梯度激活图转换为热力图,从而实现了神经网络的可视化,获得神经网络对于该类商品所关注的区域,作为该类商品的关键区域。这样可以自动完成对商品关键区域的检测,并且可以利用这些关键区域,进一步地改善分类网络的性能。
[0017] 而在本发明中,基于获得的关键区域再放入新的分类神经网络中进行训练,可进一步优化新的分类神经网络,从而有助于快速提升神经网络的性能,并且这样自动化检测流程可以节省大量的时间和人力成本。
[0018] 为了进一步提高训练神经网络的鲁棒性,在所述图像关键区域检测方法汇总,还包括判断神经网路是否训练收敛,若未收敛,则继续利用数据集对神经网络进行训练,从而可保证训练获得的神经网路对商品分类的准确度。
[0019] 在本发明中,利用one hot编码方式对商品的分类结果进行编码,可直接将商品的分类结果转化为对应的多维向量,将one hot编码作为神经网络的梯度,以进行反向传播,从而获得其对应的梯度图,基于one hot编码的选择获得所需的关键区域,关键区域与one hot编码中对应的类别相关,基于one hot编码的选择可进一步提高从所述待处理图像中检测关键区域的灵活度及准确度。
[0020] 在本发明中,利用神经网络前向推理获得激活图及其反向传播获得的梯度图综合以得出梯度激活图,其可反映出待处理图像中选定的商品类别的重要区域,而无需人为进行标注,可大大减少人力、物力和时间成本,还可避免由于人工标注图像关键区域不准确的问题。
[0021] 在本发明中,将关键区域裁剪出来获得新的裁剪图像或将待处理图像中增加一个通道以存放所述热力图两种对获得的关键区域的处理方式,均可用于进一步优化新分类神经网络,从而可改善商品分类神经网络的性能。
[0022] 本发明还提供一终端设备,其包括存储单元和处理单元,所述存储单元用于存储计算机程序,所述处理单元用于通过所述存储单元存储的计算机程序执行所述图像关键区域检测方法中的步骤。因此,所述终端设备也具有与上述图像关键区域检测方法相同的有益效果,在此不再赘述。【附图说明】
[0023] 图1A是本发明第一实施例所提供的图像关键区域检测方法的步骤流程示意图。
[0024] 图1B是图1A中所示图像关键区域检测方法的另一实施例的步骤流程示意图。
[0025] 图2是图1A中所示步骤S1之后及在执行步骤S2之前进行神经网络是否训练收敛的判断步骤的流程示意图。
[0026] 图3是图1中所示步骤S4的具体流程步骤示意图。
[0027] 图4A是图2中所示步骤S6的具体流程步骤示意图。
[0028] 图4B是图4A中步骤S6的另一种实施例的具体流程步骤示意图。
[0029] 图5是本发明第二实施例所提供的图像关键区域检测系统的模块示意图。
[0030] 图6是图5中所示图像关键区域检测系统的另一实施例的功能模块示意图。
[0031] 图7是图6中所示图像转换模块的具体模块示意图。
[0032] 图8是本发明第三实施例所提供的终端设备的模块示意图。
[0033] 附图标注说明:
[0034] 20,图像关键区域检测系统;21,训练模块;22,获取激活图模块;23,获取梯度图模块;231,编码模块;24,获取梯度激活图模块;25,判断模块;26,图像转换模块;261,均值计算单元;262,乘积计算单元;263,加权平均计算单元;27,获取关键区域模块;
[0035] 30,终端设备;31,存储单元;32,处理单元;33,输入部分;34,输出部分;35,通信部分。【具体实施方式】
[0036] 为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0037] 请参阅图1A,本发明的第一实施例提供一种图像关键区域检测方法,其包括如下的步骤:
[0038] 步骤S1,训练获得一神经网络;
[0039] 步骤S2,输入一待处理图像,基于待处理图像对该神经网络进行前向推理,以获得待处理图像中商品的分类结果及所需激活图(activation map);
[0040] 步骤S3,将分类结果转换为编码结果,并将编码结果作为所述神经网络中的梯度进行反向传播,以获得所需梯度图(gradient map);及
[0041] 步骤S4,将激活图与梯度图综合得出梯度激活图(gradient activation map),所述梯度激活图可代表待处理图像的关键区域。
[0042] 可选地,为了进一步获得更准确的关键区域,并对获得的关键区域进一步利用,在上述步骤S4之后,如图1B中所示,所述图像关键区域检测方法还可包括如下步骤:
[0043] 步骤S5,将梯度激活图转换为热力图;及
[0044] 步骤S6,将热力图与待处理图像进行叠加,得到关键区域,基于该关键区域以优化新分类神经网络。
[0045] 在上述的步骤S1中,所述神经网络包括为可用于对待分类物体进行分类的神经网络,具体地,在此处所使用的分类网络可以为任意的卷积神经网络(Convolutional Neural Networks,CNN),其具体可包括但不受限于:alexnet神经网络、vgg神经网络或resnet神经网络中的任一种。
[0046] 在本实施例中,以商品分类为例,在处理包含有待分类商品的待处理图像中,往往需要对于如瓶子、箱子、带子或者盒子这样的物体,由于不同类型的商品的特征较多且不同商品的特征差异较大,从而使其分类的难度增大。
[0047] 在本实施例中,选用适合的对商品分类的神经网络,并进行训练,可提高图像关键区域检测的准确性。
[0048] 具体地,为了提高所述训练获得的神经网络的稳定性,如图2中所示,在上述步骤S1之后,在进行步骤S2之前,还需要包括如下步骤:
[0049] 步骤S1-2,判断步骤S1中的神经网络是否训练收敛,若是,则进入步骤S2,若否,则返回步骤S1继续训练。
[0050] 具体而言,在本发明的一些具体实施例中,判断神经网络是否训练收敛可基于训练神经网络的损失函数(loss function)来确定,其中,损失函数可直接反应神经网络的预测值的准确性。当损失函数的变化不大时,则可表示神经网络训练到最优的状态,即可认为训练神经网络的准确度较优。在本发明中,所述损失函数可包括但不受限于平方损失函数、对数损失函数、交叉熵损失函数等。
[0051] 在上述步骤S2中,向训练获得的神经网络中输入待处理图像,进行前向推理,选取适合的卷积核(filter),获得对应的特征图(feature map);在具体的前向推理过程中,每一卷积层可包括一个卷积核或多个卷积核,卷积层的每个卷积核都有一个关注的图像特征,比如其可为待处理图像的垂直边缘、平边缘、颜色或纹理等等。在前向推理中会对应产生多层卷积层,在本发明中,越远离输入层的卷积层所对应的卷积核数量越多,而其所能体现的特征信息也越细致,从而可检测识别的特征也越多。在完成前向推理后,可获得待处理图像中商品的分类结果。
[0052] 在上述步骤S2中,在神经网络进行前向推理的过程中,最后一个卷积层上对应的特征图即为激活图,该激活图可体现图像高层语义信息(High level feature),其中,图像高层语义信息可直接反映出待处理图像商品的分类信息。
[0053] 例如,在一些具体的实施例中,需要对待处理图像中的瓶子、箱子、袋子或盒子这样的物体进行分类,其用于分类的特征可为瓶子、箱子、袋子或盒子的标签文字信息、形状或者颜色。最后一个卷积层上对应的激活图,可体现出瓶子、箱子、袋子或盒子对应分类结果的类别特征。
[0054] 在上述步骤S3中,将分类结果转换为编码结果,具体可为:基于步骤S2中获得的分类结果进行one hot编码(一位有效编码),具体地,所述one hot编码是分类变量作为二进制向量的表示,这首先要求将分类值映射到整数值。然后,每个整数值倍表示为二进制向量,除了整数的索引之外,其他都是零值,其被标注为1。也即,在本发明中,每一个分类对应一个one hot编码。
[0055] 具体地,假设需要进行编码的分类结果有6个类别,对其中的第一个类别进行one hot编码为(1,0,0,0,0,0),而如果对其中的第四个类别进行编码,那么one hot编码则对应为(0,0,0,1,0,0)。
[0056] 在步骤S3中进一步将one hot编码当成神经网络对该类别的商品的梯度并进行反向传播,以获得最后一个卷积层上的梯度图。在所述神经网络中,其每一卷积层都会有一个梯度图。将可反映商品分类的one hot编码等同于神经网络的梯度,其可基于对应的梯度图直接反映经过这一卷积层之后,神经网络对该商品分类的准确概率是提高还是降低。
[0057] 例如,选用上述步骤S2中测得的分类为第一类别,则将其对应的one hot编码(1,0,0,0,0,0)作为所述神经网络对该第一类别商品的梯度并进行反向传播,从而可获得多个卷积层对应于该第一类别商品的梯度图,取最后一个卷积层上的梯度图。所获得的最后一个卷积层上的梯度图可反映出第一类别商品的关键区域。如需要获取其他类别商品的关键区域,则可以更换one hot编码,使one hot编码对应所需类别商品的编码。
[0058] 以上分类的数量及方式仅作为示例,在一些具体的实施例中,one hot编码还可对应为十几个类别、几十个类别、几百个类别或上千个类别,在此作为限制。
[0059] 在上述步骤S4中,如图3中所示,将激活图与梯度图综合得出梯度激活图具体包括如下的步骤:
[0060] 步骤S41,计算最后一个卷积层对应的梯度图中每一维通道对应像素的平均梯度值;具体而言,在本发明中,一卷积层的输出共有P维通道,可分别对应于P个关键点位置,卷积特征的输出是一个W×H×P维的张量,其中,P表示通道数,W对应表示为输出的梯度图的宽,H对应表示为输出的梯度图的高;卷积层每一维通道可以表示成一个W×H维的矩阵。
[0061] 步骤S42,将步骤S41获得的平均梯度值与对应的通道数相乘获得对应梯度图的乘积值。
[0062] 步骤S43,将乘积值分别与步骤S2获得的激活图进行加权平均运算,以获得所需的梯度激活图;具体地,在步骤S2中所获得的激活图对应为浮点数,在进行加权平均运算后,将求得的加权平均值赋给对应像素点,从而获得所需的梯度激活图。在此步骤中,激活图只选在前向推理过程中的最后一个卷积层的特征图,其包含高层语义信息,与分类任务的相关度较大,因此可以进一步提高分类的准确度。
[0063] 基于上述的步骤可知,每一个通道的输入都可以转换成与原图同样大小的梯度激活图。在梯度激活图中响应比较强烈的区域,即可代表原图中的一个局部区域。对任何商品在最后一个卷积层产生一个大概的局部映射来高亮那些对于预测数据有着很重要作用的区域,可以认为梯度激活图中响应最强烈的位置即作为原图中对应关键区域。
[0064] 在上述步骤S5中,进一步将梯度激活图转换为热力图具体包括如下步骤:
[0065] 求得的梯度激活图的逐个通道的平均值,其平均值即为针对选定的一分类类别的热力图。其中,将梯度激活图转换成热力图可使待处理图像的关键区域可视化,从而可以更为直观的获得关键区域的范围和位置,从而可提高分类的准确性。
[0066] 在上述步骤S6中,请参阅图4A,将热力图与待处理图像进行叠加,得到关键区域,基于该关键区域以优化新分类神经网络,具体包括如下的步骤:
[0067] 步骤S61,将热力图与待处理图像进行叠加,将热力图与待处理图像的重叠区域作为关键区域;其中,作为本发明的一个示例,此处可利用OpenCV函数实现热力图与待处理图像的叠加。
[0068] 步骤S62,将所述关键区域用以继续训练优化新分类神经网络。
[0069] 具体地,进一步如图4B中所示,所述步骤S62可具体细分为如下步骤:
[0070] 步骤S621,将关键区域裁剪出来获得新的裁剪图像,以继续训练优化新分类神经网络;或
[0071] 步骤S622,将待处理图像中增加一个通道以存放热力图,并继续训练优化新分类神经网络;其中,所述通道为类似于RGB三通道或灰度图像通道,所述通道用以存放热力图,并可与待处理图像进行叠加,从而提取获得相应的关键区域。
[0072] 在上述步骤S621与步骤S622中,其对应的步骤可进一步将获得的关键区域用以训练优化新分类神经网络,从而有助于提升神经网络的性能,本实施例中所提供的图像关键区域检测方法可实现自动化的检测流程,无需人工进行标注,可以节省大量的时间和人力,从而实现分类神经网络性能的快速提升。
[0073] 请继续参阅图5,本发明的第二实施例提供一种图像关键区域检测系统20,其包括:
[0074] 训练模块21,其被配置为用于训练获得一神经网络;
[0075] 获取激活图模块22,其被配置为用于输入一待处理图像,基于该神经网络对待处理图像进行前向推理,以获得待处理图像中商品的分类结果及所需激活图;
[0076] 获取梯度图模块23,其被配置为用于将分类结果转换为编码结果,并将编码结果作为所述神经网络中的梯度进行反向传播,以获得所需梯度图;及
[0077] 获取梯度激活图模块24,其被配置为用于将激活图与梯度图综合得出梯度激活图。
[0078] 请继续参阅图5,在上述获取梯度图模块23中,进一步包括:
[0079] 编码模块231,用于对分类结果进行one hot编码,以使每一个分类对应一个one hot编码。其中,one hot编码可对应分类结果的排列顺序,其中,假设分类结果有6个类别,在则第一个类别对应的one hot编码为(1,0,0,0,0,0),而第四个类别对应的one hot编码则对应为(0,0,0,1,0,0)。
[0080] 在本实施例中,将可反映商品分类的one hot编码等同于神经网络的梯度。基于其对应的梯度图,可以直接判断神经网络经过这一卷积层之后,针对该商品分类的准确概率是提高还是降低。
[0081] 为了进一步判断上述训练模块训练获得的神经网络的稳定性,请参阅图6,所述图像关键区域检测系统还包括:
[0082] 判断模块25,用于判断所述训练模块中训练获得的神经网络是否训练收敛;
[0083] 所述判断模块25的具体判断的步骤包括:
[0084] 若判断神经网络已经训练收敛,则所述获取激活图模块22用于向所述神经网络中输入一待处理图像,基于该神经网络对待处理图像进行前向推理,以获得待处理图像中商品的分类结果及所需激活图;
[0085] 若判断神经网络还未训练收敛,则训练模块21继续对该神经网络进行训练。
[0086] 具体判断神经网络是否训练收敛的相关限定与第一实施例中所述的内容相同,在此不再赘述。
[0087] 可选地,为了找出更合适的关键区域,并将获得的关键区域用以优化新分类神经网络,请继续参阅图6,所述图像关键区域检测系统20还可进一步包括:
[0088] 图像转换模块26,用于将梯度激活图转换为热力图;及
[0089] 获取关键区域模块27,用于将热力图与待处理图像进行叠加得到关键区域,并基于该关键区域以优化新分类神经网络。
[0090] 具体地,请继续参阅图7,所述图像转换模块26还可进一步包括:
[0091] 均值计算单元261,用于计算最后一个卷积层对应的梯度图的平均值;具体为将获得的对应卷积层上的梯度图的每一个像素的平均梯度值后,再获得针对该梯度图的平均值。
[0092] 乘积计算单元262,用于将该卷积层对应的梯度图的平均值与对应的卷积层的通道数相乘获得对应梯度图的乘积值;及
[0093] 加权平均计算单元263,用于将乘积值分别与激活图进行加权平均运算,以获得所需的梯度激活图。具体地,在进行加权平均运算后,将求得的加权平均值赋给对应像素点,从而获得所需的梯度激活图。
[0094] 请参阅图8,本发明的第三实施例提供一用于实施上述图像关键区域检测方法的终端设备30,所述终端设备30包括存储单元31和处理单元32,所述存储单元31用于存储计算机程序,所述处理单元32用于通过所述存储单元31存储的计算机程序执行所述图像关键区域检测方法中的步骤。
[0095] 在本发明一些具体的实施例中,所述终端设备20可以是硬件,也可以是软件。当终端设备为硬件时,可以是具有显示屏并且支持视频播放的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0096] 所述存储单元31包括只读存储器(ROM)、随机访问存储器(RAM)及硬盘等的存储部分等,所述处理单元32可以根据存储在所述只读存储器(ROM)中的程序或者加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器(RAM)中,还存储有所述终端设备30操作所需的各种程序和数据。
[0097] 如图8中所示,所述终端设备30还可包括键盘鼠标等的输入部分33;所述终端设备30还可进一步包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分34;以及所述终端设备30可进一步包括诸如LAN卡、调制解调器等的网络接口卡的通信部分
35。所述通信部分35经由诸如因特网的网络执行通信处理。
[0098] 特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明所公开的实施例可包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分35从网络上被下载和安装。
[0099] 在该计算机程序被所述处理单元32执行时,执行本申请的所述图像关键区域检测方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0100] 在本申请中,计算机可读存储介质还可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
[0101] 可采用一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言--诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0102] 在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0103] 在本发明的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种图像关键区域检测系统包括训练模块、获取激活图模块、获取梯度图模块以及获取梯度激活图模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
[0104] 作为另一方面,本发明的第四实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:训练获得一神经网络;输入一待处理图像,基于该神经网络对待处理图像进行前向推理,以获得待处理图像中商品的分类结果及所需激活图;将分类结果转换为编码结果,并将编码结果作为所述神经网络中的梯度进行反向传播,以获得所需梯度图;及将激活图与梯度图综合得出梯度激活图,所述梯度激活图可代表待处理图像的关键区域。
[0105] 与现有技术相比,本发明所提供的所述图像关键区域检测方法及其系统、终端设备具有如下的有益效果:
[0106] 本发明所提供的图像关键区域检测方法及其系统,利用深度学习方法对待分类的商品训练出一个分类网络,用该神经网络对待分类的商品进行前向推理,得到商品的类别和激活图,进一步基于与商品的类别匹配的编码作为神经网络的梯度,进行反向传播,获得可反映待处理图像的关键区域的梯度激活图,从而可将与所需的分类信息相关度不大的非重要区域剔除,从而可有效减少原始待处理图像的背景干扰,从而可进一步集中在区分度更高的关键区域。
[0107] 与现有的需要进行人工标注的方法不同,本发明所提供的图像关键区域检测方法及其系统,可通过神经网络的自身训练而得到,通过这样的检测方法及其系统得到的关键区域相比于通过人为手工标注的关键区域可具有更优的鲁棒性。
[0108] 进一步地,在本发明中,将获得的梯度激活图转换为热力图,从而实现了神经网络的可视化,获得神经网络对于该类商品所关注的区域,作为该类商品的关键区域。这样可以自动完成对商品关键区域的检测,并且可以利用这些关键区域,进一步地改善分类网络的性能。
[0109] 而在本发明中,基于获得的关键区域再放入新的分类神经网络中进行训练,可进一步优化新的分类神经网络,从而有助于快速提升神经网络的性能,并且这样自动化检测流程可以节省大量的时间和人力成本。
[0110] 为了进一步提高训练神经网络的鲁棒性,在所述图像关键区域检测方法汇总,还包括判断神经网路是否训练收敛,若未收敛,则继续利用数据集对神经网络进行训练,从而可保证训练获得的神经网路对商品分类的准确度。
[0111] 在本发明中,利用one hot编码方式对商品的分类结果进行编码,可直接将商品的分类结果转化为对应的多维向量,将one hot编码作为神经网络的梯度,以进行反向传播,从而获得其对应的梯度图,基于one hot编码的选择获得所需的关键区域,关键区域与one hot编码中对应的类别相关,基于one hot编码的选择可进一步提高从所述待处理图像中检测关键区域的灵活度及准确度。
[0112] 在本发明中,利用神经网络前向推理获得激活图及其反向传播获得的梯度图综合以得出梯度激活图,其可反映出待处理图像中选定的商品类别的重要区域,而无需人为进行标注,可大大减少人力、物力和时间成本,还可避免由于人工标注图像关键区域不准确的问题。
[0113] 在本发明中,将关键区域裁剪出来获得新的裁剪图像或将待处理图像中增加一个通道以存放所述热力图两种对获得的关键区域的处理方式,均可用于进一步优化新分类神经网络,从而可改善商品分类神经网络的性能。
[0114] 本发明还提供一终端设备,其包括存储单元和处理单元,所述存储单元用于存储计算机程序,所述处理单元用于通过所述存储单元存储的计算机程序执行所述图像关键区域检测方法中的步骤。因此,所述终端设备也具有与上述图像关键区域检测方法相同的有益效果,在此不再赘述。
[0115] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈