首页 / 专利库 / 人工智能 / 机器学习 / 监督学习 / 相似性学习 / 基于深度全卷积网络和条件随机场的图像语义分割方法

基于深度全卷积网络和条件随机场的图像语义分割方法

阅读:443发布:2020-05-13

专利汇可以提供基于深度全卷积网络和条件随机场的图像语义分割方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于深度全卷积网络和条件随机场的图像语义分割方法,包括步骤:深度全卷积语义分割网络模型搭建,基于全连接条件随机场的 像素 标签结构化预测,模型训练与参数学习和图像语义分割。本 申请 在深度全卷积网络中引入膨胀卷积和空间金字塔 池化 模 块 ,并对深度全卷积网络输出的标签预测图使用条件随机场进一步修正,膨胀卷积扩大感受野的同时确保特征图 分辨率 不变,空间金字塔池化模块从卷积局部特征图提取不同尺度区域上下文特征,为标签预测提供不同对象之间相互关系及对象与不同尺度区域特征之间联系,全连接条件随机场根据像素强度和 位置 的特征相似性对像素标签进一步优化,从而产生分辨率高、边界精确、空间连续性好的语义分割图。,下面是基于深度全卷积网络和条件随机场的图像语义分割方法专利的具体信息内容。

1.基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,包括以下步骤:
S1、深度全卷积语义分割网络模型搭建:
S11、深度全卷积语义分割网络模型包括特征提取模、金字塔池化模块和像素标签预测模块,所述特征提取模块通过对输入图像进行卷积、最大池化和膨胀卷积操作,提取图像局部特征;所述金字塔池化模块对卷积局部特征进行不同尺度空间池化,提取不同尺度区域上下文特征;所述像素标签预测模块利用卷积局部特征,结合不同尺度区域上下文特征来对像素类别进行预测;
S12、所述特征提取模块包括第一至第五卷积层组、第一至第三最大池化层、第一膨胀卷积层和第二膨胀卷积层,所述第一最大池化层位于第一卷积层组之后,所述第二最大池化层位于第二卷积层组之后,所述第三最大池化层位于第三卷积层组之后,所述第一膨胀卷积层位于第四卷积层组之后,所述第二膨胀卷积层位于第五卷积层组之后;所述金字塔池化模块先对第二膨胀卷积层输出的卷积局部特征采用N种不同容器尺寸进行N级平均池化,得到N种不同尺度低分辨率区域上下文特征,再对这N种不同尺度区域上下文特征分别进行卷积,输出通道数为原始特征通道的1/N,然后将N种不同尺度低分辨率区域上下文特征进行上采样到原始特征图尺寸大小;所述像素标签预测模块包括顺序设置的第一特征投影层、第二特征投影层、类别预测层和Softmax概率转换层,所述像素标签预测模块先将卷积局部特征和上采样后的N种不同尺度区域上下文特征进行连接融合,使用融合后特征对像素类别标签进行预测,再使用Softmax概率转换层将像素类别标签预测分值转换成像素类别标签预测概率分布;
S2、基于全连接条件随机场的像素标签结构化预测:采用全连接条件随机场对深度全卷积语义分割网络输出的像素类别标签进行后处理,移除误分类的孤立像素点或区域,优化复杂对象边界附近像素标签,使输出的分割图具有好的空间一致性和精确边界,其具体包括:
S21、使用全连接条件随机场来建模任意两像素标签变量概率之间的相互关系;
S22、全连接条件随机场模型采用以下吉布斯能量函数:
其中,x是像素类别标签变量,xi和xj分别是第i和第j个像素对应的标签,ψu是一元势函数,ψp是成对势函数;
S23、采用平均场近似概率迭代推理算法计算像素类别标签概率,输出优化后的像素类别标签预测概率分布图;
S3、模型训练与参数学习:
S31、采用Xavier方法对分割网络模型参数进行初始化;
S32、将训练数据进行扩充后按5:1:1分成训练集、验证集和测试集,采用六折交叉验证法来训练分割网络模型;
S33、将待分割图像的RGB作为3个通道输入深度全卷积语义分割网络,产生像素类别标签预测概率分布,利用标签预测概率和分割标签计算预测损失,具体采用分类交叉熵损失函数作为目标函数,定义如下:
其中,Y'是分割标签概率向量,Y是标签预测概率向量,C是像素类别数,S是图像像素的个数,log(.)是求自然对数,B是批大小;
S34、采用随机梯度下降算法优化目标函数,运用误差反向传播算法更新深度全卷积语义分割网络模型参数,具体优化过程如下:
mt1=μ*mt1-1-ηt1gt1
θt1=θt1-1+mt1
其中,下标t1是迭代次数,θ是网络模型参数,L(θt1-1)是当使用θt1-1为网络参数时的损失函数,gt1、mt1、μ分别是梯度、动量和动量系数,η是学习率;
S4、图像语义分割:
S41、将待分割图像的RGB作为3个通道输入深度全卷积语义分割网络,进行前向计算;
S42、特征提取模块通过卷积、最大池化和膨胀卷积操作,输出图像的卷积局部特征图;
S43、将卷积局部特征图输入金字塔池化模块,产生不同尺度区域上下文特征图;
S44、将卷积局部特征图和不同尺度区域上下文特征图进行连接,输入像素标签预测模块;
S45、像素标签预测模块先对卷积局部特征和不同尺度区域上下文特征进行卷积融合,然后利用融合特征对像素类别进行预测,输出像素类别标签预测概率分布图;
S46、将深度全卷积语义分割网络输出的像素类别标签预测概率分布图输入全连接条件随机场,根据像素间强度和位置特征相似性对像素类别标签预测概率分布进行优化,输出结构化后的像素类别标签预测概率分布图;
S47、取每个像素概率分布向量中最大概率所在分量的下标作为像素类别标签,得到图像最终语义分割图。
2.根据权利要求1所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述步骤S12中,每个卷积层组由两个卷积层组成,每个卷积层的卷积核大小为3×3、步长为1,所述第一至第五卷积层组的卷积核个数依次为64、128、256、512、1024;每个最大池化层的池化核大小为2×2、步长为2;每个膨胀卷积层的卷积核大小为3×3、步长为
1,所述第一膨胀卷积层和第二膨胀卷积层的膨胀因子分别为2和4;所述金字塔池化模块中金字塔池化级数为4,4级平均池化的容器尺寸分别为1×1、2×2、4×4、8×8,每级的卷积核大小为1×1、步长为1,每级的卷积核个数均为256;每个特征投影层的卷积核大小为1×1、步长为1,所述第一特征投影层和第二特征投影层的卷积核个数分别为1024和512;所述类别预测层的卷积核大小为1×1、步长为1,卷积核个数为32。
3.根据权利要求1所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述步骤S12中,第一膨胀卷积层和第二膨胀卷积层的膨胀卷积采用如下公式计算:
其中,(i,j)是第i行j列,W是卷积核,X是输入通道,Z是卷积输出图像,(M,N)是卷积核维数, 是卷积操作,r是膨胀因子。
4.根据权利要求3所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述膨胀卷积中任意一个膨胀卷积核所对应的输出特征图Zt2采用下式进行计算:
其中,t2是膨胀卷积核序号,K是输入通道数。
5.根据权利要求1所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述步骤S12中,还包括将卷积层、膨胀卷积层和特征投影层产生的输出特征图进行批标准化操作。
6.根据权利要求5所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述深度全卷积语义分割网络中采用LReLU函数作为激活函数,用于将批标准化后特征图中的每个值进行非线性转化,所述LReLU函数定义如下:
f(z)=max(0,z)+αmin(0,z)
其中,f(z)是非线性激励单元函数,max(.)函数是求最大值,min(.)函数是求最小值,z是一个输入值,α是Leaky参数。
7.根据权利要求1所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述步骤S12中,Softmax函数定义如下:
其中,Oi是某个像素在第i类上的预测分值,Yi是某个像素在第i类上的预测概率,C是像素类别个数,exp(.)是以自然常数e为底的指数函数。
8.根据权利要求1所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述步骤S22中,一元势函数ψu定义如下:
ψu(xi)=-logP(xi)
其中,P(xi)是深度全卷积语义分割网络输出的第i个像素的类别标签预测概率,log(.)是求自然对数;
成对势函数ψp定义如下:
其中, 是外观高斯核, 是平滑高斯核,μ(xi,
xj)是标签兼容性函数,μ(xi,xj)=[xi≠xj],pi和pj是第i和第j个像素对应的位置,Ii和Ij是第i和第j个像素对应的强度,σα、σβ和σγ是高斯核参数,ω1和ω2是两个高斯核的相对强度。
9.根据权利要求1所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述步骤S33中,在损失函数中加入有L1和L2正则化项,得最终目标函数如下:
其中,λ1和λ2分别是L1和L2正则化因子,θi是分割网络参数,Q是θi的参数个数。
10.根据权利要求1所述的基于深度全卷积网络和条件随机场的图像语义分割方法,其特征在于,所述步骤S34中引入有学习率线性衰减,且学习率按如下规律进行衰减:
其中,ηt1是第t1次迭代使用的学习率,η0是开始学习率,ητ是最终学习率,τ是总迭代次数。

说明书全文

基于深度全卷积网络和条件随机场的图像语义分割方法

技术领域

[0001] 本发明涉及图像理解技术领域,具体涉及一种基于深度全卷积网络和条件随机场的图像语义分割方法。

背景技术

[0002] 图像语义分割是根据像素的语义对图像像素进行标注形成不同分割区域。语义分割是图像理解的基石性技术,在自动驾驶系统的街景识别与理解、无人机着陆点判断、医学图像的病灶识别与定位中具有举足轻重的作用。
[0003] 深度学习技术的出现,使图像语义分割性能较之传统方法有了显著提升。使用深度卷积神经网络大数据集上进行有监督学习是当前图像语义分割的主流方法。输入待分割图像,采用连续的卷积和下采样操作来逐级提取图像特征,然后利用最后特征对图像像素进行分类。然而,基于深度学习技术的图像语义分割方法中连续的卷积和下采样操作将使特征图不断减小,位置细节信息不断丢失,从而导致分割图分辨率较低,分割边界定位困难,分割图粗糙。另外,在基于深度卷积网络的像素分类方法中,各像素类别标签的预测是独立进行,缺少先验知识和结构约束,不鼓励特征相似像素产生相同的分类标签,易产生孤立的误分类区域。另外,当语义分割的类别较多时,由于对象与对像之间、对象与背景之间缺少上下文关系,外观相似的对象在分类时极易产生混淆,当对象尺寸较小时很难发现,对象尺寸较大时可能超出感受野导致预测不连续。

发明内容

[0004] 针对现有方法存在的问题,本发明提供一种基于深度全卷积网络和条件随机场的图像语义分割方法,该方法在深度全卷积网络中引入膨胀卷积和空间金字塔池化,并对深度全卷积网络输出的标签预测图使用条件随机场进一步修正;膨胀卷积扩大感受野的同时确保特征图分辨率不变;空间金字塔池化模块从卷积局部特征图提取不同尺度区域上下文特征,为标签预测提供不同对象之间相互关系及对象与不同尺度区域特征之间联系;全连接条件随机场根据像素强度和位置的特征相似性对像素标签进一步优化,从而产生分辨率高、边界精确、空间连续性好的语义分割图。
[0005] 为了解决上述技术问题,本发明采用了如下的技术方案:
[0006] 一种基于深度全卷积网络和条件随机场的图像语义分割方法,包括以下步骤:
[0007] S1、深度全卷积语义分割网络模型搭建:
[0008] S11、深度全卷积语义分割网络模型包括特征提取模块、金字塔池化模块和像素标签预测模块,所述特征提取模块通过对输入图像进行卷积、最大池化和膨胀卷积操作,提取图像局部特征;所述金字塔池化模块对卷积局部特征进行不同尺度空间池化,提取不同尺度区域上下文特征;所述像素标签预测模块利用卷积局部特征,结合不同尺度区域上下文特征来对像素类别进行预测;
[0009] S12、所述特征提取模块包括第一至第五卷积层组、第一至第三最大池化层、第一膨胀卷积层和第二膨胀卷积层,所述第一最大池化层位于第一卷积层组之后,所述第二最大池化层位于第二卷积层组之后,所述第三最大池化层位于第三卷积层组之后,所述第一膨胀卷积层位于第四卷积层组之后,所述第二膨胀卷积层位于第五卷积层组之后;所述金字塔池化模块先对第二膨胀卷积层输出的卷积局部特征采用N种不同容器尺寸进行N级平均池化,得到N种不同尺度低分辨率区域上下文特征,再对这N种不同尺度区域上下文特征分别进行卷积,输出通道数为原始特征通道的1/N,然后将N种不同尺度低分辨率区域上下文特征进行上采样到原始特征图尺寸大小;所述像素标签预测模块包括顺序设置的第一特征投影层、第二特征投影层、类别预测层和Softmax概率转换层,所述像素标签预测模块先将卷积局部特征和上采样后的N种不同尺度区域上下文特征进行连接融合,使用融合后特征对像素类别标签进行预测,再使用Softmax概率转换层将像素类别标签预测分值转换成像素类别标签预测概率分布;
[0010] S2、基于全连接条件随机场的像素标签结构化预测:采用全连接条件随机场对深度全卷积语义分割网络输出的像素类别标签进行后处理,移除误分类的孤立像素点或区域,优化复杂对象边界附近像素标签,使输出的分割图具有好的空间一致性和精确边界,其具体包括:
[0011] S21、使用全连接条件随机场来建模任意两像素标签变量概率之间的相互关系;
[0012] S22、全连接条件随机场模型采用以下吉布斯能量函数:
[0013]
[0014] 其中,x是像素类别标签变量,xi和xj分别是第i和第j个像素对应的标签,ψu是一元势函数,ψp是成对势函数;
[0015] S23、采用平均场近似概率迭代推理算法计算像素类别标签概率,输出优化后的像素类别标签预测概率分布图;
[0016] S3、模型训练与参数学习:
[0017] S31、采用Xavier方法对分割网络模型参数进行初始化;
[0018] S32、将训练数据进行扩充后按5:1:1分成训练集、验证集和测试集,采用六折交叉验证法来训练分割网络模型;
[0019] S33、将待分割图像的RGB作为3个通道输入深度全卷积语义分割网络,产生像素类别标签预测概率分布,利用标签预测概率和分割标签计算预测损失,具体采用分类交叉熵损失函数作为目标函数,定义如下:
[0020]
[0021] 其中,Y'是分割标签概率向量,Y是标签预测概率向量,C是像素类别数,S是图像像素的个数,log(.)是求自然对数,B是批大小;
[0022] S34、采用随机梯度下降算法优化目标函数,运用误差反向传播算法更新深度全卷积语义分割网络模型参数,具体优化过程如下:
[0023]
[0024] mt1=μ*mt1-1-ηt1gt1
[0025] θt1=θt1-1+mt1
[0026] 其中,下标t1是迭代次数,θ是网络模型参数,L(θt1-1)是当使用θt1-1为网络参数时的损失函数,gt1、mt1、μ分别是梯度、动量和动量系数,η是学习率;
[0027] S4、图像语义分割:
[0028] S41、将待分割图像的RGB作为3个通道输入深度全卷积语义分割网络,进行前向计算;
[0029] S42、特征提取模块通过卷积、最大池化和膨胀卷积操作,输出图像的卷积局部特征图;
[0030] S43、将卷积局部特征图输入金字塔池化模块,产生不同尺度区域上下文特征图;
[0031] S44、将卷积局部特征图和不同尺度区域上下文特征图进行连接,输入像素标签预测模块;
[0032] S45、像素标签预测模块先对卷积局部特征和不同尺度区域上下文特征进行卷积融合,然后利用融合特征对像素类别进行预测,输出像素类别标签预测概率分布图;
[0033] S46、将深度全卷积语义分割网络输出的像素类别标签预测概率分布图输入全连接条件随机场,根据像素间强度和位置特征相似性对像素类别标签预测概率分布进行优化,输出结构化后的像素类别标签预测概率分布图;
[0034] S47、取每个像素概率分布向量中最大概率所在分量的下标作为像素类别标签,得到图像最终语义分割图。
[0035] 进一步,所述步骤S12中,每个卷积层组由两个卷积层组成,每个卷积层的卷积核大小为3×3、步长为1,所述第一至第五卷积层组的卷积核个数依次为64、128、256、512、1024;每个最大池化层的池化核大小为2×2、步长为2;每个膨胀卷积层的卷积核大小为3×
3、步长为1,所述第一膨胀卷积层和第二膨胀卷积层的膨胀因子分别为2和4;所述金字塔池化模块中金字塔池化级数为4,4级平均池化的容器尺寸分别为1×1、2×2、4×4、8×8,每级的卷积核大小为1×1、步长为1,每级的卷积核个数均为256;每个特征投影层的卷积核大小为1×1、步长为1,所述第一特征投影层和第二特征投影层的卷积核个数分别为1024和512;
所述类别预测层的卷积核大小为1×1、步长为1,卷积核个数为32。
[0036] 进一步,所述步骤S12中,第一膨胀卷积层和第二膨胀卷积层的膨胀卷积采用如下公式计算:
[0037]
[0038] 其中,(i,j)是第i行j列,W是卷积核,X是输入通道,Z是卷积输出图像,(M,N)是卷积核维数, 是卷积操作,r是膨胀因子。
[0039] 进一步,所述膨胀卷积中任意一个膨胀卷积核所对应的输出特征图Zt2采用下式进行计算:
[0040]
[0041] 其中,t2是膨胀卷积核序号,K是输入通道数。
[0042] 进一步,所述步骤S12中,还包括将卷积层、膨胀卷积层和特征投影层产生的输出特征图进行批标准化操作。
[0043] 进一步,所述深度全卷积语义分割网络中采用LReLU函数作为激活函数,用于将批标准化后特征图中的每个值进行非线性转化,所述LReLU函数定义如下:
[0044] f(z)=max(0,z)+αmin(0,z)
[0045] 其中,f(z)是非线性激励单元函数,max(.)函数是求最大值,min(.)函数是求最小值,z是一个输入值,α是Leaky参数。
[0046] 进一步,所述步骤S12中,Softmax函数定义如下:
[0047]
[0048] 其中,Oi是某个像素在第i类上的预测分值,Yi是某个像素在第i类上的预测概率,C是像素类别个数,exp(.)是以自然常数e为底的指数函数。
[0049] 进一步,所述步骤S22中,一元势函数ψu定义如下:
[0050] ψu(xi)=-logP(xi)
[0051] 其中,P(xi)是深度全卷积语义分割网络输出的第i个像素的类别标签预测概率,log(.)是求自然对数;
[0052] 成对势函数ψp定义如下:
[0053]
[0054] 其中, 是外观高斯核, 是平滑高斯核,μ(xi,xj)是标签兼容性函数,μ(xi,xj)=[xi≠xj],pi和pj是第i和第j个像素对应的位置,Ii和Ij是第i和第j个像素对应的强度,σα、σβ和σγ是高斯核参数,ω1和ω2是两个高斯核的相对强度。
[0055] 进一步,所述步骤S33中,在损失函数中加入有L1和L2正则化项,得最终目标函数如下:
[0056]
[0057] 其中,λ1和λ2分别是L1和L2正则化因子,θi是分割网络参数,Q是θi的参数个数。
[0058] 进一步,所述步骤S34中引入有学习率线性衰减,且学习率按如下规律进行衰减:
[0059]
[0060] 其中,ηt1是第t1次迭代使用的学习率,η0是开始学习率,ητ是最终学习率,τ是总迭代次数。
[0061] 与现有技术相比,本发明提供的基于深度全卷积网络和条件随机场的图像语义分割方法具有以下优点:
[0062] 1、采用膨胀卷积,在扩大神经元感受野的同时不会降低特征图的维数,提高了特征图分辨率,从而使最终分割图有高的分辨率;
[0063] 2、金字塔池化模块从卷积局部特征图中提取不同尺度区域上下文特征,这些特征作为先验知识与深度全卷积网络产生的局部特征一起共同对像素类别进行预测,相当于在像素预测时充分考虑了不同对象之间的关系及对象和背景之间的相互联系,可显著降低像素类别预测错误率;
[0064] 3、全连接条件随机场利用像素强度和像素位置特征,鼓励位置相近、特征相似的像素分配相同标签,可移除孤立分割区域,使分割图具有好的外观和空间一致性;
[0065] 4、多级金字塔池化技术和全连接条件随机场相结合,可分割出复杂对象的细粒度边界,使语义分割图区域边界更加精确;
[0066] 5、可实现较小尺寸对象的分割,当大尺寸对象超过感受野时也可产生连续的标签预测。附图说明
[0067] 图1是本发明提供的基于深度全卷积网络和条件随机场的图像语义分割方法流程示意图。
[0068] 图2是本发明提供的特征提取网络结构示意图。
[0069] 图3是本发明提供的基于多级金字塔池化的多尺度区域特征提取模块示意图。

具体实施方式

[0070] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示和较佳实施例,进一步阐述本发明。
[0071] 请参考图1至图3所示,本发明提供一种基于深度全卷积网络和条件随机场的图像语义分割方法,包括以下步骤:
[0072] S1、深度全卷积语义分割网络模型搭建:
[0073] S11、深度全卷积语义分割网络模型包括特征提取模块、金字塔池化模块和像素标签预测模块,所述特征提取模块通过对输入图像进行卷积、最大池化和膨胀卷积操作,提取图像局部特征;所述金字塔池化模块对卷积局部特征进行不同尺度空间池化,提取不同尺度区域上下文特征;所述像素标签预测模块利用卷积局部特征,结合不同尺度区域上下文特征来对像素类别进行预测;
[0074] S12、所述特征提取模块包括第一至第五卷积层组、第一至第三最大池化层、第一膨胀卷积层和第二膨胀卷积层,所述第一最大池化层位于第一卷积层组之后,所述第二最大池化层位于第二卷积层组之后,所述第三最大池化层位于第三卷积层组之后,所述第一膨胀卷积层位于第四卷积层组之后,所述第二膨胀卷积层位于第五卷积层组之后,即在每个卷积层组之后跟一个最大池化层或膨胀卷积层,且为了保证卷积后特征图大小与卷积前相同,在卷积过程中设置Padding=1,即卷积时用0值填充图像周围;所述金字塔池化模块先对第二膨胀卷积层输出的卷积局部特征采用N种不同容器尺寸(bin size)进行N级平均池化,得到N种不同尺度低分辨率区域上下文特征,再对这N种不同尺度区域上下文特征分别进行卷积,输出通道数为原始特征通道的1/N,然后将N种不同尺度区域上下文特征进行上采样到原始特征图尺寸大小;所述像素标签预测模块包括顺序设置的第一特征投影层、第二特征投影层、类别预测层和Softmax概率转换层,所述像素标签预测模块先将卷积局部特征和上采样后的N种不同尺度区域上下文特征进行连接融合,使用融合后特征对像素类别标签进行预测,再使用Softmax概率转换层将像素类别标签预测分值转换成像素类别标签预测概率分布。
[0075] 作为具体实施例,所述深度全卷积语义分割网络模型的详细结构见下表1,表1中是以480×480的输入图像为例进行说明,当然输入图像的尺寸也可以是其他任意大小:
[0076] 表1深度全卷积语义分割网络模型参数表(Padding=1)
[0077]
[0078] 从表1可以得出,所述步骤S12中,每个卷积层组由两个卷积层组成,每个卷积层的卷积核大小为3×3、步长为1,所述第一至第五卷积层组的卷积核个数依次为64、128、256、512、1024;每个最大池化层的池化核大小为2×2、步长为2;每个膨胀卷积层的卷积核大小为3×3、步长为1,所述第一膨胀卷积层和第二膨胀卷积层的膨胀因子分别为2和4;所述金字塔池化模块中金字塔池化级数为4,4级平均池化的容器尺寸分别为1×1、2×2、4×4、8×
8,通过4级平均池化即可将原始特征图平均进行1、4、16和64等份,在每等份中求取平均值代替原始特征值,得到4种区域上下文特征,对每级使用大小为1×1、步长为1、个数均为256的卷积核进行卷积,然后上采样到原始特征图尺寸大小,最后通过像素标签预测模块将卷积局部特征和上采样后的4种不同尺度区域上下文特征进行连接(Concatenation)融合;每个特征投影层的卷积核大小为1×1、步长为1,所述第一特征投影层和第二特征投影层的卷积核个数分别为1024和512;所述类别预测层的卷积核大小为1×1、步长为1,卷积核个数为
32,32表示像素语义标签输出的类别数。当然,所述金字塔池化级数、各级容器尺寸及像素语义标签输出的类别数并不局限于前述参数设置,也可以根据实际情况进行确定。
[0079] 作为具体实施例,所述深度全卷积语义分割网络模型的计算操作包括:
[0080] (1)膨胀卷积:
[0081] 膨胀卷积(Dilated Convolution),就是将卷积核进行上采样(膨胀),卷积核原位置权值不变而中间位置补0,膨胀卷积可通过采用不同膨胀因子来提高感受野,获取不同尺度的区域上下文特征,但不会增加网络参数和计算量,与最大池化操作相比,则不会导致特征图分辨率下降。具体地,所述步骤S12中,第一膨胀卷积层和第二膨胀卷积层的膨胀卷积采用如下公式计算:
[0082]
[0083] 其中,(i,j)是第i行j列,W是卷积核,X是输入通道,Z是卷积输出图像,(M,N)是卷积核维数, 是卷积操作,r是膨胀因子,r=1时相当于普通卷积。
[0084] 其中,所述膨胀卷积中任意一个膨胀卷积核所对应的输出特征图Zt2采用下式进行计算:
[0085]
[0086] 其中,t2是膨胀卷积核序号,K是输入通道数。
[0087] (2)批标准化:
[0088] 为了让每一层输入有一个稳定的分布,使激活函数分布在线性区间,产生更大的梯度来加速收敛,所述步骤S12中,还包括将卷积层、膨胀卷积层和特征投影层产生的输出特征图进行批标准化(Batch Normalization,BN)操作,即将卷积和膨胀卷积产生的输出图像进行规范化,减去平均值,再除以标准差。
[0089] (3)非线性激励LReLU:
[0090] 所述深度全卷积语义分割网络中采用LReLU(Leaky Rectifier Linear Units)函数作为激活函数,用于将批标准化后特征图中的每个值进行非线性转化,所述LReLU函数定义如下:
[0091] f(z)=max(0,z)+αmin(0,z)     (3)
[0092] 其中,f(z)是非线性激励单元函数,max(.)函数是求最大值,min(.)函数是求最小值,z是一个输入值,α是Leaky参数,α=0.3。
[0093] (4)分类函数Softmax:
[0094] Softmax函数用于将分割网络输出的像素类别标签预测分值转换成像素类别标签预测概率分布,所用Softmax函数定义如下:
[0095]
[0096] 其中,Oi是某个像素在第i类上的预测分值,Yi是某个像素在第i类上的预测概率,C是像素类别个数,C=32,exp(.)是以自然常数e为底的指数函数。
[0097] S2、基于全连接条件随机场的像素标签结构化预测:采用全连接条件随机场对深度全卷积语义分割网络输出的像素类别标签进行后处理,移除误分类的孤立像素点或区域,优化复杂对象边界附近像素标签,使输出的分割图具有好的空间一致性和精确边界,其具体包括:
[0098] S21、使用全连接条件随机场来建模任意两像素标签变量概率之间的相互关系,具体可使用本领域熟知的概率无向图模型建模像素类别标签预测概率;
[0099] S22、全连接条件随机场模型采用以下吉布斯(Gibbs)能量函数:
[0100]
[0101] 其中,x是像素类别标签变量,xi和xj分别是第i和第j个像素对应的标签,ψu是一元势函数,ψp是成对势函数;
[0102] 在吉布斯能量函数中,ψu是一元势函数,定义如下:
[0103] ψu(xi)=-logP(xi)     (6)
[0104] 其中,P(xi)是深度全卷积语义分割网络输出的第i个像素的类别标签预测概率,log(.)是求自然对数;
[0105] 在吉布斯能量函数中,ψp是成对势函数,定义如下:
[0106]
[0107] 其中, 是外观高斯核, 是平滑高斯核,μ(xi,xj)是标签兼容性函数,μ(xi,xj)=[xi≠xj],pi和pj是第i和第j个像素对应的位置,Ii和Ij是第i和第j个像素对应的强度(或RGB颜色值),σα、σβ和σγ是高斯核参数,ω1和ω2是两个高斯核的相对强度;外观高斯核与像素位置及强度有关,迫使位置相近和强度相似的像素分配相同的标签;平滑高斯核仅与像素位置有关,平滑局部像素边界并移除异常分类点或区域;标签兼容性函数的作用是仅对第i和第j个像素取不同标签时进行惩罚;具体可采用本领域熟知的网格搜索法来获取ω1、σα和σβ三个参数,取ω2=1,σγ=1;
[0108] S23、采用本领域熟知的平均场近似概率迭代推理算法计算像素类别标签概率,输出优化后的像素类别标签预测概率分布图。
[0109] S3、模型训练与参数学习:
[0110] S31、采用Xavier方法对分割网络模型参数进行初始化;
[0111] S32、获取训练数据样本,使用平翻转、垂直翻转、放大后裁减、旋转45°、旋转90°、旋转135°、旋转180°、旋转225°、旋转270°、旋转315°数据增强技术来扩充训练数据样本,使训练数据样本增加为初始的10倍,然后将这些训练数据按5:1:1分成训练集、验证集和测试集,采用六折交叉验证法来训练分割网络模型;
[0112] S33、将待分割图像的RGB作为3个通道输入深度全卷积语义分割网络,产生像素类别标签预测概率分布,利用标签预测概率和分割标签计算预测损失,具体采用分类交叉熵损失函数作为目标函数,定义如下:
[0113]
[0114] 其中,Y'是分割标签概率向量,Y是标签预测概率向量,C是像素类别数,S是图像像素的个数,log(.)是求自然对数,B是批大小(Batch Size)即随机梯度下降迭代时每次迭代使用的样本数,设C=32,S=480×480=230400,B=16;
[0115] 为了防止过拟合,在式(8)所示的损失函数中加入有L1和L2正则化项,得最终目标函数如下:
[0116]
[0117] 其中,λ1和λ2分别是L1和L2正则化因子,均设为0.1,θi是分割网络参数,Q是θi的参数个数;
[0118] S34、采用随机梯度下降算法优化目标函数,运用误差反向传播算法更新深度全卷积语义分割网络模型参数,具体优化过程如下:
[0119]
[0120] mt1=μ*mt1-1-ηt1gt1     (11)
[0121] θt1=θt1-1+mt1         (12)
[0122] 其中,下标t1是迭代次数,θ是网络模型参数,L(θt1-1)是当使用θt1-1为网络参数时的损失函数,gt1、mt1、μ分别是梯度、动量和动量系数,η是学习率;设μ=0.9,初始学习率设-3为1e ;
[0123] 为了抑制随机梯度下降带来的梯度噪声,确保模型收敛,所述步骤S34中引入有学习率线性衰减,且学习率按如下规律进行衰减:
[0124]
[0125] 其中,ηt1是第t1次迭代使用的学习率,η0是开始学习率,ητ是最终学习率,τ是总迭代次数,设ητ=η0/1000,τ=100000。
[0126] S4、图像语义分割:
[0127] S41、将待分割图像的RGB作为3个通道输入深度全卷积语义分割网络,进行前向计算;
[0128] S42、特征提取模块通过卷积、最大池化和膨胀卷积操作,输出图像的卷积局部特征图;
[0129] S43、将卷积局部特征图输入金字塔池化模块,产生不同尺度区域上下文特征图;
[0130] S44、将卷积局部特征图和不同尺度区域上下文特征图进行连接,输入像素标签预测模块;
[0131] S45、像素标签预测模块先对卷积局部特征和不同尺度区域上下文特征进行卷积融合,然后利用融合特征对像素类别进行预测,输出像素类别标签预测概率分布图;
[0132] S46、将深度全卷积语义分割网络输出的像素类别标签预测概率分布图输入全连接条件随机场,根据像素间强度和位置特征相似性对像素类别标签预测概率分布进行优化,输出结构化后的像素类别标签预测概率分布图;
[0133] S47、取每个像素概率分布向量中最大概率所在分量的下标作为像素类别标签,得到图像最终语义分割图。
[0134] 与现有技术相比,本发明提供的基于深度全卷积网络和条件随机场的图像语义分割方法具有以下优点:
[0135] 1、采用膨胀卷积,在扩大神经元感受野的同时不会降低特征图的维数,提高了特征图分辨率,从而使最终分割图有高的分辨率;
[0136] 2、金字塔池化模块从卷积局部特征图中提取不同尺度区域上下文特征,这些特征作为先验知识与深度全卷积网络产生的局部特征一起共同对像素类别进行预测,相当于在像素预测时充分考虑了不同对象之间的关系及对象和背景之间的相互联系,可显著降低像素类别预测错误率;
[0137] 3、全连接条件随机场利用像素强度和像素位置特征,鼓励位置相近、特征相似的像素分配相同标签,可移除孤立分割区域,使分割图具有好的外观和空间一致性;
[0138] 4、多级金字塔池化技术和全连接条件随机场相结合,可分割出复杂对象的细粒度边界,使语义分割图区域边界更加精确;
[0139] 5、可实现较小尺寸对象的分割,当大尺寸对象超过感受野时也可产生连续的标签预测。
[0140] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈