首页 / 专利库 / 信号处理 / 尺度图 / 一种基于卷积神经网络的无参考立体图像质量评价方法

一种基于卷积神经网络的无参考立体图像质量评价方法

阅读:782发布:2023-02-23

专利汇可以提供一种基于卷积神经网络的无参考立体图像质量评价方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 卷积神经网络 的无参考立体图像 质量 评价方法。首先,从人类视觉系统立体 感知 特性出发,将立体图像的左、右视图融合成中间视图,模拟人眼立体感知的过程;接着采用卷积神经网络(Convolutional Neural Network,CNN)作为图像的特征提取工具,使用迁移学习的概念调节一个卷积神经网络来自适应地提取图像中质量相关的特征,利用神经网络强大的图像特征表达能 力 避免手工建模过程中的不全面性和高复杂度;最后,将卷积神经网络提取到的特征送入支持向量回归模型,利用该模型在主观评分值与特征之间建立映射,从而得到最终质量评价分数。基于本发明提出方法的图像质量客观评价分数与 数据库 提供的主观质量分数具有较高的一致性,具有良好的准确性和鲁棒性。,下面是一种基于卷积神经网络的无参考立体图像质量评价方法专利的具体信息内容。

1.一种基于卷积神经网络的无参考立体图像质量评价方法,其特征在于包括如下步骤:
步骤(1).输入失真图像Idis和参考图像Iref,失真图像Idis和参考图像Iref各包含左、右两张视图;
步骤(2).基于结构相似性(Structural Similarity Index,SSIM)进行视差估计,定义图像左上为坐标原点,以左视图中像素点p1(x1,y1)为基准,在右视图上寻找像素点p2(x2,y2),使之与左视图中像素点之间的SSIM值最大,这两点即为对应的匹配点;
由于左、右视图只有平方向的位移,p1和p2之间满足以下关系:
其中d即为视差值,表示左右视图中对应像素点的位置差异,一幅立体图像中所有像素点对应的视差值构成视差图;
步骤(3).将步骤(1)输入的彩色图像分成R、G、B三个通道,分别对三个通道的图像用多方向多尺度的Gabor滤波器进行滤波,在每一个尺度上,用各方向的Gabor滤波结果的平均值代表该尺度上的能量谱,选择某个尺度的能量谱作为图像引起的视觉注意,用EL、ER表示;
步骤(4).将步骤(3)得到的左、右视图引起的视觉注意EL和ER归一化得到视觉注意的权重WL和WR:
步骤(5).结合步骤(2)得到的视差d分别对三个颜色通道的左视图IL和右视图IR对应位置处的像素点灰度值进行加权融合,得到该通道左右视图融合后的中间视图对应位置处的像素点灰度值:
CI(x,y)=WL(x,y)·IL(x,y)+WR((x+d),y)·IR((x+d),y)     (12)
将三个通道分量的中间视图叠加,即得到步骤(1)输入的彩色失真立体图像和参考图像的左右视图融合成的中间视图;
步骤(6).使用图像质量评价数据库中带有主观质量评分标注的失真图像对已经用ImageNet数据库中的图像训练好的分类卷积神经网络AlexNet进行微调训练;对图像质量评价数据库中所有图像按照主观质量分数均衡划分,训练AlexNet分类网络;
步骤(7).将步骤(5)得到的融合后的中间视图送入步骤(6)微调得到的AlexNet,提取AlexNet中分类输出层的前一层Layer输出作为特征,得到4096维的特征向量
步骤(8).采用支持向量回归(Support Vector Regression,SVR)的方法将步骤(7)得到的特征向量映射到图像的主观质量评价分数,最终得到失真图像的预测客观质量分数。
2.根据权利要求1所述的一种基于卷积神经网络的无参考立体图像质量评价方法,其特征在于所述的步骤(2)结构相似度SSIM计算方法如下:
SSIM的计算过程中利用了图像的亮度相似度、对比度相似度和结构相似度;对于每一个像素,这三个量都由其邻域的像素共同决定,在含有n个像素点的邻域内,像素点p的亮度Lp被定义为该n邻域内各像素灰度值gi的平均值,像素点p的对比度Cp被定义为这n点像素灰度值的标准差:
左视图像素点p1和右视图像素点p2之间的亮度相似度L(p1,p2),对比度相似度C(p1,p2),以及结构相似度S(p1,p2)计算如下:
像素点p1和p2之间的SSIM值由这三个分量共同决定:
SSIM(p1,p2)=L(p1,p2)·C(p1,p2)·S(p1,p2)   (6)
最终,将两幅图像中所有对应像素点的SSIM数值的均值定义为这两幅图像之间的SSIM,SSIM分布在0到1上,越接近于1相似度越高,越接近于0相似度越低。
3.根据权利要求1所述的一种基于卷积神经网络的无参考立体图像质量评价方法,其特征在于步骤(3)所述的基于Gabor滤波器响应的双目竞争过程的模拟量化方法:
将步骤(1)输入的彩色图像分成R、G、B三个通道,分别对三个通道的图像用Gabor滤波器进行滤波,Gabor滤波器表示为:
其中,
式中x’、y’为旋转之后的坐标,λ为正弦调制因子的波长,θ为Gabor核函数的方向,Ψ为正弦调质因子的相位偏移,σ高斯包络的标准差,γ为Gabor核函数的纵横比;
采用多方向多尺度的Gabor滤波器对输入图像进行滤波,在每一个尺度上,用各方向的Gabor滤波结果的平均值代表该尺度上的能量谱,模拟图像引起的视觉注意。

说明书全文

一种基于卷积神经网络的无参考立体图像质量评价方法

技术领域

[0001] 本发明属于图像处理技术领域,尤其涉及一种基于卷积神经网络的无参考立体图像质量评价方法。

背景技术

[0002] 随着多媒体技术的飞速发展,人类逐渐步入一个高清智能的数字视觉时代。图像所携带的信息比其他形式的信息都更加直观、真切,在人类的信息提取和认知建立过程中扮演者十分重要的色。立体(3D)图像相对于平面(2D)图像带来了更多的真实感,提升了视觉体验,在许多研究领域和娱乐应用方面都广受关注。在图像的获取、存储、传输和处理等过程中,存在着诸如系统成像处理技术不完善、噪声干扰和其它不确定因素等,无法避免地引入失真,降低图像质量,直接影响到人的视觉感受和后续处理分析。因此需要一个能够衡量图像质量的量化方法——图像质量评价(Image Quality Assessment,IQA)技术。IQA技术的提高也促进着图像处理相关领域的发展。首先,图像质量评价技术可以用于量化评价图像处理算法的优劣,因为在处理过程中,难免会引入不同程度的失真;其次还可以用于监控图像系统的图像质量,适时调整参数,实现系统优化;此外,通过对图像质量的评价,进一步研究人眼视觉特性,为计算机视觉的发展给出指导性建议。
[0003] 立体图像质量评价的评估对象是立体图像对(stereoscopicpair),由两张分别用于模拟左右眼成像的平面图像组成。左眼和右眼观察到的图像分别称为左视图和右视图。人的左右眼可以看作处于同一平线上相隔一定距离的两台照相机,立体图像左右视图的采集也是模拟这种关系实现的。立体图像失真不仅包含平面图像中可能存在的失真,还可能包括其特有的左右视图、深度等立体信息的影响。如何精确地评价图像质量已成为图像处理领域的研究热点。
[0004] 立体图像质量评价方法可分为主观质量评价方法和客观质量评价方法。主观质量评价方法是让实验的所有参与者根据一定的打分标准对观看到的立体图像打分的均值。主观质量评价方法的优点是它能真实地反馈立体图像质量好坏,但这种方法在实际应用中存在很多缺陷,如测试条件不稳定、浪费人物力、实时性差等,而客观质量评价方法可以嵌入立体图像处理系统的各个环节,实时性好,成本更低。客观的图像质量评价方法又可以根据对参考图像的利用程度分为:全参考图像质量评价,利用理想的未失真的参考图像作为对比来评价失真图像的质量分数;部分参考图像质量评价,该方法不需要参考图像,但需要利用参考图像的一些特征来得到失真图像的质量分数;无参考图像质量评价,不需要对比参考图像,仅根据失真图像得到其质量分数。
[0005] 大量研究结果表明,相比于直接将2D图像质量评价方法应用于3D图像,结合人类视觉系统的感知特性以及立体图像特有的信息进行特征提取往往能够获得更好的立体图像IQA方法。另外,一些方法虽然能在对称失真的图像上表现良好,但在非对称图像失上性能却较差,这是因为非对称失真类型的质量感知更为复杂,因此应当格外考虑左右视图非对称失真的情况。近年来,神经网络已经广泛应用于许多计算机视觉相关领域,并取得了很好的效果。其中尤以卷积神经网络(Convolutional Neural Networks,CNN)在图像处理领域表现突出,备受关注。CNN创造性地提出了局部感知、权值共享等思想,优化了深度神经网络结构,减少了参数数目,提高了训练效率,是提取图像特征的有效方法。

发明内容

[0006] 本发明的目的是针对现有图像质量评价方法的不足,提供一种基于卷积神经网络的无参考立体图像质量评价方法。
[0007] 本发明采取的技术方案是:
[0008] 首先,利用人类视觉系统立体感知特性,将立体图像的左、右视图融合成中间视图;接着采用卷积神经网络(Convolutional Neural Network,CNN)作为图像的特征提取工具,使用迁移学习的概念调节一个卷积神经网络来自适应地提取图像中质量相关的特征;最后,将卷积神经网络提取到的特征送入支持向量回归模型,利用支持向量回归模型在主观评分值与特征之间建立映射,从而得到最终质量评价分数。
[0009] 本发明解决其技术问题所采用的技术方案如下:
[0010] 步骤(1).输入失真图像Idis和参考图像Iref,失真图像Idis和参考图像Iref各包含左、右两张视图;
[0011] 步骤(2).基于结构相似性(Structural Similarity Index,SSIM,Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli“, Image quality assessment:from error visibility to structural similarity,”IEEE Transactions on Image Processing,vol.13,no.4,pp.600-612,2004)进行视差估计,定义图像左上角为坐标原点,以左视图中像素点p1(x1,y1)为基准,在右视图上寻找像素点p2(x2,y2),使之与左视图中像素点之间的SSIM值最大,这两点即为对应的匹配点。
[0012] SSIM的计算过程中利用了图像的亮度相似度、对比度相似度和结构相似度。对于每一个像素,这三个量都由其邻域的像素共同决定。在含有n个像素点的邻域内,像素点p的亮度Lp被定义为该n邻域内各像素灰度值gi的平均值,像素点p的对比度Cp被定义为这n点像素灰度值的标准差:
[0013]
[0014]
[0015] 左视图像素点p1和右视图像素点p2之间的亮度相似度L(p1,p2),对比度相似度C(p1,p2),以及结构相似度S(p1,p2)计算如下:
[0016]
[0017]
[0018]
[0019] 像素点p1和p2之间的SSIM值由这三个分量共同决定:
[0020] SSIM(p1,p2)=L(p1,p2)·C(p1,p2)·S(p1,p2)  (6)
[0021] 最终,将两幅图像中所有对应像素点的SSIM数值的均值定义为这两幅图像之间的SSIM,SSIM分布在0到1上,越接近于1相似度越高,越接近于0相似度越低。
[0022] 由于左、右视图只有水平方向的位移,p1和p2之间满足以下关系:
[0023]
[0024] 其中d即为视差值,表示左右视图中对应像素点的位置差异。一幅立体图像中所有像素点对应的视差值构成视差图。
[0025] 步骤(3).将步骤(1)输入的彩色图像分成R、G、B三个通道,分别对三个通道的图像用多方向多尺度Gabor滤波器进行滤波,模拟量化人眼视觉系统的双目竞争过程,得到视觉注意信息。Gabor滤波器表示为:
[0026]
[0027] 其中,
[0028]
[0029] 式中x’、y’为旋转之后的坐标,λ为正弦调制因子的波长,θ为Gabor核函数的方向,Ψ为正弦调质因子的相位偏移,σ高斯包络的标准差,γ为Gabor核函数的纵横比。
[0030] 本发明所述方法采用了多方向多尺度的滤波器进行滤波,在每一个尺度上,用各方向的Gabor滤波结果的平均值代表该尺度上的能量谱,模拟图像引起的视觉注意。
[0031] 步骤(4).将步骤(3)得到的左、右视图引起的视觉注意分别用EL和ER表示,归一化得到视觉注意的权重WL和WR:
[0032]
[0033]
[0034] 步骤(5).结合步骤(2)得到的视差d分别对三个颜色通道的左视图IL和右视图IR对应位置处的像素点灰度值进行加权融合,得到该通道左右视图融合后的中间视图对应位置处的像素点灰度值:
[0035] CI(x,y)=WL(x,y)·IL(x,y)+WR((x+d),y)·IR((x+d),y)  (12)
[0036] 将三个通道分量的中间视图叠加,即得到步骤(1)输入的彩色失真立体图像ID和参考图像IR的左右视图融合成的中间视图。
[0037] 步骤(6).使用图像质量评价数据库中带有主观质量评分标注的失真图像对已经在ImageNet数据库(http://www.image-net.org/)上训练好的分类卷积神经网络AlexNet(http://dl.caffe.berkeleyvision.org/bvlc_alexnet.caffemodel)进行微调训练。对图像质量评价数据库中所有图像按照主观质量分数均衡划分,训练AlexNet分类网络。
[0038] 步骤(7).将步骤(5)得到的融合后的中间视图送入步骤(6)微调得到的AlexNet,提取AlexNet中分类输出层的前一层Layer输出作为特征,得到4096维的特征向量
[0039] 步骤(8).采用支持向量回归(Support Vector Regression,SVR)的方法将步骤(7)得到的特征向量映射到图像的主观质量评价分数,最终得到失真图像的预测客观质量分数。
[0040] 本发明的有益效果:
[0041] 本发明依据结构相似度得到被测图像和参考图像的视差图,结合部分双目视觉特性和特有视差信息对左右视图进行融合,得到中间视图;接着,利用近年来在图像识别领域中表现突出的卷积神经网络对中间视图进行特征提取,对于卷积神经网络,本文使用迁移学习加速其训练过程。最后利用支持向量回归在这些特征和主观质量分数之间建立映射得到最终预测分数。实验结果表明,基于本发明所提出的方法得到的图像客观质量与主观评价结果具有很好的一致性,能够较好的评价图像的质量。附图说明
[0042] 图1为本发明一种基于卷积神经网络的无参考立体图像质量评价方法的结构框图

具体实施方式

[0043] 下面结合附图对本发明方法作进一步说明。
[0044] 如图1所示,一种基于卷积神经网络的无参考立体参考图像质量评价方法,其具体实施步骤如下:
[0045] 步骤(1).输入失真图像Idis和参考图像Iref,失真图像Idis和参考图像Iref各包含左、右两张视图;
[0046] 步骤(2).基于结构相似性(Structural Similarity Index,SSIM,Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli“, Image quality assessment:from error visibility to structural similarity,”IEEE Transactions on Image Processing,vol.13,no.4,pp.600-612,2004)进行视差估计,定义图像左上角为坐标原点,以左视图中像素点p1(x1,y1)为基准,在右视图上寻找像素点p2(x2,y2),使之与左视图中像素点之间的SSIM值最大,这两点即为对应的匹配点。
[0047] SSIM的计算过程中利用了图像的亮度相似度、对比度相似度和结构相似度。对于每一个像素,这三个量都由其邻域的像素共同决定。在含有n个像素点的邻域内,像素点p的亮度Lp被定义为该n邻域内各像素灰度值gi的平均值,像素点p的对比度Cp被定义为这n点像素灰度值的标准差:
[0048]
[0049]
[0050] 左视图像素点p1和右视图像素点p2之间的亮度相似度L(p1,p2),对比度相似度C(p1,p2),以及结构相似度S(p1,p2)计算如下:
[0051]
[0052]
[0053]
[0054] 像素点p1和p2之间的SSIM值由这三个分量共同决定:
[0055] SSIM(p1,p2)=L(p1,p2)·C(p1,p2)·S(p1,p2),(6)
[0056] 最终,将两幅图像中所有对应像素点的SSIM数值的均值定义为这两幅图像之间的SSIM,SSIM分布在0到1上,越接近于1相似度越高,越接近于0相似度越低。
[0057] 由于左、右视图只有水平方向的位移,p1和p2之间满足以下关系:
[0058]
[0059] 其中d即为视差值,表示左右视图中对应像素点的位置差异。一幅立体图像中所有像素点对应的视差值构成视差图。
[0060] 步骤(3).将步骤(1)输入的彩色图像分成R、G、B三个通道,分别对三个通道的图像用Gabor滤波器进行滤波,Gabor滤波器表示为:
[0061]
[0062] 其中,
[0063]
[0064] 式中x’、y’为旋转之后的坐标,λ为正弦调制因子的波长,θ为Gabor核函数的方向,Ψ为正弦调质因子的相位偏移,σ高斯包络的标准差,γ为Gabor核函数的纵横比。
[0065] 本发明所述方法采用了4个方向4个尺度的滤波器进行滤波,在每一个尺度上,用4个方向的Gabor滤波结果的平均值代表该尺度上的能量谱。根据Su等人的研究(Su C,Bovik A C,Cormack L K,et al.Natural scene statistics of color and range[C].International Conference on Image Processing,Chengdu,China,2011:257-260),选择第三个尺度的能量谱作为图像引起的视觉注意。
[0066] 步骤(4).将步骤(3)得到的左、右视图引起的视觉注意分别用EL和ER表示,归一化得到视觉注意的权重WL和WR:
[0067]
[0068]
[0069] 步骤(5).结合步骤(2)得到的视差d分别对三个颜色通道的左视图IL和右视图IR对应位置处的像素点灰度值进行加权融合,得到该通道左右视图融合后的中间视图对应位置处的像素点灰度值:
[0070] CI(x,y)=WL(x,y)·IL(x,y)+WR((x+d),y)·IR((x+d),y)  (12)
[0071] 将三个通道分量的中间视图叠加,即得到步骤(1)输入的彩色失真立体图像ID和参考图像IR的左右视图融合成的中间视图。
[0072] 步骤(6).使用德克萨斯大学奥斯汀分校图像和视频工程实验室建立的LIVE 2D数据库(http://live.ece.utexas.edu/research/Quality/subjective.htm)和LIVE 3D数据库(http://live.ece.utexas.edu/research/Quality/live_3dimage.html)中的图像对已经在ImageNet上训练好的AlexNet分类网络进行微调训练。对数据库中所有图像按照主观质量分数均衡地划分为6类,将AlexNet训练为6分类网络。
[0073] 步骤(7).将步骤(5)得到的融合后的中间视图送入步骤(6)微调得到的AlexNet,提取AlexNet中分类输出层的前一层Layer输出作为特征,得到4096维的特征向量。
[0074] 步骤(8).采用支持向量回归(Support Vector Regression,SVR)的方法将步骤(7)得到的特征向量映射到图像的主观质量评价分数,最终得到失真图像的预测客观质量分数。
[0075] 为了验证本发明所述3D图像质量评价方法的优越性能,我们在德克萨斯大学奥斯汀分校图像和视频工程实验室建立的LIVE  3D数据库阶段I和阶段II(http://live.ece.utexas.edu/research/Quality/live_3dimage.html)上进行了实验。
[0076] LIVE 3D IQA Phase I数据库由365张对称失真的3D图像组成,这些图像是20张原始立体图像经过5种常见的失真类型处理后产生的。JPEG2000(JP2K),JPEG,白噪声(White Noise,WN)和瑞利快速衰落信道模拟(Fast Fading,FF)各有80张失真图像;高斯模糊(Gaussian Blur,GB)有45张失真图像。每种对称失真的3D图像都由实验对象打分,得到主观评价分数,即DMOS(Differential Mean Opinion Score)值,DMOS越低代表视觉质量越高。
[0077] LIVE 3D IQA Phase II数据库同样包括上述五种失真类型:JPEG,JP2K,Gblur,WN和FF,每种类型包含72张失真图像。每种失真类型都被应用于8张参考立体图像,以产生3张对称的失真3D图像和6张不对称的失真3D图像。共产生120张对称失真和240张不对称失真的3D图像。每张失真的3D图像都有相应的DMOS值。
[0078] 表1给出了本发明所述方法在LIVE 3D数据库上的整体性能(Overall)及针对各失真类型的性能。表中的皮尔森相关系数(Pearson Linear Correlation Coefficient,PLCC)和斯皮尔曼相关系数(Spearman Rank-Order Correlation Coefficient,SROCC)是验证图像质量评价算法性能的重要指标,PLCC和SROCC的值越高,表示算法性能越好。PLCC和SROCC计算公式如下:
[0079]
[0080]
[0081]
[0082] 其中,n为图像总数量,xi和yi分别为主观质量分数和预测客观质量评价分数,Xi和Yi分别为xi和yi在主观质量分数和客观质量分数中的排名。
[0083] 实验结果表明本发明的算法模型在LIVE 3D数据库阶段I和阶段II上都达到了很好的预测效果。
[0084] 表1 本发明所述算法模型在LIVE 3D数据库中的实验结果
[0085]
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈