首页 / 专利库 / 图形技术 / 压缩失真 / 基于深度神经网络的图像降维和重建方法

基于深度神经网络的图像降维和重建方法

阅读:149发布:2020-05-11

专利汇可以提供基于深度神经网络的图像降维和重建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 深度神经网络 的图像 降维 和重建方法,在编码端进行图像降维,减少图片压缩产生的比特流,节约带宽;在解码端进行图像重建。本发明将离散 小波变换 与 深度学习 结合,来提高图像降维和重建性能的潜 力 。本发明将变换、量化、 熵编码 这些模板联合到一起,使得各功能模 块 之间相互影响,联合优化变换、量化等编码步骤,使得 编码器 性能尽可能达到最优。本发明不仅使用神经网络来实现图像的降维和重建,还嵌套使用了 离散小波变换 。在优化率失真时,为了提供更加精确的码字分布,本发明结合使用了上下文网络与超先验网络,后者可以纠正前者的预测信息,共同生成更加准确的均值和标准差参数。,下面是基于深度神经网络的图像降维和重建方法专利的具体信息内容。

1.基于深度神经网络的图像降维和重建方法,其特征在于,构建图像降维和重建网络框架,该网络框架包括编码端和解码端;在编码端进行图像降维,减少图片压缩产生的比特流,节约带宽;在解码端进行图像重建;包括以下步骤:
S1:在编码端,将待编码的图像输入包含离散小波变换DWT的卷积神经网络,得到保存有结构信息的低分辨率图y;
S2:将低分辨率图y量化,得到码字 并将所得码字通过熵编码器,得到熵编码后的码流文件;
且通过混合高斯模型对量化后的码字进行概率建模,来控制码率;并引入上下文及超先验信息,让超先验网络基于上下文来学习概率分布的均值与标准差;
S3:在解码端,将压缩解码后的图像输入包含整数小波变换IWT的卷积网络,得到原始图像重构后的图像;该整数小波变换为离散小波变换的逆变换。
2.根据权利要求1所述的基于深度神经网络的图像降维和重建方法,其特征在于,步骤S1包括以下具体步骤:
1.1)将待编码图像的像素值范围规范至[-1.0,1.0],得到预处理后的图像x;
1.2)对x进行一层卷积操作,提取相关特征信息,得到输出结果x1;
x1=F(x*w+b),其中F为激活函数,以x为输入信息,w为权值,b为偏置,x1为输出结果;
1.3)对x1进行DWT变换,得到输出结果x2;
1.4)对x2进行n次卷积操作,得到x的低分辨率图y。
3.根据权利要求1所述的基于深度神经网络的图像降维和重建方法,其特征在于,步骤S2包括以下具体步骤:
2.1)将低分辨率图像y输入超先验网络,得到输出结果φ;
2.2)对y进行四舍五入的量化,得到
其中U(-0.5,0.5)为值域[-0.5,0.5]的均
匀分布;
2.3)将 输入上下文网络,得到输出结果θ;
该上下文网络在生成某点像素值得时候,将该像素右侧和下侧的像素值掩盖,只通过上侧和左侧的像素值来计算当前点的像素值;
2.4)将φ和θ同时输入熵编码器的参数估计网络,进行多层卷积操作,得到混合高斯分布的参数,即均值μ与标准差δ;
2.5)熵编码器根据μ、δ对 进行编码,得到压缩的比特流。
4.根据权利要求1所述的基于深度神经网络的图像降维和重建方法,其特征在于,步骤S3包括以下具体步骤:
3.1)熵解码器根据μ、δ对压缩的比特流进行解码,得到
3.2)对 进行m次反卷积操作,得到通道数为4的倍数的图 其中
Q为激活函数,w为权值,b为偏置;
3.3)对 进行IWT变换,得到多通道的结果
3.4)对 进行输出通道数为1的卷积操作,得到原始图像x的解码图像,并将解码图像的像素值范围规范至[0,255],得到最终的解码图像
5.根据权利要求2所述的基于深度神经网络的图像降维和重建方法,其特征在于:
编码端结合使用了DWT和卷积操作;
步骤1.2)中,激活函数为GDN;
步骤1.4)中,n为2。
6.根据权利要求3所述的基于深度神经网络的图像降维和重建方法,其特征在于:
步骤2.1)中,超先验网络通过牺牲额外的码字为熵编码器提供额外的参数信息,进一步去除了码字之间的冗余信息;
步骤2.3)中,上下文网络的功能通过掩模卷积操作来实现。
7.根据权利要求6所述的基于深度神经网络的图像降维和重建方法,其特征在于,超先验网络的结构是基于卷积操作的。
8.根据权利要求4所述的基于深度神经网络的图像降维和重建方法,其特征在于:
解码端结合使用了IWT与卷积操作;
步骤3.2)中,激活函数为IGDN;m为2。
9.根据权利要求1所述的基于深度神经网络的图像降维和重建方法,其特征在于,对比传统的图像编码器结构,图像降维和重建网络中的编码器和解码器参数全部由网络训练学习得到;且网络训练时,为了有效进行率失真优化,还对码字的码率进行估计,以方便在训练中对编码器的码率进行控制。
10.根据权利要求1所述的基于深度神经网络的图像降维和重建方法,其特征在于,对码字的码率进行估计时,超先验网络与上下文网络互补;超先验网络中加入上下文信息不会导致潜在的利率损失;在上下文网络中引入超先验信息消除了一定数量的不确定性。

说明书全文

基于深度神经网络的图像降维和重建方法

技术领域

[0001] 本发明涉及图像重建领域,具体涉及一种基于深度神经网络的图像降维并重建的方法。

背景技术

[0002] 图像是对客观事物的一种相似性、生动的描述,是对客观对象的一种比较直观的表示方式,它包含了被描述对象的有关信息。
[0003] 随着信息时代的发展,图像信息日益增多,而我们的网络带宽有限。在这种情况下,通过将图像降维来实现减少传输图像所占用的带宽就显得尤其重要了。图像数据之所以能被降维,就是因为数据中存在着冗余。图像数据的冗余主要表现为:图像中相邻像素间的相关性引起的空间冗余;图像序列中不同之间存在相关性引起的时间冗余;不同频带相关性引起的频谱冗余。图像降维的目的就是通过去除这些数据冗余来减少表示图像所需的比特数。
[0004] 小波变换是研究图像降维和重建的一个热点方向,而本发明欲将离散小波变换深度学习结合,来提高图像降维和重建性能的潜

发明内容

[0005] 本发明的目的在于提供一种基于深度神经网络的图像降维和重建方法。
[0006] 为实现上述目的,本发明设计一种基于深度神经网络的图像降维和重建方法,构建图像降维和重建网络框架,该网络框架包括编码端和解码端;在编码端进行图像降维,减少图片压缩产生的比特流,节约带宽;在解码端进行图像重建;包括以下步骤:
[0007] S1:在编码端,将待编码的图像输入包含离散小波变换DWT的卷积神经网络,得到保存有结构信息的低分辨率图y;
[0008] S2:将低分辨率图y量化,得到码字 并将所得码字通过熵编码器,得到熵编码后的码流文件;
[0009] 且通过混合高斯模型对量化后的码字进行概率建模,来控制码率;并引入上下文及超先验信息,让超先验网络基于上下文来学习概率分布的均值与标准差;
[0010] S3:在解码端,将压缩解码后的图像输入包含整数小波变换IWT的卷积网络,得到原始图像重构后的图像;该整数小波变换为离散小波变换的逆变换。
[0011] 进一步的,步骤S1中,将输入图像[0,255]规范到[-1.0,+1.0],然后将输入图像经过卷积-DWT-卷积变换之后,得到变换后的特征码字y。
[0012] 进一步的,步骤S1中,每一层卷积操作之后,使用的激活函数为GDN;
[0013] GDN变换的正变换表达式为:
[0014]
[0015] 其中,i和j为通道序号;wi(m,n)为第i个通道,平面位置在(m,n)处的特征码字;βi和γj为GDN变换中的参数,ui(m,n)为wi(m,n)码字经过GDN变换后的特征码字。
[0016] 进一步的,步骤S2中,结合了超先验网络以及上下文模型来学习得到概率分布的均值与标准差;
[0017] 超先验网络通过牺牲额外的码字来为变换码字的熵编码器提供参数信息,以进一步去除了码字之间的冗余信息;上下文模型通过对解码得到的码字来预测熵编码器的概率模型参数,从而实现码字节省;二者结合可以更加有效地为熵编解码器提供参数信息。
[0018] 进一步的,步骤S3中,将输入图像经过反卷积-IWT-反卷积变换之后,得到原始图像的解码图像,并将解码图像范围规范到[0,255]范围,得到最终的解码图像。
[0019] 进一步的,步骤S3中,每一层反卷积操作之后,使用的激活函数为IGDN;
[0020] IGDN变换的表达式为:
[0021]
[0022] 其中,i和j为通道序号;wi(m,n)为第i个通道,平面位置在(m,n)处的特征码字;βi和γj为IGDN变换中的参数,ui(m,n)为wi(m,n)码字经过IGDN变换后的特征码字。
[0023] 进一步的,本发明进行有效的率失真优化;
[0024] 图像降维与重建网络中的参数全部由网络训练学习得到;在网络训练中,为了有效的进行率失真优化,还需要对码字的码率进行估计,以方便在训练中对编码器的码率进行控制。因此训练中的损失函数设定为:
[0025] L=lamda*D+R
[0026] 其中lamda用来控制模型码率;D为原始图像x与重构图像 之间的均方误差MSE;R为码率,具体计算如下:
[0027]
[0028] 其中, 的分布参数由超先验网络以及上下文网络结合得到,分别记其均值和标准差为: 而对于超先验信息 约束其分布为零均值,标准差可学的高斯分布,其标准差记为
[0029] 与现有技术相比,本发明具有如下优势和特点:
[0030] 传统的图像降维和重建算法,如JPEG、JPEG2000、BPG,它们使用固定的转换,即离散余弦变换和离散小波变换,结合量化和熵编码器,减少图像的空间冗余。这些传统的图像编码器,主要是对编码器内部的各个模如变换、量化、熵编码进行分别优化。针对深度神经网络的端到端的方式,本发明将变换、量化、熵编码这些模板联合到一起,使得各功能模块之间相互影响,联合优化变换、量化等编码步骤,使得编码器性能尽可能达到最优。
[0031] 本发明不仅使用神经网络来实现图像的降维和重建,还嵌套使用了离散小波变换。
[0032] 在优化率失真时,为了提供更加精确的码字分布,本发明结合使用了上下文网络与超先验网络,后者可以纠正前者的预测信息,共同生成更加准确的均值和标准差参数。附图说明
[0033] 图1为本发明的流程图
[0034] 图2为用于实现上下文网络的掩模卷积图。

具体实施方式

[0035] 下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0036] 参见图1,本发明构建了基于深度神经网络的图像降维和重建网络框架,该网络框架包括以下几个部分:编码器、解码器、量化、超先验编码器、超先验解码器、上下文网络、熵编码器参数估计网络、熵编码器、熵解码器。
[0037] 基于该网络框架,本发明提供一种图像降维和重建方法,包括以下几个步骤:
[0038] S1:在编码端,将待编码的图像输入包含离散小波变换DWT的卷积神经网络,得到保存有结构信息的低分辨率图y;
[0039] S2:将低分辨率图y量化,得到码字 并将所得码字通过熵编码器,得到熵编码后的码流文件;
[0040] 且通过混合高斯模型对量化后的码字进行概率建模,来控制码率;并引入上下文及超先验信息,让超先验网络基于上下文来学习概率分布的均值与标准差;
[0041] S3:在解码端,将压缩解码后的图像输入包含整数小波变换IWT的卷积网络,得到原始图像重构后的图像;该整数小波变换为离散小波变换的逆变换。
[0042] 具体步骤如下:
[0043] 1)将待编码的图像范围预处理规范到[-1,+1]区间,得到预处理后的图像x;
[0044] 2)将x送入编码器中,得到编码器的输出结果为y;具体步骤包括:
[0045] 2.1)x经过一层卷积核大小为5x5、通道数为128、步长为2的卷积操作;然后再将卷积后的结果送入到第一层的GDN变换;
[0046] 2.2)经过第一层GDN变换后再将其输出送入到DWT变换层中,并通过第二层的GDN变换;
[0047] 2.3)将上述输出结果输入到第二层卷积操作,其中卷积核大小为5x5,通道数为512,步长为2;然后同样的,将该层卷积输出经过第三层的GDN变换;
[0048] 2.4)然后将上述输出结果送入最后一层的卷积层,其卷积核大小为5x5,通道数为192,步长为2,然后得到未量化编码码字y;
[0049] 3)将y送入超先验网络中的编码器中,得到超先验的码字z;
[0050] 这一编码过程中包含三层卷积操作,每一层的卷积核大小为5x5,通道数为128,步长为2;
[0051] 4)将码字z进行四舍五入的量化,得到量化后的码字
[0052] 5)根据熵模型将超先验信息 写入码流文件中,假设 服从均值为0,标准差为可学习的高斯分布;
[0053] 6)将 送入超先验网络中的解码器中,得到参数φ;
[0054] 这一解码过程包括三层反卷积操作,其中最后一层的卷积核大小为5x5,通道数为192,步长为2;
[0055] 7)将特征码字y进行四舍五入的量化,将量化后的码字 输入到上下文网络中,得到参数信息θ;
[0056] 其中上下文模型通过掩模卷积来实现,通过这个掩膜卷积层在生成某点像素值得时候,将该像素右侧和下侧的像素值掩盖,只通过上侧和左侧的像素值来计算当前点的像素值,参见图2,其中灰色位置为待生成的像素值;
[0057] 8)将φ与θ在通道维度组合之后,输入到熵编码器参数估计网络中,得到估计的μ,δ;
[0058] 9)将 在μ为均值,δ为标准差的混合高斯概率模型下进行熵编码,写入码流文件,待完成码流写入,完成一次图像编码;
[0059] 10)解码过程与编码过程类似;读取码流文件,并根据码字 的熵概率模型解码得到 然后将 送入超先验网络中的解码器中,得到参数φ;并将 的解码信息输入到上下文网络中,得到参数θ;
[0060] 11)将φ与θ输入到熵编码器参数估计网络中,得到 的概率模型参数μ,δ;并按写入顺序将μ,δ送入熵解码器,不断解出量化后的特征码字
[0061] 12)待熵解码器解码完成后将 送入解码器网络中;得到解码图像,并将解码图像范围规范到[0,255],得到最终的解码图像;具体操作如下:
[0062] 12.1)将量化后的码字 送入第一层的反卷积,其中卷积核大小为5x5,通道数为192,步长为2;然后将第一层的反卷积结果送入第一层IGDN变换;
[0063] 12.2)将上述输出继续送入第二层的反卷积层,然后再经过第二层的IGDN;
[0064] 12.3)然后将第二层IGDN变换的输出结果送入IWT变换层中;
[0065] 12.4)将上述结果经过一层的反卷积操作,其中核大小为5x5,通道数为1,步长为2,从而得到解码图像,并将解码图像范围规范到[0,255],得到最终的解码图像。
[0066] 对比传统的图像编码器结构,本发明编码器和解码器的参数全部由网络训练学习得到;而且,在网络训练中,为了有效的进行率失真优化,还需要对码字的码率进行估计;现有的码率估计方案主要有两种:其一就是直接对码字的个数进行约束,这种码率约束方案多见于输出码字是二进制的自编码器;另一种是对码字分布进行假设,然后根据码字发生的概率求其自信息量进行码率估计,并将估计的码率作为网络训练中的近似码率;发明中基于深度学习的熵概率模型是高斯分布。
[0067] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈