一种利用深度语义分割技术的图像压缩方法专利检索-压缩失真图形技术专利检索查询-专利查询网

一种利用深度语义分割技术的图像压缩方法

阅读：183发布：2020-05-14

专利汇可以提供一种利用深度语义分割技术的图像压缩方法专利检索，专利查询，专利分析的服务。并且本发明涉及图像压缩技术领域，具体提供了一种利用深度语义分割技术的图像压缩方法。与现有技术相比，本发明的利用深度语义分割技术的图像压缩方法，主要分为编码过程和解码过程；在编码过程中利用GAN网络进行训练，输出生成模型和判别模型；在解码过程中语义分割图利用解压工具进行解压，还原成原语义分割图；将原语义分割图作为输入，放入到之前生成的生成模型和判别模型中，产出生成一个仿原输入图像的近似图像。该方法可以大大提升图像压缩的速度、压缩率，并可以使压缩后图像降低失真率，优化压缩流程，具有良好的推广价值。，下面是一种利用深度语义分割技术的图像压缩方法专利的具体信息内容。

权利要求

1.一种利用深度语义分割技术的图像压缩方法，其特征在于，主要分为以下步骤；
(一)、编码过程
S101、输入图像的语义分割图，由深度学习网络提取并进行无损编码的作为比特流的基础层；
S102、经过语义分割网络进行训练后，比特流转换成语义分割图像；
S103、将语义分割图像利用传统图像的压缩工具进行无损压缩，产出压缩中间文件；
S104、把语义分割图作为输入，利用GAN网络进行训练，输出生成模型和判别模型；
(二)、解码过程
S201、语义分割图利用解压工具进行解压，还原成原语义分割图；
S202、将原语义分割图作为输入，放入到之前生成的生成模型和判别模型中，产出生成一个仿原输入图像的近似图像。
2.根据权利要求1所述的一种利用深度语义分割技术的图像压缩方法，其特征在于，在所述编码过程中压缩工具和解码过程中的解压工具都使用FLIF工具。
3.根据权利要求2所述的一种利用深度语义分割技术的图像压缩方法，其特征在于，在编码过程中使用SegNet语义分割网络作为深度学习网络，SegNet采用训练完成的PSPNet，原输入图像标位X，经过PSPNet进行操作输出后的语义分割图标为S。
4.根据权利要求3所述的一种利用深度语义分割技术的图像压缩方法，其特征在于，在解码过程中，在解码器端，语义分割图被解码以供FineNet深度学习网络来获取输入图像的近似估计，所述近似估计图就是原图像压缩后又经历解压过程的最终输出。
5.根据权利要求4所述的一种利用深度语义分割技术的图像压缩方法，其特征在于，所述FineNet网络结构的定义为：
c64,d128,d256,d512,9×r512,u256,u128,u64,c3,tanh；
其中，CK：是7×7的卷积层，步幅1，采用实例规范化和ReLU激活函数；dK:卷积层，步幅是
1，采用实例规范化和ReLU激活函数；rK：包含反射填充和两个3×3卷积层的残差区块，采用实例规范化；uK:3×3分数阶卷积层,步幅是1/2采用实例规范化和ReLU激活函数。
注:K指滤波器的个数，对应网络结构的下角标。
6.根据权利要求3所述的一种利用深度语义分割技术的图像压缩方法，其特征在于，原始图像x∈Rh×w×w，语义分割图s∈Zh×w；
x与x’之间的误差使用多种不同的损失评价标准，包括L1范数损失、LVGG和GAN网络损失；
L1范数损失为：L1＝2λ||x-x′|
对于预训练好的VGG网络，具备m层，每个Mj个元素用于构造LVGG网络的感知损失：
为了从中区分出真实的训练图像X和重建图像X，鉴别器D的目标函数是最小化Dd：
对于所有重建和感知的生成损失被定义为：
最终目标函数是最小化混合损失函数：
L＝LD+LG
7.根据权利要求1所述的一种利用深度语义分割技术的图像压缩方法，其特征在于，对编码过程中提出的生成模型和判别进行对抗训练，采用鉴别器D1，D1用来运作原始规模，用于指导生成器合成图像中的精细细节，D1的架构为：
C64,C128,C256,C512
Ck表示具有k个滤波器和步幅为2的4×4的卷积层，采用实例规范化和ReLU激活函数，并在最后一层后使用带一个滤波器的鉴别器。
8.根据权利要求7所述的一种利用深度语义分割技术的图像压缩方法，其特征在于，使用图像数据集来对所提出的模型进行训练，将所有图片重新缩放至一定的像素；
需测试图像不需要调整大小，模型在测试时可以使用任意大小；设置L1和LVGG的权重λ＝
10。

说明书全文

一种利用深度语义分割技术的图像压缩方法

技术领域

[0001] 本发明涉及图像压缩技术领域，具体提供一种利用深度语义分割技术的图像压缩方法。

背景技术

[0002] 语义分割是计算机视觉中的基本任务，在语义分割中我们需要将视觉输入分为不同的语义可解释类别，语义的可解释性即分类类别在真实世界中是有意义的。例如，我们可能需要区分图像中属于汽车的所有像素，并把这些像素涂成蓝色。与图像分类或目标检测相比，语义分割使我们对图像有更加细致的了解。这种了解在诸如自动驾驶、机器人以及图像搜索引擎等许多领域都是非常重要的。

[0003] 语义分割是属于深度学习领域，该技术在几年里促进计算机视觉领域的多方面发展，其中包括基于学习的图像压缩。图像压缩是指以较少的比特有损或无损地表示原来的像素矩阵的技术，也称图像编码。之所以可以对图像进行压缩，是因为图像本身带有很多冗余信息：

[0004] 空间冗余是指，同一帧临近位置的数据相同或者相似；

[0005] 时间冗余是指，连续帧图像数据有大量相同的数据；

[0006] 视觉冗余是指，人眼对图像分辨率的局限性、监视器显示分辨率的限制，容许一定限度的失真。

[0007] 现有技术中利用语义分割技术的图像压缩存在压缩速度慢，压缩率低，压缩后图像失真明显，压缩流程繁琐的问题，如何有效的解决上述情况，是本领域技术人员亟待解决的技术问题。

发明内容

[0008] 本发明是针对上述现有技术的不足，提供一种实用性强的利用深度语义分割技术的图像压缩方法。

[0009] 本发明解决其技术问题所采用的技术方案是：

[0010] 一种利用深度语义分割技术的图像压缩方法，主要分为以下步骤；

[0011] (一)、编码过程

[0012] S101、输入图像的语义分割图，由深度学习网络提取并进行无损编码的作为比特流的基础层；

[0013] S102、经过语义分割网络进行训练后，比特流转换成语义分割图像；

[0014] S103、将语义分割图像利用传统图像的压缩工具进行无损压缩，产出压缩中间文件；

[0015] S104、把语义分割图作为输入，利用GAN网络进行训练，输出生成模型和判别模型；

[0016] (二)、解码过程

[0017] S201、语义分割图利用解压工具进行解压，还原成原语义分割图；

[0018] 将原语义分割图作为输入，放入到之前生成的生成模型和判别模型中，产出生成一个仿原输入图像的近似图像。

[0019] 进一步的，在所述编码过程中压缩工具和解码过程中的解压工具都使用FLIF工具。

[0020] 进一步的，在编码过程中使用SegNet语义分割网络作为深度学习网络，SegNet采用训练完成的PSPNet，原输入图像标位X，经过PSPNet进行操作输出后的语义分割图标为S；

[0021] 进一步的，在解码过程中，在解码器端，语义分割图被解码以供FineNet深度学习网络来获取输入图像的近似估计，所述近似估计图就是原图像压缩后又经历解压过程的最终输出。

[0022] 作为优选，所述FineNet网络结构的定义为：

[0023] c64,d128,d256,d512,9×r512,u256,u128,u64,c3,tanh；

[0024] 其中，CK：是7×7的卷积层，步幅1，采用实例规范化和ReLU激活函数；dK:卷积层，步幅是1，采用实例规范化和ReLU激活函数；rK：包含反射填充和两个3×3卷积层的残差区块，采用实例规范化；uK:3×3分数阶卷积层,步幅是1/2采用实例规范化和ReLU激活函数。

[0025] 注:K指滤波器的个数，对应网络结构的下角标。

[0026] 进一步的，原始图像x∈Rh×w×w，语义分割图s∈Zh×w；

[0027] x与x’之间的误差使用多种不同的损失评价标准，包括L1范数损失、LVGG和GAN网络损失；

[0028] L1范数损失为：L1＝2λ||x-x′|

[0029] 对于预训练好的VGG网络，具备m层，每个Mj个元素用于构造LVGG网络的感知损失：

[0030]

[0031] 为了从中区分出真实的训练图像X和重建图像X，鉴别器D的目标函数是最小化Dd：

[0032]

[0033] 对于所有重建和感知的生成损失被定义为：

[0034]

[0035] 最终目标函数是最小化混合损失函数：

[0036] L＝LD+LG

[0037] 进一步的，对编码过程中提出的模型进行对抗训练，采用鉴别器D1，D1用来运作原始规模，用于指导生成器合成图像中的精细细节，D1的架构为：

[0038] C64,C128,C256,C512

[0039] Ck表示具有k个滤波器和步幅为2的4×4的卷积层，采用实例规范化和ReLU激活函数，并在最后一层后使用带一个滤波器的鉴别器。

[0040] 进一步的，使用图像数据集来对所提出的模型进行训练，将所有图片重新缩放至一定的像素；

[0041] 需测试图像不需要调整大小，模型在测试时可以使用任意大小；设置L1和LVGG的权重λ＝10。

[0042] 本发明的一种利用深度语义分割技术的图像压缩方法和现有技术相比，具有以下突出的有益效果：

[0043] 1、本发明在提出一个基于深度语义分段的图像压缩方法，以通过对输入图像进行语义分割，然后，利用GAN网络来生成模拟出的新图像，这个模拟出的新图像在GAN网络的训练中的真实程度越来越高，可以达到非常贴近真实图像的标准，使压缩后的图像降低失真率，从而可以作为压缩后又解压的输出图像，达到优化压缩流程的效果。

[0044] 2、本发明可以通过实验表明，所提出的方法能优于基于H.265/HEVC的BPG和其他标准解码器的PSNR和MS-SSIM指标，大大提升图像压缩的速度、压缩率。另外，本方法还可以帮助完成许多其他的任务，例如图像搜索和基于对象的自适应图像压缩等。附图说明

[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0046] 附图1是一种利用深度语义分割技术的图像压缩方法的流程图。

具体实施方式

[0047] 为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

[0048] 下面给出一个最佳实施例：

[0049] 如图1所示，本实施例中的一种利用深度语义分割技术的图像压缩方法，包括编码过程和解码过程。

[0050] (一)、编码过程

[0051] S101、输入图像的语义分割图，由深度学习网络提取并进行无损编码的作为比特流的基础层。

[0052] S102、经过语义分割网络进行训练后，比特流转换成语义分割图像。

[0053] S103、将语义分割图像利用传统图像的压缩工具FLIF进行无损压缩，产出.flif文件便是压缩中间文件。

[0054] S104、把语义分割图作为输入，利用GAN网络进行训练，输出生成模型和判别模型；

[0055] (二)、解码过程

[0056] S201、语义分割图利用解压工具FLIF进行解压，还原成原语义分割图。

[0057] S202、将语义分割图作为输入，放入到之前生成的生成模型和判别模型中，产出生成一个仿原输入图像的近似图像。

[0058] 在编码过程中使用SegNet语义分割网络作为深度学习网络，SegNet采用训练完成的PSPNet，原输入图像标位X，经过PSPNet进行操作输出后的语义分割图标为S。

[0059] 在解码过程中，在解码器端，语义分割图被解码以供FineNet深度学习网络来获取输入图像的近似估计，所述近似估计图就是原图像压缩后又经历解压过程的最终输出。

[0060] 其中，FineNet网络结构的定义为：

[0061] c64,d128,d256,d512,9×r512,u256,u128,u64,c3,tanh；

[0062] ck：是7×7的卷积层(k个滤镜，步幅是1)，采用实例规范化和ReLU激活函数；dk:卷积层(k个滤镜，步幅是1)，采用实例规范化和ReLU激活函数；rk：包含反射填充和两个3×3卷积层(k个滤镜)的残差区块，采用实例规范化；uk:3×3分数阶卷积层(k个滤镜，步幅是1/2),采用实例规范化和ReLU激活函数。

[0063] 对编码过程中提出的生成模型和判别模型进行对抗训练，采用鉴别器D1，D1用来运作原始规模，用于指导生成器合成图像中的精细细节，D1的架构为：

[0064] C64,C128,C256,C512

[0065] Ck表示具有k个滤镜和步幅为2的4×4的卷积层，采用实例规范化和ReLU激活函数，并在最后一层后使用带一个滤镜的鉴别器。

[0066] 对于目标函数：原始图像x∈Rh×w×w，语义分割图s∈Zh×w；

[0067] 原始图x与生成图x’之间的误差使用多种不同的损失评价标准，包括L1范数损失、LVGG和GAN网络损失；

[0068] L1范数损失为：L1＝2λ||x-x′|

[0069] λ可手动设置，此处默认设置为10。

[0070] 对于预训练好的VGG网络，具备m层，每个Mj个元素用于构造LVGG网络的感知损失：

[0071]

[0072] 其中，S＝SegNet(x)，N是VGG网络中每一层的点的个数，Dd是鉴别器，λ为网络权重，可手动设置，此处默认设置为10。

[0073] 为了从中区分出真实的训练图像X和重建图像X，鉴别器D的目标函数是最小化Dd：

[0074]

[0075] 对于所有重建和感知的生成损失被定义为：

[0076]

[0077] 最终目标函数是最小化混合损失函数：

[0078] L＝LD+LG

[0079] 对于训练网络的过程，使用Cityscapes和ADE20K两个图像数据集来对所提出的模型进行训练。Cityscapes数据集包含2974个RBG图像，内容都是街道场景。将所有图片重新缩放至512×1024(即高＝512像素，长＝1024像素，对于RGB通道来说K＝3)。对于ADE20K数据集，选取有9272张RGB图片，将所有图片重新缩放为高等于256像素和长等于256像素的固定训练大小。在这里测试图像是不需要调整大小的，因为模型在测试时可以使用任意大小。另外，设置L1和LVGG的权重λ＝10。

[0080] 通过训练，随着混合损失函数L的值不断减少，意味着模型所生成的模拟图像与真实图像之间的差距越来越小，所生成的模拟图片就越来越接近真实的输入图片，也就意味着图片在压缩后的效果更加真实。

[0081] 上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种利用深度语义分割技术的图像压缩方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

[0082] 尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

标题	发布/更新时间	阅读量
一种关联书本与电子资源的系统	2020-05-11	29
卷积神经网络的处理方法及装置	2020-05-12	222
一种基于深度神经网络的数字视频特征提取方法	2020-05-13	867
一种GPU加速的椭球裁剪图地形渲染方法	2020-05-14	254
用于对试样成像的装置	2020-05-14	598
基于视觉显著性的HEVC优化算法	2020-05-08	670
数字预失真的控制方法及电子设备	2020-05-12	489
图片压缩方法、装置、存储介质、计算机设备	2020-05-11	232
一种智能远程书法数字化学习评价信息处理系统及方法	2020-05-14	615
一种车载LVDS信号解析系统	2020-05-11	275

一种利用深度语义分割技术的图像压缩方法

一种利用深度语义分割技术的图像压缩方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：