基于Attention机制的训练图片压缩网络的构建方法及系统专利检索-熵编码无损压缩软件专利检索查询-专利查询网

基于Attention机制的训练图片压缩网络的构建方法及系统

阅读：276发布：2020-05-08

专利汇可以提供基于Attention机制的训练图片压缩网络的构建方法及系统专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于Attention机制的训练图片压缩网络的构建方法及系统，属于图像压缩、Attention机制及卷积神经网络领域，本发明要解决的技术问题为如何基于Attention机制去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压时，生成一个视觉效果上比较好的图片，采用的技术方案为：该方法具体如下：将训练图片进行压缩和解压获取重构图片，同时获取熵编码 R；利用改进的Vgg网络生产关于一个图片的Attention map；在训练压缩和解压网络过程中获取损失函数，公式如下：Loss＝R+λD；其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数。该系统包括重构图片获取模块、Attention map生成模块及损失函数获取模块。，下面是基于Attention机制的训练图片压缩网络的构建方法及系统专利的具体信息内容。

权利要求

1.一种基于Attention机制的训练图片压缩网络的构建方法，其特征在于，该方法具体如下：
将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；
利用改进的Vgg网络生产关于一个图片的Attention map；
在训练压缩和解压网络过程中获取损失函数，公式如下：
Loss＝R+λD；
其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；
R表示熵编码参数。
2.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法，其特征在于，所述获取重构图片，同时获取熵编码R具体如下：
通过编码器对训练图片进行编码，得到编码后的特征图；
通过量化器对特征图进行量化，得到量化后的特征图；
同时通过熵编码器对量化后特征图进行熵编码，得到熵编码参数；
通过解码器对量化后的特征图进行解码，得到重构图片。
3.根据权利要求2所述的基于Attention机制的训练图片压缩网络的构建方法，其特征在于，所述编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；
所述解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。
4.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法，其特征在于，所述Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个globalpooling层；再接一个全连接层。
5.根据权利要求4所述的基于Attention机制的训练图片压缩网络的构建方法，其特征在于，所述Vgg网络使用mageNet数据集进行训练。
6.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法，其特征在于，所述Attention Map矩阵获取过程如下：
对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；
global pooling层和Fc 输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；
从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；
把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；
将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；
把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；
将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。
7.一种基于Attention机制的训练图片压缩网络的构建系统，其特征在于，该系统包括，
重构图片获取模块，用于将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；
Attention map生成模块，用于利用改进的Vgg网络生产关于一个图片的Attention map；
损失函数获取模块，用于在训练压缩和解压网络过程中获取损失函数，公式如下：
Loss＝R+λD；
其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；
R表示熵编码参数。
8.根据权利要求7所述的基于Attention机制的训练图片压缩网络的构建系统，其特征在于，所述重构图片获取模块包括，
编码器，用于对训练图片进行编码，得到编码后的特征图；编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；
量化器，用于对特征图进行量化，得到量化后的特征图；
熵编码器，用于对量化后特征图进行熵编码，得到熵编码参数；
解码器，用于对量化后的特征图进行解码，得到重构图片；解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。
9.根据权利要求7所述的基于Attention机制的训练图片压缩网络的构建系统，其特征在于，所述Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个globalpooling层；再接一个全连接层；其中，Vgg网络使用mageNet数据集进行训练。
10.根据权利要求7所述的基于Attention机制的训练图片压缩网络的构建系统，其特征在于，所述Attention Map矩阵获取过程如下：
对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；
global pooling层和Fc输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；
从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；
把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；
将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；
把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；
将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

说明书全文

基于Attention机制的训练图片压缩网络的构建方法及系统

技术领域

[0001] 本发明涉及图像压缩、Attention机制及卷积神经网络领域，具体地说是一种基于Attention机制的训练图片压缩网络的构建方法及系统。

背景技术

[0002] 基于深度学习DNN的图片压缩方法目前已经成为最近研究的主流方向。基于深度学习的图片压缩方法已经成为目前的主流方法的JPEG和BGP的有力竞争者。除了自然的图片上，深度学习方法实现了强有力的压缩率，它们还能都轻松的适应到具体的某个领域，例如立体图像或者医学影像，并且还可以通过图像的压缩表示直接进行索引。深度学习方法也主要在PSNR和MS-SSIM上进行比较。传统的深度学习压缩网络在训练的时候，对于图像中的每一个点都是平等看待，但是实际情况下，我们一般对前景会使用较小的压缩比，对背景使用较大的压缩比，为了实现这种效果，如何基于Attention机制去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压时，生成一个视觉效果上比较好的图片是目前急需解决的技术问题。

发明内容

[0003] 本发明的技术任务是提供一种基于Attention机制的训练图片压缩网络的构建方法及系统，来解决如何基于Attention机制去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压时，生成一个视觉效果上比较好的图片的问题。

[0004] 本发明的技术任务是按以下方式实现的，一种基于Attention机制的训练图片压缩网络的构建方法，该方法具体如下：

[0005] 将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；

[0006] 利用改进的Vgg网络生产关于一个图片的Attention map；

[0007] 在训练压缩和解压网络过程中获取损失函数，公式如下：

[0008] Loss＝R+λD；

[0009] 其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数。

[0010] 作为优选，所述获取重构图片，同时获取熵编码R具体如下：

[0011] 通过编码器对训练图片进行编码，得到编码后的特征图；

[0012] 通过量化器对特征图进行量化，得到量化后的特征图；

[0013] 同时通过熵编码器对量化后特征图进行熵编码，得到熵编码参数；

[0014] 通过解码器对量化后的特征图进行解码，得到重构图片。

[0015] 更优地，所述编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

[0016] 所述解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。

[0017] 作为优选，所述Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层。

[0018] 更优地，所述Vgg网络使用mageNet数据集进行训练。

[0019] 作为优选，所述Attention Map矩阵获取过程如下：

[0020] 对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；

[0021] global pooling层和Fc 输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；

[0022] 从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；

[0023] 把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

[0024] 将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

[0025] 把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；

[0026] 将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

[0027] 一种基于Attention机制的训练图片压缩网络的构建系统，该系统包括，[0028] 重构图片获取模块，用于将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；

[0029] Attention map生成模块，用于利用改进的Vgg网络生产关于一个图片的Attention map；

[0030] 损失函数获取模块，用于在训练压缩和解压网络过程中获取损失函数，公式如下：

[0031] Loss＝R+λD；

[0032] 其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数；

[0033] 作为优选，所述重构图片获取模块包括，

[0034] 编码器，用于对训练图片进行编码，得到编码后的特征图；编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

[0035] 量化器，用于对特征图进行量化，得到量化后的特征图；

[0036] 熵编码器，用于对量化后特征图进行熵编码，得到熵编码参数；

[0037] 解码器，用于对量化后的特征图进行解码，得到重构图片；解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。

[0038] 作为优选，所述Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层；其中，Vgg网络使用mageNet数据集进行训练。

[0039] 作为优选，所述Attention Map矩阵获取过程如下：

[0040] 对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；

[0041] global pooling层和Fc输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；

[0042] 从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；

[0043] 把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

[0044] 将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

[0045] 把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；

[0046] 将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

[0047] 本发明的基于Attention机制的训练图片压缩网络的构建方法及系统具有以下优点：

[0048] (一)传统方法的深度学习图片压缩方法，损失函数为R+λD，该损失函数对于图片中前景和背景都是利用相同的λ值，本发明中引入图片的Attention Map进行λ的构造，使前景拥有更大的λ值，背景拥有更小的λ，这样不同像素点会对应不同的Attention值，这样使得在同样压缩比的情况下，解压后的图像视觉效果更好；

[0049] (二)本发明和其他的传统的方法JPEG、BPG和CNN相比，在更小的压缩比下，还训练图片的效果差不多；

[0050] (三)本发明使用一个Attention Map去为图片中的每个像素点赋予不同的权值，从而使得深度网络在解压的时候，生成一个视觉效果上比较好的图片；

[0051] (四)本发明主要提出使用Attention进行图片压缩技术，在进行图片压缩时，可以有选择对图片不同区域采用不同的压缩能力，对不是很看重的地方着重进行压缩，对于比较看重的地方，尽可能保持图片的原有信息，为了实现这种效果，引入一个Attention机制，该机制针对不同的像素点生成不同的大小的权重，权重越大代表越看重图片的这部分信息，越小表示图片这部分信息不重要，可以适当的进行缩减。附图说明

[0052] 下面结合附图对本发明进一步说明。

[0053] 附图1为基于Attention机制的训练图片压缩网络的构建方法示意图；

[0054] 附图2为编码器的示意图；

[0055] 附图3为解码器的示意图。

具体实施方式

[0056] 参照说明书附图和具体实施例对本发明的基于Attention机制的训练图片压缩网络的构建方法及系统作以下详细地说明。

[0057] 实施例1：

[0058] 如附图1所示，本发明的基于Attention机制的训练图片压缩网络的构建方法,该方法具体如下：

[0059] S1、将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；具体如下：

[0060] S101、通过编码器对训练图片进行编码，得到编码后的特征图；如附图2所示，编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

[0061] S102、通过量化器对特征图进行量化，得到量化后的特征图；

[0062] S103、同时通过熵编码器对量化后特征图进行熵编码，得到熵编码参数；

[0063] S104、通过解码器对量化后的特征图进行解码，得到重构图片；如附图3所示，解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。

[0064] S2、利用改进的Vgg网络生产关于一个图片的Attention map；Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层。Vgg网络使用mageNet数据集进行训练。由于我们使用ImageNet数据集进行训练，因此最后一个全连接层，我们使用1000个神经元。

[0065] S3、在训练压缩和解压网络过程中获取损失函数，公式如下：

[0066] Loss＝R+λD；

[0067] 其中，D是通过训练图片和重构图片之间对应点的MSE获得(MSE为训练图片与重构图片相减后的平方和)；

[0068]

[0069] 其中，x表示训练图片，表示重构图片，表示训练图片中像素点和重构图片中对应像素点之间的距离；

[0070] λ表示Attention Map矩阵；R表示熵编码参数。其中，Attention Map会在看重的物体地方矩阵点的值比较大，背景处的值比较小，因为λ起到一个trade off的功能，用于平衡码流大小和率失真。如果图片上的某个像素点对应Attention Map上的数值比较大，就使用更大的码流去存储。对应AttentionMap的数值比较小，就使用更小的码流去存储。因此这使得压缩和解压网络增加一定的选择性功能。

[0071] 其中，Attention Map矩阵获取过程如下：

[0072] S301、对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；

[0073] S302、global pooling层和Fc输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；

[0074] S303、从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；

[0075] S304、把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

[0076] S305、将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

[0077] S306、把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；

[0078] S307、将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

[0079] 实施例2：

[0080] 本发明的基于Attention机制的训练图片压缩网络的构建系统，该系统包括，[0081] 重构图片获取模块，用于将训练图片进行压缩和解压获取重构图片，同时获取熵编码R；重构图片获取模块包括，

[0082] 编码器，用于对训练图片进行编码，得到编码后的特征图；编码器使用一个3层的神经网络，每一层包括一个卷积、一个下采样和一个Relu激活函数；

[0083] 量化器，用于对特征图进行量化，得到量化后的特征图；

[0084] 熵编码器，用于对量化后特征图进行熵编码，得到熵编码参数；

[0085] 解码器，用于对量化后的特征图进行解码，得到重构图片；解码器使用一个3层的神经网络，每一层包括一个反卷积、一个上采样和一个Relu激活函数。

[0086] Attention map生成模块，用于利用改进的Vgg网络生产关于一个图片的Attention map；Vgg网络的改进具体如下：去掉Vgg中的全连接网络，在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层；再接一个全连接层；其中，Vgg网络使用mageNet数据集进行训练。

[0087] 损失函数获取模块，用于在训练压缩和解压网络过程中获取损失函数，公式如下：

[0088] Loss＝R+λD；

[0089] 其中，D是通过训练图片和重构图片之间对应点的MSE获得；λ表示Attention Map矩阵；R表示熵编码参数；Attention Map矩阵获取过程如下：

[0090] (1)、对于训练好的Vgg网络，通过输入一张大小为224*224*3的图片，获得该图片的一个Conv_last,大小为14*14*1024；

[0091] (2)、global pooling层和Fc输出层之间加入W，W表示1024*1000的矩阵，通过转置运算符，获得一个W_transpose为1000*1024；

[0092] (3)、从W_transpose选择预测类别最大的那一行的1024个元素，转置成为一个1024*1的矩阵；

[0093] (4)、把Conv_last矩阵进行双线性差值，成为一个224*224*1024的矩阵；

[0094] (5)、将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵；

[0095] (6)、把50176*1024的矩阵与1024*1的矩阵相乘，得到一个50176*1的矩阵；

[0096] (7)、将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

[0097] 最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

标题	发布/更新时间	阅读量
抑制P/B帧中帧内块呼吸效应的视频编码方法及装置	2020-05-11	352
视频编译中的深度图片编译方法	2020-05-12	502
图像编码装置	2020-05-08	195
一种基于填充Y通道的Bayer图像压缩方法	2020-05-11	648
压缩/解压缩的装置和系统、芯片、电子装置、方法	2020-05-12	884
量化变换系数管理装置及适用于HEVC标准的编码器	2020-05-08	653
图像编码器、图像解码器、图像编码方法和图像解码方法	2020-05-08	37
基于深度神经网络的图像降维和重建方法	2020-05-11	659
图像编码/解码方法和装置以及存储比特流的记录介质	2020-05-11	674
视频解码方法及视频解码器，视频编码方法及视频编码器	2020-05-12	897

基于Attention机制的训练图片压缩网络的构建方法及系统

基于Attention机制的训练图片压缩网络的构建方法及系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：