首页 / 专利库 / 软件 / 无损压缩 / 熵编码 / 基于Attention机制的训练图片压缩网络的构建方法及系统

基于Attention机制的训练图片压缩网络的构建方法及系统

阅读:276发布:2020-05-08

专利汇可以提供基于Attention机制的训练图片压缩网络的构建方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于Attention机制的训练图片压缩网络的构建方法及系统,属于图像压缩、Attention机制及 卷积神经网络 领域,本发明要解决的技术问题为如何基于Attention机制去为图片中的每个 像素 点赋予不同的权值,从而使得深度网络在解压时,生成一个视觉效果上比较好的图片,采用的技术方案为:该方法具体如下:将训练图片进行压缩和解压获取重构图片,同时获取 熵编码 R;利用改进的Vgg网络生产关于一个图片的Attention map;在训练压缩和解压网络过程中获取损失函数,公式如下:Loss=R+λD;其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;R表示熵编码参数。该系统包括重构图片获取模 块 、Attention map生成模块及损失函数获取模块。,下面是基于Attention机制的训练图片压缩网络的构建方法及系统专利的具体信息内容。

1.一种基于Attention机制的训练图片压缩网络的构建方法,其特征在于,该方法具体如下:
将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;
利用改进的Vgg网络生产关于一个图片的Attention map;
在训练压缩和解压网络过程中获取损失函数,公式如下:
Loss=R+λD;
其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;
R表示熵编码参数。
2.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述获取重构图片,同时获取熵编码R具体如下:
通过编码器对训练图片进行编码,得到编码后的特征图;
通过量化器对特征图进行量化,得到量化后的特征图;
同时通过熵编码器对量化后特征图进行熵编码,得到熵编码参数;
通过解码器对量化后的特征图进行解码,得到重构图片。
3.根据权利要求2所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;
所述解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。
4.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个globalpooling层;再接一个全连接层。
5.根据权利要求4所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述Vgg网络使用mageNet数据集进行训练。
6.根据权利要求1所述的基于Attention机制的训练图片压缩网络的构建方法,其特征在于,所述Attention Map矩阵获取过程如下:
对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;
global pooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;
从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;
把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;
将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;
把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;
将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。
7.一种基于Attention机制的训练图片压缩网络的构建系统,其特征在于,该系统包括,
重构图片获取模,用于将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;
Attention map生成模块,用于利用改进的Vgg网络生产关于一个图片的Attention map;
损失函数获取模块,用于在训练压缩和解压网络过程中获取损失函数,公式如下:
Loss=R+λD;
其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;
R表示熵编码参数。
8.根据权利要求7所述的基于Attention机制的训练图片压缩网络的构建系统,其特征在于,所述重构图片获取模块包括,
编码器,用于对训练图片进行编码,得到编码后的特征图;编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;
量化器,用于对特征图进行量化,得到量化后的特征图;
熵编码器,用于对量化后特征图进行熵编码,得到熵编码参数;
解码器,用于对量化后的特征图进行解码,得到重构图片;解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。
9.根据权利要求7所述的基于Attention机制的训练图片压缩网络的构建系统,其特征在于,所述Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个globalpooling层;再接一个全连接层;其中,Vgg网络使用mageNet数据集进行训练。
10.根据权利要求7所述的基于Attention机制的训练图片压缩网络的构建系统,其特征在于,所述Attention Map矩阵获取过程如下:
对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;
global pooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;
从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;
把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;
将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;
把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;
将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。

说明书全文

基于Attention机制的训练图片压缩网络的构建方法及系统

技术领域

[0001] 本发明涉及图像压缩、Attention机制及卷积神经网络领域,具体地说是一种基于Attention机制的训练图片压缩网络的构建方法及系统。

背景技术

[0002] 基于深度学习DNN的图片压缩方法目前已经成为最近研究的主流方向。基于深度学习的图片压缩方法已经成为目前的主流方法的JPEG和BGP的有竞争者。除了自然的图片上,深度学习方法实现了强有力的压缩率,它们还能都轻松的适应到具体的某个领域,例如立体图像或者医学影像,并且还可以通过图像的压缩表示直接进行索引。深度学习方法也主要在PSNR和MS-SSIM上进行比较。传统的深度学习压缩网络在训练的时候,对于图像中的每一个点都是平等看待,但是实际情况下,我们一般对前景会使用较小的压缩比,对背景使用较大的压缩比,为了实现这种效果,如何基于Attention机制去为图片中的每个像素点赋予不同的权值,从而使得深度网络在解压时,生成一个视觉效果上比较好的图片是目前急需解决的技术问题。

发明内容

[0003] 本发明的技术任务是提供一种基于Attention机制的训练图片压缩网络的构建方法及系统,来解决如何基于Attention机制去为图片中的每个像素点赋予不同的权值,从而使得深度网络在解压时,生成一个视觉效果上比较好的图片的问题。
[0004] 本发明的技术任务是按以下方式实现的,一种基于Attention机制的训练图片压缩网络的构建方法,该方法具体如下:
[0005] 将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;
[0006] 利用改进的Vgg网络生产关于一个图片的Attention map;
[0007] 在训练压缩和解压网络过程中获取损失函数,公式如下:
[0008] Loss=R+λD;
[0009] 其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;R表示熵编码参数。
[0010] 作为优选,所述获取重构图片,同时获取熵编码R具体如下:
[0011] 通过编码器对训练图片进行编码,得到编码后的特征图;
[0012] 通过量化器对特征图进行量化,得到量化后的特征图;
[0013] 同时通过熵编码器对量化后特征图进行熵编码,得到熵编码参数;
[0014] 通过解码器对量化后的特征图进行解码,得到重构图片。
[0015] 更优地,所述编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;
[0016] 所述解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。
[0017] 作为优选,所述Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层;再接一个全连接层。
[0018] 更优地,所述Vgg网络使用mageNet数据集进行训练。
[0019] 作为优选,所述Attention Map矩阵获取过程如下:
[0020] 对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;
[0021] global pooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;
[0022] 从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;
[0023] 把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;
[0024] 将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;
[0025] 把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;
[0026] 将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。
[0027] 一种基于Attention机制的训练图片压缩网络的构建系统,该系统包括,[0028] 重构图片获取模,用于将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;
[0029] Attention map生成模块,用于利用改进的Vgg网络生产关于一个图片的Attention map;
[0030] 损失函数获取模块,用于在训练压缩和解压网络过程中获取损失函数,公式如下:
[0031] Loss=R+λD;
[0032] 其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;R表示熵编码参数;
[0033] 作为优选,所述重构图片获取模块包括,
[0034] 编码器,用于对训练图片进行编码,得到编码后的特征图;编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;
[0035] 量化器,用于对特征图进行量化,得到量化后的特征图;
[0036] 熵编码器,用于对量化后特征图进行熵编码,得到熵编码参数;
[0037] 解码器,用于对量化后的特征图进行解码,得到重构图片;解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。
[0038] 作为优选,所述Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层;再接一个全连接层;其中,Vgg网络使用mageNet数据集进行训练。
[0039] 作为优选,所述Attention Map矩阵获取过程如下:
[0040] 对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;
[0041] global pooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;
[0042] 从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;
[0043] 把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;
[0044] 将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;
[0045] 把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;
[0046] 将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。
[0047] 本发明的基于Attention机制的训练图片压缩网络的构建方法及系统具有以下优点:
[0048] (一)传统方法的深度学习图片压缩方法,损失函数为R+λD,该损失函数对于图片中前景和背景都是利用相同的λ值,本发明中引入图片的Attention Map进行λ的构造,使前景拥有更大的λ值,背景拥有更小的λ,这样不同像素点会对应不同的Attention值,这样使得在同样压缩比的情况下,解压后的图像视觉效果更好;
[0049] (二)本发明和其他的传统的方法JPEG、BPG和CNN相比,在更小的压缩比下,还训练图片的效果差不多;
[0050] (三)本发明使用一个Attention Map去为图片中的每个像素点赋予不同的权值,从而使得深度网络在解压的时候,生成一个视觉效果上比较好的图片;
[0051] (四)本发明主要提出使用Attention进行图片压缩技术,在进行图片压缩时,可以有选择对图片不同区域采用不同的压缩能力,对不是很看重的地方着重进行压缩,对于比较看重的地方,尽可能保持图片的原有信息,为了实现这种效果,引入一个Attention机制,该机制针对不同的像素点生成不同的大小的权重,权重越大代表越看重图片的这部分信息,越小表示图片这部分信息不重要,可以适当的进行缩减。附图说明
[0052] 下面结合附图对本发明进一步说明。
[0053] 附图1为基于Attention机制的训练图片压缩网络的构建方法示意图;
[0054] 附图2为编码器的示意图;
[0055] 附图3为解码器的示意图。

具体实施方式

[0056] 参照说明书附图和具体实施例对本发明的基于Attention机制的训练图片压缩网络的构建方法及系统作以下详细地说明。
[0057] 实施例1:
[0058] 如附图1所示,本发明的基于Attention机制的训练图片压缩网络的构建方法,该方法具体如下:
[0059] S1、将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;具体如下:
[0060] S101、通过编码器对训练图片进行编码,得到编码后的特征图;如附图2所示,编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;
[0061] S102、通过量化器对特征图进行量化,得到量化后的特征图;
[0062] S103、同时通过熵编码器对量化后特征图进行熵编码,得到熵编码参数;
[0063] S104、通过解码器对量化后的特征图进行解码,得到重构图片;如附图3所示,解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。
[0064] S2、利用改进的Vgg网络生产关于一个图片的Attention map;Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层;再接一个全连接层。Vgg网络使用mageNet数据集进行训练。由于我们使用ImageNet数据集进行训练,因此最后一个全连接层,我们使用1000个神经元。
[0065] S3、在训练压缩和解压网络过程中获取损失函数,公式如下:
[0066] Loss=R+λD;
[0067] 其中,D是通过训练图片和重构图片之间对应点的MSE获得(MSE为训练图片与重构图片相减后的平方和);
[0068]
[0069] 其中,x表示训练图片,表示重构图片, 表示训练图片中像素点和重构图片中对应像素点之间的距离;
[0070] λ表示Attention Map矩阵;R表示熵编码参数。其中,Attention Map会在看重的物体地方矩阵点的值比较大,背景处的值比较小,因为λ起到一个trade off的功能,用于平衡码流大小和率失真。如果图片上的某个像素点对应Attention Map上的数值比较大,就使用更大的码流去存储。对应AttentionMap的数值比较小,就使用更小的码流去存储。因此这使得压缩和解压网络增加一定的选择性功能。
[0071] 其中,Attention Map矩阵获取过程如下:
[0072] S301、对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;
[0073] S302、global pooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;
[0074] S303、从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;
[0075] S304、把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;
[0076] S305、将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;
[0077] S306、把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;
[0078] S307、将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。
[0079] 实施例2:
[0080] 本发明的基于Attention机制的训练图片压缩网络的构建系统,该系统包括,[0081] 重构图片获取模块,用于将训练图片进行压缩和解压获取重构图片,同时获取熵编码R;重构图片获取模块包括,
[0082] 编码器,用于对训练图片进行编码,得到编码后的特征图;编码器使用一个3层的神经网络,每一层包括一个卷积、一个下采样和一个Relu激活函数;
[0083] 量化器,用于对特征图进行量化,得到量化后的特征图;
[0084] 熵编码器,用于对量化后特征图进行熵编码,得到熵编码参数;
[0085] 解码器,用于对量化后的特征图进行解码,得到重构图片;解码器使用一个3层的神经网络,每一层包括一个反卷积、一个上采样和一个Relu激活函数。
[0086] Attention map生成模块,用于利用改进的Vgg网络生产关于一个图片的Attention map;Vgg网络的改进具体如下:去掉Vgg中的全连接网络,在最后一个卷积层后面加上一个depthwise_conv2d和一个global pooling层;再接一个全连接层;其中,Vgg网络使用mageNet数据集进行训练。
[0087] 损失函数获取模块,用于在训练压缩和解压网络过程中获取损失函数,公式如下:
[0088] Loss=R+λD;
[0089] 其中,D是通过训练图片和重构图片之间对应点的MSE获得;λ表示Attention Map矩阵;R表示熵编码参数;Attention Map矩阵获取过程如下:
[0090] (1)、对于训练好的Vgg网络,通过输入一张大小为224*224*3的图片,获得该图片的一个Conv_last,大小为14*14*1024;
[0091] (2)、global pooling层和Fc输出层之间加入W,W表示1024*1000的矩阵,通过转置运算符,获得一个W_transpose为1000*1024;
[0092] (3)、从W_transpose选择预测类别最大的那一行的1024个元素,转置成为一个1024*1的矩阵;
[0093] (4)、把Conv_last矩阵进行双线性差值,成为一个224*224*1024的矩阵;
[0094] (5)、将224*224*1024的矩阵通过reshape操作变成一个50176*1024的矩阵;
[0095] (6)、把50176*1024的矩阵与1024*1的矩阵相乘,得到一个50176*1的矩阵;
[0096] (7)、将50176*1的矩阵进行转置变成224*224*1的Attention map矩阵。
[0097] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈