首页 / 专利库 / 软件 / 无损压缩 / 熵编码 / 基于深度学习的可变码率图像编码、解码系统及方法

基于深度学习的可变码率图像编码、解码系统及方法

阅读:473发布:2020-05-13

专利汇可以提供基于深度学习的可变码率图像编码、解码系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 深度学习 的可变码率图像编码系统及方法,包括:正向多尺度分解变换网络模 块 ,将输入原始图像分解为多个尺度的图像特征;量化模块,将图像特征量 化成 整数;自适应码率分配模块,根据给定的目标码率对量化成整数的图像特征进行块级别的码率分配;熵编解码模块,将进行码率分配后的图像特征编码为二进制码流;同时提供了一种可变码率图像解码系统及方法,用于解码上述编码系统及方法形成的编码。本发明使用深度 卷积神经网络 构建正反多尺度分解变换,利用大量数据进行训练得到最优模型参数,结合基于图像复杂度的自适应码率分配方法,在实际应用中可实现可变码率图像编解码。,下面是基于深度学习的可变码率图像编码、解码系统及方法专利的具体信息内容。

1.一种基于深度学习的可变码率图像编码系统,其特征在于,包括:
正向多尺度分解变换网络模,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并发送至量化模块,其中每一个尺度的图像特征对应于一个质量等级的编码结果;
量化模块,将每一个尺度的图像特征量化成整数,并发送至自适应码率分配模块;
自适应码率分配模块,根据给定的目标码率对整数图像特征进行块级别的码率分配,得到当前图像块的目标码率,选择与当前图像块的目标码率最接近的整数图像特征作为编码结果发送至熵编码模块;
熵编码模块,将整数图像特征编码为二进制码流并输出;
所述自适应码率分配模块采用基于图像复杂度的码率分配方法,将当前图像块复杂度与剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,得到当前图像块的目标码率。
2.根据权利要求1所述的一种基于深度学习的可变码率图像编码系统,其特征在于, 所述正向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层采用广义归一化层;通道连接操作将特征图在通道维度上连接在一起,输出多个尺度的图像特征。
3.根据权利要求1所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述熵编码模块基于二进制数字编码,采用的熵编码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵编码模块中。
4.根据权利要求3所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述网络训练过程为:利用随机梯度下降算法,对概率模型参数进行优化,直到率失真损失收敛。
5.一种可变码率图像解码系统,其特征在于,用于解码权利要求1所述系统形成的编码,包括:
熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到图像特征并输出至反向多尺度分解变换网络模块;
反向多尺度分解变换网络模块,基于深度卷积神经网络将熵解码得到的图像特征重构为解码图像并输出。
6.根据权利要求5所述的一种可变码率图像解码系统,其特征在于,所述反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。
7.根据权利要求5所述的一种可变码率图像解码系统,其特征在于,所述熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。
8.一种基于深度学习的可变码率图像编码方法,其特征在于,包括:
S1,采用深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征,输出得到多尺度图像特征;
S2,对S1中得到的每一个尺度图像特征量化为整数;
S3,根据给定的目标码率,结合各个尺度的预测码率和失真度,对S2中得到的量化成整数的多尺度图像特征逐图像块进行最优尺度分配;
S4,采用概率模型,对S3中得到的分配最优尺度后的图像特征进行熵编码,得到二进制码流并输出;
所述S4中,熵编码是将分配最优尺度后的图像特征编码为二进制码流,包括:分别对图像特征中的长、宽、最优尺度以及保留下来的特征进行熵编码;其中长和宽采用16比特进行二进制化,不进行算术编码;最优尺度中的每个元素采用8比特二进制化,不进行算术编码;
保留下来的特征采用二进制算术编码。
9.根据权利要求8所述的一种基于深度学习的可变码率图像编码方法,其特征在于,还包括参数离线训练过程,步骤如下:
A1:在高清自然训练图像中随机裁剪图像块组成训练集,并对图像块进行随机翻转以扩充训练数据
A2:利用随机梯度下降算法,对用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数进行联合优化,直到率失真损失收敛。
10.根据权利要求9所述的一种基于深度学习的可变码率图像编码方法,其特征在于,在所述随机梯度下降算法中,损失函数采用各个尺度的率失真损失的平均值;其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
11.一种基于深度学习的可变码率图像解码方法,其特征在于,用于解码权利要求8所述方法形成的编码,包括:
s1,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;
s2,采用深度卷积神经网络,对s1中得到的解码图像特征重构为解码图像并输出;
所述s1中,熵解码针对二进制码流进行解码,包括:对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征。
12.根据权利要求11所述的一种基于深度学习的可变码率图像解码方法,其特征在于,所述s2中,根据元信息,将解码图像特征进行重构,得到解码图像。
13.一种编码器,其特征在于,执行权利要求8至10中任一项所述的编码方法,将输入原始图像编码后形成二进制码流输出。
14.一种解码器,其特征在于,执行权利要求11至12中任一项所述的解码方法,将经过编码后形成的二进制码流重构为解码图像。
15.一种终端,其特征在于,安装有权利要求1至4中任一项所述的编码系统和/或权利要求5至7中任一项所述的解码系统;
或,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行权利要求8至10中任一项所述的编码方法和/或权利要求11至12中任一项所述的解码方法;
或,安装有权利要求13所述的编码器和/或权利要求14所述的解码器。

说明书全文

基于深度学习的可变码率图像编码、解码系统及方法

技术领域

[0001] 本发明涉及一种图像编码系统及方法,特别是涉及一种基于深度学习的可变码率图像编码、解码系统及方法。

背景技术

[0002] 如今多媒体数据占据了互联网的绝大部分流量。对于视频图像数据的压缩对于多媒体数据的存储和高效传输有着至关重要的作用。所以图像编码是一项具有重大实用价值的技术。
[0003] 对于图像编码的研究已经有较长的历史了,研究人员提出了大量的方法,并制定了多种国际标准,比如JPEG,JPEG2000,WebP,BPG等图像编码标准。这些编码方法虽然在目前都得到了广泛应用,但是针对现在不断增长的图像数据量及不断出现的新媒体类型,这些传统方法显示出了某些局限性。由于这些方法都是针对某种类型的图像基于特征工程,手工设计的操作,因此对于不断出现的新媒体类型,比如虚拟现实图像,全景图像,广场图像等,缺乏自适应性。因此在未来的图像应用中,需要改进的或全新的编码方法。
[0004] 近年来,开始有研究人员开展了基于深度学习图像编码方法的研究。有些研究人员已经取得了不错的成果,比如Ballé等人提出了一种端到端优化的图像编码方法,取得了超越目前最好的图像编码性能,甚至超越了目前最好的传统编码标准BPG。不过目前大多数基于深度卷积网络的图像编码都有一个缺陷,即一个训练好的模型针对一种输入图像只能输出一种编码结果,而不能根据实际需求,得到目标码率的编码结果。这个缺点严重限制了基于深度学习的图像编码的实际应用,因为根据带宽过存储需求,输出目标码率对于实际应用至关重要。
[0005] 目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。

发明内容

[0006] 本发明针对现有技术中存在的上述不足,提供了一种基于深度学习的可变码率图像编码、解码系统及方法、同时提供了一种基于上述编码、解码系统及方法实现的编码器解码器以及终端,结合深度学习技术,在保持优越编码性能的同时,实现输出目标码率的图像压缩。
[0007] 本发明是通过以下技术方案实现的。
[0008] 根据本发明的第一个方面,提供了一种基于深度学习的可变码率图像编码系统,包括:
[0009] 正向多尺度分解变换网络模,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并发送至量化模块,其中每一个尺度的图像特征对应于一个质量等级的编码结果;
[0010] 量化模块,将每一个尺度的图像特征量化成整数,并发送至自适应码率分配模块;
[0011] 自适应码率分配模块,根据给定的目标码率对整数图像特征进行块级别的码率分配,得到当前图像块的目标码率,选择与当前图像块的目标码率最接近的整数图像特征作为编码结果发送至熵编码模块;
[0012] 熵编码模块,将整数图像特征编码为二进制码流并输出。
[0013] 优选地,所述正向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层采用广义归一化层;通道连接操作将特征图在通道维度上连接在一起,输出多个尺度的图像特征。
[0014] 优选地,所述量化模块采用四舍五入量化、矢量量化、量化表量化等方式进行量化操作。
[0015] 优选地,所述自适应码率分配模块采用基于图像复杂度的码率分配方法,将当前图像块复杂度与剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,得到当前图像块的目标码率。
[0016] 优选地,所述熵编码模块基于二进制数字编码,采用的熵编码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵编码模块中。
[0017] 优选地,所述概率模型可以采用基于线性样条插值的概率模型,也可以采用其他概率密度估计模型,例如混合高斯模型、混合拉普拉斯模型、基于深度学习的概率估计模型等。
[0018] 优选地,所述网络训练过程为:利用随机梯度下降算法,对概率模型参数进行优化,直到率失真损失收敛。
[0019] 根据本发明的第二个方面,提供了一种可变码率图像解码系统,用于解码上述编码系统形成的编码,包括:
[0020] 熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到的图像特征并输出至反向多尺度分解变换网络模块;
[0021] 反向多尺度分解变换网络模块,基于深度卷积神经网络,将熵解码得到的图像特征重构为解码图像并输出。
[0022] 优选地,所述反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。
[0023] 优选地,所述熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。
[0024] 根据本发明的第三个方面,提供了一种基于深度学习的可变码率图像编码方法,包括:
[0025] S1,采用深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征,输出得到多尺度图像特征;
[0026] S2,对S1中得到的每一个尺度图像特征量化为整数;
[0027] S3,根据给定的目标码率,结合各个尺度的预测码率和失真度,对S2中得到的量化成整数的多尺度图像特征逐图像块进行最优尺度分配;
[0028] S4,采用概率模型,对S3中得到的分配最优尺度后的图像特征进行熵编码,得到二进制码流并输出。
[0029] 优选地,所述S4中,熵编码是将分配最优尺度后的图像特征编码为二进制码流,包括:分别对图像特征中的长、宽、最优尺度以及保留下来的特征进行熵编码;其中长和宽采用16比特进行二进制化,不进行算术编码;最优尺度中的每个元素采用8比特二进制化,不进行算术编码;保留下来的特征采用二进制算术编码。
[0030] 优选地,还包括参数离线训练过程,步骤如下:
[0031] A1:在高清自然训练图像中随机裁剪图像块组成训练集,并对图像块进行随机翻转以扩充训练数据
[0032] A2:利用随机梯度下降算法,对用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数进行联合优化,直到率失真损失收敛。
[0033] 优选地,在所述随机梯度下降算法中,损失函数采用各个尺度的率失真损失的平均值;其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
[0034] 根据本发明的第四个方面,提供了一种基于深度学习的可变码率图像解码方法,用于解码上述编码方法形成的编码,包括:
[0035] s1,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;
[0036] s2,采用深度卷积神经网络,对s1中得到的解码图像特征重构为解码图像并输出。
[0037] 优选地,所述s2中,根据元信息,将解码图像特征进行重构,得到解码图像。
[0038] 优选地,所述s1中,熵解码针对二进制码流进行解码,包括:对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征。
[0039] 根据本发明的第五个方面,提供了一种编码器,执行上述任一项所述的编码方法,将输入原始图像编码后形成二进制码流输出。
[0040] 根据本发明的第六个方面,提供了一种解码器,执行上述任一项所述的解码方法,将经过编码后形成的二进制码流重构为解码图像。
[0041] 根据本发明的第七个方面,提供了一种终端,安装有上述任一项所述的编码系统和/或解码系统;
[0042] 或,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行上述任一项所述的编码方法和/或解码方法;
[0043] 或,安装上述任一项所述的编码器和/或解码器。
[0044] 与现有技术相比,本发明具有如下的有益效果:
[0045] 1、本发明利用深度学习技术,学习得到自适应强的编码变换操作;
[0046] 2、本发明正反多尺度分解变换网络可以将图像分解成不同质量等级的尺度,从而可以灵活地进行码率分配;
[0047] 3、本发明可以输出和目标码率高度接近的编码结果;
[0048] 4、本发明采用多尺度分解网络技术,可以将输入图像分解为多个尺度的特征集合,再结合基于复杂度的自适应码率分配方法,可以实现输出目标码率的图像压缩结果。
[0049] 5、本发明的网络参数是在大量图像数据集上进行无监督离线学习得到,可以取得和最新的基于深度学习方法相当的编码性能。附图说明
[0050] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0051] 图1为本发明一实施例的基于深度学习的可变码率图像编码系统结构框图
[0052] 图2为本发明一实施例的正向多尺度分解变换网络结构图。
[0053] 图3为本发明一实施例的反向多尺度分解变换网络结构图。

具体实施方式

[0054] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0055] 本发明实施例提供了一种基于深度学习的可变码率图像编码系统,系统包括如下模块:
[0056] 模块一:正向多尺度分解变换网络模块,将输入图像分解成多个尺度的图像特征,不同特征对应于不同质量等级的编码模式(编码结果)。
[0057] 模块二:量化模块,将每一个尺度的图像特征量化成整数,以便进行熵编码;
[0058] 模块三:自适应码率分配模块,根据给定的目标码率对量化为整数后的图像特征进行块级别的码率分配;
[0059] 模块四:熵编码模块,对进行码率分配后的整数图像特征进行熵编码。熵编码是指将图像特征编码为二进制码流。
[0060] 进一步地,模块一中的正向多尺度分解变换网络模块是基于深度卷积神经网络构建而成,可以进行端到端的优化。正向多尺度分解变换网络模块的结构如图2所示,其中卷积是标准的卷积神经网络层。归一化层采用的是Ballé等人提出的广义归一化层。通道连接操作是将特征图在通道维度上连接在一起,输出一个完整的特征图,即多个尺度的图像特征。
[0061] 进一步地,模块二中的量化模块是基于四舍五入、矢量量化、量化表等的标量量化操作。
[0062] 进一步地,模块三中的自适应码率分配模块是基于图像复杂度的块级别码率分配操作。将当前图像块的复杂度和剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,计算出当前图像块的目标码率,再选择和当前图像块目标码率最接近的尺度作为当前块的编码模式(编码结果)。
[0063] 实际应用中,需要编码器输出期望的码率。给定的目标码率用来指导编码器输出期望的码率。在码率分配过程中,根据图像块的复杂度,将总体目标码率(即给定的目标码率)按比例分配到每个图像块,得到每个块的目标码率。
[0064] 进一步地,模块四中的熵编码模块基于二进制数字编码,其熵编码模型在网络训练及测试过程中不断地统计更新得到。在训练时,可以采用基于线性样条插值的概率模型进行近似,也可以采用其他采用其他概率密度估计模型,例如混合高斯模型、混合拉普拉斯模型、基于深度学习的概率估计模型等;测试时的概率模型由训练完成后的概率模型离线计算得到并保存在编码端。
[0065] 本发明实施例还提供的基于深度学习的可变码率图像编码方法,包括如下步骤:
[0066] 步骤S1:采用深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征,输出得到多尺度图像特征;
[0067] 步骤S2:对多尺度图像特征进行量化为整数;
[0068] 步骤S3:根据输入(给定)的目标码率,结合各个尺度的预测码率和失真度,对量化成整数的多尺度图像特征逐图像块进行最优尺度分配;
[0069] 步骤S4:采用概率模型,对分配最优尺度后的图像特征进行熵编码得到二进制码流。;
[0070] 进一步地,步骤S4中要分别对图像长和宽,最优尺度图和保留下来的特征进行熵编码。其中长和宽直接采用16比特进行二进制化,不进行算术编码。最有尺度中的每个元素采用8比特二进制化,不进行算术编码。特征采用二进制算术编码,熵编码模型在训练过程中累计更新得到。
[0071] 进一步地,基于深度学习的可变码率图像编码方法还包括参数离线训练过程,步骤如下:
[0072] A1:在高清自然训练图像中随机裁剪图像块组成训练集,并对图像块进行随机翻转以扩充训练数据;
[0073] A2:利用随机梯度下降算法,对用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数进行联合优化,直到率失真损失收敛。
[0074] 进一步地,在随机梯度下降算法中,损失函数采用各个尺度的率失真损失的平均值;其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
[0075] 进一步地,步骤A1中,随机裁剪的图像块大小根据计算资源而定,例如,可以裁剪尺寸为256x256的图像块,如果资源允许,可以采用更大块。
[0076] 进一步地,步骤A2中系统的参数包括正向多尺度分解变换网络的参数和熵编码中的概率模型参数,即用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数。在步骤A2中,可以同时对下文中所述的解码系统中的反向多尺度分解变换网络的参数进行联合优化,即用于进行解码图像特征重构的网络参数。
[0077] 进一步地,步骤A2中,在随机梯度下降算法中,损失函数是各个尺度的率失真损失的平均值。其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。
[0078] 进一步地,步骤A2中,整个系统的联合训练方法是对各个尺度的率失真优化的平均值进行梯度下降法,逐步迭代优化。训练之后的最优模型参数保存之后,直接用在图像编码方法中。
[0079] 本发明实施例还提供了一种可变码率图像解码系统,用于解码上述编码系统形成的编码,包括:
[0080] 熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到的图像特征并输出至反向多尺度分解变换网络模块;
[0081] 反向多尺度分解变换网络模块,基于深度卷积神经网络,将熵解码得到的图像特征重构为解码图像并输出。反向多尺度分解变换网络模块的结构如图3所示。
[0082] 进一步地,反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层分别采用标准的卷积神经网络层;反归一化层分别采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。
[0083] 进一步地,熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。
[0084] 利用该解码系统进行图像解码的步骤如下:
[0085] s1,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;
[0086] s2,采用深度卷积神经网络,对s1中得到的解码图像特征重构为解码图像并输出。
[0087] 进一步地,对二进制码流进行熵解码,依次解码得到图像长和宽,最有尺度图和保留下来的图像特征,即解码图像特征;
[0088] 进一步地,根据元信息,组织好解码图像特征并送入反向多尺度分解变换网络模块,重构得到解码图像。
[0089] 其中,保留下来的图像特征是指:图像经过前向变换的特征为所有特征,在码率控制时,根据率失真最优化规则,会舍弃一部分特征,只编码传输剩下来的特征。剩下来的特征就是保留下来的图像特征。
[0090] 下面结合附图以及一具体实例对本发明上述实施例的技术方案进一步详细描述。
[0091] 如图1所示,本发明上述实施例中提供的一种基于深度学习的可变码率图像编码、解码系统,包括:
[0092] 1、一对正向、反向多尺度分解变换网络模块,一个量化模块,一个自适应码率分配模块和一对熵编码、解码模块。
[0093] 2、正向、反向多尺度分解变换网络模块的结构如图2和图3所示,正向多尺度分解变换网络模块中包含一系列卷积层,归一化层,元素减法器和一个通道连接操作。反向多尺度分解变换网络模块中包含一系列反卷积层,反归一化层,元素加法器和一个通道分离操作。
[0094] 3、量化模块是基于四舍五入的标量量化操作。
[0095] 4、自适应码率分配模块基于内容复杂度逐图像块进行最优尺度分配。
[0096] 5、熵编码、解码模块基于二进制数字编码,其中,熵编码模块将量化后的整数图像特征编码成二进制码流,熵解码模块将二进制码流解码成图像特征。
[0097] 6、利用编码系统进行图像编码方法的步骤如下:
[0098] 步骤S1、输入原始图像I,经过正向多尺度分解变换网络模块,得到4组不同尺度的图像特征集合,这个过程可以表示成式(1):
[0099]
[0100] 其中 表时图像I经过正向变换网络, 是网络参数集合,可以从数据中学习得到。{T1,T2,T3,T4}表示输出的四个不同尺度的图像特征集合,他们对应着不同的特征数量和重构质量。T1是最小的尺度,包含最少的特征数量,对应最低的编码码率和最差的重构质量。相反,T4包含了最多的特征,对应最高的码率最好的重构质量;
[0101] 步骤S2、对特征进行量化: 其中round表示四舍五入;
[0102] 步骤S3、逐块进行最优尺度分配。首先计算当前第i个块的复杂度和剩余块复杂度之和的比值,如式(2):
[0103]
[0104] 其中D(i)表示第i个块最大尺度对应的失真。N代表图像中所有的块。得到比率ω(i)后,计算当前块的预分配的比特数:R(i)=ω(i)×Rremain,其中Rremain表示的是还剩余的码字预算。得到预分配给当前块的码字后,在所有尺度中选择一个有和R(i)最接近码字的块作为最优尺度,该实际码率记为R*(i)。当前块分配完成后,更新剩余预算码字:Rremain=Rremain-R*(i)。重复该步骤,直至对所有块的分配完成;
[0105] 步骤S4、首先对图像的长和宽进行熵编码,直接采用16比特进行二进制化后,写进码流。再对最优尺度索引图进行熵编码,依次对每个元素采用8比特进行二进制化后,写进码流。最后对选择好的特征进行熵编码,采用二进制数字编码,熵编码模型由训练完成后的概率模型计算得到。
[0106] 7、利用解码系统进行图像解码方法的步骤如下:
[0107] 步骤s1熵解码对二进制码流进行解码,对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征,即解码图像特征。
[0108] 步骤s2,对得到的解码图像特征重构为解码图像并输出。组织好解码图像特征矩阵,举证空缺位置用零填充。将该矩阵输入到反向多尺度分解变换网络模块,重构得到解码图像。
[0109] 对于系统中的正、反向多尺度分解变换网络模块以及熵编码概率模型中的参数的离线训练步骤如下:
[0110] 步骤A1:在高清自然训练图像中随机裁剪256x256的图像块组成训练集,并对图像块进行随机翻转以扩充训练数据;
[0111] 步骤A2:利用随机梯度下降算法对整个系统中的参数进行联合优化,直到损失收敛;
[0112] 步骤A2中的优化方法是Adam优化方法。损失函数设为式(3):
[0113]
[0114] 式(3)中Rs代表第s个尺度的码率,由信息熵衡量。Ds代表其失真,由均方误差MSE衡量。λs代表改尺度的率失真折中因子,四个尺度的折中因子逐渐增大,比如可以设为λ1=128,λ2=256,λ3=512,λ4=1024。
[0115] 步骤A2中的参数学习率设为10-4,当训练损失不再下降时,降为10-5。训练收敛后,保存参数,实际使用时直接加载使用即可。
[0116] 基于上述编码方法,本发明实施例还提供了一种编码器,执行上述的编码方法,将输入原始图像编码后形成二进制码流输出。
[0117] 基于上述解码方法,本发明实施例还提供了一种解码器,执行上述的解码方法,将经过编码后形成的二进制码流重构为解码图像。
[0118] 基于上述编码系统、解码系统、编码方法、解码方法、编码器、解码器,本发明实施例还提供了一种终端,安装有上述任一项的编码系统和/或解码系统。
[0119] 或者,在另一实施例中,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,处理器执行上述的编码方法和/或解码方法。
[0120] 或者,在另一实施例中,提供了一种终端,安装上述的编码器和/或解码器。
[0121] 本发明上述实施例所提供的一种基于深度学习的可变码率图像编码系统及方法,图像输入到系统后,经过正向多尺度分解变换网络模块后被分解为多个尺度的图像特征集合,对特征进行量化后再视频序列输入到系统中后根据目标码率进行自适应码率分配,分配后的特征经过熵编码得到二进制码流。同时提供了一种可变码率图像解码系统及方法,在解码时,首先对码流进行熵解码得到多尺度特征(即解码图像特征),最后经过反向多尺度分解变换网络得到解码图像。本发明上述实施例使用深度卷积神经网络构建正、反向多尺度分解变换网络模块,利用大量数据进行训练得到最优模型参数,结合基于图像复杂度的自适应码率分配方法,在实际应用中可实现可变码率图像编、解码。
[0122] 本发明上述实施例中的具体参数仅为说明本发明技术方案的实施而举例,本发明在另外的实施例中也可以采用其他的具体参数,这对于本发明实现没有本质性的影响。
[0123] 需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
[0124] 本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0125] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈