首页 / 专利库 / 信号处理 / 采样 / 图像处理装置及方法、图像处理系统及训练方法

图像处理装置及方法、图像处理系统及训练方法

阅读:938发布:2024-02-27

专利汇可以提供图像处理装置及方法、图像处理系统及训练方法专利检索,专利查询,专利分析的服务。并且公开了一种 图像处理 装置及方法、以及图像处理系统及训练方法。所述图像处理方法包括:接收输入图像;将所述输入图像输入级联的K级解码模 块 ,对所述输入图像进行处理以得到输出图像,其中第i级解码模块接收mK+1‑i个输入图像,并且输出mK‑i个输出图像,并且输出图像的 分辨率 大于输入图像的分辨率,输出图像的通道数小于输入图像的通道数,K、i、m均为正整数,1≤i≤K。,下面是图像处理装置及方法、图像处理系统及训练方法专利的具体信息内容。

1.一种图像处理的方法,包括:
接收输入图像;
将所述输入图像输入级联的K级解码模,对所述输入图像进行处理以得到输出图像,其中第i级解码模块接收mK+1-i个输入图像,并且输出mK-i个输出图像,并且输出图像的分辨率大于输入图像的分辨率,输出图像的通道数小于输入图像的通道数,K、i、m均为正整数,1≤i≤K;
其中,利用第i级解码模块进行处理包括:
K+1-i K-i
第i级解码模块将输入的m 个输入图像分成m 组,每组图像包括各自的第一解码输入成分至第m解码输入成分;
对每组图像中的第一解码输入成分至第m解码输入成分执行解码操作。
2.如权利要求1所述的方法,其中所述K级解码模块的每一级包括解码单元和拼接单元。
3.如权利要求1所述的方法,其中所述接收输入图像包括:
接收原始图像;
将所述原始图像输入到第一卷积神经网络模块以获得mK个图像作为输入图像的mK个通道。
4.如权利要求1所述的方法,其中所述接收输入图像包括:
接收原始图像和噪声图像;
将所述原始图像和噪声图像输入到第二卷积神经网络模块以获得mK个图像作为输入图像。
5.如权利要求1所述的方法,其中,m=4,利用第i级解码模块进行处理包括:
第i级解码模块将输入的mK+1-i个输入图像分成mK-i组,每组图像包括各自的第一解码输入成分、第二解码输入成分、第三解码输入成分和第四解码输入成分;
对每组图像中的第一解码输入成分、第二解码输入成分、第三解码输入成分和第四解码输入成分执行解码操作,
其中,执行解码操作包括:
执行基于所述第一解码输入成分和所述第二解码输入成分的逆小波变换,并基于逆小波变换的结果获得第一差别特征和第一叠加特征;
执行基于所述第三解码输入成分和所述第四解码输入成分的逆小波变换,并基于逆小波变换的结果获得第二差别特征和第二叠加特征;
基于所述第二差别特征和所述第二叠加特征生成更新图像,并基于所述更新图像、所述第一差别特征和所述第一叠加特征生成第一解码输出成分和第二解码输出成分;
基于所述第一解码输出成分和所述第二解码输出成分生成预测图像,并基于所述预测图像、所述第二差别特征和所述第二叠加特征生成所述第三解码输出成分和所述第四解码输出成分;
将所述第一解码输出成分、第二解码输出成分、第三解码输出成分和第四解码输出成分拼接为一个解码输出图像。
6.如权利要求5所述的方法,
其中,基于所述第二差别特征和所述第二叠加特征生成更新图像,并基于所述更新图像、所述第一差别特征和所述第一叠加特征生成第一解码输出成分和第二解码输出成分包括:
利用将所述第二差别特征和第二叠加特征作为输入的第一更新卷积网络生成第一更新特征和第二更新特征;
对所述第一差别特征和所述第一更新特征执行去叠加操作以获得第一解码输出成分;
对所述第一叠加特征和所述第二更新特征执行去叠加操作以获得第二解码输出成分;
其中,基于所述第一解码输出成分和所述第二解码输出成分生成预测图像,并基于所述预测图像、所述第二差别特征和所述第二叠加特征生成所述第三解码输出成分和所述第四解码输出成分包括:
利用将所述第一解码输出成分和所述第二解码输出成分作为输入的第一预测卷积网络生成第一预测特征和第二预测特征,所述第一预测特征和第二预测特征构成所述预测图像;
对所述第二差别特征和所述第一预测特征执行叠加操作以获得第三解码输出成分;
对所述第二叠加特征和所述第二预测特征执行叠加操作以获得第四解码输出成分。
7.如权利要求6所述的方法,其中,执行基于所述第一解码输入成分和所述第二解码输入成分的逆小波变换,并基于逆小波变换的结果获得第一差别特征和第一叠加特征包括:
利用将所述第二解码输入成分作为输入的第二更新卷积网络生成第三更新特征;
对所述第一解码输入成分和所述第三更新特征执行去叠加操作以获得第一差别特征;
利用将所述第一差别特征作为输入的第二预测卷积网络生成第三预测特征;
对所述第二解码输入成分和所述第三预测特征执行叠加操作以获得第一叠加特征。
8.如权利要求6所述的方法,其中,执行基于所述第三解码输入成分和所述第四解码输入成分的逆小波变换,并基于逆小波变换的结果获得第二差别特征和第二叠加特征包括:
利用将所述第四解码输入成分作为输入的第三更新卷积网络生成第四更新特征;
对所述第三解码输入成分和所述第四更新特征执行去叠加操作以获得第二差别特征;
利用将所述第二差别特征作为输入的第三预测卷积网络生成第四预测特征;
对所述第四解码输入成分和所述第四预测特征执行叠加操作以获得第二叠加特征。
9.一种图像处理装置,包括:
级联的K级解码模块,被配置为:接收输入图像;对所述输入图像进行处理以得到输出图像,
其中第i级解码模块接收mK+1-i个输入图像,并且输出mK-i个输出图像,并且输出图像的分辨率大于输入图像的分辨率,输出图像的通道数小于输入图像的通道数,K、i、m均为正整数,1≤i≤K;
其中,利用第i级解码模块进行处理包括:
第i级解码模块将输入的mK+1-i个输入图像分成mK-i组,每组图像包括各自的第一解码输入成分至第m解码输入成分;
对每组图像中的第一解码输入成分至第m解码输入成分执行解码操作。
10.如权利要求9所述的装置,其中所述K级解码模块的每一级包括解码单元和拼接单元。
11.如权利要求9所述的装置,所述装置还包括:
第一卷积神经网络模块,被配置为接收原始图像;对所述原始图像进行处理以获得mK个图像作为输入图像的mK个通道。
12.如权利要求9所述的装置,所述装置还包括:
第二卷积神经网络模块,被配置为接收原始图像和噪声图像;基于所述原始图像和所述噪声图像获得mK个图像作为输入图像的mK个通道。
13.如权利要求9所述的装置,其中m=4,第i级解码模块将输入的mK+1-i个输入图像分成mK-i组,每组图像包括各自的第一解码输入成分、第二解码输入成分、第三解码输入成分和第四解码输入成分,
所述K级解码模块的每一级包括:
第一逆小波变换单元,配置成执行基于第一解码输入成分和第二解码输入成分的逆小波变换,并基于逆小波变换的结果获得第一差别特征和第一叠加特征;
第二逆小波变换单元,配置成执行基于第三解码输入成分和第四解码输入成分的逆小波变换,并基于逆小波变换的结果获得第二差别特征和第二叠加特征;
解码更新单元,配置成基于第二差别特征和第二叠加特征生成更新图像,并基于更新图像、第一差别特征和第一叠加特征生成第一解码输出成分和第二解码输出成分;
解码预测单元,配置成基于第一解码输出成分和第二解码输出成分生成预测图像,并基于预测图像、第二差别特征和第二叠加特征生成第三解码输出成分和第四解码输出成分;
拼接单元,配置成对第一解码输出成分、第二解码输出成分、第三解码输出成分和第四解码输出成分进行拼接以生成一个解码输出图像。
14.如权利要求13所述的装置,所述解码更新单元进一步包括:
第一更新卷积网络,配置成接收第二差别特征和第二叠加特征作为输入,并生成第一更新特征和第二更新特征,所述第一更新特征和第二更新特征构成所述更新图像;以及第一去叠加单元,配置成对第一差别特征和第一更新特征执行去叠加操作以获得第一解码输出成分,以及对第一叠加特征和第二更新特征执行去叠加操作以获得第二解码输出成分。
15.如权利要求13所述的装置,所述解码预测单元进一步包括:
第一预测卷积网络,配置成接收第一解码输出成分和第二解码输出成分作为输入,并生成第一预测特征和第二预测特征;以及
第一叠加单元,配置成对第二差别特征和第一预测特征执行叠加操作以获得第三解码输出成分,以及对第二叠加特征和第二预测特征执行叠加操作以获得第四解码输出成分。
16.如权利要求13所述的装置,所述第一逆小波变换单元进一步包括:
第二更新卷积网络,配置成接收第二解码输入成分作为输入,并生成第三更新特征;
第二去叠加单元,配置成对第一解码输入成分和第三更新特征执行去叠加操作以获得第一差别特征;
第二预测卷积网络,配置成接收第一差别特征作为输入,并生成第三预测特征;以及第二叠加单元,配置成对第二解码输入成分和第三预测特征执行叠加操作以获得第一叠加特征。
17.如权利要求13所述的装置,所述第二逆小波变换单元进一步包括:
第三更新卷积网络,配置成接收第四解码输入成分作为输入,并生成第四更新特征;
第三去叠加单元,配置成对第三解码输入成分和第四更新特征执行去叠加操作以获得第二差别特征;
第三预测卷积网络,配置成接收第二差别特征作为输入,并生成第四预测特征;以及第三叠加单元,配置成对第四解码输入成分和第四预测特征执行叠加操作以获得第二叠加特征。
18.一种图像处理系统,包括:
图像编码装置,以及
如权利要求9-17任一项所述的图像处理装置,
其中,所述图像编码装置包括:K级编码模块,其中所述每级编码模块包括拆分单元和编码单元,所述拆分单元被配置为对输入的图像进行拆分;所述编码单元的输入端与所述拆分单元的输出端对应地连接,并且被配置为对接收的图像进行编码并输出编码图像,其中K为正整数。
19.一种用于如权利要求18所述的图像处理系统的训练方法,所述训练方法包括:
将训练图像输入所述图像处理系统,调整所述K级编码单元和所述K级解码单元中各卷积层中各卷积网络的权值,运行有限次迭代以使目标函数最优化。
20.如权利要求19所述的训练方法,其中所述目标函数是以下各项中的一项或多项的和:
编码损失函数
其中REFk是第k级编码单元输出的第一图像分量,LRk是第k级编码单元的训练图像,其中LRk是所述图像处理系统的训练图像的下采样图像,并具有与REFk相同的尺寸;C0是所述训练图像的数量;Cki是第k级编码单元输出的图像分量,其中1≤i≤4k-1,1≤k≤K;
解码损失函数
L-DECk=IQ(REFk,LRk)
其中IQ函数评价REFk与LRk之间的差别;
格损失函数
L-STYLEk(X,Y)=||GX-GY||2,其中对于具有m个通道的图像成分F,
其中GX、GY分别是X图像、Y图像的格拉姆矩阵的特征量,X是第k级编码单元的输出图像,Y是第i+1-k级编码单元的输出图像,其中1≤k≤n;
权重正则化系数
其中W是所述图像处理系统中所有卷积网络的权重参数,b是所述图像处理系统中所有卷积网络的偏置。
21.一种计算机可读介质,其上存储有指令,当所述指令被运行时,执行如权利要求1-8中任一项所述的图像处理方法,或者实现如权利要求9-17任一项所述的图像处理装置。

说明书全文

图像处理装置及方法、图像处理系统及训练方法

技术领域

[0001] 本公开涉及图像处理领域,并且更具体地,涉及一种图像处理装置及方法、 包括该图像处理装置的图像处理系统、以及用于该图像处理系统的训练方法。

背景技术

[0002] 当前,基于卷积神经网络深度学习技术已经在诸如图像分类、图像捕获 和搜索、面部识别、年龄和语音识别等领域取得了巨大进展。
[0003] 并且,近来数字图像和视频的质量提升,高质量的图像具有较高分辨率并 且文件尺寸也比较大。但是由于受限于卷积神经网络的卷积核比较小(一般地, 3x3),只能感知到小图像而无法“看到”大图像,这就使得需要将高质量的图 像转换为多个小图像,转换后的图像分辨率变低并且每个文件大小也随之变小, 从而它们可以被卷积神经网络的卷积核感知到。
[0004] 然而,转换后的图像往往需要进一步被压缩以在有限的带宽内传输,图像 在压缩的过程中会损失部分图像信息。为了提高用户的观感和体验,被转换为 低分辨率的图像需要恢复成原始的高分辨率图像以输出显示给用户。但由于在 图像压缩时在下采样期间丢失了原始图像中的某些信息,导致在输出端难以恢 复出与原始高分辨图像没有区别的图像,这在一定程度上影响了用户的观看感 受。发明内容
[0005] 针对上述问题,本公开提出了一种图像处理方法及装置、以及相应的图像 处理系统及训练方法。
[0006] 根据本公开的第一方面,提供了一种图像处理方法。所述方法包括:接收 输入图像;将所述输入图像输入级联的K级解码模,对所述输入图像进行处 理以得到输出图像,其中第i级解码模块接收mK+1-i个输入图像,并且输出mK-i个输出图像,并且输出图像的分辨率大于每个输入图像的分辨率,输出图像的 通道数小于输入图像的通道数,K、i、m均为正整数,1≤i≤K。
[0007] 在一个实施例中,所述K级解码模块的每一级包括解码单元和拼接单元。
[0008] 在一个实施例中,所述接收输入图像包括:接收原始图像;将所述原始图 像输入到第一卷积神经网络模块以获得mK个图像作为输入图像的mK个通道。
[0009] 在一个实施例中,所述接收输入图像包括:接收原始图像和噪声图像;将 所述原K始图像和噪声图像输入到第二卷积神经网络模块以获得m个图像作为 输入图像。
[0010] 在一个实施例中,其中,m=4,利用第i级解码模块进行处理包括:第i 级解码模块将输入的mK+1-i个输入图像分成mK-i组,每组图像包括各自的第一 解码输入成分、第二解码输入成分、第三解码输入成分和第四解码输入成分; 对每组图像中的第一解码输入成分、第二解码输入成分、第三解码输入成分和 第四解码输入成分执行解码操作。其中,执行解码操作包括:执行基于所述第 一解码输入成分和所述第二解码输入成分的逆小波变换,并基于逆小波变换的 结果获得第一差别特征和第一叠加特征;执行基于所述第三解码输入成分和所 述第四解码输入成分的逆小波变换,并基于逆小波变换的结果获得第二差别特 征和第二叠加特征;基于所述第二差别特征和所述第二叠加特征生成更新图像, 并基于所述更新图像、所述第一差别特征和所述第一叠加特征生成第一解码输 出成分和第二解码输出成分;基于所述第一解码输出成分和所述第二解码输出 成分生成预测图像,并基于所述预测图像、所述第二差别特征和所述第二叠加 特征生成所述第三解码输出成分和所述第四解码输出成分;将所述第一解码输 出成分、第二解码输出成分、第三解码输出成分和第四解码输出成分拼接为一 个解码输出图像。
[0011] 在一个实施例中,基于所述第二差别特征和所述第二叠加特征生成更新图 像,并基于所述更新图像、所述第一差别特征和所述第一叠加特征生成第一解 码输出成分和第二解码输出成分包括:利用将所述第二差别特征和第二叠加特 征作为输入的第一更新卷积网络生成第一更新特征和第二更新特征,所述第一 更新特征和第二更新特征构成所述更新图像;对所述第一差别特征和所述第一 更新特征执行去叠加操作以获得第一解码输出成分;对所述第一叠加特征和所 述第二更新特征执行去叠加操作以获得第二解码输出成分;基于所述第一解码 输出成分和所述第二解码输出成分生成预测图像,并基于所述预测图像、所述 第二差别特征和所述第二叠加特征生成所述第三解码输出成分和所述第四解码 输出成分包括:利用将所述第一解码输出成分和所述第二解码输出成分作为输 入的第一预测卷积网络生成第一预测特征和第二预测特征,所述第一预测特征 和第二预测特征构成所述预测图像;对所述第二差别特征和所述第一预测特征 执行叠加操作以获得第三解码输出成分;对所述第二叠加特征和所述第二预测 特征执行叠加操作以获得第四解码输出成分。
[0012] 在一个实施例中,执行基于所述第一解码输入成分和所述第二解码输入成 分的逆小波变换,并基于逆小波变换的结果获得第一差别特征和第一叠加特征 包括:利用将所述第二解码输入成分作为输入的第二更新卷积网络生成第三更 新特征;对所述第一解码输入成分和所述第三更新特征执行去叠加操作以获得 第一差别特征;利用将所述第一差别特征作为输入的第二预测卷积网络生成第 三预测特征;对所述第二解码输入成分和所述第三预测特征执行叠加操作以获 得第一叠加特征。
[0013] 在一个实施例中,执行基于所述第三解码输入成分和所述第四解码输入成 分的逆小波变换,并基于逆小波变换的结果获得第二差别特征和第二叠加特征 包括:利用将所述第四解码输入成分作为输入的第三更新卷积网络生成第四更 新特征;对所述第三解码输入成分和所述第四更新特征执行去叠加操作以获得 第二差别特征;利用将所述第二差别特征作为输入的第三预测卷积网络生成第 四预测特征;对所述第四解码输入成分和所述第四预测特征执行叠加操作以获 得第二叠加特征。
[0014] 根据本公开的第二方面,公开了一种图像处理装置,所述装置包括:级联 的K级解码模块,被配置为:接收输入图像;对所述输入图像进行处理以得到 输出图像,其中第i级解码模块接收mK+1-i个输入图像,并且输出mK-i个输出图 像,并且输出图像的分辨率大于输入图像的分辨率,输出图像的通道数小于输 入图像的通道数,K、i、m均为正整数,1≤i≤K。
[0015] 在一个实施例中,所述K级解码模块的每一级包括解码单元和拼接单元。
[0016] 在一个实施例中,所述装置还包括:第一卷积神经网络模块,被配置为接 收原始图像;对所述原始图像进行处理以获得mK个图像作为输入图像的mK个 通道。
[0017] 在一个实施例中,所述装置还包括:第二卷积神经网络模块,被配置为接 收原始图像和噪声图像;基于所述原始图像和所述噪声图像获得mK个图像作 为输入图像的mK个通道。
[0018] 在一个实施例中,其中m=4,第i级解码模块将输入的mK+1-i个输入图像 分成mK-i组,每组图像包括各自的第一解码输入成分、第二解码输入成分、第 三解码输入成分和第四解码输入成分,所述K级解码模块的每一级包括:第一 逆小波变换单元,配置成执行基于第一解码输入成分和第二解码输入成分的逆 小波变换,并基于逆小波变换的结果获得第一差别特征和第一叠加特征;第二 逆小波变换单元,配置成执行基于第三解码输入成分和第四解码输入成分的逆 小波变换,并基于逆小波变换的结果获得第二差别特征和第二叠加特征;解码 更新单元,配置成基于第二差别特征和第二叠加特征生成更新图像,并基于更 新图像、第一差别特征和第一叠加特征生成第一解码输出成分和第二解码输出 成分;解码预测单元,配置成基于第一解码输出成分和第二解码输出成分生成 预测图像,并基于预测图像、第二差别特征和第二叠加特征生成第三解码输出 成分和第四解码输出成分。
[0019] 在一些实施例中,解码更新单元可以进一步包括第一更新卷积网络和第一 去叠加单元。第一更新卷积网络配置成接收第二差别特征和第二叠加特征作为 输入,并生成第一更新特征和第二更新特征。第一更新特征和第二更新特征可 以是相同的,也可以是不同的。第一去叠加单元配置成对第一差别特征和第一 更新特征执行去叠加操作以获得第一解码输出成分,以及对第一叠加特征和第 二更新特征执行去叠加操作以获得第二解码输出成分。
[0020] 在一些实施例中,解码预测单元可以进一步包括第一预测卷积网络和第一 叠加单元。第一预测卷积网络配置成接收第一解码输出成分和第二解码输出成 分作为输入,并生成第一预测特征和第二预测特征。第一预测特征和第二预测 特征可以是相同的,也可以是不同的。第一叠加单元配置成对第二差别特征和 第一预测特征执行叠加操作以获得第三解码输出成分,以及对第二叠加特征和 第二预测特征执行叠加操作以获得第四解码输出成分。
[0021] 在一些实施例中,第一逆小波变换单元可以进一步包括第二更新卷积网 络,配置成接收第二解码输入成分作为输入,并生成第三更新特征;第二去叠 加单元,配置成对第一解码输入成分和第三更新特征执行去叠加操作以获得第 一差别特征;第二预测卷积网络,配置成接收第一差别特征作为输入,并生成 关于第一差别特征的第三预测特征;第二叠加单元,配置成对第二解码输入成 分和第三预测特征执行叠加操作以获得第一叠加特征。
[0022] 在一些实施例中,第二逆小波变换可以进一步包括第三更新卷积网络,配 置成接收第四解码输入成分作为输入,并生成第四更新特征;第三去叠加单元, 配置成对第三解码输入成分和第四更新特征执行去叠加操作以获得第二差别特 征;第三预测卷积网络,配置成接收第二差别特征作为输入,并生成关于第二 差别特征的第四预测特征;第三叠加单元,配置成对第四解码输入成分和第四 预测特征执行叠加操作以获得第二叠加特征。
[0023] 根据本公开的第三方面,公开了一种图像处理系统,所述系统包括:图像 编码装置、以及如上所述的图像处理装置,所述图像编码装置包括:K级编码 模块,其中所述每级编码模块包括拆分单元和编码单元,所述拆分单元被配置 为对输入的图像进行拆分,所述编码单元的输入端与所述拆分单元的输出端对 应地连接,并且被配置为对接收的图像进行编码并输出编码图像,其中K为正 整数。
[0024] 根据本公开的第四方面,公开了一种用于该图像处理系统的训练方法,所 述训练方法包括:将训练图像输入所述图像处理系统,调整所述K级编码单元 和所述K级解码单元中各卷积层中各卷积网络的权值,运行有限次迭代以使目 标函数最优化。
[0025] 在一个实施例中,所述目标函数是以下各项函数中的一项或多项的和。
[0026] 编码损失函数
[0027]
[0028] 其中REFk是第k级编码单元输出的第一图像分量,LRk是第k级编码单 元的训练图像,其中LRk是所述图像处理系统的训练图像的下采样图像,并具 有与REFk相同的尺寸;C0是所述训练图像的数量;Cki是第k级编码单元输出 的图像分量,其中1≤i≤4k-1,1≤k≤K。
[0029] 解码损失函数
[0030] L-DECk=IQ(REFk,LRk)
[0031] 其中IQ函数评价REFk与LRk之间的差别。
[0032] 格损失函数
[0033] L-STYLEk(X,Y)=||GX-GY||2,其中对于具有m个通道的图像成分F,
[0034]
[0035] 其中GX、GY分别是X图像、Y图像的格拉姆矩阵的特征量,X是第k级 编码单元的输出图像,Y是第i+1-k级编码单元的输出图像,其中1≤k≤n。
[0036] 权重正则化系数
[0037]
[0038] 其中W是所述图像处理系统中所有卷积网络的权重参数,b是所述图像处 理系统中所有卷积网络的偏置。
[0039] 根据本公开的第五方面,公开了一种计算机可读介质,其上存储有指令, 当所述指令被运行时,执行前述方法的操作。附图说明
[0040] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简 单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而 非对本发明的限制。
[0041] 图1是示出了一种卷积神经网络的示意图;
[0042] 图2示出了一特定输入的示例,其中假定该特定输入激活第一层中的第二 个ReLU和第二层中的第一个ReLU;
[0043] 图3是利用卷积神经网络实现小波变换的图像处理系统的结构示意图;
[0044] 图4是示出了一种拆分单元的示意图;
[0045] 图5是示出了一种拼接单元的示意图;
[0046] 图6图示了根据本公开的实施例的一种编码单元(LiftEnc)600的示意图;
[0047] 图7示出了根据本公开的实施例的一种解码单元(LiftDec)700的示意图;
[0048] 图8示出了根据本公开的实施例的由多个编码模块级联而成的编码装置;
[0049] 图9示出了根据本公开的实施例的一种解码装置的示意图;
[0050] 图10示意性地示出了根据本公开的实施例对图像进行编码和解码的过程;
[0051] 图11示出了根据本公开的实施例的一种图像编码方法的流程图
[0052] 图12示出了根据本公开的实施例的第i级变换编码单元的图像编码过程的 流程图;
[0053] 图13示出了当m=4时,根据本公开的实施例的第i级编码单元中的图像 变换过程的流程图;
[0054] 图14示出了根据本公开的实施例的一种图像解码方法的流程图;
[0055] 图15示出了根据本公开的实施例的第i级解码单元的图像解码方法的流程 图;
[0056] 图16示出了当m=4时,根据本公开的实施例的图像逆变换方法的流程图;
[0057] 图17a-17c示出了根据本公开的实施例的解码装置的三种配置方式;以及
[0058] 图18a、18b和18c示出了根据本公开的实施例的图像处理系统的示意图。

具体实施方式

[0059] 将参照附图详细描述根据本发明的各个实施例。这里,需要注意的是,在 附图中,将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分, 并且将省略关于它们的重复描述。
[0060] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所 描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的 本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所 有其他实施例,都属于本发明保护的范围。
[0061] 除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域 内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以 及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组 成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或 者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件 或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接, 而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右” 等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置 关系也可能相应地改变。
[0062] 为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和 已知部件的详细说明。
[0063] 图1是一种卷积神经网络的示意图。例如,该卷积神经网络可以用于图像处 理,其使用图像作为输入和输出,并通过卷积核替代标量的权重。图1中仅示出 了具有3层结构的卷积神经网络,本公开的实施例对此不作限制。如图1所示, 卷积神经网络包括输入层101、隐藏层102和输出层103。输入层101具有4个输入, 隐藏层102具有3个输出,输出层103具有2个输出,最终该卷积神经网络输出2 幅图像。
[0064] 例如,输入层101的4个输入可以为4幅图像,或者1幅图像的四种特征。隐 藏层102的3个输出可以为经过输入层101输入的图像的特征图像。
[0065] 例如,如图1所示,卷积层具有权重 和偏置 权重 表示卷积核, 偏置是叠加到卷积层的输出的标量,其中,k是表示输入层101号的标签,i 和j分别是输入层101的单元和隐藏层102的单元的标签。例如,第一卷积层201 包括第一组卷积核(图1中的 )和第一组偏置(图1中的 )。第二卷积层202 包括第二组卷积核(图1中的 )和第二组偏置(图1中的 )。通常,每个卷 积层包括数十个或数百个卷积核,若卷积神经网络为深度卷积神经网络,则其 可以包括至少五层卷积层。
[0066] 例如,如图1所示,该卷积神经网络还包括第一激活层203和第二激活层204。 第一激活层203位于第一卷积层201之后,第二激活层204位于第二卷积层202之 后。激活层包括激活函数,激活函数用于给卷积神经网络引入非线性因素,以 使卷积神经网络可以更好地解决较为复杂的问题。激活函数可以包括线性修正 单元(ReLU)函数、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。 ReLU函数为非饱和非线性函数,Sigmoid函数和tanh函数为饱和非线性函数。例 如,激活层可以单独作为卷积神经网络的一层,或者激活层也可以被包含在卷 积层中。
[0067] 例如,在第一卷积层201中,首先,对每个输入应用第一组卷积核中的若干 卷积核和第一组偏置中的若干偏置 以得到第一卷积层201的输出;然后, 第一卷积层201的输出可以通过第一激活层203进行处理,以得到第一激活层203 的输出。在第二卷积层202中,首先,对输入的第一激活层203的输出应用第二 组卷积核中的若干卷积核 和第一组偏置中的若干偏置 以得到第二卷积 层202的输出;然后,第二卷积层202的输出可以通过第二激活层204进行处理, 以得到第二激活层204的输出。例如,第一卷积层201的输出可以为对其输入应 用卷积核 后再与偏置 相加的结果,第二卷积层202的输出可以为对第一激 活层203的输出应用卷积核 后再与偏置 相加的结果。
[0068] 在利用卷积神经网络进行图像处理前,需要对卷积神经网络进行训练。经 过训练之后,卷积神经网络的卷积核和偏置在图像处理期间保持不变。在训练 过程中,各卷积核和偏置通过多组输入/输出示例图像以及优化算法进行调整, 以获取优化后的卷积神经网络模型。
[0069] 图2示出了一特定输入的示例,其中假定该特定输入激活第一层中的第二 个ReLU和第二层中的第一个ReLU。对于这个特定的输入,对其它ReLU的输 入是负的,它们不影响输出,因而可以在图中省略。如图2所示,由此产生的 系统是线性系统,其具有作用于每个输入的4个不同卷积核和偏置。对于不同 的输入也是如此,但激活的ReLU不相同,从而改变单个卷积核的结果。对于 任意输入,系统的净效果总是相当于一小组卷积核加偏置,但卷积核会随着输 入而改变,产生自适应卷积核效果。
[0070] 图3是利用卷积神经网络实现小波变换的图像处理系统的结构示意图。小 波变换是一种用于图像编解码处理的多分辨率图像变换,其应用包括JPEG 2000标准中的变换编码。在图像编码(压缩)处理中,小波变换用于以更小的 低分辨率图像(例如,原始图像的一部分图像)代表原始的高分辨率图像。在 图像解码(解压)处理中,逆小波变换用于利用低分辨率图像以及恢复原始图 像所需的差异特征,恢复得到原始图像。提升方案(Lifting Scheme)是小波变 换的一种有效实施方式,并且是构造小波时的一种灵活的工具。图3示意性地 示出了用于1D数据的标准结构。图3的左侧为编码器31。编码器31中的拆分 单元302将输入的原始图像301拆分为Xodd和Xeven两个子图像。编码器31进 一步使用预测滤波器p和更新滤波器u以将Xodd和Xeven变换为低分辨率图像A 和细节图像D。图3的右侧为解码器32。解码器32的参数是与来自编码器31 的滤波器p和u完全相同,而仅仅是滤波器p和u相反地布置。由于编码器31 和解码器32的严格对应,该配置确保了经由解码器32的拼接单元303拼接得 到的解码图像304与原始图像301完全相同。此外,图3所示的结构也不是限 制性的,可以替代地在解码器中先按照更新滤波器u和预测滤波器p的顺序进 行配置。在本申请中,更新滤波器u和预测滤波器p可以使用如图1所示的卷 积神经网络实现。
[0071] 图4是示出了一种拆分单元(T-muxout)的示意图,该拆分单元412可以 用作如图3所示的拆分单元302。拆分单元412可以在不损失图像像素信息的 情况下将图像拆分为多个分辨率更低的小图像。
[0072] 图4中示例性的示出了一种能够将一张图像拆分为4个分辨率更低的小图 像的拆分单元412。如图4所示,拆分单元T-MUXOUT 2×2将原始图像以2 ×2的基本像素矩阵为单位进行划分,其中每个基本像素矩阵包括4个原始像 素。拆分单元412进一步提取所有划分好的2×2的基本像素矩阵中的特定位置 的像素,并根据每个基本像素矩阵中特定位置的像素确定拆分后的图像。例如, 如图4中示出的,拆分单元412的输入图像包括16个原始像素,拆分单元412 将输入图像划分为基本像素矩阵A11、A12、A21、A22,其中基本像素矩阵A11中包括像素a11、b11、c11、d11,基本像素矩阵A12中包括像素a12、b12、c12、d12, 基本像素矩阵A21中包括像素a21、b21、c21、d21,基本像素矩阵A22中包括像素 a22、b22、c22、d22。拆分单元412可以通过提取所有基本像素矩阵中左上(即 [1,1]位置处)的原始像素,并将提取的像素按照拆分前像素在图像中排列的顺 序进行排列,以生成第一张拆分后的低分辨率图像。类似地,拆分单元可以生 成其余3张拆分后的低分辨率小图像。
[0073] 可以理解,如图4所示的拆分单元412可以将任意大小的图像拆分为4个 分辨率更低的小图像。在一些实施例中,拆分后的多个低分辨率图像尺寸相等。 例如,如图4所示的拆分单元412可以将原始尺寸为128×128的图像拆分成4 个尺寸均为64×64的低分辨率图像。
[0074] 也可以理解,如图4所示的拆分单元只是根据本申请的原理的拆分单元的 一个示例。事实上,可以通过调整划分的基本像素矩阵的大小和形状将图像拆 分为多个分辨率更低的小图像。例如,当基本像素矩阵的大小为3×3时,拆分 单元可以将输入图像拆分为3×3=9个分辨率更低的小图像。又例如,当基本像 素矩阵的大小是3×4时,拆分单元可以将输入图像拆分为3×4=12个分辨率更 低的小图像。也就是说,当基本像素矩阵的大小是a×b时,拆分单元可以将输 入图像拆分为a×b=c个分辨率更低的小图像。本领域技术人员可以了解,根据 本申请的原理,拆分单元412可以将一张图像拆分为任意多个分辨率更低的小 图像。
[0075] 也可以理解,图4示出的是利用拆分单元对二维的图像数据进行拆分的示 意图。根据本申请的原理,拆分单元412也可以对其他任意维度(如1维、3 维等)的图像数据进行拆分。
[0076] 为了描述方便,在下文中将以图4示出的拆分单元为例进行描述,并将拆 分后的四个低分辨率的图像分别称为左上(UL)、右上(UR)、左下(BL)和 右下(BR)。也就是说,对于第i级编码单元来说,输入图像包括4i-1个图像分 量,经过第i级编码单元中的拆分单元412-i,第i级输入被拆分为4i个图像分 量。
[0077] 图5是示出了一种拼接单元(Muxout)的示意图,该拼接单元可以用作如 图3所示的拼接单元303。该拼接单元可以将多个低分辨率的小图像拼接为分 辨率更高的复合图像。拼接单元Muxout 2x2配置成执行如图4所示的拆分单元 T-muxout 2x2的逆变换,从而将拆分后的低分辨率的小图像还原为高分辨率的 原始图像。
[0078] 以下,将参照附图进一步详细描述根据本发明实施例的图像编码装置、图 像解码装置以及包括该图像编解码装置的图像处理系统。
[0079] 图6图示了根据本公开的实施例的一种编码单元(LiftEnc)600的示意图。 如前所述,拆分单元(T-muxout)可以将原始图像拆分为4个低分辨率图像UL、 UR、BL和BR。编码单元600可以对上述四个低分辨率图像UL、UR、BL和 BR进行图像变换,从而使得图像数据更适于被压缩。
[0080] 编码单元600可以包括编码预测单元610、编码更新单元620、第一小波 变换单元630和第二小波变换单元640。
[0081] 编码预测单元610配置成基于UL图像和BR图像生成关于UR图像和BL 图像的预测图像并获取UR图像和BL图像和预测图像之间的差别图像。
[0082] 编码更新单元620配置成基于UR图像和BL图像和预测图像之间的差别 图像生成关于UL图像和BR图像的更新图像。
[0083] 第一小波变换单元630配置成执行基于关于UL图像和BR图像的更新图 像的小波变换,并基于小波变换的结果生成第一编码输出成分和第二编码输出 成分。
[0084] 第二小波变换单元640配置成执行基于UR图像和BL图像和预测图像之 间的差别图像的小波变换,并基于小波变换的结果生成第三编码输出成分和第 四编码输出成分。
[0085] 在一些实施例中,编码预测单元610可以进一步包括第一预测卷积网络P1和第一去叠加单元612。第一预测卷积网络P1配置成接收UL图像和BR图像 作为输入,并生成第一预测特征和第二预测特征。第一预测特征和第二预测特 征可以是相同的,也可以是不同的。第一去叠加单元612配置成对UR图像和 第一预测特征执行去叠加操作以获得第一差别特征,以及对BL图像和第二预 测特征执行去叠加操作以获得第二差别特征。编码预测单元610将所述第一差 别特征和第二差别特征作为所述差别图像输出。
[0086] 在一些实施例中,编码更新单元620可以进一步包括第一更新卷积网络 U1和第一叠加单元622。第一更新卷积网络U1配置成接收第一差别特征和第二 差别特征作为输入,并生成第一更新特征和第二更新特征。第一更新特征和第 二更新特征可以是相同的,也可以是不同的。第一叠加单元622配置成对UL 图像与第一更新特征执行叠加操作以获得第一叠加特征,以及对BR图像与第 二更新特征执行叠加操作以获得第二叠加特征。编码更新单元620将所述第一 叠加特征和第二叠加特征作为所述更新图像输出。
[0087] 在一些实施例中,第一小波变换单元630可以进一步包括第二预测卷积网 络P21、第二去叠加单元632、第二更新卷积网络U21、第二叠加单元634。
[0088] 第二预测卷积网络P21配置成接收第一叠加特征作为输入,并生成第三预 测特征。第二去叠加单元632,配置成对第二叠加特征与第三预测特征执行去 叠加操作以获得第二编码输出成分。
[0089] 第二更新卷积网络U21配置成接收第二编码输出成分作为输入,并生成第 三更新特征。第二叠加单元634配置成对第一叠加特征与第三更新特征执行叠 加操作以获得第一编码输出成分。
[0090] 在一些实施例中,第二小波变换单元640可以进一步包括第三预测卷积网 络P22、第三去叠加单元642、第三更新卷积网络U22、第三叠加单元644。
[0091] 第三预测卷积网络P22配置成接收第一差别特征作为输入,并生成第四预 测特征。第三去叠加单元642配置成对第二差别特征与第四预测特征执行去叠 加操作以获得第四编码输出成分。
[0092] 第三更新卷积网络U22配置成接收第四编码输出成分作为输入,并生成第 四更新特征。第三叠加单元644配置成对第一差别特征与第四更新特征执行叠 加操作以获得第三编码输出成分。
[0093] 图6中示出的结构不是限制性的。例如,可以在编码单元600中对换编码 预测单元610和编码更新单元620的结构。
[0094] 利用图6示出的图像处理装置可以对拆分后的低分辨率图像进行图像变 换,使图像数据转换为更适于被压缩的形式。这里的图像变换中不损失图像信 息,经过相应的逆变换可以无损的还原图像信息。
[0095] 图7示出了根据本申请的实施例的一种解码单元700的示意图。当m=4 时,第i级解码输入图像包括第一解码输入成分、第二解码输入成分、第三解 码输入成分和第四解码输入成分,其中每个解码输入成分包括4i-1个图像成分。
[0096] 解码单元700可以包括第一逆小波变换单元730、第二逆小波变换单元 740、解码更新单元720、解码预测单元710。
[0097] 第一逆小波变换单元730配置成执行基于第一解码输入成分和第二解码输 入成分的逆小波变换,并基于逆小波变换的结果获得第一差别特征和第一叠加 特征。
[0098] 第二逆小波变换单元740配置成执行基于第三解码输入成分和第四解码输 入成分的逆小波变换,并基于逆小波变换的结果获得第二差别特征和第二叠加 特征。
[0099] 解码更新单元720配置成基于第二差别特征和第二叠加特征生成更新图 像,并基于更新图像、第一差别特征和第一叠加特征生成第一解码输出成分和 第二解码输出成分。
[0100] 解码预测单元710配置成基于第一解码输出成分和第二解码输出成分生成 预测图像,并基于预测图像、第二差别特征和第二叠加特征生成第三解码输出 成分和第四解码输出成分。
[0101] 在一些实施例中,解码更新单元720进一步包括第一更新卷积网络U’1和 第一去叠加单元722。第一更新卷积网络U’1配置成接收第二差别特征和第二叠 加特征作为输入,并生成第一更新特征和第二更新特征。第一更新特征和第二 更新特征可以是相同的,也可以是不同的。第一去叠加单元722配置成对第一 差别特征和第一更新特征执行去叠加操作以获得第一解码输出成分,以及对第 一叠加特征和第二更新特征执行去叠加操作以获得第二解码输出成分。所述第 一更新特征和第二更新特征构成所述更新图像。
[0102] 在一些实施例中,解码预测单元710进一步包括第一预测卷积网络P’1和 第一叠加单元712。第一预测卷积网络P’1配置成接收第一解码输出成分和第二 解码输出成分作为输入,并生成第一预测特征和第二预测特征。第一预测特征 和第二预测特征可以是相同的,也可以是不同的。第一叠加单元712配置成对 第二差别特征和第一预测特征执行叠加操作以获得第三解码输出成分,以及对 第第二叠加特征和第二预测特征执行叠加操作以获得第四解码输出成分。所述 第一预测特征和第二预测特征构成所述预测图像。
[0103] 在一些实施例中,第一逆小波变换单元730可以进一步包括第二更新卷积 网络U’21、第二去叠加单元734、第二预测卷积网络P’21、第二叠加单元732。
[0104] 第二更新卷积网络U’21配置成接收第二解码输入成分作为输入,并生成第 三更新特征;第二去叠加单元734配置成对第一解码输入成分和第三更新特征 执行去叠加操作以获得第一差别特征。
[0105] 第二预测卷积网络P’21配置成接收第一差别特征作为输入,并生成第三预 测特征;第二叠加单元732,配置成对第二解码输入成分和第三预测特征执行 叠加操作以获得第一叠加特征。
[0106] 在一些实施例中,第二逆小波变换740可以进一步包括第三更新卷积网络 U’22、第三去叠加单元742、第三预测卷积网络P’22、第三叠加单元744。
[0107] 第三更新卷积网络U’22配置成接收第四解码输入成分作为输入,并生成第 四更新特征;第三去叠加单元742,配置成对第三解码输入成分和第四更新特 征执行去叠加操作以获得第二差别特征。
[0108] 第三预测卷积网络P’22配置成接收第二差别特征作为输入,并生成第四预 测特征;第三叠加单元744配置成对第四解码输入成分和第四预测特征执行叠 加操作以获得第二叠加特征。
[0109] 由于解码单元700用于恢复经过编码单元600的处理的图像,因此,在一 些实施例中,解码单元700中的卷积网络与编码单元600中的卷积网络完全对 应。也就是说,解码单元700中的第一预测卷积网络P’1、第一更新卷积网络U’1、 第二更新卷积网络U’21、第二预测卷积网络P’21、第三更新卷积网络U’22、第 三预测卷积网络P’22与编码单元600中的第一预测卷积网络P1、第一更新卷积 网络U1、第二更新卷积网络U21、第二预测卷积网络P21、第三更新卷积网络 U22、第三预测卷积网络P22具有相同的结构和配置参数。
[0110] 图7中示出的结构是非限制性的。例如,可以在解码单元700中对换解码 预测单元710和解码更新单元720的结构。
[0111] 图8示出了根据本公开的实施例的由多个编码单元810级联而成的编码装 置800。编码单元810可以包括用于接收输入图像的输入端,输入图像可以是 仅包括单通道(如R、G、B或灰度)的图像,也可以是包括任意多个通道(如 R、G、B和灰度)的图像。
[0112] 编码装置800还可以包括级联的K级编码单元810-1、810-2、……810-K, n为大于等于1的整数,对于1≤i<K,第i级编码单元的输入为第i级编码输 入图像并包括mi-1个图像成分,第i级编码单元的输出为第i级编码输出图像并 包括mi个图像成分,以及第i级编码单元的输出是第i+1级编码单元的输入, 其中m是大于1的整数。
[0113] 在一些实施例中,级联的K级编码模块中的每一级编码模块可以包括如图 4所示的拆分单元(T-muxout)和如图6所示的编码单元(LiftEnc)。也就是说, 第i级编码模块810-i中包括拆分单元812-i、编码单元814-i。拆分单元812-i 用于将第i级编码单元的接收的mi-1个图像成分中的每一个执行拆分操作,将 第i级编码输入图像中的每个图像成分i
拆分为m个图像成分,即将第i级编码 输入图像拆分为m 个图像成分。编码单元814-i用于对由第i级编码单元的输 入拆分得到的mi个图像成分进行变换,使得图像数据变得更易于被压缩。
[0114] 编码单元810还可以包括用于输出输出图像的输出端,其中输出图像包括 一个对K应于输入图像的参考图像和m-1个对应于输入图像的图像成分。
[0115] 上述编码单元能够对输入图像进行压缩前的变换编码,使得变换后的图像 具有更少的内容冗余,更适于被压缩。
[0116] 图9示出了根据本公开的实施例的一种解码装置的示意图。解码装置900 可以包括解码单元910。
[0117] 图9示出的解码单元910对应于图8中示出的编码单元810,能够将经过 编码单元810变换的图像数据无损地还原为原始数据。
[0118] 解码单元910可以包括用于接收编码图像的输入端,编码图像包括一个参 考图像REF和mK-1个图像成分,其中m是大于1的整数,K是大于等于1的 整数。其中参考图像和mK-1个图像成分中的每个图像成分可以包括多个通道 (如RGB三个通道)。
[0119] 解码单元910还可以包括级联的K级解码单元910-1、910-2……910-K, 对于1≤i<n,第i级解码单元的输入为第i级解码输入图像并包括mi个图像成 分,第i级解码单元的输出为第i级解码输出图像并包括mi-1个图像成分,以及 第i级解码单元的输出是第i+1级解码单元的输入。
[0120] 在一些实施例中,级联的K级解码单元中的每一个可以包括解码单元 (LiftDec)922和拼接单元(Muxout)924。也就是说,第i级解码模块910-i 中包括解码单元922-i和拼接单元924-i。解码单元922-i用于对第i级解码模块 的输入的mi个图像成分执行逆变换,从而无损地还原编码图像。拼接单元924-i 用于对mi个经过逆变换的解码输出成分执行拼接操作,从而将mi个图像成分 拼接为mi-1个图像成分。
[0121] 解码单元910还可以包括输出端,配置成输出对应于编码图像的还原图像。
[0122] 图10示意性地示出了根据本公开的实施例对图像进行编码和解码的过程。 在编码单元的输入端接收输入图像。如图10所示,输入图像可以包括任意多个 通道,例如,RGB三通道。经过第1级编码单元的处理时,输入图像经由拆分 单元被拆分为四个分辨率更低的子图像。如上文所述,输入图像可以被拆分为 任意多个子图像。通过编码单元对拆分后的子图像进行图像变换,使得图像数 据变得更适于被压缩。可以看出,对于包括多个通道的输入图像,如图10所示 的第1级编码单元的每个箭头可以处理多个通道的数据。例如,对于包括RGB 3个通道输入图像,第1级变换编码单元中的每个箭头可以处理3个通道的数 据。经过第1级编码单元后,输入图像被变换为四个图像成分,其中第一图像 成分是输入图像的参考图像REF,而第二、三、四图像成分包含输入图像的其 他细节信息。
[0123] 根据图像处理的实际需要,可以使用多级编码单元对图像进行处理。例如, 如图10所示的输入图像经过K级变换编码单元后,可以得到4K个图像成分, 其中第一图像成分是参考图像,其余是包含了细节信息的图像成分。
[0124] 此外,由于每一级编码单元都将输入图像拆分为更多的低分辨率的子图 像,因此,每一级编码单元都可以比上一级变换编码单元具有更多的通道。例 如,对于如图10中示出的输入图像,第1级编码单元中的每个箭头可以处理3 个通道的数据,第2级变换编码单元中的每个箭头可以处理12个通道的数据, 依次类推,第K级变换编码单元中的每个箭头可以处理3*4K-1个通道的数据。
[0125] 如上所述的图像编码过程是可逆的,对应于K级编码单元,使用相同配置 的K级解码单元可以在不丢失图像信息的情况下还原输入图像。每一级解码单 元用于对输入的多个图像成分进行逆变换,并对变换后的图像成分执行拼接操 作,将图像成分还原为分辨率更高的图像成分。经过与编码过程相同级数的解 码过程的处理,可以将多个图像成分还原为原始的输入图像。在此不再赘述。
[0126] 图11示出了根据本公开的实施例的一种图像编码方法的流程图。可以利 用如图8所示的图像编码装置执行图像编码方法1100。在步骤S1102中,接收 输入图像。然后,在步骤S1104中,利用级联的K级编码单元对输入图像进行 图像编码以产生输出图像,K为大于等于1的整数,对于1≤i<K,第i级编码 单元的输入为第i级编码输入图像并包括mi-1个图像成分,第i级编码单元的输 出为第i级编码输出图像并包括mi个图像成分,以及第i级编码单元的输出是 第i+1级编码单元的输入,其中m是大于1的整数。
[0127] 具体地,图12示出了根据本公开的实施例的第i级变换编码单元的图像编 码过程的流程图。可以利用如图8中示出的编码单元810-i执行图像编码过程 1200。在步骤S1202中,接收第i级编码输入图像。在步骤S1204中,对于第 i级编码输入图像中的每个图像成分,将该图像成分拆分为m个编码输入成分。 在步骤S1206中,对于第i级编码输入图像中的每个图像成分,对从该图像成 分拆分得到的m个编码输入成分进行图像变换,生成对应于该图像成分的m个 编码输出成分。在步骤S1208中,输出对应于第i级编码输入的mi-1个图像成 分的mi个编码输出成分作为第i级编码输出图像。
[0128] 图13示出了当m=4时,根据本公开的实施例的第i级编码单元中的图像 变换过程的流程图。可以使用如图6或图8中示出的编码单元614执行图像变 换过程1300。
[0129] 当m=4时,第i级编码输入图像中的每个图像成分被拆分为第一编码输入 成分、第二编码输入成分、第三编码输入成分和第四编码输入成分。因此在步 骤S1302中,编码单元614接收第一编码输入成分、第二编码输入成分、第三 编码输入成分和第四编码输入成分。在步骤S1304中,基于第一编码输入成分 和第二编码输入成分生成预测图像并获取第三编码输入成分和第四编码输入成 分和预测图像的差别图像。
[0130] 其中,步骤S1304可以进一步包括:利用将第一编码输入成分和第二编码 输入成分作为输入的第一预测卷积网络P1生成第一预测特征和第二预测特征。 第一预测特征和第二预测特征可以是相同的,也可以是不同的。然后,对第三 编码输入成分和第一预测特征执行去叠加操作以获得第一差别特征。之后,对 第四编码输入成分和第二预测特征执行去叠加操作以获得第二差别特征。
[0131] 在步骤S1306中,基于差别图像、第一编码输入成分和第二编码输入成分 生成第一编码输入成分和第二编码输入成分的更新图像。
[0132] 其中,步骤S1304可以进一步包括:利用将第一差别特征和第二差别特征 作为输入的第一更新卷积网络U1生成第一更新特征和第二更新特征。第一更新 特征和第二更新特征可以是相同的,也可以是不同的。然后,对第一编码输入 成分与第一更新特征执行叠加操作以获得第一叠加特征。之后,对第二编码输 入成分与第二更新特征执行叠加操作以获得第二叠加特征。
[0133] 在步骤S1308中,执行基于更新图像的小波变换,并基于小波变换的结果 生成第一编码输出成分和第二编码输出成分。
[0134] 在步骤S1310中,执行基于差别图像的小波变换,并基于小波变换的结果 生成第三编码输出成分和第四编码输出成分。
[0135] 图14示出了根据本公开的实施例的一种图像解码方法的流程图1400。可 以利用如图9所示的图像解码装置执行图像解码方法。在步骤S1402中,接收 输入的待解码图像,该输入图像包括一个参考图像和mK-1个图像成分。在步骤 S1404中,利用级联的K级解码单元对输入图像进行图像解码以产生还原图像, 对于1≤i<K,第i级解码单元的输入为第ii级解码输入图像并包括m 个图像成 分,第i级解码单元的输出为第i级解码输出图像并包括mi-1个图像成分,以及 第i级解码单元的输出是第i+1级解码单元的输入。在步骤S1406中,输出对 应于待解码图像的还原图像。
[0136] 具体地,图15示出了根据本公开的实施例的第i级解码单元的图像解码方 法的流程图。可以利用如图9中示出的解码单元910执行图像解码方法。在步 骤S1502中,接收第i级解码输入图像,其中第i级输入图像包括mi个输入子 图像。在步骤S1504中,对mi个图像成分进行图像逆变换,生成对应于第i级 解码输入图像的mi个解码输出成分。在步骤S1506中,将mi个解码输出成分 拼接为mi-1个解码输出子图像。在步骤S1508中,将对应于第i级解码输入图 像的mi个图像成分的mi-1个解码输出子图像输出作为第i级解码输出图像。
[0137] 图16示出了当m=4时,根据本公开的实施例的图像逆变换方法的流程图。 可以利用如图9中示出的解码单元922执行图像逆变换方法。在步骤S1602中, 解码单元922接收第一解码输入成分、第二解码输入成分、第三解码输入成分 以及第四解码输入成分。在步骤S1604中,执行基于第一解码输入成分和第二 解码输入成分的逆小波变换,并基于逆小波变换的结果获得第一差别特征和第 一叠加特征。在步骤S1606中,执行基于第三解码输入成分和第四解码输入成 分的逆小波变换,并基于逆小波变换的结果获得第二差别特征和第二叠加特征。
[0138] 在步骤S1608中,基于第二差别特征和第二叠加特征生成更新图像,并基 于更新图像、第一差别特征和第一叠加特征生成第一解码输出成分和第二解码 输出成分。
[0139] 步骤S1608可以进一步包括:利用将第二差别特征和第二叠加作为输入的 第一更新卷积网络U’1生成第一更新特征和第二更新特征。第一更新特征和第 二更新特征可以是相同的,也可以是不同的。然后,对第一差别特征和第一更 新特征执行去叠加操作以获得第一解码输出成分。之后,对第一叠加特征和第 二更新特征执行去叠加操作以获得第二解码输出成分。
[0140] 在步骤S1610中,基于第一解码输出成分和第二解码输出成分生成预测图 像,并基于预测图像、第二差别特征和第二叠加特征生成第三解码输出成分和 第四解码输出成分。
[0141] 步骤S1610可以进一步包括:利用将第一解码输出成分和第二解码输出成 分作为输入的第一预测卷积网络P’1生成第一预测特征和第二预测特征。第一 预测特征和第二预测特征可以是相同的,也可以是不同的。然后,对第二差别 特征和第一预测特征执行叠加操作以获得第三解码输出成分。之后,对第二叠 加特征和第二预测特征执行叠加操作以获得第四解码输出成分。
[0142] 在一个实施例中,基于第一解码输入成分和第二解码输入成分的逆小波变 换可以利用如图9中示出的逆小波变换单元922执行逆小波变换,步骤如下: 利用将第二解码输入成分作为输入的第二更新卷积网络U’21生成第三更新特 征;对第一解码输入成分和第三更新特征执行去叠加操作以获得第一差别特征; 利用将第一差别特征作为输入的第二预测卷积网络P’21生成第三预测特征;对 第二解码输入成分和第三预测特征执行叠加操作以获得第一叠加特征。
[0143] 在一个实施例中,基于第三解码输入成分和第四解码输入成分的逆小波变 换可以利用如图9中示出的逆小波变换单元922执行逆小波变换,步骤如下: 利用将第四解码输入成分作为输入的第三更新卷积网络U’22生成第四更新特 征;对第三解码输入成分和第四更新特征执行去叠加操作以获得第二差别特征; 利用将第二差别特征作为输入的第三预测卷积网络P’22生成第四预测特征;对 第四解码输入成分和第四预测特征执行叠加操作以获得第二叠加特征。
[0144] 利用本申请的实施例提供的图像解码方法,可以在不丢失信息的情况下将 输入的待解码图像还原为原始图像。
[0145] 图17a-17c示出了根据本公开的实施例的解码装置的三种配置方式。图17a 示出了在如图9所示的解码装置的输入端直接输入低分辨率图像LR的配置方 式。图17b示出了在如图9所示的解码装置的输入端前连接一卷积神经网络 CNN的配置方式,并且在该CNN的输入端输入低分辨率图像。图17c示出了 在如图9所示的解码装置的输入端前连接一卷积神经网络CNN的配置方式, 并且在该CNN的输入端输入低分辨率图像和噪声图像。
[0146] 图17a是假设编码装置已成功地将大图像变换成多个相等的小图像。图17b 和图17c均是在编码装置未能理想地实现上述变换的情况下试图学习并校正差 异,图17c相对于图17b的不同之处在于其引入了噪声图像,从而刻意地使产 生的多个小图像不相等,这样便在输出时生成了人为的细节图像,输出的图像 内容更丰富。图17b和图17c中的卷积神经网络CNN可以相同,也可以不同。
[0147] 具体地,如图17a所示,将编码装置(例如,图8所示的编码装置)输出 的图像直接输入到如图9所示的K级解码装置。
[0148] 如图17b所示,接收原始图像并且将该原始图像输入到卷积神经网络模块 CNN以获得mK个图像作为输入图像的mK个通道,然后再输入到后面级联的K 级解码装置进行处理。
[0149] 如图17c所示,接收原始图像和噪声图像,并且将该原始图像和噪声图像 输入到K K卷积神经网络模块CNN以获得m个图像作为输入图像的m个通道, 然后再输入到后面级联的K级解码装置进行处理。
[0150] 图18a、18b和18c示出了根据本公开的实施例的图像处理系统的示意图。 如图18a、18b和18c所示,图像处理系统的每个的前半部分可以是如图4所示 的图像编码装置,用于对图像进行编码。图像处理系统每个的后半部分可以分 别是如图17a所示的图像解码装置、图17b所示的图像解码装置和图17c所示 的图像解码装置,这些图像解码装置均用于还原编码图像。利用如图18a、18b 和18c所示的图像处理系统可以实现对图像的解码及编码过程,图像编码装置 和解码装置的具体的结构已在上文中详细阐述,在此不再赘述。
[0151] 利用深度学习方法可以实现对如图18a、18b和18c所示的图像处理系统中 各卷积网络的参数的配置。
[0152] 根据本发明的实施例的训练方法,将训练图像输入图像处理系统,调整K 级编码单元和K级解码单元中各卷积层中各卷积网络的权值,运行有限次迭代 以使目标函数最优化。
[0153] 对于如图18a、18b和18c所示出的图像处理系统,针对每一级编码单元和 解码单元输入训练图像。例如,在图像处理系统的输入端输入原始的高分辨率 的图像HR。
[0154] 在一些实施例中,目标函数可以包括图像处理系统中的编码损失、解码损 失、风格损失、以及权重正则化系数中的一项或任意几项的和。下文中将介绍 上述损失函数的计算方法。
[0155] 在HR图像经过第1级编码单元的处理后,计算第1级编码单元输出的参 考图像REF1和第1级编码单元的训练图像LR1之间的编码损失。上述编码损失 可以通过编码损失函数进行计算:
[0156]
[0157] 其中REFk是第k级编码单元输出的第一图像分量,LRk是第k级编码单 元的训练图像,其中LRk是所述图像处理系统的训练图像的下采样图像,并具 有与REFk相同的尺寸;C0是所述训练图像的数量;Cki是第k级编码单元输出 的图像分量,其中1≤i≤4k-1,1≤k≤K。
[0158] 相应地,在解码过程中可以计算第k级解码单元输出的参考图像REFk和 第k级解码单元的训练图像之间的解码损失。上述解码损失可以通过解码损失 函数进行计算:
[0159] L-DECk=IQ(REFk,LRk)
[0160] 其中IQ函数评价REFk与LRk之间的差别。在一些实施例中,IQ函数可 以是MSE函数:
[0161] MSE(X,Y)=||X-Y||2其中X、Y分别代表REFk与LRk的图像数据。
[0162] 在一些实施例中,IQ函数可以是SSIM函数:
[0163] 其中X、Y分别代表REFk与LRk的 图像数据。μX和μY分别代表X和Y的平均值,σX和σY分别代表X和Y的标 准偏差,c1=(0.01×D)2,c2=(0.03×D)2,D表示图像的动态范围,例如,对于浮 点数来说,D的值通常是1.0。
[0164] 此外,根据第i级编码单元的输出以及对应一级的解码单元的输入可以计 算这一级的风格损失函数。例如,可以根据第1级编码单元的输出以及第n级 解码单元的输入计算第1级的风格损失函数。根据第2级编码单元的输出以及 第n-1即解码单元的输入可以计算第2级的风格损失函数。风格损失函数可以 通过下式定义:
[0165] L-STYLEk(X,Y)=||GX-GY||2,
[0166] 其中对于具有m个通道的图像成分F,
[0167]
[0168] 其中GX、GY分别是X图像、Y图像的格拉姆矩阵的特征量,X是第k级 编码单元的输出图像,Y是第i+1-k级编码单元的输出图像,其中1≤k≤K。
[0169] 此外,系统的权重正则化系数定义为:
[0170]
[0171] 其中W是图像处理系统中所有卷积网络的权重参数,b是图像处理系统中 所有卷积网络的偏置。
[0172] 基于以上损失函数中的一项或多项可以计算图像处理系统的总损失函数。 可以将图像处理系统的总损失函数应用于任何深度学习的优化策略,如随机梯 度下降SGD或其变型(如动量SGD、Adam、RMSProp等)。
[0173] 通过本申请的实施例提供的图像处理系统的训练方法,可以利用深度学习 的策略对图像处理系统中的卷积神经网络进行参数配置。通过计算训练图像与 图像处理系统中生成的图像之间的损失函数作为目标函数,调整图像处理系统 中卷积神经网络的参数使得目标函数最优化,从而实现更好的压缩效果。
[0174] 需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变 体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或 者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包 括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、 物品或者设备中还存在另外的相同要素。
[0175] 最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时 间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。
[0176] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明 可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。 基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以 以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如 ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是 个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的 某些部分所述的方法。
[0177] 尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是 示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在 其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修 改意在被包括在所附权利要求所要求的本发明的范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈