首页 / 技术领域 / 深度图像 / 深度学习模型的暗光图像增强方法

深度学习模型的暗光图像增强方法

热词 卷积 图像 raw 机制 解码 注意力 解码器 非线性 srgb 暗光
专利类型 发明授权 法律事件 公开; 实质审查; 授权;
专利有效性 有效专利 当前状态 授权
申请号 CN202411206290.5 申请日 2024-08-30
公开(公告)号 CN118710537B 公开(公告)日 2024-11-15
申请人 厦门瑞为信息技术有限公司; 申请人类型 企业
发明人 贾宝芝; 陈昕; 张帅; 王汉超; 何一凡; 第一发明人 贾宝芝
权利人 厦门瑞为信息技术有限公司 权利人类型 企业
当前权利人 厦门瑞为信息技术有限公司 当前权利人类型 企业
省份 当前专利权人所在省份:福建省 城市 当前专利权人所在城市:福建省厦门市
具体地址 当前专利权人所在详细地址:福建省厦门市厦门火炬高新区软件园华讯楼C区B1F-112 邮编 当前专利权人邮编:361000
主IPC国际分类 G06T5/70 所有IPC国际分类 G06T5/70G06V10/82G06N3/0464G06T7/90G06V10/80
专利引用数量 2 专利被引用数量 0
专利权利要求数量 5 专利文献类型 B
专利代理机构 厦门天诚欣创知识产权代理事务所 专利代理人 梁锦平;
摘要 本 发明 公开了 深度学习 模型的暗光图像增强方法,raw图像会先经过混合特征补偿机制以增强模型对图像细节及纹理特征的处理;然后, 编码器 负责捕捉图像的关键特征信息和噪声信息,为后续的图像去噪和 颜色 渲染 提供 基础 ;随后,raw 解码器 将编码器提取的特征进行处理,实现图像去噪,利用raw图像的噪声可处理特性去除图像中的噪声,保留图像的重要细节和纹理;最后,带稀疏注意 力 及 门 控前馈机制的sRGB解码器负责颜色空间的转换和色彩增强,确保最终图像在视觉上更接近真实世界的光照条件,以便在各种显示设备上呈现。本发明通过引入混合特征补偿机制、稀疏注意力机制以及门控前馈机制能够有效改善低光照环境下的图像 质量 。
权利要求

1.一种深度学习模型的暗光图像增强方法,使用深度学习算法增强图像数据,其特征在于:模型包括混合特征补偿机制、编码器、raw解码器及sRGB解码器;
混合特征补偿机制包括特征提取模及特征补偿模块,特征提取模块对输入的raw图像进行特征提取,特征补偿模块对输入的raw图像以及经过特征提取的raw图像进行特征补偿,通过集成多个子网络来提取和融合多尺度特征,并利用自注意制动态调整各特征表示的贡献,增强对图像细节及纹理特征的处理;
编码器在混合特征补偿机制的基础上,用于捕捉图像的关键特征信息和噪声信息并加以区分;
raw解码器用于将编码器提取的特征进行处理,实现图像去噪,并利用raw图像的噪声可处理特性,来去除图像中的噪声,保留图像的重要细节和纹理;
sRGB解码器包括反馈特征融合模块和解码模块,反馈特征融合模块将raw解码器的输出与编码器的输出中的特征进行融合;解码模块利用稀疏自注意力机制,保留最有用的特征信息并减少噪声或无关信息的干扰,解码模块还通过控前馈机制,将经过编码器和raw解码器的去噪及增强后的特征进行色彩校正和色彩空间转换处理,将raw域图像映射到sRGB域,以生成增强图像;
其中:
特征提取模块的输入为 ,形状为[C1,H,W],C1为输入特征的通道数,H和W分别为输入特征图的高和宽尺寸,首先,输入特征 经过卷积模块和池化模块,得到特征 ,以提取空间特征和压缩特征,并对特征 进行特征重塑操作,得到特征 ,重塑后的特征 形状为[C2],
其中, 表示卷积模块, 表示池化模块, 表示特征重塑操作;
随后,特征 依次经过全连接层1、非线性激活层和全连接层2,得到输出特征,输出特征形状变为[n],
其中, 、 表示全连接层, 为非线性激活函数,表示混合特征补偿机制中的子网络个数;
所述特征补偿模块的输入有两个,一个为 ,该输入与特征提取模块的输入相同,形状为[C1,H,W];另一个为特征提取模块的输出 ,形状为[n],n为7,首先,对于第一个输入 ,依次经过卷积模块和非线性激活层,得到特征 ,形状不变,
其中, 表示卷积模块, 为非线性激活函数;
随后,特征 分别输入到7个子网络中,得到7个输出 、 、 、 、 、 、 ;子网络1由1×1的卷积模块构成,子网络2由3×3的卷积模块构成,子网络3由5×5的卷积模块构成,子网络4由3×3的扩张卷积模块构成,子网络5由5×5的扩张卷积模块构成,子网络6由3×3的平均池化模块构成,子网络7由5×5的平均池化模块构成,
其中, 表示子网络1 7;
~
接着,对于第二个输入 即特征提取模块的输出,先分离其特征,得到7个权重 ,将7个权重 与对应的
7个子网络输出 、 、 、 、 、 、 相乘,得到7个加权后的特征 、 、 、、 、 、 ,将7个加权后的特征进行特征拼接后,依次经过卷积模块和非线性激活层,得到特征补偿模块的输出 ,形状为[C1,H,W],
其中, 表示特征分离, 表示特征拼接处理, 表示沿着通道维
度对特征进行拼接, 表示卷积模块, 为非线性激活函数;
sRGB解码器的反馈特融合模块的输入有2个,分别是编码器的第二个输出 和raw解码器的第二个输出 ,分别定义为 和 ,
首先,将2个输入 、 特征序列中的特征分离开,第一个输入特
征 特征分离后得到 ,第二个输入特征 特征分离后
得到 ,分离开的特征经过不同的卷积模块后,得到特征 , , ,
, , ,再对 , , 进行特征相加,对 进行特征相加,
随后,将相加后的特征进行拼接,得到特征 ,
其中, 表示特征分离, 表示卷积模块, 表示特征相加, 表
示特征拼接处理,dim=1表示沿着通道维度对特征进行拼接;
随后,特征 依次经过卷积模块、深度卷积模块和特征分离模块,得到特征 和 ,其中, 表示特征分离, 表示深度卷积模块, 表示卷积模块;
接着,利用非线性激活函数和卷积模块,实现自适应地选择和融合有用的细节信息和去噪先验,得到特征 ,

其中, 为非线性激活函数, 表示卷积模块;
解码模块的输入为反馈特征融合模块的输出,解码模块的输入为 ,首先,输入特征 依次经过稀疏自注意力机制、门控前馈机制和上采样模块,此过程为一个循环,上一循环的输出作为下一循环的输入,默认循环次数为3次,三个循环的输出分别为, , ,
其中, 表示稀疏自注意力机制, 表示门控前馈机制, 表示上采样模块;
完成3次循环后,特征 先经过稀疏自注意力机制及门控前馈机制得到特征 ,再经过卷积模块、非线性激活层及卷积模块得到特征 ,最后经过像素重排模块,得到恢复后的sRGB图像 ,
其中, 表示稀疏自注意力机制、 表示门控前馈机制、 表示卷积模块、表示非线性激活函数、 表示像素重排处理;
稀疏自注意力机制选择查询和键之间最大的k个相似性分数进行自注意力计算,保留最有用的信息并减少无关特征的干扰,稀疏自注意力机制的输入为 ,
首先,输入特征 经过层归一化处理后,依次经过点卷积模块和深度卷积模块得到特征 ,特征 经过特征分离模块进行特征分离,得到 、、,
其中, 表示层归一化处理, 表示点卷积模块, 表示深度卷积模块,
表示特征分离处理;
随后,对3个特征 、 、进行特征重塑,得到 、 、,特征 、 、的形状分别由[C,H,W]变成[N,C/N,H×W],
其中,为特征图通道数量, 为特征图高, 为特征图宽,N为多头自注意力模块的头数, 表示特征重塑;
接下来,对特征 进行L2归一化,得到 ,对特征 进行L2归一化及转置,得到 ,其中, 表示L2归一化处理, 表示对特征最后两个维度的
元素进行转置处理;
随后,对特征 和 进行矩阵相乘,得到相似性分数,分别挑选前1/2、1/3、1/4个相似性分数,分别表示为 、 、 ,对 、 、 进行softmax处理后,分别与
特征 进行矩阵相乘,得到 、 、 ,
其中, 表示矩阵相乘处理, 表示取前k个相似性分数,
表示沿着最后一个维度对特征进行softmax处理;
接下来,对 、 、 进行特征加权,权重分别为 、 、 ,这3个
权重是可学习的,得到特征 ,
最后,重塑特征 的形状并经过卷积模块,得到稀疏自注意力机制的输出,其中, 表示特征重塑, 表示卷积模块;
门控前馈机制的输入为稀疏自注意力机制的输出,门控前馈机制的输入表示为,首先,输入特征 经层归一化和卷积模块处理,得到特征 ,
其中, 表示层归一化处理, 表示卷积模块;
接下来,特征 分别经过2个扩张卷积模块处理,得到特征 和 ,特征 经过非线性激活层,引入非线性,得到特征 ,
其中, 表示扩张卷积模块, 为非线性激活函数;
最后,对 和 进行特征相乘后再经过卷积模块,得到门控前馈机制的输出,
其中, 表示卷积模块。
2.如权利要求1所述的深度学习模型的暗光图像增强方法,其特征在于:编码器的输入为 ,形状为[C,H,W],H和W分别为输入特征图的高和宽尺寸,编码器有2个输出,第一个输出 为编码器的最终输出,第二个输出 用于保存编码器内循环
的中间特征;
首先,输入特征 依次经过深度卷积模块、卷积模块、非线性激活层、卷积模块及下采样模块,循环3次,每次循环的输出为下一次循环的输入, 、 、 为输入特征经过深度卷积模块、卷积模块、非线性激活层及卷积模块的输出,再进行下采样,第一次循环的输出为 ,第二次循环的输出为 ,第三次循环的输出为 ,
其中, 表示深度卷积模块, 表示卷积模块, 为非线性激活函数, 表
示下采样模块, 为编码器的第二个输出,用于保存 、 和 ;
随后,在满足循环次数要求后,形状为[8C,H/8,W/8]的特征 再依次经过深度卷积模块、卷积模块、非线性激活层和卷积模块,得到最终输出,即编码器的第一个输出,。
3.如权利要求2所述的深度学习模型的暗光图像增强方法,其特征在于:raw解码器的输入有2个,分别为 、 ,raw解码器的两个输入对应编码器的两个输
出,raw解码器的输出有2个,分别为 、 ;
首先,反转第二个输入 的特征序列顺序,得到 ,第一个输入
依次经过深度卷积模块、卷积模块、非线性激活层、卷积模块、上采样模块和特征融合模块,此过程为一次循环,每次循环的输出为下一次循环的输入, 、 、 为输入特征经过深度卷积模块、卷积模块、非线性激活层、卷积模块后得到的特征, 、 、 为每一次循环的输出,
其中, 表示深度卷积模块, 表示卷积模块, 为非线性激活层, 表示
上采样模块, 表示特征融合模块, 表示特征序列中的第x个元素,
为raw解码器的第二个输出,用于保存 、 和 ;
随后,将循环结束后的输出依次经过深度卷积模块、卷积模块、非线性激活层和卷积模块,得到raw解码器的第一个输出 ,该输出 为预测的清晰的raw
图像,

4.如权利要求1所述的深度学习模型的暗光图像增强方法,其特征在于:在模型训练期间,模型的输入是经随机翻转和归一化处理后的raw图像,模型的输出有2个,分别是raw解码器的第一个输出 和sRGB解码器的输出 ,使用L1损失函数来进
行raw域和sRGB域的监督,损失函数的计算公式如下所示,
其中, 表示损失函数, 表示raw解码器的输出1, 表示清晰的raw图像,表示sRGB解码器的输出, 表示真实sRGB图像, 表示L1损失函数。
5.如权利要求1所述的深度学习模型的暗光图像增强方法,其特征在于:模型的训练周期为300epoch,batch size为8,初始学习率为0.0002,优化器为Adamw,betas为[0.9,
0.999],优化器调整策略为Cosine annealing。

说明书全文

深度学习模型的暗光图像增强方法

技术领域

[0001] 本发明涉及计算机图像处理的技术领域,特别是指一种基于混合特征补偿及稀疏注意的深度学习模型的暗光图像增强方法。

背景技术

[0002] 暗光图像增强是图像处理领域中的一个重要研究方向,它旨在改善在低照明条件下拍摄的图像质量。在夜间或光线不足的环境中拍摄的图像通常会受到噪声、低对比度颜色失真的影响,这些问题严重影响了图像的可用性和视觉效果。暗光图像增强的核心作用是通过技术手段恢复和提升这些在不利光照条件下捕获的图像质量,使其质感更接近于在理想光照条件下所拍摄的图像。增强处理能显著提高图像的可视性和信息丰富度,这对于夜间监控、医疗成像、个人摄影等多种应用场景至关重要。有效的暗光图像增强不仅优化了视觉体验,还能提升后续如物体识别和场景理解等图像分析和处理任务的准确性与效率。这种技术的发展,使得即使在极端低光条件下,也能够获得高质量的图像输出,大幅拓展了现代成像技术的应用边界。
[0003] 在深度学习框架下,暗光图像增强技术主要依赖于强大的卷积神经网络(CNN)来自动学习和模拟复杂的光照调整过程。这些网络通过大量暗光与正常光照条件下的图像对进行训练,学习如何从暗光图像中恢复细节和颜色。例如,自编码器被广泛用于这一任务,它通过编码器压缩图像内容,然后通过解码器重建增强后的图像,有效地恢复图像细节并减少噪声。生成对抗网络(GAN)也在暗光图像增强中扮演了重要色。在此框架中,生成器试图产生越来越真实的增强图像,而鉴别器则努力区分生成的图像与真实的明亮图像之间的差异。这种对抗过程不断改进生成器的性能,最终能够生成高质量图像。尽管暗光图像增强技术取得了显著进展,但仍然存在一些缺陷,如:
[0004] 传统的CNN由于其固有的局部感受野,往往难以处理图像中的全局信息和长距离依赖(图像中相隔较远的区域之间可能存在重要的语义关联),这限制了它们在处理严重光照不足情况下的效果;
[0005] 尽管Transformer在模拟全局信息方面表现出色,但它们在恢复图像细节(如,边缘、纹理等方面)时表现并不理想。这主要是因为Transformer中的自注意力机制未能有效模拟CNN在处理局部不变性方面的优势,无法有效捕捉局部特征和细节;
[0006] Transformer中的自注意力机制虽然能够处理图像的全局信息,但其计算模式是基于所有输入特征之间的相互作用。这意味着每个特征都会与其他所有特征进行比较,计算它们之间的相似性。这种密集的计算模式可能会放大那些相对较小的相似性权重,尤其是在特征之间实际相关性不大时。这样的放大可能导致在特征聚合过程中引入噪声,因为即使是不那么相关的特征也可能对最终的聚合结果产生影响,从而干扰图像中细节的准确恢复。此外,Transformer的自注意力机制需要计算Q和K之间的相似性,是一个密集的计算过程,计算复杂度高。
[0007] 有鉴于此,本发明针对暗光图像增强技术存在的缺陷所导致的诸多缺失及不便而深入构思,且积极研究改良试做而开发出本发明。

发明内容

[0008] 本发明的目的在于提供一种基于混合特征补偿及稀疏注意力的深度学习模型的暗光图像增强方法,能够有效改善低光照环境下的图像质量。
[0009] 为了达成上述目的,本发明的解决方案是:
[0010] 一种深度学习模型的暗光图像增强方法,使用深度学习算法增强图像数据,模型包括混合特征补偿机制、编码器、raw解码器及sRGB解码器;
[0011] 混合特征补偿机制包括特征提取模及特征补偿模块,特征提取模块对输入的raw图像进行特征提取,特征补偿模块对输入的raw图像以及经过特征提取的raw图像进行特征补偿,通过集成多个子网络来提取和融合多尺度特征,并利用自注意力机制动态调整各特征表示的贡献,增强对图像细节及纹理特征的处理;
[0012] 编码器在混合特征补偿机制的基础上,负责捕捉图像的关键特征信息和噪声信息并加以区分,为后续的图像去噪和颜色渲染提供基础;
[0013] raw解码器负责将编码器提取的特征进行处理,实现图像去噪,并利用raw图像的噪声可处理特性,来去除图像中的噪声,保留图像的重要细节和纹理;
[0014] sRGB解码器包括反馈特征融合模块和解码模块,反馈特征融合模块将raw解码器的输出与编码器的输出中的特征进行融合;解码模块利用稀疏自注意力机制,能够保留最有用的特征信息并减少噪声或无关信息的干扰,使网络更加聚焦于重要信息,解码模块还通过控前馈机制,将经过编码器和raw解码器的去噪及增强后的特征进行色彩校正和色彩空间转换处理,将raw域图像映射到sRGB域,以生成色彩准确且高质量的增强图像。
[0015] 进一步,假设特征提取模块的输入为 ,形状为[C1,H,W],C1为输入特征的通道数,H和W分别为输入特征图的高和宽尺寸,首先,输入特征 会经过卷积模块和池化模块,得到特征 ,以提取空间特征和压缩特征,并对特征 进行重塑操作,得到特征 ,方便后续处理,重塑后的特征 形状为[C2],
[0016]
[0017]
[0018] 其中, 表示卷积模块, 表示池化模块, 表示特征重塑操作;
[0019] 随后,特征 会依次经过全连接层1、非线性激活层和全连接层2,得到输出特征,输出特征形状变为[n],
[0020]
[0021] 其中, 、 表示全连接层, 为非线性激活函数,表示特征补偿机制中的子网络个数。
[0022] 进一步,所述特征补偿模块的输入有两个,一个为 ,该输入与特征提取模块的输入相同,形状为[C1,H,W];另一个为特征提取模块的输出 ,形状为[n],n为7,
[0023] 首先,对于第一个输入特征 ,会依次经过卷积模块和非线性激活函数,得到特征 ,形状不变,
[0024]
[0025] 其中, 表示卷积层, 为非线性激活函数;
[0026] 随后, 会分别输入到7个子网络中,得到7个输出 、 、 、 、 、 、 ;子网络1由1×1的卷积模块构成,子网络2由3×3的卷积模块构成,子网络3由5×5的卷积模块构成,子网络4由3×3的扩张卷积模块构成,子网络5由5×5的扩张卷积模块构成,子网络
6由3×3的平均池化模块构成,子网络7由5×5的平均池化模块构成,
[0027]
[0028]
[0029]
[0030]
[0031]
[0032]
[0033]
[0034] 其中, 表示子网络1 7;~
[0035] 接着,对于第二个输入 即特征提取模块的输出,会先分离其特征,得到7个权重 ,将7个权重与对应的7个子网络输出 、 、 、 、 、 、 相乘,得到7个加权后的特征 、、 、 、 、 、 ,将7个加权特征进行特征拼接后,依次经过卷积模块和非线性激活函数,得到特征补偿模块的输出 ,形状为[C1,H,W],
[0036]
[0037]
[0038]
[0039]
[0040]
[0041]
[0042]
[0043]
[0044]
[0045] 其中, 表示特征分离, 表示特征拼接处理, 表示沿着通道维度对特征进行拼接, 表示卷积模块, 为非线性激活函数。
[0046] 进一步,假设编码器的输入为 ,形状为[C,H,W],编码器有2个输出,第一个输出 为编码器的最终输出,第二个输出 用于保存编码器内循环的中间特征;
[0047] 首先,输入特征 依次经过深度可分离卷积模块、卷积模块、非线性激活、卷积模块及下采样模块,需要循环3次,每次循环的输出为下一次循环的输入, 、 、为输入特征经过度卷积模块、卷积模块、非线性激活的卷积模块的输出,再进行下采样,第一次循环的输出为 ,第二次循环的输出为 ,第三次循环的输出为 ,
[0048]
[0049]
[0050]
[0051]
[0052]
[0053]
[0054]
[0055] 其中, 表示深度卷积模块, 表示卷积模块, 为非线性激活函数,表示下采样模块, 为编码器的第二个输出,用于保存 、 和 ;
[0056] 随后,在满足循环次数要求后,形状为[8C,H/8,W/8]的特征 依次再经过深度卷积模块、卷积模块、非线性激活和卷积模块,得到最终输出,即编码器的第一个输出,[0057] 。
[0058] 进一步,raw解码器的输入有2个,分别假设为 、 ,raw解码器的两个输入对应编码器的两个输出,raw解码器的输出有2个,分别假设为 、;
[0059] 首先,反转第二个输入 的特征序列顺序,得到 。第一个输入 会依次经过深度卷积模块、卷积模块、非线性激活、卷积模块、上采样模块和特征融合模块,此过程为一次循环,每次循环的输出为下一次循环的输入, 、 、 为输入特征经过深度卷积模块、卷积模块、非线性激活、卷积模块后得到的特征, 、 、 为每一次循环的输出,
[0060]
[0061]
[0062]
[0063]
[0064]
[0065]
[0066]
[0067] 其中, 表示深度卷积模块, 表示卷积模块, 为非线性激活函数,表示上采样模块, 表示特征融合模块, 表示特征序列中的第x个元素, 为raw解码器的第二个输出,用于保存 、 和 ;
[0068] 随后,将循环结束后的输出依次经过深度卷积模块、卷积模块、非线性激活函数和卷积模块,得到raw解码器的第一个输出 ,该输出 为预测的清晰的raw图像,
[0069] 。
[0070] 进一步,sRGB解码器的反馈特融合模块的输入有2个,分别是编码器的第二个输出和raw解码器的第二个输出 ,分别定义为 和,
[0071] 首先,将2个输入 、 特征序列中的特征分离开,第一个输入特征 特征分离后得到 ,第二个输入特征 特征分
离后得到 ,分离开的特征经过不同的卷积模块后,得到特征 , ,
, , , ,再对 , , 进行特征相加,对 进行特
征相加,随后,将相加后的特征进行拼接,得到特征 ,
[0072]
[0073]
[0074]
[0075]
[0076]
[0077]
[0078]
[0079]
[0080]
[0081] 其中, 表示特征分离, 表示卷积模块, 表示特征相加,表示特征拼接;
[0082] 随后,特征 依次经过卷积模块、深度卷积模块和特征分离,得到特征 和 ,[0083]
[0084] 其中, 表示特征分离, 表示深度卷积模块, 表示卷积模块;
[0085] 接着,利用非线性激活函数和卷积模块,实现自适应地选择和融合有用的细节信息和去噪先验,
[0086] 。
[0087] 进一步,解码模块的输入为反馈特征融合模块的输出,假设解码模块的输入为,首先,输入特征 会依次经过稀疏自注意力机制、门控前馈机制和上采样模块,此过程为一个循环,上一循环的输出作为下一循环的输入,默认循环次数为3次,三个循环的输出分别为 , , ,
[0088]
[0089]
[0090]
[0091] 其中, 表示稀疏自注意力机制, 表示门控前馈机制, 表示上采样模块;
[0092] 完成3次循环后,特征 会先经过稀疏自注意力机制及门控前馈机制得到特征,再经过卷积模块、非线性激活函数及卷积模块得到特征 ,最后经过像素重排模块,得到恢复后的sRGB图像 ,
[0093]
[0094]
[0095]
[0096] 其中, 表示稀疏自注意力机制、 表示门控前馈机制、 表示卷积模块、表示非线性激活函数、 表示像素重排处理。
[0097] 进一步,稀疏自注意力机制选择查询和键之间最大的k个相似性分数进行自注意力计算,保留最有用的信息并减少无关特征的干扰,从而使得特征聚合更加聚焦于重要的信息,假设稀疏自注意力机制的输入为 ,
[0098] 首先,输入特征 经过层归一化处理后,依次经过点卷积模块、深度卷积模块得到特征 ,特征 经过特征分离模块进行特征分离,得到 、、,
[0099]
[0100]
[0101] 其中, 表示层归一化处理, 表示点卷积模块, 表示深度卷积模块, 表示特征分离处理;
[0102] 随后,对3个特征 、、进行特征重塑,得到 、、,特征 、 、的形状分别由[C,H,W]变成[N,C/N,H×W],
[0103]
[0104]
[0105]
[0106] 其中,为特征图通道数量,为特征图高, 为特征图宽,N为多头自注意力模块的头数, 表示特征重塑;
[0107] 接下来,对特征 进行L2归一化,得到 ,对特征 进行L2归一化及转置,得到 ,[0108]
[0109]
[0110] 其中, 表示L2归一化处理, 表示对特征最后两个维度的元素进行转置处理;
[0111] 随后,对特征 和 进行矩阵相乘,得到相似性分数,分别挑选前1/2、1/3、1/4个相似性分数(分别表示为 、 、 ),对 、 、 进行softmax处理后,分别与特征 进行矩阵相乘,得到 、 、 ,
[0112]
[0113]
[0114]
[0115]
[0116]
[0117]
[0118] 其中, 表示矩阵相乘处理, 表示取前k个相似性分数,表示沿着最后一个维度对特征进行softmax处理;
[0119] 接下来,对 、 、 进行特征加权,权重分别为 、 、 ,这3个权重是可学习的,得到特征 ,
[0120]
[0121] 最后,重塑特征 的形状并经过卷积模块,得到稀疏自注意力机制的输出,[0122]
[0123] 其中, 表示特征重塑, 表示卷积模块。
[0124] 进一步,门控前馈机制的输入为稀疏自注意力机制的输出,假设门控前馈机制的输入表示为 ,首先,输入特征 会经层归一化、卷积模块处理,得到特征,
[0125]
[0126] 其中, 表示层归一化处理, 表示卷积模块;
[0127] 接下来,特征 会分别经过2个扩张卷积模块处理,得到特征 和 ,特征 会经过非线性激活函数,引入非线性,得到特征 ,
[0128]
[0129]
[0130]
[0131] 其中, 表示扩张卷积模块, 为非线性激活函数;
[0132] 最后,对 和 进行特征相乘后再经过卷积模块,得到门控前馈机制的输出,
[0133]
[0134] 其中, 表示卷积模块。
[0135] 进一步,在模型训练期间,模型的输入是经随机翻转和归一化处理后的raw图像,模型的输出有2个,分别是raw解码器的第一个输出 和sRGB解码器的输出,使用L1损失函数来进行raw域和sRGB域的监督,损失函数的计算公式如下所示,
[0136]
[0137] 其中, 表示损失函数, 表示raw解码器的输出1, 表示清晰的raw图像, 表示sRGB解码器的输出, 表示真实sRGB图像, 表示L1损失函数。
[0138] 进一步,模型的训练周期为300epoch(当模型训练到300epoch时,模型损失已经收敛),batch size为8,初始学习率为0.0002,优化器为Adamw,betas为[0.9,0.999],优化器调整策略为Cosine annealing。
[0139] 采用上述方案后,本发明深度学习模型的暗光图像增强方法具有以下优点:
[0140] 通过混合特征补偿机制为编码器和解码器提取的特征提供额外的补偿,从而有效改善图像的去噪性能和颜色渲染效果。混合特征补偿机制还能根据输入动态选择不同特征表示的重要性,更加精准地恢复图像中的色彩细节,这是以前的方法所不具备的。
[0141] 本发明提出新颖的网络结构‑特征补偿模块。特征补偿模块中的每个子网络负责提取图像中不同尺度的特征,这种结构允许模型自适应地选择和整合特征。
[0142] 本发明开发了一种自适应特征选择机制,利用自注意力技术动态调整不同子网络的权重,以适应不同的图像特征和图像去噪需求。
[0143] 发明中提出的稀疏注意力机制可以有效地筛选和保留最有用的特征信息,同时减少噪声或无关信息的干扰。稀疏注意力机制不仅提高了网络对重要信息的聚焦能力,还显著降低了计算量,从而提高了模型的整体计算效率。
[0144] 本发明还提出一种门控前馈机制,该机制通过引入非线性处理,能够有效捕获长距离依赖关系,进一步增强了图像的颜色渲染效果,这种机制提供了一种新的方式来增强图像处理网络的功能性和效率。
[0145] 本发明能够替代传统的图像信号处理(ISP)流程,特别适用于在极端光照或恶劣天气条件下拍摄的图像,能够显著提高这些情况下图像的处理效果和质量。
[0146] 现有的技术方案相比,本发明利用混合特征补偿机制来增强模型对图像细节和纹理特征的提取及恢复能力,该机制允许模型自适应地调整混合特征的重要性,以更好地渲染图像。本发明通过稀疏注意力机制选择查询和键之间最大的k个相似性分数进行自注意力计算,保留图片中最有用的信息并减少无关特征的干扰,从而使得特征聚合更加聚焦于重要的信息。此外,本发明在前馈机制中引入扩张卷积及门控单元,前者增加了感受野,使得网络能够捕捉到更远距离的像素间的依赖关系,后者增强网络的非线性表达能力,进一步提高图片颜色的渲染效果。更为重要的是,相比于传统的Transformer等大型网络,本发明基于稀疏注意力及前馈机制,对计算资源的需求低,能够在资源受限的设备或场景中运行。
[0147] 本发明提出的暗光图像增强方法能够代替传统ISP,以解决对极端光照或天气条件下拍摄的图像处理效果不佳的问题。
[0148] 本发明提出的混合特征补偿机制为编码器、解码器提取的特征提供额外的特征补偿,有助于改善图像去噪和颜色渲染的效果。此外,混合特征补偿机制能够根据输入动态选择不同特征表示的重要性,更好地恢复图像色彩细节信息。本发明提出的门控前馈机制能够在捕获长距离依赖的同时引入非线性,进一步提升颜色渲染效果。附图说明
[0149] 图1为本发明的简化流程图
[0150] 图2为本发明的整体框架图。
[0151] 图3为本发明混合特征补偿机制整体框架示意图。
[0152] 图4为本发明特征提取模块的网络结构示意图。
[0153] 图5为本发明特征补偿模块的网络结构示意图。
[0154] 图6为本发明编码器的流程示意图。
[0155] 图7为本发明raw解码器的流程示意图。
[0156] 图8为本发明反馈特征融合模块的流程示意图。
[0157] 图9为本发明解码模块的流程示意图。
[0158] 图10为本发明稀疏注意力机制的流程示意图。
[0159] 图11为本发明门控前馈机制的流程示意图。

具体实施方式

[0160] 为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
[0161] 本发明揭示一种基于混合特征补偿及稀疏注意力的暗光图像增强模型,使用深度学习算法增强图像数据,使得在暗光或夜间拍摄时能够获得更清晰、更明亮的图像,从而改善低光照环境下的图像质量。
[0162] 如图1及图2所示,本发明揭示了一种基于混合特征补偿及稀疏注意力的深度学习模型的暗光增强方法,总体思想是:raw图像(未经处理或压缩的图像数据格式)作为输入会先经过混合特征补偿机制以增强模型对图像细节及纹理特征的处理;接下来,编码器负责捕捉图像的关键特征信息和噪声信息,为后续的图像去噪和颜色渲染提供基础;随后,raw解码器负责将编码器提取的特征进行处理,实现图像去噪,它利用raw图像的噪声可处理特性,来去除图像中的噪声,保留图像的重要细节和纹理;最后,带稀疏注意力及门控前馈机制的sRGB解码器负责颜色空间的转换和色彩增强,确保最终图像在视觉上更接近真实世界的光照条件,以便在各种显示设备上呈现。本发明通过引入混合特征补偿机制、稀疏注意力机制以及门控前馈机制,本发明的暗光图像增强方法能够有效改善低光照环境下的图像质量。
[0163] 本发明基于混合特征补偿及稀疏注意力的暗光增强方法包括混合特征补偿机制、编码器、raw解码器及sRGB解码器。
[0164] 如图3所示,混合特征补偿机制由特征提取模块及特征补偿模块组成。特征补偿模块在特征提取模块的基础上,通过集成多个子网络来提取和融合多尺度特征,并利用自注意力机制动态调整各特征表示的贡献,从而增强图像增强算法在细节的提取和恢复能力,最终提升整体图像质量并显著增强算法的自适应性和鲁棒性。
[0165] 如图4所示,假设特征提取模块的输入为 ,形状为[C1,H,W],C1为输入特征的通道数,H和W分别为输入特征图的高和宽尺寸。
[0166] 首先,输入特征 会经过卷积模块和池化模块,得到特征 ,以提取空间特征和压缩特征,并对特征 进行重塑操作,得到特征 ,方便后续处理,重塑后的特征形状为[C2],
[0167]
[0168]
[0169] 其中, 表示卷积模块, 表示池化模块, 表示特征重塑操作。
[0170] 随后,特征 会依次经过全连接层1、非线性激活层和全连接层2,得到输出特征,输出特征形状变为[n],
[0171]
[0172] 其中, 、 表示全连接层, 为非线性激活函数,表示特征补偿机制中的子网络个数(默认为7)。
[0173] 如图5所示,特征补偿模块的输入有两个,一个为 ,该输入与特征提取模块的输入相同,形状为[C1,H,W];另一个为特征提取模块的输出 ,形状为[n],n默认为7。
[0174] 首先,对于第一个输入特征 ,会依次经过卷积模块和非线性激活函数,得到特征 ,形状不变,
[0175]
[0176] 其中, 表示卷积层, 为非线性激活函数。
[0177] 随后, 会分别输入到7个子网络中,得到7个输出 、 、 、 、 、 、 。子网络1由1×1的卷积模块构成,子网络2由3×3的卷积模块构成,子网络3由5×5的卷积模块构成,子网络4由3×3的扩张卷积模块构成,子网络5由5×5的扩张卷积模块构成,子网络
6由3×3的平均池化模块构成,子网络7由5×5的平均池化模块构成,
[0178]
[0179]
[0180]
[0181]
[0182]
[0183]
[0184]
[0185] 其中, 表示子网络1 7。~
[0186] 接下来,对于第二个输入 (特征提取模块的输出),会先分离其特征,得到7个权重 。将7个权重与对应的7个子网络输出 、 、 、 、 、 、 相
乘,得到7个加权后的特征 、 、 、 、 、 、 。将7个加权特征进行特征拼接后,依次经过卷积模块和非线性激活函数,便可得到特征补偿模块的输出 ,形状为[C1,H,W],
[0187]
[0188]
[0189]
[0190]
[0191]
[0192]
[0193]
[0194]
[0195]
[0196] 其中, 表示特征分离, 表示特征拼接处理, 表示沿着通道维度对特征进行拼接, 表示卷积模块, 为非线性激活函数。
[0197] 编码器的原理是在混合特征补偿机制的基础上,捕捉特征的信号(如,纹理、边缘和颜色等信息)和噪声信息并加以区分,以确保去噪后的图像不会丢失关键的细节,为后续的图像去噪(raw解码器)和颜色渲染恢复(sRGB解码器)提供丰富的特征表示。
[0198] 如图6所示,假设编码器的输入为 ,形状为[C,H,W]。编码器有2个输出,第一个输出 为编码器的最终输出,第二个输出 用于保存编码器内循环的中间特征。
[0199] 首先,输入特征 会依次经过深度可分离卷积模块、卷积模块、非线性激活、卷积模块及下采样模块(此过程为一次循环),需要循环3次,每次循环的输出为下一次循环的输入, 、 、 为输入特征经过度卷积模块、卷积模块、非线性激活的卷积模块的输出,再进行下采样,第一次循环的输出为 ,第二次循环的输出为 ,第三次循环的输出为 ,
[0200]
[0201]
[0202]
[0203]
[0204]
[0205]
[0206]
[0207] 其中, 表示深度卷积模块, 表示卷积模块, 为非线性激活函数,表示下采样模块。 为编码器的第二个输出,用于保存 、 和 。
[0208] 接下来,在满足循环次数要求后,形状为[8C,H/8,W/8]的特征 (下采样3次)会依次经过深度卷积模块、卷积模块、非线性激活和卷积模块,得到最终输出(即前面所述的编码器的第一个输出),
[0209] 。
[0210] raw解码器的原理是利用编码器提供的深层特征和噪声信息,精确去除图像中的随机噪声,同时保留图像的纹理细节和结构信息,生成去噪后的raw图像。
[0211] 如图7所示,raw解码器的输入有2个,分别假设为 、 ,即编码器的2个输出。raw解码器的输出有2个,分别假设为 、 。
[0212] 首先,反转第二个输入 的特征序列顺序,得到 。第一个输入 会依次经过深度卷积模块、卷积模块、非线性激活、卷积模块、上采样模块和特征融合模块,此过程为一次循环,每次循环的输出为下一次循环的输入, 、 、 为输入特征经过深度卷积模块、卷积模块、非线性激活、卷积模块后得到的特征, 、 、 为每一次循环的输出,
[0213]
[0214]
[0215]
[0216]
[0217]
[0218]
[0219]
[0220] 其中, 表示深度卷积模块, 表示卷积模块, 为非线性激活函数,表示上采样模块, 表示特征融合模块, 表示特征序列中的第x个元素。 为raw解码器的第二个输出,用于保存 、 和 。
[0221] 随后,将循环结束后的输出依次经过深度卷积模块、卷积模块、非线性激活函数和卷积模块,得到raw解码器的第一个输出 ,该输出 为预测的清晰的raw图像,
[0222] 。
[0223] sRGB解码器带稀疏注意力及门控前馈机制,sRGB解码器分为反馈特征融合模块和解码模块。反馈特征融合模块将raw解码器的第二个输出 与编码器的第二个输出 中的特征进行融合,以丰富编码器的特征,增强对图像细节的捕捉能力,同时提高信号与噪声的分离度,减少错误信息传播。解码模块利用稀疏自注意力机制,能够保留最有用的特征信息并减少噪声或无关信息的干扰,使网络更加聚焦于重要信息。此外,解码模块通过门控前馈机制,将经过编码器和raw解码器的去噪及增强后的特征进行色彩校正和色彩空间转换处理,将raw域图像映射到sRGB域,以生成色彩准确且高质量的增强图像。
[0224] 如图8所示,反馈特融合模块的输入有2个,分别是编码器的第二个输出和raw解码器的第二个输出 ,分别定义为 和 。
[0225] 首先,将2个输入 、 特征序列中的特征分离开,第一输入特征 特征分离后得到 ,第二个输入特征 特征分离
后得到 ,分离开的特征经过不同的卷积模块后,得到特征 , ,
, , , ,再对 , , 进行特征相加,对 进行特征相
加。随后,将相加后的特征进行拼接,得到特征 ,
[0226]
[0227]
[0228]
[0229]
[0230]
[0231]
[0232]
[0233]
[0234]
[0235] 其中, 表示特征分离, 表示卷积模块, 表示特征相加,表示特征拼接。
[0236] 随后,特征 依次经过卷积模块、深度卷积模块和特征分离,得到特征 和 ,[0237]
[0238] 其中, 表示特征分离, 表示深度卷积模块, 表示卷积模块。
[0239] 最后,利用非线性激活函数和卷积模块,实现自适应地选择和融合有用的细节信息和去噪先验,
[0240] 。
[0241] 总体而言,反馈特征融合模块结合编码器和raw解码器的特征,并利用门控机制在空间和通道维度上动态调整特征的融合,确保在去噪和颜色恢复过程中保留重要的图像细节并抑制噪声干扰。
[0242] 如图9所示,解码模块的输入为反馈特征融合模块的输出。假设解码模块的输入为。首先,输入特征 会依次经过稀疏自注意力机制、门控前馈机制和上采样模块,此过程为一个循环,上一循环的输出作为下一循环的输入,默认循环次数为3次,三个循环的输出分别为 , , 。
[0243]
[0244]
[0245]
[0246] 其中, 表示稀疏自注意力机制, 表示门控前馈机制, 表示上采样模块。
[0247] 完成3次循环后,特征 会先经过稀疏自注意力机制及门控前馈机制得到特征,再经过卷积模块、非线性激活函数及卷积模块得到特征 ,最后经过像素重排模块,得到恢复后的sRGB图像 ,
[0248]
[0249]
[0250]
[0251] 其中, 表示稀疏自注意力机制、 表示门控前馈机制、 表示卷积模块、表示非线性激活函数、 表示像素重排处理。
[0252] 稀疏自注意力机制选择查询和键之间最大的k个相似性分数进行自注意力计算,保留最有用的信息并减少无关特征的干扰,从而使得特征聚合更加聚焦于重要的信息。
[0253] 如图10所示,假设稀疏自注意力机制的输入为 。首先,输入特征经过层归一化处理后,依次经过点卷积模块、深度卷积模块得到特征 ,特征经过特征分离模块进行特征分离,得到 、、,
[0254]
[0255]
[0256] 其中, 表示层归一化处理, 表示点卷积模块, 表示深度卷积模块, 表示特征分离处理。
[0257] 随后,对3个特征 、、进行特征重塑,得到 、、,特征 、 、的形状分别由[C,H,W]变成[N,C/N,H×W],
[0258]
[0259]
[0260]
[0261] 其中,为特征图通道数量,为特征图高, 为特征图宽,N为多头自注意力模块的头数, 表示特征重塑。
[0262] 接下来,对特征 进行L2归一化,得到 ,对特征 进行L2归一化及转置,得到 ,[0263]
[0264]
[0265] 其中, 表示L2归一化处理, 表示对特征最后两个维度的元素进行转置处理。
[0266] 随后,对特征 和 进行矩阵相乘,得到相似性分数,分别挑选前1/2、1/3、1/4个相似性分数(分别表示为 、 、 ),对 、 、 进行softmax处理后,分别与特征 进行矩阵相乘,得到 、 、 ,
[0267]
[0268]
[0269]
[0270]
[0271]
[0272]
[0273] 其中, 表示矩阵相乘处理, 表示取前k个相似性分数,表示沿着最后一个维度对特征进行softmax处理。
[0274] 接下来,对 、 、 进行特征加权,权重分别为 、 、 ,这3个权重是可学习的,得到特征 ,
[0275]
[0276] 最后,重塑特征 的形状并经过卷积模块,得到稀疏自注意力机制的输出,[0277]
[0278] 其中, 表示特征重塑, 表示卷积模块。
[0279] 门控前馈机制的作用是实现特征的自适应选择和调整,通过引入非线性门控单元来控制信息流,允许网络在处理数据时更加灵活地强调或抑制某些特征,从而增强模型对关键信息的捕捉能力,提高处理效果,并使网络能够更好地学习和模拟复杂的数据转换过程。在图像处理中,门控前馈机制有助于区分和保留重要的视觉特征,同时抑制噪声或不相关的信息,优化图像的质量和增强的细节表现。
[0280] 如图11所示,门控前馈机制的输入为稀疏自注意力机制的输出,假设门控前馈机制的输入表示为 。首先,输入特征 会经层归一化、卷积模块处理,得到特征 ,
[0281]
[0282] 其中, 表示层归一化处理, 表示卷积模块。
[0283] 接下来,特征 会分别经过2个扩张卷积模块处理,得到特征 和 。特征 会经过非线性激活函数,引入非线性,得到特征 ,
[0284]
[0285]
[0286]
[0287] 其中, 表示扩张卷积模块, 为非线性激活函数。
[0288] 最后,对 和 进行特征相乘后再经过卷积模块,得到门控前馈机制的输出,
[0289]
[0290] 其中, 表示卷积模块。
[0291] 在模型训练期间,模型的输入是经随机翻转和归一化处理后的raw图像,模型的输出有2个,分别是raw解码器的输出1和sRGB解码器的输出。本发明使用L1损失函数来进行raw域和sRGB域的监督,损失函数的计算公式如下所示,
[0292]
[0293] 其中, 表示损失函数, 表示raw解码器的输出1, 表示清晰的raw图像, 表示sRGB解码器的输出, 表示真实sRGB图像, 表示L1损失函数。
[0294] 模型的训练周期为300 epoch(当模型训练到300 epoch时,模型损失已经收敛),batch size为8,初始学习率为0.0002,优化器为Adamw,betas为[0.9,0.999],优化器调整策略为Cosine annealing。
[0295] 本发明通过混合特征补偿机制为编码器和解码器提取的特征提供额外的补偿,从而有效改善图像的去噪性能和颜色渲染效果。混合特征补偿机制还能根据输入动态选择不同特征表示的重要性,更加精准地恢复图像中的色彩细节,这是以前的方法所不具备的。
[0296] 本发明提出新颖的网络结构,特征补偿模块。特征补偿模块中的每个子网络负责提取图像中不同尺度的特征,这种结构允许模型自适应地选择和整合特征。
[0297] 本发明开发了一种自适应特征选择机制,利用自注意力技术动态调整不同子网络的权重,以适应不同的图像特征和图像去噪需求。
[0298] 发明中提出的稀疏注意力机制可以有效地筛选和保留最有用的特征信息,同时减少噪声或无关信息的干扰。这种机制不仅提高了网络对重要信息的聚焦能力,还显著降低了计算量,从而提高了模型的整体计算效率。
[0299] 本发明还提出一种门控前馈机制,该机制通过引入非线性处理,能够有效捕获长距离依赖关系,进一步增强了图像的颜色渲染效果,这种机制提供了一种新的方式来增强图像处理网络的功能性和效率。
[0300] 本发明提出了一种新型的暗光图像增强技术,该技术能够替代传统的图像信号处理(ISP)流程,这种方法特别适用于在极端光照或恶劣天气条件下拍摄的图像,能够显著提高这些情况下图像的处理效果和质量。
[0301] 在暗光环境下,图像常常伴随着较高的噪声平,本发明采用基于深度学习的技术来识别和抑制图像噪声,以在不损失图像细节的前提下,有效地减少噪声,提高图像质量,这种方法不仅提高了图像的整体美观度,而且保持了图像的自然感和细节层次。
[0302] 上述实施例和图式并非限定本发明的产品形态和式样,任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应视为不脱离本发明的专利范畴。
QQ群二维码
意见反馈