首页 / 专利分类库 / 基本电子电路 / 一般编码、译码或代码转换 / 基于卷积和变换器的压缩感知

基于卷积和变换器的压缩感知

申请号 CN202211610047.0 申请日 2022-12-12 公开(公告)号 CN117956175A 公开(公告)日 2024-04-30
申请人 香港城市大学; 发明人 邝得互; 叶冬杰; 倪张凯;
摘要 一种对压缩感测数据进行自适应重建的方法。该方法包含以下步骤:接收 感知 数据;对感知数据进行初始重建,以获得多个第一重建分片;通过重建模 块 ,对感知数据进行渐进式重建,以获得多个第二重建分片;将多个第二重建分片与多个第一重建分片相加,以获得最终分片;以及合并最终分片以获得重建数据。渐进式重建进一步包含 串联 变换器特征和卷积特征以获得第二重建分片。本 发明 提供了一种用于CS自适应 采样 和重建的混合网络,它整合了利用CNN的详细空间信息和和变换器提供的全局背景这两个优点,以增强 表征学习 。
权利要求

1.一种用于适应性地重建压缩感知数据的方法,包括以下步骤:
接收感知数据;
对所述感知数据进行初始重建,以获得多个第一重建分片;
通过重建模,对所述感知数据进行渐进式重建,以获得多个第二重建分片;
将所述多个第二重建分片与所述多个第一重建分片相加,以获得最终分片;以及合并所述最终分片以获得重建数据;
其中,所述渐进式重建包括对变换器特征和卷积特征进行串联,以获得所述第二重建分片。
2.根据权利要求1所述的方法,其中所述重建模块包括用于产生所述卷积特征的卷积神经网络分支,以及用于产生所述变换器特征的变换器分支。
3.根据权利要求2所述的方法,其中所述变换器分支包括第一变换器块和第二变换器块;所述卷积神经网络分支包括对应于所述第一变换器块的第一卷积块、以及对应于所述第二变换器块的第二卷积块;所述对所述感知数据进行渐进式重建的步骤还包括:
根据所述感知数据和所述第一卷积块的输出,在所述第一变换器块中生成所述变换器特征中的第一变换器特征;
根据所述第一变换器特征和所述第二卷积块的输出,在所述第二变换器块中生成所述变换器特征中的第二变换器特征。
4.根据权利要求3所述的方法,其中所述第一卷积块和所述第二卷积块中的至少一个包括多个卷积层,而在该多个卷积层之后配置有渗漏整流线性单元和批规范层。
5.根据权利要求3所述的方法,其中所述第一变换器块和所述第二变换器块中的至少一个是基于窗口的变换器。
6.根据权利要求5所述的方法,其中所述第一变换器块和所述第二变换器块中的至少一个包括多头自我注意模块、以及该多头自我注意模块之后的多层感知器模块。
7.根据权利要求2所述的方法,其中所述重建模块还包括在所述卷积神经网络分支和所述变换器分支之前的输入投影模块;所述对所述感知数据进行渐进式重建的步骤还包括通过所述输入投影模块,增加输入到所述重建模块的所述感知数据的尺寸的步骤。
8.根据权利要求7所述的方法,其中,所述输入投影模块包括多个1×1卷积层、以及子像素卷积层。
9.根据权利要求2所述的方法,其中所述重建模块还包括位于所述变换器分支之后的输出投影模块;所述对感知数据进行渐进式重建的步骤,还包括将所述变换器特征投影到单个通道,以获得所述多个第二重建分片的步骤。
10.根据权利要求9所述的方法,其中所述输出投影模块包括多个卷积层、以及该多个卷积层之后的双曲正切作用函数。
11.根据权利要求1所述的方法,其中,所述进行初始重建的步骤,是在线性初始化模块中进行的。
12.根据权利要求11所述的方法,其中所述线性初始化模块包括1×1卷积层和子像素卷积层。
13.根据权利要求1所述的方法,其中所述感知数据包括多个输入卷积分片。
14.一种用于对压缩感知数据进行适应性重建的装置,包括:
一个或多个处理器;以及
存储器,存储计算机可执行指令;当被执行时,所述计算机可执行指令使一个或多个处理器实现以下步骤:
接收感知数据;
对所述感知数据进行初始重建,以获得多个第一重建分片;
通过重建模块,对所述感知数据进行渐进式重建,以获得多个第二重建分片;
将所述多个第二重建分片与所述多个第一重建分片相加,以获得最终分片;以及合并所述最终分片以获得重建数据;
其中,所述渐进式重建包括对变换器特征和卷积特征进行串联,以获得所述第二重建分片。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
接收感知数据;
对所述感知数据进行初始重建,以获得多个第一重建分片;
通过重建模块,对所述感知数据进行渐进式重建,以获得多个第二重建分片;
将所述多个第二重建分片与所述多个第一重建分片相加,以获得最终分片;以及合并所述最终分片以获得重建数据;
其中,所述渐进式重建包括对变换器特征和卷积特征进行串联,以获得所述第二重建分片。

说明书全文

基于卷积和变换器的压缩感知

技术领域

[0001] 本发明涉及信号处理,特别是涉及例如用于图像的压缩感知技术。

背景技术

[0002] 压缩感知(compressive sensing,简称CS)理论表明,当信号在某些变换域中是稀疏的时候,可以用相对于奈奎斯特定理规定的少得多的测量值来恢复信号,而且概率很高[1]。降低采样率的好处,是可以进行低成本和高效率的数据压缩,从而减轻数据存储和传输带宽的负担。这些固有的优点使它在一系列的应用例如单像素相机、磁共振成像和快照压缩成像中非常理想。
[0003] 在压缩图像感知方法中,对于图像x∈RN而言,采样阶段首先对x进行快速采样,以M M×N获得线性随机测量值y=Φx∈R 。在这里,Φ∈R 是M<<N的传感矩阵,且 表示CS采样率。在重建阶段,目标是在给定y时推断出原始图像x。由于未知数N的数量远远大于观测数M,这样的反向问题通常是不确定的。为了解决这个问题,传统的CS方法[2]‑[4]探索了作为图像先验的稀疏性,通过迭代优化稀疏性规则化问题,在所有测量值y中找到最稀疏的信号。尽管这些方法通常有理论上的保证,并同时继承了可解释性,但它们不可避免地受到迭代计算所带来的高计算成本的影响。
[0004] 与传统的CS方法相比,神经网络通过直接学习从压缩测量到原始图像的反向映射,而被用于解决图像压缩感知重建问题。最近,随着深度学习(Deep Learning,简称DL)的出现,用于CS的各种数据驱动的深度神经网络模型,已经被证明可以实现令人印象深刻的重建质量和高效的恢复速度[5]‑[18]。此外,基于DL的CS方法经常联合地对采样和重建网络进行学习,以进一步提高性能[7],[12],[13],[15]。
[0005] 在现有的CS文献中,基于DL的CS方法可以分为两类。第一类是深度展开方法[6]、[8]、[9]、[12]、[13]、[15],这些方法利用深度神经网络来模仿迭代恢复的算法。它们试图通过将每个迭代映射到一个网络层来保持迭代恢复方法和数据驱动网络方法的优点。深度展开方法可以使表示能扩展到迭代算法之外,并避免深度神经网络的有限可解释性。第二组是前馈方法[5]、[7]、[10]、[11]、[16]‑[24],它们不受任何手工约束。在给定了测量值y的情况下,这些方法可以通过经过学习的卷积神经网络(CNN)的一次前馈来重建图像。然而,局部处理的原则限制了CNN在感受野(Receptive Field)方面的发展,并对捕捉长距离的依赖性带来挑战。此外,卷积层的权重共享,导致图像和滤波器之间的相互作用是不依赖内容的。许多人致力于解决这些问题,如扩大卷积的核大小、使用多尺度重建、动态卷积和注意力机制。Sun等人[16]针对长距离的依赖性问题,探索了非局部先验来指导网络。此外,Sun等人[23]尝试采用双路径注意力网络进行CS,其中恢复结构被分为结构和纹理路径。尽管在一定程度上放大了情境建模的能力,但这些方法仍然无法摆脱CNN架构所造成的位置性限制。
[0006] 与之前基于卷积的深度神经网络不同,变换器(transformer)[25]最初是为自然语言处理领域的序列到序列的预测而设计的。由于是基于自我注意的架构,变换器非常适合于对全局环境进行建模。受到变换器在自然语言处理中的重大变革的启发,一些研究人员最近试图将变换器整合到计算机视觉任务中,包括图像分类[26]、图像处理[27]、[28]和图像生成[29]。凭借简单和通用的神经结构,变换器被认为是CNN的替代品,并正努力获得更好的性能。然而,将变换器天真地应用于CS重建,则可能不会产生与CNN性能相匹配的有足够竞争力的结果。其原因在于,由于全局性的自我注意,变换器可以捕捉到高层次的语义,这对图像分类很有帮助,但其缺乏图像修复的低层次细节。总的来说,CNN具有更好的泛化能力和更快的收敛速度,它非常偏向特征定位和空间不变性,这使得它对图像非常有效。尽管如此,关于如何精确嵌入这两类特征,仍然存在一些问题。首先,大多数方法都是基于高层任务,而CS的适用性是未知的。第二,对于局部模式的卷积、和对于全局表征的自我关注,是两个相互冲突的特性。第三,高分辨率重建所需的爆炸性的计算复杂性和巨大的内存需求,是对CS的挑战。
[0007] 参考文献
[0008] 以下每份参考文献(以及相关的附录和/或补编)都在此明确地全部纳入参考。
[0009] [1]D.L.Donoho“, Compressed sensing,”IEEE Transactions on Information Theory,vol.52,no.4,pp.1289–1306,2006.
[0010] [2]J.Zhang,D.Zhao,C.Zhao,R.Xiong,S.Ma,andW.Gao,“Image compressive sensing recovery via collaborative sparsity,”IEEE Journal on Emerging and Selected Topics in Circuits and Systems,vol.2,no.3,pp.380–391,2012.[0011] [3]J.Zhang,C.Zhao,D.Zhao,and W.Gao,“Image compressive sensing recovery using adaptively learned sparsifyingbasis vial0minimization,”SignalProcessing,vol.103,pp.114–126,2014.
[0012] [4]M.E.Ahsen and M.Vidyasagar,“Error bounds for compressed sensing algorithms  with  group  sparsity:A  unified approach,”Appliedand ComputationalHarmonicAnalysis,vol.43,no.2,pp.212–232,2017.
[0013] [5]K.Kulkarni,S.Lohit,P.Turaga,R.Kerviche,and A.Ashok,“Reconnet:Non‑iterative reconstruction ofimages from compressively sensed measurements,”in Proceedings ofthe IEEE Conference on Computer Vision andPatternRecognition,2016,pp.449–458.
[0014] [6]C.A.Metzler,A.Mousavi,and R.G.Baraniuk,“Learned d‑amp:Principled!neural network based compressive image recovery,”in Proceedings of the Advances in Neural Information Processing Systems,2017,pp.1773–1784.[0015] [7]W.Shi,F.Jiang,S.Zhang,and D.Zhao“, Deep networks for compressed image sensing,”in Proceedings oftheIEEEInternational Conference on Multimedia andExpo,2017,pp.877–882.
[0016] [8]J.Zhang and B.Ghanem“,Ista‑net:Interpretable optimization‑inspired deep network for image compressive sensing,”in Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition,2018,pp.1828–1837.[0017] [9]Y.Yang,J.Sun,H.Li,and Z.Xu,“Admm‑csnet:A deep learning approach for image compressive sensing,”IEEE Transactions on Pattern Analysis andMachine Intelligence,vol.42,no.3,pp.521–538,2018.
[0018] [10]M.Kabkab,P.Samangouei,and R.Chellappa,“Task‑aware compressed sensing with generative adversarial networks,”in Proceedings ofthe AAAI Conference on Artificial Intelligence,vol.32,no.1,2018.
[0019] [11]W.Shi,F.Jiang,S.Liu,and D.Zhao“, Image compressed sensing using convolutional neural network,”IEEE Transactions on Image Processing,vol.29,pp.375–388,2020.
[0020] [12]J.Zhang,C.Zhao,and W.Gao,“Optimization‑inspired compact deep compressive sensing,”IEEE Journal ofSelected Topics in SignalProcessing,vol.14,no.4,pp.765–774,2020.
[0021] [13]Z.Zhang,Y.Liu,J.Liu,F.Wen,and C.Zhu“,Amp‑net:Denoising‑based deep unfolding for compressive image sensing,”IEEE Transactions on Image Processing,vol.30,pp.1487–1500,2020.
[0022] [14]D.You,J.Zhang,J.Xie,B.Chen,and S.Ma,“Coast:Controllable arbitrary‑sampling network for compressive sensing,”IEEE Transactions on Image Processing,vol.30,pp.6066–6080,2021.
[0023] [15]D.You,J.Xie,and J.Zhang,“Ista‑net++:Flexible deep unfolding network for compressive sensing,”in Proceedings ofthe IEEEInternational Conference on Multimedia andExpo,2021,pp.1–6.
[0024] [16]Y.Sun,J.Chen,Q.Liu,and G.Liu,“Learning image compressed sensing with sub‑pixel convolutional generative adversarial network,”Pattern Recognition,vol.98,p.107051,2020.
[0025] [17]J.Chen,Y.Sun,Q.Liu,and R.Huang,“Learning memory augmented cascading network for compressed sensing ofimages,”in Proceedings ofthe European Conference on Computer Vision,2020,pp.513–529.
[0026] [18]Y.Sun,Y.Yang,Q.Liu,J.Chen,X.‑T.Yuan,and G.Guo“, Learning non‑locally regularized compressed  sensing network  with half‑quadratic splitting,”IEEE Transactions on Multimedia,vol.22,no.12,pp.3236–3248,2020.[0027] [19]A.Bora,A.Jalal,E.Price,and A.G.Dimakis“,Compressed sensing using generative models,”in Proceedings oftheInternational Conference on Machine Learning,2017,pp.537–546.
[0028] [20]A.Mousavi,G.Dasarathy,and R.G.Baraniuk,“Deepcodec:Adaptive sensing and recovery via deep convolutional neural networks,”arXivpreprint arXiv:1707.03386,2017.
[0029] [21]K.Xu,Z.Zhang,and F.Ren,“Lapran:A scalable laplacian pyramid reconstructive adversarial network for flexible compressive sensing reconstruction,”in Proceedings of the European Conference on Computer Vision,2018,pp.485–500.
[0030] [22]Y.Wu,M.Rosca,and T.Lillicrap,“Deep compressed sensing,”in Proceedings of the International Conference on Machine Learning.PMLR,2019,pp.6850–6860.
[0031] [23]Y.Sun,J.Chen,Q.Liu,B.Liu,and G.Guo,“Dual‑path attention network for compressed sensing image reconstruction,”IEEE Transactions on Image Processing,vol.29,pp.9482–9495,2020.
[0032] [24]H.Yao,F.Dai,S.Zhang,Y.Zhang,Q.Tian,and C.Xu,“Dr2‑net:Deep residual reconstruction network for image  compressive sensing,”Neurocomputing,vol.359,pp.483–493,2019.
[0033] [25]A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,Kaiser,and I.Polosukhin,“Attention is all you need,”in Proceedings ofthe Advances in Neural Information Processing Systems,2017,pp.5998–6008.[0034] [26]A.Dosovitskiy,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehghani,M.Minderer,G.Heigold,S.Gelly,J.Uszkoreit,and N.Houlsby“,An image is worth 16x16words:Transformers for image recognition at scale,”in  Proceedings  of  the  International  Conference  on LearningRepresentations,2021.
[0035] [27]H.Chen,Y.Wang,T.Guo,C.Xu,Y.Deng,Z.Liu,S.Ma,C.Xu,C.Xu,and W.Gao,“Pre‑trained image processing transformer,”in Proceedings ofthe IEEE Conference on Computer Vision andPattern Recognition,2021,pp.12299–12310.[0036] [28]Z.Wang,X.Cun,J.Bao,W.Zhou,J.Liu,and H.Li,“Uformer:A general u‑shaped transformer for image restoration,”in Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition,2022,pp.17683–17693.[0037] [29]Y.Jiang,S.Chang,and Z.Wang,“Transgan:Two pure transformers can make one strong gan,and that can scale up,”vol.34,2021.
[0038] [30]J.You,T.Ebrahimi,and A.Perkis,“Attention driven foveated video quality assessment,”IEEE Transactions on Image Processing,vol.23,no.1,pp.200–213,2014.
[0039] [31]T.Chen,H.Liu,Z.Ma,Q.Shen,X.Cao,and Y.Wang“, End‑to‑end learnt image compression via non‑local attention optimization and improved context modeling,”IEEE Transactions on Image Processing,vol.30,pp.3179–3191,2021.[0040] [32]K.Han,Y.Wang,H.Chen,X.Chen,J.Guo,Z.Liu,Y.Tang,A.Xiao,C.Xu,Y.Xu,Z.Yang,Y.Zhang,and D.Tao,“A survey on vision transformer,”IEEE Transactions on Pattern Analysis and Machine Intelligence,pp.1–1,2022.
[0041] [33]S.S.Chen,D.L.Donoho,and M.A.Saunders“, Atomic decomposition by basis pursuit,”SIAM review,vol.43,no.1,pp.129–159,2001.
[0042] [34]R.Tibshirani“,Regression shrinkage and selection via the lasso,”Journal ofthe Royal Statistical Society:Series B(Methodological),vol.58,no.1,pp.267–288,1996.
[0043] [35]A.Beck and M.Teboulle“, A fast iterative shrinkage‑thresholding algorithm for linear inverse problems,”SIAMJournal on Imaging Sciences,vol.2,no.1,pp.183–202,2009.
[0044] [36]M.V.Afonso,J.M.Bioucas‑Dias,and M.A.Figueiredo,“An augmented lagrangian approach to the constrained optimization formulation of imaging inverse problems,”IEEE Transactions on Image Processing,vol.20,no.3,pp.681–695,2010.
[0045] [37]C.Li,W.Yin,H.Jiang,and Y.Zhang,“An efficient augmented lagrangian method with applications to total variation minimization,”Computational Optimization and Applications,vol.56,no.3,pp.507–530,2013.
[0046] [38]C.A.Metzler,A.Maleki,and R.G.Baraniuk,“From denoising to compressed sensing,”IEEE Transactions on Information Theory,vol.62,no.9,pp.5117–5144,2016.
[0047] [39]D.L.Donoho,A.Maleki,and A.Montanari“, Message‑passing algorithms for compressed sensing,”Proceedings ofthe National Academy ofSciences,vol.106,no.45,pp.18914–18919,2009.
[0048] [40]M.Mardani,E.Gong,J.Y.Cheng,S.Vasanawala,G.Zaharchuk,M.Alley,N.Thakur,S.Han,W.Dally,J.M.Pauly et al.,“Deep generative adversarial networks for compressed sensing automates mri,”arXivpreprint arXiv:1706.00051,2017.[0049] [41]A.Radford,L.Metz,and S.Chintala,“Unsupervised representation learning with deep convolutional generative adversarial networks,”in Proceedings ofthe International Conference on LearningRepresentations,2016.[0050] [42]X.Wang,R.Girshick,A.Gupta,and K.He“,Non‑local neural networks,”in Proceedings ofthe IEEE conference on Computer Vision andPattern Recognition,2018,pp.7794–7803.
[0051] [43]Z.Liu,Y.Lin,Y.Cao,H.Hu,Y.Wei,Z.Zhang,S.Lin,and B.Guo,“Swin transformer:Hierarchical vision transformer using shifted windows,”in Proceedings ofthe IEEE International Conference on Computer Vision,2021,pp.10012–10022.
[0052] [44]I.Goodfellow,J.Pouget‑Abadie,M.Mirza,B.Xu,D.Warde‑Farley,S.Ozair,A.Courville,and Y.Bengio“, Generative adversarial nets,”in Proceedings of the Advances in Neural Information Processing Systems,2014,pp.2672–2680.[0053] [45]Z.Ni,W.Yang,S.Wang,L.Ma,and S.Kwong“, Unpaired image enhancement with quality‑attention generative adversarial network,”in Proceedings of the ACM International Conference on Multimedia,2020,pp.1697–1705.
[0054] [46]Z.Ni,W.Yang,S.Wang,L.Ma,and S.Kwong,“Towards unsupervised deep image enhancement with generative adversarial network,”IEEE Transactions on Image Processing,vol.29,pp.9140–9151,2020.
[0055] [47]Y.Xie,J.Zhang,C.Shen,and Y.Xia,“Cotr:Efficiently bridging cnn and transformer for 3d medical image segmentation,”in Proceedings ofthe International conference on medical image computing and computer‑assisted intervention,2021.
[0056] [48]Z.Dai,H.Liu,Q.V.Le,and M.Tan,“Coatnet:Marrying convolution and attention for all data sizes,”in Proceedings ofthe Advances in Neural Information Processing Systems,vol.34,2021,pp.3965–3977.
[0057] [49]Z.Peng,W.Huang,S.Gu,L.Xie,Y.Wang,J.Jiao,and Q.Ye,“Conformer:Local features coupling global representations for visual recognition,”in Proceedings ofthe IEEE International Conference on Computer Vision,2021,pp.367–376.
[0058] [50]S.d’Ascoli,H.Touvron,M.L.Leavitt,A.S.Morcos,G.Biroli,and L.Sagun,“Convit:Improving vision transformers with soft convolutional inductive biases,”in Proceedings ofthe International Conference on MachineLearning,2021,pp.2286–2296.
[0059] [51]T.Xiao,M.Singh,E.Mintun,T.Darrell,P.Dollar,and R.B.Girshick,“Early convolutions help transformers see better,”in′Proceedings of the Advances in Neural Information Processing Systems,2021.
[0060] [52]M.Raghu,T.Unterthiner,S.Kornblith,C.Zhang,and A.Dosovitskiy,“Do vision transformers see like convolutional neural networks?”in Proceedings ofthe Advances in Neural Information Processing Systems,2021.
[0061] [53]D.Martin,C.Fowlkes,D.Tal,and J.Malik,“A database ofhuman segmented natural images and its application to evaluating segmentation algorithms and measuring  ecological statistics,”in Proceedings oftheIEEEInternational Conference on Computer Vision,vol.2,2001,pp.416–423.[0062] [54]M.Bevilacqua,A.Roumy,C.Guillemot,and M.‑L.A.Morel,“Low‑complexity single‑imagesuper‑resolution based on nonnegative neighbor embedding,”in Proceedings of the British Machine Vision Conference,2012,pp.1–10.[0063] [55]R.Zeyde,M.Elad,and M.Protter“, On single image scale‑up using sparse‑representations,”in Proceedings oftheInternational Conference on Curves andSurfaces,2010,pp.711–730.
[0064] [56]J.‑B.Huang,A.Singh,and N.Ahuja,“Single image super‑resolution from transformed self‑exemplars,”in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.5197–5206.
[0065] [57]Z.Ni,H.Zeng,L.Ma,J.Hou,J.Chen,and K.‑K.Ma“, A gabor feature‑based quality assessment model for the screen content images,”IEEE Transactions on Image Processing,vol.27,no.9,pp.4516–4528,2018.
[0066] [58]P.Arbelaez,M.Maire,C.Fowlkes,and J.Malik“, Contour detection and hierarchical image segmentation,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.33,no.5,pp.898–916,2010.
[0067] [59]K.G.Derpanis and R.Wildes,“Spacetime texture representation and recognition based on a spatiotemporal orientation analysis,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.34,no.6,pp.1193–1205,2011.[0068] [60]P.Saisan,G.Doretto,Y.N.Wu,and S.Soatto,“Dynamic texture recognition,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,vol.2,2001,pp.II–II.
[0069] [61]R.Peteri,S.Fazekas,and M.J.Huiskes,“Dyntex:A comprehensive database of dynamic textures,”′Pattern Recognition Letters,vol.31,no.12,pp.1627–1632,2010.
[0070] [62]I.Hadji and R.P.Wildes,“Anew large scale dynamic texture datasetwith applicationto convnet understanding,”in Proceedings of the European Conference on Computer Vision,2018,pp.320–335.
[0071] [63]Y.Fang,H.Zhu,K.Ma,Z.Wang,and S.Li,“Perceptual evaluation for multi‑exposure image fusionofdynamic  scenes,”IEEETransactions onImageProcessing,vol.29,no.1,pp.1127–1138,2020.
[0072] [64]S.Kornblith,M.Norouzi,H.Lee,and G.Hinton,“Similarity ofneural network representations revisited,”in Proceedings of the International Conference on Machine Learning,2019,pp.3519–3529.

发明内容

[0073] 在本发明的第一个方面,提供了一种用于适应性地重建压缩感知数据的方法该方法包括以下步骤:接收感知数据;对感知数据进行初始重建,以获得多个第一重建分片(patch);通过重建模,对感知数据进行渐进式重建,以获得多个第二重建分片;将多个第二重建分片与多个第一重建分片相加,以获得最终分片;以及合并最终分片以获得重建数据。其中,渐进式重建包括对变换器特征和卷积特征进行串联(concatenating),以获得第二重建分片。
[0074] 优选地,重建模块包括用于产生卷积特征的卷积神经网络分支,以及用于产生变换器特征的变换器分支。
[0075] 优选地,变换器分支包括第一变换器块和第二变换器块。卷积神经网络分支包括对应于第一变换器块的第一卷积块、以及对应于第二变换器块的第二卷积块。对感知数据进行渐进式重建的步骤还包括:根据感知数据和第一卷积块的输出,在第一变换器块中生成变换器特征中的第一变换器特征;根据第一变换器特征和第二卷积块的输出,在第二变换器块中生成变换器特征中的第二变换器特征。
[0076] 优选地,第一卷积块和第二卷积块中的至少一个包括多个卷积层,而在该多个卷积层之后配置有渗漏整流线性单元(Leaky ReLU)和批规范层(BatchNorm)。
[0077] 优选地,第一变换器块和第二变换器块中的至少一个是基于窗口的变换器。
[0078] 优选地,第一变换器块和第二变换器块中的至少一个包括多头自我注意(MSA)模块、以及该多头自我注意模块之后的多层感知器(MLP)模块。
[0079] 优选地,重建模块还包括在卷积神经网络分支和变换器分支之前的输入投影模块。对感知数据进行渐进式重建的步骤还包括通过输入投影模块,增加输入到重建模块的感知数据的尺寸的步骤。
[0080] 优选地,输入投影模块包括多个1×1卷积层、以及子像素卷积层。
[0081] 优选地,重建模块还包括位于变换器分支之后的输出投影模块。对感知数据进行渐进式重建的步骤,还包括将变换器特征投影到单个通道,以获得多个第二重建分片的步骤。
[0082] 优选地,输出投影模块包括多个卷积层、以及该多个卷积层之后的双曲正切(tanh)作用函数。
[0083] 优选地,进行初始重建的步骤,是在线性初始化模块中进行的。
[0084] 优选地,线性初始化模块包括1×1卷积层和子像素卷积层。
[0085] 优选地,感知数据包括多个输入卷积分片。
[0086] 在本发明的另一个方面,提供了一种用于对压缩感知数据进行适应性重建的装置,包括一个或多个处理器;以及存储器。该存储器存储计算机可执行指令。当被执行时,这些计算机可执行指令使一个或多个处理器实现以下步骤:接收感知数据;对感知数据进行初始重建,以获得多个第一重建分片;通过重建模块,对感知数据进行渐进式重建,以获得多个第二重建分片;将多个第二重建分片与多个第一重建分片相加,以获得最终分片;以及合并最终分片以获得重建数据。其中,渐进式重建包括对变换器特征和卷积特征进行串联,以获得第二重建分片。
[0087] 在本发明的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序。该程序被处理器执行时实现以下步骤:接收感知数据;对感知数据进行初始重建,以获得多个第一重建分片;通过重建模块,对感知数据进行渐进式重建,以获得多个第二重建分片;将多个第二重建分片与多个第一重建分片相加,以获得最终块;以及合并最终块以获得重建数据。其中,渐进式重建包括对变换器特征和卷积特征进行串联,以获得第二重建分片。
[0088] 可以看出,本发明的示范性实施例提供了一种用于CS适应性采样和重建的混合网络,它整合了利用CNN的详细空间信息和变换器提供的全局背景以增强表征学习的优势。双分支结构是并发的,在不同的分辨率下,局部特征和全局表征被融合,最大限度地实现了特征的互补。这样的混合网络证明了基于变换器的专用架构在CS中的有效性。
[0089] 上述发明内容既不是为了限定本申请的要求保护的发明(其是由权利要求书来限定的),也不是为了以任何方式限制本发明的范围。附图说明
[0090] 参照本说明书的余下部分和附图可以对本发明的性能和优点作进一步的理解;这些附图中同一个组件的标号相同。在某些情况下,子标记被放在某个标号与连字符后面以表示许多相似组件的其中一个。当提到某个标号但没有特别写明某一个已有的子标记时,就是指所有这些类似的组件。
[0091] 图1是根据本发明的第一个实施例的、當CS比率为25%时CSformer的处理过程图。对于图中的运算符而言,相应的标签表示输出。
[0092] 图2是图1中的CSformer在CS比率为25%时的采样细节图,其表明传统的BCS采样可以等效地由卷积代替。
[0093] 图3是图1的CSformer中变换器分支的实施细节说明。
[0094] 图4描述了各种CS方法的视觉质量比较。从上到下一行的CS比率分别为1%、10%和50%。
[0095] 图5说明了对高斯噪声的强健性的比较。从(a)到(e)的CS比率分别为1%、4%、10%、25%和50%。
[0096] 图6显示了各种CS方法在动态纹理数据集上的视觉质量比较,而CS比率为1%。
[0097] 图7.说明了单路径CNN(SPC)、单路径变换器(SPT)和CSformer的特征图比较。
[0098] 图8显示了CNN分支和变换器分支的相似性比较。
[0099] 图9显示了没有初始化分支和有初始化分支的CSformer的比较。在每个数据集中,从左到右的采样率分别为1%、4%、10%、25%和50%。

具体实施方式

[0100] 如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
[0101] CS重建方法可以分为两类:基于迭代优化的传统方法和基于数据驱动的DL方法。此外,基于深度网络的方法可分为深度展开法和深度前馈法。基于迭代优化的传统方法,主要依靠稀疏性先验来从欠采样测量中恢复信号。一些方法通过基于L1最小化的线性编程获得重建。这类算法的例子涉及基数追求(Basis Pursuit,简称BP)[33]、最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,简称LASSO)[34]、迭代收缩/阈值算法(Iterative Shrinkage/Thresholding Algorithm,简称ISTA)[35]和乘法器交替方向法(Alternating Direction Method ofMultipliers,ADMM)。此外,一些工作通过探索图像先验因素来提高恢复性能[37],[38]。一般来说,传统的CS重建方法通常需要数百次的迭代来解决优化问题。迭代计算的要求导致了较高的计算复杂性,使许多传统方法需要几秒钟到几分钟才能重建一幅高质量的图像[11]。
[0102] 在过去的几年里,深度神经网络已经被开发用于图像CS。深度展开方法结合了传统的迭代重建和深度神经网络。这类方法将每个迭代映射到一个网络层,保留了可解释性和性能。受D‑AMP[39]的启发,Metzler等人[6]使用去噪CNN实现了学习型D‑AMP(LDAMP)。AMP‑Net[13]也应用了去噪先验,其有一个额外的解模块,并使用一个学习的采样矩阵。
此外,ISTA‑Net+[8]和ISTA‑Net++[15]设计了深度网络来模仿ISTA算法进行CS重建。
OPINE‑Net[12]也可以被视为ISTA‑Net+的变种,只是OPINE‑Net同时探索了自适应采样和恢复。展开式方法的主要缺点是由于其复杂和迭代的结构,限制了并行训练和硬件加速
[0103] 深度前馈方法不需要特定的先验,而是直接施加DL的建模能力,其不受任何约束。ReconNet[5]旨在通过CNN从CS测量中恢复图像。其重建质量和计算复杂度都优于传统的迭代算法。DeepCodec[20]没有固定采样矩阵,而是学习从信号到测量向量的转换,并使用深度卷积网络将测量结果重建为信号。Shi等人[7],[11]实现了一个卷积层来代替它,并提出了一个名为CSNet的深度网络来恢复图像。在[16]中,Sun等人设计了一个三维编码器解码器,其信道关注的动机是跳过链接,并引入了非本地正则化来探索长距离的依赖关系。
Sun等人[23]提出了一个双路径注意力网络,称为DPA‑Net,用于CS重建。两个路径网络被嵌入到DPA‑Net中,分别用于学习结构和纹理,然后由注意力模块进行组合。此外,一些方法采用生成对抗网络(GAN)进行CS[10]、[16]、[19]、[21]、[40]。Bora等人利用预先训练好的深度卷积GAN(DCGAN)[41]作为CS重建的发生器和判别器。[10]的作者提出了一个任务意识的GAN模型,该模型显示任务意识有助于提高性能。Sun等人[16]介绍了一种新型的亚像素GAN,用于学习图像的CS重建。
[0104] 最早的变换器[25]是为自然语言处理(NLP)而设计的,其中多头自我注意和前馈多层感知器(MLP)层擅长处理序列数据的长距离依赖关系。用于NLP的自我注意可以被设想为一种非局部过滤[42]操作的形式,适用于计算机视觉中。受NLP中变换器的能力的启发,VIT[26]的开创性工作将一幅图像分割成16×16的展开分片,因而成功地将变换器扩展到图像分类任务。Swin transformer[43]设计了一个分层的变换器架构,以基于移位窗的多头关注来降低计算成本。从那时起,变换器已经跃升为与CNN相提并论的模型,基于变换器的计算机视觉应用也如雨后春笋般出现。Uformer[28]借鉴了U‑Net的结构来构建变换器,以进一步提高低层次视觉任务的性能。TransGAN提出了一个GAN[44]‑[46]架构,使用纯粹的变换器来生成图像。另一方面,许多工作旨在有效结合CNN和变换器的优势[47]‑[50]。
[0105] 现在请参见图1,本发明的第一个实施例是用于CS适应性采样和重建的混合(Hybrid)网络,它整合了利用CNN的详细空间信息和变换器提供的全局背景这两个优势,以增强表征学习。在图1中,网络结构处于CS比例为25%的时候。图1中的混合框架,在本文中被称为CSformer,其被配置为进行端到端的压缩式图像传感。该网络包含采样模块20、输入投影模块22、线性初始化模块24,变换器分支26、CNN分支28、输出投影模块30、求和模块32,以及合并模块34。输入投影模块22、线性初始化模块24、变换器分支26、CNN分支28和输出投影模块30是重建模块38的一部分。采样模块20作为网络的输入,适于接收原始数据,其在本实施例中是图像x。采样模块20的输出是最终的总CS测量值,在本实施例中也被称为感知数据。感知数据可以通过通信网络(未示出)从采样模块20传送到重建模块38,其中通信网络可以是内联网、广域网(WAN)、局域网(LAN)、互联网和其他形式的数据传输介质中的一种或多种。
[0106] 重建模块38包含三个并行的分支,即线性初始化模块24、变换器分支26和CNN分支28。这意味着重建模块38收到的感知数据被并行地馈送到线性初始化模块24、变换器分支
26和CNN分支28中。变换器分支26连接到输出投影模块30,其中输出投影模块30用于将变换器特征投影到图像空间。在求和模块32中,来自输出投影模块30的输出和来自线性初始化模块24的输出被求和以获得最终分片40,最终分片40在合并模块34被合并以获得最终重建图像42。以下将描述网络中每个组件/模块的细节和它们的工作原理。
[0107] 采样模块20适用于在图像分片中逐块采样,这些块是从图像中通过非重叠的方式分割出来的。分割后的图像分片可以表示为Xp={x1,x2,...,xi}。采样矩阵被每个分片中学习到的卷积核取代。然后,相应的测量结果可以表示为Yp={y1,y2,...,yi}。特别是,假设H× ×1是输入整体图像x∈R W 的分片i,采样操作发生在分片xi。基于块的CS
(BCS)在分片xi中进行处理,其将一个分片分解为B×B个非重叠的块。那么块的数量是每个块都被矢量化,随后通过测量矩阵Φ进行采样。假设xij是输入分片xi的块j。
相应的测量值yij通过yij=Φxij得到的,其中 和 代表采样率。那么输入分片xi的测量值 是通过堆叠每个块来获得的。在这个实施例中,采样过程被具有适当大小的滤波器和跨度的卷积操作所取代,如图2所示。采样卷积可以被表述为其中WB对应于包括由m个具有B×B尺寸的滤波器组成的无偏置卷积层,而跨
度等于B。在对分片xi进行卷积运算后,可以得到最终的总CS测量值yi。如图2的例子所示,大小为4×4×64的CS测量值yi,可以从尺寸为64×64且采样率为25%的输入分片xi中获得,这通过使用64个内核大小为16×16、跨度为16的滤波器的卷积层实现。在这种情况下,Hp=Wp=64,B=16以及m=64。事实上,采用经过学习的卷积核而不是采样矩阵,可以有效地利用图像的特性,并使输出的测量值更容易被用于接下来的重建模块38。
[0108] 线性初始化模块24包括两个连续的操作,分别在1×1卷积层24a和紧接其后的具有16×的上采样率的子像素卷积层24b上进行,以获得初始重建 线性初始化模块24作为初始化分支,模仿了传统压缩感知的重建,但以可学习和高效的方式产生初始重建。给定了CS测量值的情况下,传统BCS通常通过 获得初始重建块,其中xij是 的重建,而 是Φ的伪逆矩阵。在本实施例中,初始化过程利用了1×1×m卷积来代替不同的是,可以直接在yi上实现卷积层24a来恢复初始分片。初始化首先采用具有核大小为
2 2
1×1×m的B滤波器来将测量值yi的维度转换成B。随后,之后的子像素卷积层24b被使用来获得初始重建分片 例如,尺寸为4×4×64的测量值被转换为为当CS比率为25%时尺寸为64×64×1的初始重建。总之,本实施例使用卷积和子像素卷积来获得每个初始重建,这是一个更有效的方法,因为输出直接是张量而不是矢量。
[0109] 如图1所示,输入投影模块22位于CNN分支28和变换器分支26之前。作为测量值的感知数据,被作为输入投影模块的输入,该模块包含几个1×1卷积层22a来逐渐增加维度,然后再紧接其后的2×的上采样率的子像素卷积层22b来获得大小为H0×W0×C0(默认设置为H0=W0=8)的输入特征Fin。该输入特征Fin匹配CNN的输入特征大小H0×W0×C0和变换器的输入特征大小H0×W0)×C0.
[0110] 主干恢复网络由CNN分支28和变换器分支26组成。每个分支都包含四个带有上采样层的块,以逐步重建特征,直到对齐分片尺寸。在这两个分支中,卷积特征都被用来提供补充变换器特征的局部信息。CNN分支28由多个阶段组成。第一阶段将来自输入投影模块22的投影输出特征Fin作为输入。然后,该特征经过第一个卷积块28a,得到大小为H0×W0×C0的特征 每个卷积块28a‑28d由两个卷积层(未示出)组成,紧接着是渗漏整流线性单元和批规范层。每个卷积层的核大小为3×3,并以1作为填充大小,且输出通道与输入通道相同。因此,在每个卷积块28a‑28d之后,分辨率和通道大小都保持一致。为了扩大到更高的分辨率特征,在其余的卷积块(即卷积块28b‑28d)之前增加了上采样卷积模块28e。上采样卷积模块28e首先采用双立方上采样来提高前一特征的分辨率,然后1×1卷积层(未示出)被用i
来将维度降低一半。因此,CNN分支28的输出特征可以表示为 其中Hi=2 ×
i
H0,Wi=2×W0,
[0111] 来看变换器分支26。变换器分支26的目的是根据卷积特征为具有渐进特征的全局修复提供进一步指导。如图1所示,在变换器分支26中有四个变换器块26a‑26d。每个变换器块26a‑26d对应于卷积块28a‑28d中相对应的一个。如图3中的(b)部分所示,每个变换器块i26a‑26d堆叠了L个变换器网络。图3中的(a)部分显示了通过将变换器特征F t和CNN特征进行串联得到的特征聚合。每个变换器块26a‑26d的输入是连接卷积特征和变换器特征的聚合特征。聚合特征通过连接方式融合了来自CNN的局部特征和来自变换器的全局特征。CNN分支28和变换器分支26的特征尺寸是不一致的,因此需要重塑CNN特征以与变换器特征相一致。大小为Hi×Wi×Ci的CNN的二维特征图,需要被展开(flatten)为一维序列以供变换器使用。从图3中可以看出,聚合特征是通过串联这两个特征作为变换器块的输入。值得一提的是,第一变换器块26a的输入聚合特征 是通过如图1所示的Fin和 串联得到的。
通过这种方式,第一变换器块26a充分利用了测量中的信息,并引入了CNN的局部特征。
[0112] 在第一变换器块26a之后,得到了具有大小为(H0×W0)×2C0的变换器特征 该变换器特征与下一阶段的CNN特征之间的错位被进一步消除了。首先, 的一维序列被重塑为二维特征图,尺寸为H0×W0×2C0。随后,一个子像素卷积层(未示出)被用来对分辨率进行比率为2×的上采样,并将通道尺寸减少到输入的四分之一。变换器特征和CNN特征之间的空间维度和通道维度的对齐已经完成。然后,通过串联变换器特征和CNN特征得到聚合特征。j
聚合特征可表示为 其中Hj=2×H0, 从图
1和图3可以看出,第二变换器块26b的第二聚合特征 通过 和 串联,并且在第二变换器块26b之后,得到了变换器特征 第三变换器块26c的第三聚合特征 通过 和 串联,并且在第三变换器块26c之后,得到了变换器特征 第四变换器块26d的第三聚合特征 通过 和 串联,并且在第四变换器块26d之后,得到了变换器特征 变换器特征 是变换器分支26的输出(也是CNN分支28的输出),接着被送入输出投影模块30。
[0113] 标准变换器将一系列序列(令牌)作为输入,并在所有令牌之间全局计算自我注意力。然而,如果在CS重建的变换器中,每个像素都被当作一个标记,那么序列就会随着分辨率的提高而增长,从而导致更大分辨率下的计算复杂性爆炸性增长。例如,即使是一张32×2
32图像也会导致1024个序列,并且有着1024 自注意的成本。为了解决上述问题,本实施例中的方法执行了基于窗口的变换器。给定变换器的输入融合特征为 可以
首先将 与可学习的位置编码 然后,该特征被划分为P×P个不重叠的窗
2
口。该特征被分割成 的大小,其中窗口的总数是 在每个P窗口中计算出
多头自我关注。在每个窗口中,特征 i是由自我注意计算出来的,其中h是多头自我关注中的头数。首先,查询、键和值矩阵的计算方法是:
[0114]
[0115] 其中WQ,WK和WV为大小是Cj/h×d的投影矩阵。随后,自我关注可以通过以下方式表述:
[0116]
[0117] 其中O(·)表示自我注意操作,σ(·)是softmax函数,而Er是可学习的相对位置编码。多头自我关注被执行为并行进行h次自我关注,并将结果串联起来,得到输出。基于窗口的MSA大大降低了计算和GPU内存成本。
[0118] 然后,MSA的输出通过由两个全连接层组成的MLP,该层具有高斯误差线性单元(GELU)激活功能,用于非线性转换。如图3的(b)部分所示,层规范τ(·)被插入到MSA和MLP之前,整个转换过程可以表述为:
[0119]
[0120] 在变换器特征达到输入分辨率(Hp,Wp)后,输出投影模块30被用来将变换器特征投影到图像空间。在经过输出投影之前,变换器特征首先被塑造成二维特征。输出投影由两个卷积层和一个tanh作用函数(它们均未示出)组成,tanh作用函数将变换器特征映射到单通道重建分片。然后,在求和模块32,来自变换器分支26的重建分片与来自线性初始化模块24的初始重建分片相加,得到最终分片 然后在合并模块34处将最终分片 全部合并起来,得到最终的重建图像。
[0121] 接下来简要介绍一下CSformer中应用的损失函数。CSformer的参数是通过最小化输出重建图像x^和基准真相(ground‑truth)图像x之间的均方误差(MSE)来优化的,具体如下:
[0122]
[0123] 值得一提的是,本实施方案中的方法是基于分片重建的,而损失函数是在整个图像上计算的。因此,在没有其他后处理解锁模块的情况下,伪影被削弱了。
[0124] 在图1‑3中描述了混合网络的结构及其工作原理后,接下来描述的是训练设置以及评估数据集,然后是使用混合网络的方法(以下简称“建议的方法”)在不同测试数据集上,与现有技术中最优的方法进行比较的实验结果。然后,通过与CSformer的一些变化形式的结果进行比较,对建议的方法的有效性进行了分析。最后,对计算复杂性和运行时间进行了比较。
[0125] 众所周知,训练视觉变换器对数据的要求很高。因此,这里使用COCO 2017无标签图像数据集进行训练,这是一个大规模的数据集,由超过12万3千张高多样性图像组成。为了减少训练时间,值得一提的是,只使用了整个训练集的四分之一,即大约4万张图像进行训练。此外,CSformer还在BDS400数据集的400张图像的小型数据集上进行了训练[53]。该方法在各种广泛使用的基准数据集上进行了评估,包括Set11[5]、BSD68[53]、Set5[54]、Set14[55]、Urban100[56]。SET11和BSD68数据集分别由11张和68张灰色图像组成。Urban100数据集包含100幅高分辨率的、具有挑战性的城市图像。Set5和Set14数据集分别有5和14张不同分辨率的图像。彩色图像的亮度成分被用于训练和测试。测试图像被划分为重叠的分片,用于在实际执行中进行测试。在1%到50%的采样率范围内,重建结果被报告。
峰值信噪比(PSNR)和结构相似度指数(SSIM)被作为评价指标。
[0126] 训练图像被裁剪成128×128的图像作为输入,即H=W=128。固定分片的大小为Hp=Wp=64。在采样过程中,采样卷积核的大小被设定为B=16,即16×16卷积层,跨度=16。输入投影C0的输出特征维度被设置为128。基于窗口的多头自我关注的窗口大小,对于所有的变换器块而言被设定为P×P=8×8。每个变换器块堆叠L=5个变换器网络。一张Nvidia 
2080Ti卡用于在Pytorch上训练模型,并通过Adam优化器优化模型。学习率最初设定为2×‑4 ‑6
10 ,采用余弦衰减策略将学习率降低到1×10 。迭代次数为50,000次,训练时间约为1.5天。
[0127] 接下来,介绍了在不同测试数据集上使用混合网络与现有技术中最优的方法进行比较的实验结果。为了便于比较,CSformer的性能在五个广泛使用的测试集上进行了评估,并与最近四个基于DL的CS的现有技术中最优的代表性方法进行了比较,包括CSNet+[11]、DPA‑Net[23]、OPINE‑Net[12]和AMP‑Net[13]。其他方法的结果是通过他们的公共预训练模型得到的。
[0128] 为了显示对多个数据集的综合性能比较,按照[57]中的建议,利用两个常用的平均度量来评估五个测试数据库的平均性能。这两个平均指标可以定义如下:
[0129] 其中,D表示数据集的总数(本示例中D=5),si表示第i个数据集上的性能指数(如PSNR、SSIM)值,βi是第i个数据集上的相应权重。第一个平均测量是直接平均,其βi=1。第二个平均测量是加权平均,其βi被设定为第i个数据集的图像数量(例如,对于S11数据集而言为11,对于URBAN100数据集而言为100)。
[0130] 表一显示了不同方法在不同CS比率下对所有五个数据集的平均PSNR和SSIM性能。CSformer的下标代表了使用的训练集。可以明显看出,在COCO数据集上训练时,CSformer在所有数据集上的不同比率下都取得了最高的PSNR和SSIM结果。该方法在Urban100数据集的所有CS比率中都取得了较大的差距(1~2dB),而Urban100数据集包含了更多具有较大分辨率的图像。直接平均数和加权平均数显示,CSformer在比较中优于所有现有技术中最先进的模型。与其他方法相比,在BSD400数据集上训练的建议的方法在大多数采样率下的五个测试数据集中也取得了最佳结果。另一方面,与在大数据集上的训练相比,CSformerbsd400的性能有一些下降。这一趋势在文献[26]中也有提及,这表明变换器可能会受益于有足够图像的大数据集。实验结果表明,在所有采样率都能达到最佳性能的前提下,CSformer对极限采样具有更好的泛化能力和恢复能力。
[0131] 表一
[0132] PSNR/SSIM在不同测试数据集上的不同CS比率的性能比较。最好的结果显示在最后一列,第二好的结果以黑体字显示。
[0133]
[0134]
[0135] 为了验证所提出的方法的有效性来自于所设计的结构,而不是因为在更大的数据集上进行了训练,首先,AMP‑Net和OPINE‑Net以相同于建议的方法的方式在COCO数据集上进行了重新训练,以进行公平比较。这些结果显示在表二中。原始的AMP‑Net是在BSD500数据集上训练的[58],而OPINE‑Net是在T91数据集上训练的[5]。如表二所示,CSformer在同一训练数据集下取得了最高的PSNR结果。与在BSD500数据集和T91数据集上训练的模型相比,其他两种方法的性能在多个数据集上都有不同程度的提高或下降。此外,AMP‑Net和OPINE‑Net在不同训练集上的表现也很有趣,值得分析。OPINE‑Net的性能与原来的相比普遍有所提高,在大多数情况下超过了AMP‑Net,而AMP‑Net在重新训练后的性能在不同的数据集上也有所不同。一方面,表一中OPINE‑Net的性能比AMP‑Net差的原因很可能是由于训练样本小(T91
[0136] 表二PSNR/SSIM在不同测试数据集上的不同CS比率的性能比较。
[0137]
[0138]
[0139] 在图4中,显示了所有方法在CS比率为1%、10%和50%时的重建图像。与其他方法相比,CSformer恢复了更多精细的细节和更清晰的边缘。图4中可见的结果显示,在CS比率为50%时,CSformer产生了更多的精细纹理,但在其他比率下往往会产生模糊的纹理,因为建筑物顶部区域的纹理相对模糊。这也可能表明,在变换器分支的帮助下,所提出的方法对长距离的依赖性具有令人满意的恢复能力。视觉质量的比较清楚地表明了CSformer的有效性。总的来说,与几种竞争方法的定量和定性比较验证了CSformer的优越性。
[0140] 为了验证所提方法的稳健性,遵循了[23]中的评估设置。在测试过程中,五级具有不同标准方差的零均值高斯噪声被添加到测量中。噪声的标准方差包括0.01、0.05、0.1、0.25和0.5。然后,从噪声测量中重建图像。图5显示了在五种CS比率下噪声的各种标准方差的性能。可以看出,在不同的CS比率下,CSformer在所有五个噪声平上都取得了最佳性能。与其他方法相比,CSformer显示出对噪声破坏的强大强健性。
[0141] 除了标准的测试数据集之外,还测试了动态纹理[59]‑[61]的适用性。首先,建立了一个基于动态纹理数据库(DTDB)[62]的测试数据集,这是一个大规模的动态纹理数据集,有超过10000个视频。从不同的视频中选取5场景(波浪、、烟雾、半透明物体、旋转运动的动态纹理和粒子物体),形成一个包含30幅图像的数据集。结果显示在表三和图六中。可以看出,建议的方法在动态纹理图像重建中取得了最好的性能。视觉质量比较结果表明,建议的方法在纹理和结构方面更接近于基准真相。
[0142] 表三
[0143] 在选定的动态纹理数据集上,不同采样率的PSNR/SSIM性能比较。最好的结果以黑体显示
[0144]
[0145] 接下来,研究了对光照条件的影响。在这一节中,目的是通过建议的模型来探索光照条件如何影响图像质量。建议的方法在MEF数据集[63]上进行评估,该数据集包含20个动态场景的多重曝光序列。每一个序列都包含了代表曝光不足、曝光过度和中间捕获的三张图像。然后在这三种不同的条件下测试所提出的方法。结果见表四。可以看出,曝光过度和曝光不足的重建性能要好于这两者之间(即介于不足和过度之间)的捕获。一个可能的原因是,在不利的照明条件下,图像包含的信息(纹理、结构等)较少,更容易重建。
[0146] 表四
[0147] PSNR/SSIM在MEF数据集[63]不同光照条件下的性能比较。最好的结果以黑体显示[0148]
[0149]
[0150] 接下来,提供了消融研究。表五显示了不同维度的结果,其中下标代表C0的维度。较小的CSformer64能够在五个数据集上取得良好的性能。CSformer128在大多数CS比率上都优于CSformer64。最大的改进出现在Urban100数据集上,平均具有0.4dB。此外,在Set11和Set14上也有大约0.2dB的PSNR增益。较大的CSformer256比CSformer128取得了约0.1~0.2dB的收益,但有最大的参数数量。
[0151] 表五不同的模型大小下PSNR的性能比较。最好的结果以黑体显示
[0152]
[0153] CSformer是一种双分支模型,旨在将卷积在提取局部特征方面的效率与变换器在建模全局表征方面的能力相结合。为了评估这两个分支的好处,分别建立了两个单路径模型,一个名为“SPC”,采用单一CNN路径,另一个是“SPT”,只使用变换器分支进行重建。值得一提的是,单路径模型不仅仅是在CSformer上删除一个分支,而是调整SPC和SPT的层数和尺寸,使模型的参数数量和每秒浮点运算次数(FLOPs)与CSformer接近。因此,为了进行公平的比较,SPC的卷积块的层数被增加。然后,对于SPT,在变换器块之前再增加一个1×1的卷积,并设置C0=256,以保持变换器块中分辨率和尺寸的一致性。此外,初始化分支和所有其他模块都保持不变。测试是在Urban100数据集和Set11数据集上进行的,如表六和表七所示。表中示出了参数的数量和恢复一幅256×256的图像的FLOPs。在Urban100数据集上,CSformer在不同的CS比率下显示出卓越的PSNR性能,比SPT最多提高0.84dB,比SPC提高2.89dB。差距随着采样率的增加而增大,并在CS比率为50%时达到最大的差距。CSformer的优胜在高比率下更为明显。其原因可能是由于SPC在高CS比率下缺乏长距离的依赖性,所以从测量中进行的特征提取不足。对于SPT,干线恢复网络根据初始重建恢复残差,而在高采样率下,初始重建相对充分。因此,CNN提供的详细和局部信息对最终重建更有帮助。在Set11数据集上,SPC的性能在所有CS比率下都低于SPT和CSformer。CSformer在CS比率为
1%时显示出较好的结果,而在其他比率下比SPT的性能略有下降。这部分是由于参数数量的增加,部分反映了变换器网络的强大建模能力。同时,CSformer在Urban100数据集上的作用比Set11数据集上的作用更为关键。原因可以归结为Urban100数据集有更多的纹理数据,使得局部信息对重建更有帮助。在这种情况下,卷积对于图像局部特征的提取更加有效和实用。
[0154] 表六在Set11上,建议的CSformer与单路径CNN(SPC)和单路径变换器(SPT)的PSNR性能比较
[0155]
[0156] 表七
[0157] 在Urban100上,建议的CSformer与单路径CNN(SPC)和单路径变换器(SPT)的PSNR[0158] 性能比较
[0159]
[0160] 接下来,通过特征可视化和特征相似性来研究CNN和变换器之间内部特征表示的差异。图7中的特征图首先被可视化了。可以看出,SPC比SPT更注重于局部的精细细节。相比之下,SPT比SPC更善于捕捉长距离的相互作用,特别是在早期层。一个可能的原因是CNN在早期层的感受野很小。与CSformer相比,SPT倾向于激活更多的全局区域而不是局部区域。此外,在CNN提取的局部信息的帮助下,CSformer保留了详细的纹理。该图显示了CSformer在连接局部特征和全局表示方面的能力,它通过从早期层开始的卷积增强了特征的局部性。早期的局部干预是对变换器特征的有益补充。
[0161] 在图8中,CNN特征和变换器特征是分别从CNN分支和变换器分支中提取的。从表示相似性的度,使用中心核对齐[64]分析了这些特征。值得一提的是,变换器特征已经包含了CNN特征,作为变换器块输入的融合特征。观察到变换器块的低层与CNN的深层相似。这表明变换器从一开始就有很好的捕捉长距离依赖的能力,而CNN则需要更多的卷积层的堆叠来增强长距离的特征依赖。此外,它表明CNN的特征在早期层比深层起着更关键的作用。中间层特征显示出弱的相似性,这表明变换器特征显示出更多的主导作用。深层显示出适度的相似性,这说明CSformer在深层平衡了局部和全局的表示。
[0162] 为了弄清建议的方法的架构设计的有效性,进行了实验,将CSformer与下列集合模型进行比较。1)双CNN分支(DCS),其使用两个CNN分支;2)双变换器分支(DTS),其使用两个变换器分支;3)转置变换器和CNN分支(TTCS),其将图1中的变换器分支和CNN分支进行互换,使得CNN分支输出。为了进行公平的比较,CNN分支或变换器分支的层数被调整为接近所有比较变体的参数数。所有的训练设置和框架的其他部分保持不变。结果显示在表八中。CSformer在五个数据集的所有CS比率中取得了最佳性能。可以看出,在大多数情况下,变换器显示出比CNN更好的性能。此外,与TTCS相比,CSformer明显提高了性能,这表明CNN分支和变换器分支的结构设计有很大影响。
[0163] 表八
[0164] 在不同的测试数据集上,PSNR/SSIM在不同的CS比率下的性能比较。最好的结果显示在最后一栏,第二好的结果以黑体显示。
[0165]
[0166]
[0167] 除了用于重建的变换器和CNN的双分支,另外还有一个分支是初始化,它将测量值作为输入并产生初始重建。这样,CSformer采用全局残差学习进行重建,可以帮助变换器和CNN分支加速收敛,进一步提高重建质量。在图9中,比较了没有初始化分支和有初始化分支的CSformer。可以看出,初始化分支有助于提高性能,特别是在较高的CS比率下。
[0168] 采样矩阵和重构块的大小可能会影响CS的性能。对于使用学习采样卷积而不是采样矩阵的方法,采样矩阵的大小与卷积的采样块的大小相对应。而块的大小代表了Hp、Wp。表九显示了不同大小的采样块(SB)和分片(PT)的结果。SB和PT后面的数字表示尺寸,其中SB16,PT32表示采样块尺寸为16×16,分片尺寸为32×32。对于PT32的模型,与PT64相比,网络结构的层数和其他参数保持不变,只改变输入块的大小,即输入特征大小H0×W0=4×4。对于不同的SB大小,只改变卷积块大小B。如表九所示,较大的重建分片尺寸总是比较小的分片尺寸表现得更好。较大的分片尺寸可能会产生更好的性能,但考虑到计算的复杂性,因此选择了64的分片尺寸。其次,在相同的分片尺寸下,比较不同的采样块尺寸的性能显示,在较低的采样率和Urban100数据集的50%采样率下,16x16块往往有更好的性能。因此,默认采用16的块大小。总的来说,在大多数情况下,差距并不明显。所提出的方法在SB16和32的大小下都能取得良好的性能。
[0169] 表九不同大小的采样块(SB)和分片(PT)在变换器上的PSNR性能比较。最好的结果用黑体表示
[0170]
[0171]
[0172] 表十提供了CS比率为50%时各种CS方法的参数数、FLOPs以及重建256×256图像的耗时分析。考虑到利用了变换器模型和CNN模型,所提方法的总参数仍比使用双路径CNN结构的DPA‑Net低30%。而且与其他方法相比,所提出的方法的FLOPs是最小的。虽然运行时间增加,但CSformer的性能和泛化能力是最好的。
[0173] 表十重建256×256图像的模型大小和运行时间(秒)的比较
[0174]
[0175] 综上所述,可以看到CSformer是一种混合框架,它将变换器与CNN结合起来,用于图像CS的自适应采样和重建。它为端到端的压缩式图像传感进行了精心设计,由自适应采样和恢复组成。在采样模块中,图像被学习到的采样矩阵逐块测量。在重建阶段,测量结果被投影到初始化分支、CNN分支和变换器分支。为了充分利用变换器和CNN的互补特征,引入了渐进式重建,用额外的初始化分支聚合多尺度特征,这是为图像CS所深思熟虑设计的,以平衡复杂性和性能。渐进式重建策略对特征图进行处理,通过多尺度特征增强特征表示,同时降低内存成本和计算复杂性。初始化分支模仿传统的压缩感知重建,但以可学习和有效的方式生成初始重建。CNN分支和变换器分支是并发的,同时计算细粒度和长距离的特征,并有效地聚合它们。由CNN分支和变换器分支组成的两个并发的分支产生了两个具有不同分辨率的特征图。这样的结构自然地整合了最大程度地利用CNN的详细空间信息和变换器提供的全局背景的优势。此外,还探索了一种渐进式策略和基于窗口的变换器模块,以减少参数和计算的复杂性。实验结果证明了基于变换器的专用架构在压缩感知方面的有效性,在不同的数据集上与最先进的方法相比取得了卓越的性能。
[0176] 与目前流行的基于CNN的方法相比,CSformer有以下几个方面的优势:(1)自我注意机制保证了图像和注意权重之间的内容依赖性。注意力机制与人类的视觉和感知系统密切相关[30],并能实现空间上的自适应特征激活,且重点放在更有挑战性的区域(如丰富的纹理、显著性等)[31]。(2)与只关注局部特征的CNN相比,变换器擅长长距离的特征,这使得它可以很容易地得出可能有助于重建的全局信息[32]。(3)建议的方法中的CNN分支为变换器提供了一种局部性,但其在处理长距离的依赖关系方面有所欠缺。(4)渐进式重建平衡了复杂性和效率。据本发明人所知,CSformer是第一个将变换器应用于CS的工作。实验结果表明,建议的方法具有良好的性能,并优于现有的迭代方法和基于DL的方法。这项工作的主要贡献可以总结为以下几点。1)CSformer是一种混合框架,它将变换器与CNN耦合起来,用于图像CS的自适应采样和重建。CSformer既继承了CNN的局部特征,也继承了变换器的全局表示。2)为了充分利用变换器和CNN的互补特征,引入了渐进式重建,用额外的初始化分支聚合多尺度特征,这是为图像CS设计的,以平衡复杂性和性能。3)大量的实验证明了CSformer的优越性。揭示了变换器与CNN结合用于CS的巨大潜力。
[0177] 以上对本发明的示范性的实施方案进行了充分的描述。尽管描述中提到了特定的实施方案,但对于本领域的技术人员来说,很清楚本发明可以通过这些具体细节的变化来实施。因此,本发明不应解释为仅限于本文所述的实施方案。
[0178] 虽然在附图和前述描述中已经详细说明和描述了本发明的实施方案,但应将其视为说明性的,而不是限制性的,应理解为只显示和描述了示范性的实施方案,并不以任何方式限制本发明的范围。可以理解的是,这里描述的任何特征都可以用于任何实施例。说明性的实施方案并不排斥彼此或本文未述及的其他实施方案。因此,本发明还提供了包括上述一个或多个说明性实施方案的组合的实施方案。在不背离本发明的精神和范围的情况下,可以对本发明进行修改和变化,因此,只应施加所附的权利要求书所表明的限制。
[0179] 根据本文公开的实施例的系统和方法的功能单元和模块可以使用计算装置、计算机处理器或电子电路来实现,包括但不限于根据本公开的教导配置或编程的特定应用集成电路(ASIC)、现场可编程阵列(FPGA)和其他可编程逻辑装置。在计算装置、计算机处理器或可编程逻辑装置中运行的计算机指令或软件代码,可由软件或电子技术领域的熟练人员根据本公开内容的教导轻易地编制。
[0180] 根据本实施例的所有或部分方法可以在一个或多个计算设备中执行,包括服务器电脑、个人电脑、笔记本电脑和移动计算设备,如智能手机和平板电脑
[0181] 本实施方案包括计算机存储介质、瞬时和非瞬时存储设备,其中存储有计算机指令或软件代码,可用于对计算机或微处理器进行编程以执行本发明的任何过程。存储介质、瞬时和非瞬时计算机可读存储介质可以包括但不限于软盘、光盘、蓝光光盘、DVD、CD‑ROM、磁光盘、ROM、RAM、闪存设备或适合存储指令、代码和/或数据的任何类型的介质或装置。
[0182] 根据各种实施例的每个功能单元和模块也可以在分布式计算环境和/或云计算环境中实现,其中机器指令的全部或部分由一个或多个处理设备以分布式方式执行,这些设备通过通信网络,如内联网、广域网、局域网、互联网和其他形式的数据传输介质相互连接。
QQ群二维码
意见反馈