随着医学成像技术的不断发展,医学图像在现代医学诊断和治疗中发挥着不可或缺的作用。常见的医学图像包括磁共振图像(MRI)、计算机断层扫描(CT)图像、正电子发射断层(PET)图像和单光子发射计算机断层(SPECT)图像等。然而,由于成像原理的差异,不同模态的医学图像显示的疾病信息不同[1],例如CT图像主要显示骨骼、血管和软组织钙化等;MRI显示高分辨率的软组织结构信息;PET和SPECT图像主要显示组织、器官或病变的功能性信息。每种成像模态都有其局限性和特点,仅凭单模态的图像往往无法提供全面、准确的医学信息。医生通常需要整合来自同一位置的多种模态的图像来进行诊断。如果仅凭医生的空间想象和推测对多种模态的医学图像进行分析,将耗费大量时间和精力,分析精度也会受到主观影响。因此多模态医学图像融合技术应运而生。将不同模态的医学图像整合成一个融合图像,可以弥补各模态的不足,提高图像的对比度、分辨率和空间定位能力,提供更全面、准确和可靠的医学信息,进而提高疾病诊断的效率和准确性[2]。
为了实现多模态医学图像融合,现有研究已经提出了多种融合算法,主要分为传统算法和深度学习算法两大类。传统算法中,常用的方法包括空间域和变换域两种:空间域方法直接对图像像素进行运算,容易造成空间失真,变换域方法对图像多尺度分解后的系数进行处理。因为该过程与人类视觉系统以多分辨率方式处理信息的过程类似[3],所以采用变换域方法产生的融合图像更有助于人眼视觉观察[4],因此受到了学者的广泛研究。Yin等[5]使用加权局部能量和拉普拉斯算子作为活动水平对分解后得到的低频图像进行融合。Zhu等[6]结合局部相位一致性、局部突变度量、局部能量信息和局部拉普拉斯能量作为活动水平对分解后得到的多尺度图像进行融合。Dogra等[7]利用引导图像滤波器和图像统计规则对分解后得到的基层分量进行融合。尽管上述方法通过多尺度分解提高了融合图像的视觉效果,但复杂的特征提取和融合规则都需要人工设计。
基于深度学习的方法可以从大量的数据中自主学习特征表示和融合规则,具有更强的泛化能力和适应性,同时也能解决因人为主观判断错误导致的特征提取不准确和不完整问题,被广泛应用于图像融合领域。Zhang等[8]提出了一种端到端的模型IFCNN,不需要任何后期处理。Li等[9]利用卷积层和密集块组成的编码器对源图像的显著特征进行提取。Fu等[10]结合残差注意力和特征金字塔注意力的优势,提出了MSRPAN网络,能够更好地捕获源图像的深层特征。然而,由于医学图像融合缺乏金标准,因此无法对融合结果进行有效约束。
生成对抗网络(GAN)通过生成器和鉴别器之间的对抗博弈最小化融合图像与真实图像的概率分布差异[11],从而对融合过程进行约束。近些年,该方法在图像融合领域取得了巨大进步。Ma等[12]提出了FusionGAN模型,尽可能地保留具有高分辨率的源图像的信息。Zhao等[13]结合密集块和编码器提出了DCGAN模型,进一步加强生成器网络的特征提取能力。上述模型均使用一个生成器和一个鉴别器进行对抗训练,导致在融合过程中损失了另一源图像的信息。为了解决该问题,Ma等[14]提出了DDcGAN模型,引入两个鉴别器分别和一个生成器进行对抗,同时保留了两个源图像的显著信息。
虽然上述模型通过生成器和鉴别器之间的对抗博弈取得了较好的融合效果,但在图像特征提取过程中没有考虑到人类视觉系统的特点,而是采用单一尺度卷积层提取图像的特征,导致在融合过程中丢失了源图像的多尺度信息,不利于人类视觉观察。为了解决上述问题,本文提出一种基于生成对抗网络和多尺度空间注意力的多模态医学图像融合方法(multiscale spatial attention GAN,MSAGAN)。本文主要贡献和创新点如下。
(1)为了确保在训练过程中不丢失任何一种模态图像的信息,整个算法框架采用两个鉴别器和一个生成器进行对抗训练,使生成器生成的融合图像同时保留两种源图像的显著特征。
(2)为了捕获源图像的多尺度特征和细节信息,本文构建一个多尺度空间注意力(multiscale spatial attention,MSA)模块作为编码器进行特征提取的基本模块。该模块采用多尺度结构捕获医学图像的多尺度特征,并利用注意力机制更全面地保留图像的细节信息。
GAN是一种无监督的图像生成模型,由生成器(G)和鉴别器(D)两部分组成[15]。通过它们之间的对抗训练,GAN可以估计样本的概率分布并生成新的数据。生成器的目标是根据输入的噪声z生成与训练集特征相似的数据G(z)。鉴别器的目标是尽可能区分G(z)和真实数据。在训练过程中,生成器和鉴别器交替进行训练,生成器根据鉴别器的判别结果不断更新参数,提高生成能力。鉴别器则跟随生成器的优化不断更新网络参数,以提高自身的判别能力。生成器和鉴别器通过不断地对抗博弈,最终可以达到纳什均衡状态[16],即无论生成器和鉴别器的网络参数如何调整,鉴别器都无法区分真实数据和生成数据。G和D的对抗过程为
Ez~Pz(z)[log(1-D(G(z)))]。
(1)
式中:E为数据的期望;x为输入样本;Pdata(x)和Pz(z)分别为真实数据和噪声的分布;D(x)为鉴别器判断真实数据是否真实的概率;D(G(z))为鉴别器判断生成数据是否真实的概率。
Li等[17]提出了特征金字塔注意力(feature pyramid attention, FPA)模块用于图像分割,该模块结合注意力机制和金字塔结构的优势,提取图像不同尺度的特征并增强获取图像语义上下文信息的能力,原理如图1所示。FPA模块利用金字塔结构融合不同尺度的信息,从而更精确地整合相邻尺度上下文特征。将卷积神经网络提取的原始特征经过1×1卷积后与金字塔特征逐像素相乘,并且通过引入全局平均池化分支,进一步提升FPA模块的性能。该模块的计算过程可表示为
H(x)=(1+P1(P2(P3(x))))·V(x)。
(2)
图1 特征金字塔注意力模块
Figure 1 Feature pyramid attention module
式中:H(x)为输出特征;V(·)为卷积操作;P1、P2和P3分别为金字塔网络的3层卷积操作。
本文将多模态医学图像融合问题转化为一个条件生成对抗模型训练问题,构建一个拥有双鉴别器的生成对抗网络MSAGAN,实现多模态医学图像融合。整个模型的框架如图2所示。
图2 MSAGAN整体框架图
Figure 2 Overall framework of MSAGAN
在给定多模态医学图像的情况下,该模型的最终目标是训练生成器G,使其能够生成一个融合图像,该图像同时包含输入的两种模态图像的特征。生成器的主要任务是对输入的图像进行特征提取、融合和重建,生成融合图像。鉴别器由D1和D2两部分组成,每个鉴别器都用于判别生成器生成的融合图像和其中之一的真实参考图像,并将结果反馈给生成器以更新网络参数。通过两个鉴别器与生成器之间的对抗训练,确保生成器生成的融合图像能够同时保留输入的两种模态图像的显著特征。G和D的对抗关系为
D1(G(x1,x2)))]+E[log D2(x2)]+
E[log(1-D2(G(x1,x2)))]}。
(3)
生成器和鉴别器交替进行训练。通过生成器和两个鉴别器之间的对抗过程,生成器所生成的融合图像G(x1,x2)的概率分布与两个真实图像x1、x2的概率分布越来越相似,从而使生成的融合图像能够同时保留输入的多模态医学图像的特征信息。模型整体的训练流程如下所示。
算法1 MSAGAN训练流程。
参数描述:生成器G、鉴别器D1和D2的训练次数分别为IG、ID1和ID2;Imax为网络迭代训练的最大次数;Lmax和Lmin分别为生成器和鉴别器对抗损失的最大和最小值;LGmax为生成器的总损失。
步骤1 初始化网络参数。
步骤2 采样m对多模态医学图像和
获得生成的融合图像
使用优化器更新鉴别器D1的网络参数,用最小化鉴别器对抗损失函数。
步骤3 使用优化器更新鉴别器D2的网络参数,用最小化鉴别器对抗损失函数。
若LD1>Lmax且ID1<Imax,重复步骤2,ID1+1→ID1。
若LD2>Lmax且ID2<Imax,重复步骤3,ID2+1→ID2。
步骤4 采样m对多模态医学图像和
获得生成的融合图像
使用优化器更新生成器G的网络参数,以最小化生成器损失函数。
若LD1<Lmin或LD2<Lmin,并且IG<Imax,更新生成器网络参数,用最小化生成器对抗损失函数,IG+1→IG。
若LG>LGmax且IG<Imax,重复步骤4,IG+1→IG。
生成器G由一个编码器(Encoder)和一个解码器(Decoder)组成,其网络结构如图3所示。首先,将两种模态图像在通道维度上连接的结果作为编码器的输入;其次,通过编码器进行特征提取,输出融合特征图;最后,融合特征图输入解码器进行重建,生成同时包含两种模态图像特征的融合图像。编码器由5个MSA模块(如图4所示)组成,每个模块通过整合不同尺度的特征获得48个特征图。为了避免丢失中间模块的特征,实现特征重用,编码器采用DenseNet,使每个模块与后续所有模块相连,尽可能保留图像的深层特征。解码器采用5层CNN结构。为了减少源图像信息损失,所有卷积层步长都设为1,并且采用批归一化和Relu激活函数加快训练速度,最后一层使用tanh作为激活函数,输出融合图像。
图3 生成器结构图
Figure 3 Generator structure diagram
图4 MSA结构图
Figure 4 MSA structure diagram
受FPA模块在图像分割应用中的启发,为解决医学图像融合过程中单一尺度卷积层特征提取不充分的问题,本文构建了多尺度空间注意力(MSA)模块,并把该模块作为编码器进行特征提取的基本模块,更好地保留图像的多尺度特征和细节信息。该模块由多尺度结构和空间注意力模块(spatial attention module, SAM)[18]两部分组成。
(1)多尺度结构。本文采用3种卷积尺度获取图像的多尺度特征。模块输入的特征图分别经过3×3、5×5和7×7的滤波器,这种多尺度结构可以帮助网络从不同的尺度提取特征,以获得更全面的信息表示。
(2)SAM。本文利用空间注意力获取图像全局信息的相关性和依赖关系,提高网络对关键信息的表达能力,全面捕获医学图像的细节信息。SAM由两个3×3卷积层组成,输出一个单通道掩膜,用于强调空间中信息量更大的特征。
最后,将多尺度结构整合后的多尺度特征和SAM得到的掩膜进行逐像素相乘,以获得MSA模块最终输出的特征。
两个鉴别器D1和D2网络结构相同,如图5所示。每个鉴别器包含4层网络模型,前3层网络由卷积核大小为3×3的网络组成,为了和生成器对应,第一层网络仅使用Relu激活函数,其他两层采用批归一化和Relu激活函数;最后一层为全连接层,使用tanh激活函数生成一个标量,用于估计输入图像来自真实图像而不是生成器生成图像的概率。
图5 鉴别器结构图
Figure 5 Discriminator structure diagram
本文所提MSAGAN网络的损失函数由生成器损失函数和鉴别器损失函数组成:
L=LG+LD1+LD2。
(4)
式中:LG为生成器损失函数;LD1和LD2分别为两个鉴别器的损失函数。
对生成器G而言,除了根据鉴别器的结果对其进行对抗训练,还引入内容损失约束生成图像和真实图像之间的相似性,解决GAN训练不稳定的问题。因此G的损失函数由对抗损失和内容损失两部分组成:
(5)
E[log(1-D2(G(x1,x2)))];
(6)
φ‖G(x1,x2)-x2‖TV]。
(7)
式中:为生成器的对抗损失函数;Lcon为内容损失函数;λ和φ用于平衡不同的损失函数,分别取0.6和1.2;x1表示PET、CT或SPECT图像,这些影像中病变的亮度信息主要通过像素强度进行表示;x2表示MRI图像,主要显示病灶的纹理细节等信息。本文根据不同模态图像的特点,分别采用Frobenius范数和TV范数表示内容损失,使生成器生成的融合图像同时保留不同模态医学图像的显著特征。
两个鉴别器D1和D2的损失函数由具有代表性的对抗损失表示,分别为
LD1=E[-log D1(x1)]+
E[-log(1-D1(G(x1,x2)))];
(8)
LD2=E[-log D2(x2)]+
E[-log(1-D2(G(x1,x2)))]。
(9)
本文所用实验数据来自哈佛大学全脑图谱数据库[19]。为了验证本文所提算法MSAGAN对不同类型融合任务的有效性,从该数据库中分别选取了124对CT-MRI、145对PET-MRI和117对SPECT-MRI这3种类型的多模态医学图像融合任务进行实验,分别将其中的104对、125对和97对图像作为训练集,剩余的20对图像作为测试集。所有源图像大小均为256×256像素,且每对图像都经过了精确配准。为了扩充训练集,将训练集图像裁剪为84×84像素大小的图像块。在训练过程中,网络使用Adam优化器,初始学习率为0.000 2,衰减系数为0.9,批量大小为24。网络模型基于TensorFlow1.14.0,编程语言为Python3.7,实验环境为64位Windows10操作系统的台式电脑,硬件处理器为Intel Core i5-8500 CPU@3.00 GHz,RAM为16 GB。
为了验证MSAGAN的融合效果,从主观和客观两个方面对实验结果进行评价。将MSAGAN与医学图像融合领域较为经典和先进的7种算法进行对比,这些算法包括PA-PCNN[5]、LRD[20]、U2Fusion[21]、MSRPAN[10]、EMFusion[22]、DDcGAN[14]、GeSeNet[23]。
3.2.1 主观评价
从每种类型的医学图像融合任务中选取两对具有代表性的融合结果进行展示,图6为CT和MRI图像融合结果。可以明显看出,基于U2Fusion和DDcGAN的融合图像损失了CT图像部分的能量信息,导致图像对比度下降,不利于人眼观察。基于LRD和MSRPAN的融合图像虽然视觉对比度较好,但都在一定程度上损失了源图像的边缘纹理等细节信息,并且存在伪影。进一步观察PA-PCNN融合图像的骨骼区域,可以看到有边缘信息丢失的现象。与EMFusion相比,基于GeSeNet和MSAGAN的融合图像不仅具有更高的全局对比度和亮度,而且在保留MRI图像结构纹理等特征的基础上更好地保留了CT图像的能量信息。
图6 CT-MRI融合结果
Figure 6 CT-MRI fusion results
图7和图8分别为PET-MRI和SPECT-MRI的融合结果,两者均表示功能图像和结构图像的融合。功能信息主要包含在PET或SPECT图像中。从图7和图8可以看出,除了LRD方法,其他方法都较好地保留了功能图像的颜色信息,主要区别在于MRI纹理细节信息的保留情况。观察发现,基于MSRPAN方法的融合图像较为模糊;基于PA-PCNN和GeSeNet的融合图像均有不同程度的细节损失。U2Fusion和EMFusion方法引入了噪声,导致图像原始结构信息被破坏,基于DDcGAN方法获得的融合图像亮度较低。相比之下,基于MSAGAN获得的融合图像在纹理等梯度特征上更加明显,更利于人眼观察。
图7 PET-MRI融合结果
Figure 7 PET-MRI fusion results
图8 SPECT-MRI融合结果
Figure 8 SPECT-MRI fusion results
3.2.2 客观评价
本文选取6种常见的图像融合评价指标[2,24],从多个角度对不同算法的融合效果进行客观评价。这些指标包括平均梯度(AG)、相关系数(CC)、信息熵(EN)、互信息(MI)、峰值信噪比(PSNR)、视觉信息保真度(VIF)。在3种类型医学图像融合任务中,信息使用每个方法在测试集上的平均值进行评估,指标的值越高,表示融合效果越好。此外,本文还引入运行时间评估不同算法的效率,时间单位为s,运行时间越少,表示算法性能越好。评价结果如表1所示。
表1 融合图像客观评价指标平均值
Table 1 Average objective evaluation metrics for fused images
数据集方法AGCCENMIPSNRVIF运行时间/sCT-MRIPET-MRISPECT-MRIPA-PCNN0.253 00.753 55.081 60.889 021.456 60.588 63.47LRD0.224 60.757 64.895 40.897 221.194 20.585 1200.98U2Fusion0.194 20.778 14.991 50.924 715.714 00.259 50.57MSRPAN0.208 90.746 04.164 71.171 522.097 80.572 80.30EMFusion0.204 70.776 14.905 41.150 421.679 70.425 30.20DDcGAN0.210 50.773 15.335 50.997 721.288 00.298 90.52GeSeNet0.263 60.795 15.386 31.101 723.902 40.572 50.02MSAGAN0.274 50.784 45.345 51.192 824.066 10.593 60.53PA-PCNN0.264 40.738 74.323 51.663 915.878 40.688 23.50LRD0.211 00.747 05.044 71.313 918.008 30.638 3197.13U2Fusion0.090 20.831 54.045 81.165 619.089 50.117 70.59MSRPAN0.239 00.734 13.846 01.632 915.591 60.595 90.31EMFusion0.242 40.747 84.555 71.491 113.729 20.530 50.17DDcGAN0.284 10.714 74.991 71.375 115.848 60.296 80.51GeSeNet0.264 30.754 05.132 01.433 916.181 50.679 50.02MSAGAN0.342 50.794 14.927 91.679 719.899 80.635 30.52PA-PCNN0.159 20.851 45.450 41.600 814.385 50.642 83.63LRD0.142 30.852 05.963 51.390 214.733 10.616 8201.69U2Fusion0.080 70.863 94.678 51.141 514.283 70.242 30.57MSRPAN0.124 10.845 24.850 91.715 114.133 10.481 40.31EMFusion0.142 00.850 45.301 61.583 113.331 00.539 90.17DDcGAN0.280 80.642 15.524 61.362 916.615 10.518 50.52GeSeNet0.163 30.856 05.903 11.582 614.347 20.649 80.02MSAGAN0.289 90.857 55.355 21.451 718.196 20.720 40.54
由表1可知,本文算法MSAGAN在AG、PSNR、VIF和MI这4项指标整体上取得了最优,在3种融合任务上AG和VIF的平均值分别达到0.302 3和0.649 8。较高的AG和VIF表明融合图像不仅具有更强的细节表达能力,而且有助于人眼观察,这是由于本文所提算法采用多尺度结构进行图像特征的提取,符合人眼视觉感知的特点。本文算法在3种融合任务上MI和PSNR的平均值分别达到1.441 4和20.720 7。较高的MI和PSNR值表示在融合过程中引入的噪声较少,融合图像与原始图像之间的失真较小,意味着融合图像在保持原始图像的整体结构和像素方面表现良好,这是由于本文采用空间注意力能够更全面地保留医学图像的结构和细节信息。整体而言,客观评价指标表明,MSAGAN算法能够提供更高质量的融合结果。
在医学领域,图像的细节信息对于精确诊断和治疗至关重要。在这个问题上,MSAGAN算法表现出较好的融合效果。尽管运行时间与其他深度学习方法相比略有增加,但考虑到其能够提供更清晰、更细致的融合图像,为医生提供更准确和全面的诊断信息,这个额外的时间成本是完全可以接受的。
3.2.3 消融实验
为了验证所提出的MSAGAN方法的有效性,本文分别针对其中的多尺度结构和SAM开展消融实验。以CT-MRI数据集为例,消融实验结果如表2所示。
表2 CT-MRI数据集上的消融实验结果
Table 2 Results of ablation experiments on the CT-MRI dataset
多尺度SAMAGCCENMIPSNRVIF0.210 50.773 15.335 50.997 721.288 00.298 9√0.242 60.782 15.338 91.094 823.146 10.497 2√0.247 30.779 45.342 31.128 423.154 00.485 6√√0.274 50.784 45.345 51.192 824.066 10.593 6
表2结果显示,加入多尺度结构可以帮助网络更好地捕捉全局和局部特征,提高对图像的理解能力和表达能力;此外,引入SAM可以自适应地调整不同病变区域的权重,提高融合结果对关注区域的准确性和清晰度,进一步提升融合图像质量。本文提出的MSAGAN方法同时引入多尺度结构和SAM,在6种评价指标上都表现出了较好的效果,验证了MSAGAN方法的有效性。
本文提出一种基于GAN和多尺度空间注意力的多模态医学图像融合算法MSAGAN,整个网络框架包含一个生成器和两个鉴别器,通过它们之间的对抗博弈,融合图像能够同时保留两个输入图像的显著特征。为了更好地捕捉源图像的多尺度特征和细节信息,本文构建一个MSA模块作为编码器的基本模块。该模块采用多尺度结构,能更有效地捕捉图像的多尺度特征;此外,该模块还引入空间注意力,能更好地保持原始图像的结构和细节信息。实验结果表明:基于MSAGAN方法生成的融合图像边缘纹理更加清晰,在3种不同类型的医学图像融合任务上,AG、PSNR、MI、VIF这些客观评价指标的平均值分别达到0.302 3、20.720 7、1.441 4、0.649 8,融合图像的质量更高。现有的多模态医学图像融合数据集较少,后续研究将考虑利用迁移学习的思想扩充数据集,更好地训练网络。
[1] HUANG B, YANG F, YIN M X, et al. A review of multimodal medical image fusion techniques[J]. Computational and Mathematical Methods in Medicine, 2020, 2020: 8279342.
[2] AZAM M A, KHAN K B, SALAHUDDIN S, et al. A review on multimodal medical image fusion: compendious analysis of medical modalities, multimodal databases, fusion techniques and quality metrics[J]. Computers in Biology and Medicine, 2022, 144: 105253.
[3] PIELLA G. A general framework for multiresolution image fusion: from pixels to regions[J]. Information Fusion, 2003, 4(4): 259-280.
[4] GUO P, XIE G Q, LI R F, et al. Multimodal medical image fusion with convolution sparse representation and mutual information correlation in NSST domain[J]. Complex &Intelligent Systems, 2023, 9(1): 317-328.
[5] YIN M, LIU X N, LIU Y, et al. Medical image fusion with parameter-adaptive pulse coupled neural network in nonsubsampled shearlet transform domain[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(1): 49-64.
[6] ZHU Z Q, ZHENG M Y, QI G Q, et al. A phase congruency and local Laplacian energy based multi-modality medical image fusion method in NSCT domain[J]. IEEE Access, 2019, 7: 20811-20824.
[7] DOGRA A, KUMAR S. Multi-modality medical image fusion based on guided filter and image statistics in multidirectional shearlet transform domain[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(9): 12191-12205.
[8] ZHANG Y, LIU Y, SUN P, et al. IFCNN: a general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118.
[9] LI H, WU X J. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614-2623.
[10] FU J, LI W S, DU J, et al. A multiscale residual pyramid attention network for medical image fusion[J]. Biomedical Signal Processing and Control, 2021, 66: 102488.
[11] 许光宇, 陈浩宇, 张杰. 双路径双鉴别器生成对抗网络的红外与可见光图像融合[J/OL]. 计算机辅助设计与图形学学报,1-14(2024-02-06)[2024-04-07].http:∥kns.cnki.net/kcms/detail/11.2925.TP.20240204.1728.061.html.XU G Y, CHEN H Y, ZHANG J. Infrared and visible image fusion based on dual-path and dual-discriminator generation adversarial network [J/OL]. Journal of Computer-Aided Design &Computer Graphics,1-14(2024-02-06)[2024-04-07].http:∥kns.cnki.net/kcms/detail/11.2925.TP.20240204.1728.061.html.
[12] MA J Y, YU W, LIANG P W, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.
[13] ZHAO C, WANG T F, LEI B Y. Medical image fusion method based on dense block and deep convolutional generative adversarial network[J]. Neural Computing and Applications, 2021, 33(12): 6595-6610.
[14] MA J Y, XU H, JIANG J J, et al. DDcGAN: a dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980-4995.
[15] ZHOU T, LI Q, LU H L, et al. GAN review: models and medical image fusion applications[J]. Information Fusion, 2023, 91: 134-148.
[16] 肖儿良, 林化溪, 简献忠. 基于生成对抗网络探索潜在空间的医学图像融合算法[J]. 信息与控制, 2021,50(5): 538-549.XIAO E L, LIN H X, JIAN X Z. Medical image fusion algorithm adopting generative adversarial network to explore latent space[J]. Information and Control, 2021, 50(5): 538-549.
[17] LI H C, XIONG P F, AN J, et al. Pyramid attention network for semantic segmentation[EB/OL]. (2018-11-25)[2024-04-07].https:∥arxiv.org/abs/1805.10180.
[18] LIU Y, WANG L, LI H F, et al. Multi-focus image fusion with deep residual learning and focus property detection[J]. Information Fusion, 2022, 86: 1-16.
[19] 尹海涛, 岳勇赢. 基于半监督学习和生成对抗网络的医学图像融合算法[J]. 激光与光电子学进展, 2022, 59(22): 245-254.YIN H T, YUE Y Y. Medical image fusion based on semisupervised learning and generative adversarial network[J]. Laser &Optoelectronics Progress, 2022, 59(22): 245-254.
[20] LI X X, GUO X P, HAN P F, et al. Laplacian redecomposition for multimodal medical image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(9): 6880-6890.
[21] XU H, MA J Y, JIANG J J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502-518.
[22] XU H, MA J Y. EMFusion: an unsupervised enhanced medical image fusion network[J]. Information Fusion, 2021, 76: 177-186.
[23] LI J W, LIU J Y, ZHOU S H, et al. GeSeNet: a general semantic-guided network with couple mask ensemble for medical image fusion[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023,1: 14.
[24] 刘帅奇, 王洁, 安彦玲, 等. 基于CNN的非下采样剪切波域多聚焦图像融合[J]. 郑州大学学报(工学版), 2019, 40(4): 36-41.LIU S Q, WANG J, AN Y L, et al. Multi-focus image fusion based on CNN in non-sampled shearlet domain[J]. Journal of Zhengzhou University (Engineering Science), 2019, 40(4): 36-41.