文章目录

  • MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical Image Segmentation
    • 摘要
    • 本文方法
    • 实验结果
  • SwinMM: Masked Multi-view with SwinTransformers for 3D Medical Image Segmentation
    • 摘要
    • 本文方法
    • 实验结果

MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical Image Segmentation

摘要

基于卷积神经网络(CNN)的UNet架构在医学图像分析中表现出了显著的性能。
然而,由于有限的接受域和卷积运算固有的偏见,它在捕获远程依赖方面面临挑战。最近,许多基于变压器的技术被整合到UNet体系结构中,通过有效地捕获全局特征相关性来克服这一限制。但是,Transformer模块的集成可能会导致在全局特征融合过程中丢失局部上下文信息。为了克服这些挑战,

我们提出了一种二维医学图像分割模型,称为多尺度交叉感知器注意网络(MCPA)。MCPA由三个主要部件组成:编码器、解码器和交叉感知器。交叉感知器首先使用多个多尺度交叉感知器模块捕获局部相关性,促进跨尺度特征的融合。得到的多尺度特征向量在空间上展开、连接,并通过一个全局感知器模块来建模全局依赖关系。

此外,我们引入了渐进式双分支结构来解决涉及更细组织结构的图像的语义分割。这种结构逐渐将MCPA网络训练的分割重点从大规模结构特征转移到更复杂的像素级特征。我们在来自不同任务和设备的几个公开可用的医学图像数据集上评估了我们提出的MCPA模型,包括CT (Synapse), MRI (ACDC),眼底相机(DRIVE, CHASE_DB1, HRF)和OCTA (ROSE)的开放大规模数据集。实验结果表明我们的MCPA模型达到了最先进的性能
代码地址

本文方法



实验结果

SwinMM: Masked Multi-view with SwinTransformers for 3D Medical Image Segmentation

摘要

近年来,大规模VIt的进步在改善医学图像分割的预训练模型方面取得了重大进展。然而,这些方法在获取大量的预训练数据方面面临着显著的挑战,特别是在医学领域。为了解决这一限制,我们提出了带有Swin变压器的遮罩多视图(SwinMM),这是一种新的多视图管道,用于实现准确和数据高效的自监督医学图像分析。我们的策略通过结合两个主要组成部分来利用多视图信息的潜力。在预训练阶段,我们部署了一个屏蔽多视图编码器,旨在通过一系列不同的代理任务并发训练屏蔽多视图观测值。

这些任务包括图像重建、旋转、对比学习和一个采用相互学习范式的新任务。这项新任务利用了来自不同角度的预测之间的一致性,从而能够从3D医疗数据中提取隐藏的多视图信息。在微调阶段,开发了一种跨视点解码器,通过交叉注意块聚合多视点信息。与之前最先进的自监督学习方法Swin UNETR相比,SwinMM在多个医学图像分割任务上表现出显著的优势。它允许多视图信息的平滑集成,显著提高了模型的准确性和数据效率。
代码地址

本文方法


训练的策略。为了结合三维体的多个视角,我们从不同的观察角度生成了视图,包括轴向、冠状和矢状。此外,我们应用了与每个角度对齐的旋转操作,包括沿相应方向的0◦、90◦、180◦和270◦角度。为了便于自我监督的预训练,我们设计了四个代理任务。
重建和旋转任务分别衡量模型在每个输入上的性能,而对比和相互学习任务使模型能够跨多个视图集成信息

重建任务比较未掩码输入X与重建图像y rec之间的差值。下面采用均方误差(Mean-SquareError, MSE)来计算重建损失

对比学习任务旨在通过比较多个视图的高级特征来评估模型在表示输入数据方面的有效性。

我们的工作假设是,尽管从不同的角度来看,同一样本的表征在地方层面上可能有所不同,但在全球层面上它们应该是一致的。为了计算对比损失,我们使用余弦相似度sim(·),其中y con i和y con j表示对比对,t是温度常数,1是指示函数

实验结果