摘要
1.引言
- 背景
- 本文研究
2.方法
- 2.1 空间聚合模块SAM
- 2.2不确定区域填充模块
- - 2.2.1置信图计算
  - 2.2.2局部置信卷积
- 2.3损失函数和训练策略
3.材料和实验
- 3.1数据集
- 3.2预训练
- 3.3评估指标
- 3.4与最先进水平的比较
- 3.5消融实验
- 3.6鲁棒性验证

论文地址https://paperswithcode.com/paper/multi-phase-liver-tumor-segmentation-with

摘要

CT图像对精准的肝肿瘤分割(LiTS)提供了重要的补充信息。最先进的多相LiTS方法通常通过相位加权求和或基于通道注意的连接来融合交叉相位特征。但是这些方法忽略了不同相位之间的空间（像素）关系，导致特征集成(feature integration)不足。现有方法的分割性能仍然受到分割不确定性的影响，这在肿瘤边界区域尤其严重。
本文中，提出了新的LiTS方法来充分聚合多相信息和细化不确定区域分割。引入空间聚合模块(SAM)，它鼓励不同相位之间的逐像素交互，以充分利用跨相位信息。设计一个不确定区域嵌入模块(uncertain region inpainting module,URIM)，利用邻近判别特征来细化不确定像素。
在一个局内(in-house)的多相肝病灶CT数据集(MPCT-FLLs)上的实验表明，我们的方法实现了有前途的肝肿瘤分割，并优于目前最先进的技术。

关键词：多相分割；肝肿瘤分割；双向特征融合

1.引言

背景

肝癌是癌症致死的主要原因之一，LiTS有助于提高5年生存率；由于医学成像的固有问题(低对比度、模糊的肿瘤边界)，利用CT图分割效果不佳。

不同阶段的增强CT(CECT)图像表现出不同的肝肿瘤形态和灰度。肿瘤可能在一个阶段不明显，但在另一个阶段有清晰的轮廓。解决该问题，根据多阶段特征融合策略可分为三类：输入级融合(ILF)方法、决策级融合(DLF)方法和特征级融合(FLF)方法。FLF方法利用了多级交叉相位特征，因此被证明具有最佳的性能。但是已知的FLF方法只关注相位或通道的相位间关系，而忽略了不同相位之间的像素对应关系，导致信息聚合的冗余和效率低下。特征融合不足甚至会在空间位置引入干扰因素，LiTS方法存在区域分割不确定的问题。

Wu等人提出了一种MW UNet，它通过使用可训练系数(trainable coefficients)对U-Net隐藏层中的特征进行加权来集成不同的相位。
Xu等人提出了一种基于ResNet的PA ResSeg，以使用通道-注意机制重新加权不同相位的特征。

分割结果通常呈现一些模糊或模糊的区域(特别是在肿瘤边界)，主要是由于(1)上下采样过程中高频信息丢失，(2)肿瘤与周围环境对比度低。

总结：1.肝癌是世界致死癌症前十之一；2.现有的分割方法忽略了多相像素的关系；3.分割结果中肿瘤边界模糊。

本文研究

提出了从多相位CECT图像中分割肝脏肿瘤的新方法，利用了来自动脉(ART)相位图像的补充信息，以促进门静脉(PV)相位图像的LiTS。我们通过引入像素间相位特征融合和不确定区域细化来提高分割性能。

为了保证充分的多阶段信息聚合，设计了空间聚合模块(SAM)。SAM模块挖掘宏观和局部相位间关系，并为每个相位生成像素级响应映射(response map)。然后，根据响应图逐像素调控(modulate)和融合多相特征。

还设计了不确定区域嵌入模块(URIM)，对不确定区域进行细化，获得了较好的分割效果。URIM模块的关键思想是使用置信像素(在分割分数中具有高置信)来填充周围的不确定像素。且引入局部置信度卷积(LC-Conv)操作，使不确定像素吸收相邻的判别特征。经过多次LC-Conv运算后，采用调整后的特征进行最终预测。

我们的主要贡献是：

(1)设计了空间聚合模块，以确保充分的相间相互作用。该模块提取宏观和局部相位间关系，从而用响应值调制每个像素；
(2)设计了不确定区域嵌入模块，对不确定区域和模糊区域进行了细化，特别有助于获得细粒度肿瘤边界的分割；
(3)在多阶段MPCT-FLLs数据集上验证了我们的方法。

2.方法

网络将PV-(门静脉)和art -(动脉)切片作为输入，并产生初级PV期的肿瘤分割。

图1显示了该网络的概述，该网络主要包括三个部分。
在这里插入图片描述

互导编码器部分(mutually guided encoder part)以ResNeXt-50为骨干。它使用两个Siamese流，即pv -流和art -流，提取特定相位的特征。两个流的卷积块记为B⁽ⁱ⁾_PV和B⁽ⁱ⁾_ART (i∈{1,2,3,4,5})。为了聚合跨相信息，B⁽ⁱ⁾_PV和B⁽ⁱ⁾_ART(i∈{2,3,4,5})的特征通过SAMs进行双向聚合。通过这样做，两个流提供了相互帮助的信息，从而相互指导它们的特征提取。

解码器部分将编码器的四级聚合特征作为输入，并生成初始概率映射。为了融合多层次的特征，所有的输入都使用双线性插值进行上采样，并通过拼接和卷积进行融合。

解码器顶部的不确定区域填充部分旨在细化初始映射中的不确定区域。直观地说，它使用置信像素来填充相邻的不确定像素。为了实现这一目标，使用提出的局部置信度卷积(LC-Conv)操作，不确定像素吸收周围的鉴别特征。最后采用改进后的特征进行预测。

2.1 空间聚合模块SAM

最先进的多相LiTS方法忽略了空间位置的特征融合。这可能导致信息集成的冗余和低效率。因此，我们提出了空间聚合模块(SAM)，通过加权每个像素来确保充分的跨相位特征融合。

图2 (a)显示所提出的SAM的详细结构。
在这里插入图片描述

SAM模块有两个输入特征映射F_PV∈R^C×H×W(来自PV-stream)和F_ART∈R^C×H×W(来自ART-stream)，分别计算两个像素级响应映射，记为w_PV∈R^C×H×W和w_ART∈R^C×H×W，分别对F_PV和F_ART进行调制。因此，整体跨相位特征聚合可表示为：
在这里插入图片描述
其中F_Aggr∈R^C×H×W为聚合特征；⊗是基于元素的乘法。

如何获得合适的响应映射是SAM模块的关键。具体来说，SAM模块首先提取输入特征的有效描述符，以降低维数并保留信息特征。为此，我们对沿信道方向的输入应用平均池化和最大池化操作。得到的描述符分别记为F’_PV∈R^2×H×W和F’_ART∈R^2×H×W。然后，SAM模块学习两个映射函数M(1)和M(2)，从特征描述符中建模局部和全局的相位间互补关系。具体来说，M(1)和M(2)建立在金字塔卷积结构上（见图2(a)），即采用全局平均池化(GAP)层和7×7卷积层来提取全局对应关系；两个卷积层(核大小分别为3 × 3和5 × 5)用于捕获局部相位间细节。采用M(1)和M(2)的输出，通过拼接3 × 3卷积得到两个初始响应映射w⁽⁰⁾_PV∈R^C×H×W和w⁽⁰⁾_ART∈R^C×H×W(注意我们在拼接前对GAP(global average pooling)层的输出进行上采样到H×W)。通过softmax层将w⁽⁰⁾_PV和w⁽⁰⁾_ART归一化得到最终响应图，保证w^(c,h,w)_PV + w^(c,h,w)_ART = 1。

聚合特征F_Aggr可以通过公式1计算出来，并输入到解码器进行肿瘤区域预测。此外，我们将调制后的特定相位特征F^(m)_PV∈R^C×H×W和F^(m)_ART∈R^C×H×W输入到PV-和ART-stream中，相互指导其特征提取，其中F^(m)_PV和F^(m)_ART分别由：
在这里插入图片描述

2.2不确定区域填充模块

解码阶段从B⁽ⁱ⁾_PV和B⁽ⁱ⁾_ART(i∈{2,3,4,5})中提取四级聚合特征来预测初步概率映射。然而，初始结果通常呈现出一些模糊和不确定的区域。因此，我们提出了一种不确定区域嵌入模块(URIM)来细化模糊区域(特别是肿瘤边界)。我们的URIM的核心思想是利用具有置信分类分数(confident classification scores)的像素来填充邻近的不确定像素。

2.2.1置信图计算

受梁的工作的启发，我们推导出置信图的概念。设S_i∈R^1×H×W(i∈[1,2])表示初始分割映射。S_i为每个像素p属于i类(肝肿瘤或背景)的概率，其中Σ²_i=1 S _i ( p ) = 1。因此，每个像素的分类置信度可以用置信度图Mconf∈R^1×H×W表示：

在这里插入图片描述

S^max表示初始映射中每个像素的最大得分，S^min表示每个像素的最小得分。M_conf的取值范围为[0,1)，M_conf值越大表示越可信。

2.2.2局部置信卷积

不确定像素通常具有难以区分的特征，因此难以识别其类。

因此，我们提出了局部置信卷积(LC-Conv)操作，其表述如下：

在这里插入图片描述

X为当前滑动窗口的输入特征；X’表示细化的特征；M_conf表示像素级置信图；W为卷积滤波器的权值，b为偏置。采用比例因子1/sum(M_conf)来正则化不同滑动窗口内置信映射的效果。

在每次卷积运算中，LC-Conv强调判别特征，抑制不确定性特征。在这种机制下，邻近窗口置信度高的像素对滤波结果的贡献更大，从而使不确定像素接收到周围可分辨的特征。每次LC-Conv操作后，M_conf通过一个3 × 3的最大值卷积层进行更新。

在这里插入图片描述

图2(b)是URIM模块的详细结构，它由4个3 × 3核LC-Conv层组成。URIM模块将解码器中的M_conf和决策特征(softmax层之前的特征映射)作为输入，并生成精细化的预测。在细化阶段，不确定像素逐渐吸收更多远的置信特征，而不确定区域收缩，其工作原理类似于图像嵌入。最后，将改进后的特征与输入特征进行拼接，预测最终结果。

2.3损失函数和训练策略

损失函数包括两个交叉熵损失(见图1)，即初始分割和ground truth之间的L_init和最终预测和ground truth之间的L_final。L_init和L_final对全部损失承担同等的责任。
方法是基于PyTorch 1.5.0实现的。
使用NVIDIA GTX 2080 ti GPU (12 GB)上进行训练。
使用SGD优化器训练网络。
初始学习率为5×10⁻⁴，每50个epoch除以10。

3.材料和实验

3.1数据集

数据集是in-house multi-phase CT dataset of focal liver lesions (MPCT-FLLs)。

该数据集包含121例多期CT病例，包括5种典型的肝肿瘤类型的肝脏和肿瘤描述（包括36例囊肿36例，局灶性结节性增生（FNH）20例，25例血管瘤（HEM），26例肝细胞癌（HCC），转移瘤（METS14例）

图像尺寸为512 × 512，切片厚度为0.5 mm或0.7 mm，面间(inter-plane)分辨率为0.52 × 0.52mm2 ~ 0.86 × 0.86mm2。

采用五重交叉验证技术。

将121例随机分为5个互斥的子集。所有定量结果在五个测试集上取平均值。

3.2预训练

所有的图像都被截断到[-70,180]hunsfield单位的范围内，以消除不相关的组织。
为避免肝脏区域外的假阳性，训练了一个简单的ResUNet来分割肝脏。
网络的每个输入都包含三个相邻的片，被相应的肝掩码掩盖。
采用多相multi-phase输入，简单地根据肿瘤中心体素对多相肿瘤体积进行排列。
训练阶段，采用随机移动、旋转和缩放来增加数据，以防止潜在的过拟合问题。

3.3评估指标

使用了6个常用指标，即 dice per case(DPC)、dice global(DG)、体积重叠误差(VOE)、相对体积差(RVD)、平均对称表面距离(ASSD)和均方根对称表面距离(RMSD)。

DPC和DG分数越高，分割效果越好。其余4个评价指标，绝对值越小，结果越好。

3.4与最先进水平的比较

将其与三种最先进的多相LiTS方法进行了比较：

(1)MC-FCN，在FCN的分类层之前，将多相特征简单地拼接；
(2)MW-UNet，在U-Net的多层上训练每个相的权重值；
(3)PA-ResSeg，它结合了信道注意机制，在ResNet的特定层上对多相特征的各个信道进行权重调整。

图3描述了对比实验的可视化示例。
在这里插入图片描述

MC-FCN产生了糟糕的结果，因为它粗鲁地连接了来自不同阶段的决策层特征。这些原始的多相特征可能会带来冲突或干扰因素，从而导致性能不佳。
MWUNet和PA-ResSeg能够获得更好的结果，能够捕捉到肿瘤的大致形状。但是像素分割，特别是在肿瘤边界上，并不令人满意。原因是这两种方法都忽略了空间特征融合，导致多阶段特征聚合不足。此外，它们并没有提供任何处理不确定性问题的策略，这使得边界像素分类很难进行。
我们的方法鼓励逐像素间相位相互作用，并结合了不确定区域嵌入机制，结果表明，该方法在DPC、DP、VOE、ASD和RSMD评分方面达到了最佳值(见表1)。