摘要
https://arxiv.org/pdf/2009.14082
特征融合,即来自不同层或分支的特征的组合,是现代网络架构中无处不在的一部分。它通常通过简单的操作来实现,如求和或拼接,但这可能不是最佳选择。在这项工作中,我们提出了一种统一且通用的方案,即注意力特征融合,它适用于大多数常见场景,包括由短连接和长连接引起的特征融合以及Inception层内的特征融合。为了更好地融合不一致的语义和尺度的特征,我们提出了一个多尺度通道注意力模块,该模块解决了在融合不同尺度特征时出现的问题。我们还证明了特征图的初始融合可能成为瓶颈,并且可以通过添加另一层注意力来缓解这个问题,我们称之为迭代注意力特征融合。我们的模型在CIFAR-100和ImageNet数据集上的表现优于最先进的网络,同时使用的层数或参数更少,这表明更复杂的特征融合注意力机制在一致地产生更好结果方面具有巨大潜力,与直接融合方法相比具有显著优势。我们的代码和训练模型可在网上获得。
1、引言
卷积神经网络(CNN)通过加深[12]、加宽[38, 49]、增加基数[47]和动态细化特征[16]等方式,显著提高了表示能力,从而在许多计算机视觉任务中取得了进步。
除了这些策略外,本文还研究了网络的不同组成部分——特征融合,以进一步提升CNN的表示能力。无论是显式还是隐式、有意还是无意,特征融合在现代网络架构中无处不在,并在以往的文献中得到了广泛研究[38,36,12,30,23]。例如,在InceptionNet系列[3