论文:https://arxiv.org/abs/2411.17473
代码:https://github.com/xwmaxwma/TinyViM
作者提出了一种 Convolution-Mamba 的混合架构TinyViM,架构如下图所示。可以看出方法的核心是 Laplace Mixer。
Laplace mixer: 作者首先通过实验,发现Mamba主要在对低频特征进行建模。比如下图中,Mamba处理后,高频特征被抑制了。为了解决这个问题,即保留高频特征,作者使用拉普拉斯金字塔的方法来分解特征的高频和低频,低频部分使用Mamba处理,高频部分使用卷积处理。这样分离高低频的思路在很多论文中有应用。
Frequency Ramp Inception: 众所周知,深度神经网络的浅层主要是提取细节信息,深层主要是提取全局信息。因此有必要在网络不同阶段调节高低频的比例。因此,作者使用 Frequency Ramp Inception,就是随网络加深,逐渐增加低频成分的比例,提高性能。作者有一个消融实验,表明低频比例在四个阶段分别取 [0.25, 0.50, 0.50, 0.75]时性能较好。
其它部分可以参考作者论文,这里不过多介绍。