《MobileViT:轻巧、通用、便于移动的视觉转换器》
论文地址:https://arxiv.org/abs/2110.02178
代码地址:https://github.com/chinhsuanwu/mobilevit-pytorch/blob/master
轻量级卷积神经网络(CNN)实际上是用于移动视觉任务的。他们的空间归纳偏差使他们能够在不同的视觉任务中以较少的参数学习表示。然而,这些网络在空间上是局部的。为了学习全局表示,已经采用了基于自我注意力的视觉变换器(ViT)。与CNN不同,ViT是重量级的。在本文中,我们提出了以下问题:是否有可能结合CNNs和ViT的优势,为移动视觉任务构建一个轻量级、低延迟的网络?为此,我们介绍了MobileViT,这是一种用于移动设备的轻型通用视觉转换器。MobileViT为使用变压器的全局信息处理提供了不同的视角。我们的结果表明,MobileViT在不同的任务和数据集上显著优于基于CNN和ViT的网络。在ImageNet-1k数据集上,Mob