摘要
论文介绍
- VOLO模型概述:本文提出了一种名为VOLO的视觉识别模型,该模型旨在通过创新的注意力机制——前景器(Outlooker)来提高视觉识别的性能。VOLO模型在ImageNet等基准测试上取得了优异的结果。
- 研究背景:传统的视觉Transformer(ViT)模型在全局依赖性建模上表现出色,但在将精细特征和上下文编码到标记中方面效率较低。这限制了ViT模型在视觉识别任务上的性能。
创新点
- 前景器(Outlooker)的提出:本文创新性地提出了前景器作为新的注意力机制,用于高效地丰富标记表示中的精细信息。Outlooker通过直接从锚标记特征中推断出聚合周围标记的机制,摆脱了昂贵的点积注意力计算。
- 细粒度特征编码:Outlooker能够高效地编码细粒度特征,这对于实现令人信服的视觉识别性能至关重要。它通过密集的局部空间聚合来有效地编码这些信息。
方法
- Outlooker架构:Outlooker由一个Outlook注意力层和一个多层感知器(ML