学习笔记——EffcientNetV2

EffcientNetV2: Smaller Models and Faster Training

EfficientNetV2：更小的模型和更快的训练

论文地址： https://arxiv.org/abs/2104.00298

本文介绍了 EfficientNetV2，这是一个新的卷积网络系列，与以前的模型相比，它具有更快的训练速度和更好的参数效率。

1、前言

EfficientNetV2是谷歌的MingxingTan与Quov V.Le对EfficientNet的一次升级，旨在保持参数量高效利用的同时尽可能提升训练速度。在EfficientNet的基础上，使用训练感知神经架构搜索NAS和缩放技术来优化训练速度和参数效率，然后从富含 Fused-MBConv 等新操作的搜索空间中搜索得到的；同时结合一种改进的渐进式学习方法，它会根据图像大小自适应调整正则化。两种改进的组合得到了本文的EfficientNetV2，它在多个基准数据集上取得了SOTA性能，且训练速度更快。在 ImageNet ILSVRC2012 上实现了 87.3% 的 top-1 准确率，比最近的 ViT 准确率高出 2.0%，同时使用相同的计算资源训练速度提高了 5 倍至 11 倍。

作者指出，可以通过在训练过程中逐渐增加图像大小来进一步加快训练速度，但这通常会导致准确性下降。为了弥补这种准确性下降，我们提出了一种改进的渐进式学习方法，该方法可以根据图像大小自适应调整正则化（例如数据增强）。

作者认为，对不同的图像尺寸保持相同的正则化并不理想：对于同一个网络，小图像尺寸导致网络容量小，因此需要弱正则化；反之亦然，大图像尺寸需要更强的正则化来对抗过度拟合。基于这种见解，作者提出了一种改进的渐进式学习方法：在早期训练时期，我们用小图像尺寸和弱正则化（例如，dropout和数据增强）来训练网络，然后我们逐渐增加图像尺寸并添加更强的正则化。基于渐进调整大小，但通过动态调整正则化，我们的方法可以加快训练速度，而不会导致准确性下降。

2、EfficientNet 的训练瓶颈

1、Training with very large image sizes is slow：使用大尺寸图像进行训练速度很慢，于是作者在训练期间逐步调整图像大小和正则化。

2、Depthwise convolutions are slow in early layers but ef-fective in later stages：深度卷积在早期层很慢，但在后期很有效

EfficientNet 的另一个训练瓶颈就来自于广泛的深度卷积。深度卷积比常规卷积具有更少的参数和 FLOP，但它们通常无法充分利用现代加速器，所以就有了Fused-MBConv，它能更好地利用移动或服务器加速器。

当在早期阶段 1-3 中应用时，FusedMBConv 可以提高训练速度，参数和 FLOP 的开销很小，但如果将 Fused-MBConv 替换所有MBConv（阶段 1-7），那么它会显着增加参数和 FLOP，同时也会降低训练速度。因此，找到 MBConv 和 Fused-MBConv 这两个构建模块的正确组合并非易事，于是作者利用了神经架构搜索来自动搜索最佳组合。下表是用 Fused-MBConv 替换 MBConv，No fused 表示所有阶段都使用 MBConv，Fused stage1-3 表示在阶段 {2,3,4} 中将 MBConv 替换为 Fused-MBConv。

Fused-MBConv

它将 MBConv中的升维 conv1x1和depthwise_conv3x3 替换为单个普通的 conv3x3

3、Equally scaling up every stage is sub-optimal：同样扩大每个阶段的规模并不是最优的办法

作者使用非均匀缩放策略在后期逐渐添加更多层。此外，EfficientNets 会大幅扩大图像尺寸，导致内存消耗大、训练速度慢。为了解决这个问题，作者稍微修改了缩放规则，并将最大图像尺寸限制为较小的值(480像素)。

3、EfficientNetV2 与V1 的主要区别

(1) 第一，EfficientNetV2 在早期层广泛使用 MBConv 和 Fused-MBConv。

(2) 第二，EfficientNetV2 更喜欢 MBConv 的较小扩展比，因为较小的扩展比往往具有较少的内存访问开销。

(3) 第三，EfficientNetV2 更喜欢较小的3x3内核尺寸，但它增加了更多层来补偿较小内核尺寸导致的感受野减小。

(4) 第四，EfficientNetV2 完全删除了原始 EfficientNet 中的最后一个 stride=1 的阶段，这可能是由于其较大的参数大小和内存访问开销。

在卷积神经网络中，步幅为1意味着卷积核在进行卷积操作时，每次移动一个像素的距离。这通常用于减少特征图（feature map）的尺寸，同时增加参数的数量，因为需要更多的卷积核来覆盖整个特征图。

作者发现，原始EfficientNet模型中的最后一个步幅为1的阶段虽然增加了模型的参数量，但同时也带来了较大的内存访问开销。换句话说，这个额外的阶段增加了模型的大小和复杂度，但可能并没有带来与之相称的性能提升。因此，为了提高参数效率和减少内存使用，在V2的设计中选择去掉了这个部分。

简而言之，作者在权衡模型性能和效率后决定牺牲这个可能带来额外计算负担的阶段，以实现更高效的模型设计。这种设计选择反映了EfficientNetV2在追求更快训练速度和更好参数效率的目标。

4、EfficientNetV2-S模型结构

5、在ImageNet ILSVRC2012(1000 个类别)上的结果

EfficientNetV2-m 实现了与 EfficientNet-B7 相当的精度，同时使用相同的计算资源训练速度提高了 11 倍。

EfficientNetV2 模型在准确性和推理速度方面也显着优于所有最新的 RegNet 和 ResNeSt。

EfficientNetV2-L 实现了 85.7% 的 top-1 准确率，超过了 ViT-L/16(21k)。

6、在ImageNet21k(21,841 个类别)上的结果

在 ImageNet21k 上进行预训练，并在 ImageNet ILSVRC2012 上进行微调。与 ViT-L/16(21k) 相比，EfficientNetV2L(21k) 将 top-1 准确率提高了 1.5%（85.3% vs. 86.8%），使用的参数减少了2.5倍，FLOP 次数减少了3.6倍，同时运行速度提高了6倍，训练和推理速度提高7倍。

7、总结

在我的实际使用中，EfficientNetv2效果确实非常好，优于Vision Transformer、ResNet、DenseNet这些网络，略逊于Swin Transformer。需要注意的一点是，虽然EfficientNetv2-s模型大小只有82.6MB，ResNet34模型大小83.2MB，两者从模型大小上相差不大，但是EfficientNetv2-s的计算复杂度远远高于ResNet34，相同的内存、显存、数据集和参数，ResNet34可以使用32的batchsize，而EfficientNetv2-s只能为8。