【论文笔记】Are Large Kernels Better Teacheres than Transformers for ConvNets

Abstract

本文提出蒸馏中小核ConvNet做学生时，与Transformer相比，大核ConvNet因其高效的卷积操作和紧凑的权重共享，使得其做教师效果更好，更适合资源受限的应用。
用蒸馏从Transformers蒸到小核ConvNet的效果并不好，原因是架构不同。

Github Repository

1 Information

在蒸馏过程，小核ConvNet做学生模型时，与Vision Transformers相比，大核ConvNet有以下优势：

同样好的精度
相似甚至更大的有效感受野(Effective receptive field, ERF)
（更重要的）是卷积操作，而不是自注意力模块

本文，在小核ConvNet做学生模型时，将现代大核ConvNet和先进Vision Transformers进行对比。本文发现在logits-level distillation和feature-level distillation下，大核ConvNet的效果都比Vision Transformers更有效。

3 Experimental Setup

本文目标是在蒸馏下全面比较Vision Transformers和现代大核ConvNet，并研究哪种更适合作为小核ConvNet的教师。

Evaluation Metrics

给定教师模型 $T$ （具有较高的任务准确率 $a cc (t e a c h er)$ ，学生模型 $S$ （具有较低的任务准确率 $a cc (s t u d e n t)$ ，通过知识蒸馏提高后者的准确率至 $a cc (d i s t i ll e d)$ 。
采用两种度量：
Direct Gain表示有知识蒸馏和无知识蒸馏的直接表现差异：
$\text{Direct Gain}=acc(distilled)-acc(student)\tag{1}$
教师很难拥有相同的准确率，因此使用Effective Gain：
$\text{Effective Gain}=\frac{acc(distilled)-acc(student)}{acc(teacher)}\tag{2}$

Dataset, Teacher and Student Models

在常用的ImageNet数据集（1000类别，1281167训练图像，50000验证图像）进行实验。

有两个主要的蒸馏pipeline：

Pipeline I: 大核ConvNet→小核ConvNet
Pipeline II: Transformers→小核ConvNet

对于两个pipeline，学生模型选择了带有3×3卷积核的ResNet-50和带有7×7卷积核的ConvNeXt-T。
对于Pipeline I，教师模型选择ConvNeXt-T和SLaK；
对于Pipeline II，教师选择ViT-S，Swin-T，CSWin-T。

Distillation Methods

为了得出可靠的结论，本研究采用了logits-level distillation和feature-level distillation相结合的方法。
不失一般性，选择KD、NKD作为logits-level distillation，选择FD作为feature-level distillation。

4 Experimental Results

4.1 Large-Kernel ConvNet vs. Transformer as Teachers

4.1.1 Logit-level Distillation

![[Pasted image 20240920200800.png]]
![[Pasted image 20240920200809.png]]

大核ConvNets比Transformers更适合做小核ConvNets的教师。
与小核相比，学生模型从大核ConvNets获得的提升更多。
大核ConvNets可以让学生训练得更快。

4.1.2 Feature-level Distillation

![[Pasted image 20240920202947.png]]
![[Pasted image 20240920204102.png]]

在feature distillation下，从蒸馏出的学生模型的表现来看，大核ConvNet比Transformers的表现要好。
当使用多层特征图进行特征蒸馏（FD）时，大核卷积网络作为教师模型的优势仍然优于基于Transformer的教师模型。

4.2 Scaling to Longer Training

本文还将训练epoch从120次延长到300次，并展现了从大核教师和基于Transformer的教师中提取的ResNet-50的性能。
![[Pasted image 20240920212721.png]]
显而易见，较长训练周期的性能趋势与短周期高度一致。在所有五个教师模型中，SLaK-T教师模型使得学生模型表现最佳，这表明大核教师模型相较于基于Transformer的教师模型在较长训练过程中同样具有优势。

5 What Else are Transferrable from Larger Kernels Teachers?

5.1 Transferring Effective Receptive Fields(ERF)

有效感受野(Effective Receptive Fields, ERF)是指包含对该单元输出有非忽略影响的任意输入像素的区域。
![[Pasted image 20240920215356.png]]

图1：ConvNeXt-T从不同教师模型蒸馏而来的有效感受野（ERF）。学生模型是带有7×7卷积核的ConvNeXt-T。左图为未经蒸馏的监督学习ConvNeXt-T，而其余图像来自于蒸馏后的ConvNeXt-T。
总体而言，来自51×51大核SLaK蒸馏的学生模型相比于来自Transformer教师模型蒸馏的学生模型，表现出更大且更密集的ERF。这进一步证明大核卷积网络在蒸馏过程中比Transformer更能有效地传递大ERF，从而提高学生模型的性能。

5.2 Transferring Robustness

![[Pasted image 20240920221853.png]]
结果如表7所示。

从现代ConvNets蒸馏出的学生优于从最新的Transformer模型学习的学生模型。
在大核教师中，SLaK-T相比ConvNeXt向学生传递了更好的鲁棒性，尽管它作为教师模型的鲁棒性较低。
鲁棒的Transformer并不一定能有效地传递给小核学生。这表明，在分布内(in-distribution)和分布外(out-of-distribution)的表现上，大核卷积网络比先进的视觉Transformer和小核网络更强大。