【2021工业图像异常检测文献】STPM: 基于特征金字塔匹配的学生-教师异常检测框架

Student-Teacher Feature Pyramid Matching for Anomaly Detection

1、Background

学生-教师网络通过输出之间的差异以及学生预测中的不确定性作为异常评分函数。

然而，仍然存在两个主要缺点：即转移知识的不完整性和处理缩放的复杂性。对于前者，由于知识是从ResNet-18中提炼到一个轻量级教师网络的，它们模型容量之间的巨大差距往往会丢失重要信息。对于后者，需要分别训练多个学生-教师集合对，每个集合针对一个特定的领域，以实现尺度不变性，这导致计算不便。

这两个事实都有很大的改进空间。在本文中，提出了一种简单而强大的异常检测方法，该方法遵循学生-教师框架的优势，但在准确性和效率方面都进行了实质性的扩展。

具体来说，给定一个在图像分类上预训练的强大网络作为教师，将知识蒸馏到一个具有相同架构的单一学生网络中。在这种情况下，学生网络通过与预训练网络的对应部分匹配其特征来学习无异常图像的分布，这一步骤转移尽可能多地保留了关键信息。

此外，为了增强尺度鲁棒性，我们将多尺度特征匹配嵌入到网络中，这种层次化的特征匹配策略使学生网络能够在更强的监督下从特征金字塔接收多级知识混合，从而允许检测各种大小的异常。

教师和学生网络的特征金字塔用于预测，其中较大的差异表明异常发生的概率更高。与以前的工作相比，特别是初步的学生-教师模型，该方法的好处是双重的。首先，有用的知识很好地从预训练网络转移到学生网络中，因为它们共享相同的结构。其次，由于网络的层次结构，通过所提出的特征金字塔匹配方案方便地实现了多尺度异常检测。

2、Method

方法概述：

学生网络与教师网络：方法建立在学生-教师学习框架上。这里，“教师”是一个在大量图像数据集（如ImageNet）上预训练过的深度神经网络，已经学习到了丰富的特征表示。“学生”网络则具有与教师网络相同的架构，但参数是随机初始化的。
特征金字塔：学生网络的目标是通过训练来模仿教师网络的特征表示。这里的“特征金字塔”指的是从不同层次的特征中提取的信息，通常包括低层次的细节特征（如边缘和纹理）和高层次的抽象特征（如形状和对象部分）。
匹配特征：在训练过程中，学生网络学习去匹配教师网络的特征表示。这意味着，对于给定的输入图像，学生网络的输出尽可能接近教师网络的输出。

异常检测机制：

异常评分：在测试阶段，如果一个测试图像（或像素）的教师网络和学生网络特征之间存在显著差异，则该图像（或像素）的异常评分会很高。换句话说，如果学生网络难以复制教师网络对于测试图像的特征表示，那么这个图像可能包含异常。
单次前向传递：通过特征金字塔匹配，该方法能够在单次前向传递中检测到各种尺寸的异常。这是因为不同层次的特征能够捕获不同尺寸的异常——低层次可能更适合小的、细节的异常，而高层次可能更适合大的、全局的异常。
多尺度异常检测：通过结合不同层次的特征，该方法能够同时检测小到一个像素点大到整个对象的异常区域。

在这里插入图片描述

算法流程：

预训练教师网络
- 使用大规模图像分类数据集（如ImageNet）预训练一个深度卷积神经网络作为教师网络。
初始化学生网络
- 创建一个与教师网络结构相同的学生网络，参数随机初始化。
选择特征层
- 选择教师网络中的几个连续的底层（如ResNet-18中的conv2_x, conv3_x, conv4_x层）。
训练学生网络
- 将无异常的训练图像输入到教师和学生网络。
- 计算两个网络输出的特征图之间的差异。
- 通过最小化这个差异来更新学生网络的参数。
特征金字塔匹配
- 对于每个选定的底层，计算学生网络和教师网络的特征图之间的损失。
- 通过加权平均这些损失来获得整体损失，并用于训练学生网络。
测试阶段
- 将测试图像输入到训练好的学生网络和教师网络。
- 分别获取两个网络的特征图。
- 比较特征图，计算异常分数。
- 如果异常分数超过某个阈值，则认为检测到异常。
输出异常图
- 根据异常分数生成异常图，突出显示可能的异常区域。

pseudo-code

# 步骤1: 初始化教师网络和学生网络
teacher_network = initialize_pretrained_network()
student_network = initialize_network_with_same_structure(teacher_network)# 步骤2: 训练学生网络去模仿教师网络
for each epoch in range(number_of_epochs):for each normal_image in training_dataset:# 提取教师网络的特征teacher_features = teacher_network.extract_features(normal_image)# 前向传播学生网络student_features = student_network.extract_features(normal_image)# 计算特征损失loss = compute_loss(teacher_features, student_features)# 后向传播和优化学生网络student_network.update_weights(loss)# 步骤3: 测试阶段，检测异常
for each test_image in test_dataset:# 提取教师网络的特征teacher_features = teacher_network.extract_features(test_image)# 前向传播学生网络student_features = student_network.extract_features(test_image)# 计算特征损失作为异常分数anomaly_score = compute_loss(teacher_features, student_features)# 阈值判断是否异常if anomaly_score > threshold:predict_anomaly(test_image)# 辅助函数定义
def initialize_pretrained_network():# 加载预训练的教师网络passdef initialize_network_with_same_structure(teacher_network):# 初始化一个与教师网络结构相同的学生网络passdef compute_loss(teacher_features, student_features):# 计算教师网络和学生网络特征之间的损失loss = 0for teacher_feature, student_feature in zip(teacher_features, student_features):loss += 0.5 * np.linalg.norm(teacher_feature - student_feature) ** 2return loss / len(teacher_features)def predict_anomaly(test_image):# 处理异常图像，例如，标记、保存或进一步分析print("Anomaly detected in image:", test_image)

3、Experiments

在这里插入图片描述

4、Conclusion

提出了基于特征金字塔匹配的学生-教师异常检测方法

supplement

在训练阶段，学生网络模仿教师网络的特征表示，并且学生网络和教师网络的结构是一样的，所以，按道理来说，即使在测试阶段，输入异常图像，学生网络和教师网络学到的特征也应该一样，所以通过损失函数比较两网络学习到特征的差异是无法检测到异常。

然而，这样理解对吗？

学生网络和教师网络在训练和测试阶段的角色和行为差异如下：

训练阶段的目标差异：
- 在训练阶段，学生网络的目标是模仿教师网络在正常图像上的特征表示。这意味着学生网络学习如何通过教师网络的“指导”来识别和表示正常数据的特征。
- 然而，学生网络并不是简单地复制教师网络的权重，而是学习如何从它自己的前向传播中生成相似的特征。因此，尽管目标是模仿，但学生网络仍然有可能产生与教师网络略有不同的特征表示，尤其是在它从未见过的数据上。
异常图像与正常图像的差异：
- 教师网络是在广泛的正常图像上预训练的，它学习到了正常数据的复杂特征。然而，异常图像通常与正常图像在视觉上有显著差异，这些差异可能在深层特征中表现出来。
- 学生网络在训练时只看到正常图像，因此它没有学习到如何表示异常图像的特征。当它遇到异常图像时，它尝试生成与教师网络相似的特征表示，但由于输入图像的异常性质，这很难做到。
损失函数的作用：
- 在测试阶段，损失函数测量的是学生网络和教师网络对同一测试图像的特征表示之间的差异。如果输入图像是异常的，学生网络的特征表示可能会与教师网络的显著不同，因为教师网络是在正常图像上预训练的，而学生网络是尝试模仿这种表示。
- 这种差异是异常检测的信号。如果学生网络能够轻易地模仿教师网络的特征表示，那么输入图像很可能是正常的。如果差异显著，那么输入图像很可能是异常的。
模型的泛化能力：
- 深度学习模型，包括学生网络，具有泛化能力。这意味着它们可以在一定程度上处理未见过的新数据。然而，这种泛化能力在面对与训练数据显著不同的数据时会下降，这正是异常检测所利用的。
教师网络的稳定性：
- 教师网络在训练阶段是固定的，不更新其权重。这意味着它提供了一个稳定的参照点，用于评估学生网络的输出。如果学生网络的输出与教师网络的输出显著不同，这表明输入数据可能与教师网络训练时使用的数据不同，即可能是异常的。