Deep Learning for Video Anomaly Detection: A Review 深度学习视频异常检测综述阅读

Abstract
I. INTRODUCTION
II. BACKGROUND
- A. Notation and Taxonomy
- B. Datasets and Metrics
III. SEMI-SUPERVISED VIDEO ANOMALY DETECTION
- A. Model Input
- B. Methodology
- C. Network Architecture
- D. Model Refinement
- E. Model Output
- F. Performance Comparison
IV. WEAKLY SUPERVISED VIDEO ANOMALY DETECTION
- A. Model Input
- B. Methodology
- C. Refinement Strategy
- D. Model Output
- E. Performance Comparison
V. FULLY SUPERVISED VIDEO ANOMALY DETECTION
- A. Approach Categorization
- B. Performance Comparison
VI. UNSUPERVISED VIDEO ANOMALY DETECTION
- A. Approach Categorization
- B. Performance Comparison
VII. OPEN-SET SUPERVISED VIDEO ANOMALY DETECTION
- A. Open-set VAD
- B. Few-shot VAD
VIII. FUTURE OPPORTUNITIES
- A. Creating Comprehensive Benchmarks
- B. Towards Open-world Task
- C. Embracing Pre-trained Large models
- D. Exploiting Interpretable VAD
IX. CONCLUSION

文章信息：
在这里插入图片描述
原文链接：https://www.arxiv.org/abs/2409.05383

Abstract

视频异常检测（VAD）旨在发现视频中偏离正常行为或事件。作为计算机视觉领域的一项长期任务，VAD已经取得了显著的进展。在深度学习时代，随着架构能力和容量的不断爆炸式增长，各种基于深度学习的VAD方法不断涌现，极大地提高了检测算法的泛化能力，并拓宽了应用场景。因此，如此众多的方法和大量的文献使得进行全面的综述成为一项迫切的需求。在本文中，我们进行了一次广泛而全面的研究综述，涵盖了五个不同类别的VAD方法，即半监督、弱监督、全监督、无监督和开放集监督VAD，并且我们还深入探讨了基于预训练大模型的最新VAD工作，弥补了以往综述中仅关注半监督VAD和小模型方法的局限性。针对不同监督水平的VAD任务，我们构建了一个条理清晰的分类体系，深入讨论了不同类型方法的特点，并展示了它们的性能比较。此外，本综述还涉及了覆盖上述所有VAD任务的公共数据集、开源代码和评估指标。最后，我们为VAD领域提供了几个重要的研究方向。

Index Terms—Video anomaly detection, anomaly detection, video understanding, deep learning.

I. INTRODUCTION

异常是指偏离标准、正常或预期的事物。正常状态多种多样，而异常则相对罕见。然而，当异常出现时，它们往往会产生负面影响。异常检测旨在基于机器学习技术发现这些罕见的异常，从而降低人工判断的成本。异常检测在各个领域都有广泛的应用[1]，如金融欺诈检测、网络入侵检测、工业缺陷检测和人类暴力检测等。其中，视频异常检测（VAD）占据重要地位，这里的异常指的是在时间或空间维度上的异常事件。VAD不仅在智能安全领域（如暴力、入侵和游荡检测）中发挥着至关重要的作用，还广泛应用于其他场景，如在线视频内容审查和自动驾驶中的交通异常预测[2]。由于其在不同领域应用的巨大潜力，VAD已经引起了工业界和学术界的广泛关注。

在深度学习时代之前，常规的做法是将特征提取和分类器设计分开，形成一个两阶段的过程，然后在推理阶段将它们组合在一起。首先，有一个特征提取过程，它基于专家的先验知识，将原始的高维原始视频转换为紧凑的手工设计的特征。尽管手工设计的特征缺乏鲁棒性，并且难以在复杂场景下捕获有效的行为表达，但这些先驱工作为后续的基于深度学习的工作提供了深刻的启示。

近十年来，深度学习的兴起使得传统机器学习算法逐渐失宠。随着计算机硬件的快速发展和互联网时代的大量数据，近年来基于深度学习的视频异常检测（VAD）方法取得了巨大进展。例如，ConvAE[3]是第一个使用基于卷积神经网络（CNN）的深度自编码器来捕捉视频规律性的工作；FuturePred[4]是第一个利用U-Net来预测未来异常的工作；DeepMIL[5]是第一个探索将深度多实例学习（MIL）框架应用于现实世界异常检测的工作。为了更直观地展示深度学习时代对VAD任务的研究热情，我们通过谷歌学术和IEEE Xplore1对过去十年（由基于深度学习方法兴起的时代所驱动）与VAD相关的出版物数量进行了统计调查。我们选择了五个相关主题，即视频异常检测、异常事件检测、异常行为检测、异常事件检测和异常行为检测，并在图1中展示了出版统计信息。不难看出，两个来源统计的相关出版物数量均呈现出稳定且快速增长的趋势，这表明VAD已经引起了广泛关注。此外，我们还展示了在两种常见监督方式下，每年最先进的方法在常用数据集上的检测性能趋势，并在图2中展示了性能趋势。所有数据集的检测性能均呈现稳步上升的趋势，没有出现任何性能瓶颈。例如，过去七年间，半监督方法在CUHK Avenue[6]上的性能经历了显著飞跃，从70.2%的AUC[3]提升到令人印象深刻的90.1%的AUC[7]。此外，对于随后提出的弱监督VAD，也取得了显著进展。这表明在不断发展的架构下，深度学习方法的能力在不断演变，同时也展示了深度学习方法对VAD任务的持续探索热情。

上述统计数据清楚地表明，基于深度学习的视频异常检测（VAD）是当前研究的热点领域。因此，迫切需要对现有工作进行系统的分类和全面总结，以便为新来者提供指导，并为现有研究人员提供参考。基于此，我们首先收集了过去几年中一些高知名度的VAD综述文章，如表I所示。Ramachandra等人[8]主要关注单一场景下的半监督VAD，缺乏对跨场景讨论的关注。Santhosh等人[9]回顾了以道路交通场景中的实体为重点的VAD方法。他们的综述缺乏足够的深入分析，且主要集中在2020年之前的方法论上，从而忽略了最近的进展。Nayak等人[10]对基于深度学习的半监督VAD方法进行了全面调查，但没有考虑弱监督VAD方法。后续工作Tran等人[11]介绍了新兴的弱监督VAD的综述，但其焦点不仅限于视频，还包括图像异常检测，导致对VAD任务的系统组织不足。最近，Chandrakala等人[12]和刘等人[13]构建了一个有组织的分类体系，涵盖了多种VAD任务，如无监督VAD、半监督VAD、弱监督VAD和全监督VAD，并对大多数监督VAD任务的基于深度学习的方法进行了调查。然而，他们的研究范围局限于传统的闭集场景，未能涵盖开放集监督VAD领域的最新研究，也没有引入基于预训练大模型和可解释性学习的全新流程。

为了全面填补这一空白，我们对深度学习时代的视频异常检测（VAD）工作进行了全面的综述。我们的综述涵盖了几个关键方面，以提供对VAD研究的综合分析。具体来说，我们深入调查了深度学习时代VAD任务的发展趋势，然后提出了一个统一的框架，将不同的VAD任务整合在一起，填补了现有综述在分类方面的空白。接着，我们收集了最全面的开放资源，包括基准数据集、评估指标、开源代码和性能比较，以帮助该领域的研究人员避免走弯路，提高效率。此外，我们还系统地对各种VAD任务进行了分类，将现有工作划分为不同的类别，并建立了清晰、有结构的分类系统，以提供对各种VAD范式连贯且有组织的概述。除了这个分类系统外，我们还对每个范式进行了全面分析。此外，在本综述中，我们重点介绍了对VAD研究进展有重大贡献的具有影响力的作品。

本综述的主要贡献可以概括为以下三个方面：

我们提供了对视频异常检测（VAD）的全面综述，涵盖了基于不同监督信号的五种任务，即半监督VAD、弱监督VAD、全监督VAD、无监督VAD和开放集监督VAD。研究重点已经从传统的单一任务半监督VAD扩展到更广泛的多种VAD任务。
为了紧跟研究趋势，我们回顾了开放集监督VAD领域的最新研究。此外，我们还重新审视了基于预训练大模型和可解释性学习的最新VAD方法。这些方法的出现提升了VAD的性能和应用前景。据我们所知，这是首个对开放集监督VAD和基于预训练大模型的VAD方法进行全面综述的研究。
对于不同的任务，我们系统地回顾了现有的基于深度学习的方法，更重要的是，我们引入了一个统一的分类框架，该框架根据模型输入、架构、方法论、模型优化和输出等多个方面，对各种VAD范式的方法进行了分类。这种细致的科学分类使得我们能够全面理解该领域。

在这里插入图片描述

图3. 五种监督VAD任务的比较，即全监督、半监督、弱监督、无监督和开放集监督VAD。

II. BACKGROUND

A. Notation and Taxonomy

如上所述，根据监督信号的不同，所研究的视频异常检测（VAD）问题可以正式分为五类。不同的监督VAD任务旨在识别异常行为或事件，但训练和测试的设置不同。我们在图3中展示了这些不同的VAD任务。

视频异常检测（VAD）的一般问题如下所述。假设我们得到了一组训练样本 $\mathcal{X}=\left\{x_i\right\}_{i=1}^{N+A}$ 以及相应的标签集 $\mathcal{Y}$ ，其中 $\mathcal{X}_n=\{x_i\}_{i=1}^N$ 是正常样本的集合，而 $\mathcal{X}_a=\{x_i\}_{i=N+1}^{N+A}$ 是异常样本的集合。每个样本 $x_i$ 在 $\mathcal{Y}$ 中都有一个对应的监督标签 $y_i$ 。在训练阶段，检测模型 $\Phi(\theta)$ 将 $\mathcal{X}$ 作为输入，并生成异常预测；然后，根据以下目标函数对模型进行优化。
在这里插入图片描述

其中， $\mathcal{L}(\cdot)$ 用于量化预测与真实标签或原始样本之间的差异。在推理阶段，检测模型期望根据生成的异常预测来定位视频中的异常行为或事件。根据 $\mathcal{L}$ 的输入，VAD可以分为以下五种任务设置之一。

半监督视频异常检测（Semi-supervised VAD）假设在训练阶段仅提供正常样本（即没有异常样本用于训练）。该任务的目标是基于训练样本学习正常模式，并将测试样本中不符合已学习模式的样本视为异常。优点：训练仅需要正常样本，无需收集稀缺的异常样本。缺点：任何未见过的测试样本都可能被错误地识别为异常，导致较高的误报率。

弱监督视频异常检测（Weakly supervised VAD）比半监督VAD拥有更充足的训练样本和监督信号。在训练阶段，既提供正常样本也提供异常样本，但这些未修剪的视频中异常的确切位置标签是未知的。换句话说，只有粗略的视频级别标签可用（即不精确的监督）。形式上， $\mathcal{Y}=\{0,1\}^{N+A}$ ，其中 $y_i=0$ 表示 $x_i$ 是正常样本， $y_i=1$ 表示 $x_i$ 是异常样本。优点和缺点：与完全监督的标注相比，弱监督可以显著降低标注成本。然而，它对算法设计提出了更高的要求，并可能导致盲目猜测的情况出现。这里的“盲目猜测”指的是算法在缺乏精确位置信息的情况下，可能难以准确识别和定位视频中的异常事件。

全监督视频异常检测（Fully supervised VAD），顾名思义，包含了完整的监督信号，意味着每个异常样本都有关于异常的精确标注。这项任务可以视为标准的视频或帧分类问题。由于现实中异常行为的稀缺性和密集的手动标注需求，关于全监督VAD任务的研究相对较少。值得注意的是，视频暴力检测可以视为一种全监督VAD，因此，在本文中，我们将暴力检测标记为全监督VAD任务。形式上，对于 $\mathcal{X}_a$ 中的每个视频 $x_i$ ，都伴随着一个相应的监督标签 $y_i=\{(t_j^s,t_j^e)\}_j^{U_i}$ ，其中 $t_j^s$ 和 $t_j^e$ 分别表示第 $j$ 个暴力事件的开始和结束时间， $U_i$ 表示视频中异常事件的总数。
优点和缺点：与弱监督VAD相比，由于全监督信息的存在，算法的检测性能将非常显著。然而，相应的缺点是它对密集手动标注的要求很高。

无监督视频异常检测（Unsupervised VAD）旨在以无监督的方式直接从完全未标记的视频中发现异常。因此，无监督VAD不再需要标记正常和异常视频来构建训练集。它可以正式地表达为： $\mathcal{X}=\mathcal{X}_{test}$ ，且 $\mathcal{Y}=\emptyset$ ，其中 $\mathcal{X}_{test}$ 表示测试样本集。

优点和缺点：

优点：无需耗时的训练样本收集工作，避免了繁重的标注负担。此外，这一假设还扩展了VAD的应用领域，意味着检测系统可以在没有人工干预的情况下持续进行再训练。
缺点：由于缺少标签，检测性能相对较差，导致较高的误报率（假正率）和漏报率（假负率）。

**开放集监督视频异常检测（Open-set supervised VAD）**旨在发现训练集中未出现的未见异常。与半监督VAD不同，开放集监督VAD在训练集中包含了异常样本，这些被称为已知异常。具体来说，对于训练集 $\mathcal{X}_a$ 中的每个 $x_i$ ，其对应的标签 $y_i\in C_{base}$ ，其中 $C_{base}$ 表示基础（已知）异常类别的集合，且 $C_{base}\subset\mathcal{C}$ ，而 $\mathcal{C}=C_{base}\cup C_{novel}$ 。这里， $C_{novel}$ 和 $\mathcal{C}$ 分别代表训练过程中未见的新异常类别集合和所有异常类别的集合。给定一个测试样本 $x_{test}$ ，其标签 $y_{test}$ 可能属于 $C_{base}$ 或 $C_{novel}$ 。

优点和缺点：

优点：与两种最常见的任务（即半监督VAD和弱监督VAD）相比，开放集监督VAD不仅减少了误报率，还避免了局限于封闭集场景，从而展现出很高的实用价值。
缺点：它依赖于学习专门的分类器、损失函数或生成未知类别来检测未见异常，这增加了算法的复杂性和实现难度。

B. Datasets and Metrics

相关的基准数据集和评估指标在https://roc-ng.github.io/DeepVAD/上列出。

III. SEMI-SUPERVISED VIDEO ANOMALY DETECTION

经过对以往调查的深入研究，我们发现这些调查大多缺乏科学的分类体系。许多调查仅根据使用方法（如基于重建的方法、基于距离的方法和基于概率的方法）将半监督视频动作检测（Video Action Detection, VAD）工作简单地划分为不同的组，还有一些调查则根据输入（如基于图像的方法、基于光流的方法和基于补丁的方法）对研究进行分类。显然，现有的分类综述相对简单且肤浅，因此难以全面有效地涵盖所有方法。为了解决这个问题，我们建立了一个全面的分类体系，涵盖了模型输入、方法、架构、模型优化和模型输出。具体说明如图4所示。

在这里插入图片描述

图4. 半监督视频动作检测（VAD）的分类体系。我们提供了一个层次化的分类体系，将现有的深度半监督视频动作检测模型按照模型输入、方法、网络架构、优化策略和模型输出组织成一个系统的框架。

如前所述，在半监督视频动作检测（VAD）任务中，只有正常样本可用于训练，这使得监督分类范式无法应用。常见的方法是利用训练样本的内在信息来学习深度神经网络（DNNs）以解决前置任务。例如，正常性重建就是一个经典的前置任务[3]。在这个过程中，需要考虑几个关键方面：样本信息的选择（模型输入）、前置任务的设计（方法）、深度网络的利用（网络架构）、方法的改进（优化）和异常结果的表达（模型输出）。这些关键要素共同决定了半监督VAD解决方案的有效性。在以下部分中，我们将根据前面提到的分类体系，系统地介绍现有的基于深度学习的VAD方法。

A. Model Input

现有的半监督视频动作检测（VAD）方法通常使用原始视频或其直观表示作为模型输入。根据模态的不同，这些输入可以分为以下几类：RGB图像、光流、骨架和混合输入，其中前三种分别代表外观、运动和身体姿态。

1 ) RGB:RGB图像是深度学习技术驱动的传统视觉任务中最常见的输入，视频动作检测（VAD）任务也不例外。与其他模态不同，RGB图像不需要额外的处理步骤，如光流计算或姿态估计算法。在深度学习时代，可以使用各种深度模型从这些高维原始数据中提取紧凑且高级别的视觉特征。利用这些高级特征可以设计出更有效的后续检测方法。此外，根据输入大小，基于RGB图像的输入可以分为三个主要组：帧级、补丁级和对象级。

Frame-level RGB输入提供了对整个场景的宏观视图，包括通常与事件无关的背景和更可能发生异常的前景对象。传统方法通常使用多个连续的视频帧作为单个输入，以捕获视频中的时间上下文，如ConvAE[3]、ConvLSTM-AE[14]和STAE[15]等方法所示。另一方面，一些研究集中在使用单帧RGB作为输入，旨在在空间层面检测异常，如AnomalyGAN[16]和AMC[17]。

Patch-level RGB输入涉及在空间或时空上对帧级RGB输入进行分割，这侧重于局部区域，有效地将前景与背景分离，并区分不同的个体实体。补丁级输入的主要优势在于它能够显著减少来自占主导地位的背景的干扰，这些背景通常与异常关系不大。这种分割有助于隔离更可能包含异常的区域，从而提高检测准确性。例如，AMDN[18]、[19]、DeepOC[20]和Deep-cascade[21]采用了时空补丁作为输入，而S2-VAE[22]和GM-VAE[23]则只采用了来自单个视频帧的图像补丁作为模型输入。

Object-level RGB近年来，随着对象检测方法的发展，基于对象级的RGB输入也逐渐出现，该方法仅专注于前景对象。与补丁级输入相比，它完全忽略了背景信息，并且没有考虑对象与背景之间的关系。因此，它在复杂场景中识别异常事件方面表现出色。Hinami等人[24]首先提出了一种基于对象输入的以对象为中心的方法FRCN，随后的一项后续工作ObjectAE[25]介绍了在检测到的对象上训练以对象为中心的自动编码器，之后，一系列专注于对象级输入的工作相继出现，如HF2-VAD[26]、HSNBM[27]、BDPN[28]、ER-VAD[29]和HSC[30]。

2 ) Optical Flow:视频不仅仅是堆叠的RGB图像序列，它还包含了时间维度和关键的时间上下文。因此，提取时间上下文对于理解视频内容至关重要，其中运动信息发挥着不可替代的作用。光流表示连续视频帧之间的运动信息，并常用作视频动作检测（Video Action Detection, VAD）任务的模型输入。光流通常不是单独出现，而是与对应的RGB图像作为双流网络的输入成对出现。因此，它也包含了帧级[4]、[31]–[35]、补丁级[20]、[36]、[37]和对象级[26]、[29]、[35]、[38]的多种层次。

3 ) Skeleton:近年来，随着深度学习技术在姿态估计领域的显著成功，基于骨骼输入的VAD（视频动作检测）方法应运而生。骨骼输入仅关注人体本身，这使得它比对象级别的RGB输入更加专业化。在以人为中心的VAD中，它展现出了令人印象深刻的性能，近年来在VAD领域内成为了一个重要的研究方向。Morais等人[39]首先尝试使用动态骨骼来学习人类运动的正常模式，其中姿态估计被用于在每个视频帧中独立检测骨骼。随后，出现了许多专门研究基于骨骼输入的人体相关VAD的方法，包括GEPC[40]、MTTP[41]、NormalGraph[42]、HSTGCNN[43]、TSIF[44]、STGCAELSTM[45]、STGformer[46]、STG-NF[47]、MoPRL[48]、MoCoDAD[49]和TrajREC[50]等。

4 ) Hybrid:与单模态输入相比，来自不同模态的混合输入由于其互补性，在VAD（视频动作检测）任务中往往更具优势。在现有的基于深度学习的VAD方法中，混合输入是一种常见的做法。典型的混合输入包括帧级RGB与光流的结合[4]、补丁级RGB与光流的结合[20]以及对象级RGB与光流的结合[26]。最近，一些研究还探索了基于RGB与骨骼相结合的混合输入[51]。

B. Methodology

在半监督语音活动检测（Voice Activity Detection, VAD）中，训练阶段仅提供正常样本，这使得传统的监督分类方法无法直接应用。当前的方法涉及基于正常样本本身固有的属性来设计一项前置任务，以构建一个涵盖所有正常事件的范式，这被称为正常范式或正常模式。通过对现有工作的深入研究，我们将学习正常范式的主要方法归纳为三类：自监督学习、单类学习和可解释学习。

1 ) Self-supervised Learning:
“如果智能是一块蛋糕，那么这块蛋糕的大部分都是自监督学习。”—— Yann LeCun

自监督学习主要利用辅助任务（前置任务）来直接从无监督数据中推导出监督信号。本质上，自监督学习是在没有外部标记数据的情况下进行的，因为这些标签是从输入数据本身生成的。对于缺乏明确监督信号的半监督语音活动检测（VAD）任务，自监督学习自然成为学习正常表示和基于这些辅助任务构建正常范式的关键。因此，在半监督VAD任务中，基于自监督学习的方法始终占据主导地位。在整个过程中，一个重要的研究焦点和挑战在于设计从数据本身派生的有效辅助任务。在这里，我们总结了现有基于自监督学习的方法中辅助任务的常见设计原则。

在半监督语音活动检测（VAD）领域，基于自监督学习的方法中最常用的前置任务是重构任务[3]、[14]、[17]、[22]、[48]、[52]–[54]。该过程主要涉及将正常数据输入网络，执行编码-解码操作，并生成重构数据，从而鼓励网络产生与原始输入数据紧密匹配的重构。这一目标可以表达为：

在这里插入图片描述

为了方便起见，在以下部分中，除非另有说明，x代表正常数据，它可能是一个正常视频、一个正常视频帧、一个正常特征或类似物。上述目标函数测量重构误差，该误差在测试阶段作为判断测试数据是否异常的标准。重构误差越大，数据被视为异常的概率就越高。然而，由于深度神经网络的高容量特性，基于重构的方法并不能保证异常事件的重构误差一定更大。

在这里插入图片描述

$I_t$ 表示当前时间步 $t$ 的实际数据， $I_{t-\Delta t:t-1}$ 表示从时间步 $t-\Delta t$ 到 $t - 1$ 的历史数据。FuturePred [4] 作为一种未来帧预测框架，为语音活动检测（VAD）提供了一种新的解决方案。随后，许多研究人员 [26], [33], [46], [55]–[61] 提出了其他基于预测的方法。这在一定程度上缓解了基于重构方法的问题，即异常事件也可能被很好地重构。

Visual cloze test受到自然语言处理中的填空测试的启发。它主要涉及训练多个深度神经网络，从不完整的视频序列中推断故意抹去的数据，其中预测任务可以视为视觉填空测试任务的特例，即抹去的数据恰好是视频序列中的最后一帧。我们定义在第 $t$ 个时间戳上完成抹去数据的目标函数为：

在这里插入图片描述

与预测任务类似，它也利用了视频中的时间关系，但不同之处在于该任务可以更好地学习高级语义和时间上下文。

Jigsaw puzzles最近被应用为半监督视频异常检测中的前置任务。其主要过程包括通过时间、空间或时空的打乱来创建拼图，然后设计网络来预测时间、空间或两者的相对或绝对排列。优化函数如下：

在这里插入图片描述
其中， $t_i$ 和 $\hat{t}_i$ 分别表示原始序列中第 $i$ 个数据的真实位置和预测位置。与之前涉及高质量图像生成的前置任务不同，拼图被视为多标签分类问题，这提高了计算效率并学习了更多的上下文细节。

Contrastive learning是自监督学习中的一种关键方法，其目标是通过区分相似对和不相似对来学习有用的表示。在半监督语音活动检测（VAD）中，如果两个样本来自同一个样本，则被视为正样本对，否则被视为负样本对[68]。我们展示如下对比损失：

在这里插入图片描述

$x_i$ 和 $x_i^+$ 是正样本对，而 $x_i$ 和 $x_k^-$ 是负样本对。 $\text{sim}(\cdot,\cdot)$ 是相似度函数（例如，余弦相似度）。Wang等人[69]为语音活动检测（VAD）引入了一个基于对比学习的聚类注意力对比框架。在推理阶段，测试样本与其变体之间的最高相似度被视为规律分数。

Lu等人。[70]进一步提出了一种可学习的局部敏感散列，具有VAD的对比学习策略。

Denoising[71]、[72]与重构非常相似，主要区别在于向输入数据添加了噪声η，并鼓励网络对重构数据实现去噪效果。这样做的好处是可以增强网络对于语音活动检测（VAD）的鲁棒性。优化目标可以表示为：

在这里插入图片描述

基于传统稀疏重建的VAD方法的成功，推动了深度稀疏编码[73]的发展，其升级版利用深度神经网络进行半监督VAD。与上述的重建或预测任务不同，稀疏编码通常使用提取的高级表示作为输入，而不是原始视频图像数据。通过学习大量的正常表示，来构建正常模式的字典。总体目标可以表述为：

Deep sparse coding受到传统稀疏重建视频异常检测方法成功的启发，升级版本利用深度神经网络进行半监督视频异常检测。与上述重建或预测任务不同，稀疏编码通常使用提取的高级表示而非原始视频图像数据作为输入。通过从大量正常表示中学习，构建正常模式的字典。总目标如下：

在这里插入图片描述

不同的正常事件可以通过字典 $B$ 与稀疏系数 $z$ 的乘积进行重建。对于异常事件，使用正常字典中的元素与稀疏系数的线性组合进行重建是困难的。为了解决传统稀疏重建方法的推理耗时和低级手工特征问题，基于深度稀疏编码的方法应运而生，同时利用深度神经网络强大的表示能力和稀疏表示技术，提高检测性能和效率。

Patch inpainting涉及通过从可用数据中推断缺失部分来重建缺失或损坏的区域。该技术主要利用空间和时间上下文来预测缺失区域的内容，确保重建的区域与周围区域无缝融合。区域修复的优化目标可以定义为最小化原始补丁与重建补丁之间的差异：

在这里插入图片描述

$M$ 表示一个掩码，其中掩码中的值为 0 表示该位置需要进行修复，而值为 1 表示该位置不需要修复， $\bar{M}$ 是 $M$ 的反转。与预测和视觉填空测试不同，区域修复更大程度地考虑了空间或时空上下文。Zavrtanik 等人将异常检测视为一个通过修复重建的任务，进一步随机移除了部分图像区域，并从部分修复中重建图像。随后，Ristea 等人提出了一种新颖的自监督预测架构模块，这是一种即插即用的设计，可以轻松集成到各种异常检测方法中。最近，提出了一种自蒸馏掩码自编码器来修复原始帧。

Multiple task可以缓解单一前置任务所带来的困境，即单一任务可能与视频异常检测任务不够对齐，从而导致次优的性能。最近，一些研究尝试在多个前置任务上联合训练 VAD 模型。例如，各种研究利用了不同的自监督任务组合，包括重建与预测、预测与去噪、预测与拼图、预测与对比学习等。一些研究努力从不同角度开发更复杂的多任务。

2 ) One-class Learning:：单类学习主要关注正常类别的样本。与自监督学习方法相比，它不需要费力设计可行的前置任务。单类学习通常分为三类：单类分类器、高斯分类器和生成对抗网络（GAN）判别器中的对抗分类器。

One-class classifier基本上包括一类支持向量机（OC-SVM）、支持向量数据描述（SVDD）及其他扩展，例如基本/广义一类区分子空间分类器（BODS, GODS）。具体而言，OC-SVM 被建模为 SVM 目标的扩展，通过学习一个最大间隔超平面来将正常数据与异常数据分开，这一过程通过最小化以下目标来实现：

在这里插入图片描述

其中， $\xi_i$ 是非负松弛变量， $w$ 和 $b$ 表示超平面， $C$ 是松弛惩罚。AMDN[18]是一种典型的基于OC-SVM的VAD方法，它通过自编码器获得低维表示，然后使用OCSVM对所有正常表示进行分类。另一种流行的一类分类器变体是（深度）SVDD[90]、[91]，它不像OC-SVM那样将数据建模为属于开放半空间，而是假设正常样本位于一个有界集合中，优化过程则是寻找包含所有正常样本的最小半径 $R > 0$ 的超球体的球心 $c$ 。数学上，其目标函数为：

在这里插入图片描述

其中，与OC-SVM一样， $\xi_i$ 用于建模松弛。基于此，Wu等人[20]提出了一种用于VAD的端到端深度一类分类器，即DeepOC，从而避免了AMDN复杂两阶段训练的缺点。

Gaussian classifier分类器的方法[21]、[23]、[92]假设在实际应用中，数据通常遵循高斯分布。通过使用训练样本，它可以学习正常模式的高斯分布（均值μ和方差Σ）。在测试阶段，与均值偏差较大的样本被视为异常。异常分数表示为：

在这里插入图片描述

Adversarial classifier利用生成器G和判别器D之间的对抗训练来学习正常样本的分布。G了解正常数据的分布，因为它可以访问正常样本。因此，D明确判断G的输出是否遵循正常分布。因此，可以通过优化以下目标来联合学习对抗分类器：

在这里插入图片描述

其中， $x_i$ 是从正常数据分布 $p_t$ 中抽取的样本，而 $\tilde{x}_i$ 是在 $x_i$ 上添加了噪声的样本，这些噪声是从正态分布 $\mathcal{N}_\sigma$ 中采样的。输入样本 $x$ 的最终异常分数由 $D (G (x))$ 给出。例如，Sabokrou 等人 [93]-[95] 开发了一个传统的对抗网络，该网络包含两个子网，其中判别器作为一类分类器工作，而细化器则通过增强正常样本和扭曲异常样本来支持判别器。为了缓解对抗训练引起的不稳定性，Zaheer 等人 [96],[97] 提出了通过改变判别器的角色来稳定对抗分类器的方法，使其能够区分高质量和低质量的重建，并引入伪异常示例。

Interpretable Learning:尽管基于自监督学习和一类学习的方法在流行的视频异常检测（VAD）基准测试中表现出竞争力，但它们完全依赖于复杂的神经网络，并且大多数都是端到端训练的。这限制了它们的可解释性和泛化能力。因此，可解释性VAD应运而生，它指的是用于识别和解释视频中异常事件的技术和方法。这些技术不仅旨在检测异常，而且还提供明确的解释来说明为什么会标记这些异常，这对于现实世界应用中的信任和透明度至关重要。例如，Hinami 等人 [24] 利用多任务检测器作为通用模型来学习有关视觉概念（如实体、动作和属性）的通用知识，以人类可理解的形式描述事件，然后设计了一个特定于环境的模型作为异常检测器，用于异常事件的复述和检测。类似地，Reiss 等人 [38] 提取了基于明确属性的表示（即速度和姿态）以及隐式语义表示，以做出可解释的异常决策。巧合的是，Doshi 和 Yilmaz [98] 提出了一种新颖的框架，该框架同时监控个体及其之间的交互，并探索场景图以提供对异常上下文的解释。Singh 等人 [99] 开创了可解释性VAD的新方向，这是一个基于高级外观和运动特征的更通用模型，能够提供人类可理解的原因。与之前的方法相比，这项工作不依赖于检测器，并且能够定位空间异常。最近，Yang 等人 [100] 提出了第一个基于大型语言模型（LLMs）的半监督VAD的规则推理框架，这得益于LLMs的革命性推理能力。在此，我们在第5节中介绍了一些经典的可解释性VAD方法。

C. Network Architecture

Auto-encoder:自编码器由两个关键结构组成，即编码器和解码器。其中，编码器将输入样本压缩为潜在空间表示，从而显著降低样本的维度。解码器则从潜在空间表示中恢复输入样本，将样本的维度增加回原始输入大小。由于其固有的图像恢复和高级表示提取能力，自编码器被广泛应用于基于自监督学习方法的图像恢复前置任务中，如重建[3]、预测[15]和修复[80]。此外，自编码器还被用于提取基于一类学习方法的特征[20]，其中提取的特征用于优化后续的一类分类器。自编码器的结构非常灵活，可以基于各种不同的基础网络，如二维卷积神经网络（2D CNN）[3]、三维卷积神经网络（3D CNN）[15]、循环神经网络（RNN）[76]、门控循环单元（GRU）[39]、长短期记忆网络（LSTM）[14]、[101]、图卷积网络（GCN）[42]、[45]和Transformer[63]、[80]。
GAN:由于其强大的生成能力，生成对抗网络（GAN）已被广泛应用于包括视频异常检测（VAD）在内的各种应用中。其核心思想是利用生成器和判别器来识别偏离所学正常分布的异常样本。具体而言，与自编码器类似，GAN也主要应用于基于图像恢复的前置任务[4]、[102]–[105]，其中生成器创建恢复后的图像，并在训练完成后丢弃判别器。相反，一些基于一类学习的方法[93]、[96]则利用判别器来评估新样本是真实的（正常）还是生成的（异常的）的可能性。低似然性分数表示异常，从而实现端到端的一类分类器。
Diffusion:

D. Model Refinement

1 ) Pseudo Anomalies:在半监督学习中，真实的异常样本通常很稀缺。为了弥补这一不足，多项研究选择生成伪异常样本。当前的方法包括：1. 扰动正常样本，即对正常视频样本应用随机扰动，如添加噪声、打乱帧序列或添加额外补丁[106]–[109]；2. 利用生成模型，即使用GAN或扩散模型生成与正常样本相似但具有异常特征的样本[97]、[110]；3. 模拟特定异常行为，即在图像级或特征级手动引入额外的异常样本[111]、[112]。因此，使用伪异常样本进行训练可以使检测模型学习多种异常模式，并帮助模型学习更广泛的异常特征，从而提高模型在现实世界应用中的鲁棒性和泛化能力。

2 ) Memory Bank:记忆库[113]–[118]用于存储正常视频样本的特征表示，这些特征表示作为参考基线，并可以动态更新以适应新的正常模式，从而使模型能够更好地捕获正常模式，并同时提高适应变化环境的能力。在具体实现中，记忆库可以与不同的网络架构相结合，如基于自编码器的重建（或预测）[119]–[122]和对比学习[123]。

E. Model Output

1 ) Frame-level:在帧级输出中，视频的每一帧都被分类为正常或异常。这种输出格式提供了视频中哪些帧包含异常的总体视图。这种输出方式简单直接，易于实现和理解，并且在检测大时间范围内的异常时特别有效。

2 ) Pixel-level:在像素级输出中，不仅识别出哪些帧包含异常，而且还识别出这些帧内哪些具体的像素区域是异常的[126]。这种输出格式提供了关于异常的更细致的信息。像素级输出提供了异常的确切位置和范围，为进一步分析异常的性质和原因提供了更详细的信息。我们在图6中展示了不同的模型输出。

在这里插入图片描述

F. Performance Comparison

图7展示了半监督视频异常检测方法的简明时间线。此外，表II提供了在代表性半监督视频异常检测方法中观察到的性能总结。

在这里插入图片描述

IV. WEAKLY SUPERVISED VIDEO ANOMALY DETECTION

弱监督视频异常检测（VAD）目前是视频异常检测领域备受关注的研究方向，其起源可追溯至DeepMIL[5]。与半监督VAD相比，它是一个较新的研究方向，因此现有的综述缺乏全面和深入的介绍。如表I所示，Chandrakala等人[12]和刘等人[13]都提到了弱监督VAD任务。然而，前者仅简要描述了2018年至2020年的几项成果，而后者虽然涵盖了近期的工作，但缺乏科学的分类体系，仅根据不同的模态将其简单地分为单模态和多模态。鉴于这一背景，我们调查了从2018年至今的相关工作，包括基于预训练大模型的最新方法，并从模型输入、方法论、细化策略和模型输出四个方面对现有工作进行了分类。弱监督VAD的分类体系如图8所示。

在这里插入图片描述

图8. 弱监督视频异常检测的分类体系。我们提供了一个层次化的分类体系，将现有的深度弱监督视频异常检测模型按照模型输入、方法论、细化策略和模型输出组织成一个系统框架。

与半监督视频异常检测（VAD）相比，弱监督视频异常检测在训练过程中明确定义了异常，为检测算法提供了明确的方向。然而，与全监督视频异常检测不同，粗粒度的弱监督信号给检测过程带来了不确定性。大多数现有方法利用多实例学习（MIL）机制来优化模型。这个过程可以看作是从正常包（正常视频）中选择看起来最异常的困难区域（视频片段），以及从异常包（异常视频）中选择最有可能是异常的区域。然后，目标是最大化它们之间的预测置信度差异（使最困难的正常区域的置信度接近0，而最异常区域的置信度接近1），这可以视为一个二分类优化问题。通过基于不同特征逐渐挖掘所有正常和异常区域，异常区域的异常置信度增加，而正常区域的异常置信度降低。不幸的是，由于缺乏强监督信号，上述优化过程中的检测模型不可避免地涉及盲目猜测。

A. Model Input

与半监督视频异常检测（VAD）不同，弱监督视频异常检测的网络输入不是原始视频，如RGB、光流或骨架。相反，它们是使用预训练模型提取的特征。这种方法缓解了现有弱监督视频异常检测数据集规模大、场景多样复杂以及监督信号弱所带来的问题。使用预训练特征作为输入可以有效地利用现成模型在外观和运动方面学到的知识，大大降低了检测模型的复杂性，并实现了高效的训练。

1) RGB:RGB是最常见的模型输入。一般方法是将长视频分成多个片段，并使用预训练的视觉模型从每个片段中提取全局特征。随着深度模型的不断发展和改进，所使用的视觉模型也得到了升级，从最初的C3D[5]、[127]、[128]发展到I3D[129]–[133]、3DResNet[134]、[135]、TSN[136]–[138]，以及最近流行的Swin Transformer[139]、[140]和CLIP[141]、[142]。视觉模型的这种持续升级导致了检测性能的逐步提高。

2 ) Optical Flow:与RGB类似，相同的方法也应用于光流输入以获得相应的全局特征。然而，由于光流提取耗时较长，在现有方法中较少使用。用于光流的常见预训练模型包括I3D[143]和TSN[137]。

3) Audio:对于包含音频信号的多模态数据集（如XD-Violence），音频也包含重要的感知信息。与RGB图像不同，音频是一维的，通常按以下方式处理：首先对音频进行重采样，计算频谱图，并创建对数梅尔频谱图，然后将这些特征划分为不重叠的样本。最后，将这些样本输入到预训练的音频模型（如VGGish [144]）中，以提取特征[145]、[146]。

4) Text:最近，一些研究人员[147]–[150]尝试将与视频相关的文本描述纳入暴力行为检测（VAD）中。这些文本可能是人工标注的，也可能是由大型模型生成的。文本数据通常使用文本编码器转换为特征，然后输入到后续的检测网络中。

5) Hybrid:常见的混合输入包括RGB与光流相结合[143]、RGB与音频相结合[151]–[153]、RGB与光流和音频相结合[154]，以及最近出现的RGB与文本相结合[155]。

B. Methodology

1) One-stage MIL:一阶段多实例学习（MIL）[5]、[156]–[158]是弱监督暴力行为检测中最常用的方法。其基本思想是先将长视频分割成多个片段，然后使用MIL机制从这些片段中选择最具代表性的样本。这包括从看似最像异常的正常视频中选择困难样本，以及从异常视频中选择最可能的异常样本。然后，通过降低困难样本的异常置信度并增加最可能的异常样本的置信度来优化模型。最终，模型对正常样本的预测置信度逐渐降低，而对异常样本的预测置信度逐渐增加，从而实现异常检测。该方法的优点在于其简单性和易于实现性。MIL的目标可以展示为：

在这里插入图片描述

其中， $x^a$ 和 $x^n$ 分别表示一个异常视频和一个正常视频。

此外，TopK [130] 通过从每个视频中选择预测分数最高的前 $K$ 个片段（而不仅仅是分数最高的片段）来进行训练，从而扩展了MIL。因此，MIL可以看作是TopK的一个特例。

对于这些TopK片段，计算它们的平均预测分数作为预测概率 $\hat{y}$ ，

在这里插入图片描述

其中， $\sigma$ 是sigmoid激活函数。使用 $\hat{y}$ 和标签 $y$ 之间的交叉熵损失来优化模型，

在这里插入图片描述

一阶段MIL机制导致模型往往只关注最显著的异常，而忽略了不太明显的异常。

2) Two-stage Self-training:相比之下，改进的两阶段自学习方法虽然更复杂，但也更有效。该方法采用两阶段训练过程。首先，使用一阶段MIL对初步模型进行预训练。在这一阶段，模型学习VAD的基本原理。然后，以预训练模型为初始参数，引入自学习机制对模型进行进一步的自适应训练，提高其识别异常的能力。具体来说，在自学习阶段，利用预训练阶段模型的预测结果自动选择高置信度的异常区域。然后，将这些区域作为伪标签数据对模型进行重新训练，从而提高其识别异常的能力。这种两阶段训练方法有效地提高了弱监督VAD中模型的性能，进一步提高了模型的泛化能力和鲁棒性。NoiseClearner [137]、MIST [159]、MSL [140]、CUPL [160]和TPWNG [161]是典型的两阶段自训练工作。

基于改进MIL的两阶段自学习方法在弱监督VAD中表现出色，但也存在一些缺点，如计算复杂度高：两阶段训练过程需要更多的计算资源和时间。预训练和自学习阶段都涉及多次训练迭代，导致计算成本高昂；依赖初始模型质量：自学习阶段依赖于预训练阶段生成的初始模型。如果初始模型质量较差，错误的预测可能被当作伪标签，影响后续训练的有效性。

C. Refinement Strategy

细化策略主要关注输入特征、方法设计等方面，以弥补弱监督信号的不足。在本节中，我们汇编了几种常用的细化策略，并进行了详细介绍。

1) Temporal Modeling:时间建模对于捕获视频中的关键上下文信息至关重要。与动作不同，异常事件是场景、实体、动作和其他元素的复杂组合，需要丰富的上下文信息进行准确推理。现有的时间建模方法大致可分为局部关系建模和全局关系建模。局部建模通常用于在线检测[162]，而全局建模则主要用于离线检测[163]。时间卷积网络[130]、[164]、扩张卷积[163]、图卷积网络（GCN）[165]、[166]、条件随机场[167]和转换器[140]、[168]–[170]等技术经常被用来有效地捕获这些时间关系。

2) Spatio-temporal Modeling:此外，时空建模可以同时捕获空间关系，突出异常空间位置，并有效减少来自不相关背景的噪声。这可以通过将视频帧分割成多个块或使用现有的对象检测器来捕获前景对象来实现。然后，使用诸如自注意力[34]、[135]、[171]、[172]等方法来学习这些块或对象之间的关系。与仅进行时间建模相比，时空建模由于涉及更多的分析实体，因此需要更高的计算负载。

3) MIL-based Refinement:传统的多实例学习（MIL）机制仅关注异常分数最高的片段，这导致了一系列问题，如忽略事件连续性、固定长度的K值无法适应不同的视频场景，以及对具有简单上下文的异常片段存在偏见。一些高级策略[173]、[174]旨在解决这些局限性。通过结合无偏MIL[175]、来自文本的先验信息[149]、[176]、幅度级MIL[177]、连续性感知细化[178]和自适应K值[179]，可以显著提高检测性能。

4) Feature Metric Learning:虽然基于MIL的分类确保了特征类间的可分性，但这种仅在视频级别的可分性对于准确的异常检测来说是不足够的。相比之下，通过聚类相似的特征并隔离不同的特征来增强特征的判别力，应该能够补充甚至增强基于MIL分类所达到的可分性。具体来说，特征度量学习的基本原则是使相似的特征在特征空间中紧凑，而使不同的特征相互远离，从而提高判别能力。一些工作[132]、[147]、[149]、[162]、[168]、[180]、[181]利用特征度量学习来增强特征的判别力。

5) Knowledge Distillation:知识蒸馏旨在将从富信息分支获取的知识转移到贫信息分支，以缩小语义差距，这主要应用于模态缺失[182]或模态增强[153]的场景。

6) Leveraging Large Models:大型模型在视频异常检测（VAD）领域已经开始展现出巨大的潜力和灵活性。它们不仅通过视觉-语言特征（如CLIP-TSA[185]）和跨模态语义对齐（如VadCLIP[183]）来增强检测能力，还利用大型语言模型生成解释性文本，从而提高检测准确性（如TEVAD[148]、UCA[155]和VAD-Instruct50k[186]）。此外，这些大型模型还可以直接利用大型语言模型的先验知识进行无需训练的VAD（如[187]、[188]），显示出在快速部署和降低成本方面的优势。此外，这些大型模型的卓越零样本能力还可以通过其他多种方式用于异常检测，如面向异常检测的提示（AD oriented prompts）[189]、[190]或通用残差学习（generic residual learning）[191]。这些方法共同推动了VAD技术的发展，为实现更高效、更具可解释性的VAD提供了新的途径和工具。

D. Model Output

1) Frame-level:与半监督视频异常检测（VAD）类似，弱监督VAD的输出通常也是帧级预测结果，表明每帧出现异常的概率。这种输出方式直观且易于理解，因此常被采用。

2) Pixel-level:虽然帧级输出直观，但缺乏可解释性。因此，一些工作已经开始关注实现像素级检测。例如，Liu等人[192]使用空间级强监督信号来实现空间定位。Wu等人[193]则采用了不同的方法，不依赖于劳动密集型的标注。相反，他们借鉴视频时空定位算法，利用对象检测和跟踪等算法，通过时空对象管分析实现了异常的时空定位。

E. Performance Comparison

如图9所示，该领域的时间线上出现了几项重要的研究工作。此外，我们在表III中详细比较了现有研究的性能。
在这里插入图片描述

在这里插入图片描述

V. FULLY SUPERVISED VIDEO ANOMALY DETECTION

全监督视频异常检测（VAD）是指在数据集具有详细的帧级或视频级标注的条件下，进行视频异常检测的任务。在这里，我们将视频暴力检测视为一个全监督VAD任务。

A. Approach Categorization

视频暴力检测通常将外观、运动、骨架、音频或这些的组合作为输入。根据输入类型，可以将其分为以下几类：

外观输入主要包括原始RGB图像，直接展示视频帧的视觉效果。这有助于模型更好地理解可以直接从视觉角度检测到的异常。许多方法[194]–[197]使用预训练模型从原始图像中提取的RGB特征作为模型输入。

运动输入主要包括光流、光流加速度和帧差。这些输入直接展示了物体的运动状态，有助于从运动角度识别可能难以通过视觉检测到的异常。Dong等人[194]和Bruno Peixoto等人[198]使用光流和光流加速度作为输入，而Sudhakaran等人[199]和Hanson等人[200]则采用帧差作为模型输入。

骨架输入可以直观地显示人体的姿态状态，使模型能够排除背景干扰并专注于人体动作，从而更直观、生动地识别暴力行为。Su等人[201]和Singh等人[202]通过研究骨骼点之间的交互关系来进行暴力检测。

音频输入可以提供额外的信息，有助于识别暴力事件[198]。这是因为某些暴力事件不可避免地会涉及声音的变化，这些变化有助于我们更好地检测暴力事件，特别是当RGB图像可能由于遮挡等问题而无法有效检测时。

混合输入结合了不同模态的优势，以更好地检测暴力事件。Cheng等人[203]利用RGB图像和光流作为输入，而上官等人[204]则将RGB图像与音频结合作为输入。Garcia等人[205]将骨架和帧差输入到检测模型中。

B. Performance Comparison

我们在表IV中给出了现有全监督VAD研究的性能比较。
在这里插入图片描述

VI. UNSUPERVISED VIDEO ANOMALY DETECTION

尽管监督式VAD非常流行，但在实际应用中，监督式方法仍然存在不足。一方面，在许多情况下，我们无法明确界定现实生活中人类活动的正常行为是什么，例如，在体育场跑步是正常的，但在图书馆跑步是被禁止的。另一方面，提前了解所有可能的正常事件是不切实际的，尤其是对于科学研究而言。因此，在无监督环境下的VAD具有重要的研究价值。

A. Approach Categorization

通过深入调查，我们大致将当前的无监督VAD方法分为三类：伪标签、变化检测和其他方法。

基于伪标签的范式描述如下。Wang等人[210]提出了一种两阶段训练方法，首先使用自适应重建损失阈值的自编码器从未标记的视频中估计正常事件。然后，这些估计的正常事件被用作伪标签来训练OC-SVM，以完善正常性模型，排除异常并提高检测性能。Pang等人[211]引入了一种自训练深度序数回归方法，该方法首先使用经典的单类算法进行初步检测，为异常帧和正常帧生成伪标签。然后，使用自训练策略迭代训练端到端异常分数学习器，该策略使用新生成的伪标签来优化检测器。Zaheer等人[215]提出了一种无监督的生成性协作学习方法，该方法利用异常的低频特性在生成器和判别器之间进行交叉监督，每个模型都从另一个模型的伪标签中学习。Al-lahham等人[216]提出了一种从粗到细的伪标签生成框架，该框架使用分层分裂聚类在视频级别生成粗伪标签，并使用统计假设检验在片段级别生成细伪标签，然后用获得的伪标签训练异常检测器。

基于变化检测的范式可以概括如下。Del Giorno等人[207]使用简单的逻辑回归分类器在视频帧中进行变化检测，通过随机排序帧来使比较与时间无关，从而测量数据之间的偏差。Ionescu等人[208]提出了一种基于去掩蔽技术的变化检测框架，通过观察连续事件之间分类器准确性的变化来确定异常事件。Liu等人[209]将启发式去掩蔽过程与统计机器学习中的多分类器双样本测试联系起来，旨在改进去掩蔽方法。Hu等人[212]介绍了一种基于掩蔽自编码器[217]的方法，其中异常的罕见和不寻常性质导致对变化事件的预测不佳，从而可以在未标记的视频中进行异常检测和评分。

其他范式包括以下方法。Li等人[218]提出了一种聚类技术，该技术在一个正常数据子集上训练自编码器，并在基于聚类和表示学习的假设正常候选者之间进行迭代。重建误差被用作评分函数来评估正常性。Lin等人[213]引入了一个因果推断框架，以减少噪声伪标签的影响，将长期时间上下文与局部图像上下文相结合，用于异常检测。Yu等人[214]强调了深度重建在无监督VAD中的有效性，揭示了正常事件具有较低重建损失的正常性优势。他们将一种新颖的自步式细化方案集成到基于定位的无监督VAD重建中。

B. Performance Comparison

我们在表V中给出了现有的无监督VAD研究的性能比较。

在这里插入图片描述

VII. OPEN-SET SUPERVISED VIDEO ANOMALY DETECTION

在开放世界中，让训练有素的有监督模型检测未知的异常是一项具有挑战性的任务。未知的异常在现实场景中极有可能发生，因此，关于开放集异常检测的研究引起了广泛关注。开放集有监督视频异常检测是一项具有挑战性的任务，其目标是在训练阶段未见的视频中检测异常事件。与传统的（封闭集）视频异常检测不同，后者中的异常类型是已知且明确定义的，而开放集视频异常检测必须处理不可预见和未知的异常。这对于现实世界的应用至关重要，因为在训练期间预测和标注每一种可能的异常是不切实际的。因此，关于开放集视频异常检测的研究受到了广泛关注。然而，现有的综述工作缺乏对开放集视频异常检测的探讨。基于此，我们进行了深入的调查，并对现有的开放集视频异常检测工作进行了系统的分类。据我们所知，这是第一篇详细介绍开放集有监督视频异常检测的综述。在本节中，我们根据不同的研究方向，将开放集有监督视频异常检测大致分为两类：开放集视频异常检测和少量集视频异常检测。在图10中，我们展示了六种经典的开放集有监督视频异常检测方法。

在这里插入图片描述

A. Open-set VAD

开放集视频异常检测（Open-set VAD）是一个重要的研究领域，它通过专注于检测未知异常来克服传统异常检测方法的局限性。MLEP[219]作为开放集有监督视频异常检测的首个工作，解决了在仅有少量异常示例用于训练时检测视频中的异常这一挑战。它强调在特征空间中学习一个将正常样本和异常样本分开的边界，这有助于在仅有少量示例的情况下区分异常。后续工作[220]引入了一个新的基准测试集UBnormal，该基准测试集专为开放集视频异常检测而设计。它的目的是提供一个全面的评估框架，用于在开放集条件下测试和比较各种视频异常检测方法。Zhu等人[221]突破了封闭集检测的局限性，开发了能够推广到先前未见异常并有效区分它们与正常事件的新技术。特别是，他们引入了一个归一化流模型来创建伪异常特征。最近，Wu等人[142]将开放集视频异常检测扩展到更具挑战性的开放词汇视频异常检测（Open-vocabulary VAD），旨在同时检测和识别异常类别。围绕视觉-语言模型，该任务通过匹配视频与相应的文本标签来实现。此外，还利用大型生成模型和语言模型来生成伪异常样本。还有其他针对开放集设置的方法，如[222]、[223]，但它们侧重于图像级别的异常检测。通过各种创新方法，如边界学习、基准测试集的开发、泛化策略以及视觉-语言模型的集成，研究人员正在推动视频异常检测领域的发展边界。这些进步正在为更健壮、灵活和实用的视频异常检测系统铺平道路，这些系统适用于各种现实世界的应用场景。

B. Few-shot VAD

少量样本视频异常检测（Few-shot VAD）的目标是在只有少数几帧的情况下，检测之前未见过的场景中的异常。与开放集视频异常检测相比，主要区别在于提供了少数几帧真实的、未见过的异常帧。这个任务首先由Lu等人[224]提出，并提出了一种基于元学习的模型来解决这个问题。在测试阶段，该模型需要通过新场景提供的少数样本进行微调。为了避免在部署前进行额外的微调过程，Hu等人[225]和黄等人[226]分别采用了基于度量的自适应网络和变分网络，这两种方法都在测试阶段利用少数正常样本作为参考，而无需进行任何微调。此外，Aich等人[227]提出了一种新颖的zxVAD框架，这是一个重大进展，因为它能够在不需要目标域适应的情况下跨域进行异常检测。在这项工作中，一个基于未训练卷积神经网络（CNN）的异常合成模块通过以无训练的方式在正常视频帧中添加外来物体来生成伪异常示例。这与上述的少量样本自适应方法形成对比，后者需要目标域中的少量标记数据来进行微调。前者侧重于域不变特征提取和无监督学习，以确保鲁棒性和泛化能力，而后者则依赖于少量样本学习来使模型适应新的域，同时只需要最少量的标记数据。

VIII. FUTURE OPPORTUNITIES

A. Creating Comprehensive Benchmarks

当前的视频异常检测（VAD）基准测试集在数据量、模态和捕捉视角方面存在各种局限性。因此，一个重要的未来方向是沿着这些维度扩展基准测试集，以提供更真实的视频异常检测测试平台。

1) Large-scale:目前，在视频异常检测（VAD）领域，尤其是半监督VAD领域，数据规模过小。例如，UCSD Ped数据集[228]仅持续几分钟，而即使是规模更大的ShanghaiTech数据集[14]也仅有几个小时。与视频动作识别任务中的数据集[229]相比，后者可能持续数百或数千小时，VAD数据集的规模显得非常小。这对于训练VAD模型来说远远不够，因为在小规模数据集上进行训练很容易在大模型中导致过拟合。虽然这可能在小规模测试数据上产生良好的检测结果，但它会严重影响旨在现实世界部署的VAD模型的性能。因此，扩大数据规模是未来研究的一个关键重点。

2) Multi-modal:目前，关于多模态视频异常检测（VAD）的研究还很有限。正如人类通过多种感官（如视觉、听觉和嗅觉）来感知世界一样，在面对多源异构数据时，有效地利用各种模态信息可以增强异常检测的性能。例如，使用音频信息可以更好地检测尖叫和恐慌等异常，而使用红外信息则可以在黑暗环境中识别异常情况。

3) Egocentric, Multi-view, 3D, etc.:第一人称视角的视频异常检测（Egocentric VAD）涉及使用可穿戴设备或体载相机捕获的数据来模拟个人如何感知其环境并识别异常事件，例如实时检测跌倒或攻击性行为。创建利用不同视角数据的多视角基准测试集可以进行全面的环境分析，从而能够检测到从单一视角可能看不到的异常。来自深度信息或点云的3D视角可以提供更详细的空间信息，使模型能够更好地理解环境的结构和上下文，同时也带来了多模态信号。

B. Towards Open-world Task

目前的研究主要集中在闭集视频异常检测（VAD）上，这种检测仅限于识别训练期间定义和标注的异常。在诸如城市监控等应用中，无法适应未预见的异常限制了闭集VAD模型的实用性和有效性。因此，向开放世界VAD任务发展，处理现实世界中情况的不确定性和可变性，是一个可行的未来趋势。为了完成这项任务，可以考虑几种关键方法及其组合。自监督学习：利用未标记数据学习具有区分性的表示，以区分正常和异常事件[231]；开放词汇学习：开发能够适应新异常的模型，这些模型可以利用大型模型[142]、伪异常合成或最少量的标记示例；增量学习：在不忘记之前学习到的信息的情况下，用新数据和异常类型不断更新模型[232]。

C. Embracing Pre-trained Large models

预训练的大型模型在各种计算机视觉任务中取得了显著的成功，这些模型可以在视频异常检测（VAD）中加以利用，通过整合语义上下文和改进特征表示来增强对异常的理解和检测。以下是几个可行的方向。特征提取：在大型数据集上训练的大型模型的预训练权重为特征提取提供了坚实的基础，并减少了从头开始进行大量训练的需求[185]。语义理解：可以利用语言-视觉模型来理解和整合视频场景中的上下文信息。例如，与视频帧相关联的文本描述可以提供额外的上下文，有助于识别异常。同样地，可以利用这些模型的语言能力来生成或理解异常的文本描述，从而辅助异常的检测和解释[186]。零样本学习：利用语言-视觉模型的零样本学习能力来检测异常，而无需在训练期间提供明确的示例。这在开放集VAD场景中特别有用，因为在那里可能会出现新的异常类型[190]。

D. Exploiting Interpretable VAD

可解释性视频异常检测（Interpretable VAD）致力于创建不仅能够检测异常，还能为其预测提供可理解解释的模型。这对于获取系统信任至关重要，尤其是在监控、医疗和自动驾驶汽车等高风险应用中。以下是从VAD系统的三个不同层次出发的几个可行方向。输入层：不是直接将原始视频数据输入到模型中，而是利用现有技术提取关键信息，如前景对象、位置坐标、运动轨迹和人群关系。算法层：结合不同领域的算法可以增强推理能力，包括：知识图谱，即利用知识图谱来融入上下文信息和实体之间的关系；意图预测，即使用意图预测算法来预测未来行为并检测与预期行为的偏差[125]；大型语言模型（LLMs）的推理，即使用大型LLMs对检测到的异常进行文本描述，这些描述也可以用于解释。这些描述可以解释模型为何将某些情况视为异常以及原因何在[186]。输出层：可以将视频中的时空变化和模式等各种方面综合起来，以解释异常[184]。

IX. CONCLUSION

我们全面回顾了深度学习时代的视频异常检测方法。与以往主要关注半监督视频异常检测的综述不同，我们提出了一种分类法，根据监督信号将现有工作系统地分为五类，即半监督、弱监督、无监督、全监督和开放集监督视频异常检测。对于每个类别，我们进一步根据模型差异（如模型输入和输出、方法论、细化策略和架构）对类别进行细化，并展示了各种方法的性能比较。最后，我们讨论了未来基于深度学习的视频异常检测的几个有前景的研究方向。