视频理解之Actionclip(论文宏观解读)

配合解读代码解读

1.研究背景

1. 视频行为识别的重要性

视频行为识别是视频理解领域的核心任务之一，旨在通过分析视频内容来识别和分类其中的人物行为或活动。这一任务在多个领域具有重要的应用价值，例如智能监控、人机交互、自动驾驶、医疗健康等。随着视频数据的爆炸式增长，如何高效、准确地识别视频中的行为成为计算机视觉领域的研究热点。

2. 发展历程

视频行为识别的研究主要经历了两个阶段：特征工程阶段和架构工程阶段。

特征工程阶段：在大规模标注数据集出现之前，研究者主要依赖手工设计的特征来提取视频中的时空信息。例如，早期方法包括基于光流的特征（如光流金字塔）、基于轨迹的特征（如密集轨迹）和基于局部特征的描述符（如3D HOG）。这些方法虽然在小规模数据集上取得了一定的成果，但由于缺乏对复杂视频内容的深度学习能力，其泛化能力和性能提升有限。
架构工程阶段：随着深度学习的兴起和大规模视频数据集（如Kinetics）的出现，视频行为识别进入了一个新的阶段。研究者开始设计各种深度神经网络架构来自动学习视频中的时空特征。这些架构主要包括：
- 双流网络（Two-stream Networks）：通过分别处理RGB帧和光流帧来捕捉视频的外观和运动信息，然后将两部分特征融合进行分类。
- 3D卷积神经网络（3D CNNs）：通过在传统2D CNN的基础上引入时间维度，直接从RGB帧中学习时空特征。
- 计算高效网络（Compute-efficient Networks）：为了在精度和速度之间取得平衡，研究者设计了多种轻量级网络架构，例如I3D、X3D等。
- 基于Transformer的网络：近年来，Transformer架构在图像识别和自然语言处理中取得了巨大成功。一些研究开始将其应用于视频行为识别，例如ViViT、TimeSformer等，通过建模长距离时空依赖关系来提升性能。

3. 现有方法的局限性

尽管现有的视频行为识别方法在大规模数据集上取得了显著的性能提升，但它们大多基于单模态框架，即将视频内容映射为固定类别标签的分类问题。这种框架存在以下局限性：

泛化能力受限：模型只能识别训练时见过的类别，难以泛化到新的、未见过的行为类别。这限制了模型在新数据集或新任务上的应用能力。
依赖大量标注数据：为了适应新的行为类别，需要重新收集和标注大量数据，这在实际应用中成本高昂且耗时。
缺乏语义信息：现有方法通常将类别标签映射为数字或独热向量，忽略了标签文本本身的语义信息。这导致模型无法充分利用自然语言的丰富语义来增强视频表示。

4. 本文提出的解决方案

为了解决上述问题，本文提出了一种新的视角，将视频行为识别建模为视频-文本匹配问题，并基于多模态学习框架进行建模。具体来说：

多模态学习框架：通过引入自然语言的语义信息，将视频和标签文本分别编码为语义特征，并通过相似性计算模块将它们匹配起来。这种框架不仅增强了视频表示的语义信息，还支持零样本行为识别，无需额外的标注数据。
“预训练、提示、微调”范式：为了充分利用大规模网络数据并降低预训练成本，本文提出了一种新的范式。该范式通过预训练模型、提示工程（将下游任务调整为类似于预训练任务的形式）和目标数据集上的微调，实现了高效的行为识别。这一范式不仅避免了大规模预训练的高昂计算成本，还通过提示设计充分利用了预训练模型的强大能力。

2.创新点

1.多模态学习框架

通过引入自然语言的语义信息，将视频和标签文本分别编码为语义特征，并通过相似性计算模块将它们匹配起来。这种框架不仅增强了视频表示的语义信息，还支持零样本行为识别，无需额外的标注数据。（利用clip进行预训练）

2. 文本提示（Textual Prompt）：任务适配与语义增强

文本提示的作用

文本提示的核心思想是通过自然语言的语义信息来增强模型对标签的理解和匹配能力。具体来说，文本提示通过以下方式实现任务适配与语义增强：

任务适配：
- 将下游任务转化为预训练任务的形式：预训练模型（如CLIP）通常在大规模的图像-文本对上进行训练，学习如何将图像与描述它们的文本匹配起来。通过设计文本提示，可以将视频行为识别任务转化为一个视频-文本匹配问题，从而让预训练模型能够更好地适应下游任务。
- 灵活调整任务目标：文本提示允许对任务目标进行灵活调整。例如，通过添加前缀、后缀或填空形式的提示（如“这是一个关于[标签]的视频”或“人类正在[标签]”），可以将行为识别任务转化为更接近预训练任务的形式，使模型能够更好地利用预训练阶段学到的语义信息。
语义增强：
- 丰富标签的语义信息：传统的标签映射方式忽略了标签的语义信息，而文本提示通过自然语言描述来增强标签的语义。例如，将“跑步”扩展为“一个人在户外跑步”或“运动员在田径场上跑步”，可以为模型提供更丰富的语义背景，从而更好地理解视频内容。
- 提升模型的泛化能力：通过文本提示，模型能够学习到标签的多种语义表达方式，从而在面对未见过的类别或新任务时，能够更好地利用语义信息进行推理。例如，在零样本识别任务中，模型可以通过匹配视频特征与文本提示的语义表示，识别出未见过的行为类别。

具体实现

前缀提示（Prefix Prompt）：在标签前添加固定文本，如“一个人正在[标签]”。
后缀提示（Suffix Prompt）：在标签后添加固定文本，如“[标签]的行为”。
填空提示（Cloze Prompt）：设计填空形式的文本，如“这是一个关于[标签]的视频”。

3. 视觉提示（Visual Prompt）：任务适配与语义增强

视觉提示的作用

视觉提示的核心思想是通过调整视频输入的结构或特征提取方式，使预训练模型能够更好地处理视频数据。具体来说，视觉提示通过以下方式实现任务适配与语义增强：

任务适配：
- 将视频数据转化为预训练模型的输入形式：预训练模型通常在图像数据上进行训练，而视频数据包含多个帧的时空信息。视觉提示通过设计特定的时空特征提取方式，将视频数据转化为预训练模型能够处理的形式。例如，通过添加时间维度的特征或设计特定的时空编码器，可以使预训练模型更好地理解视频内容。
- 避免对预训练模型进行大规模修改：视觉提示通常通过在预训练模型的输入阶段或输出阶段进行调整，而不是直接修改预训练模型的结构。这种设计避免了因修改模型结构而导致的“灾难性遗忘”，同时保留了预训练模型的强大语义理解能力。
语义增强：
- 增强视频的时空语义信息：视觉提示通过设计特定的时空特征提取方式，能够更好地捕捉视频中的时空信息。例如，通过添加时间位置编码（Temporal Positional Embedding）或使用时间卷积（Temporal Convolution）等方法，可以增强视频的时空语义信息，从而提升模型对视频内容的理解能力。
- 提升模型对视频数据的适应能力：通过视觉提示，模型能够更好地处理视频数据中的时空变化，从而在面对复杂的视频内容时，能够更准确地识别行为类别。例如，在处理长视频或包含多种行为的视频时，视觉提示能够帮助模型更好地捕捉关键帧和行为片段。

具体实现

前网络提示（Pre-network Prompt）：在视频帧输入预训练模型之前，添加额外的时间位置编码或时空特征提取模块。例如，将视频帧的时空信息编码为一个整体输入，使预训练模型能够更好地理解视频的时空结构。
中网络提示（In-network Prompt）：在预训练模型的内部结构中插入特定的时空模块，如时间偏移模块（Temporal Shift Module），以增强模型对视频时空信息的处理能力。
后网络提示（Post-network Prompt）：在预训练模型提取的特征之后，使用特定的时空聚合模块（如均值池化、卷积、LSTM或Transformer）对视频帧的特征进行进一步处理，从而增强视频的时空语义信息。

4结果

1. 性能提升

本文提出的 ActionCLIP 方法在多个视频行为识别数据集上取得了显著的性能提升，验证了“预训练、提示、微调”范式的有效性。

在 Kinetics-400 数据集上，ActionCLIP 使用 ViT-B/16 作为骨干网络，达到了 83.8% 的 top-1 准确率，超越了大多数现有方法，包括一些使用更大模型或更多输入帧的方法。这一结果表明，通过多模态学习框架和提示机制，模型能够更好地利用语义信息进行行为识别。
在 Charades 数据集上，ActionCLIP 达到了 44.3% 的 mAP（Mean Average Precision），在多标签视频分类任务中表现出色，进一步证明了该方法在复杂场景下的有效性。

2. 零样本（Zero-shot）和少样本（Few-shot）识别能力

ActionCLIP 在零样本和少样本行为识别任务中表现出色，展示了强大的泛化能力：

在 Kinetics-400 数据集上，ActionCLIP 能够在没有任何目标类别标注的情况下进行零样本识别，并且在少样本情况下（每类别仅有少量标注样本）的性能显著优于传统单模态方法（如 3D-ResNet-50 和 STM）。
在 UCF-101 和 HMDB-51 数据集上，ActionCLIP 使用在 Kinetics-400 上预训练的模型，能够直接进行零样本识别，而传统方法在这种情况下无法工作。这表明多模态学习框架和提示机制能够显著提升模型对未见过类别的识别能力。

5 未来不足

预训练数据限制：尽管本文提出了“预训练、提示、微调”范式，但由于大规模视频-文本数据预训练的计算成本高昂，本文未直接进行预训练，而是使用了预训练的CLIP模型。未来可以探索更高效的预训练方法，以充分利用大规模网络数据。
提示设计的局限性：虽然本文设计了多种提示方法，但提示的设计仍然依赖于人工经验和启发式方法，缺乏自动化的提示生成机制。未来可以研究如何自动设计更有效的提示，以进一步提高模型性能。
多模态融合的深度：本文的多模态学习框架主要通过视频和标签文本的相似性计算来实现融合，未来可以探索更深层次的多模态融合方法，如联合建模视频和文本的语义信息，以进一步提升模型的泛化能力和识别性能。
模型规模和输入帧数的限制：虽然本文已经展示了较大模型和更多输入帧数对性能的提升作用，但目前的模型规模和输入帧数仍有提升空间。未来可以尝试更大规模的模型和更多输入帧数的配置，以进一步提高行为识别的性能。