SAM 2:分割图像和视频中的任何内容

server/2024/12/23 1:19:56/

文章目录

摘要
1 引言
2 相关工作
3 任务：可提示视觉分割
4 模型
5 数据
- 5.1 数据引擎
- 5.2 SA-V数据集
6 零样本实验
- 6.1 视频任务
- - 6.1.1 提示视频分割
  - 6.1.2 半监督视频对象分割
  - 6.1.3 公平性评估
- 6.2 图像任务
7 与半监督VOS的最新技术的比较
8 数据和模型消融
- 8.1 数据消融
- 8.2 模型架构消融
- - 8.2.1 容量消融
  - 8.2.2 相对位置编码
  - 8.2.3 记忆架构消融
9 结论
10 致谢
附录
- A PVS任务的细节
- B 局限性
- C SAM 2细节
- - C. 1 架构
  - C. 2 训练
  - - C.2.1 预训练
    - C.2.2 全面训练
  - C. 3 速度基准测试
- D 数据细节
- - D. 1 SA-V数据集细节
  - D.2 数据引擎细节
  - - D.2.1 注释协议
    - D.2.2 数据引擎阶段比较
- E 关于零样本转移实验的更多细节
- E.1 零样本视频任务
- - - E.1.1 视频数据集细节
    - E.1.2 交互式离线和在线评估细节
  - E.1.3 半监督VOS评估细节
  - - E.1.4 SAM+XMem++和SAM+Cutie基线细节
  - E.2 DAVIS交互式基准测试
  - E.3 零样本图像任务
  - - E.3.1 数据集细节
    - E.3.2 详细的零样本实验
- F 在半监督VOS中与最新技术的比较的更多细节
- G 模型、数据和注释卡片
- - G. 1 模型卡片
  - G. 2 SA-V数据集卡片
  - G.3 数据注释卡片

摘要

我们提出了“Segment Anything Model 2”（SAM 2），这是一种基础模型，旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎，该引擎通过用户交互改进模型和数据，以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构，适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面，我们观察到比先前方法更高的准确性，同时所需的交互次数减少了 $3$ 倍。在图像分割方面，我们的模型比“Segment Anything Model”（SAM）更准确，速度快了