【论文阅读】SAM 2: 分割一切图像和视频

devtools/2024/10/15 13:08:11/

导言

继SAM模型发布以来,Meta公司于2024年8月发布第二个图像分割大模型SAM2。相较于第一代SAM模型,论文提出了第二代“分割任意物体模型” (SAM 2),旨在解决视频中的可提示视觉分割任务(Promptable Visual Segmentation, PVS)。相比于静态图像的分割,视频分割面临着复杂的运动、变形和遮挡等挑战。SAM 2 通过引入数据引擎,改进了模型和数据的互动,并收集了迄今为止最大的可提示视频分割数据集。论文中提到,SAM 2 在视频分割中准确性更高,且比之前的方法减少了三分之二的互动次数,同时在图像分割任务中表现也比 SAM 更快速、更精确。

论文简介

论文题目:
SAM 2: Segment Anything in Images and Videos

研究领域:
Computer Vision and Pattern Recognition; Artificial Intelligence; Image and video Segmentation

论文作者:
Nikhila Ravi等

论文链接:
https://arxiv.org/abs/2408.00714

主要方法

1. 模型架构
SAM 2 是一种基于 Transformer 的模型,具备流式内存模块,用于实时处理视频分割任务。它支持图像和视频的分割,能够在任意帧上接受点击、框选或掩码作为提示,从而定义目标对象的空间范围,并生成分割掩码。
在这里插入图片描述

  • 图像编码器
    SAM 2 使用了一种分层式图像编码器(Hiera),该编码器将图像分割为不同的层级来提取特征。对于视频的实时处理,图像编码器以流式方式逐帧对视频进行编码,生成每帧的特征嵌入(feature embedding)。
    在这里插入图片描述

  • 内存模块
    SAM 2 中的内存模块用于存储关于目标对象的前一帧信息和与用户交互的提示。通过这种方式,模型可以更好地理解视频帧之间的关联。内存模块中的注意力机制能够跨越多帧,帮助模型更好地跟踪对象,使得在视频分割时能够持续有效地改进分割结果。对图像来说,由于没有前后帧,模型会空置内存模块,类似于原始的 SAM。

  • 提示编码器与掩码解码器
    SAM 2 的提示编码器可以接受点击、框选或掩码的提示,用于确定要分割的对象范围。掩码解码器接收来自当前帧的图像嵌入和提示信息,生成相应的分割掩码。提示可以迭代增加,以在同一帧上对掩码进行进一步的修正。
    在这里插入图片描述

  • 流式处理与内存注意力
    SAM 2 采用流式处理的方式处理视频帧,一个时间点上只处理一帧。模型利用内存注意力模块来结合之前帧的记忆,生成更精确的分割掩码。内存中的信息来自于之前帧的分割结果以及提示,帮助模型在长时间的视频中跟踪目标对象,即便它们在某些帧中被部分遮挡或发生了较大变化。

2. 数据引擎
论文还提出了一种数据引擎,帮助快速构建用于训练的数据集。数据引擎包含三个阶段:

第一阶段:基于图像的 SAM 逐帧标注视频,但由于没有跟踪机制,标注速度较慢。

第二阶段:结合 SAM 和 SAM 2,在第一帧手动标注后,由 SAM 2 进行后续帧的预测并加以修正。这一阶段的标注速度较前阶段提高了 5.1 倍。

第三阶段:使用全功能的 SAM 2 进行标注,SAM 2 利用内存来帮助生成分割掩码,只需偶尔进行细化点击即可。这一阶段标注速度较第一阶段提高了 8.4 倍。

3. 训练
模型在图像和视频数据上进行联合训练,模拟交互式的提示。训练过程中,随机选择一些帧进行提示,提示可以是物体的边界框、正负点击等,目标是生成正确的分割掩码并在视频中进行连续跟踪。

论文针对的问题

视频分割的核心问题在于如何应对视频中的时空变化,包括运动、变形、遮挡、光照变化等。此外,视频帧的处理效率以及低质量视频的分割也是面临的重要挑战。论文旨在提出一种统一的视频与图像分割模型,以解决当前模型在处理视频时存在的精度不足以及效率低下的问题。

论文创新点

模型架构:SAM 2 引入了流式内存模块,通过对前后帧信息的高效利用,实现了实时视频分割。
数据引擎:开发了一种数据引擎来加速视频分割数据的收集过程,相较于传统方法,效率提高了 8.4 倍。
数据集规模:构建了史上最大的可提示视频分割数据集(SA-V),包含了多达 53 倍于现有数据集的掩码数量,极大丰富了训练数据的多样性和规模。

总结

论文提出的 SAM 2 在视频和图像分割方面实现了显著的性能提升,尤其是在减少用户互动次数的同时仍保持高精度分割。通过构建大规模且多样化的数据集,SAM 2 为视觉感知领域的视频分割和相关任务的进一步研究提供了重要的里程碑。SAM 2 的发布将有助于推动视频分割技术在 AR/VR、机器人、自主车辆和视频编辑等领域的广泛应用。未来的研究应该侧重于减少模型参数,提升模型的推理速度,使得其能够真正在广泛的实际场景中进行应用。

Try SAM2:
https://sam2.metademolab.com/demo


http://www.ppmy.cn/devtools/126179.html

相关文章

python爬虫,爬取网页壁纸图片

python爬虫实战,爬取网页壁纸图片 使用python爬取壁纸图片,保存到本地。 爬取彼岸图网,网站地址https://pic.netbian.com/ 本人小白,记录一下学习过程。 开始前的准备 安装python环境,略。 python编辑器pycharm2…

Adobe 推出全新 AI 视频生成器 Firefly Video Model,完全使用授权内容进行训练

Adobe 推出全新 AI 视频生成器 Firefly Video Model,完全使用授权内容进行训练 🌐🎬 大家好,我是猫头虎 👋,今天带大家了解一下 Adobe 刚刚发布的 Firefly Video Model,这款全新 AI 视频生成器…

armv7-a 异常排查

dfsr: data fault status register 发生异常时,该寄存器能够表示引起异常的原因,如非对齐访问、mmu translation fault 等等读取 dfsr 到 r[x] 寄存器 :mrc p15,0,r[x],c5,c0,0 dfar: data fault address register 保存了引起 data abort 异常…

docker compose入门6—如何挂载卷

在 Docker Compose 中,可以通过 volumes 字段将宿主机的文件或目录挂载到容器中。这样可以实现数据持久化、共享数据或配置等。以下是一些常见的挂载方式和示例。 1. 挂载单个文件 如果你想将宿主机上的一个特定文件挂载到容器中,可以使用以下格式&…

微服务架构下的负载均衡:算法深度剖析与配置策略优化

在微服务架构日益盛行的今天,系统的可伸缩性、高可用性和性能优化成为了技术团队关注的重点。负载均衡作为微服务架构中的关键组件,对于确保服务请求的均匀分布、提升系统资源利用率以及提高整体服务质量起着至关重要的作用。本文将深入探讨微服务中的负…

这个狐狸头还记得吗?Visual FoxPro,一代神作

90年代,VFP、VB还有Delphi,这几个开发语言可都是火得很,特别是VFP,因为它自带了个免费的DBF数据库,所以好多单位都爱用VFP来做MIS系统。 回忆里的“狐狸头” 一不小心就容易暴露自己的“资深”身份,这东西…

科研绘图系列:R语言散点相关系数图(scatter plot)

文章目录 介绍加载R包数据函数画图系统信息介绍 散点相关系数图是一种数据可视化图表,它结合了散点图和相关系数来展示两个连续变量之间的关系。这种图表通常用于相关性分析,以判断两个变量之间是否存在某种关联,并总结坐标点的分布模式。 在散点相关系数图中,横轴和纵轴…

安全光幕的Mutting功能

安全光幕的muting功能是一种在特定条件下暂时取消对物体的检测,以允许生产设备正常操作而不会触发安全停止的技术。 Muting功能的核心在于它能够区分人员和物料的通过。当物料或小车等非危险对象需要频繁出入时,muting功能可以暂时关闭安全光幕的检测功…