SAM2~~

news/2025/3/26 6:45:49/

很快就第2了哦

AI 技术的迭代,已经以天为单位。所以,如果你有什么好的想法,最好赶紧做,不然睡一觉可能就被抢先了。

这个被很多人看好的 idea 源于 Meta 两天前发布的「分割一切」AI 模型(Segment Anything Model,简称 SAM)。Meta 表示,「SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』即开即用,无需额外的训练。」 

这一模型的发布在计算机视觉领域引发轰动,预示着 CV 也将走向「一个全能基础模型统一某个(某些?全部?)任务」的道路。当然,大家对此早有预感,但没想到这一天来得如此之快。

比基础模型迭代更快的是研究社区「二创」的速度。论文才刚刚发布两天,几位国内工程师就基于此想出了新的点子并将其付诸实践,组建出了一个不仅可以「分割一切」,还能「检测一切」、「生成一切」的视觉工作流模型。

具体来说,他们使用一个 SOTA 的 zero-shot 目标检测器(Grounding DINO)提取物体 box 和类别,然后输入给 SAM 模型出 mask,使得模型可以根据文本输入检测和分割任意物体。另外,他们还将其和 Stable Diffusion 结合做可控的图像编辑。

这个三合一模型项目名叫 Grounded Segment Anything,三种类型的模型既可以分开使用,也可以组合使用。

项目链接:https://github.com/IDEA-Research/Grounded-Segment-Anything

对于 Grounded Segment Anything 未来的用途,项目作者构想了几种可能:

  • 可控的、自动的图像生成,用于构建新的数据集;

  • 提供更强的基础模型与分割预训练;

  • 引入 GPT-4,进一步激发视觉大模型的潜力;

  • 一条自动标记图像(带 box 和 mask)并生成新图像的完整 pipeline;

  • ……

安装

要实现 SAM+Stable Diffusion 需要一些安装步骤。首先该项目要求 Python 3.8 以上版本,pytorch 1.7 以上版本,torchvision 0.8 以上版本,并安装相关依赖项。项目作者还建议安装支持 CUDA 的 PyTorch 和 TorchVision。

然后,按照如下代码安装 Segment Anything:

python -m pip install -e segment_anything

安装 GroundingDINO:

python -m pip install -e GroundingDINO

以下是可选依赖项,这些对于掩码后处理、以 COCO 格式保存掩码、example notebook 以及以 ONNX 格式导出模型是必需的。另外,该项目还需要 jupyter 来运行 example notebook。

pip install opencv-python pycocotools matplotlib onnxruntime onnx ipykernel

运行 GroundingDINO demo

下载 groundingdino 检查点:

cd Grounded-Segment-Anything
wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

运行 demo:

export CUDA_VISIBLE_DEVICES=0python grounding_dino_demo.py \  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \  --grounded_checkpoint groundingdino_swint_ogc.pth \  --input_image assets/demo1.jpg \  --output_dir "outputs" \  --box_threshold 0.3 \  --text_threshold 0.25 \  --text_prompt "bear" \  --device "cuda"

模型预测可视化将保存在 output_dir 中,如下所示:

运行 Grounded-Segment-Anything Demo

下载 segment-anything 和 ground- dino 的检查点:

cd Grounded-Segment-Anything
wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pthwget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

运行 demo:

export CUDA_VISIBLE_DEVICES=0python grounded_sam_demo.py \  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \  --grounded_checkpoint groundingdino_swint_ogc.pth \  --sam_checkpoint sam_vit_h_4b8939.pth \  --input_image assets/demo1.jpg \  --output_dir "outputs" \  --box_threshold 0.3 \  --text_threshold 0.25 \  --text_prompt "bear" \  --device "cuda"

模型预测可视化将保存在 output_dir 中,如下所示:whaosoft aiot http://143ai.com

运行 Grounded-Segment-Anything + Inpainting Demo

CUDA_VISIBLE_DEVICES=0python grounded_sam_inpainting_demo.py \  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \  --grounded_checkpoint groundingdino_swint_ogc.pth \  --sam_checkpoint sam_vit_h_4b8939.pth \  --input_image assets/inpaint_demo.jpg \  --output_dir "outputs" \  --box_threshold 0.3 \  --text_threshold 0.25 \  --det_prompt "bench" \  --inpaint_prompt "A sofa, high quality, detailed" \  --device "cuda"

运行 Grounded-Segment-Anything + Inpainting Gradio APP​​​​​​​

python gradio_app.py

http://www.ppmy.cn/news/161887.html

相关文章

me2

自动左右相位(PAN) 左右两侧的音量交替改变而产生的效果。当您使用立体声演奏时,您可以得到一种吉他的声音在扬声器之间前后飘动的效果。 速率/音调(RATE/KEY)旋钮 调节变化的频率(速度) 深度/合…

里程碑2(国行ME722或欧版A953)android2.2 root教程

玩过安卓系统手机的朋友都知道,安卓手机在刷机之后要获取root权限,否则在以后的使用中可能会遇到各种各样的权限问题。那么为什么安卓手机需要root权限呢 ? 这个问题不得不回到安卓系统本身上,因为安卓系统是在linux基础上开发的。…

j2me2

http://www.j2megame.org/index.php/content/view/1628/125.html 什么是J2ME?答:J2ME是Java 2 Micro Edition的简称,是SUN推出的针对嵌入式消费类电子产品的开发平台,例如手机、PDA和电视机顶盒等。事实上,J2ME是一整套技术和规…

ME722 刷机

http://www.shuame.com/faq/manual-tutorial/273-me7222milestone2-.html

里程碑2(国行ME722或欧版A953)android2.3 root教程

你的手机如果是最新的2.3.4系统,请使用下面的一键ROOT工具, 我自己测试国行ME722机器完全可用。 原则上不管你刷的是2.3.4正式版的sbf底包,还是ota升级包,行货或水货都可以一键root 1.首先下载附件后解压:(解压密码回复本帖可…

ME21N增强

ME21N创建采购订单点击保存或者检查按钮时进入增强(首先根据EKKO-LIFNR、EKPO-MATNR、 EKPO-WERKS LINK自建表1中的供应商、物料和工厂取对应自建表1中“是否管控”字段值是否为N, 如果为N则不进入增强,否则进入增强,并进行以下判…

M2BEV

Work: 有效的BEV编码器设计,减少了体素特征图的空间维度。 一种动态方框分配策略,使用学习匹配来分配带锚的地面实况3D方框。 BEV中心度重新加权,用更大的权重来增强更远处的预测大规模2D检测预训练和辅助监督。我们表明&#xf…

当前android手机主流分辨率

以下为今晨(2012-12-19)统计的当前android手机主要分辨率,主要来源于中关村。觉得有价值的可以收藏本帖以备不时之需。 看完以下数据统计之后,请决定dm版要采用的分辨率,谢谢 商超通dm版本,支持分辨率和对应的android手机如下: 当…