OpenBayes 一周速览｜即刻体验Depth Pro，0.3秒get深度图；超高清视频生成模型上线，帧率高达24fps

公共资源速递

This Weekly Snapshots ！

5 个数据集：

SynthText 自然场景图像数据集
Caltech-101 物体识别图像数据集
BSDS500 轮廓检测与语义分割数据集
PKU-Market-Phone 手机屏幕表面缺陷分割数据集
Berkeley Cable Routing 多阶段机器人电缆任务数据集

1 个模型：

Pyramid-Flow-SD3

3 个教程：

Depth Pro 即时生成 3D 深度图
AnyText 多语言视觉文字生成与编辑
LLaVA-OneVision 多模态全能视觉模型 Demo

访问官网立即使用：openbayes.com

公共数据集

1. SynthText 自然场景图像数据集

SynthText 数据集由包含单词的自然场景图像组成，其主要运用于自然场景中的文本检测，该数据集由 80 万个图像组成，大约有 800 万个合成单词实例。

直接使用：

https://go.openbayes.com/8rK8m

2. Caltech-101 物体识别图像数据集

Caltech-101 主要用于目标识别和图像分类。包含来自 101 个物体类别的约 9k 张图像，不同类别有 40 至 800 张图片，每张图片的大小在 300x200 像素，且数据集的发布者均已标注对应的目标以供使用。

直接使用：

https://go.openbayes.com/Agjd4

3. BSDS500 轮廓检测与语义分割数据集

BSDS500 数据集是一个专门用于轮廓检测和语义分割研究的资源，它包含了从 30 名不同人类受试者收集而来的 12k 张手工标注图像，这些图像源自 1k 张 Corel 数据集图像。

直接使用：

https://go.openbayes.com/VSh5I

4. PKU-Market-Phone 手机屏幕表面缺陷分割数据集

该数据集包含 3 种类型的表面缺陷：油污、划痕和斑点。每类缺陷 400 张图片，总共 1.2K 张图像。这些缺陷是由研究团队模拟工业环境制造的。图像由工业相机采集，分辨率为 1920×1080。数据集划分为训练：验证：测试=6:2:2。数据集格式采用 PASCAL VOC。

直接使用：

https://go.openbayes.com/GRDTo

在这里插入图片描述

数据集示例图像

5. Berkeley Cable Routing 多阶段机器人电缆任务数据集

Berkeley Cable Routing 数据集是一个用于研究多阶段机器人操作任务的数据集，特别是应用于电缆布线任务。该数据集开源了项目中的 3 组数据：路由原语离线数据集、高级原语选择离线数据集和端到端轨迹数据集。

直接使用：

https://go.openbayes.com/cvn4f

在这里插入图片描述

数据集示例图片

公共模型

1. Pyramid-Flow-SD3

发布机构：快手、北京大学、北京邮电大学

这个模型能够根据文本描述生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。Pyramid Flow 的核心技术是金字塔流匹配算法，这种算法将视频生成过程分解为多个不同分辨率的阶段，从而提高生成效率和质量。

直接使用：

https://go.openbayes.com/nL2pU

公共教程

1. Depth Pro 即时生成 3D 深度图

Depth Pro 是一个用于零样本度量单目深度估计 (Depth Estimation) 的基础模型，能够将单个 2D 图像快速生成高分辨率的 3D 深度图。这个模型不仅速度快，只需 0.3 秒，而且提供度量级别的深度信息，生成的深度图具有真实的世界尺度。该教程已经将模型和相关环境安装完毕，直接克隆并打开 API 地址即可运行模型，轻松获取图像深度信息。

在线运行：

https://go.openbayes.com/Z3BH5

在这里插入图片描述

效果示例

2. AnyText 多语言视觉文字生成与编辑

AnyText 通过创新性的算法设计，可以支持在图片上生成中文、英语、日语、韩语等多种语言，还支持对输入图片中的文字内容进行编辑。本模型所涉及的文字生成技术为电商海报、Logo 设计、创意涂鸦、表情包等新型 AIGC 应用提供了可能性。点击下方链接，按步骤克隆启动容器，即可大展身手，进行图像设计。

在线运行：

https://go.openbayes.com/VDj1F

在这里插入图片描述

Demo 示例

3. LLaVA-OneVision 多模态全能视觉模型 Demo

LLaVA-OneVision 能够处理图像、文本、图像文本交错输入和视频，是首个能够同时突破开放多模态模型在这 3 个重要计算机视觉场景性能瓶颈的单模型。该教程现已上线 OpenBayes 公共教程界面，只需一键克隆启动，即可轻松处理多样化的视觉任务，无论是静态图像的分析还是动态视频的解析，它都能够提供高质量的输出。