OpenBayes 一周速览|即刻体验Depth Pro,0.3秒get深度图;超高清视频生成模型上线,帧率高达24fps

ops/2024/10/24 17:26:42/

公共资源速递

This Weekly Snapshots !

5 个数据集

  • SynthText 自然场景图像数据集

  • Caltech-101 物体识别图像数据集

  • BSDS500 轮廓检测与语义分割数据集

  • PKU-Market-Phone 手机屏幕表面缺陷分割数据集

  • Berkeley Cable Routing 多阶段机器人电缆任务数据集

1 个模型:

  • Pyramid-Flow-SD3

3 个教程:

  • Depth Pro 即时生成 3D 深度图

  • AnyText 多语言视觉文字生成与编辑

  • LLaVA-OneVision 多模态全能视觉模型 Demo

访问官网立即使用:openbayes.com

公共数据集

1. SynthText 自然场景图像数据集

SynthText 数据集由包含单词的自然场景图像组成,其主要运用于自然场景中的文本检测,该数据集由 80 万个图像组成,大约有 800 万个合成单词实例。

  • 直接使用:

https://go.openbayes.com/8rK8m

2. Caltech-101 物体识别图像数据集

Caltech-101 主要用于目标识别和图像分类。包含来自 101 个物体类别的约 9k 张图像,不同类别有 40 至 800 张图片,每张图片的大小在 300x200 像素,且数据集的发布者均已标注对应的目标以供使用。

  • 直接使用:

https://go.openbayes.com/Agjd4

3. BSDS500 轮廓检测与语义分割数据集

BSDS500 数据集是一个专门用于轮廓检测和语义分割研究的资源,它包含了从 30 名不同人类受试者收集而来的 12k 张手工标注图像,这些图像源自 1k 张 Corel 数据集图像。

  • 直接使用:

https://go.openbayes.com/VSh5I

4. PKU-Market-Phone 手机屏幕表面缺陷分割数据集

数据集包含 3 种类型的表面缺陷:油污、划痕和斑点。每类缺陷 400 张图片,总共 1.2K 张图像。这些缺陷是由研究团队模拟工业环境制造的。图像由工业相机采集,分辨率为 1920×1080。数据集划分为训练:验证:测试=6:2:2。数据集格式采用 PASCAL VOC。

  • 直接使用:

https://go.openbayes.com/GRDTo

在这里插入图片描述

数据集示例图像

5. Berkeley Cable Routing 多阶段机器人电缆任务数据集

Berkeley Cable Routing 数据集是一个用于研究多阶段机器人操作任务的数据集,特别是应用于电缆布线任务。该数据集开源了项目中的 3 组数据:路由原语离线数据集、高级原语选择离线数据集和端到端轨迹数据集

  • 直接使用:

https://go.openbayes.com/cvn4f

在这里插入图片描述

数据集示例图片

公共模型

1. Pyramid-Flow-SD3

  • 发布机构:快手、北京大学、北京邮电大学

这个模型能够根据文本描述生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。Pyramid Flow 的核心技术是金字塔流匹配算法,这种算法将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。

  • 直接使用:

https://go.openbayes.com/nL2pU

公共教程

1. Depth Pro 即时生成 3D 深度图

Depth Pro 是一个用于零样本度量单目深度估计 (Depth Estimation) 的基础模型,能够将单个 2D 图像快速生成高分辨率的 3D 深度图。这个模型不仅速度快,只需 0.3 秒,而且提供度量级别的深度信息,生成的深度图具有真实的世界尺度。该教程已经将模型和相关环境安装完毕,直接克隆并打开 API 地址即可运行模型,轻松获取图像深度信息。

  • 在线运行:

https://go.openbayes.com/Z3BH5

在这里插入图片描述

效果示例

2. AnyText 多语言视觉文字生成与编辑

AnyText 通过创新性的算法设计,可以支持在图片上生成中文、英语、日语、韩语等多种语言,还支持对输入图片中的文字内容进行编辑。本模型所涉及的文字生成技术为电商海报、Logo 设计、创意涂鸦、表情包等新型 AIGC 应用提供了可能性。点击下方链接,按步骤克隆启动容器,即可大展身手,进行图像设计。

  • 在线运行:

https://go.openbayes.com/VDj1F

在这里插入图片描述

Demo 示例

3. LLaVA-OneVision 多模态全能视觉模型 Demo

LLaVA-OneVision 能够处理图像、文本、图像文本交错输入和视频,是首个能够同时突破开放多模态模型在这 3 个重要计算机视觉场景性能瓶颈的单模型。该教程现已上线 OpenBayes 公共教程界面,只需一键克隆启动,即可轻松处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。

  • 在线运行:

https://go.openbayes.com/aRADU

在这里插入图片描述

效果示例


以上就是小贝上周在 OpenBayes 的全部更新内容啦~


http://www.ppmy.cn/ops/128111.html

相关文章

集合相关:asList()和subList()方法的作用?

1.asList()方法 Arrays.asList(T... a)返回一个固定大小的列表,这个返回的列表的底层实现是一个final修饰的数组,其引用关系不能发生变化,并且它的大小也是固定的,可以修改和读取里面的元素值,但是不能添加或删除元素。…

u盘装win10系统提示“windows无法安装到这个磁盘,选中的磁盘采用GPT分区形式”解决方法

我们在u盘安装原版win10 iso镜像时,发现在选择硬盘时提示了“windows无法安装到这个磁盘,选中的磁盘采用GPT分区形式”,直接导致了无法继续安装下去。出现这种情况要怎么解决呢?下面小编分享u盘安装win10系统提示“windows无法安装到这个磁盘…

CSS 网格布局

网格布局是一个二维布局系统,允许开发者以行和列的形式创建灵活的网络,并将内容放置在网络的单元格中。有些元素可能只占据网络的一个单元,另一些元素则可能占据多行或多列。 网格的大小既可以精确定义,也可以根据自身内容自动计…

PCL 点云配准 3D-NDT算法(精配准)

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 加载点云数据函数 2.1.2 执行 NDT 算法配准函数 2.1.3 可视化配准结果函数 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目…

数据仓库构建的两种方法:自上向下、自下向上

一、数据仓库基本介绍 数据来源:数据仓库的数据来源多样,它是数据处理、转换和加载到数据库的中央存储,能够让使用者轻易从数据仓库获取数据,并且借助商业智能和分析工具,将数据用于分析和决策制定。 数据仓库运行工…

如何快速解决谷歌网站页面收录难题?

在外贸网站的运营中,页面无法被谷歌收录是一个常见的困扰。即便你的内容再优秀,如果搜索引擎的爬虫无法抓取到你的页面,那一切努力都将白费。而GPC爬虫池服务可以帮助你快速解决网站页面的收录问题。它通过千万级的爬虫池资源,强力…

小程序开发语言Java跟php的区别

在小程序开发中,Java 和 PHP 主要在后端服务开发方面有所不同。 一、语言特性 Java: 强类型语言,语法严谨,具有良好的面向对象编程特性,支持封装、继承和多态。运行在 Java 虚拟机(JVM)上&…

Go入门指南-3.9与其它语言进行交互

3.9.1 与 C 进行交互 工具 cgo 提供了对 FFI(外部函数接口)的支持,能够使用 Go 代码安全地调用 C 语言库,你可以访问 cgo 文档主页:http://golang.org/cmd/cgo。cgo 会替代 Go 编译器来产生可以组合在同一个包中的 Go…