Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)

devtools/2024/12/27 5:36:18/

2024-12-24,由清华大学、Galbot、上海启智研究所和上海人工智能实验室联合创建了Mimicking-Bench数据集,这个数据集首次为通过模仿人类动作学习通用人形机器人场景交互技能提供了大规模的参考,对于机器人学和现实世界应用具有重要意义。

一、研究背景:

随着人形机器人技术的发展,学习通用技能以在3D场景中与人互动成为了一个关键研究挑战。这不仅对机器人技术的进步至关重要,也对现实世界中的应用有着深远的影响。

目前遇到困难和挑战:

1、现有的方法和基准测试受限于小规模、手动收集的演示数据,缺乏有效探索场景几何泛化所需的大规模数据集和基准支持。

2、人形机器人的复杂动态使得从头开始探索环境并学习泛化交互技能面临重大挑战。

3、将人类技能数据转化为人形机器人可执行的控制信号,并从中推导出泛化策略存在技术障碍。

数据集地址:Mimicking-Bench|机器人技术数据集|人形机器人数据集

二、让我们一起来看一下Mimicking-Bench

Mimicking-Bench是一个全新的、全面的基准测试,旨在通过模仿大规模人类动作参考数据,学习通用的人形机器人与场景的交互技能。

Mimicking-Bench包含了六个家庭全身体人形机器人场景交互任务,涵盖了11K种不同的物体形状和20K合成及3K真实世界人类交互技能参考。

Mimicking-Bench构建:

通过整合真实世界和自动合成的人机交互数据构建,利用了计算机视觉和图形领域的人类场景交互数据集和交互生成网络的进展。

Mimicking-Bench的特点:

Mimicking-Bench的特点包括大规模和多样化的人类技能参考数据集,以及支持从人类到人形机器人知识转移的技能学习范式。

研究人员可以通过Mimicking-Bench来比较不同的人形机器人技能学习流程和模块算法,促进对关键技术的综合研究。

基准测试:

Mimicking-Bench支持对运动重定向、运动跟踪、模仿学习和它们的各种组合进行基准测试。

Mimicking-Bench 是通过模拟人类数据来学习可推广的人形场景交互技能的第一个基准,包括六个家庭交互任务。它利用动作捕捉数据集和交互生成网络的进步,整合了多样化的人类技能参考数据集,构建了人到人知识转移的技能学习范式。

Mimicking-Bench 与现有机器人技能学习基准的比较。

模拟基准仿真配置。(a) 举例说明了 Isaac Gym 中 H1 的交互场景。(b) 和 (c) 显示了从四个以自我为中心的相机捕获的高程图和彩色图像。

人类技能参考的统计数据。

类人交互技能学习范式。

坐着沙发上数据驱动的人类模拟和无数据 RL 的定性比较。RL 尽管以运动学方式完成了任务,但仍难以获得合理的姿势。

不同技能学习管道的任务成功率。

三、让我们一起展望Mimicking-Bench应用场景

比如,我们有一个动画片,里面的角色动作都是真人演员表演然后捕捉下来的。但是这些动作是为真人设计的,如果我们想把这些动作用在人形机器人上,问题就来了:人和机器人的身体结构不一样啊,直接复制粘贴肯定不行,机器人动起来会很奇怪,甚至动不了。以前,我们得手动调整每个动作,让它们适合机器人的身体。这活儿特别费劲,需要很多专业知识,而且效率很低。有时候,为了让动作看起来自然,还得请动画师来一点点调整,这成本就上去了。

现在的情况:

现在有了Mimicking-Bench数据集,情况完全不一样了。这个数据集包括了6个家庭全身人形机器人场景交互任务,涵盖了11K种不同的物体形状,以及20K合成和3K真实世界的人体交互技能参考。有了这些数据,我们就可以训练一个系统,让它自动把人类的动作转换成机器人能做动作。

比如说,我们要让机器人“坐在椅子上”。以前,我们可能需要手动去调整每一个动作细节,确保机器人的关节能够正确地模仿人类坐下的动作。现在,我们可以用Mimicking-Bench数据集中的数据来训练一个模型,这个模型能够自动理解人类的动作,并将其适配到机器人的身体结构上。这样,我们就能够快速、准确地让机器人模仿人类的动作,而不需要人工去一点一点地调整。

具体案例:

武汉大学和腾讯AI LAB的研究团队提出了一种新的残差重定向网络(R2ET)结构,这个结构依靠两个神经修饰模块来逐步调整源运动以适应目标骨架和形状。特别地,引入了骨架感知模块来保持源运动语义,设计了一个形状感知模块来感知目标特征的几何形状,以减少相互渗透和接触缺失。这样,我们就能够自动地、准确地将人类的动作重定向到人形机器人上,而不需要复杂的手动调整。

通过Mimicking-Bench数据集,我们不仅能够提高运动重定向的效率,还能够确保重定向后的动作更加自然和准确。这就是Mimicking-Bench数据集带来的变化,让机器人动作更加自然,更接近人类。

更多开源的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。icon-default.png?t=O83Ahttps://www.selectdataset.com/


http://www.ppmy.cn/devtools/145726.html

相关文章

HUB、交换机、路由器和串口服务器

HUB:HUB是集线器,支持半双工的工作模式,就像对讲机那样。工作在物理层,收到数据后,会向其他端口转发,只是起到“中转站的作用”;而且对带宽是共享的,像河流一样,分的支流…

关于uni-forms组件的bug【提交的字段[‘*‘]在数据库中并不存在】

问题:在使用 uni-forms校验的时候,出来的一个问题,这个字段都没有设置校验的规则,不知道什么原因就出现了下图的问题: 解决办法: 在uni-forms-item 添加key 值就解决了 原因不知道,有大佬发现…

webauthn介绍及应用

1、webauthn概念介绍 官网:https://webauthn.io/ 1.1、什么是webauthn? webauthn即Web Authentication,是一个符合W3C标准的Web认证规范。它通过公私钥加密技术,实现无密码认证,用户仅需通过pin码、指纹、面部识别、…

CI/CD是什么?

CI/CD 定义 CI/CD 代表持续集成和持续部署(或持续交付)。它是一套实践和工具,旨在通过自动化构建、测试和部署来改进软件开发流程,使您能够更快、更可靠地交付代码更改。 持续集成 (CI):在共享存储库中自动构建、测试…

什么,不用 Tomcat 也能运行 Java web?

在 Java web 开发领域,传统的 Tomcat 服务器一直占据着重要地位。但如今,Blade 框架的出现为我们提供了一种全新的开发体验,它无需依赖 Tomcat 便可运行 Java web 应用。 一、Blade 框架简介 是一款轻量级且高性能的 Java web 框架。其设计理…

PPT画图——如何设置导致图片为600dpi

winr,输入regedit打开注册表 按路径找,HKEY_CURRENT_USER\Software\Microsoft\Office\XX.0\PowerPoint\Options(xx为版本号,16.0 or 15.0或则其他)。名称命名:ExportBitmapResolution 保存即可,…

【Kafka基础】10个Kafka基础知识,面试经常会问到

前几天面试一个测试开发,问了Kafka的基础性知识,受试者没有回答出来,在项目中介绍有使用Kafka但是对kafka的基础知识掌握的却不牢固不全面,今天列出Kafka经常会问到的10个基础知识,供大家参考学习 一、你会在哪些场景选…

qt QZipWriter详解

1、概述 QZipWriter是Qt框架中用于创建ZIP文件的类。它允许开发者将多个文件和目录压缩成一个ZIP文件,支持多种压缩算法,并且易于集成到现有的Qt项目中。通过QZipWriter,开发者可以轻松实现文件的压缩、管理压缩包中的文件等功能。 需要注意…