大模型时代的具身智能系列专题(十三)

news/2024/11/22 7:05:59/

迪士尼研究中心

瑞士苏黎世迪斯尼研究中心致力于不同领域的业务活动,其中包括电影、电视、公园和度假村以及消费产品。我们针对所有这些领域进行科研工作。我们开发能使我们将后道生产元素整合到前级生产中的技术。由此可节省许多昂贵的效果,这些效果最多会占用整个影片制造60%的预算。迪斯尼研究中心在苏黎世和匹兹堡有两个大型外部基地,其产品极为相似。第三个迪斯尼研究实验室的总部位于好莱坞。那里工作的主要是迪斯尼的科研人员,几乎没有大学生。马库斯·戈洛斯(Markus Gross)是苏黎世瑞士联邦理工学院的信息技术教授,计算机图形学实验室主任以及瑞士迪斯尼科研中心总监。

主题相关作品

  • RobotMDM

RobotMDM

摘要

生成运动模型的最新进展取得了显著成果,使得从文本描述中合成逼真的人体运动成为可能。这些运动学方法虽然在视觉上很有吸引力,但通常会产生不符合物理约束的运动,从而产生阻碍现实世界部署的伪影。为了解决这个问题,我们引入了一种新方法,将运动学生成模型与基于物理的角色控制相结合。我们的方法首先训练一个奖励代理来预测下游不可微分控制任务的性能,提供一个高效且可微分的损失函数。然后,该奖励模型用于微调基线生成模型,确保生成的动作不仅多样化,而且在物理上也适用于现实世界场景。我们处理的结果是机器人运动扩散模型 (RobotMDM),这是一个文本条件运动学扩散模型,可与基于强化学习的跟踪控制器交互。我们在具有挑战性的人形机器人上展示了该方法的有效性,证实了它在动态环境中的实际效用和稳健性。

核心技术概要

RobotMDM的创新点在于将运动扩散模型与基于强化学习的跟踪控制器结合,使机器人角色能够生成符合物理规律的动作。该系统的工作流程主要包括以下几个步骤:
运动扩散模型的训练:首先,研究人员使用大量人类动作数据集训练了一个文本条件运动扩散模型,该模型能够根据文本描述生成相关的动作。例如,当输入"一个人挥右手"时,模型可以生成相应的挥手动作。
奖励代理模型的引入:为了确保生成的动作不仅视觉上逼真,还符合物理约束,研究人员引入了一个奖励代理模型,该模型能够评估生成动作的物理可行性,并根据评估结果调整生成模型的权重。
物理跟踪控制器的部署:在生成动作之后,机器人通过一个基于强化学习的控制器来执行这些动作。该控制器能够实时调整机器人的姿态,确保动作在物理上可行且准确。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

实验与分析

研究团队在多种场景下对RobotMDM进行了严格的实验测试,验证了其在实际机器人应用中的表现。
以下为实验中的两个关键场景:

  • 踢腿实验:系统生成了一个踢腿动作,并通过控制器实时跟踪。传统模型生成的动作由于力道过大,导致机器人失去平衡,而RobotMDM则调整了动作强度,使得机器人在完成踢腿动作的同时,保持了身体的稳定性。
  • 坐姿实验:在另一个实验中,机器人被要求执行一个坐在椅子上的动作。传统模型会生成一个悬空坐姿,而RobotMDM通过检测动作的物理不合理性,将坐姿调整为蹲姿,从而避免了悬空现象。

运动学运动生成
在这里插入图片描述

在这里插入图片描述
物理对齐

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

应用场景

RobotMDM的优势在于其高度的灵活性和适应性,能够处理多样化的动作需求。以下是几个典型的应用场景:
人类动作模仿:RobotMDM能够通过文本描述生成符合人类动作模式的机器人动作。例如,"一个人进行右手上勾拳"这一指令,系统会生成对应的上勾拳动作,并确保机器人能够在高速运动中保持平衡和稳定。
机器人交互与娱乐:得益于RobotMDM的多样化生成能力,机器人可以在复杂的交互场景中执行动态动作,比如娱乐机器人在表演中需要与观众进行互动,或在虚拟现实游戏中扮演角色。
实际场景中的运动优化:相比传统方法,RobotMDM生成的动作不仅能在模拟环境中测试,还能在实际机器人上部署。它大大减少了动作生成过程中不自然的动态不平衡现象,如失去重心或关节过度旋转等。

未来展望与结语

RobotMDM展示了在生成物理可行的机器人动作方面的巨大潜力。随着该技术的进一步发展,我们可以预见它将在多个领域发挥关键作用,包括服务机器人、娱乐机器人以及工业机器人。通过持续优化生成模型和控制器的结合,未来的机器人将能够更加智能地与人类互动,执行复杂的任务。
RobotMDM不仅解决了机器人动作生成中的物理不合理性问题,还通过创新的扩散模型与强化学习控制器的结合,提供了一个高度灵活、适应性强的解决方案。随着技术的进步,机器人角色的动作生成将更加自然和智能,为更多实际场景提供技术支持。

参考

  • https://la.disneyresearch.com/publication/robot-motion-diffusion-model-motion-generation-for-robotic-characters/
  • https://www.greaterzuricharea.com/zh-hans/success-stories/disney-research

http://www.ppmy.cn/news/1548969.html

相关文章

python爬虫初体验(五)—— 边学边玩小游戏

1. 打开浏览器 利用webbrowser 模块的 open()函数可以启动一个新浏览器,打开指定的 URL。 import webbrowser webbrowser.open(http://inventwithpython.com/) 2. 猜数字游戏 # -*- coding: utf-8 -*- # This is a guess the number game. import randomsecretN…

iOS 18.2 Beta 4开发者预览版发布,相机新增辅助功能

昨天刚连发iOS 18.1.1正式版、iOS 17.7.2正式版,今天凌晨,苹果就又发布iOS 18.2 Beta 4,据了解iOS18.2正式版将在 12 月初发布。那么这次的更新又有哪些变化呢?下面我们就来一起了解一下。 iOS 18.2 Beta 4的版本号为:…

【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读

Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation 论文阅读 Abstract1. Introduction2. Related Work3. Approach3.1. Class Activation Mapping3.2. Image-specific Prototype Exploration3.3. Self-supervised Learning w…

FPGA实现PCIE3.0视频采集转10G万兆UDP网络输出,基于XDMA+GTH架构,提供工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目我已有的PCIE方案10G/25G Ethernet Subsystem实现万兆以太网物理层方案本博客方案的PCIE2.0版本 3、PCIE基础知识扫描4、工程详细设计方案工程设计原理框图电脑端视频…

LLM性能优化中的一些概念扫盲

原文:https://zhuanlan.zhihu.com/p/4525257731 一、MHA结构优化(效果有损) KV Cache的大小取决于模型大小(dim和layers) 和序列长度。为了尽可能的支持更大的模型、或者更长的序列,就需要对kv 进行压缩,…

C++中的组合模式

组合模式(Composite Pattern) 组合模式是一种结构型设计模式,它将对象组合成树形结构以表示“部分-整体”的层次结构。组合模式使得客户端可以统一地处理单个对象和对象组合。这个模式特别适用于需要表示层次结构的场景,例如文件…

基于 PyTorch 从零手搓一个GPT Transformer 对话大模型

一、从零手实现 GPT Transformer 模型架构 近年来,大模型的发展势头迅猛,成为了人工智能领域的研究热点。大模型以其强大的语言理解和生成能力,在自然语言处理、机器翻译、文本生成等多个领域取得了显著的成果。但这些都离不开其背后的核心架…

php:使用socket函数创建WebSocket服务

一、前言 闲来无事&#xff0c;最近捣鼓了下websocket&#xff0c;但是不希望安装第三方类库&#xff0c;所以打算用socket基础函数创建个服务。 二、构建websocket服务端 <?phpclass SocketService {// 默认的监听地址和端口private $address 0.0.0.0;private $port 8…