Humanoid-VLA：通过视觉集成实现通用人形机器人控制

25年2月来自西湖大学、浙江大学和西湖机器人公司的论文“Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration”。

本文讨论当前人形机器人控制框架的局限性，这些框架主要依赖于反应机制，由于数据稀缺而缺乏自主交互能力。 Humanoid-VLA，是一个集成语言理解、自我中心场景感知和运动控制的框架，可实现通用人形机器人控制。Humanoid-VLA 首先使用非自我中心的人类运动数据集与文本描述进行语言-运动预对齐，从而使模型能够学习通用运动模式和动作语义。然后，通过参数高效的视频为条件微调，融入自我中心的视觉上下文，实现上下文-觉察运动生成。此外，引入一种自监督数据增强策略，可以自动生成直接来自运动数据的伪注释。此过程将原始运动序列转换为信息丰富的问-答对，从而促进有效利用大规模未标记视频数据。基于全身控制架构，大量实验表明，Humanoid-VLA 能够以增强的上下文-觉察实现目标交互和环境探索任务，展现出更像人类的自适应和智能参与能力。

人形机器人将类人的灵活性与适应性相结合，以执行复杂的任务，有望改变从医疗保健到制造业等各种行业。基于计算机图形学研究的大量人体运动数据集（Mahmood，2019；Guo，2020），最近的进展为人形机器人运动技能获取建立数据驱动的框架。

初步研究（Cheng，2024；Ji，2024）开发全身控制器，可将基本的人体运动序列转换为人形运动。此后，该领域已发展到整合多模态感知，使人形机器人能够实时模仿人类的演示（He，2024b）并流畅地响应自然语言命令（Mao，2024）。虽然这些方法在人形机器人中实现高保真运动控制，但它们主要通过反应机制运行，根据外部输入动态调整运动。它们无法自主感知并推断其周围环境中的潜在交互目标。这种限制严重阻碍它们在需要目标操纵或复杂环境中自适应探索的场景中的部署。

然而，开发这样的系统面临一个重大瓶颈：数据稀缺。现有的运动捕捉数据集缺乏同步的第一人称视觉信息，无法直接转移到自我中心任务。此外，虽然遥操作为收集视觉运动数据提供理论途径，但其高昂的成本严重限制大规模采集。这些限制导致训练数据集的数量和多样性不足，阻碍具有自我中心视觉整合人形机器人控制基础模型的开发。

本文旨在研究具有自我中心视觉整合的通用人形机器人控制，提出 Humanoid-VLA。如图所示其和其他方法的比较：
请添加图片描述

初步背景

随着图形学社区中人类数据的可用性不断提高，最近的人形机器人控制越来越多地采用从人类数据中学习的方法。具体来说，给定物理遥操作（例如，动作捕捉系统）的目标身体姿势和人形机器人的本体感觉，全身控制器 P 会产生关节扭矩来控制人形机器人。

然而，开发通用机器人需要有目的的学习，这涉及从人类数据中提取有意义的意图，并将先前的经验应用于新任务或环境。当前的数据采集方法主要关注人体关节姿势，缺乏与自我中心视觉的整合。因此，它们只能教机器人执行什么动作，而不能教机器人执行潜在的意图或背景。因此，由于环境差异，姿势级模仿本质上在通用性方面受到限制。

Humanoid-VLA，是第一个用于人形机器人的 VLA 模型，它将语言理解、场景感知和运动控制无缝集成到一个统一的系统中，以解决人形控制中以前的局限性。

语言-动作预对齐

这种对齐使模型能够从非自我中心的数据源中学习动作模式和动作语义，为无需自我中心视觉输入的动作生成奠定坚实的基础。

数据获取

数据获取的局限性。先前的研究主要利用精心策划的数据集将动作轨迹与语言描述配对，以训练文本条件动作生成模型。虽然这些数据集有助于有效训练，但它们的数量和多样性都有限，这限制它们实现更好对齐的能力。相比之下，大规模在线视频数据集（如表所示）提供丰富多样的动作数据。然而，缺乏相应的语言注释大大限制它们在这项任务中的适用性。

请添加图片描述

为解决这一瓶颈，最近人们致力于手动注释大规模视频数据集或使用视频大语言模型 (VLLM)（Zhang，2023a）。然而，手动标记的成本过高，而且 VLLM 通常会产生嘈杂、不完整或不精确的注释，因为它们无法捕捉细粒度的运动细节或描述复杂的动作。这些限制削弱生成的数据集在对齐语言和动作方面的有效性。

自监督数据增强。提出一种经济高效的注释方法，而不是依赖显式的运动描述，而是设计直接从运动数据中得出的各种自监督任务。例如，一种代表性方法涉及暂时掩盖运动序列中的特定身体关节，并训练模型重建被遮挡的动作。可以为这些任务生成诸如“缺少左臂<遮挡>运动数据。请完成运动”之类的指导提示，并与相应的真值运动配对作为目标输出。这种自动化方法消除对明确注释的需求，并且比来自视频源的运动数据添加额外注释更准确。

以下通过两个关键模块实现这一点：组合运动量化和自动数据增强。

组合运动量化。如图所示，提出一种用于身体姿势表示的分解压缩方法。具体来说，将每个身体姿势分解为五个基于身体的 tokens，对应于五个不同的部分：左腿、右腿、躯干、左臂和右臂。独立训练每个编码器 E_b 及其每个身体部位的对应码本 V_b，将时间 t 的身体部位数据（表示为 c_t）压缩为量化表示 z_t。

请添加图片描述

正式地，将运动编码器定义为E_m = {E_b}_b=1-5，将c_t压缩为z_t：zˆ_t = E_m（c_t），其中zˆ_t = {zˆ_b}_b=1~5，是从 E_m 获得的集体离散向量，它们与词汇表 V_m = {V_b} 中 c_t 的量化最相似。与编码器类似，用运动解码器将潜变量投影回动作空间：cˆ_t = D_m（zˆ_t）。
优化目标 L_hvq 可以表示为重构损失 L_rec，嵌入损失 L_emb 和承诺损失 L_com 的组合：

请添加图片描述

这种组合编码方法至关重要，允许灵活编辑运动序列。将身体姿势分解为多个部分并分别编码的优点，在于可以在token 级别对运动序列形成灵活的操作。例如，可以替换、扰动或重排列与特定身体部位相对应的 tokens，以生成新的运动模式。这种灵活性大大增强对运动数据的控制，为进一步的任务设计奠定基础。

自动数据增强。如图所示，引入四种类型的增强——、、和 ——从原始运动数据中提取不同的特征。例如，在增强中，隔离特定关节（例如，根关节）的时间轨迹并将其编码为相应的运动 token。为了创建有意义的问答对，将此运动特征与指令提示配对，例如“请沿着的轨迹移动您的中心位置”，同时使用完整的运动序列作为答案。这种方法有效地增强最初缺乏语言注释的数据集，使其能够用于需要文本运动对齐的任务。
请添加图片描述

这种方法有几个关键优势。 1) 它具有高度灵活性和可扩展性：等增强类型可以与其他条件（例如）结合使用，以创建更复杂的任务，而通过 GPT-4 等工具重新表述相同指令可以进一步丰富语言多样性（Achiam，2023）。2) 该框架利用运动数据固有的时间和空间动态，使模型能够学习更丰富、更稳健的运动语言关系。3) 最后，交错数据集的使用，通过在输入和输出中同时结合运动和文本，增强跨模态对齐。正如 VILA（Lin，2024）等先前的研究所证明的那样，这种训练范式使模型能够更好地捕捉运动和语言之间的相互作用，而不会影响其原始任务的性能。

利用这种增强方法，收集迄今为止最大的动作语言交错数据集，其规模是之前研究的 25 倍（Mao et al., 2024）。这有效地解决训练基础人体运动模型的数据稀缺问题。

训练

当获得足够带有语言注释的数据时，仍然需要考虑来自视频源原始运动数据的质量。因此，将整个训练过程分为两个阶段。首先，利用低质量数据建立运动和语言之间的初始对齐。即使它们不精确，大规模数据也可以奠定基础。之后，继续使用来自 Mocap 的较小但高质量的数据集训练模型，确保它符合正确的人体运动学。

利用 LLM 映射输入条件以有效地生成运动序列。数据增强方法和组合运动编码允许 LLM 将运动条件无缝嵌入到输入描述中。例如，用于运动生成的指令 l_t 可以构造为：“在秒内规划以结尾的一系列动作。”这里，对应于离散动作表示 token z_t，它从动作序列中时间步 t 的动作姿势 c_t 中得出，而指定动作持续时间。通过将运动码本 V_m 和语言码本 V_l 统一为共享词汇表 V = {V_l, V_m}，可以将指令 l_t 与运动表示 z_t 和时间表示 d_t 一起编码为语言 token X_d = {x_d^i}，其中 N 表示输入描述的长度。这种转换使组合的运动和时间数据与 LLM 兼容，从而实现精确和灵活的输入编码。

损失函数。因此，可以将运动生成构建为一个自回归过程，该过程预测下一个动作 token 的字典索引，最终产生最终运动输出 X_o = {x_o^i}，其中 L 表示输出序列长度。训练目标定义为最大化数据分布的对数似然：

请添加图片描述

最后，可以通过词汇映射从 LLM 的输出序列 X_o 中得出预测的离散运动序列 zˆ_t。然后可以使用该序列重新构建最终的预测运动 S = {s_t}，其中 T 表示运动序列的长度。

视觉条件微调

视觉信息为人形机器人提供详细的目标-觉察洞察，帮助它们不仅了解如何行动，而且还能决定采取什么行动。虽然先前的研究已经使用大量人类运动数据集训练人形机器人，但缺乏以自我为中心的视觉数据，限制它们基于自主感知做出反应的能力。为了解决这个问题，收集与以自我为中心的视觉效果配对的真实世界运动捕捉数据，从而将学习的运动知识迁移到现实世界的视觉场景中。

从语言运动预对齐阶段复制并冻结 transformer 层，以将视觉信息与语言描述相结合。此外，引入一个视觉编码器，并利用交叉注意层将视觉特征 X_v 与语言特征 X_d 融合成统一的嵌入 X_u。具体来说，解码器包含 L 层，第 l 层由复制的 Transformer 解码器层和交叉注意层组成。在交叉注意层中，token化的语言tokens X_d^l 用作查询，而编码的视觉 token X_v^l 既作为 K 又作为 V：

请添加图片描述

损失函数。在这里，以与之前的语言-动作预-对齐阶段相同的方式优化模型。

全身控制器

完成两个训练阶段后，该模型可以与全身控制器集成，以实现对人形机器人的控制。全身控制器 P 本质上是一种目标条件 RL 策略，它将人体运动映射到人形机器人 j_t 的关节上。定义一个奖励策略 R，它将观察 O 和给定的目标 G 作为输入，并输出动作空间 A 中比例微分 (PD) 控制器的目标位置。使用近端策略优化 (PPO) (Schulmanetal.，2017) 来最大化累积奖励。

为了全面证明方法的有效性，从两个角度评估运动质量：
1）运动保真度：该指标评估运动性能，测量位置变化而不考虑物理动态。按照（Mao et al.，2024），在标准文本-到-运动（T2M）任务上评估模型，该任务基于文本动作描述生成运动序列。它突出模型将自然语言转化为人类运动的核心能力。
2）物理合理性：与上述指标不同，此评估评估在现实环境中生成姿势的物理可行性。除了标准 T2M 任务之外，还在更具挑战性的场景中评估模型，这些场景超出现有模型的能力，特别是结合关节轨迹等多种输入条件的任务。这项全面评估证明该模型在应用中的稳健性和多功能性。

运动保真度

设置。用广泛使用的数据集 HumanML3D（Guo et al.，2022c）和自己收集的数据集 Humanoid-S 来评估运动质量，该数据集包含从 4646 个视频片段中提取的人类姿势手动注释动作描述。虽然 HumanML3D 专注于跑步、游泳和跳舞等基本运动模式，但 Humanoid-S 涵盖更复杂的人类动作。选择整个测试数据集并随机选择每个片段的一个文本描述作为评估的输入。为了进行公平的比较，使用与模型配置一致的 15 个关节来评估所有模型，这些关节在人类和人形机器人中都存在，以增强通用性。

基线。考虑人形机器人控制中常用的两种基线：（1）MDM（Tevet，2023）：一种基于扩散的生成模型，利用无分类器范式产生自然多样的运动。（2）T2M-GPT（Zhang，2023b）：一种基于 Transformer 的生成模型，结合 VQ-VAE（Van Den Oord，2017）和自回归方法从文本生成人体动作。

实施细节。使用 Llama3-70B（Dubey，2024）作为基础模型。在训练阶段，预热比设置为 0.01，学习率配置为 2e-5，并使用余弦学习调度程序。每个设备的批量大小设置为 4。对于每个身体部位的编码器，其码本大小设置为 1024。用 8 个 NVIDIA H100 GPU 进行 216 小时的模型训练。