面向机器人操作的协同、泛化和高效的双-系统

24年10月来自上海交大、香港大学、智元机器人和上海 AI 实验室的论文“Towards Synergistic, Generalized And Efficient Dual-system For Robotic Manipulation ”。

随着多功能机器人系统在多样化和动态环境中运行的需求日益增长，这凸显一个通才策略的重要性，其利用大量跨具身数据语料库来促进广泛的适应性和高级推理。然而，通才策略会面临推理效率低下和训练成本高昂的问题。相反，专家策略是针对特定领域数据制定的，在任务级精度和效率方面表现出色。然而，它缺乏广泛应用的泛化能力。受这些观察的启发，RoboDual，一种协同双-系统，可以补充通才策略和专家策略的优点。基于扩散Transformer的专家被设计用于多步动作部署，精确地以基于视觉-语言-动作 (VLA) 通才策略的高级任务理解和离散化动作输出为条件。与 OpenVLA 相比，RoboDual 仅通过引入 20M 可训练参数的专家策略，在真实场景中实现 26.7% 的提升，在 CALVIN 上实现 12% 的提升。它仅使用 5% 的演示数据就能保持强劲性能，并在实际部署中实现了 3.8 倍的控制频率提升。

RoboDual 旨在利用系统 1 和系统 2 的优势并促进大型通才策略的实际部署。如图所示：(a) 快速专家策略借助经过大规模数据训练通才策略的慢但泛化的输出，专注于实时和准确的控制。 (b) RoboDual 在性能和效率方面比单一独立选项有显著的提升，并在真实机器人环境中超越以前最先进的技术。

请添加图片描述

通才：自回归视觉-语言-动作模型

如图 (a) 展示了通才架构。通用模型建立在 Open-VLA（Kim，2024）的基础上，这是一个 7B 参数自回归视觉-语言-动作模型，使用大量机器人操作数据进行训练，包括 Open-X-Embodiment（Padalkar，2024）、Bridge V2（Walke，2023）、DROID（Khazatsky，2024）等。通才模型遵循 Prismatic-7B（Karamcheti，2024）视觉语言模型 (VLM) 的架构，它由来自不同主干的融合视觉编码器（Zhai，2023a；Oquab，2024）、用于将视觉嵌入与语言模态对齐的投影层和大语言模型 LLaMA2（Touvron，2023）组成。尽管在大规模跨具身数据集上进行广泛的训练，OpenVLA 仍无法在新的环境或体现中以零样本方式运行（Wang，2024b）。仍然需要适应特定的机器人设置和测试环境（具有新的协调系统、摄像机角度等），通过 LoRA（Hu，2022）微调来实现。尽管如此，打算利用 OpenVLA 中嵌入的大量预训练知识，为双-系统框架赋予一定的通用性。

请添加图片描述

动作分块的自回归生成。遵循 RT-2（Brohan，2023a）和 Open-VLA（Kim，2024），将 LLaMA token化器词汇表中使用最少的 256 个单词映射到 [-1, 1] 内均匀分布的动作 bins 中。这种方法能够根据词汇表中的对应索引将语言 tokens 分解为离散动作。通才模型以自回归的方式解码动作的每个自由度，其中当前 tokens 的解码取决于输入提示和先前解码的 tokens。进一步扩展原始的 OpenVLA，以预测时间长度为 k/g 的动作块。通才方面的这种长期规划增强其自身捕捉人类演示中非马尔可夫行为的能力，也有利于为专家模型提供更具信息性的条件。在token化器词汇表中，每个时间步长对应的动作输出由 [空格] token分隔。然而，由于生成了更多 tokens，动作分块会增加 VLA 的推理延迟。这进一步要求一个专家模型，该模型在连续的 VLA 输出之间以更高的频率运行，以实现更灵敏的控制。

专家：可控扩散 Transformer 策略

专家建立在预训练的通才策略之上，即使在训练数据和计算有限的情况下，也能在减少控制延迟的同时实现性能提升。为了充分利用有效操作所需的多模态感官输入以及通才策略的特权知识，基于扩散 Transformer (DiT) (Peebles & Xie, 2023) 设计专家，以执行可控动作序列去噪。

基础架构。上图 (b) 说明专家模型的架构，该模型主要由堆叠的 DiT 块组成。每个块包括一个用于处理时间动作的因果自注意层、一个用于融合信息的交叉注意层和一个执行非线性变换的逐点前馈网络。与图像扩散模型 (Saharia et al., 2022) 类似，将 7-DoF 动作视为具有 7 个通道的像素，将其线性投影到单个token中并由扩散模型处理。这种公式有助于无缝扩展动作token的时间，从而能够以灵活的时间长度 k/s 实现动作块预测 (Zhao et al., 2023)。用 Vision Transformers (ViT) (Dosovitskiy et al., 2021) 作为广义感官编码器来编码所有可能的输入模态（例如 RGB、深度和触觉），并在给定不同数量通道的情况下对 patchify 层进行微小修改。利用 DINO (Caron et al., 2021) 预训练模型对 RGB 输入进行编码，该模型在训练期间被冻结。其他模态的编码器被限制为 6 层，隐藏大小为 256，以确保效率。除了已经探索的内容之外，框架还适用于可以编码成嵌入序列的非图像输入。

使用多模态条件作用进行动作去噪。专家模型利用多种条件作用源及其相应的条件作用方法来增强决策能力：1）机器人的本体感受状态（Proprio.），2）多模态感官输入，3）通才的离散化动作输出，以及 4）来自通才模型的潜表示（参见上图(a)）。每个来源都贡献不同的信息，从而促进更明智和更稳健的政策。

本体感受状态通过两层 MLP 处理，并与时间步嵌入相结合，以实现自适应样本条件作用。除回归 γ 和 β 参数以进行自适应层归一化（Perez，2018）之外，还在残差连接中引入缩放参数 α，以确保稳定的条件作用并提高训练稳健性（Peebles & Xie，2023）。

对于感官输入，整合一个感知器重采样器（Alayrac，2022），它由一个多头注意池模块和一个 MLP 层组成，用于从 ViT 生成的观察嵌入中选择性地提取关键特征，同时减少 token 长度。具体来说，对每个感官输入使用 8 个可学习的查询。重采样器可保持性能并加速多步去噪过程，特别是在处理有利于操作任务的多源输入时，例如多视图观察、历史帧和多模态数据。

为了使专家根据通才的离散化动作进行条件化，将它们与相应时间步的噪声动作连接起来，并通过线性层将连接的输入投影到共享的潜空间中。这种方法受到视频预测模型（Blattmann，2023）的启发，该模型将最初已知的帧与噪声输入连接起来以预测未来状态。

根据从通才模型中得出的任务和动作潜伏信息，对专家模型进行条件化，涉及利用通才token上的线性投影来对齐它们的隐藏空间。尽管简单，但它具有参数效率，并保留 VLA 中的原始位置编码。最后，投影的通才潜信息以及重采样的观察嵌入被连接起来并用作交叉注意层中的 K 和 V。多样化条件化使专家模型能够有效地处理全面的上下文数据，从而促使做出更明智的决策。

鉴于通才模型和专家模型在推理过程中异步运行（单个通才推理支持多个专家部署），提出一种移位窗条件化机制，以确保时间连贯性和计算效率。该机制的运作方式如下：在专家模型执行 τ_s 个推理步骤后，只有通才模型生成的最新 k_g −τ_s 个动作才会保留，为后续更新的上下文调节。

这个部分观察窗口可确保通才的高级规划与专才的低级执行之间的对齐，同时减轻时间错位。为了增强 RoboDual 对现实世界延迟变化的鲁棒性，进一步集成此机制作为延迟感知训练增强。在训练期间，通过调节延迟的通才输出，明确优化专才模型以去噪多步未来轨迹。具体而言，专才接收观察输入，这些输入在时间上领先通才的输出一个可变的偏移步 τ ∈ [0, k_g ]，从而模拟和补偿部署场景中的潜异步。这种公式迫使专才学习一种预测表示，以弥合两个模型推理周期之间的时间差距。

训练和推理协议

通才训练。与最近的研究（Li，2024；Szot，2024）不同，这些研究直接将动作回归损失应用于 VLM 的输出tokens，本文遵循 OpenVLA（Kim，2024）并使用离散 token 预测，这自然与仅解码器的 LLM（Chen，2021 ）的下一个 token 预测方法保持一致。模型 g_φ 以提示 p 和基本事实动作 a_<i 的前缀为输入，并进行训练以最小化下一个 token 负对数-概率的总和：

请添加图片描述

专家训练。遵循扩散策略 (Chi et al., 2023)，以动作去噪目标去训练专家。给定来自数据集 a_0 ∼ D^a 时间长度为 k_s 的动作轨迹、随机采样的噪声 ε ∼ N (0, I) 和任意时间戳 t ∼ U (1, T )，前向扩散过程以闭式表示为 a_t = (α_t)^0.5a_0 + (1 − α_t)^0.5 ε。α_t 表示执行一步噪声添加的噪声规划 (Ho et al., 2020)。优化以下训练目标以训练专家模型 π_θ，如下所示：

请添加图片描述

探索从头开始训练轻量级专家模型，以预训练的通才模型为条件，并促进两个系统之间的协同作用。仅引入 20M 个可训练参数和 8 个 GPU 小时的专家模型训练，由此产生的双-系统就表现出比仅在 VLA 上进行几天额外训练所获得的收益更显著的性能提升（17% 对 10%）。

CALVIN 上的模拟实验。CALVIN (Mees，2022b) 是广泛认可的模拟基准，用于评估长期语言条件操作任务。本文目标是使用自由格式语言指令展示系统在多任务学习中的通用性。此外，研究专家模型如何利用多种输入模式（超越通才的第三视图 RGB 输入）来提高操作性能。

现实世界的机器人实验。所有现实世界的实验都是使用具有 7-DoF 动作空间和第三视图 RGB 相机的 ALOHA 平台进行的。评估单指令任务（“抬起豆荚”、“将虾倒入碗中”和“向左推块”）和多指令任务（“将放入篮子”和“击倒 ”）的策略。此外，提出一套全面的评估任务，涵盖各种泛化轴：1）位置变化，2）视觉干扰，3）未见过的背景，4）新目标。根据任务的复杂性，每个任务都通过传送收集 20-120 次演示。为了建立基线，采用最先进和最广泛采用的专家策略 ACT（Zhao，2023）和扩散策略（Chi，2023），以及通才模型 Octo（Ghosh，2024）和 OpenVLA（Kim，2024），进行比较分析。专家以单任务的方式进行训练，而通才首先接受所有任务组合的训练，然后针对特定场景进行调整以优化其性能。为了进行更清晰的比较，首先在所有任务上训练通才，然后使用特定于任务的数据（单任务）或多任务数据（多任务）分别训练专家。为了使不使用语言输入的专家基线能够有效地学习多指令任务，将 FiLM 条件（Perez，2018）作为 RT-1（Brohan，2023b）纳入视觉主干。对于所有任务，报告 15 次独立运行的平均成功率。