HiRT：利用分层机器人Transformer 增强机器人控制

25年2月来自清华、伯克利分校和上海姚期智研究院的论文“HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers”。

大型视觉-语言-动作 (VLA) 模型利用强大的预训练视觉-语言模型 (VLM) 后端，由于其深刻的泛化能力而在机器人控制方面显示出良好的前景。然而，成功是有代价的。它们对具有数十亿个参数的 VLM 后端的依赖导致高昂的计算成本和推理延迟，将测试场景限制在主要的准静态任务上，并阻碍需要快速交互的动态任务性能。为了解决这些限制，本文提出 HiRT，这是一个分层机器人 Transformer 框架，可实现灵活的频率和性能权衡。HiRT 使 VLM 保持低频运行以捕获暂时不变的特征，同时通过缓慢更新特征引导的高频基于视觉策略实现实时交互。模拟和真实世界环境中的实验结果，都表明与基线方法相比有显着的改进。从经验上讲，在静态任务中，将控制频率加倍并实现相当的成功率。此外，在之前的 VLA 模型所面临的挑战——现实世界动态操作任务中，HiRT 将成功率从 48% 提高到 75%。

如图所示 HiRT 的高端架构：
请添加图片描述

大型视觉-语言-动作 (VLA) 模型 [1, 2] 提供一种将大型视觉-语言模型 (VLM) [3, 4, 5, 6] 与具体任务的端到端训练相结合的原则性方法。现有的 VLA 模型 [1, 2] 以预训练的 VLM 为基础，提出在海量机器人数据上调整 VLM，从而实现直接的端到端机器人控制，同时享受 VLM 预训练的好处。现有的研究主要侧重于多任务泛化，提高零样本和少样本学习在各种任务中的表现。

虽然具有数十亿个参数的 VLM 后端带来卓越的泛化优势，但代价是繁重的计算负担。在部署期间，它会导致控制推理速度低和延迟高。这会减慢机器人的移动速度并延长任务完成时间，从而损害动态任务（如在杂乱环境中操纵快速移动目标）的性能和安全性 [7, 8]。大型 VLA 模型的控制频率限制仍然是在现实世界的机器人上部署这些先进模型的重大障碍。

语言为条件的模仿学习在机器人操作中的应用。通过模仿学习将语言与机器人动作 [10, 11, 12] 相结合的研究历史悠久，其中语言通常用作目标规范 [13, 14, 15, 16] 或规划的中间表征 [17, 18, 19]。一些先前的研究已经采用强化学习技术 [20, 21, 22, 23, 24] 来解决某些类型的下游任务。为了解决这些 RL 方法无法泛化的问题，最近的研究集中在使用大语言模型 (LLM) [17, 25, 26, 27, 28] 进行高级任务规划，并在专家机器人数据集上微调视觉语言模型 (VLM) 进行低级机器人控制 [20, 13, 24, 29, 30, 31]。

机器人的视觉语言模型。将预训练的 VLM [3、4、5、6、32] 应用于各种具体场景是最近的研究重点。大多数先前的研究都侧重于使用 VLM 进行高级规划或推理 [27、33、34、35、36、37、38]。为了有效地将视觉或语言信息与物理环境联系起来，具身模型需要对具身数据 [1] 上的预训练 VLM 进行微调，包括包含语言形式任务级规划的视频数据 [39、17、27]、简单文本描述 [40、41]、低级动作 [42、43、44]（称为视觉-语言-动作模型）。然而，部署如此大的 VLA 模型通常会导致推理速度变慢 [45]，这使得具身模型不适合需要精确操作或快速执行的场景。

分层动作规划。分层动作规划 [17, 46, 27, 47, 48] 涉及将一项任务分解为多个可直接执行的简单任务，从而使策略能够应对更复杂、更长远的任务。先前的研究已经证明在 LLM 中输入提示作为通向低级操作桥梁的作用。具体来说，这可以通过任务级规划 [49, 39, 46]、代码执行 [50, 51, 52] 或其他规划表征（如 3D 场景图 [53]、affordance 函数 [54] 和运动的动作模式 [55]）来实现。然而，这些方法通常与物理体现无关，从而阻止高级模型直接与物理环境交互。

受人类认知 Dual-Process 理论 [9] 的启发，本文提出 HiRT，一种用于 VLA 模型的分层交互式模仿学习框架。HiRT 利用系统 2 提取高级、缓慢变化的信息，以指导轻量级系统 1 模块。这个由较小模型实现的系统 1 可以对环境变化做出快速反应。尽管轻量级，但 HiRT 中的系统 1 可以利用系统 2 的指导，保持与原始 VLM 相当的性能，同时获得显著的速度提升。

HiRT，是一种支持多任务学习和快速推理的分层策略架构。关键的直觉是借助预训练的 VLM 从多模态输入中提取丰富的语义表征，然后将这些表征应用于可以异步且独立于 VLM 运行的轻量级动作策略。具体来说，HiRT 探索一种流行的视觉语言模型 InstructBLIP [5]，利用其开源模型作为主干。目标是使用潜条件策略输出低级动作，该策略利用历史观察和 VLM 编码的潜信息。这种小规模策略应该以更高的频率独立于大型模型运行，因此需要一个由轻量级视觉编码器组成的紧凑架构。继 BC-Z [15] 和 RT-1 [13] 之后，本文设计一个潜条件模型作为低级策略，能够以高频率独立执行有限数量任务的行为克隆。

如图所示 HiRT 的网络结构：

请添加图片描述

语言条件下的操作问题可以看作是在马尔可夫决策过程建模的环境下的决策序列：（S，A，R，P，ρ_0），其中 S，A，ρ_0 分别表示状态空间，动作空间和初始状态分布，R：S×A×S → R 表示奖励函数，表示所需状态或任务是否已完成，P：S×A×S → [0,1] 表示环境的概率前向动态函数。具体而言，给定一个指定某项任务的自由形式语言指令 l，控制策略接收一个视觉观察 o，该观察通常由一系列图像组成。然后，从控制策略建模的动作分布 π（·|o，l）中采样一个动作 a，该动作包含末端执行器的相对位置和姿势。

对于HiRT，策略 π（a|o，l）由视觉语言模型中的 F_θ 和快速潜条件策略中的 S_φ 参数化。在轨迹 tˆ_k ∈ {t_i}, k ≤ T 的某些时间步骤中，VLM 主干网接收通过异步采样获得的视觉观察 o ̄_tˆ_k = Sample(o_:tˆ_k) 和自然语言指令 l，并输出融合嵌入：z_tˆ_k = F_θ (o ̄_ˆt_k, l)。同时，在每个步骤中，潜条件模型根据视觉观察的近期背景和最新潜信息预测动作：a_t = S_φ(o_:t, z_ˆt_k)。

使用视觉-语言模型编码多模态信息

在 HiRT 中，InstructBLIP [5] 使用单幅图像形式的视觉信号 o ̄ 对指令 l 进行编码。InstructBLIP 包含一个预训练的视觉编码器、一个大型语言模型 (LLM)、可学习的查询标记和一个 Q-Former [3]。在每个执行时间步骤 tˆ_k，视觉观察（来自手腕或第三视角摄像头）由视觉 Transformer (ViT) [56] 编码为一系列视觉 tokens：

请添加图片描述

其中 N 表示 token 长度，d 表示 token 宽度。随后，Xˆ_t_k^o 与指令 token X_t_k^l 和可学习查询 token X^Q 连接，并由 Q-Former（轻量级转换器）编码为融合语义信息的图像表征：

请添加图片描述

最后，这些视觉查询特征用作预训练 LLM（LLaMA [57]）的提示。将第 i 层的嵌入设置为 X_t_k^i，第 i + 1 层的输出计算如下：

请添加图片描述

其中 L 表示 LLM 中 Transformer 层的深度，MSA 表示多头注意模块，MLP 代表多层感知器，LN 表示 LayerNorm。目标是使用信息丰富的语言嵌入来指导动作生成，而不是从最终层输出 X_t_k^L+1 生成语言 tokens。采用 MAP 模块 [58]（单层注意模块）来聚合这些表征：x_t_k = MAP(X_t_k^L+1)，它将用于调节动作策略。

潜条件策略

遵循使用指令和视频作为任务嵌入的 BC-Z [15] 和 RT-1 [13]，用轻量级视觉编码器（即 EfficientNet [59] 和 Vision Transformer [4]）将图像上下文 o_:t 编码为视觉 token X_:t^v。然后，使用 MAP 块将所有 tokens 聚合到连续动作空间中。为了进一步整合由 VLM 编码的信息任务嵌入，在视觉编码器或动作头上使用以下条件策略：

FiLM 条件。对于基于卷积网络 (CNN) 的视觉编码器，每个隐藏层都以 VLM 潜变量 x_t_k 为条件。在 EfficientNet 中，使用 FiLM 层来计算条件特征：Hˆ= FiLM(H | x_t_k) = W_γ x_t_k ·H + W_β x_t_k，其中 H 表示隐藏特征，W_γ、W_β 是 FiLM 层中可学习的参数。

具有交叉注意层的条件。在 Transformer 的每个自注意层中，插入一个额外的交叉注意层进行条件处理：Hˆ = CrossAttn(H, W_h x_t_k ) + H，其中 W_h 表示将 x_t_k 投影到隐 token 空间 H 的可学习参数。

具有前缀调整的条件。为了更好地使 VLM 能够调节低级动作，利用 VLM 潜变量 x_t_k 作为动作头中 MAP 块的前缀提示。具体而言，动作由 a = MLP(MAP([x_t_k, X_:t^v])) 计算。

训练和推理策略

异步操作和采样。在推理阶段，可以通过调整 VLM 的执行频率来加速模型。具体而言，在初始时间步骤 t = 0 时，VLM 使用视觉上下文对多模态信息进行编码并将其存储在缓存中。在后续步骤中，潜条件策略使用缓存中最新的潜变量快速输出操作，而 VLM 与潜条件策略异步并行运行。这种异步机制允许策略以与潜条件策略几乎相同的速度运行，避免由于 VLM 推理速度较慢而导致的延迟。但是，异步操作可能会导致策略使用反映前几个步骤的场景和指令信息的潜变量，这与训练中使用的信号不一致。因此，在训练阶段，HiRT 从过去的观察上下文 o_:t 中随机选择一个步骤，并使用相应的第三视图图像作为 VLM 的视觉输入。这种技术可以增强策略对时间不一致的潜变量的鲁棒性。

训练目标。在训练期间，VLM 部分使用 LoRA [60] 进行微调，而网络的其余部分则完全微调。具体来说，利用最大似然模仿学习目标。通过回归损失（例如 MSE 损失）优化末端执行器（或连续关节动作）的期望相对位置 a^pos。使用二元交叉熵损失优化末端执行器的离散状态 a^end：

请添加图片描述

其中 ˆa^pos、ˆaend 表示在采样小批量 B 中末端执行器的相对位置和状态的演示。

模拟设置。Metaworld 基准测试提供 50 个不同的桌面操作任务，其中本文使用 20 个任务（每个任务有 50 个专家演示）进行多任务学习。Franka-Kitchen 包括 5 个厨房操作任务。按照 Nair [19] 的做法，针对每个任务的 100 个专家演示训练策略模型，并在原点和两个新场景（改变场景的配色方案）中对任务进行测试。记录成功率以评估任务性能：Metaworld 中每个任务尝试 20 次，Franka-Kitchen 中每个任务尝试 100 次。为了评估推理速度，直接测量策略处理 100 帧所需的平均时间（避免渲染的影响）。

真实世界设置。真实世界实验涉及 Franka Emika Panda 机器人上的多个准静态操作任务，包括拾取和放置各种物体、布线、按下按钮和打开抽屉。具体来说收集了 2000 条轨迹，包括来自手腕和第三视角相机的图像观测。对于准静态测试，在桌子上放置许多其他物体来引入干扰，还测试模型是否可以抓住它从未见过的全新物体，以验证其语义基础能力。此外，通过在机械臂执行其动作时以大致恒定的速度移动目标物体来测试策略在动态任务上的性能。所有任务都涉及随机化（例如物体的位置、类型、干扰物体的数量以及夹持器的初始状态）。报告 20 次尝试中每个任务的成功率以及在现实世界中推出的平均时间成本。

在实施过程中，使用预训练的 EfficientNet-B3 [59] 和 ViT-B/16 [56] 作为低级策略的视觉编码器，它们已经在大型视觉数据上进行预训练。在训练中，在整个 InstructBLIP 模型中插入适配器层（LoRA 层），包括 ViT、Qformer 和 LLaMA。在模拟结果中，低级策略利用前者的 CNN 架构，而在真实世界结果中，采用基于 Transformer 的 ViT 架构。对于模拟，快速策略主要包含预训练的 EfficientNet-B3 视觉编码器和 FiLM 层，总共约有 35M 个参数。对于现实世界，快速策略主要包含预训练的 ViT-B/16 和交叉注意层，具有 150M 个参数。