微软悉尼大学｜UniGraspTransformer：灵巧机器人抓取技术新突破！

摘要在机器人研究领域，灵巧机器人抓取任务始终是极具挑战性的难题。不同形状、尺寸和物理属性的物体，以及多指灵巧手复杂的控制要求，都为机器人实现精准抓取带来了诸多阻碍。虽然已有研究取得了一定进展，但仍存在训练过程复杂、模型扩展性差以及抓取姿态单一等问题。在此背景下，UniGraspTransformer应运而生，它简化了训练流程，提升了模型性能与泛化能力，为灵巧机器人抓取技术带来了新的突破。

©️【深蓝AI】编译

论文标题：UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

论文作者：Wenbo Wang Fangyun Wei* Lei Zhou Xi Chen Lin Luo Xiaohan Yi Yizhong Zhang Yaobo Liang Chang Xu Yan Lu Jiaolong Yang Baining Guo

论文地址：https://dexhand.github.io/UniGraspTransformer/

一、传统方法的困境与UniGraspTransformer的诞生

传统的基于夹爪的机器人抓取技术受夹爪结构限制，难以适应复杂形状物体。而灵巧抓取虽引入多指操作，却面临控制难题。以UniDexGrasp++为代表的方法，虽在灵巧抓取方面有所进步，但训练流程复杂，包含策略学习、几何感知聚类、课程学习和策略蒸馏等多个步骤，不仅增加了训练难度，还限制了模型的扩展性。当单一网络处理大量不同物体时，其性能会显著下降。

为解决这些问题，研究人员提出了UniGraspTransformer。它通过创新的训练方式，旨在打造一个能处理数千个物体的通用网络，同时提高抓取性能和泛化能力。

▲图1｜展示了 UniDexGrasp、UniDexGrasp++ 和我们的 UniGraspTransformer 在基于状态和基于视觉两种设置下的性能对比©️【深蓝AI】编译

二、UniGraspTransformer的技术解析

训练流程简化创新

UniGraspTransformer的训练过程分为三个主要阶段。首先是专用策略网络训练，针对训练集中的3200个独特桌面物体，利用近端策略优化（PPO）算法为每个物体训练一个专用策略网络。训练时随机旋转物体以增加初始姿态多样性，确保策略网络能适应多种抓取场景。

接着是抓取轨迹生成阶段，训练好的专用策略网络为每个物体生成1000条成功的抓取轨迹，这些轨迹包含机器人动作和物体状态等丰富信息，共同构成用于训练UniGraspTransformer的数据集。

最后是UniGraspTransformer的训练，在基于状态和基于视觉两种设置下，利用生成的轨迹数据集对通用抓取网络进行监督学习训练，使模型能对见过和未见过的物体都具备良好的抓取能力。

▲图2｜ UniGraspTransformer 概要©️【深蓝AI】编译

网络架构与输入处理

在基于状态的设置中，UniGraspTransformer的输入包括本体感受、先前动作、物体状态、手-物体距离、时间和物体点云编码特征等信息。通过特定的物体编码器S-Encoder将点云编码为128维特征，各输入向量经MLP网络映射为256维令牌后输入模型。模型主要由多个自注意力块和一个4层MLP头组成，使用L2损失函数进行优化。

在基于视觉的设置下，输入有所调整。由于只能获取部分物体点云，需重新训练V-Encoder提取特征，同时调整物体状态表示和手-物体距离计算方式。但网络架构、损失函数和监督信号等保持不变。

奖励函数精心设计

专用策略网络训练时，奖励函数设计至关重要。它由多个部分组成，抓取奖励 $R_{d}$ 惩罚手与物体间的距离，促使手靠近物体；接触标志 $f_{c}$ 用于判断手与物体是否接触；打开奖励 $R_{o}$ 鼓励手在接触物体前保持张开；接触建立后，提升奖励 $R_{l}$ 激励手进行提升动作，目标奖励 $R_{g}$ 惩罚物体与目标位置的距离，成功奖励 $R_{s}$ 在物体到达目标时给予额外奖励。合理的奖励函数使得专用策略网络训练效果良好，平均成功率达到94.1%。

三、实验验证与性能分析

实验设置

实验使用UniDexGrasp++的灵巧抓取数据集，包含3200个物体用于训练，并在这些见过的物体、140个见过类别中的未见过物体以及100个未见过类别中的未见过物体上进行评估。为增加初始姿态多样性，每个物体随机旋转并放置在桌面上，重复1000次抓取尝试，若物体在200步内到达目标位置则视为抓取成功。实验在基于状态和基于视觉两种设置下进行，全面评估模型性能。

主要结果

与当前最先进的方法UniDexGrasp++相比，UniGraspTransformer在多种评估设置下表现更优。在基于状态的设置中，对见过物体的抓取成功率达到91.2%，比UniDexGrasp++高出3.3%；在基于视觉的设置下，对见过物体的成功率为88.9%，提升了3.5%。在泛化能力方面，对未见过物体和未见过类别的物体，UniGraspTransformer同样表现出色，成功率显著高于UniDexGrasp++，且从见过类别到未见过类别的过渡中，成功率下降幅度极小，证明其强大的泛化能力。

消融实验深入剖析

通过消融实验进一步分析UniGraspTransformer的性能。在可扩展性方面，随着训练所用抓取轨迹数量增加、自注意力块数量增多以及处理物体数量的变化，模型成功率呈现相应变化，表明模型在处理不同规模数据和任务时具有良好的扩展性。

对输入组件的分析发现，逐步增加输入信息能持续提升模型性能，说明UniGraspTransformer能有效利用多种信息源提升抓取能力。在基于视觉的设置中，采用部分物体点云的中心和PCA估计、使用带有蒸馏损失训练的V-Encoder等优化措施，都显著提高了模型性能。

此外，精心设计的奖励函数对专用策略网络性能提升明显。而在抓取姿态多样性上，UniGraspTransformer相较于UniDexGrasp++表现更优，能生成更丰富多样的抓取姿态，更好地适应不同形状物体的抓取需求。

四、研究成果总结与未来展望

UniGraspTransformer通过简化训练流程、创新网络架构和精心设计奖励函数，成功提升了灵巧机器人抓取的性能、扩展性和多样性。在多种实验设置下，它均优于现有方法，展现出强大的泛化能力和抓取能力。

未来，UniGraspTransformer有望在实际应用中得到更广泛的推广。一方面，可以进一步优化模型结构和训练算法，提高模型效率和性能，降低计算成本，使其能在资源受限的机器人设备上运行。另一方面，拓展模型在复杂场景下的应用，如在杂乱环境中进行物体抓取，以及与其他机器人任务相结合，实现更复杂的操作。同时，结合新型传感器技术，获取更精确的物体信息，进一步提升抓取的准确性和稳定性，为机器人在工业生产、物流、家庭服务等领域的应用提供更有力的支持。