微软悉尼大学|UniGraspTransformer:灵巧机器人抓取技术新突破!

embedded/2025/2/5 11:46:16/

摘要 在机器人研究领域,灵巧机器人抓取任务始终是极具挑战性的难题。不同形状、尺寸和物理属性的物体,以及多指灵巧手复杂的控制要求,都为机器人实现精准抓取带来了诸多阻碍。虽然已有研究取得了一定进展,但仍存在训练过程复杂、模型扩展性差以及抓取姿态单一等问题。在此背景下,UniGraspTransformer应运而生,它简化了训练流程,提升了模型性能与泛化能力,为灵巧机器人抓取技术带来了新的突破。

©️【深蓝AI】编译

论文标题:UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

论文作者:Wenbo Wang Fangyun Wei* Lei Zhou Xi Chen Lin Luo Xiaohan Yi Yizhong Zhang Yaobo Liang Chang Xu Yan Lu Jiaolong Yang Baining Guo

论文地址:https://dexhand.github.io/UniGraspTransformer/

一、传统方法的困境与UniGraspTransformer的诞生

传统的基于夹爪的机器人抓取技术受夹爪结构限制,难以适应复杂形状物体。而灵巧抓取虽引入多指操作,却面临控制难题。以UniDexGrasp++为代表的方法,虽在灵巧抓取方面有所进步,但训练流程复杂,包含策略学习、几何感知聚类、课程学习和策略蒸馏等多个步骤,不仅增加了训练难度,还限制了模型的扩展性。当单一网络处理大量不同物体时,其性能会显著下降。

为解决这些问题,研究人员提出了UniGraspTransformer。它通过创新的训练方式,旨在打造一个能处理数千个物体的通用网络,同时提高抓取性能和泛化能力。

▲图1| 展示了 UniDexGrasp、UniDexGrasp++ 和我们的 UniGraspTransformer 在基于状态和基于视觉两种设置下的性能对比©️【深蓝AI】编译

二、UniGraspTransformer的技术解析

训练流程简化创新

UniGraspTransformer的训练过程分为三个主要阶段。首先是专用策略网络训练,针对训练集中的3200个独特桌面物体,利用近端策略优化(PPO)算法为每个物体训练一个专用策略网络。训练时随机旋转物体以增加初始姿态多样性,确保策略网络能适应多种抓取场景。

接着是抓取轨迹生成阶段,训练好的专用策略网络为每个物体生成1000条成功的抓取轨迹,这些轨迹包含机器人动作和物体状态等丰富信息,共同构成用于训练UniGraspTransformer的数据集。

最后是UniGraspTransformer的训练,在基于状态和基于视觉两种设置下,利用生成的轨迹数据集对通用抓取网络进行监督学习训练,使模型能对见过和未见过的物体都具备良好的抓取能力。

▲图2| UniGraspTransformer 概要©️【深蓝AI】编译

网络架构与输入处理

在基于状态的设置中,UniGraspTransformer的输入包括本体感受、先前动作、物体状态、手-物体距离、时间和物体点云编码特征等信息。通过特定的物体编码器S-Encoder将点云编码为128维特征,各输入向量经MLP网络映射为256维令牌后输入模型。模型主要由多个自注意力块和一个4层MLP头组成,使用L2损失函数进行优化。

在基于视觉的设置下,输入有所调整。由于只能获取部分物体点云,需重新训练V-Encoder提取特征,同时调整物体状态表示和手-物体距离计算方式。但网络架构、损失函数和监督信号等保持不变。

奖励函数精心设计

专用策略网络训练时,奖励函数设计至关重要。它由多个部分组成,抓取奖励 $R_{d}$惩罚手与物体间的距离,促使手靠近物体;接触标志$f_{c}$用于判断手与物体是否接触;打开奖励$R_{o}$ 鼓励手在接触物体前保持张开;接触建立后,提升奖励$R_{l}$激励手进行提升动作,目标奖励$R_{g}$惩罚物体与目标位置的距离,成功奖励$R_{s}$ 在物体到达目标时给予额外奖励。合理的奖励函数使得专用策略网络训练效果良好,平均成功率达到94.1%。

三、实验验证与性能分析

实验设置

实验使用UniDexGrasp++的灵巧抓取数据集,包含3200个物体用于训练,并在这些见过的物体、140个见过类别中的未见过物体以及100个未见过类别中的未见过物体上进行评估。为增加初始姿态多样性,每个物体随机旋转并放置在桌面上,重复1000次抓取尝试,若物体在200步内到达目标位置则视为抓取成功。实验在基于状态和基于视觉两种设置下进行,全面评估模型性能。

主要结果

与当前最先进的方法UniDexGrasp++相比,UniGraspTransformer在多种评估设置下表现更优。在基于状态的设置中,对见过物体的抓取成功率达到91.2%,比UniDexGrasp++高出3.3%;在基于视觉的设置下,对见过物体的成功率为88.9%,提升了3.5%。在泛化能力方面,对未见过物体和未见过类别的物体,UniGraspTransformer同样表现出色,成功率显著高于UniDexGrasp++,且从见过类别到未见过类别的过渡中,成功率下降幅度极小,证明其强大的泛化能力。

▲图3| 抓取姿势多样性的定量分析©️【深蓝AI】编译

消融实验深入剖析

通过消融实验进一步分析UniGraspTransformer的性能。在可扩展性方面,随着训练所用抓取轨迹数量增加、自注意力块数量增多以及处理物体数量的变化,模型成功率呈现相应变化,表明模型在处理不同规模数据和任务时具有良好的扩展性。

对输入组件的分析发现,逐步增加输入信息能持续提升模型性能,说明UniGraspTransformer能有效利用多种信息源提升抓取能力。在基于视觉的设置中,采用部分物体点云的中心和PCA估计、使用带有蒸馏损失训练的V-Encoder等优化措施,都显著提高了模型性能。

此外,精心设计的奖励函数对专用策略网络性能提升明显。而在抓取姿态多样性上,UniGraspTransformer相较于UniDexGrasp++表现更优,能生成更丰富多样的抓取姿态,更好地适应不同形状物体的抓取需求。

四、研究成果总结与未来展望

UniGraspTransformer通过简化训练流程、创新网络架构和精心设计奖励函数,成功提升了灵巧机器人抓取的性能、扩展性和多样性。在多种实验设置下,它均优于现有方法,展现出强大的泛化能力和抓取能力。

未来,UniGraspTransformer有望在实际应用中得到更广泛的推广。一方面,可以进一步优化模型结构和训练算法,提高模型效率和性能,降低计算成本,使其能在资源受限的机器人设备上运行。另一方面,拓展模型在复杂场景下的应用,如在杂乱环境中进行物体抓取,以及与其他机器人任务相结合,实现更复杂的操作。同时,结合新型传感器技术,获取更精确的物体信息,进一步提升抓取的准确性和稳定性,为机器人在工业生产、物流、家庭服务等领域的应用提供更有力的支持。 


http://www.ppmy.cn/embedded/159738.html

相关文章

.找到字符串中所有字母异位词(滑动窗口)

给定两个字符串 s 和 p,找到 s 中所有 p 的 异位词 的子串,返回这些子串的起始索引。不考虑答案输出的顺序。 示例 1: 输入: s "cbaebabacd", p "abc" 输出: [0,6] 解释: 起始索引等于 0 的子串是 "cba", 它是 "…

将音频mp3文件添加背景音乐

你可以使用 Python 的 pydub 库来合成两个音频文件,并调整背景音乐的音量,使朗诵的声音更强。以下是实现的 Python 代码: 步骤 读取朗诵音频文件(speech.mp3)。读取背景音乐文件(background.mp3&#xff…

新到手路由器宽带上网设置八步法

第一步,连接线 运营商接到家里的一般有光纤,然后光纤会接在一个他们提供的光猫上。我们只需将路由器的WAN口通过一截网线接到光猫对应的网口即可。通电并确认指示灯常亮或闪烁 第二步,手机搜索&#xff3…

【Linux系统】CPU指令集 和 Linux系统权限 ring 0 / ring 3

CPU 指令集 CPU 指令集:是 CPU 实现软件指挥硬件执行的媒介,具体来说每一条汇编语句都对应了一条CPU指令,而非常非常多的 CPU 指令在一起,可以组成一个、甚至多个集合,指令的集合叫CPU指令集。 CPU 指令集有权限分级&…

全局异常处理器

目录 一. 异常处理 \quad 一. 异常处理 \quad

XML DOM 节点信息

nodeName、nodeValue 和 nodeType 属性包含有关节点的信息。 尝试一下 - 实例 下面的实例使用 XML 文件 books.xml。 函数 loadXMLDoc(),位于外部 JavaScript 中,用于加载 XML 文件。 获取元素节点的节点名称 本例使用 nodeName 属性来获取 "book…

设计一个特殊token以从1亿词表中动态采样8192个词来表达当前序列

为了设计一个特殊token以从1亿词表中动态采样8192个词来表达当前序列,可以采用以下分步方案: 1. 特殊token的设计与作用 定义特殊token:在输入序列前添加一个特殊标记,如[SUBVOCAB]。该token的嵌入包含触发子词表采样的元信息。…

【回溯+剪枝】优美的排列 N皇后(含剪枝优化)

文章目录 526. 优美的排列解题思路:回溯 剪枝51. N 皇后解题思路:回溯 剪枝剪枝的优化 526. 优美的排列 526. 优美的排列 假设有从 1 到 n 的 n 个整数。用这些整数构造一个数组 perm(下标从 1 开始),只要满足下述…