[论文阅读] mobile aloha实验部分

news/2024/9/14 2:34:15/ 标签: 论文阅读

DP:[1] CHI C, FENG S, DU Y, et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion[J]. 2023.

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion精读笔记(一)-CSDN博客

哥伦比亚大学突破性的方法- Diffusion Policy:利用Action Diffusion进行视觉运动策略学习-CSDN博客

图1。Policy表示。a) 具有不同类型动作表示的显式 policy。b) 隐式 policy 学习以动作和观察为条件的能量函数,并优化最小化能量景观 c) 扩散 policy 通过学习的梯度场将噪声细化为动作。该公式提供了稳定的训练,允许学习的policy准确地建模多模态动作分布,并适应高维动作序列。

图 2. 扩散策略概述 a) 一般公式。在时间步 t,policy 将观测数据的最新步作为输入并输出动作 步。b) 在基于 cnn 的扩散策略中,FiLM(特征线性调制Feature-wise Linear Modulation)对观察特征的条件应用于每个卷积层,通道。从高斯噪声中提取的开始,减去噪声预测网络的输出,重复k次得到,去噪动作序列。c) 在基于 transformer 的扩散策略,观察 ot 的嵌入被传递到每个 transformer 解码器块的多头交叉注意力层。每个动作嵌入都被限制为仅使用说明的注意力掩码关注自身和先前的动作嵌入(因果注意力)。

VINN:[1] PARI J, SHAFIULLAH N, ARUNACHALAM S, et al. The Surprising Effectiveness of Representation Learning for Visual Imitation[J].

4. Co-training with Static ALOHA Data

使用模仿学习解决现实世界机器人任务的典型方法依赖于使用在特定机器人硬件平台上为目标任务收集的数据集。然而,这种简单的方法存在漫长的数据收集过程,其中人类操作员在特定的机器人硬件平台上从头开始为每个任务收集演示数据。由于这些数据集中的视觉多样性有限,在这些专业数据集上训练的policies通常对感知扰动(如干扰物和光照变化)不具有鲁棒性[95]。最近,对从不同但相似类型的机器人收集的不同真实世界数据集进行联合训练,在单臂操纵[11,20,31,61]和导航[79]方面显示出有希望的结果。

在这项工作中,我们使用了一个协同训练pipeline,它利用现有的静态aloha数据集来提高移动操作的模仿学习性能,特别是对于手动手臂动作。静态aloha数据集[81,104]总共有825个演示,包括ziploc密封,拿起叉子,糖果包装,撕开纸巾,打开带盖子的塑料杯,玩乒乓球,胶带分发,使用咖啡机,铅笔交付,紧固魔术贴电缆,开槽电池,以及处理螺丝刀。注意,静态aloha数据都是在一个黑色桌面上收集的,两个手臂固定在一起,面向对方。这种设置与移动aloha不同,移动aloha的背景随着移动基座的变化而变化,两个手臂平行地面向前方放置。我们没有对rgb观测数据或静态alohadata的手动操作使用任何特殊的数据处理技术来进行共同训练。

将聚合的静态aloha数据表示为,将任务m的移动aloha数据表示为。双手动作表示为目标关节位置,其中包含两个连续的抓取动作,基础动作表示为目标基准线速度和角速度。任务m的移动操作policy的训练目标为

其中是由两个手腕相机RGB观测、一个安装在手臂之间的自中心顶部相机RGB观测和手臂的关节位置组成的观测,L是模仿损失函数。我们以相等的概率从静态ALOHA数据和移动ALOHA数据中采样。我们将批量大小设置为16。由于静态ALOHA数据点没有移动基础动作,我们将动作标签归零,这样两个数据集中的动作具有相同的维度。我们还忽略了静态ALOHA数据中的前置摄像头,因此两个数据集都有3个摄像头。我们仅根据移动ALOHA数据集的统计数据对每个动作进行归一化。在我们的实验中,我们将这种联合训练方法与多种基础模仿学习方法相结合,包括ACT[104]、扩散策略[18]和VINN[63]。

5. Tasks

我们想强调的是,对于上述所有任务,将对象恢复到相同配置的开环重放演示将实现零整体任务成功(完全不成功)。成功完成任务需要学习的policy做出闭环反应并纠正这些错误。我们认为开环回放过程中的误差来源是移动基站的速度控制。例如,我们观察到,在回放半径为1m的180度转弯的基本动作时,平均误差>10cm。我们在附录a.4中提供了有关此实验的更多详细信息。

6. Experiments

我们的目标是回答实验中的两个核心问题。

(1) 移动ALOHA可以通过联合训练和少量移动操作数据获得复杂的移动操作技能吗?

(2) mobile ALOHA是否可以与不同类型的模仿学习方法一起工作,包括ACT[104]、扩散策略[18]和基于检索的VINN [63]?我们在现实世界中进行了大量的实验来检验这些问题

首先,我们将研究的所有方法都采用“动作分块”[104],其中policy预测未来动作的序列,而不是每个时间步的一个动作。它已经是act和diffusion policy方法的一部分,并且很容易添加到vinn中。我们发现动作分块对于操作至关重要,可以提高生成轨迹的连贯性,减少每一步policy推理的延迟。动作分块也为移动aloha提供了一个独特的优势:更灵活地处理硬件不同部分的延迟。我们观察到移动基地的目标速度和实际速度之间存在延迟,而位置控制臂的延迟要小得多。为了解释移动基座d步的延迟,我们的机器人执行了长度为k的动作块的前k−d个手臂动作和最后k−d个基座动作。

6.1. Co-training Improves Performance

我们从aloha引入的方法act[104]开始,在有和没有联合训练的情况下对其进行所有7项任务的训练。然后,我们评估现实世界中的每个policy,如图3所示,对机器人和物体配置进行随机化。为了计算子任务的成功率,我们将#success除以#attempts。例如,在“提起玻璃和擦拭”子任务的情况下,#尝试次数 #Attempts 等于前一个子任务“抓住毛巾”的成功次数,因为机器人可能会在任何子任务中失败并停止。这也意味着最终成功率等于所有子任务成功率的乘积。我们在表1中报告了所有成功率。每个成功率都是根据20次评估试验计算的,除了cook shrimp有5次。

在联合训练的帮助下,机器人在擦拭酒方面取得了95%的成功,在呼叫电梯方面取得了95%的成功,使用橱柜方面取得了85%的成功。high five方面取得了85%的成功,rinse pan方面取得了80%的成功,push chair方面取得了80%的成功。这些任务中的每一项只需要50次印度支那示威,或者在high five的情况下需要20次。唯一成功率低于80%的任务是烹饪虾(40%),这是一项75秒的长期任务,我们只收集了20个演示。我们发现policy很难用抹刀翻转虾,并将虾倒入与白色桌子对比度较低的白色碗中。我们假设,较低的成功率可能是由于演示数据有限。联合训练提高了7项任务中5项的整体任务成功率,分别提高了45%、20%、80%、95%和80%。对于剩下的两项任务,联合训练和不联合训练的成功率相当。我们发现,对于精确操作是瓶颈的子任务,例如按下按钮、翻转虾和打开水龙头,联合训练更有帮助。在所有这些情况下,复合误差似乎是失败的主要原因,要么来自机器人基础速度控制的随机性,要么来自丰富的接触,例如在flip shrimp过程中抓握抹刀和接触锅。

我们假设,在静态aloha数据集中抓取和接近物体的“运动先验”仍然有利于移动aloha,特别是考虑到手腕相机引入的不变性[41]。我们还发现,共同训练的policy在推椅和擦拭酒的情况下具有更好的泛化能力。对于push chairs,无论是联合训练还是非联合训练,前3把椅子都取得了完美的成功,这在演示中可以看到。然而,当外推到第四和第五把椅子时,联合训练的表现要好得多,分别提高了15%和89%。对于wipe wine,我们观察到共训练的policy在酒杯随机化区域的边界处表现更好。因此,我们假设,鉴于20-50个演示的低数据范围和使用的基于表达变换器 the expressive transformer-based 的policy,联合训练也有助于防止过拟合。

6.2. Compatibility with ACT, Diffusion Policy, and VINN

除了act之外,我们还使用mobile aloha训练了两种最新的模仿学习方法,即扩散策略[18]和vinn[63]。扩散policy训练神经网络以逐步改进动作预测。我们使用ddim调度器[85]来提高推理速度,并将数据增强应用于图像观测以防止过拟合。联合训练数据pipeline与act相同,我们在附录a.3中包含了更多的训练细节。vinn训练了一个视觉表示模型byol[37],并使用它从具有最近邻的演示数据集中检索动作。我们用本体感觉特征增强vinn检索,并调整相对权重以平衡视觉和本体感觉特征的重要性。我们还检索了一个动作块而不是单个动作,并发现类似于赵等人的显著性能改进。对于共同训练,我们只需使用组合的移动和静态数据共同训练BYOL编码器。

在表2中,我们报告了两个现实世界任务的联合训练和无联合训练成功率:擦酒和推椅子。总体而言,扩散政策在推椅上的表现与act相似,两者在联合培训中都获得了100%的成绩。对于wipe wine,我们观察到扩散效果较差,成功率为65%。当接近厨房岛并抓住酒杯时,扩散政策不太精确。我们假设,鉴于其表现力,50次演示不足以进行扩散:之前使用扩散策略的作品往往需要250次以上的演示。对于vinn+chunking,policy的整体表现不如act或diffusion,但仍然达到了合理的成功率,在push chair上为60%,在wipe wine上为15%。主要的故障模式是对lift glass和wipe的不精确抓握,以及在块之间切换时的剧烈运动。我们发现,在检索时增加本体感觉的权重可以提高平滑度,但代价是减少对视觉输入的关注。我们发现,联合培训可以提高扩散政策的绩效,擦拭酒和推椅分别提高30%和20%。这是意料之中的,因为联合训练有助于解决过拟合问题。与act和扩散政策不同,我们观察到vinn的结果喜忧参半,其中联合培训使wipe wine下降了5%,而push chair提高了20%。只有vinn的表示是共训练的,而vinn的动作预测机制没有办法利用域外静态aloha数据,这或许可以解释这些混合结果。

7. Ablation Studies

数据效率。在图4中,我们在wipe wine任务上使用act,消除了联合训练和非联合训练的移动操作演示次数。我们考虑了25、35和50个移动aloha演示,并分别对20个试验进行了评估。我们观察到,与仅使用移动aloha数据的训练相比,联合训练可以提高数据效率并持续改进。通过联合训练,用35个领域内演示训练的policy可以比用50个领域内示范训练的无联合训练policy高出20%(70%对50%)。

联合训练对不同的数据混合具有鲁棒性。到目前为止,我们在共训练实验中以相等的概率从静态ALOHA数据集和移动ALOHA任务数据集中进行采样,形成一个训练小批量,共训练数据采样率约为50%。在表3中,我们研究了不同的采样策略如何影响Wipe Wine任务的性能。我们以30%和70%的联合训练数据采样率以及50%的采样率训练ACT,然后分别评估20个试验。我们看到了类似的表现,分别为95%、95%和90%的成功率。该实验表明,协同训练性能对不同的数据混合不敏感,从而减少了在新任务中结合协同训练时所需的手动调整。

联合训练优于预训练。在表4中,我们比较了静态ALOHA数据的联合训练和预训练。对于预训练,我们首先在静态ALOHA数据上训练ACT 10K步,然后用域内任务数据继续训练。我们对Wipe Wine任务进行了实验,并观察到预训练与仅在Wipe Wine数据上训练相比没有任何改善。我们假设网络在微调阶段忘记了对静态ALOHA数据的体验。

8. User Studies

我们进行了一项用户研究,以评估移动ALOHA遥操作的有效性。具体来说,我们衡量参与者学习远程操作看不见的任务的速度。我们在计算机科学研究生中招募了8名参与者,其中5名女性和3名男性,年龄在21-26岁之间。四名参与者之前没有遥操作经验,其余四名参与者的专业知识水平各不相同。他们之前都并没有使用过移动ALOHA。我们首先允许每个参与者与场景中的对象自由交互3分钟。在这个过程中,我们拿出了所有将用于看不见的任务的物体。接下来,我们给每个参与者两个任务:擦酒和使用橱柜。专家操作员将首先演示任务,然后由参与者进行5次连续试验。我们记录每个试验的完成时间,并将其绘制在图5中。我们注意到完成时间急剧下降:平均而言,执行任务所需的时间从46秒下降到28秒(下降39%),从75秒下降到36秒(下降52%)。平均参与者还可以在5次试验后接近专家演示的速度,展示移动ALOHA遥操作的易用性和学习性。

A.2. Example Image Observations

图7展示了在数据收集过程中捕获的Wipe Wine的示例图像。这些图像从上到下按时间顺序排列,来自从左到右列的三个不同的相机角度:顶部以自我为中心的相机、左手腕相机和右手腕相机。顶部摄像头相对于机器人框架是静止的。相比之下,手腕上的摄像头连接在手臂上,可以提供抓取器动作的特写视图。所有相机都设置了固定焦距,并具有自动曝光功能,以适应不同的光线条件。这些相机的分辨率为480×640,帧率为每秒30帧。

图8显示了回放300步(6s)演示结束时末端执行器误差的分布。演示包含一个半径约为1米的180度转弯。在轨迹结束时,右臂会伸出桌子上的一张纸,轻轻地敲击它。然后在纸上标记敲击位置。红叉表示原始轻击位置,红点是同一轨迹的20次回放。在重放基本速度剖面时,我们观察到明显的误差,这是由于地面接触和低级控制器的随机性造成的。具体来说,所有回放点都偏向左侧约10cm,并沿约20cm的线分布。我们发现我们的policy能够在没有slam等显式定位的情况下纠正这些错误。


http://www.ppmy.cn/news/1516245.html

相关文章

【算法进阶2-动态规划】最长公共子序列、欧几里得算法-分数、RSA算法-密码于加密

1 最长公共子序列 2 欧几里得算法 2.1 欧几里得算法-分数 3 RSA算法-密码于加密 1 最长公共子序列 -个序列的子序列是在该序列中删去若干元素后得 到的序列。 例:“ABCD”和“BDF”都是“ABCDEFG”的子序列最长公共子序列(LCS)问题:给定两个序列X和Y,求X和Y长度最大…

关于AR在医疗领域创新应用

AR技术在医疗领域创新应用,旨在展示AR技术如何为医疗行业带来革命性的变化,我们可以从以下几个方面入手: 一、引言 随着科技的飞速发展,增强现实(AR)技术正逐步渗透到医疗领域的各个环节,为患…

如何评估Redis的性能

如果系统中出现了大 key、热 key 等,往往会导致 Redis 变慢,但是这个慢该如何界定?多久算慢?1秒还是3秒? 这个肯定是没有标准答案,因为这个和你的硬件设备有关。 硬件差一些,平时响应时间都是…

ClickHouse与Elasticsearch:大数据时代的两大引擎比较

目录 1. 基本介绍 ClickHouse Elasticsearch 2. 优劣势分析 ClickHouse的优势 ClickHouse的劣势 Elasticsearch的优势 Elasticsearch的劣势 3. 应用案例 4. 总结与选择建议 随着大数据技术的不断发展,企业对数据分析和实时搜索的需求也日益增长。ClickH…

Qt简介----信号与槽与信号(Signals)

以下是为上述博客生成的目录: 目录 什么是Qt?为什么选择Qt? 2.1 跨平台支持2.2 丰富的模块2.3 强大的社区支持2.4 信号与槽机制 深入理解Qt的信号与槽机制 3.1 信号与槽简介3.2 为什么使用信号与槽?3.3 使用信号与槽的基本步骤 …

CSS新增的单位ch

在CSS中,ch 是一个相对单位,它代表数字0(零)的宽度,在当前的字体和字体大小下的度量。这个单位特别适用于需要基于字符宽度进行布局的场景,比如保持文本的垂直对齐或者在元素内部确保一定的空间以容纳文本字…

【UE5】库存系统——01

目录 步骤 一、项目准备 二、制作数据表 三、与场景物体交互 五、制作可交互的物品 步骤 一、项目准备 1. 新建一个项目,使用第一人称游戏模板,勾选初学者内容包 2. 新建一个蓝图类,父类选择“Actor组件” 这里命名为“Component_Inve…

暴雨受邀参加深圳市计算机行业协会会员大会暨资源对接会

8月23日,由深圳市计算机行业协会举办的会员大会暨资源对接会在深圳圆满落幕。活动旨在促进会员企业的资源对接,促进企业间高效合作,共同迎接计算机行业的发展机遇与挑战。来自计算机行业的众多领军企业、专家学者及行业精英齐聚一堂&#xff…

【C++】13.特殊类的设计

一、请设计一个类,不能被拷贝 拷贝只会放生在两个场景中:拷贝构造函数以及赋值运算符重载,因此想要让一个类禁止拷贝,只需让该类不能调用拷贝构造函数以及赋值运算符重载即可 C98 将拷贝构造函数与赋值运算符重载只声明不定义&a…

React 使用ref属性调用子组件方法(也可以适用于父子传参)

注意:①需使用hooks函数组件 ②使用了antDesign组件库(可不用) 如何使用 父组件代码 import React, { useState, useRef, useEffect } from react; import { Button } from antd; import Child from ./components/child;export defau…

vue3上传excel并在线预览

目录 前言 安装 xlsx 依赖 XLSX.utils.sheet_to_html XLSX.utils.sheet_to_json 前言 关于实现excel文档在线预览的做法,一种方式是通过讲文档里的数据处理成html,一种是将文档处理成图片进行预览,这里使用的是第一种。 安装 xlsx 依赖 …

【C语言篇】

C语言是一种广泛使用的计算机编程语言,它以其高效、灵活和功能强大而著称。以下是一些C语言中的常见知识点: 基本语法: 变量声明与初始化 数据类型(整型、浮点型、字符型等) 控制语句(if、for、while、do…

高可用 Go 服务开发

高可用的含义是尽量减少服务的不可用(日常维护或者突发系统故障)时长,提升服务的可用时长。如何衡量一个服务的可用性呢?或许你也听说过,通常企业可能会要求服务的可用性能能够达到三个 9(也就是 99.9%)或者 4个 9 &am…

Axios介绍;前后端分离开发的介绍;YAPI的使用;Vue项目简介、入门;Elementui的使用;nginx介绍

1 Ajax 1.1 Ajax介绍 1.1.1 Ajax概述 我们前端页面中的数据,如下图所示的表格中的学生信息,应该来自于后台,那么我们的后台和前端是互不影响的2个程序,那么我们前端应该如何从后台获取数据呢?因为是2个程序&#xf…

机器学习在旅游业的革新之旅

机器学习在旅游业的革新之旅 随着科技的飞速发展,尤其是人工智能(AI)技术的广泛应用,各个行业都迎来了前所未有的变革。其中,旅游业作为全球经济的重要支柱之一,更是受益匪浅。机器学习(Machin…

AWS SAM CLI 备忘单!

安装 AWS SAM CLI brew tap aws/tap brew 安装 aws-sam-cli 验证安装 $ sam --version 升级 SAM $ brew upgrade aws-sam-cli 您需要 AWS 凭证才能在 AWS 上工作。 构建并部署简单应用程序 $ sam init→ 下载示例应用程序 $ sam build→ 构建您的应用程序 $ sam deploy --guid…

绿色积分引领:我店平台的可持续消费革命

在当今数字化浪潮的推动下,“我店”凭借其创新的环保积分系统,在消费市场中脱颖而出,逐渐改变着市场的结构。本文将详细分析该平台的竞争优势、市场策略以及它如何利用创新手段塑造未来的消费趋势。 一、环保积分:消费体验革新的关…

永磁同步电机高性能控制算法(13)后续篇—— 基于高阶扩张状态观测器(ESO)的无模型预测控制(MFPC)

1.前言 前文已经介绍过了高阶ESO相对于传统ESO的优势。 https://zhuanlan.zhihu.com/p/703039702https://zhuanlan.zhihu.com/p/703039702 但是当时搭的ESO有点问题。把公式修正之后,发现前文用的改进四阶ESO无法使用。 今天来解释一下为什么改进4阶ESO无法使用…

SQL, 有终止条件的多次累计计算

MSSQL数据库的data表存储了多人上电梯的情况,turn表示进电梯的顺序。电梯最大承重1000公斤,每趟能上的人数有限,超重的人要等下一趟。nameweightturnAlice2501Bob1702Alex3503John4004Winston5005Marie2006 请计算每趟电梯最后一个进入的人的…

笔记整理—uboot启动过程(5)BL2板级初始化

上一章说到了uboot在BL2阶段大概都要干什么,也说到了为了实现这些要先进行内存排布,实现了这些后便可实现BL2部分的板级初始化。首先先来看一下init_fnc_ptr函数指针。 for(init_fnc_ptrinit_sequence;*init_fnc_ptr;init_fnc_ptr){if((*init_fnc_ptr)(…