论文笔记（五十八）Trends and challenges in robot manipulation

Trends and challenges in robot manipulation

文章概括
背景
进展
展望
摘要
机器人今天能做什么？
机器人今天不能做什么？
为什么设计机器人手很困难？
超越拟人化设计
下一代机器人手的期望目标
操控中的感知
抓取：迈向操控的垫脚石
从抓取到操控
仍然困难的操控任务
操控中的学习
与人类交互与协作操控物体：现实与挑战
展望
致谢

文章概括

引用：

@article{billard2019trends,title={Trends and challenges in robot manipulation},author={Billard, Aude and Kragic, Danica},journal={Science},volume={364},number={6446},pages={eaat8414},year={2019},publisher={American Association for the Advancement of Science}
}

Billard, A. and Kragic, D., 2019. Trends and challenges in robot manipulation. Science, 364(6446), p.eaat8414.

原文：https://arxiv.org/abs/2410.05364
代码、数据和视频：https

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

背景

人类具有非凡的能力，可以操控各种形状、大小和材质的物体，并利用手的高度灵活性在有限的空间内精确控制物体的位置。受人类双手启发，开发能够自主拾取和操控物体的机器一直是机器人学的重要组成部分。最早的机器人操纵器可以追溯到20世纪60年代，是最早建造的机器人设备之一。在这些早期阶段，机器人操控由一系列预先设定的动作序列组成，机器人无法适应动态变化的环境。

随着时间的推移，机器人逐渐具备了自动生成动作序列的能力，这得益于人工智能和自动推理的应用。例如，机器人可以根据物体的大小、重量等特性堆叠箱子，这超越了几何推理的范畴。这项任务还要求机器人在运行时处理传感中的误差和不确定性，因为即便是堆叠箱子的位置和方向的微小偏差，也可能导致整个结构坍塌。

控制理论的方法在这一过程中也起到了关键作用，使机器人能够适应环境中的自然不确定性，通过接触时调整施加的力来实现这一目标。这种稳定地在接触时调整力的能力，拓展了机器人操控的任务范围，使其能够完成更复杂的任务，例如插销入孔或锤击。然而，这些动作并未真正体现出精细操控或手内操控能力，通常是使用简单的两指夹持器完成的。

为了实现多功能的精细操控，机器人学家将重点放在设计能够使用工具的人形手上。使用工具本身成为一个单独的问题，为了实现物体的稳定持握并提供最优性保证，开发了各种先进的算法。由于在随机环境中实现最优性非常困难，从20世纪90年代起，研究人员开始致力于在各个层面提高物体操控的鲁棒性。这些努力促使了改进手-物体接触控制的传感器和硬件设计。

随后的一些研究集中在通过鲁棒感知应对物体遮挡和测量噪声，以及通过自适应控制方法推断物体的物理特性，从而操控那些性质未知或因操控而改变属性的物体。这些进展使机器人能够更加有效地处理复杂的操控任务。

进展

机器人学家仍在努力开发能够在非结构化和动态环境中完成分类、包装物体、切菜以及折叠衣物等任务的机器人。目前用于现代制造的机器人已经在结构化环境中完成了其中一些任务，但这些场景仍然需要在机器人和人类操作员之间设置屏障以确保安全。理想情况下，机器人应该能够与人类并肩工作，在不构成任何危险的情况下提供力量来搬运重物。

在过去十年中，机器人的灵巧性达到了新的高度。这种提升得益于机械学领域的突破，包括用于感知机器人身体触觉的传感器，以及提供自然柔顺性的柔性驱动新技术。尤其值得注意的是，这些发展利用了机器学习领域的巨大进步，以包含不确定性模型并支持适应性和鲁棒控制的进一步发展。

在真实环境中学习操控的成本很高，无论是在时间还是硬件方面。为了进一步发展基于数据的方法，同时避免在实际物理系统上生成示例，许多研究人员使用模拟环境。然而，抓取和灵巧操控需要的真实感水平是现有模拟器尚未能提供的，例如在对软体和可变形物体的接触建模中。因此，目前主要有两条发展道路：

第一条道路从人类获得交互技能的方式中获得灵感，促使机器人通过观察人类执行复杂操控来学习技能。这种方法使机器人能够在仅仅几次尝试中获得操控能力。然而，将所学知识推广到不同于之前演示的操作仍然是一个困难的问题。
第二条道路是构建真实物体操控的数据库，目的是更好地为模拟器提供信息，并生成尽可能真实的示例。然而，逼真的摩擦建模、材料变形以及其他物理特性的模拟可能在短期内无法实现，因此，为了学习操控高度可变形的物体，实际的实验评估仍然是不可避免的。

展望

尽管经过多年的软件和硬件开发，在机器人中实现灵巧操控能力仍然是一个未解决的问题——尽管它是一个有趣的问题，因为这需要对人类抓取和操控技术有更深入的理解。我们建造机器人是为了自动化任务，同时也为人类提供工具，使其能够轻松完成重复性和危险性任务，并避免伤害。因此，实现人与机器人之间稳健且灵活的协作是下一项重大挑战。目前将人类与机器人分隔开的屏障将逐渐消失，机器人将开始与人类共同操控物体。

为了实现这一目标，机器人必须成为平稳且值得信赖的合作伙伴，能够解读人类的意图并作出相应的反应。此外，机器人必须更深入地理解人类的交互方式，并获得实时适应能力。同时，还需要开发“设计即安全”的机器人，重点是使用柔软且轻量化的结构，并基于多传感器反馈开发控制和规划方法。

在这里插入图片描述用一只手握住两个物体需要高度的灵巧性：人类可以同时抓住多个物体（上图），而机器人（下图）尚未达到这样的灵巧性。在这个例子中，物体是由人类放置到机器人的手中。

摘要

灵巧操控是机器人学的主要目标之一。具备这种能力的机器人可以对物体进行分类和包装、切菜以及折叠衣物。随着机器人逐渐与人类并肩工作，它们还必须具备对人类的感知能力。在过去的十年中，研究在实现这些目标方面取得了重大进展。这些进展来自于视觉感知和触觉感知的提升，以及在柔性驱动器（提供自然柔顺性形式）的机械学方面的突破。尤其值得注意的是，机器学习领域的巨大进步被用来封装不确定性模型，并支持适应性和鲁棒控制的改进。然而，如何使机器人能够应对最不可预测的主体——人类，这一问题仍然悬而未决。

你是否曾忙着在包里翻找钥匙？如果有，你可能记得，只用了几秒钟就从包里各种各样的物品中找到了钥匙。可以肯定的是，你并没有深思自己如何做到这一点，可能还以一种独特的灵巧方式快速操作，用手内操控取出正确的钥匙并将其插入锁中，即使走廊的灯已经熄灭。整天，我们的手指在抓取、移动和改变物体，与空气、水和油等不同介质中的物体交互。我们不会特意思考手指和手在做什么，也不会特别注意视觉、触觉、本体感受和听觉等各种感官模式的连续整合如何让我们在交互任务的广度上超越其他任何生物系统。

这种能力通常被忽视，而最令人着迷的是我们执行这些交互的轻松程度，这导致了一种误解，即这些交互在诸如机器人等人工系统中也同样容易实现。

操控物体是一项如此普遍的活动，以至于我们忘记了儿童期学会这项能力的艰难过程。婴儿出生时只有简单的抓握反射。需要三年的时间才能发展出对每根手指的单独控制，又需要六年的时间才能展示出类似成人的能力，例如实现平滑接触和规划操控技能序列（参考文献1）。即使对于人类而言，有些灵巧活动仍然具有挑战性。例如，系鞋带可能有多种方法，有几种有效的模型可以执行这一活动。此外，我们可以直观地演示如何完成一项任务以及期望的结果，但很难轻易传达完成任务所需的施力大小、扭矩大小或满足稳定性条件所需的摩擦系数。然而，即使最终结果并非总是最优，我们仍然能够通过训练和探索找到实现操控目标的方法。我们还可以根据情况的变化进行适应（例如，当鞋带过长或过短时系鞋带），这迫使我们偏离正常的操作方法。因此，交互发生的上下文会影响执行的各种参数。

尽管机器人学在机械设计、感知和针对抓取和操控物体的鲁棒控制方面取得了巨大进步，但机器人操控仍远远无法与人类的灵巧性相媲美。到目前为止，没有任何机器人能够轻松地手洗碗盘、扣纽扣或削土豆皮。

机器人今天能做什么？

机器人擅长在重复且熟悉的环境中抓取和操控物体，例如工业装配场景。在这些环境中，物体的几何形状、材料属性和重量通常是已知的。机器人能够在日常操作中适应物体属性的小幅变化，但整个过程通常针对一组有限的预期变化进行优化。

在早期的工厂环境中，机器人手臂沿着预定的轨迹移动，并假设物体总是出现在固定的位置。如今，机器人可以调整轨迹以从不同位置取回物体，使得人类可以将物体放置到机器人可以操作的区域，或者简单地将物体掉落到传送带上，而不需要其他机器精确地将物体放置到指定位置。这使得传统的装配线更加灵活。传统汽车工业中将机器人固定在地板上并依次排列的经典装配线，现在可以变得更加灵活。传送带上的物体如果完全可见，可以通过摄像头相对容易地检测到并被机器人拾取。然而，检测透明物体或部分被遮挡的物体（例如堆叠在一起的物体）仍然是一个难题。

由于需要频繁更换生产的商品种类，机器人行业正在努力开发多用途的物体抓取和处理解决方案。朝着这一目标迈出的一个步骤是为机器人提供多种大小和强度不同的抓取器选择，并赋予机器人工具更换机制，使其能够选择合适的工具。为了确定任务需要使用哪种工具，机器人必须具备对物体属性的了解，例如形状、重量、材料等。在工厂中，这些信息通常是现成的，因为所有物体都是已知的。然而，这一要求对机器人在其他环境中的应用构成了限制，因为在这些场景中，需要操控的物体可能事先并不为人所知。

机器人今天不能做什么？

尽管机器人擅长处理刚性物体，但它们在应对柔性材料（例如水果、蔬菜或衣物）时仍然困难重重，这些物体在尺寸、重量和表面属性上存在差异。会产生变形的操作（例如插入、切割或弯曲）尤其困难，因为这些任务需要准确的变形模型。工业夹持器通常使用气动真空泵通过吸附来抓取物体。这种技术在抓取物体方面非常有效，但在物体操控（例如重新定位物体或将其放入狭小空间）方面却不够实用。

为了解决这一挑战，提升机器人的灵巧性是其中一个方向。然而，制造出像人类双手一样灵巧的机器人手非常困难，因为缺乏在尺寸、精度和效率上能与人类皮肤和肌肉相媲美的传感器和驱动器。

提高机器人的灵巧性并不仅限于设计更强大的机械手，还需要高级的软件程序来实时分析大量的视觉、触觉和力学信息流，并将这些不同的感官数据关联起来，以识别物体并建立它们的变换模型。此外，机器人还需要具备高级的认知能力，以预测如何、在哪里以及为什么操控物体。

本综述的其余部分将描述克服这些挑战为何困难，以及机器人领域目前所处的发展阶段。

为什么设计机器人手很困难？

尽管机器人手的研究已经持续了五十多年（参考文献2–4），但迄今为止，在许多应用中最常见的手仍然是平行夹爪，通常没有额外的传感能力。用没有传感功能的夹爪抓取物体，就像在拇指和食指麻木时用指尖抓握一样！这种工具对于简单的抓取和放置任务可能足够，但对于更复杂的动作（例如整理钥匙）则无法胜任。由于人类的手能够轻松完成复杂的动作，它自然成为机器人设计的灵感来源。然而，设计具有类似于人类手部传感器和驱动器的机器人手却面临许多困难。

在构建拟人化机器人手时，要将所有必要的驱动器、传感器和机械结构装入有限的空间中是一项挑战。另一个难题是需要保持手的总重量较轻，以满足其所连接机械臂的有效载荷要求。因此，与人类手相比，大多数拟人化机器人手和假肢的可控自由度远不及人类手（参考文献5, 6）。

人类的手柔软且灵活，特别是拇指，其独特的活动范围机械上难以复制（参考文献7），因为复杂的肌腱和肌肉组合与传统的串联机器人关节设计有显著不同（参考文献8）。如今，机器人手仍然主要由刚性塑料和金属部件组成，电动机作为驱动器。这种刚性部分导致了灵巧性的不足，因为在执行抓握时没有任何容错空间。刚性手指在闭合时，如果物体的姿态估计不够准确，可能会移动物体而不是抓握物体，而施加过大的力可能会压碎物体。

机器人领域的一个新趋势是开发柔性手，其能够适应物体的形状，在接触时吸收意外的力，并在操控过程中补偿负载变化（参考文献9, 10）。柔性可以通过改变硬件、软件或两者结合来实现（图1）。通过构建手部所用的材料实现柔性，可以借助3D制造和材料科学的解决方案。例如，可以以分层的方式制造刚性和柔性材料，从而创建可根据需要展开和收回的可折叠手指（参考文献11）。目前，这些弹性材料的低有效载荷和慢速限制了它们只能操控轻质物体。为了产生更大的力量，气动或液压驱动可能是一种替代方案（参考文献12, 13）。

在这里插入图片描述图1 柔性手：传统的机器人手由硬质材料制成，手指的控制也是刚性的。近期的设计旨在通过使用柔性驱动器、柔性材料和先进的控制器，模仿人类手的自然柔顺性。 (A) 刚性材料和驱动器，以及(B) 部分柔性电缆驱动的刚性外壳：这两种手通过软件干预变得柔性化，通过触觉反馈调节指尖的压力。[重制自参考文献17, 33] © 一个柔性、可折叠的抓取器，可以适应形状和刚度的变化。[重制自参考文献11] (D) 一种用于康复手套的柔性驱动和材料设计，该手套可供人类穿戴。[重制自参考文献12]

人类的手覆盖着一种多功能的皮肤，它能够提供适当的摩擦力和阻尼效果。人类的皮肤是一种高频率、高分辨率的传感器，能够精确提供垂直力和切向力的信息，这些信息对于调整抓握力至关重要。人类的皮肤还能测量拉伸和温度。相比之下，机器人手通常通过仅安装在指尖的小型力传感器来测量施加的力（参考文献14）。力传感器能够提供非常精确的三维测量，但无法轻易识别接触的具体位置。

要移动手中持有的物体，或同时握持多个物体（见图1），需要精确测量接触点的位置，不仅限于指尖，还包括沿手指的长度、侧面以及手掌内部的接触点。这可以通过提供沿肢体全长接触测量的人工皮肤实现。对人工皮肤的兴趣可以追溯到20世纪80年代（参考文献15, 16），但过去十年取得了重大进展。

目前，有多种经济实惠的商业产品，其中一些可以根据机器人的形状定制。触觉传感器能够测量接触力的法向分量；少数传感器还能够提供切向力、扭矩、温度、振动或表面属性的数据。然而，大多数触觉传感器是刚性的，其安装位置仅限于指尖和肢体段的特定位置。关节（如指关节、肘部、膝盖）的触觉检测对于检测夹持状态至关重要，同时在物体内部引导探索时也非常有用（参考文献17）。这种接触只有通过能够沿肢体屈伸点弯曲和延展的柔性传感器（见图2，右）才能检测到（参考文献18）。因此，柔性和可拉伸皮肤成为机器人学家极为关注的研究方向（参考文献19）。实验室中已有相关原型机存在，鉴于目前对柔性电子学的高度关注，我们可以预见这些技术将在不久的将来被应用（参考文献20）。

在这里插入图片描述图2 机器人的触觉感知（左）视觉可以用来推断接触力（红色）。[重制自参考文献21] （右）可拉伸的人工皮肤可以测量指关节的接触，这可能有助于探索物体的内部结构。[重制自参考文献18]

作为使用皮肤的替代方案，可以通过视觉推断触觉（接触和力）信息。例如，可以通过接触的动态模型（参考文献21）（图2左）从视觉推断力，或者使用一个光学传感器以高空间分辨率呈现物体几何形状的变形（参考文献22）。是否需要估计物体的精确位置、局部几何形状以及诸如重量和重量分布等属性，很大程度上取决于具体应用。这取决于手的设计、材料以及内部和外部传感之间的相互作用，从而提供适当的冗余。

另一个挑战是需要以非常高的频率测量接触，以便准确及时地检测滑动（参考文献23）。这种高空间和时间分辨率，加上实时处理用于目标跟踪的视觉数据，会导致计算过载，需要对大规模数据流进行实时解释。这种处理通常由远离手部的中央处理单元（CPU）执行。或者，也可以通过专用的 CPU 在手部本地执行处理（参考文献24），但目前这些 CPU 仅集中于处理视觉数据。还需要进一步研究来开发能够结合视觉处理触觉信息的硬件。

因此，可以通过利用材料科学的研究设计柔性驱动器，从而实现手整个表面的接触感知，并通过电子学的进步实现多传感器数据的机载实时处理，从而实现灵巧的机器人手。

超越拟人化设计

尽管人类的手令人着迷，但它未必是机器人设计的最终解决方案。人类手的设计可能因为美学原因而被认为是理想的，例如在设计手部假肢或人形机器人时。然而，对于许多机器人而言，这种设计可能是多余的。工业用手仍然是执行特定任务的良好解决方案。相比于复制人类手指的定位，这些工业手通常将两到三根手指对称排列在手掌周围，这种设计尤其适合工业螺旋操作。

机器人设计在拟人化设计和传统工业设计之间不断摇摆。然而，更简单的动物的抓握系统也可以提供灵感。例如，鱼通过吸入捕获猎物。在机器人的指尖添加吸力功能在水下非常有用，因为这种技术能够抵消手产生的水流（参考文献25）。

为什么不设计既借鉴自然又超越自然的手呢？例如，人类的拇指非常出色，但它的存在造成了一种不对称性，从而限制了手在操控中的方向。若在同一只手上拥有两个拇指，则可以实现超越人类能力的灵巧性（图3）。

在这里插入图片描述图3 超越人类灵巧性的手部设计：两个拇指可以使得用一只手而非两只手执行旋紧和旋松的动作。这种能力可能对机器人以及通过假肢帮助人类都非常有用。[插图：Laura Cohen]

下一代机器人手的期望目标

我们周围的物体是为我们的手设计和适应的，而与当代机器人手相比，人类的手仍然相对较小且非常坚固。使机器人能够抓取诸如笔、葡萄干、螺丝和针等小物体是一个明确的功能目标。如今，机器人的手臂和手通常是分别开发的，将它们集成本身就是一项工程难题。工业机械臂具有较大的负载能力，但通常设计为固定在地板上，且尺寸过大，不适合工业环境以外的应用。用于精细装配任务的人形机器人或其他机器人的手臂负载能力较低，通常不足以承载手部及其抓持的物体。

为手臂和手添加传感功能需要布线，而布线很快会变得复杂。此外，许多手部没有或仅具备有限的接触和力测量能力。因此，需要改变当前的设计范式，摒弃开发没有手的手臂和没有手臂的手的模式。我们必须进一步确保手的开发具有“即插即用”的特性，并能够通过现有的工具切换系统轻松安装和拆卸。最先进的力传感器和触觉传感器必须成为手臂-手系统的固有部分。

机器人灵巧性既是硬件进步的副产品，也是软件进步的副产品。它需要合适的算法来快速、高效地处理通过传感器和驱动器收集的大量信息。同时，还需要算法能够根据物体、场景和任务的属性，适当控制手部的运动。接下来，我们将回顾操控任务中感知、控制和学习方面的进展。

操控中的感知

与人类类似，机器人的操控感知是多模态的（图4）。视觉在识别和定位物体方面起着至关重要的作用。当与现有物体数据库关联时，机器人视觉可以帮助推断已知甚至未知物体的几何和物理属性（参考文献26），这些信息对于调整手部开口大小以及施加的力量非常重要。本体感知（即机器人肢体位置的感知）则用于引导手臂和手接近目标物体，同时借助视觉支持对物体进行连续跟踪。

一旦发生接触并由手抓持或探索物体后，触觉和力的测量变得尤为重要。相关的控制算法用于引导抓握和/或推断物体的物理特性，例如刚性和质量分布，这些特性可能在此前被错误估计或未知。最近，声音也受到关注，作为推断不可见物体内容的一种手段，同时用于在操控过程中监测内容的变化（参考文献27）。

在这里插入图片描述图4 操控是多模态的：在接触之前使用视觉，而在接触后则使用触觉和声音来估计物体无法直接观察的物理特性。[图片来源：洛桑联邦理工学院（EPFL）学习算法与系统实验室]

例如，一个机器人被指派从冰箱中取出一包牛奶。在机器人抓握包装之前，它可能并不知道包装中装了多少牛奶，也不知道包装的实际重量。由于包装可能由纸板制成，机器人需要知道重量以施加适当的抓握力，避免损坏包装。在牛奶的例子中，声音还可以通过摇晃包装提供关于粘度的信息，因为牛奶的声音会与其他物质（例如酸奶）不同。

在过去的几年中，人们对分析视觉信息进行了大量研究，并取得了显著进展。然而，机器人在识别部分被遮挡的物体时仍然面临困难（参考文献28），尤其是在使用移动摄像头观察时，或者当物体在机器人手中移动时（参考文献29）。相比于开发视觉算法，分析触觉信息的研究投入要少得多，因为目前仍缺乏覆盖整个手部的触觉传感器的解决方案。

如今，视觉和触觉信息仍主要以顺序方式使用（例如，在准备阶段提供视觉信息，在接触时提供触觉数据（参考文献30）），而仅有少数最新研究将两种模态集成用于识别、抓取、手内适应和形状重建（参考文献31–35）。相比之下，人类能够熟练地在不同感官之间快速切换，从视觉到触觉再返回，即使这些感官的处理频率不同也可以快速完成。相较而言，机器人仍然缺乏决定使用何种传感器、何时使用以及何时在传感器之间切换的能力。

抓取：迈向操控的垫脚石

在机器人能够操控手中的物体之前，它必须能够用手指抓住物体。如果将抓取仅仅概念化为让手指围绕物体而不考虑其他约束条件，那么抓取的挑战似乎已经解决。然而，抓取物体实际上是一个更加棘手的问题。数十年来，研究人员一直致力于建立如何形成稳定抓取的理论。这成为一个复杂的数学问题，旨在确定物体表面上手指接触点的最小数量和最佳位置以确保稳定性（参考文献36）。

尽管这些理论工作非常有价值，但大多数研究依赖于一些假设，例如已知的物体三维模型、刚性点接触以及过程中的无不确定性。为了融入由不完美的物体模型和交互过程动态引起的不确定性，我们必须超越单点接触的建模，并在基础理论上取得重大进展。

因此，许多较新的方法是数据驱动的（参考文献37）。为了避免每次机器人遇到物体时都需要计算一个最佳抓取，可以构建一个抓取数据库，并采用实时采样和排序候选抓取的方法。这种方法处理了感知中的不确定性，并能快速在线生成已知、熟悉甚至未知物体的抓取。物体属性的先验知识决定了生成和排序抓取候选所需的感知处理和相关的物体表示。尽管这种方法对已知和熟悉的物体效果很好，但对未知物体则需要额外的启发式方法来发现几何结构（例如，机器人可以对把手生成抓取候选）。这一挑战与计算机视觉中的实例识别和分类经典问题密切相关，但抓取并非一个孤立过程的概念增加了一个新的维度。

除了依赖于物体，抓取也依赖于机器人本身。此外，随着手的自由度增加，其控制复杂性也随之提高，这对于拟人化手尤为明显。一种简化控制的研究方向借鉴了生物学的启发，倡导使用姿态协同（参考文献38）。协同形成了一个有效人类运动子空间的基础，该子空间与身体运动学可能产生的运动相关联。这些已被用作机器人手分析、控制和设计选择的工具（参考文献39–42）。一些研究还展示了如何利用欠驱动手在非结构化环境中抓取和操控物体，以及这项工作如何导致与完全驱动的手相比更具适应性、更便宜、更轻便且易于控制的手（参考文献43–48）。

最近的一些工作优化了手的设计以提升操控能力（参考文献49, 50），并为这种设计提供了开源软件。另一些研究表明，柔顺手能够在环境中变形并与环境相适应，这种能力可能会减少操控的认知负担（参考文献51）。此外，这一理念可以通过形态计算（参考文献52）进行系统研究，其中柔顺交互使行为能够适应特定的上下文，而无需明确控制。

从抓取到操控

抓取并不是最终目的，它还与人类或机器人执行的任务相关。例如，根据目标是喝水、将杯子装满液体、放入洗碗机还是递给他人，抓取杯子的方式会有所不同（参考文献53）（图5）。同样，虽然在搅拌汤时刀、叉或勺子可能以相同的方式被抓握，但这种抓握方式与用这些餐具进食或切割时采用的抓握方式不同。为了确定抓取物体的最佳方式，必须理解抓取的目的。因此，当机器人学家试图解决如何抓取物体的问题时，他们首先需要明确执行抓取的原因。如今，研究人员将抓取视为物体操控总体计划的一部分。

在这里插入图片描述图5 抓取功能性：（上）人类根据目标是握住物体、打开盖子还是递给他人，会以不同的方式抓取物体。（下）机器人也可以被编程以不同方式抓取同一个玻璃杯，具体取决于任务是将其递给人类还是倒出其内容物。[图片来源：洛桑联邦理工学院（EPFL）学习算法与系统实验室]

为了选择正确的工具并使用正确的抓取方式，首先需要拥有合适的工具。当需要一把锤子但附近没有锤子时，人类会选择第一个足够坚固的物体来充当锤子。未来，开发能够在没有最合适工具时以类似方式推理的机器人将是促进机器人在自然环境中部署的关键。此外，具备这种能力的机器人将能够使用原本为人类灵巧性设计的工具来执行家务任务，而无需对家庭环境进行不必要的改造。

如何为机器人编程实现这种“常识性”工具使用，因而成为一个重要的研究方向，目前已有一些初步的研究工作开展（参考文献54–57）。

仍然困难的操控任务

前几节详细阐述了在机器人能够以人类智能水平执行抓取之前需要解决的诸多问题。尽管如此，机器人在抓取和释放某些类型的物体方面已经相当高效。它们还能够执行各种简单的操控动作，例如投掷（参考文献58）、滑动（参考文献59）、戳动（参考文献60）、旋转（参考文献61）和推拉（参考文献62）。当这些动作必须在杂乱的环境中执行或需要进行复杂的接触互动时，就会面临困难（例如，当目标物体靠近或被其他物体覆盖，或者位于诸如架子这样的狭小空间中）。在这种情况下，必须规划一条可行的路径，并生成一系列中间动作，以确保不会对手或其他物体造成损坏。

如今，人们还认识到感知与控制是紧密耦合的，交互感知（参考文献63）这一领域将操控视为感知的一种手段，同时将感知视为实现更好操控的一种手段。

那些对物体产生改变的操控动作（如切割、压碎）仍然特别困难，因为它们需要变形模型以及先进的感知能力来监测这些变化（参考文献64）。为了适应这些动作引发的变化，还需要手部施加的力能够相应调整（例如，拧开瓶盖时需要减少摩擦，或切开蜜瓜时需要增加粘度）（图6）（参考文献65）。因此，建模物体的摩擦和粘度特性仍然是一个重要的开放性问题。

在这里插入图片描述图6 机器人操控面临的持续挑战：手内物体的灵巧移动（左），可变形物体（如水果和蔬菜）的操控（参考文献65）（中），以及与人类协作操控物体（右）仍然是当前的难题。[图片来源：洛桑联邦理工学院（EPFL）学习算法与系统实验室]

手内操控中，移动被抓持的物体也是特别复杂的任务。例如，在手指间转动笔或调整钥匙以插入钥匙孔。这些动作包括复杂的（重新）抓握、滑动和旋转操作，有时还涉及两只手臂和手之间的互动。在讨论机器人领域中物体的这种高级交互时，通常会提到内在灵巧性和外在灵巧性。前者指的是手通过其可用自由度操控物体的能力，具有高内在灵巧性的手通常模仿人类手的结构（参考文献66）。另一种选择是设计较为简单的手，且末端执行器专为特定任务设计（参考文献67, 68）。外在灵巧性是指利用外部支持（如摩擦力、重力和接触面）来弥补自由度不足的能力（参考文献69）。这种功能还使得简单的平行夹爪也能实现灵巧的操控。

机器人领域的一个未充分发展的领域是双臂或双手（参考文献70）操控，以及使用第二只手和/或手臂来支持内在和外在灵巧性（参考文献71）。这一领域的一些最新研究（参考文献72）提出通过集成物体表示、定义简单的运动基元以及规划的方式，以高效的方式建模问题。鉴于当今大多数人形机器人都具备双手能力，这一领域未来将逐渐涌现更多贡献。

此外，操控并不仅仅局限于控制手，还需要控制手臂、躯干，最终是整个身体（参考文献73）。当希望让完整的人形机器人在保持平衡的同时操控物体时，上述挑战的规模会进一步增加（参考文献74）（图7）。最后，涉及推理的更复杂的操控技能（例如使用一个物体去获取另一个物体的能力）仍处于初期阶段。

在这里插入图片描述图7 全身操控：人形机器人操控重物需要手臂和身体的协调，以保持平衡。[重制自参考文献74]

操控中的学习

人类的灵巧性是通过童年时期的学习获得的，并在一生中通过诸如演奏乐器或练习手工艺等活动不断精进。同样，机器人灵巧性也无法仅在实验室中实现。为了操控世界范围内存在的大量物体，机器人必须具备持续学习的能力，并能够调整感知和控制以适应未知的物体。

学习还可以解决一些问题，例如缺乏准确的物体模型和接触动力学，以及高自由度机器人控制的日益复杂性。因此，目前许多实现灵巧操控的方法依赖于学习方法，而非控制理论的方法。例如，学习可用于嵌入稳定或合适抓取的表示（参考文献75–78），然后在运行时验证抓取的稳定性，生成重新抓握动作，或抓取快速移动的物体（参考文献79）。学习特别适合嵌入抓取和操控的动态特性，以及建模复杂的非刚性物体操控。学习已被用于建模接触（参考文献80），并且在确定隐空间时（例如在双手动力学中需要的情况下）有助于降低控制维度（参考文献65）。

尽管如此，仅依赖学习来解决所有问题并不可行，也存在一定的局限性。首先，学习需要训练数据，而一种常见的方法是通过试错实验生成数据。然而，这一过程繁琐且可能损坏机器人。提供训练数据的一个新趋势是先在模拟环境中测试算法，然后在真实平台上优化学习，例如用于学习手内灵巧操控（参考文献81–83）。模拟训练依赖于任务的准确模拟器。另一种方法是让机器人从互联网上可用的图像数据和视频中学习（参考文献84），或通过现场专家（通常是人类）的演示进行学习。然而，当任务危险或需要极高精度时，找到专家并不总是可能的。因此，尽管学习非常重要，但它不能成为解决机器人领域所有问题的答案。

与人类交互与协作操控物体：现实与挑战

在制造环境中，人机协作被认为对工业至关重要（参考文献85, 86）。虽然从历史上看，人类被禁止进入机器人作业环境（ISO 10218；ANSI/RIA R15.06-1999），但现在已经接受机器人可以与人类在近距离内协作工作。然而，潜在的危险场景仍可能发生，需要加以解决。目前，通过使用相对轻便且配备内部力传感器的操控器，检测与人类的意外接触或碰撞，人机协作得以实现。对于需要操控重物的应用，可配备能够承受重量的机器人，并结合外部视觉系统监测人类的存在。然而，准确检测人类存在仍然是一个挑战。目前最好的解决方案是结合接近传感和力传感与基于外部视觉的监控。尽管如此，传统基于围栏的100%安全范式已经成为过去，工业标准现在以风险最小化和缓解为目标（ISO/TS 15066）。

除了面对一个物体会移动和改变的世界外，机器人现在还被期望能够在人类的协作下操控这些物体。交互和协作操控为机器人操控增加了一个新维度，但也带来了许多挑战（参考文献87）。例如，当机器人需要将一个物体递给人类或与人类共同搬运一个大物体时，机器人必须小心且有预见性地抓握和移动物体，使其能够推断出人类的行动方向并避免伤害人类。看似简单的机器人递物给人类的动作实际上涉及许多复杂问题，这些问题也激发了关于如何使机器人正确执行这一任务的研究（参考文献88–92）。这些问题包括如何将物体呈现给人类以便于抓取，以及与社会因素相关的问题，如注视的作用、社交线索和对用户状态的感知。目前，关于哪些因素对确定人类之间的物体传递最重要尚未达成共识，更不用说机器人与人类之间的传递了。尽管大多数研究集中在机器人向人类递物，但也有研究探讨机器人从人类手中接过物体（参考文献93–95）。此外，一些研究努力使机器人能够与人类共同操控物体，例如使用人形机器人（参考文献96–99）和移动操控器（参考文献100–103）进行物体的共同搬运。最近的一些显著工作探索了人机共同操控可变形材料（参考文献104）、帮助人类穿衣（参考文献105）以及辅助支持（参考文献106）。

因此，为使机器人能够无缝地与人类合作，研究人员正努力为机器人配备更好的人类感知工具和更具适应性的控制模式。此外，机器人学家还寻求在机器性能以及使用通用评估场景和基准方面提供保障。

展望

自20世纪60年代以来，机器人操控领域在多个方面取得了显著进展。我们已经建立了评估抓取稳定性的基本理论，开发了能够适应不可预测情况的控制算法，以及在提供适当传感器反馈进行状态估计时应对变化动态的能力。最近，该领域在数据驱动方法方面也有所突破，即使是手内灵巧操控也能够完成，但仅限于非常具体的问题和高度定制的环境。对于在诸如水和油等介质（而不仅仅是空气）中，对完全未知物体进行稳健、灵活和适应性抓取与操控的实现，预计将引发一场重大制造业革命，这将影响大部分依赖精细操控和高度灵巧性的工作。然而，为了达到并超越人类的灵巧性和精细操控能力，目前对于多项关键技术的系统性开发仍在进行中。

首先，基础理论的发展仍然是必要的。我们需要寻求对柔性点接触的理解和建模，并为点接触和面接触提供稳定性规则。此外，还需开发更好的方法来建模操控后状态显著变化的物体（例如，切片后的黄瓜或剁碎后的洋葱）。为了规划和生成适当的中间抓取与操控动作，还需要对操控和任务目标进行全面的描述。这种对理论和规划的重视对于数据驱动方法也同样重要，因为我们需要更好的工具来模拟柔性物体并生成包含力和扭矩信息的相关场景和示例。

除了上述建模和软件方面的改进，我们还希望在硬件开发和设计方面取得重大进展。其中一个特别相关的领域是机器人传感。开发与手部设计高度集成但不需要过多布线或增加显著重量的类皮肤传感器将至关重要。这种传感功能应能进行力和扭矩测量，确定切向力以检测并抵消滑动。为了实现手内灵巧操控，我们还需要能够以高频率控制的驱动手。这类手需要能够在不同介质（空气、水和油）中运行，而不会受损或需要特殊手套覆盖。总的来说，我们需要轻便、廉价、稳健且易于与任何类型机器人手臂集成的手。

最后，一个重要的工业挑战是让机器人能够更接近人类，并实现安全的物理交互与协作。用以将人类与机器人分隔开的围栏将逐步消失。机器人需要参与协作任务，与人类共同操控物体，同时适应人类不可预测的行为。为机器人配备先进的物理交互能力，以实现机器与人类运动的安全平滑同步，仍然是一大难题。实现这一目标需要在细致跟踪人类精细身体动作方面取得进展，同时需要更好地理解人类如何通过规划和直接物理交互实现共同目标。此外，还需要设计“固有安全”的机器人，重点关注柔性和轻量化结构以及基于多传感器反馈的控制和规划方法。人类的行为方式将继续为未来的机器人系统提供灵感，而机器人也将成为更好理解人类的一种工具。

致谢

我们感谢审稿人提出的许多有助于改进本文的意见，感谢 A. Kheddar 和 J. Paik 提供他们研究的图片，感谢 L. Cohen 提供手绘插图。
资金来源：我们承认来自欧洲研究委员会、Knut 和 Alice Wallenberg 基金会以及瑞典战略研究基金会的资助。
竞争利益：作者声明不存在竞争利益。