Graspness Discovery in Clutters for Fast and Accurate Grasp Detection 解读

研究问题 ：这篇文章要解决的问题是如何在杂乱的环境中快速且准确地检测抓取姿态。传统的 6自由度抓取方法将场景中的所有点视为平等，并采用均匀采样来选择抓取候选点，但忽略了抓取位置的重要性，这极大地影响了抓取姿态检测的速度和准确性。
研究难点 ：该问题的研究难点包括：如何在大量的 3D 空间点中快速识别出可抓取的区域，以及如何在不牺牲计算资源的情况下提高抓取姿态检测的效率。
相关工作 ：该问题的研究相关工作包括基于平面的抓取检测和 6自由度的抓取检测。现有的方法主要集中在改进抓取参数的预测质量，但忽略了抓取位置的筛选问题。

这篇论文提出了一种基于几何线索的“抓取性”（graspness）来解决杂乱环境中抓取姿态检测的问题。具体来说，

抓取性定义 ：首先，定义了两种抓取性分数：点抓取性分数SpSp和视图抓取性分数SvSv。点抓取性分数表示每个点的抓取可能性，视图抓取性分数表示每个视图的抓取可能性。
抓取性测量 ：通过穷举搜索未来可能的抓取姿态来评估每个点的抓取性。具体公式如下：
s~ip= ⁣∑j=1V∑k=1L1(qki,j>c)⋅1(cki,j)∑j=1V∣Gi,j∣,i=1,...,N,s~ip=∑j=1V∣Gi,j∣∑j=1V∑k=1L1(qki,j>c)⋅1(cki,j),i=1,...,N,
其中，1(⋅)1(⋅)表示成功抓取的指示函数，qki,jqki,j表示抓取质量分数，cc表示抓取质量阈值，cki,jcki,j表示碰撞标签。
级联抓取性模型 ：为了在实际中快速检测抓取性，开发了一个名为级联抓取性模型的神经网络来近似搜索过程。该模型通过多层感知器（MLP）网络生成点抓取性景观，并采用最远点采样（FPS）选择种子点，然后通过另一个 MLP 网络生成视图抓取性景观。
抓取操作模型 ：在抓取操作模型中，通过在方向性圆柱空间内裁剪和细化点云，将点转换为夹爪坐标系，并估计抓取参数。具体步骤包括圆柱分组、抓取生成和抓取评分表示。

数据集 ：使用了 GraspNet-1Billion 数据集，该数据集包含 190 个场景，每个场景有 256 个不同视角的点云数据。测试场景根据对象类别分为已知、相似和新颖三类。
数据处理和增强 ：点云数据在输入网络前进行体素下采样，体素大小为 0.005 米，仅包含相机坐标系中的 XYZ 数据。输入云通过随机翻转和旋转进行数据增强。
实现细节 ：在 GraspNet-1Billion 数据集上进行实验，每个点密集地标记了 300 个不同视图的抓取质量分数和每个视图的 48 个抓取。网络的骨干网络采用 ResUNet14，输出通道数为 512 。在抓取性 FPS/PVS 中，采样 1024 个种子点和 300 个视图，阈值δPδP设置为 0.1 。圆柱分组中，采样 16 个种子点，圆柱半径为 0.05 米，高度范围为[-0.02 米，0.04 米]。损失函数中，设置α,β,λ=10,10,10α,β,λ=10,10,10。

级联抓取性模型的泛化性和稳定性 ：在不同对象类别、视角和相机设置下的实验结果表明，级联抓取性模型在不同域中具有良好的泛化性和稳定性。点抓取性预测的排名误差在不同类别和视角下变化不大，视图抓取性预测的排名误差在所有组中几乎不变。
与代表性方法的比较 ：在 GraspNet-1Billion 数据集上的实验结果表明，GSNet 在所有类别上的 AP 指标比现有方法提高了约 2倍，特别是在最困难的\AP0.4\AP0.4指标上，GSNet 的相对改进超过 140%。
级联抓取性模型的提升效果 ：将级联抓取性模型应用于现有的抓取检测方法（如 GPD 、Liang et al.和 Fang et al.）后，这些方法的性能显著提高，验证了级联抓取性模型的有效性。
不同采样方法的比较 ：实验结果表明，使用抓取性 FPS 采样种子点比随机采样和从整个点云中采样效果更好，抓取性 PVS 在视图选择中也优于其他方法。
真实抓取实验 ：在真实世界环境中进行的抓取实验验证了 GSNet 的有效性，成功率为 78.22/76.49 、62.88/57.64 和28.97/24.04，分别对应 RealSense 和Kinect 输入。