论文解读 | IROS 2022:MV6D:在RGB-D图像上使用深度逐点投票网络进行多视角6D姿态估计

news/2024/10/21 5:40:11/

原创 | 文 BFT机器人

01 研究背景

在计算机视觉领域,6D姿态估计是一种重要的任务,用于确定物体在3D空间中的位置和方向。它在许多应用领域具有广泛的应用,如机器人操作、虚拟现实、增强现实、物体跟踪等。

然而,传统的6D姿态估计方法存在一些限制。

这些方法通常只使用单个视角的相机数据或点云数据进行估计,忽略了其他视角的信息。这种单一视角的方法容易受到其他物体的遮挡影响,导致估计结果不准确。当物体被其他物体遮挡部分或部分视角无法观测到时,传统方法可能无法准确地估计物体的姿态。

为了解决这个问题,本文提出了一种新颖的多视角6D姿态估计方法,称为MV6D。

该方法基于RGB-D图像从多个视角准确地预测杂乱场景中所有物体的6D姿态。MV6D使用了一个深度点投票网络(PVN3D)来预测目标物体关键点,并通过密集融合层(DenseFusion)将多个视角信息融合起来以提高精度。

02  该篇论文的创新点

1. 提出了一种新颖的多视角6D姿态估计方法,称为MV6D。

该方法可以从多个视角准确地预测杂乱场景中所有物体的6D姿态,并且可以处理不同相机设置和不同数量的输入图像。

2. 使用深度学习技术将RGB图像和深度图像进行联合处理,以提高6D姿态估计的精度。

MV6D使用了一个深度点投票网络(PVN3D)来预测目标物体关键点,并通过密集融合层(DenseFusion)将多个视角信息融合起来。

3. 介绍了三个新颖的真实场景数据集:YCB-Video、LineMod-Video和Home-Video。

这些数据集具有严重遮挡和随机性质,并采用领域随机化技术来增加数据集的多样性和泛化能力。

4. MV6D方法在实验中表现出比传统方法更高的精度和鲁棒性

即使在相机位置不准确或存在其他物体遮挡时也能够准确地估计物体的6D姿态。

03  算法具体介绍

本文提出了一种名为MV6D的多视角6D物体姿态估计方法。

该方法接受多个RGB-D图像作为输入(图1),并从中提取视觉特征。同时,通过融合所有深度图像创建的点云,提取几何特征。接下来,DenseFusion网络将这些视觉和几何特征进行融合。

然后,通过使用三维关键点检测、三维中心点检测和实例语义分割模块,预测目标物体的6D姿态。最后,采用最小二乘拟合算法对结果进行优化。具体地说,本文的算法包含三个阶段:特征提取、实例分割和6D姿态估计(图2)。

在第一个阶段,使用一个深度神经网络从多个RGB-D图像中提取相关特征,并将它们融合成整个输入场景的联合特征表示。

具体地说,使用了一个名为PVN3D的单视角网络作为基础模型,该模型可以从单个RGB-D图像中提取物体的3D几何信息和2D视觉信息。然后,对PVN3D进行了修改,使其能够处理多个RGB-D图像,并将它们融合成一个一致的特征表示。这样做可以增强算法对场景中物体的几何结构和外观信息的理解。

在第二个阶段,使用实例语义分割和3D关键点检测来识别每个物体,并确定其边界框和关键点位置。

具体地说,使用了两个独立的CNN网络来处理RGB图像和深度图像,并将它们的特征进行融合。然后,使用实例语义分割模块来识别每个物体,并确定其边界框。接下来,使用3D关键点检测模块来预测每个物体的关键点位置。这些关键点可以用于计算物体的3D中心点和姿态。

在第三个阶段,使用最小二乘拟合算法来估计每个物体的6D姿态。

具体地说,使用了一个基于迭代最近点(ICP)算法的最小二乘拟合方法来优化物体的姿态。该方法可以将预测的3D关键点与真实的3D关键点进行拟合,以确定物体的旋转和平移。

图1所示。概述MV6D方法。MV6D接受多个RGB-D输入图像,并预测混乱场景中所有物体的6D姿势。

图2 MV6D网络架构。

04  实验

表1

表1列出了MV-YCB MovingCam数据集上不同物体类别的AUC结果。

AUC是评估6D位姿估计性能的一种指标,其值越高表示性能越好。从表格中可以看出,MV6D网络在所有物体类别和不同视角数量下都取得了最佳结果,并且相比于PVN3D和CosyPose有更高的AUC值。这表明MV6D网络在多视角3D物体检测和位姿估计方面具有很高的准确性和鲁棒性。

图3

图3展示了MV6D网络在MV-YCB FixCam数据集上的6D位姿预测结果,并与PVN3D 、CosyPose 和ground truth进行了比较。

三行显示了三个不同的示例场景,代表了网络的典型性能。为了清晰起见,只有五个最难的物体的姿势被可视化:金枪鱼罐头(橙色),香蕉(黄色),番茄汤罐头(绿色),明胶盒(蓝色)和布丁盒(红色)。从图中可以看出,本文的算法可以准确地预测所有物体的6D位姿,即使一些物体被严重遮挡。

相比之下,PVN3D只能从所示视角获取单个RGB-D图像,因此无法检测到某些物体,例如第一行中的金枪鱼罐头和明胶盒。CosyPose通常比PVN3D表现更好,但对于严重遮挡的物体,MV6D仍然优于它。

05  结论

本篇论文提出的多视角方法在6D位姿估计任务中表现出卓越的性能,即使相机位置存在不准确的情况下也能取得良好的结果。

与当前使用更复杂架构的多视角姿态估计方法相比,本文的方法表现更出色。具体而言,在MV-YCB FixCam数据集上,MV6D算法可以准确地预测所有物体的6D位姿,即使某些物体被严重遮挡。

相比之下,其他方法如PVN3D和CosyPose在某些情况下无法检测到物体或者性能不及MV6D。因此,本文提出的算法可以为实际应用场景中的机器人视觉、自动驾驶等领域提供更准确和鲁棒的解决方案。

标题:

MV6D: Multi-View 6D Pose Estimation on RGB-D Frames

Using a Deep Point-wise Voting Network

更多精彩内容请关注公众号:BFT机器人

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。


http://www.ppmy.cn/news/89999.html

相关文章

VMWare ESXI6.7创建虚拟机

VMware ESXi:专门构建的裸机 管理程序 首先开启ESXI主机 登录ESXI 打开浏览器输入物理机ip,输入账号密码进行登录 创建虚拟机 选择创建类型 创建RedHat7.6 选择存储类型和数据存储 仅一个存储,直接点下一页即可 配置虚拟机硬件和虚拟机附…

高速高密PCB高级验证技巧(四): 扫除信号线的意外回音

现今电子产品复杂度越趋增加,信号速度越来越快,在信号传输的过程中,如果信号不断反射便会对电子产品的运作造成影响,而这又与阻抗连续性以及阻抗匹配息息相关;而如何避免信号反射,除了在硬件设计时的规划外…

检错纠错理论——海明码与海明距离

概念解释 先说明几个概念(非严谨定义) 码字:一个包含了数据位和校验位的n位单元,也就是“一种”编码 编码:由码字组成的可以表达传递信息的集合,这里不是指编码的过程,而是一个名词。一个编码…

超越竞争的获客之道:DTC品牌出海策略全面解析

随着全球数字化的快速发展,DTC品牌正迎来一个全新的时代。然而,随着越来越多的DTC品牌进入国际市场,如何在激烈的竞争中脱颖而出,并获得新客户成为一个关键的挑战。本文Nox聚星将和大家深入探讨DTC品牌在出海时代如何破解获客困局…

[ 云计算 华为云 ] 华为云开天 aPaaS:构建高效的企业数字化平台(上)

文章目录 前言一、 什么是 aPaaS1.1 初识 aPaaS 二、华为云开天 aPaaS2.1 华为云服务类型与种类2.1.1 基础 aPaaS2.1.2 行业 aPaaS(一)工业 aPaaS(二)政务 aPaaS(三)电力 aPaaS(四)矿…

侵权:前端可能涉及到的侵权有哪些

前端开发可能涉及到的侵权行为包括但不限于以下几种 1. 侵犯著作权:在开发网站或应用程序时,使用未经授权的图片、文字、音频、视频、软件等作品,或直接复制他人的代码或框架等资源等。 react由原来的BSD 许可证 专利开源协议修改为MIT协议…

轻松提高SketchUp技能的15个简单技巧

SketchUp一直是设计界有名的3d建模软件之一,其直观的工作工具、开源库和无数的插件使 SketchUp 易于使用。通常,它被用来让孩子们接触建筑。其用户友好的界面使其成为初学者的绝佳应用程序。它包含一系列功能,能够以高效和突出的方式为学生和…

分布式全局唯一id实现-3 springCloud-MyBatis-Plus集成滴滴分布式全局id(Tinyid)

前言:滴滴通过mysql来定义好id 的初始值和增长的步长,每次可以将一段连续的数字id取出放入到内存中,当需要使用id 的使用,每次id1 ,如果发现id 的值已经超出了改段最大的id 值,则取下个段的id 继续使用&…