【CVPR2023】Re:InterHand:一个用于3D交互手部姿态估计的重光照数据集

ops/2024/10/20 4:03:30/

这篇论文的标题是《A Dataset of Relighted 3D Interacting Hands》,作者是Gyeongsik Moon, Shunsuke Saito, Weipeng Xu, Rohan Joshi, Julia Buffalini, Harley Bellan, Nicholas Rosen, Jesse Richardson, Mallorie Mize, Philippe de Bree, Tomas Simon, Bo Peng, Shubham Garg, 和 Kevyn McPhail,他们来自Meta Reality Labs Research。

摘要

双手交互是分析中最具挑战性的信号之一,因为手的自相似性、复杂的关节和遮挡。尽管已经提出了几个双手交互分析的数据集,但它们都没有同时实现1) 多样化和逼真的图像外观,以及2) 多样化和大规模的地面真实(GT) 3D姿态。在这项工作中,我们提出了Re:InterHand,一个重光照的3D交互手数据集,实现了这两个目标。为此,我们使用了最先进的手部重光照网络和我们准确追踪的双手3D姿态。我们比较了我们的Re:InterHand与现有的3D交互手数据集,并展示了它的好处。我们的Re:InterHand可以在此处获取。
在这里插入图片描述
在这里插入图片描述

1. 引言

人类在日常对话或与物体互动时经常进行双手交互。手的自相似性、复杂的关节和尺寸小使得分析这种双手交互极具挑战性。特别是当分析系统的输入是单一图像时,问题变得更加困难,因为在大多数情况下,一只手的大部分被另一只手遮挡。

2. 相关工作

  • 3D手部数据集:表格1显示了各种3D手部数据集的比较。
  • 3D交互手部恢复:由于缺乏大规模数据集,早期工作基于拟合框架,该框架将3D手部模型拟合到几何观测上,如RGBD序列、手部分割图和密集匹配图。
  • 重光照人类:有几项工作提出了重光照面部和身体的模型,但这些模型不是可动画的。为了实现可动画的重光照,Bi等人提出了一个深度可重光照外观模型,用于面部化身。

3. 数据集构建

图4展示了构建我们数据集的总体流程。它由两个阶段组成:捕获和重光照。

3.1 捕获阶段

捕获阶段从我们的多相机工作室捕获手部数据。我们捕获了10个主题的数据,如图5所示。我们捕获了两种类型的序列,峰值姿态和运动范围,遵循InterHand2.6M。峰值姿态是一个序列,包括从中性姿态过渡到预定义姿态,然后过渡回中性姿态。峰值姿态的目的是捕获尽可能多样化的姿态,包括极端姿态和最大手指弯曲。运动范围是一个序列,包括用最少的指令驱动的自然手部运动,例如挥手好像朋友过来一样。通过这种方式,我们可以捕获1) 从峰值姿态序列中捕获多样化的姿态,以及2) 从运动范围序列中捕获自然手部运动。

3.2 重光照阶段

在上述捕获阶段捕获数据后,我们为每个主题训练了一个重光照网络。我们使用NeuralAnnot的3D姿态从捕获阶段渲染两只手,并使用指定的相机参数。对于照明,我们使用了Gardner等人的2144张高分辨率环境贴图。

4. 数据集发布

我们的Re:InterHand数据集包括1) 重光照图像,2) 非二进制掩模,以及3) 3D手部模型拟合,如图7所示。重光照图像和非二进制前景掩模来自第3.2节,3D手部模型拟合来自第3.1节。我们从10次捕获中分割出7次捕获用于训练集,剩余的3次捕获用于测试集。

5. 实验

对于所有实验,我们报告右手相对于顶点误差(RRVE),这是估计的和GT 3D网格的两只手之间的欧几里得距离(毫米),在对齐右手根部(即手腕)的平移后。请注意,先前工作的最广泛使用的指标[58, 22, 26](MPVPE)是在分别对左右手的平移进行对齐后计算的;因此,他们的MPVPE没有考虑两只手之间的相对位置,而我们的RRVE确实考虑了。

6. 结论

我们提出了Re:InterHand数据集,它提供了高度逼真和多样化的交互手部图像及其相应的GT 3D手部。为此,我们使用了准确追踪的3D姿态、最先进的重光照网络和多个高分辨率环境贴图。我们希望我们的数据集可以使社区更接近野外的3D交互手部恢复。

局限性:我们的渲染图像在前臂区域有切口。这是因为我们的重光照网络只采用3D手部几何体,而不是全身的。我们认为这不是一个严重的问题,因为大多数3D手部分析系统都采用裁剪的手部图像,然后通过手部检测器进行处理,其中手部检测器可以在只有2D注释的大规模真实数据集上进行训练。我们还观察到,重光照图像中有时会出现伪影。这是因为重光照网络在单手数据上训练并在双手数据上测试,有时会导致姿态泛化失败。我们期待一个更好的重光照网络可以缓解这个问题。


http://www.ppmy.cn/ops/5668.html

相关文章

嵌入式学习56-ARM5(linux驱动启动程序)

知识零碎: bootm: 启动内核同时给内核传参 …

使用 Python 从 PDF 文件中提取、转换图像

目录: 从 PDF 中提取图像将 PDF 页面转换为图像 本文的任务是从 PDF 文件中提取图像,并使用 Python 中将 PDF 页面转换为图像。为了实现使用 Python 从 PDF 文件中提取图像,需要安装使用 Fitz、PyMuPDF 库。 Fitz 库是一个图像处理库&#xf…

P1090 [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G

本题为洛谷&#xff1a; 本题非常简单&#xff0c;只需从小到大排序&#xff0c;再取前两项加到sum里&#xff0c;再次排序就好了&#xff1a; #include<iostream> #include<algorithm> using namespace std; int n,a[10001],sum; int main(){cin>>n;for(in…

vue3使用阿里oss上传资源(上传图片、视频、文件、pdf等等),删除oss资源。获取STS token的接口

vue3使用阿里oss上传资源 全部oss.ts代码如下&#xff1a; import OSS from "ali-oss";// 获取STS token export const getSTSToken async () > {const STS_TOKEN_URL "....."; // 获取STS token的接口&#xff0c;后端提供// fetch方式可按需更换成…

java+idea+mysql采用医疗AI自然语言处理技术的3D智能导诊导系统源码

javaideamysql采用医疗AI自然语言处理技术的3D智能导诊导系统源码 随着人工智能技术的快速发展&#xff0c;语音识别与自然语言理解技术的成熟应用&#xff0c;基于人工智能的智能导诊导医逐渐出现在患者的生活视角中&#xff0c;智能导诊系统应用到医院就医场景中&#xff0c…

蓝桥杯第十五界软件测试线下省赛题目分析及解决

PS 需要第十五界蓝桥杯被测系统或者功能测试模板、单元测试被测代码、自动化测试被测代码请加&#x1f427;:1940787338 备注&#xff1a;15界蓝桥杯省赛软件测试 题目1&#xff1a;功能测试 题目描述 ​ 某物流公司的货运收费标准根据重量、距离和节假日三个因素来确定。如…

【c++】vector的使用

&#x1f525;个人主页&#xff1a;Quitecoder &#x1f525;专栏&#xff1a;c笔记仓 朋友们大家好&#xff0c;我们本篇来到一个新的容器&#xff0c;vector的讲解和使用 目录 1.vector简单介绍2.vector的使用2.1构造函数2.2遍历vector2.3对容量操作2.4vector的增删查改 1.v…

3DGS渐进式渲染 - 离线生成渲染视频

总览 输入&#xff1a;环绕Object拍摄的RGB视频 输出&#xff1a;自定义相机路径的渲染视频&#xff08;包含渐变效果&#xff09; 实现过程 首先&#xff0c;编译3DGS的C代码&#xff0c;并跑通convert.py、train.py和render.py。教程如下&#xff1a; github网址&#xf…