【CVPR2023】Re:InterHand:一个用于3D交互手部姿态估计的重光照数据集

server/2024/9/25 10:29:13/

这篇论文的标题是《A Dataset of Relighted 3D Interacting Hands》,作者是Gyeongsik Moon, Shunsuke Saito, Weipeng Xu, Rohan Joshi, Julia Buffalini, Harley Bellan, Nicholas Rosen, Jesse Richardson, Mallorie Mize, Philippe de Bree, Tomas Simon, Bo Peng, Shubham Garg, 和 Kevyn McPhail,他们来自Meta Reality Labs Research。

摘要

双手交互是分析中最具挑战性的信号之一,因为手的自相似性、复杂的关节和遮挡。尽管已经提出了几个双手交互分析的数据集,但它们都没有同时实现1) 多样化和逼真的图像外观,以及2) 多样化和大规模的地面真实(GT) 3D姿态。在这项工作中,我们提出了Re:InterHand,一个重光照的3D交互手数据集,实现了这两个目标。为此,我们使用了最先进的手部重光照网络和我们准确追踪的双手3D姿态。我们比较了我们的Re:InterHand与现有的3D交互手数据集,并展示了它的好处。我们的Re:InterHand可以在此处获取。
在这里插入图片描述
在这里插入图片描述

1. 引言

人类在日常对话或与物体互动时经常进行双手交互。手的自相似性、复杂的关节和尺寸小使得分析这种双手交互极具挑战性。特别是当分析系统的输入是单一图像时,问题变得更加困难,因为在大多数情况下,一只手的大部分被另一只手遮挡。

2. 相关工作

  • 3D手部数据集:表格1显示了各种3D手部数据集的比较。
  • 3D交互手部恢复:由于缺乏大规模数据集,早期工作基于拟合框架,该框架将3D手部模型拟合到几何观测上,如RGBD序列、手部分割图和密集匹配图。
  • 重光照人类:有几项工作提出了重光照面部和身体的模型,但这些模型不是可动画的。为了实现可动画的重光照,Bi等人提出了一个深度可重光照外观模型,用于面部化身。

3. 数据集构建

图4展示了构建我们数据集的总体流程。它由两个阶段组成:捕获和重光照。

3.1 捕获阶段

捕获阶段从我们的多相机工作室捕获手部数据。我们捕获了10个主题的数据,如图5所示。我们捕获了两种类型的序列,峰值姿态和运动范围,遵循InterHand2.6M。峰值姿态是一个序列,包括从中性姿态过渡到预定义姿态,然后过渡回中性姿态。峰值姿态的目的是捕获尽可能多样化的姿态,包括极端姿态和最大手指弯曲。运动范围是一个序列,包括用最少的指令驱动的自然手部运动,例如挥手好像朋友过来一样。通过这种方式,我们可以捕获1) 从峰值姿态序列中捕获多样化的姿态,以及2) 从运动范围序列中捕获自然手部运动。

3.2 重光照阶段

在上述捕获阶段捕获数据后,我们为每个主题训练了一个重光照网络。我们使用NeuralAnnot的3D姿态从捕获阶段渲染两只手,并使用指定的相机参数。对于照明,我们使用了Gardner等人的2144张高分辨率环境贴图。

4. 数据集发布

我们的Re:InterHand数据集包括1) 重光照图像,2) 非二进制掩模,以及3) 3D手部模型拟合,如图7所示。重光照图像和非二进制前景掩模来自第3.2节,3D手部模型拟合来自第3.1节。我们从10次捕获中分割出7次捕获用于训练集,剩余的3次捕获用于测试集。

5. 实验

对于所有实验,我们报告右手相对于顶点误差(RRVE),这是估计的和GT 3D网格的两只手之间的欧几里得距离(毫米),在对齐右手根部(即手腕)的平移后。请注意,先前工作的最广泛使用的指标[58, 22, 26](MPVPE)是在分别对左右手的平移进行对齐后计算的;因此,他们的MPVPE没有考虑两只手之间的相对位置,而我们的RRVE确实考虑了。

6. 结论

我们提出了Re:InterHand数据集,它提供了高度逼真和多样化的交互手部图像及其相应的GT 3D手部。为此,我们使用了准确追踪的3D姿态、最先进的重光照网络和多个高分辨率环境贴图。我们希望我们的数据集可以使社区更接近野外的3D交互手部恢复。

局限性:我们的渲染图像在前臂区域有切口。这是因为我们的重光照网络只采用3D手部几何体,而不是全身的。我们认为这不是一个严重的问题,因为大多数3D手部分析系统都采用裁剪的手部图像,然后通过手部检测器进行处理,其中手部检测器可以在只有2D注释的大规模真实数据集上进行训练。我们还观察到,重光照图像中有时会出现伪影。这是因为重光照网络在单手数据上训练并在双手数据上测试,有时会导致姿态泛化失败。我们期待一个更好的重光照网络可以缓解这个问题。


http://www.ppmy.cn/server/15223.html

相关文章

【Linux】学习记录_15_POSIX信号量

15 POSIX信号量 15.1 POSIX信号量基本概念 信号量(Semaphore)是一种实现进程/线程间通信的机制,可以实现进程/线程之间同步或临界资源的互斥访问, 常用于协助一组相互竞争的进程/线程来访问临界资源。在多进程/线程系统中&#…

feign整合sentinel做降级知识点

1&#xff0c;配置依赖 <!-- Feign远程调用依赖 --><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId></dependency> <!--sentinel--><dependency>…

Okapi Framework

文章目录 关于 OkapiRainbowCheckMateRatelTikalFilters Plugin for OmegaTLonghorn 关于 Okapi 官网&#xff1a;http://okapiframework.org源码&#xff1a;https://bitbucket.org/okapiframework/okapi/src文档&#xff1a;http://okapiframework.org/wiki/index.php?titl…

【AI 测试】分词器

目录 概念分词器种类主要应用场景几种常用的分词器适合用于自然语言处理任务的分词器分词器使用实例概念 分词器(Tokenizer)是一种自然语言处理工具,其核心功能是将连续的自然语言文本切分为一系列有意义的词汇单元。这些词汇单元通常是词或短语,它们在语言学上具有一定的…

unity快捷键

参考资料&#xff1a;Unity3D有哪些实用的快捷键/热键&#xff1f;

Java数据类型和变量

一.字面常量 常量即在程序运行期间不变的的量。 字面常量的分类&#xff1a; 1.字符串常量&#xff1a;“内容”&#xff0c;双引号里的内容&#xff1b; 2.整形常量&#xff1a;100&#xff0c;像这样的&#xff1b; 3.浮点数常量&#xff1a;1.23&#xff0c;直接写的浮…

qt——窗口置灰不可操作

在Qt中实现一个窗口&#xff08;或窗口中的特定部分&#xff09;置灰并不可操作&#xff0c;通常涉及到两个概念&#xff1a;禁用窗口的交互功能以及视觉上的置灰效果。下面我会介绍如何使用Qt实现这两个功能。 1. 禁用窗口的交互功能 如果你希望整个窗口都不可交互&#xff0c…

OpenFeign、RestTemplate支持自定义服务地址列表

目录 一、背景二、解决思路三、定义通用配置四、定义通用StaticServiceInstanceListSuppler五、为指定serviceId定义专属的配置类六、通过LoadBalancerClient为指定serviceId设置配置类6.1 OpenFeign6.2 RestTemplate 七、Debug调试 一、背景 最近在支援项目时&#xff0c;项目…