【CVPR2023】《A2J-Transformer:用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络

server/2024/12/23 7:03:18/

这篇论文的标题是《A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image》,作者是Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, 和 Joey Tianyi Zhou。他们来自华中科技大学、阿里巴巴集团、新加坡科学、技术和研究局(A*STAR)的前沿人工智能研究中心(CFAR)以及高性能计算研究所(IHPC)。

摘要

3D交互手部姿态估计(IHPE)是一个挑战性的任务,因为手部存在严重的自遮挡和相互遮挡,两只手的外观模式相似,以及从2D到3D的病态关节位置映射等问题。为了解决这些问题,作者提出了A2J-Transformer,这是一种基于Transformer的非局部编码-解码框架,用于改进A2J(一种最先进的基于深度的单手3D姿态估计方法),以适应交互手部情况的RGB域。A2J-Transformer的主要优势包括:局部锚点通过自注意力机制建立全局空间上下文感知,以更好地捕获关节的全局线索;每个锚点被视为可学习的查询,具有自适应特征学习能力,以提高模式拟合能力;锚点位于3D空间而非2D,以利用3D姿态预测。
在这里插入图片描述
在这里插入图片描述

主要贡献

  • 首次将A2J从深度域扩展到RGB域,用于单RGB图像的3D交互手部姿态估计,并取得了有希望的性能。
  • 通过Transformer的非局部自注意力机制和自适应局部特征学习,使A2J的锚点能够同时感知关节的局部细节和全局上下文。
  • 提出了将锚点设置在3D空间而不是2D空间的方法,以便于基于单目RGB信息解决2D到3D的病态姿态提升问题。

相关工作

论文回顾了3D手部姿态估计的相关研究,包括基于模型的方法和无模型(model-free)方法,以及基于Transformer架构的方法。

方法

A2J-Transformer由三个主要部分组成:特征金字塔提取器、锚点细化模型和锚点偏移权重估计模型。特征金字塔提取器使用ResNet-50作为骨干网络来提取输入RGB图像的金字塔特征。锚点细化模型包含特征增强模块和锚点交互模块,用于增强图像特征并建立锚点之间的交互。锚点偏移权重估计模型用于估计每个锚点相对于每个手部关节的3D偏移和权重。

实验

作者在InterHand2.6M、RHP、NYU和HANDS 2017数据集上进行了实验。结果表明,A2J-Transformer在InterHand2.6M数据集上取得了最先进的无模型(model-free)性能,并且在RHP数据集上展示了良好的泛化能力。此外,作者还对A2J-Transformer的不同组件进行了消融研究,以验证其有效性。

结论

A2J-Transformer是一种有效的3D单目RGB交互手部姿态估计方法,它结合了局部细节和全局上下文信息,并使用3D锚点来更好地拟合深度信息和估计准确的3D坐标。作者计划在未来的工作中尝试表示锚点的运动,并将方法扩展到基于模型的区域。


http://www.ppmy.cn/server/6520.html

相关文章

即插即用的涨点模块之变体卷积(Ghost卷积)详解及代码,可应用于检测、分割、分类等各种算法领域

目录 前言 一、GhostConv结构 二、GhostConv计算流程 三、GhostConv参数 四、代码详解 前言 GhostNet: More Features from Cheap Operations 来源:CVPR2020 官方代码:https://github.com/huawei-noah/ghostnet Ghost 模块是一种针对卷积神经网络…

设计模式学习笔记 - 开源实战一(下):通过剖析JDK源码学习灵活应用设计模式

概述 上篇文章我们讲解了工厂模式、建造者模式、适配器模式适配器模式在 JDK 中的应用,其中 Calendar 类用到了工厂模式和建造者模式, Collections 类用到了装饰器模式和适配器模式。学习的重点是让你了解,在真实的项目中模式的实现和应用更…

怎样把pandas.core.frame.DataFrame数据写入excel文件?

要将pandas的DataFrame数据写入Excel文件,可以使用pandas提供的to_excel方法。 首先,安装pandas库(如果尚未安装): pip install pandas然后,导入pandas库: import pandas as pd接下来&#x…

AI大模型催生App「通胀」

AI工具独立开发者「Alchain花生」最近做了一个小测试。在GPT Store上,他把自己开发的一款用户数5000的GPT(模拟Claude 3 Opus)调成了付费模式,想看看海外用户是否真有更高的付费意愿。 6小时后,他获得了第一笔用户打款…

企业数据分析的维度一般有哪些?

​在很多场景下,都会进行企业的一个分析,来反应我们的问题。常见的需要分析企业数据的场景有:业务优化(月度季度),需要做投资决策时,有融资需求,或者战略上出现了改变时,…

STM32 CAN接收FIFO细节

STM32 CAN接收FIFO细节 简介 CAN外设一共有2个接收FIFO,每个FIFO中有3个邮箱,即最多可以缓存6个接收到的报文。 FIFO状态 EMPTY: 初始状态,表示FIFO为空,没有挂起的消息(FMP0x00),且没有发生…

【IoTDB 线上小课 02】开源增益的大厂研发岗面经

还有友友不知道我们的【IoTDB 视频小课】系列吗? 关于 IoTDB,关于物联网,关于时序数据库,关于开源...给我们 5 分钟,持续学习,干货满满~ 5分钟学会 大厂研发岗面试 之前的第一期小课,我们听了 I…

创建k8s deploy yaml文件的imagePullSecrets语句

镜像仓库是harbor kubectl create secret docker-registry key --docker-server192.168.0.190 --docker-usernameadmin --docker-passwordHarbor12345