【CVPR2023】《A2J-Transformer:用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络

ops/2024/9/23 0:42:53/

这篇论文的标题是《A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image》,作者是Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, 和 Joey Tianyi Zhou。他们来自华中科技大学、阿里巴巴集团、新加坡科学、技术和研究局(A*STAR)的前沿人工智能研究中心(CFAR)以及高性能计算研究所(IHPC)。

摘要

3D交互手部姿态估计(IHPE)是一个挑战性的任务,因为手部存在严重的自遮挡和相互遮挡,两只手的外观模式相似,以及从2D到3D的病态关节位置映射等问题。为了解决这些问题,作者提出了A2J-Transformer,这是一种基于Transformer的非局部编码-解码框架,用于改进A2J(一种最先进的基于深度的单手3D姿态估计方法),以适应交互手部情况的RGB域。A2J-Transformer的主要优势包括:局部锚点通过自注意力机制建立全局空间上下文感知,以更好地捕获关节的全局线索;每个锚点被视为可学习的查询,具有自适应特征学习能力,以提高模式拟合能力;锚点位于3D空间而非2D,以利用3D姿态预测。
在这里插入图片描述
在这里插入图片描述

主要贡献

  • 首次将A2J从深度域扩展到RGB域,用于单RGB图像的3D交互手部姿态估计,并取得了有希望的性能。
  • 通过Transformer的非局部自注意力机制和自适应局部特征学习,使A2J的锚点能够同时感知关节的局部细节和全局上下文。
  • 提出了将锚点设置在3D空间而不是2D空间的方法,以便于基于单目RGB信息解决2D到3D的病态姿态提升问题。

相关工作

论文回顾了3D手部姿态估计的相关研究,包括基于模型的方法和无模型(model-free)方法,以及基于Transformer架构的方法。

方法

A2J-Transformer由三个主要部分组成:特征金字塔提取器、锚点细化模型和锚点偏移权重估计模型。特征金字塔提取器使用ResNet-50作为骨干网络来提取输入RGB图像的金字塔特征。锚点细化模型包含特征增强模块和锚点交互模块,用于增强图像特征并建立锚点之间的交互。锚点偏移权重估计模型用于估计每个锚点相对于每个手部关节的3D偏移和权重。

实验

作者在InterHand2.6M、RHP、NYU和HANDS 2017数据集上进行了实验。结果表明,A2J-Transformer在InterHand2.6M数据集上取得了最先进的无模型(model-free)性能,并且在RHP数据集上展示了良好的泛化能力。此外,作者还对A2J-Transformer的不同组件进行了消融研究,以验证其有效性。

结论

A2J-Transformer是一种有效的3D单目RGB交互手部姿态估计方法,它结合了局部细节和全局上下文信息,并使用3D锚点来更好地拟合深度信息和估计准确的3D坐标。作者计划在未来的工作中尝试表示锚点的运动,并将方法扩展到基于模型的区域。


http://www.ppmy.cn/ops/6759.html

相关文章

第四十四节 Java 8 函数式接口

函数式接口(Functional Interface)就是一个具有一个方法的普通接口。 函数式接口可以被隐式转换为lambda表达式。 函数式接口可以现有的函数友好地支持 lambda。 JDK 1.8之前已有的函数式接口: java.lang.Runnablejava.util.concurrent.Callablejava.security.PrivilegedAc…

* 玩转数据魔方Plotly Express实战8例

大家好!今天我们要一起探索Plotly Express这个超级棒的数据可视化神器。想象一下,你的数据故事能以炫酷图表的形式跃然纸上,是不是很兴奋?Plotly Express就像魔法棒,让复杂数据瞬间变得生动起来。接下来,让…

论文解读:(CoCoOP)Conditional Prompt Learning for Vision-Language Models

文章汇总 存在的问题 CoOp的一个关键问题:学习到的上下文不能推广到同一数据集中更广泛的未见类,这表明CoOp过拟合了训练期间观察到的基本类。 动机 为了解决弱泛化问题,我们引入了一个新的概念:条件提示学习。关键思想是使提示取决于每个输入实例(图…

机器学习基础入门(二)(线性回归与成本函数)

目录 线性回归模型 问题 过程 模型f的选择 回归和分类比较 机器学习术语 模型训练 成本函数 介绍 设计成本函数 直观化理解成本函数 线性回归模型 问题 已知一系列房子的大小以及其对应的价格的数据,要求是已知房子大小预测其房子的价格 过程 一、根…

使用Python的Pillow库进行图像处理书法参赛作品

介绍: 在计算机视觉和图像处理领域,Python是一种强大而流行的编程语言。它提供了许多优秀的库和工具,使得图像处理任务变得轻松和高效。本文将介绍如何使用Python的wxPython和Pillow库来选择JPEG图像文件,并对选中的图像进行调整和…

京东微服务microApp使用总结

前言 基于现有业务门户进行微服务基础平台搭建 主应用框架:vue3vite 子应用框架:vue2webpack / vue3vite在这里插入代码片 本地调试即可:主应用子应用进行打通(注意:两者都是vue3vite) 问题总结 1.嵌入…

【大模型应用极简开发入门(2)】GPT模型简史:从GPT-1到GPT-4:从小数据量的微调到大数据量的强化学习不断优化模型

文章目录 一. GPT-1:无监督与微调1. 在GPT-1之前的监督学习的问题2. GPT-1中新的学习过程-无监督的预训练3. 复杂任务下的微调4. GPT-1为更强大的模型铺平了道路 二. GPT-2:context learning1. 核心思想:context learning2. GPT-2的数据集 三…

XiaodiSec day027 Learn Note 小迪渗透学习笔记

XiaodiSec day027 Learn Note 小迪渗透学习笔记 记录得比较凌乱,不尽详细 27day 还是 sql 知识点 数据类型注入: 数字型,字符型,搜索型,加密型 开始 数字型 数字型是 0-9 字符型 字符型是 a-z 等 在接收 sql …