从 2D 图像中学习 3D 人机交互关系

news/2025/1/11 12:46:45/

一、论文背景与动机

理解3D人类与物体的交互关系(3D Human-Object Interaction Relation, 3D HOI)对于具身智能和交互建模至关重要。然而,现有的大多数方法通常通过单独预测某些交互元素(如人类接触点、物体可供性、人-物空间关系)来尝试解决这个问题,这些方法往往忽略了交互双方(人类和物体)之间的深层联系,导致模型在实际应用中表现不佳。因此,论文作者提出了一种新的方法,旨在从2D图像中学习3D人类与物体的交互关系。

二、LEMON模型介绍

LEMON(LEarning 3D huMan-Object iNteraction relation)模型是一个统一的框架,它通过联合预测人类接触点、物体可供性和人-物空间关系这三个交互元素,来捕捉人类与物体在3D空间中的交互关系。LEMON模型的核心思路是利用交互中人和物体的语义与几何上的关联去建模这些交互表征。

1. 交互意图挖掘

LEMON利用多分支注意力机制来模拟图像内容与人类和物体几何结构之间的交互意图相关性,揭示与几何结构相对应的交互意图表示。通过余弦相似性进一步确保语义一致性。

2. 曲率引导的几何相关性

LEMON编码物体和人类的法向曲率到几何特征中,并利用交互意图作为条件来捕捉人类和物体几何结构之间的亲和力。通过交叉注意力机制相互执行曲率编码,以引导几何相关性的计算。

3. 接触感知的空间关系

人类与物体的交互极其多样,使得推理它们的3D空间关系非常具有挑战性。LEMON利用人类接触隐含地约束物体的位置,帮助推断可能的人类-物体空间关系。

三、3DIR数据集

为了支撑LEMON模型的训练和评估,作者收集了一个名为3DIR的3D交互关系数据集。该数据集包含了高质量的交互图像和多种交互相关的标注,如人类接触点、物体可供性、人-物空间关系等。这些标注为模型提供了丰富的训练数据,使得模型能够学习到更加准确的交互关系。

四、实验结果与讨论

作者在3DIR数据集上进行了广泛的实验,证明了LEMON在估计每个交互元素方面优于单独估计每个元素的方法。此外,LEMON在多个交互、多个对象和多个实例的场景中展示了良好的泛化能力和鲁棒性。

五、未来工作方向

尽管LEMON模型在3D人类与物体交互关系的理解上取得了显著进展,但作者也指出了未来的工作方向。例如,将人类网格恢复(HMR)集成到整个框架中,以及利用多模态方法来提升交互关系理解。这些未来的研究将进一步推动3D人类与物体交互关系理解领域的发展。

六、总结

《LEMON: Learning 3D Human-Object Interaction Relation from 2D Images》论文提出了一种创新的方法来从2D图像中学习3D人类与物体的交互关系。通过联合预测人类接触点、物体可供性和人-物空间关系这三个交互元素,LEMON模型能够更准确地捕捉人类与物体在3D空间中的交互关系。此外,作者还收集了一个高质量的3D交互关系数据集来支撑模型的训练和评估。这项研究为3D人类与物体交互理解提供了新的视角,并为未来的研究铺平了道路。

U2FsdGVkX18e18bZuAG3ThrGzAwjUriQ/Edk6A3JUKAojMBoQggiPbJ05OFxJLFn
/GyMNAohwDrH+rbJJiyLtA==


http://www.ppmy.cn/news/1561927.html

相关文章

【TI毫米波雷达】DCA1000不使用mmWave Studio的数据采集方法,以及自动化实时数据采集

【TI毫米波雷达】DCA1000不使用mmWave Studio的数据采集方法,以及自动化实时数据采集 mmWave Studio提供的功能完全够用了 不用去纠结用DCA1000低延迟、无GUI传数据 速度最快又保证算力无非就是就是Linux板自己写驱动做串口和UDP 做雷达产品应用也不会采用DCA1000的…

《分布式光纤测温:解锁楼宇安全的 “高精度密码”》

在楼宇建筑中,因其内部空间庞大,各类电器设施众多,如何以一种既高效又稳定,兼具低成本与高覆盖特性的方式,为那些关键线路节点开展温度监测,是目前在安全监测领域一项重点研究项目,而无锡布里渊…

4 驱动开发

环境配置 开发环境 在开发驱动程序之前,我们需要配置好开发环境, 首先安装好VS IDE(这里自己选择版本),其次因为我们需要开发驱动程序所以需要安装WDK(WDK下载地址:以前的 WDK 版本和其他下载 - Windows drivers | Microsoft Learn),在我们安装WDK时候需要注意其版本…

2025届视觉算法开发工程师面试问题汇总

2025届视觉算法开发工程师面试问题汇总 1. 数据结构1.1 时间复杂度 2. 算法问题2.1 两数之和2.2 递归求二叉树的深度2.3 一个由0和1组成数组中,计算出这里面连续1的最大数 3. C、Python、Cuda问题3.1 C3.1.1 智能指针3.1.1.1 std::unique_ptr独占指针3.1.1.2 std::s…

内蒙古水系详细很全shp格式arcgis软件无偏移坐标下载后内容测评

标题中的“内蒙古水系详细很全shp格式arcgis软件无偏移坐标”指的是一个地理信息系统(GIS)数据集,该数据集详细记录了内蒙古地区的水系信息,并以ESRI公司的标准矢量数据格式——Shapefile(.shp)进行存储。S…

C++虚函数(八股总结)

什么是虚函数 虚函数是在父类中定义的一种特殊类型的函数,允许子类重写该函数以适应其自身需求。虚函数的调用取决于对象的实际类型,而不是指针或引用类型。通过将函数声明为虚函数,可以使继承层次结构中的每个子类都能够使用其自己的实现&a…

第14章 MySQL事务日志

第14章 MySQL事务日志 事务有4种特性:原子性、一致性、隔离性和持久性。那么事务的四种特性到底是基于什么机制实现呢? 事务的隔离性由锁机制实现。而事务的原子性、一致性和持久性由事务的 redo 日志和undo 日志来保证。 REDO LOG 称为重做日志&#…

ElasticSearch | Elasticsearch与Kibana页面查询语句实践

关注:CodingTechWork 引言 在当今大数据应用中,Elasticsearch(简称 ES)以其高效的全文检索、分布式处理能力和灵活的查询语法,广泛应用于各类日志分析、用户行为分析以及实时数据查询等场景。通过 ES,用户…