每日学术速递3.29

news/2025/1/16 7:42:25/

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.CC3D: Layout-Conditioned Generation of Compositional 3D Scenes

标题:CC3D:合成 3D 场景的布局条件生成

作者:Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Xingguang Yan, Gordon Wetzstein, Leonidas Guibas, Andrea Tagliasacchi

文章链接:https://arxiv.org/abs/2303.12074

项目代码:https://sherwinbahmani.github.io/cc3d/

摘要:

        在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。通过设计用于 3D 合成的基于 2D 布局的方法并实现具有更强几何归纳偏差的新 3D 场表示,我们创建了一个既高效又高质量的 3D GAN,同时允许更可控的生成过程。我们对合成 3D-FRONT 和真实世界 KITTI-360 数据集的评估表明,与之前的作品相比,我们的模型生成的场景具有更高的视觉和几何质量。

2.MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

标题:MM-REACT:提示 ChatGPT 进行多模态推理和行动

作者:Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wangng

文章链接:https://arxiv.org/abs/2303.11381

项目代码:https://multimodal-react.github.io/

摘要:

        我们提出 MM-REACT,这是一种将 ChatGPT 与视觉专家库集成以实现多模态推理和行动的系统范式。在本文中,我们定义并探索了一个完整的高级视觉任务列表,这些任务很有趣,但可能会超出现有视觉和视觉语言模型的能力。为了实现这种高级视觉智能,MM-REACT 引入了文本提示设计,可以表示文本描述、文本化空间坐标和对齐文件名,用于图像和视频等密集视觉信号。MM-REACT 的提示设计允许语言模型接受、关联和处理多模态信息,从而促进 ChatGPT 与各种视觉专家的协同结合。零样本实验证明了 MM-REACT 在解决特定兴趣能力方面的有效性及其在需要高级视觉理解的不同场景中的广泛应用。此外,我们讨论并比较了 MM-REACT 的系统范式与另一种方法,该方法通过联合微调为多模态场景扩展语言模型。此 https URL 提供代码、演示、视频和可视化

3.Vox-E: Text-guided Voxel Editing of 3D Objects

标题:Vox-E:文本引导的 3D 对象体素编辑

作者:Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor

文章链接:https://arxiv.org/abs/2303.12048

项目代码:https://tau-vailab.github.io/Vox-E/

摘要:

        大规模文本引导的扩散模型由于能够合成传达复杂视觉概念的各种图像的能力而获得了极大的关注。这种生成能力最近被用于执行文本到 3D 的合成。在这项工作中,我们提出了一种利用潜在扩散模型的力量来编辑现有 3D 对象的技术。我们的方法将 3D 对象的定向 2D 图像作为输入,并学习它的基于网格的体积表示。为了引导体积表示符合目标文本提示,我们遵循无条件文本到 3D 方法并优化分数蒸馏采样 (SDS) 损失。然而,我们观察到,将这种扩散引导的损失与基于图像的正则化损失相结合,鼓励表示不要过于偏离输入对象是具有挑战性的,因为它需要在仅查看结构和外观耦合的同时实现两个相互冲突的目标二维投影。因此,我们引入了一种直接在 3D 空间中运行的新型体积正则化损失,利用我们 3D 表示的明确性质来加强原始对象和编辑对象的全局结构之间的相关性。此外,我们提出了一种优化交叉注意力体积网格的技术,以优化编辑的空间范围。广泛的实验和比较证明了我们的方法在创建大量编辑方面的有效性,这是以前的作品无法实现的。

更多Ai资讯:公主号AiCharm
在这里插入图片描述


http://www.ppmy.cn/news/35723.html

相关文章

设计模式-建造者模式

建造者模式是一种创建型设计模式,它允许你创建复杂对象的不同表示,而无需直接与其构造函数参数进行交互。建造者模式将一个复杂对象的构建与其表示分离,使得同样的构建过程可以创建不同的表示。 建造者模式的核心思想是将一个复杂对象的构建…

使用StaMPS_Visualizer

0 前言 StaMPS-Visualizer :由thho开发的用于可视化由StaMPS / MTI处理的DInSAR结果。 github地址:StaMPS-Visualizer 使用StaMPS_Visualizer需要配置好StaMPS,并安装好R和Rstudio Ubuntu中安装StaMPS StaMPS-Visualizer 安装步骤–在linux…

算法:贪婪算法、分而治之

算法:贪婪算法、分而治之 文章目录1.贪婪算法计数硬币实例12.分而治之分割/歇征服/解决合并/合并实例23.动态规划对照实例34.基本概念算法数据定义数据对象内置数据类型派生数据类型基本操作1.贪婪算法 设计算法以实现给定问题的最佳解决方案。在贪婪算法方法中&am…

nodejs+vue手机数码电子网上购物商城电商推荐系统elementui

管理员登陆后,主要功能模块包括首页、个人中心、用户管理、商品分类管理、商品信息管理、系统管理、订单管理等功能。 用户进入系统可以进行首页、商品信息、公告信息、个人中心、后台管理、购物车、在线客服息管理等操 开发语言:nodejsvueelementui 框架…

【虚幻引擎UE】UE5核心效率插件推荐

一、UnrealEditorPythonScripts (基于UE5 的Python支持插件) 支持Python语言基于UE5进行开发 GIT地址:https://github.com/mamoniem/UnrealEditorPythonScripts 二、Haxe-UnrealEngine5 (基于UE5 的Haxe支持插件) Haxe是一门新兴的开源编程语言,是一种开源的编程语言。…

ElasticSearch - SpringBoot整合ES:精确值查询 term

文章目录00. 数据准备01. ElasticSearch 结构化搜索是什么?02. ElasticSearch 结构化搜索方式有哪些?03. ElasticSearch 全文搜索方式有哪些?04. ElasticSearch term 查询数字?05. ElasticSearch term 查询会不会计算评分&#xf…

测试老鸟,带你手写Python自动化测试 ddt 数据驱动框架(超细细)

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 python做自动化测试…

Cursor软件,内含GPT服务,软件免费,可以进行聊天

Cursor软件,内含GPT服务,软件免费,可以进行聊天 Cursor这个软件的安装 安装好后,双点击使用: 最后有软件地址 如果英文不好,怎么办,搭配有道词典: 效率嘎嘎快 用Ctrl+K进行代码指令后面如下自动生成代码 也可以在聊天框里面进行代码的编写和对话