每日学术速递5.13

news/2024/11/25 18:51:09/

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

 

Subjects: cs.CV

1.VideoChat: Chat-Centric Video Understanding

标题:VideoChat:以聊天为中心的视频理解

作者:KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao

文章链接:https://arxiv.org/abs/2305.06355

项目代码:https://rl-at-scale.github.io/

摘要:

        我们在这项研究中,我们通过引入以端到端聊天为中心的视频理解系统 VideoChat,开始对视频理解的探索。它通过可学习的神经接口集成了视频基础模型和大型语言模型,在时空推理、事件定位和因果关系推理方面表现出色。为了指导性地调整该系统,我们提出了一个以视频为中心的指令数据集,该数据集由数千个与详细描述和对话相匹配的视频组成。该数据集强调时空推理和因果关系,为训练以聊天为中心的视频理解系统提供了宝贵的资产。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力,并为未来的研究设定了标准。通过此 https URL 访问我们的代码和数据

2.Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

标题:Relightify:通过扩散模型从单个图像中重新照明 3D 人脸

作者:Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou

文章链接:https://arxiv.org/abs/2305.06077

项目代码:https://foivospar.github.io/Relightify/

摘要:

        继扩散模型在图像生成方面取得显着成功之后,最近的工作也展示了它们以无监督方式解决许多逆问题的令人印象深刻的能力,方法是根据条件输入适当地约束采样过程。受此启发,在本文中,我们提出了第一种使用扩散模型作为先验的方法,用于从单个图像进行高精度 3D 面部 BRDF 重建。我们首先利用高质量的面部反射率 UV 数据集(漫反射和镜面反照率和法线),我们在不同的照明设置下渲染以模拟自然 RGB 纹理,然后在串联的渲染纹理对上训练无条件扩散模型和反射成分。在测试时,我们将 3D 可变形模型拟合到给定图像,并在部分 UV 纹理中展开面部。通过从扩散模型中采样,在保持观察到的纹理部分完好无损的同时,该模型不仅修复了自遮挡区域,还修复了未知的反射分量,在一个单一的去噪步骤序列中。与现有方法相比,我们直接从输入图像中获取观察到的纹理,从而导致更忠实和一致的反射率估计。通过一系列定性和定量比较,我们在纹理完成和反射重建任务中展示了卓越的性能。

3.TidyBot: Personalized Robot Assistance with Large Language Models

标题:TidyBot:具有大型语言模型的个性化机器人协助

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2305.05658

项目代码:https://tidybot.cs.princeton.edu/

摘要:

        机器人要想有效地提供个性化的物理帮助,就必须了解用户的偏好,这些偏好通常可以重新应用于未来的场景。在这项工作中,我们研究了家庭清洁的个性化,机器人可以通过拾取和放好物品来整理房间。一个关键的挑战是确定放置每个物体的合适位置,因为人们的喜好会因个人品味或文化背景而有很大差异。例如,一个人可能更喜欢将衬衫存放在抽屉中,而另一个人可能更喜欢将它们放在架子上。我们的目标是构建可以通过与特定人的先前交互从少数示例中学习此类偏好的系统。我们表明,机器人可以将基于语言的规划和感知与大型语言模型 (LLM) 的少量摘要功能相结合,以推断广泛适用于未来交互的广义用户偏好。这种方法可以实现快速适应,并在我们的基准数据集中对看不见的物体实现 91.2% 的准确率。我们还在真实世界的移动机械手 TidyBot 上展示了我们的方法,它在真实世界的测试场景中成功地放置了 85.0% 的物体。

更多Ai资讯:公主号AiCharm
在这里插入图片描述


http://www.ppmy.cn/news/68844.html

相关文章

dubbo技术

1、Dubbo的前世今生 2011年10月27日,阿里巴巴开源了自己的SOA服务化治理方案的核心框架Dubbo,服务治理和SOA的设计理念开始逐渐在国内软件行业中落地,并被广泛应用。 早期版本的dubbo遵循SOA的思想,是面向服务架构的重要组件。 …

小宁ChatGPT智能机器人上线,无需魔法注册即可使用!

​大家好,今天我要向大家介绍一款基于人工智能技术的聊天机器人——ChatGPT。ChatGPT可以与用户进行自然语言交互,回答用户的问题、提供服务、进行闲聊等,让聊天变得更有趣。 小宁ChatGPT是对接ChatGPT官方api,实现无需魔法无误差…

使用Spring Boot和Docker构建可伸缩的微服务架构,应对增长的业务需求

使用Spring Boot和Docker构建可伸缩的微服务架构,应对增长的业务需求 一、简介1. 微服务架构的定义2. Spring Boot和Docker的概述 二、Spring Boot1. Spring Boot的介绍2. Spring Boot的优势3. Spring Boot的组件4. Spring Boot的应用 三、Docker1. Docker的介绍2. …

全网首次公开,阿里巴巴新产Java性能优化小册(2023版),理论实战起飞

性能优化可以说是很多一线大厂对其公司内高级开发的基本要求(其中以Java岗最为显著)。其原因有两个:一是提高系统的性能,二是为公司节省资源。两者都能做到,那你就不可谓不是普通程序员眼中的“调优大神了”。 那么如…

C++ 中到底是应该include .h文件还是应该include .cpp文件

在阅读一个较大的解决方案中,对于其他文件夹下的.h和.cpp文件,有时候#include“XXX.h”文件,有时候是#include“XXX.cpp”文件,而且二者还不能更换。下面就好好分析一下他们二者的区别。 测试 测试:XXX.h和XXX.cpp…

【免交互】

目录 一、免交互1.1、语法格式1.2、命令演示1、多行写入文件内容2、多行注释 二、Expect2.1、基本命令2.2、脚本操作 一、免交互 1、使用I/O重定向的方式将命令列表提供给交互式程序或命令,比如 ftp、cat 或 read 命令。 2、是标准输入的一种替代品可以帮助脚本开发…

VMware Aria Suite 8.12 - 云管理解决方案 (下载索引)

VMware Aria Suite 8.12 - 云管理解决方案 (下载索引) 请访问原文链接:https://sysin.org/blog/vmware-aria-suite/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org 云管理套包 VMware Aria Suite(以前…