CV每日论文--2024.7.24

ops/2024/9/25 8:30:35/

1 、AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description

中文标题:T2V-CompBench:组合文本到视频生成的综合基准AutoAD-Zero:零样本音频描述的免训练框架

简介:我们的目标是以无需训练的方式为电影和电视剧生成音频描述(AD)。我们利用现成的视觉-语言模型(VLM)和大型语言模型(LLM)的能力,并为此任务开发了视觉和文本提示策略。

我们的主要贡献包括:

我们证明了VLM可以成功地命名和指称角色,只需直接通过视觉提示提供角色信息,而无需进行任何微调。

我们开发了一个两阶段的过程来生成AD。第一阶段要求VLM全面描述视频,第二阶段利用LLM将密集的文本信息总结成一个简洁的AD句子。

我们制定了一个新的电视音频描述数据集。

我们提出的方法名为AutoAD-Zero,在电影和电视剧的AD生成中表现出色,甚至可与一些基于真实AD进行微调的模型相竞争,实现了最先进的CRITIC分数。

2、BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes

中文标题:BoostMVSNeRFs:将基于 MVS 的 NeRFs 提升到大规模场景中的可泛化视图合成

简介:虽然神经辐射场(NeRF)展示了出色的质量,但其漫长的训练时间仍然是一个限制因素。虽然可减少训练时间的通用和基于多视角重建的NeRF可以缓解这一问题,但往往会在质量上产生权衡。

本文提出了一种名为BoostMVSNeRFs的新方法,以提高大规模场景中基于多视角重建的NeRF的渲染质量。首先,我们确定了基于多视角重建的NeRF方法的局限性,例如受限的视口覆盖范围和由于有限输入视图而产生的伪影。

为了解决这些限制,我们提出了一种新方法,在体积渲染期间选择和组合多个代价体。我们的方法不需要训练,可以以前馈方式适应任何基于多视角重建的NeRF方法以提高渲染质量。此外,我们的方法也可以进行端到端的训练,允许在特定场景中进行微调。

我们通过对大规模数据集进行实验来展示我们方法的有效性,在大规模场景和无限制的户外场景中显示出显著的渲染质量改进。我们在https://su-terry.github.io/BoostMVSNeRFs/发布了BoostMVSNeRFs的源代码。

3、Reconstructing Training Data From Real World Models Trained with Transfer Learning

中文标题:从经过迁移学习训练的真实世界模型重建训练数据

简介:本文提出了一种新方法,使得在高分辨率图像上训练的模型能够在现实场景中进行数据重建。与之前的方法相比,我们的方法具有以下优点:

适应性强:我们将先前的重建方案(arXiv:2206.07758)迁移到现实场景中,特别针对使用大型预训练模型(如DINO-ViT和CLIP)进行迁移学习训练的模型。

适用性广泛:我们的方法在嵌入空间而不是图像空间中进行数据重建,展示了它在视觉数据之外的适用性。

识别改进:我们引入了一种新的基于聚类的方法,从成千上万个候选项中识别出好的重建结果,显著改进了以往依赖于训练集知识的方法。

隐私风险揭示:我们的研究结果揭示了使用迁移学习训练的模型可能存在数据泄露的潜在隐私风险。

与此前方法相比,我们的方法在现实场景中展现出了更强的适应性和广泛性,并提出了更优秀的结果识别机制,为该领域的进一步发展提供了有价值的研究洞见。


http://www.ppmy.cn/ops/95010.html

相关文章

【Nodejs】六、express框架

目录 一、express 介绍 二、express 使用 2.1 express 下载 2.2 express 使用 三、express 路由 3.1 什么是路由 3.2 路由的使用 3.3 获取请求参数 3.4 获取路由参数 四、express 响应设置 五、express 中间件 5.1 什么是中间件 5.2 中间件的作用 5.3 中间件的类…

抓包分析排查利器TCPdump

tcpdump命令介绍与常规用法。 基础命令介绍 # 固定语法 -i 指定网卡名称 -nn 显示IP地址 -w 指定输出的文件名称 tcpdump -i eth0 -nn -w test.cap-nn 不把主机的网络地址与协议转换成名字 -w 把数据包数据写入指定的文件 and 连接参数 host 指明主机 port 指明端口 src 源IP…

Unity透视镜透视效果——Shader

一、效果示意图 二、透视的过程 要看的效果:【相机】借助【球体】,透过【圆柱】看到【红色的方块】 三、实现原理-Shader 借助shader,两个挂有特殊shader的物体,当他们在视线里重叠的时候,重叠的部分变成透明。 …

SpringAOP 面向切面编程

** Spring有两大核心特性:IOC(控制反转) 和 AOP(面向切面编程),但是 相比IOC在日常工作中的广泛应用,AOP却常常做了冷板凳,下面我从工作中的场景为大家打开AOP面向切面编程的大门。** 什么是AOP? 在软件业,AOP为Asp…

0815,析构函数,拷贝构造函数,赋值运算符函数

来自同济医院的问候 目录 01:对象创建 001.cc 003size.cc 02:对象销毁 004pointer.cc 005destroytime.cc 03:本类型对象的复制 3.1 拷贝构造函数 006cp.cc 007cptime.cc 008recursion.cc 009rightleft.cc 3.2 赋值运算符函数 …

jar包在linux无法直接获取resources文件夹下的文件

windows下,通过hutool的FileUtil.file()就可以获取到文件,通过MailUtil.send()将邮件带附件的方式成功,携带附件发邮件。 linux下部署,截图中的FileUtil.file()是拿不到文件的,报IOException while sending message&a…

[论文笔记]ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

引言 今天带来ZeRO: Memory Optimizations Toward Training Trillion Parameter Models的论文笔记。 大型深度模型提供了显著的准确性提升,但训练数十亿到数万亿个参数是具有挑战性的。现有的解决方案,如数据并行和模型并行,存在基本的局限…

drools规则引擎 规则配置文件drl语法使用案例

前提:环境搭建,参考博文springboot整合drools规则引擎 示例入门-CSDN博客案例1,商城系统消费赠送积分 100元以下, 不加分 100元-500元 加100分 500元-1000元 加500分 1000元 以上 加1000分订单pojo编写 package cn.beijing.model;import lom…