2024 CVPR Highlight Learning-Feedback

news/2025/1/30 20:16:24/

图像增强

Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale Real-World Event-Image Dataset and Novel Approach

解决的主要问题是低光照条件下的图像增强

通过多尺度整体融合分支提取事件和图像的结构和纹理信息,并引入信噪比(Signal-to-Noise Ratio, SNR)引导的区域特征选择,以增强低SNR区域的图像

嵌入表示

 Transcriptomics-guided Slide Representation Learning in Computational Pathology

试图解决的主要问题是如何在计算病理学中有效地从整个千兆像素级的全切片图像学习到有用的嵌入表示

使用ViT来编码组织学幻灯片的图像块,以及使用MLP来编码基因表达数据,通过对比学习对齐

除了对比损失外,作者还引入了表达重建目标和视觉内模态目标

事件相机

  Bilateral Event Mining and Complementary for Event Stream Super-Resolution

旨在解决现有事件相机在复杂场景应用中面临的空间分辨率不足的挑战

采用双流网络分别独立处理正事件和负事件,并通过提出的双边信息交换模块促进两流之间的信息交换

扩散模型

GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors

旨在解决现有3D形状生成模型在几何可行性和物理稳定性方面的一些关键问题

  Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following

旨在解决现有文本到图像扩散模型在解释复杂提示时通常遇到的挑战

引入一个语义面板作为中间件,这个面板通过大型语言模型解析输入文本中的视觉概念,然后将其注入到去噪网络中,作为详细的控制信号以补充文本条件

 EscherNet: A Generative Model for Scalable View Synthesis

试图解决的主要问题是如何学习一个通用的3D表示,以便于实现可扩展的视图合成

EscherNet学习与场景颜色和几何形状相关的隐式表示

 3D重建

MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild

旨在解决从单目野外视频中重建多个人物的3D模型这一具有挑战性的任务

定义整个场景的分层神经表示、使用分层可微体积渲染从视频中学习该表示(为场景中的每个人定义一个3D形状和外观的隐式神经表示,这些表示在场景中是分层和交织的)

图像生成

  Instruct-Imagen: Image Generation with Multi-modal Instruction

  1. 多模态指令引入

  2. 两阶段训练方法

    • 第一阶段:检索增强训练

    • 第二阶段:多模态指令微调

  3. 模型架构设计:Instruct-Imagen基于预训练的文本到图像扩散模型,通过添加一个交叉注意力层来编码多模态指令

 Attention Calibration for Disentangled Text-to-Image Personalization

试图解决的问题是如何从单个参考图像中捕捉多个新颖概念

引入新的可学习修饰符与类别绑定以捕获多个概念的属性,并通过分离和加强不同类别的注意力图来减少概念间的相互影响

姿态估计

 Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

目标是在不需要额外的深度测量或场景重建信息的情况下,通过学习跨图像匹配3D坐标,实现无需尺度的相对相机姿态估计

深度估计

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

探索现代生成性扩散模型中捕获的广泛先验知识是否能够使深度估计更加准确和泛化。

Marigold是一种基于Stable Diffusion的仿射不变单目深度估计方法,它保留了丰富的先验知识


http://www.ppmy.cn/news/1567967.html

相关文章

Ansible介绍与入门学习

一、Ansible的介绍(Ansible is a radically simple IT automation engine 极简的IT自动化工具) 1.Ansible是一款 运维的自动化工具,常用于软件部署自动化、配置自动化、管理自动化等,其内置大量的功能模块来满足日常的工作需要…

深入学习华为IPD流程之华为-PDT经理角色认知培训教材

本文介绍了PDT经理的角色认知,包括其在IPD体系中的位置、基本角色定位、关键管理活动、能力模型和评估方法以及培养路径。文章指出PDT经理是重量级产品开发团队的管理者,负责产品的商业成功和跨功能部门合作,通过绩效管理加强团队凝聚力,对商业结果负责。 重点内容: 1. …

OSPF邻接关系无法建立之MTU问题

OSPF中路由器间从邻居到建立完全邻接需满足以下条件: 1、邻居之间网络通 2、建立邻接的接口不能为OSPF被动接口 3、两台路由器的HELLO时间间隔和DEAD时间间隔必须一致 4、两台路由器的router-id 必须不同 5、如果开了OSPF认证,认证方式和KEY必须一致 6、两台路由器建立…

Vue.js 传递路由参数和查询参数

Vue.js 传递路由参数和查询参数 在 Vue.js 开发中,Vue Router 提供了灵活的方式来处理路由参数和查询参数,使得组件能够根据不同的路径或查询条件渲染相应的内容。 路由参数 路由参数(也称为路径参数)是 URL 路径的一部分&…

【Unity】 HTFramework框架(五十九)快速开发编辑器工具(Assembly Viewer + ILSpy)

更新日期:2025年1月23日。 Github源码:[点我获取源码] Gitee源码:[点我获取源码] 索引 开发编辑器工具MouseRayTarget焦点视角Collider线框Assembly Viewer搜索程序集ILSpy反编译程序集搜索GizmosElement类找到Gizmos菜单找到Gizmos窗口分析A…

react native在windows环境搭建并使用脚手架新建工程

截止到2024-1-11,使用的主要软件的版本如下: 软件实体版本react-native0.77.0react18.3.1react-native-community/cli15.0.1Android Studio2022.3.1 Patch3Android SDKAndroid SDK Platform 34 35Android SDKAndroid SDK Tools 34 35Android SDKIntel x…

自定义数据集,使用 PyTorch 框架实现逻辑回归并保存模型,然后保存模型后再加载模型进行预测

在本文中,我们将展示如何使用 NumPy 创建自定义数据集,利用 PyTorch 实现一个简单的逻辑回归模型,并在训练完成后保存该模型,最后加载模型并用它进行预测。 1. 创建自定义数据集 首先,我们使用 NumPy 创建一个简单的…

【C++动态规划 状态压缩】2597. 美丽子集的数目|2033

本文涉及知识点 C动态规划 LeetCode2597. 美丽子集的数目 给你一个由正整数组成的数组 nums 和一个 正 整数 k 。 如果 nums 的子集中,任意两个整数的绝对差均不等于 k ,则认为该子数组是一个 美丽 子集。 返回数组 nums 中 非空 且 美丽 的子集数目。…