已读论文创新点合集

embedded/2024/9/21 2:28:32/

系列文章目录


文章目录

  • 系列文章目录
  • 一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》
  • 二、《MaPLe: Multi-modal Prompt Learning》
  • 三、《Learning to Prompt for Vision-Language Models》CoOp


一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》

第一、本文提出了一种标记对齐技术LAMM,它通过梯度优化来自动搜索最优嵌入。据论文作者所知,可训练类别标记的概念是在预训练的VL模型中首次提出的。
第二、为了避免整个提示模板的语义特征偏离太远,作者在训练阶段引入了层次丢失。层次损失便于在参数、特征和logit空间之间对齐类别表示。通过这些操作,CLIP模型的泛化能力在LAMM中得以保留,使得LAMM在下游任务中更好地区分不同的类别,同时保留了原始类别描述的语义。
第三、假定LAMM仅微调下游数据集中的标签嵌入,则它不会遇到在连续学习期间传统方法中通常遇到的灾难性遗忘问题。

二、《MaPLe: Multi-modal Prompt Learning》

(1)我们建议在CLIP中采用多模态快速学习,以使其视觉语言表征更好地保持一致。据我们所知,这是第一个用于微调CLIP的多模态提示方法.
(2)为了将在文本和图像编码器中学习到的提示联系起来,我们提出了一个耦合函数,以明确地将视觉提示条件化到它们的语言对应物上。它是两种模式之间的桥梁,允许梯度的相互传播,以促进协同作用。
(3)我们的多模态提示是在视觉和语言分支的多个Transformer模块中学习的,以逐步学习两种模态的协同行为。这种深度提示策略允许独立地对上下文关系建模,从而提供更大的灵活性来对齐视觉-语言表示。

三、《Learning to Prompt for Vision-Language Models》CoOp

(1)我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究,并确定了与部署效率相关的一个关键问题,即,提示工程。
(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。
(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。
(4)我们在github上开放了我们的项目的源代码。


http://www.ppmy.cn/embedded/113076.html

相关文章

【30天玩转python】高级数据结构

高级数据结构 在 Python 中,除了基础的列表、元组、字典和集合等数据结构之外,还有一些更复杂和高级的数据结构。这些数据结构在解决特定问题时能够提供更好的性能和更强的功能。本节将介绍一些常用的高级数据结构,包括堆、队列、双端队列、…

C++笔记---多态

1. 多态的概念 多态(polymorphism)的概念:通俗来说,就是多种形态。 多态分为编译时多态(静态多态)和运行时多态(动态多态),这里我们重点讲运行时多态,编译时多态(静态多态)和运行时多态(动态多态)。 编译时多态(静态多态)主要就…

CPU 和 GPU:为什么GPU更适合深度学习?

目录 什么是 CPU ? 什么是 GPU ? GPU vs CPU 差异性对比分析 GPU 是如何工作的 ? GPU 与 CPU 是如何协同工作的 ? GPU vs CPU 类型解析 GPU 应用于深度学习 什么是 CPU ? CPU(中央处理器)…

用于稀疏自适应深度细化的掩码空间传播网络 CVPR2024

目录 Masked Spatial Propagation Network for Sparsity-Adaptive Depth Refinement (CVPR 2024)用于稀疏自适应深度细化的掩码空间传播网络1 介绍2 算法流程2.1 问题建模2.2 Guidance Network2.3 MSPN 模块 3 实验结果3.1 稀疏度自适应深度细化对比试验…

分享JavaScript中直接调用CSS中的类名

分享JavaScript中直接调用CSS中的类名 在现代的 JavaScript 框架(如 React、Vue)中,使用 CSS 模块(CSS Modules)是一种非常流行的方式。.module.css 文件扩展名代表的是 CSS 模块,它与普通的 CSS 文件不同…

Java 之 IO流

一、IO流概述 在计算机编程中,IO流(Input/Output Stream)是处理设备间数据传输的关键技术。简单来说,IO流就是以流的方式进行输入输出,数据被当作无结构的字节序或字符序列来处理。在Java等编程语言中,IO流…

vscode从本地安装插件

1. 打开VSCode。 2. 点击左侧菜单中的“扩展”(或按CtrlShiftX)。 3. 点击“更多操作”(三个点)> “从VSIX安装”。 4. 选择下载的.vsix文件。 5. 点击“安装”即可安装插件。

redis简单使用与安装

redis redis 是什么 Redis 是一个开源的,使用 C 语言编写的,支持网络交互的,内存中的Key-Value 数据结构存储系统,支持多种语言,它可以用作数据库、缓存和消息中间件。 一、存储系统特性 内存存储与持久化 Redis 主要将数据存储在内存中,这…