多模态简单了解

embedded/2024/10/10 22:27:51/

多模态

  • 1.文本编码
  • 2. ViT图像编码器
    • 2.1图像矩阵self-attention计算:
  • 3.Transformer多模态
    • 3.1CLIP 图文交互
    • 3.2 对比学习训练
    • 3.3 flamingo 图文交互
    • 3.4 LLava 图文交互

1.文本编码

简介: 即通过embedding将字符向量化,进入模型即可。

2. ViT图像编码器

在这里插入图片描述
释义:

  1. 图片是由一个个像素点构成的,每个像素点是1-255的数,所以图片其实是天然的矩阵。
  2. 将图片切割成单独的小的部分,延展开,就和文本一样是一些序列,通过Patches,embedding成向量,并且加上位置信息position。
  3. 输入到transformer结构的编码器中,encoder。

2.1图像矩阵self-attention计算:

示例图如下:
在这里插入图片描述

3.Transformer多模态

简介: 即在图文的两种模态模型中,使用transformer的做法。

3.1CLIP 图文交互

在这里插入图片描述
释义:

  1. 即将图片和文本分布输入各自得编码器得到向量。
  2. 将图片和文本的向量进行相关性计算,这样就可以得到一个图片和文本匹配的模型。

作用: 文搜图的功能,以及得到两个较好的文本、图像编码器。

3.2 对比学习训练

在这里插入图片描述
释义:

  1. 通过图像和文本编码器后,得到各个样本的数据
  2. 进行图像和文本的关系计算,这里每一个图片都只有一个正样本,其他的都是负样本,可以得到一个区分识别图片内容的模型。

3.3 flamingo 图文交互

在这里插入图片描述
释义:

  1. 通过self-attention计算文本和图片中的关系时,将文本输入作为Q;图像输入作为K、V计算

示意图:
在这里插入图片描述

3.4 LLava 图文交互

在这里插入图片描述
释义: 即将文本和图像内容拼接在一起送入到self-attention中,即计算图片与图片、文本与文本、还包括图片与文本之间的关系。
在这里插入图片描述


http://www.ppmy.cn/embedded/125572.html

相关文章

理解PID(零)——什么是PID

PID控制器是一种广泛用于各种工业控制场合的控制器,它结构简单,可以根据工程经验整定参数Kp,Ki,Kd. 虽然现在控制专家提出了很多智能的控制算法,比如神经网络,模糊控制等,但是PID仍然被广泛使用。常见的PID控制器有位置…

脉冲神经网络(SNN)论文阅读(六)-----ECCV-2024 脉冲驱动的SNN目标检测框架:SpikeYOLO

原文链接:CSDN-脉冲神经网络(SNN)论文阅读(六)-----ECCV-2024 脉冲驱动的SNN目标检测框架:SpikeYOLO Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance …

旅游管理智能化转型:SpringBoot系统设计与实现

第四章 系统设计 4.1系统结构设计 对于本系统的开发设计,先自上向下,将一个完整的系统分解成许多个小系统来进行实现;再自下向上,将所有的“零件”组装成一个大的、完整的系统。因此这里面的许多个小功能块都要对将要实现的功能进…

C++容器之list基本使用

目录 前言 一、list的介绍? 二、使用 1.list的构造 2.list iterator的使用 3.list capacity 🥇 empty 🥇size 4.list element access 🥇 front 🥇 back 5.list modifiers 🥇 push_front 🥇 po…

【2022工业3D异常检测文献】AST: 基于归一化流的双射性产生不对称学生-教师异常检测方法

Asymmetric Student-Teacher Networks for Industrial Anomaly Detection 1、Background 所谓的学生-教师网络,首先,对教师进行训练,以学习语义嵌入的辅助性训练任务;其次,训练学生以匹配教师的输出。主要目的是让学生…

学习文档三

超过 long 整型的数据应该如何表示? 基本数值类型都有一个表达范围,如果超过这个范围就会有数值溢出的风险。 在 Java 中,64 位 long 整型是最大的整数类型。 long l Long.MAX_VALUE; System.out.println(l 1); // -9223372036854775808 System.ou…

渐进蒸馏和v-prediction

渐进蒸馏和v-prediction TL;DR:比较早期的用蒸馏的思想来做扩散模型采样加速的方法,通过渐进地对预训练的扩散模型进行蒸馏,学生模型一步学习教师模型两步的去噪结果,不断降低采样步数。并提出一种新的参数化形式 v \mathbf{v} …

设计模式之原型模式(通俗易懂--代码辅助理解【Java版】)

文章目录 设计模式概述1、原型模式2、原型模式的使用场景3、优点4、缺点5、主要角色6、代码示例7、总结题外话关于使用序列化实现深拷贝 设计模式概述 创建型模式:工厂方法、抽象方法、建造者、原型、单例。 结构型模式有:适配器、桥接、组合、装饰器、…