多模态之论文笔记BEiT, BEiT V2, BEiT V3

news/2024/11/30 1:52:47/

文章目录

  • Overview
  • BEiT
    • 1.0. Summary
    • 1.1. BEiT VS BERT
    • 2.1. Two Views: visual tokens
    • 2.1. Two Views: image patches
    • 3. Results
  • BEiT V2
    • 1.0. Summary
    • 1.1. Motivation
    • 2.1. Methods -- VQ-KD
    • 2.2. Methods -- patch aggregation
    • 3.1. Results -- image classification & semantic segmentation
    • 3.2. Results -- Ablation studies about VQ-KD
    • 3.3. Results -- Ablation studies about patch aggregation
    • 3.4. Results -- Visualization
  • VLMO
    • 1.0. Summary
    • 2.1. Contribution 1: MoME
    • 2.1. Contribution 2: Stagewise Pre-Training
  • BEiT V3
    • 1.0. Summary
    • 1.1. Motivations & Contributions
    • 2.1. Method -- Multiway Transformers
    • 2.2. Method -- Masked Data Modeling
    • 2.3. Method -- Scaling up
    • 2.4. Method -- Transfer to downstream tasks
    • 3. Experiments


Overview

BLIP model

BEiT

1.0. Summary

题目: BEiT: BERT Pre-Training of Image Transformers
机构:微软
论文: https://arxiv.org/abs/2106.08254
代码:https://github.com/microsoft/unilm/tree/master/beit
任务: CV的BERT,图像单模态预训练
特点:
方法:
前置相关工作:BERT

1.1. BEiT VS BERT

BEiT: Bidirectional Encoder representation from Image Transformer
BERT: Bidirectional Encoder Representation from Transformer

ModelPretraining TaskMask MethodSpecial Tokens
BERTmasked language modelingmasking 15% tokens 80% [MASK], 10% random, 10% origin[CLS], [SEP]
BEiTmasked image modelingblockwise masking[CLS]

2.1. Two Views: visual tokens

tokenizer需要在pretrain之前先训练好,或者使用网上开源项目的权重(比如DALLE)
作用:为pretrain阶段提供监督信息。类比于NLP中的tokenizer

BLIP model

2.1. Two Views: image patches

  1. 将图片分成patches
  2. blockwise masking一些patches
  3. 拼接[CLS],+ position embedding
  4. 经过transformer encoder预测masked patches对应的visual tokens
BLIP model

3. Results

image classification和semantic segmentation任务上效果好于
(1) training from scratch(ViT, DeiT)
(2) Supervised Pre-Training on ImageNet-22K(ViT)
(3) Self-Supervised Pre-Training on ImageNet-1K(ViT, iGPT, MoCo v3, DINO)

BLIP model

BEiT V2

1.0. Summary

题目: BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
机构:微软
论文: https://arxiv.org/pdf/2208.06366.pdf
代码:https://github.com/microsoft/unilm/tree/master/beit2
任务:
特点:
方法:
前置相关工作:

1.1. Motivation

(1) 当前MIM任务更多关注低层图片元素(像素值),较少考虑高层图片元素(语义信息) NLP中都是挖掘高层的语义信息,所以需要挖掘MIM探索语义信息的能力
(2) MIM任务重视patch的重构,而较少关注对图片全局表征的学习

2.1. Methods – VQ-KD

BLIP model
  • 使用其他已有模型的feature map作为重构对象,teather模型有CLIP和DINO
  • Encoder输出和Codebook Embedding都用L2-norm

2.2. Methods – patch aggregation

BLIP model
  • 增加一个MIM的损失函数,使用第l层的patch tokens和第L层的CLS token,浅层网络
  • 促进CLS学习到图片全局的信息

3.1. Results – image classification & semantic segmentation

BLIP model

3.2. Results – Ablation studies about VQ-KD

BLIP model decoder越复杂,重构loss越小,codebook的利用率越小,下游任务上表现变差 codebook维度越大,利用率越小

3.3. Results – Ablation studies about patch aggregation

BLIP model

3.4. Results – Visualization

BLIP model

VLMO

1.0. Summary

题目: VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
机构:微软
论文: http://export.arxiv.org/pdf/2111.02358
代码:https://github.com/microsoft/unilm/tree/master/vlmo
任务:
特点:
方法:
前置相关工作:

2.1. Contribution 1: MoME

motivation
(1) dual encoder models
比如:CLIP,ALIGN
优势:检索任务上高效 (T2I、I2T)
不足:信息融合简单(cosine similarity或linear proj), 在VR和VQA等任务表现不好
BLIP model

(2) fusion encoder models
比如:ViLT,ALBEF 优势:在推理任务上表现较好,VR和VQA 不足:检索任务上速度较慢

BLIP model

检索任务上性能比较
BLIP model

MoME:Mixture-of-Modality-Experts Transformer
pretraining
BLIP model

fine-tuning

BLIP model

2.1. Contribution 2: Stagewise Pre-Training

motivation
(1) image-text pairs较少,而且文本大多简短
(2) image-only或text-only的数据较多
提出Stagewise Pre-Training策略,为多模态预训练获得较好的初始化权重

BLIP model

BEiT V3

1.0. Summary

题目: Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
机构:微软
论文: https://arxiv.org/pdf/2208.10442v1.pdf
代码:https://github.com/microsoft/unilm/tree/master/beit3
任务:
特点:
方法:
前置相关工作:

1.1. Motivations & Contributions

vision,language and multimodal pretraining相关研究逐渐增多,并且效果不错,本文提出一个general-purpose foundation model,可以做多种模态的任务
Contributions:

  1. backbone:Multiway Transformers
  2. pretext task:mask-then-predict
  3. scaling up the model size and data size

2.1. Method – Multiway Transformers

BLIP model

对于不同模态的输入,使用共享的Multi-Head Self-Attention提取特征
modality experts pool:根据输入模态的不同,选择不同的FFN
所有层都包含V-FFN和L-FFN,只有顶层的3层额外包含VL-FFN

2.2. Method – Masked Data Modeling

在不同的模态上使用统一的pretext task
monomodal:images or texts
multimodal:image-text pairs

不仅能学习到不同模态输入的表征,还能学习到不同模态输入的对⻬关系

text data使用SentencePiece tokenizer
image data使用BEiT v2里的tokenizer

mask 15% tokens in monomodal texts
mask 40% block-wise patches in monomodal images
mask 50% tokens of texts from image-text pairs

2.3. Method – Scaling up

结构简单的backbone和统一的pretrain task使得BEiTv3易于扩展到大规模

BLIP model

2.4. Method – Transfer to downstream tasks

BLIP model

3. Experiments

BLIP model BLIP model

http://www.ppmy.cn/news/696290.html

相关文章

图像分割的大变革:从SAM(分割一切)到FastSAM、MobileSAM

前言 SAM就是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。 在SAM出现前,基本上所有的图像分割模型都是专有模型。比如,在医学领域,有专门分割核磁图像的人工…

验证数据类型的四种方法

/** * 基本数据类型: number string boolean null undefined symbol(es6) bigInt(es10) * 复杂数据类型: array object function * * 验证方法: * 1. typeof * 2. instanceof * 3. constructor * 4. Object.prototype.toString.call…

剖析人生赚钱五大境界颠覆你的认知

这个世界,赚钱的方法数不数胜数。 360行,无论哪个行业都有赚大钱的,都有赚不到钱的。 那今天这篇文章你如果真的看懂了看进去了,对你的将来一定会有巨大的提升,无论是从认知方面,从思维角度、格局树立都会…

微软发布新品被指剽窃!交涉无果,两年开源项目被迫终结

作者 | Tina “我的开源项目被市值高达 1.4 万亿美元的微软偷走了。” 一名开发者用两年的业余时间开发并维护了一个开源项目 AppGet,项目取得了比较大的成功,并引起了微软的注意。 不幸的是,微软在 Build 2020 大会上推出了同样的项目。最终…

openttd架设服务器_Linux游戏评论:OpenTTD

openttd架设服务器 几个月前,我的一个朋友向我介绍了OpenTTD ,这是一个开源(GPLv2)运输计划模拟器游戏。 适用于Android,我在手机上短暂打开了游戏,发现在5英寸的屏幕上使用该界面有些困难。 我的朋友建议在…

html语言中的表单元素,HTML5中的表单元素有哪些

摘要 腾兴网为您分享:HTML5中的表单元素有哪些,指南针,之了课堂,云端学习,易视云3等软件知识,以及挣钱花,猎豹浏览器本,移动彩铃,豆瓣音乐,mine,dnf雪人像素头…

JS笔记

js概念 什么是js js是一种基于对象和事件驱动的解释性脚本语言. 基于对象: js可以使用自己创建出来的对象 事件驱动: 由事件去触发的 解释性: 编译性来说, 不需要进行编译打包,浏览器可以直接识别 跨平台性: 只要有浏览器就可以识别执行 组成部分: ​ ECMAS…

个人目标——娱乐篇(持续更新)

罗素曾说:让自己拥有一种热情(Zest),这种热情可以是某种爱好,也可以是某种兴趣。一个人的兴趣越广泛,所拥有的快乐的机会就越多。即使失去了某一种兴趣,依然可以转向另一种。 兴趣与获取快乐的多…