【微软:多模态基础模型】(5)多模态大模型:通过LLM训练

ops/2024/11/24 7:40:37/

欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html)原创作品
【微软:多模态基础模型】(1)从专家到通用助手
【微软:多模态基础模型】(2)视觉理解
【微软:多模态基础模型】(3)视觉生成
【微软:多模态基础模型】(4)统一视觉模型
【微软:多模态基础模型】(5)多模态大模型
【微软:多模态基础模型】(6)多模态代理

【微软:多模态基础模型】(5)多模态大模型:通过LLM训练

  • Multimodal Foundation Models: From Specialists to General-Purpose Assistants
  • 5. 多模态大模型:通过LLM训练
    • 5.1 背景
      • 5.1.1 图像到文本的生成模型
      • 5.1.1 案例研究
      • 5.1.3 LMMs 研究与多模态GPT-4 的差距
    • 5.2 先决条件:大型语言模型中的指令调整
      • 5.2.1 指令调优
      • 5.2.2 自我指导微调和开源LLM
    • 5.3 指令调优多模态大模型
    • 5.4 高级讨论
    • 5.5 如何接近OpenAI 多模态GPT4?

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

2023 年 6 月,微软在 CVPR2023 发表论文「 多模态基础模型:从专家到通用助手 」(Multimodal Foundation Models: From Specialists to General-Purpose Assistants) 。本文全面综述了多模态基础模型的分类和演化,这些模型展示了视觉和视觉语言能力,并重点关注了从专家向通用助手的过渡。

论文下载地址:
https://arxiv.org/abs/2309.10020
https://ar5iv.labs.arxiv.org/html/2309.10020


5. 多模态大模型:通过LLM训练

Chapter 4:Large Multimodal Models: Training with LLM

在这里插入图片描述

在本章中,我们全面探讨了大型多模态模型(Alayrac等,2022;OpenAI,2023a)。
我们从第5.1节开始,深入研究此类模型的背景,重点介绍图像到文本生成模型的基础知识及其在各种案例研究中的代表性模型实例。我们还讨论了最先进的OpenAI多模GPT-4(OpenAI,2023a),并确定了该领域现有的研究差距。为了更好地理解大型语言模型中的指令调优过程,第5.2节考察了它在自学和开源LLM中的重要性和作用。接下来,我们将在第5.3节中探讨指令调优的大型多模态模型,阐明它们的基础、意义和应用。第5.4节涉及多模态模型领域的高级主题,以加深对该主题的理解。最后,我们在第5.5节中,通过评估实现OpenAI多模态GPT-4的接近程度,来评估该领域的当前进展,这是人工智能研究的一个重要里程碑。


5.1 背景

5.1.1 图像到文本的生成模型

当前的多模态大模型(Large Multimodal Models,LMMs)主要是一种图像到文本的生成模型,它以图像为输入,输出文本序列。图5.1a左侧展示了一个示例。所有模型的变体都有一个非常相似的模型架构和训练目标。

  • 模型架构
    如图5.1a 所示,该模型通常包括包括一个图像编码器以提取视觉特征,及一个语言模型以解码文本序列。视觉和语言模态可以选择性地通过可训练的连接模块相互连接。图像编码器和语言模型可以从头开始训练,也可以从预训练模型初始化。
  • 训练目标
    如图5.1b所示,通常对输出文本标记采用自回归损失。在Transformer中的注意力图中(Vaswani等,2017),图像标记可以相互关注,当前文本标记关注所有图像标记和以前的文本标记。

在这里插入图片描述
图5.1:图像到文本生成任务、架构和培训目标的说明。


5.1.1 案例研究

我们使用一些著名的LMMs作为示例,以说明如何在不同模型中实例化上述的网络架构,同时保持相同的自回归训练目标。

案例研究 1:使用图像-文本成对实例训练的LMM。

大多数LMMs都是在大量的图像-文本对上进行训练的,其中每个训练样本都是一对。GIT(Wang等,2022a)和BLIP2(Li等,2023h)是两个在许多数据集上取得了最先进(SoTA)性能的大型模型。比较结果如图5.2a所示。GIT使用对比性预训练的Florence模型(Yuan等,2021)初始化图像编码器,并从头开始训练语言模型。而 BLIP2 冻结了预训练图像编码器和预训练语言模型的权重,同时训练了一个轻量级的Q-former模块来连接图像编码器和语言模型。

案例研究 2:使用交错的图像文本序列实例训练LMM

我们以Flamingo(Alayrac等,2022)为例,如图5.2b所示。它通过在冻结的预训练图像编码器和语言模型之间添加新的架构组件来连接它们。具体来说,感知采样器模块有助于降低计算复杂性,而门控变换器模块块有助于在初始阶段稳定训练。Flamingo是 在仅来自网络的大规模多模态数据的混合数据上训练的,而不使用任何用于机器学习目的的注释数据。训练完成后,Flamingo可以通过简单的少量样本学习直接适应视觉任务,而无需进行额外的特定于任务的调整。

在这里插入图片描述
图5.2:图像到文本生成模型示例。

多模态上下文学习。

除了在数十个学术基准测试中具有最优秀的 SoTA性能之外,Flamingo最吸引人的方面可能是新出现的特性:多模态上下文学习。具体而言,给定一对图像-文本对作为示例,Flamingo可以零样本任务转移到未见过的问题,例如解决视觉数学问题。这意味着Flamingo可以仅凭少量特定于任务的示例处理许多困难的问题,无需进行额外的训练。例如,在图5.3中,向Flamingo提出了两个新任务。最上面一行提供了两个图像文本对作为提示中的上下文,其中文本描述了图像中动物的名称,后面是动物的地理信息。Flamingo能够理解示例中呈现的模式,并为新图像输出相应的信息。在底部的行中,文本首先显示了图像的OCR结果,然后是数学问题的答案。Flamingo遵循多模态上下文中的任务说明,并为第三个图像中的新数学问题输出正确答案。这种有趣的上下文学习能力使 Flamingo 成为多模态领域的GPT-3时刻(Brown等,2020)。
在这里插入图片描述
图5.3:网络规模交错图像文本数据预训练的新兴特性:上下文学习中的多模态


5.1.3 LMMs 研究与多模态GPT-4 的差距

在2023年3月,OpenAI发布了GPT-4(OpenAI,2023a),在视觉理解和推理方面具有令人印象深刻的能力。尽管模型的详细信息没有被公开,但毫无疑问,GPT-4可以实现许多新的应用场景,这一点在技术报告中的示例中得到了突出体现。例如,图5.4 中展示了两个流行的视觉示例。第一个示例识别了不寻常的视觉区域,并表现出强大的复杂推理性能。第二个示例识别了图像中的文本并捕获了跨图像-文本的相关性。有一段时间,研究界不知道这种新能力是如何实现的(可能是因为它们与现有的学术任务/数据集并没有联系),但所有人都确定这些都是令人兴奋的成果。这自然引发了一个问题:我们如何构建类似GPT-4的多模态模型?

在这里插入图片描述
图5.4:OpenAI多模态GPT-4。


为了回答这个问题,让我们开始回顾OpenAI的大模型,在图5.5中突出显示每个模型最吸引人的属性。有几个关键的观察结果:

  • GPT-2(Radford等,2019)是BERT时代(Devlin等,2019)预训练-微调范式的自回归对应物。与GPT-2相比,GPT-3(Brown等,2020)是一个在网络规模文本语料库上训练的 175B 的模型,展现出两个新出现的属性:上下文学习(Brown等, 2020)和思维链(CoT)推理(Wei 等, 2022a)。这意味着,在没有额外训练的情况下,该模型可以通过一些特定任务的示例来解决各种新问题,并通过逐步适当引导它来完成。这进一步导致了从特定任务微调的建模范式到引导冻结模型的范式,后者在任务迁移中表现出更高的泛化能力和更低的适应成本
  • ChatGPT和InstructGPT (Ouyang 等, 2022) 通过在高质量的指令遵循数据上微调基本语言模型GPT-3/GPT-3.5,并通过人类反馈的强化学习奖励模型来改进它们,展示了指令遵循和与人类意图对齐对LLMs的重要性。
  • GPT-4不仅提高了以前模型的语言能力,还允许视觉信号作为额外的输入进行视觉理解和推理。我们看到新一代模型保留/改进了以前模型的现有属性,并启用了新属性。

换句话说,从GPT-3到GPT-4,我们看到了两个新属性:指令遵循和多模态输入。这揭示了现有LMMs(如Flamingo)和多模态GPT-4之间的差距:如何在多模态空间中进行指令遵循和对齐研究,这也是本章的重点。


5.2 先决条件:大型语言模型中的指令调整

请注意,指令遵循是一个起源于自然语言处理领域的概念。为了理解它背后的直觉和全面了解它的历史,我们首先回顾一下大型语言模型中的指令调整。

在这里插入图片描述
图5.5:语言建模回顾:OpenAI LLM发展历史。强调了每一代模型的独特属性,从中揭示了LMM的研究差距。

在这里插入图片描述
图5.6:分别以传统和教学语言数据表示的任务指令示例。

传统的语言数据。
在自然语言处理中,序列到序列(seq2seq)表示被广泛应用于许多语言任务:每个数据实例由两部分组成,一个序列作为输入,另一个序列作为输出。我们在图5.6a 中提供了两个示例。即使没有任何任务说明,我们也知道它们分别是翻译和摘要任务。

这种seq2seq表示法也是自然语言处理研究中的传统数据格式,其中任务说明指令是隐式的。基于每个数据领域,训练单独的模型。或有时一个模型在多个数据域上使用多任务目标进行训练,而不指定任务指令。在这两种情况下,模型很难以零样本方式推广到新任务,因为它们没有被训练来理解任务说明指令,因此在测试时无法区分和推广要执行哪个任务。

指令语言数据。

最近,研究人员开始在模型训练中明确添加任务说明指令,如图5.6b所示。有趣的是,大多数自然语言处理任务的任务说明也可以用自然语言来表达。这引发了一种新的数据格式:指令-输入-输出的三元组。基于这种新格式,可以训练单个模型执行多个任务,每个任务都有特定的指令。由于模型在训练过程中观察到了许多任务说明指令和每个任务的许多实例,因此它们更容易在推理阶段通过任务组合自然地将其推广到新任务。

例如,如图5.6c 所示,在评估阶段提供了一个需要摘要和翻译的新任务。尽管模型在训练过程中从未见过这个新任务,但它观察到了单个任务的基础,并学会了在新任务上执行。请注意,我们人类在日常生活中总是在创造新的任务,而这些新任务很可能从未被模型观察到。因此,如果一个模型能够在未经训练的情况下解决成千上万个新任务,这将是非常吸引人的。这就是为什么ChatGPT 如此迅速地流行起来的部分原因。


5.2.1 指令调优

我们如何收集多样化的高质量的指令遵循数据?一般有两种方案。一种是通过人与人之间的交互,其中一组人类(任务提供者)提供注释语句和要求,然后另一组人类完成注释任务。这种方案通常费时且昂贵。另一种方法是通过人机互动,类似地,人类提供注释语句和要求,但现在是机器/模型完成注释任务。

为了使LLM能够遵循自然语言指令并完成现实世界的任务,研究人员一直在探索方法来对LLM进行指令调整。这是通过使用人工注释的提示和反馈对模型进行微调(Ouyang等,2022)来实现,,或者使用公共基准和数据集进行监督微调,并辅以手动或自动生成的指令(Wang等,2022f)。在这些方法中,自指导微调(Self-instruct tuning)是一种简单而有效的方法,通过学习由SoTA LLM生成的遵循指令数据,以将LLM与人类意图对齐。指令调整研究为提高LLM的零样本和少搜索泛化能力提供了有效的手段。自我指导利用了LLM的上下文学习能力。流程如图5.7所示。人类创建一些示例(即种子示例),作为生成指令的起点,并要求GPT-3或GPT-4等LLM根据提示中的要求创建更多的指令和响应。随后,可以进一步选择机器生成的指令遵循数据,以便使用上下文学习的提示构建下一次数据生成的迭代。迭代该过程,直到收集到一定数量的样本。由于与人工注释相比,API 调用的相对较低成本和更快的响应速度,自我构造在研究界变得越来越流行。

在这里插入图片描述
图5.7:自我指导的流程示意图


5.2.2 自我指导微调和开源LLM

开源社区见证了开源LLM(大型语言模型)的激增。ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)的成功,为通过指令调整改进开源 LLM 提供了巨大机会。图5.8比较了几个经过指令调整的开源LLM。LLaMA(Touvron 等,2023)是一系列开源 LLM,与专有LLM(如GPT-3)的性能相当。为了教会LLaMA 遵循指令,自我指导调整(Self-instruct)因其卓越的性能和低成本已迅速被采用。例如,在这一研究领域的一些早期尝试中,,斯坦福的 Alpaca(Taori等,2023)使用GPT-3.5 生成的 5.2万条遵循指令的样本,而 Vicuna(Vicuna,2023)用户和GPT(ShareGPT,2023)之间使用约50万条高质量遵循指令样本(15万次对话)。为了推进LLM的指令调整的最新技术,Peng等(2023a)使用GPT-4 作为教师生成 Alpaca 指令的响应。许多后续工作(Zhang等,2023i)改进了指令遵循的数据,使开放LLM在聊天中具有更好的对齐质量。为了进行全面的回顾,我们建议读者参考最近的一篇论文(Wang等人,2023k),其中LLM Tulu是在几种高质量的指令数据的混合训练下,对多个基准进行了全面比较。

在这里插入图片描述
图5.8:LLaMA系列的模型示例。


LLM聊天机器人的快速评估

为了研究LLM聊天机器人的质量,我们考虑了 Vicuna指令-801(Vicuna,2023),一个包含80个问题的数据集,基线模型(Touvron等人,2023)发现这些问题具有挑战性。除了通用指令外,指令还分为8类,包括知识、数学、费米、反事实、角色扮演、通用、编码、写作和常识。为了定量比较性能,我们使用 GPT-4 对两个给定的聊天机器人的响应进行评分,从1到10,然后计算相对得分。令人惊讶的是,事实证明,这个评估指标在不同的设置时相当一致。开源 LLaMA 家族似乎在性能上接近SoTA专有聊天机器人。

进一步讨论

关于LLM,有几个重要的主题我们在本章中没有涉及,但值得未来探索。

  • 以数据为中心的人工智能。我们强调,这些开源LLM的发展是以数据为核心的(Mazumder等人,2022),而不是以模型为中心的,因此我们希望读者在讨论这个话题时能够认同这一观点。随着训练目标和网络架构变得与 GPT类模型相似甚至相同,关键的差异因素是数据。例如,上述LLM的行为由指令调整数据决定。

  • 虚假承诺?关于开源 LLM 能否赶上专有LLM的说法存在争议,这是一个虚假的承诺(Gudibande等,2023)。为了使讨论保持一致,我们认为LLM具有两种独特的能力:一种是指令遵循能力,即知道执行哪项任务,另一种是大规模知识存储能力,以高质量地完成任务。模仿的模型在前者方面表现出色,通过模仿ChatGPT的风格,但在响应的准确性方面表现不佳。在Gudibande等(2023)的研究中,作者得出结论,开源和专有LLM之间存在实质性的能力差距,当前方法只能通过大量模拟数据或使用更有能力的基础LLM来弥补这一差距。他们还主张,改进开源模型的最有效途径,是应对开发更好的基础LLM的艰巨挑战。然而,不幸的是,训练这种基础LLM所需的资源只在少数工业实验室中可获得。对于大多数学术研究实验室来说,探索将研究与负担得起的资源相结合的机会,或者探索减少计算障碍的技术,似乎更有希望。

  • 基础LLM。开发更强大或商业上可用的LLM具有巨大的价值。除了LLaMA,开源社区还开发了基础LLM的变体,如LLaMA-2、OpenLLaMA(Geng等,2023)、MPT(Team,2023)和 Falcon(Penedo等人,2023),或发布了训练方法(Computer,2023)。


5.3 指令调优多模态大模型

在本节中,我们将说明如何使用开源资源构建多模态 GPT-4的最小原型。具体而言,我们以LLaVA(Liu等人,2023c)为例来进行,在 MiniGPT-4(Zhu等,2023a)中也提出了类似的想法。

近年来,多模态领域的研究常常受到自然语言处理领域最新进展的启发。一种成功的方法是,探索将自然语言处理领域最引人注目和成功的思想应用于视觉与语言领域,例如自我指导。然而,在多模态研究中,自我指导面临的独特挑战在于,目前没有强大的多模态数据公开可用。因此,研究问题变成了:我们如何使用纯文本的 GPT-4 等语言模型来创建多模态的指令遵循数据。

数据创建

与直接将图像输入到 OpenAI GPT-4不同,我们使用如图5.9a 所示的符号序列表示。在 LLaVA 中,考虑了标题和边界框,原因如下:(1)实验证明GPT-4可以很好地理解这两者,而 ChatGPT 在理解边界框坐标方面的性能相比较差。(2)它们通常是互补的,因此可以尽可能多地提供图像的信息。

如图 5.9b 所示,考虑了三种类型的指令遵循数据:
(1)多轮对话,以便用户可以与模型聊天;
(2)详细描述,以便可以从模型生成长篇的响应;
(3)复杂推理,更多的是关于图像的含义,而不是图像内容。
例如,“这些人面临着什么挑战?”,这需要首先认识到图像是关于停车场的SUV,地面上放置了相当多的行李,然后推断出挑战是由于后备箱空间狭小,如何能将行李装入SUV。总共收集了三种类型的158K个样本。总之,无论用户希望模型在服务阶段执行什么任务,重要的是创建相应的指令遵循数据进行训练。

在这里插入图片描述
图5.9:多模式指令跟踪数据示例。


网络架构和训练

如图5.10所示,LLaVA的网络架构是第5.1节(图5.1)介绍的通用图像到文本生成模型框架的一个示例。具体而言,LLaVa通过简单的投影矩阵(即线性投影层)连接预训练的CLIP ViT-L/14视觉编码器(Radford等,2021)和大型语言模型Vicuna(Vicuna,2023),采用两阶段指令调优过程来训练模型。第一阶段:特征对齐的预训练。基于CC3M的子集,仅更新投影矩阵(Changpinyo等,2021)。第二阶段:端到端的微调。在针对日常用户应用的多模态指令遵循数据上,同时更新投影矩阵和LLM。
在这里插入图片描述
图5.10:网络架构:左:通用LMM;右:LLaVA。


性能

  • 视觉对话:向构建多模态 GPT-4级聊天机器人的努力。

LLaVA 在生成的多模态指示遵循数据上进行了微调,其中包含各种面向日常用户应用的任务指示和的响应。经验表明,仅微调线性投影层就足以用于聊天演示/场景,尽管需要更长的训练时间。为了评估模型性能,构建了一个名为 LLaVA-Bench 的评估数据集,包括两个子集:(1) LLaVA-Bench(COCO):30 张未见过的 COCO 图像,包含 90 个新的语言-图像指令,(2) LLaVA-Bench(野外):包含 24 张图像和 60 个问题。每张图像可以与三种类型的指令相关联:对话、详细描述和复杂推理。答案是通过手动重新编写 GPT-4 的输出来收集的。

我们测试了 LLaVA 并使用仅包含文本的 GPT-4 对它们的响应进行评分,评分范围从1~10。总体而言,在 LLaVA-Bench(COCO)上,LLaVA 达到了相对分数 85.1%,在 LLaVA-Bench(In-the-Wild)上为 73.5%。在后一个数据集上,Google Bard(2023年7月19日)和微软 BingChat(2023年6月29日)分别获得了77.8%和71.5%的分数。这表明了自我指导方法在多模态环境中的有效性。

其中一个示例如表5.1所示。
在这里插入图片描述
表5.1:比较LLaVA、GPT-4、BingChat、Bard、MiniGPT-4,BLIP-2和OpenFlamingo在理解幽默方面的视觉推理能力的示例提示。LLaVA和GPT-4都解释了模因及其幽默,而GPT-4则给出了更简洁的答案。


  • 科学问答:LLaVA与GPT-4的协同作用实现了新的技术水平。

LLaVA 在科学领域的多模态推理数据集上进行了微调(Lu等,2022b),实现了90.92%的准确率。我们进一步探索了以仅包含语言的GPT-4作为评判标准,根据其之前的答案和 LLaVA 的答案来预测最终答案。这种 “GPT-4作为评判者” 的方案达到了92.53%的 SOTA 准确率。

  • 开放领域OCR:一种新兴特性。

LLaVA从未针对OCR数据进行明确的训练,即包含在相应字幕中的场景文本的图像。令人惊讶的是,该模型展现出了强大的开放领域零样本OCR任务转移能力。


5.4 高级讨论

最近的指令调优的多模态大模型的历史如图5.11(a)所示。由于ChatGPT和GPT-4的流行,自GPT-4提出后的三个月内,指令调优的多模态大模型成为新兴研究领域。Alpaca(Taori等人,2023)和Vicuna(Vicuna,2023)于3月提出,旨在使LLaMA在语言领域更具指导性。两周后,MiniGPT-4(Zhu等人,2023a)和LLaVA(Liu等人,2023c)提出,使Vicuna能够观察和聊天有关视觉世界。十天后,LLaMA-Adapter v2(Gao等人,2023b)和mPlug-OWL(Ye等人,2023b)开始与MiniGPT-4/LLaVA进行性能比较,标志着模型演进的开始。4月的数据点相对较少。5月,arXiv上出现了大量的多模态大模型论文,从多个不同方面改进了这一研究领域。这一势头一直持续到6月。

在这里插入图片描述
图5.11:对已出现的LMM文献的回顾和总结。由于空间限制,一些方法无法直观显示,但我们的目标是在随附的文本中解决这些问题。


读者很容易忘记最近的所有论文,我们的文献综述也是如此。为了更好地组织文献,我们根据具体的研究主题对其进行分组,如图5.11(b)所示。具有数十亿参数的早期LMM包括GPT-4(OpenAI,2023a,)、Flamingo(Alayrac等人,2022)、PaLM-E(Driess等人,2023)和KOSMOS-1(Huang等人,2023b,)。与这些专有的LMM相比,LLaVA和MiniGPT-4为使用开源资源构建LMM提供了机会。除了RLHF的扩展(Gunjal等人,,2023)、密集预测(Wang等人,2023h;Zang等人,2023;Chen等人,2023d)、视频(Zhang等人,2023f;Luo等人,2023c;Li等人,2023i)、图像生成(Koh等人,2023)和具身代理(Mu等人,2024)之外,我们还将讨论以下几个主题。

对于读者来说,很容易迷失在最近繁多的论文中,我们的文献综述也是如此。为了更好地组织文献,我们根据具体的研究主题对它们分组,如图5.11b 所示。具有数十亿参数的早期大型多模态模型包括 GPT-4(OpenAI,2023a)、Flamingo(Alayrac等,2022)、PaLM-E(Driess 等,2023)和 KOSMOS-1(Huang 等,2023b)。与这些专有的大型多模态模型相比,LLaVA 和MiniGPT-4 为使用开源资源构建大型多模态模型 提供了机会。除了RLHF的扩展(Gunjal等,2023)、密集预测(Wang 等,2023h;Zang 等,2023;Chen 等,2023d)、视频(Zhang 等,2023f;Luo等,2023c;Li 等,2023i)、图像生成(Koh等,2023)和具身代理(Mu等,2023)等方面,我们将讨论以下几个主题。

多模态(超越VL)

虽然 LMM 通过添加视觉模态扩展了LLM,但进一步扩展框架以包括视觉和语言之外的更多模态是很自然的。
本着这种精神,已经进行了一些尝试,包括 ChatBridge(赵等,2023e,)、PandaGPT(Su等,2023)、SpeechGPT(Zhang等,2023d,)和 X-LLM(Chen等,2023c)。PandaGPT 利用 ImageBind 将更多模态添加到 LMM 中。ImageBind 模型(Girdhar等人,2023)通过文本、图像/视频、音频和各种传感器学习一个共享的表示空间。这些传感器记录深度(3D)、热(红外辐射)或用于计算运动和位置的惯性测量单元(IMU)。ImageBind 提供了对视觉世界的全面理解,将照片中的物体与它们的声音、3D形状、温度和移动方式联系起来。通过为LMM中的一个模态训练一个投影层,模型可以零样本迁移以推断其他模态,这要归功于共享的多模态嵌入空间。另一个代表性模型是SpeechGPT,它为输入和输出启用了语言和语音模态。尽管模型变化丰富,但连接不同模态的想法类似于将图像添加到LLM中的LMM。NExT-GPT(Wu等,2023c)连接了一个LLM与多模适配器和不同扩散解码器,使NExT-GPT能够以文本、图像、视频和音频的任意组合感知输入和生成输出。LMM框架也已成功扩展到语音(Zhao等,2023c)、3D(Wang等,2023l;Hong等,2023)和点云(Xu等,2023c)。

提高视觉指令调优数据的数量和质量

鉴于到模型架构趋于 GPT 类似的网络,LMM 的性能主要由其训练数据决定。因此,提高视觉指令调整数据的数量和质量至关重要。SVIT(Zhao 等,2023a)采用了与 LLaVA 相同的数据生成流程,但在提示 GPT-4 时还包括了区域描述,除了图像标题和边界框数据,如图 5.9a 所示。该数据规模扩大到 320 万,是LLaVA中使用的数据规模的20倍。

与现有的研究侧重于正向指令样本不同,LRV-Instruction(Liu等,2023a)包括正向和负向指令,以获得更稳健的指令调优。沿此方向的其他示例包括 LLaVAR(Zhang等,2023o),它增加了与OCR相关的指令调优数据,用于富文本图像理解,以及StableLLaVA(Li等,2023o),它考虑了模型生成的图像,用于图像对话数据。Polite Flamingo(Chen等,2023b)训练LLM重写指令数据。VIGC(Wang等人,2023a)不同于以GPT-4为数据生成源,而是考虑利用 LMM 生成指令调整数据,并在生成过程中逐步提高数据质量。 InstructionGPT-4 显示了指令调整数据的质量比数量更重要,其中他们使用了200个高质量样本(6%)对MiniGPT-4进行了更好的微调,这些样本是从原始MiniGPT-4中使用的3500个样本中精选出来的。

利用已建立学术数据库/任务的多任务调优

如前所述在第5.2节,语言领域的指令调优有两种不同的实现方式:通过在广泛的任务上进行微调,使用人工注释的提示和反馈(Ouyang等人,2022),或者使用经手动或自动生成的指令增强的公共基准和数据集进行监督微调(Wang等人,2022f)。前者擅长用户导向的日常任务,而后者擅长在已建立的基准上取得较好的性能。LLaVA和MiniGPT-4 属于前者类别。其他一些作品或者针对后者类别,或者结合了两者,包括MultiInstruct(Xu 等,2022b)、mPlug-OWL(Ye 等,2023b)、InstructBLIP(Dai 等,2023b)、Multimodal-GPT(Gong 等,2023)、Instruction-ViT(Xiao 等,2023)和Qwen-VL(Bai 等,2023a)。

例如,MultiInstruct 是在开源LLaMA之前对多模态数据集进行指令调整的早期尝试。InstructBLIP是一项最近的工作,将聊天和基准指令遵循数据转换为指令调整格式。如图5.12所示,InstructBLIP 将26个公开可用的数据集转化为指令调优格式,涵盖了各种任务和功能。在13个保留的数据集上进行训练后,InstructBLIP在所有13个保留的数据集上实现了零样本性能的SoTA,大幅超越了BLIP-2和更大的Flamingo模型。Qwen-VL扩大了用于预训练的图像文本对数据和用于多任务预训练的学术数据集,并在许多任务上取得了优异的性能。

在这里插入图片描述
图5.12:InstructBLIP中涵盖的视觉语言任务。


多模态上下文学习

与 LLMs 的行为类似,可以通过处理有关任务的示例来解决语言任务,多模态上下文学习是指一个可视化和文本界面,可以引导模型解决多模态任务。给定一些图像输入和期望的文本响应的示例对,以多模态提示的方式构成,可以查询关于新图像或视频的问题,然后生成答案。已经探索了将上下文学习从语言扩展到多模态的方向,包括OpenFlamingo(Awadalla等,2023),Otter(Li等,2023d),M3IT(Li等,2023j),MetaVL(Monajatipoor等,2023)和Sparkles(Huang等,2023d)等。

OpenFlamingo(Awadalla等,2023)是DeepMind的Flamingo模型的开源版本,训练数据来自Multimodal C4数据集(Zhu等,2023b),该数据集是一种包含数十亿规模的图像和文本数据的交错的数据集。为了增强LMMs的多模态上下文学习能力,构建了MIMIC-IT(Li 等,2023c)数据集,其中包含240万多模态上下文示例。通过在MIMIC-IT上调整OpenFlamingo,获得了一个新模型Otter,具有更强的指示跟随能力。使用两个图像文本对作为上下文,Otter学习了示例所展示的简洁回答风格,否则将生成冗长的回应。

参数高效训练

尽管微调非常大的模型通常会导致高性能,但它的成本非常高昂。例如,对LLaMA-65B模型(Touvron等,2023)的常规16位微调需要超过780 GB的GPU内存(Dettmers等,2023)。因此,减少LLMs/LMMs的内存占用是至关重要的,特别是在改善大型模型对更广泛社区的可访问性方面。

参数高效训练是LMM自适应的有效方法。它冻结了大部分模型参数,只允许一小部分可训练参数根据特定领域的数据进行更新。例如,与7B/13B LLM参数相比,LLaMA Adapter v2(Gao等,2023b)和LAVIN(Luo等,2023a)只有1400万和380万可训练参数。另一种高效训练方法是量化。最近的QLoRA(Dettmers等,2023)在单个GPU上对65B LLaMA进行了24小时的微调,达到了ChatGPT性能水平的99.3%。由于指令调优通常涉及少量数据,这使得参数高效训练或模型量化成为很实用的方法,特别是在GPU资源有限的情况下。LLaVA代码库支持LoRA(Hu等,2021)和QLoRA,允许在较少的GPU资源下进行LMM训练。实验证明,在将LLaVA扩展到33B和65B时,当使用大约150K的指令数据进行训练并使用LLaVA-Bench进行评估时,LoRA/QLoRA可以实现与全模态微调类似的性能。

基准测试

尽管LMM在许多场景中以自由文本的形式展示出了出色的视觉识别和推理能力,但LMM的评估成为一个紧迫且具有挑战性的问题。已经开发了一些相关基准测试来评估LMM的各个方面,从它们的特定能力,包括OCR(Liu等,2023k)、幻觉(POPE(Li等,2023l)和HaELM(Wang等,2023d)以及对抗稳健性(Zhao等,2023d)到综合评估,如LAMM(Yin等,2023)、LVLM-eHub(Xu等,2023b)。我们在表5.2 中总结了LMM评估基准。其中,LLaVA-Bench是专门为 LMM设计的首个开放式视觉聊天基准测试。最近,已经进行了早期的多模态实验,以比较开源LMM与商业LMM,如 BingChat和Bard以及LLaVA-Bench(Liu等,2023c)和LVLM-eHub(Shao等,2023)。

在这里插入图片描述
表5.2:最近提出的LMM评估基准的比较。

令人惊讶的是,LMM在没有对文本识别数据进行明确训练的情况下,在开放领域表现出强大的零样本OCR能力。为了揭示LMM中 OCR的隐秘之谜,Liu等(2023k)进行了一项全面的实证研究,比较了24个学术文本识别数据集上的开源LMMs,如图5.13所示。强调了三个观察结果:(1)尽管LLaVA的训练数据规模小了一个数量级,但在24个数据集中有21个表现一直优于MiniGPT-4。 (2)使用更多的训练数据通常会导致更高的OCR性能,正如BLIP2(Li等,2023h)和mPLUG-Owl所示。 (3)在大多数情况下,监督SoTA结果明显优于零样本LMM。然而,值得注意的是,在 WordArt数据集(Xie等,2022a)中,该数据集主要包含具有挑战性的艺术文本,BLIP2超越了监督SoTA。这揭示了LMM在识别更复杂的文本类型方面的潜力。

在这里插入图片描述
图5.13:LMM在24个数据集上的零样本OCR性能。

应用

ChatGPT/GPT-4在通用领域的成功激发了人们对在医学、游戏和教育等垂直领域构建助手的兴趣。这种特定领域的助手相比通用领域的助手具有几个优点:
(1)使用高质量的领域特定数据进行训练,使助手更有帮助;
(2)模型尺寸可以更小,降低服务器成本;以及
(3)通过在本地提供模型服务,可以将敏感的用户提示数据保留在内部,以避免隐私问题。

其关键思想是利用从PubMed Central提取的大规模、广覆盖的生物医学图注数据集,使用GPT-4自我指导来自图注的开放式指令跟踪数据,然后使用一种新颖的课程学习方法对大型通用领域视觉-语言模型LLaVA进行微调

具体来说,该模型首先学会使用图像-图注对齐生物医学词汇,然后使用GPT-4生成的指令跟踪数据学会开放式对话语义,广泛模仿了外行人如何逐渐获得生物医学知识。在图5.14中,我们提供了与不同的聊天机器人进行生物医学视觉对话的示例。LLaVA-Med精确回答需要生物医学知识的问题,而LLaVA则表现得像外行人,基于常识产生幻觉。LLaVA-Med已经启发了一些通用的生物医学AI模型,包括Google Med-PaLM-M(Tu et al., 2023),Stanford Med-Flamingo(Moor et al., 2023)和放射科通用模型(Wu et al., 2023b)。

为了提高LMM的文本识别能力,已经开发了OCR特定模型,包括BLIVA(Hu等,2023)、LLaVAR(Zhang等,2023o)、mPlug-DocWL(Ye 等,2023a)。LMM 最近在生物医学领域进行了探索(Sun 等,2023c;Zhang 等,2023m;Li 等,2023e),其中会话生成人工智能在增强生物医学人员能力方面表现出了巨大的前景。LLaVA-Med(Li 等,2023e)是一种经济高效的方法,用于训练一种可以回答关于生物医学图像的开放性研究问题的视觉-语言对话助手。其关键思想是利用从 PubMed Central 提取的大规模、广泛覆盖的生物医学图形字幕数据集,使用 GPT-4 根据字幕数据进行自主开放式教学,然后使用新的课程学习方法微调大型通用视觉语言模型 LLaVA。具体来说,该模型首先使用图像字幕学习对齐生物医学词汇,然后使用GPT-4生成的指令跟踪数据学习开放式会话语义,大致模仿外行如何逐渐获取生物医学知识。在图5.14中,我们提供了与不同聊天机器人进行生物医学视觉对话的示例。LLaVA-Med 精确地回答了需要生物医学知识的问题,而LLaVA的行为就像一个外行,基于常识产生幻觉。LLaVA-Med 已经启发了几种通用的生物医学人工智能模型,包括 Google Med-PaLM-M(Tu 等,2023)、Stanford Med-Flamingo(Moor 等,2023)和放射科通用模型(Wu 等,2023b)。

在这里插入图片描述
图5.14:LMM在生物医学图像中的应用。上图:从LLaVA到LLaVA Med的域名适应。下图:两个聊天机器人的聊天行为。


5.5 如何接近OpenAI 多模态GPT4?

通过上述所有工作,我们能否接近(甚至超过)OpenAI 的多模态 GPT-4?令人鼓舞的是,开源社区已迅速开发了各种模型和原型,以实现各种新功能。。例如,LLaVA/Mini-GPT4 为构建多模态聊天机器人铺平了道路,其中一些示例能够重现OpenAI GPT-4技术报告中的结果;CM3leon(Yu等,2023)、Emu(Sun等,2023a)、GILL(Koh等,2023)扩展了 LMM 以实现端到端的图像生成,据我们所知,这是当前GPT-4没有表现出的能力。从使用最少的原型实现新功能的角度来看,开源社区似乎接近于 OpenAI 多模态 GPT-4,探索了构建通用多模态助手的初步步骤。

然而,就能力的扩展而言,仍然存在明显的差距,例如我们在LLaVA中观察到的视觉推理能力。OpenAI技术报告中还有两个视觉示例,要正确回答这些问题,需要模型理解图像中描述的多个高分辨率图像和图像中描绘的长序列文本,还需要用领域知识来作出回应。这需要更多的计算资源和更强大的语言模型,而这对大多数人来说是不可获得的。

总之,我们介绍了LMM的背景和强大功能,回顾了LLM中的指令调优,并展示了如何使用开源资源构建 LLaVA 和 MiniGPT-4 等原型。我们还总结了这一研究领域的最新论文,以帮助那些有兴趣开始LMM研究之旅的人。作为一个社区下一步的工作,一个可持续的建议是,那些有资源的人可以继续专注于扩展成功和研究新的新兴特性,而其他人则专注于新功能的原型和评估,以及开发减少计算障碍的技术,从而使更多人能够更容易访问大型模型。


【本节完,待续】


参考资料:
Chuanyuan Li,Zhe Gan,Zhengyuan Yang,等,Multimodal Foundation Models: From Specialists to General-Purpose Assistants,Microsoft Corporation,arxiv.org/html/2309.10020 v1


版权声明:

本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译,仅供学习使用。
youcans@xidian 作品,转载必须标注原文链接:
【微软:多模态基础模型】(5)多模态大模型:通过LLM训练

Copyright 2024 youcans,XIDIAN
Crated:2024-11


http://www.ppmy.cn/ops/136256.html

相关文章

Gate学习(5) 指令学习2

一、gate目录下指令 ls /gate 以下是gate中各个目录下的指令及其使用示例和说明: /gate/actor/ ### /gate/actor/addActor - **命令**:`/gate/actor/addActor` - **说明**:这个命令用于在Gate中添加一个新的传感器,也就是我们通常所说的“演员”(Actor)。通过这个命令…

从搭建uni-app+vue3工程开始

技术栈 uni-app、vue3、typescript、vite、sass、uview-plus、pinia 一、项目搭建 1、创建以 typescript 开发的工程 npx degit dcloudio/uni-preset-vue#vite-ts my-vue3-project2、安装sass npm install -D sass// 安装sass-loader,注意需要版本10,…

气膜网球馆:网球热潮中的全新选择—轻空间

郑钦文在2024巴黎奥运会网球女单比赛中夺冠,不仅实现了中国选手在这一项目上的历史性突破,更激发了广大群众参与网球运动的热情。从专业赛事到全民运动,网球热度空前高涨。气膜网球馆顺势而为,为网球爱好者提供了一个专业、安全、…

阿里数字人工作 Emote Portrait Alive (EMO):基于 Diffusion 直接生成视频的数字人方案

TL;DR 2024 年 ECCV 阿里智能计算研究所的数字人工作,基于 diffusion 方法来直接的从音频到视频合成数字人,避免了中间的三维模型或面部 landmark 的需求,效果很好。 Paper name EMO: Emote Portrait Alive - Generating Expressive Portra…

vue2-代理服务器插槽

解决跨域问题 配置代理服务器 代理服务器位于前端应用(客户端)和真实的后端服务器之间。当配置了代理服务器后,前端应用的请求不再直接发送到后端服务器,而是发送到代理服务器。代理服务器在接收到请求后,会根据预先配置的规则将请求转发到真…

极限失控的大模型使电力系统面临的跨域攻击风险及应对措施

目录: 0 引言 1 就大模型发生极限失控的风险进行讨论的必要性、紧迫性 1.1 预训练的数据来源 1.2 能力涌现与不可解释性 1.3 大模型与物质世界的连接 1.4 数量效应与失控 1.5 大模型发生极限失控的风险 1.5.1 人工智能反叛所需要素能力的拼图 1.5.2 火种源…

二进制 分析工具:Radare2、r2frida、Binutils、file、string、as、nm、ldd、objdump、readelf、strip

1、二进制 分析工具 工欲善其事,必先利其器,在二进制安全的学习中,​使用工具尤为重要。遇到一个不熟悉的文件时, 首先要确定 "这是什么类型的文件",回答这个问题的首要原则是,绝不要根据文件的扩…

鸿蒙学习高效开发与测试-测试工具(5)

文章目录 1、单元测试2、集成测试1. UI 测试框架2. DevEco Testing 测试平台2.1 稳定性测试2.2 场景化性能测试2.3 回归测试2.4 基础质量测试服务3. 命令行测试工具3.1 DevEco Testing SmartPerf3.2 DevEco Testing wukong3、专项测试1. 应用与服务体检2. 专项测试云测平台鸿蒙…