LLM - 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)

devtools/2024/9/22 22:10:56/

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142364884

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


评估(Evaluation) 是研发多模态大语言模型(MLLM)的重要部分,也为模型的优化提供反馈,有助于比较不同模型的性能。与传统多模态模型的评估方法相比,MLLM 评估表现的特点如下:

  1. 由于 MLLM 通常具有通用性,因此,全面评估 MLLM 非常重要。
  2. MLLM 展现出许多 涌现(Emergent) 能力,需要特别关注,例如,无需 OCR 的数学推理,因此需要设计新的评估方案。

根据问题类型,MLLM评估主要分为2 类,即 封闭集(closed-set)开放集(open-set)

封闭集(Closed-Set) 问题,即可能的答案选项,是预定义的,限制在有限集合中的问题,评估通常在特定任务的数据集上进行。在这种情况下,通过 基准指标(Benchmark Metrics) 自然的判断。例如,InstructBLIP 报告在 ScienceQA 的准确率,以及在 NoCapsFlickr30K 上的 CIDEr Score 得分。评估设置通常是 零样本(zero-shot) 或者 微调(finetuning)。

  • 零样本(zero-shot) 设置,通常覆盖广泛数据集,包括不同的、一般的任务,划分成 保留(Held-In) 集和 测试(Held-Out) 集。在前者上调整后,零样本性能在后者上进行评估,使用未见过的数据集或甚至未见过的任务。
  • 微调(finetuning) 设置,通常评估特定领域任务。例如,LLaVA 和 LLaMA-Adapter 报告在 ScienceQA 微调之后的性能。LLaVA-Med 报告在生物医学 VQA 的结果。

上述评估方法,仅限于小部分选定的任务或数据集,缺乏全面的 定量(Quantitative) 比较。为此,已经开始开发专门为 MLLM 设计的新基准。例如:

  • 全面的评估基准 MME,包括总共 14 个感知和认知任务,MME 中的所有指令-答案对都是手动设计的,以避免数据泄露。
  • MMBench 是专门为评估模型能力的多个维度而设计的基准,使用 ChatGPT 将开放响应与预定义的选择相匹配。
  • Video-ChatGPT 和 Video-Bench 专注于视频领域,并且提出专门的基准以及评估工具。

还有一些评估策略旨在评估模型的特定方面,如 POPE 用于评估幻觉程度的评估

开放集(Open-Set) 问题,回答可以更加灵活,MLLM 扮演聊天机器人的角色,因为聊天内容是任意的,比封闭性输出更难判断。评判标准可以分为 人工评分(Manual Scoring)GPT评分(GPT Scoring)案例研究(Case Study),即:

  • 人工评分(Manual Scoring),需要人工评估生成的回答,通常涉及人工操作的问题,评估特定的维度。例如,mPLUG-Owl 收集与视觉相关的评估集,以判断 自然图像(Natural Image) 理解、图表(Diagram)流程图(Flowchart) 理解等能力。同样,GPT4Tools,类似于 Agent,构建 2 套分别用于微调和零样本性能的评估集,从思考(Thought)行动(Action)论点(Arguments)整体方面(The Whole) 评估回答。

  • GPT评分(GPT Scoring),由于人工评估劳动密集,探索使用 GPT 评分,用于评估多模态对话的表现。LLaVA 提出通过文本 GPT-4 对于回答评分,考虑不同方面,如有帮助性和准确性。具体来说,从 COCO 验证集中抽取 30 张图片,每张图片都包括 简短(Shot) 问题、详细(Detailed) 问题和 复杂推理(Complex Reasoning) 问题,通过在 GPT-4 的 自指令(Self-Instruction)。模型和 GPT-4 生成的答案都发送给 GPT-4 比较,根据这个思路,提示 ChatGPT 或 GPT-4 评分或判断答案是否更好。随着 GPT 视觉接口的发布,使用 GPT-4V 模型评估 MLLM 的性能。Woodpecker 采用 GPT-4V 根据图像判断模型回答的质量,由于 GPT-4V 可以直接访问图像,因此预计评估比仅使用文本 GPT-4 更准确。

  • 案例研究(Case Study)评估两个典型的高级商业使用模型,GPT-4V 和 Gemini,通过在 各个领域和任务 中制作一系列样本,进行深入的定性分析,从初步技能,如标题和目标计数,到需要世界知识和推理的复杂任务,如笑话理解和作为 具身智能体(Embodied Agent) 的室内导航。通过设计自动驾驶场景的样本,更专业的评估。通过比较,以及全面评估。结果表明,尽管回答风格不同,GPT-4V 和 Gemini 在视觉推理能力上,表现出相当的水平。

参考论文:

  • MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models, Tencent, 2024.3
    • GitHub: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
  • Woodpecker: Hallucination Correction for Multimodal Large Language Models, Tencent, 2024.8
  • MLLM - AD: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving, 2023.11, 自动驾驶(Autonomous Driving) 领域
    • GitHub: https://github.com/PJLab-ADG/GPT4V-AD-Exploration
  • GPT-4V vs Gemini: A challenger to gpt-4v? early explorations of gemini in visual expertise, 2023.12, Tencent
  • SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models,2023.11
    • GitHub: https://github.com/Alpha-VLLM/LLaMA2-Accessory

MME: Multimodal Large Language Model (MLLM) Evaluation benchmark,总共评估 14 个子任务的 感知(Perception)认知(Cognition) 能力。避免直接使用公共数据集进行评估,可能出现的数据泄露问题,指令答案对(Instruction Answer Pairs) 的标注都是手动设计的。简洁的指令设计,能够公平地比较 MLLM,而不是依赖于提示工程,还可以进行定量统计。总共有 30 个先进的 MLLMMME 上进行全面评估,表明现有的 MLLM 仍有较大的改进空间,而且还揭示后续模型优化的潜在方向。

MME 的基准测试图表,每张图片对应 2 个问题,其答案分别标记为 是[Y]否[N],指令由一个问题组成,跟着“请回答是或否”,所有的指令都是手动设计的。合计包括 14 个子任务,其中感知(Perception)任务 10 个,认知(Cognition)任务 4 个,感知任务划分为 粗粒度(Coarse-Grained) 任务、细粒度(Fine-Grained) 任务、OCR 任务,认知任务就是 推理(Reasoning) 任务,每个任务是 200 分,满分是 2800 分。即:

  1. Existence,是否存在
  2. Count,数量
  3. Position,位置 (左右)
  4. Color,颜色
  5. Poster,海报
  6. Celebrity,名人
  7. Scene,厂家
  8. Landmark,地表
  9. Artwork,艺术品
  10. OCR,文字识别
  11. Commonsense Reasoning,常识推理
  12. Numerical Calculation,数字计算
  13. Text Translation,文本翻译
  14. Code Reasoning,代码推理

即:

<a class=MME" />

Woodpecker: 幻觉(Hallucination) 表示生成文本与图像内容不一致的现象,为了减轻幻觉,现有的研究主要采用 指令微调(Instruction-Tuning) 的方式,这需要使用特定数据重新训练模型。使用无需训练的方法,就像 啄木鸟(Woodpecker) 治愈树木一样,从生成的文本中挑选,纠正幻觉。具体来说,Woodpecker 包括 5 个阶段:

  1. 关键概念提取 (Key Concept Extraction)
  2. 问题定义 (Question Formulation)
  3. 视觉知识验证 (Visual Knowledge Validation)
  4. 视觉回答生成 (Visual Claim Generation)
  5. 幻觉纠正 (Hallucination Correction)

以事后补救的方式实现,Woodpecker 可以轻松地服务于不同的 MLLM,同时,通过访问 5 个阶段的中间输出来实现可解释性。

Woodpecker 的项目效果:

<a class=Woodpecker" />

Woodpecker 的框架:给定图片和查询,MLLM 输出相应的回答,通过包括关键概念提取、问题定义、视觉知识验证、视觉回答生成等 4 个步骤,得到特定于图片和原始回答的视觉知识库。在最后一步中,以边界框为证据,纠正回答中的幻觉,类似于 GPT-o1。即:

<a class=Woodpecker" />

GPT-4V vs Gemini: 在大数据和强力计算能力的推动下,大语言模型(LLM) 领域获得了前所未有的热情和进步,在广泛的领域展示出泛化能力。在此基础上,多模态大语言模型(MLLM)正成为新一代研究的重点。目标是将 LLM 与额外的感官输入结合起来,例如图像、音频、3D等。在新模态数据的条件下,MLLM 在通往 通用人工智能(AGI) 的道路上迈出重要的一步。OpenAI 的 GPT-4V(ision) 被认为是迄今为止最强大的 MLLM,超过众多基于 LLaMA 的模型,例如 LLaMA-Adapter、LLaVA 和 MiniGPT-4 等。谷歌最近发布的 Gemini 已成为 GPT-4V 的强大挑战者,在不同的基准测试中,展现出显著的多模态能力。鉴于 Gemini 的全部潜力尚未被完全挖掘,在本文中,通过将 Gemini 与现有的最佳表现 MLLM,即 GPT-4V进行比较,进行早期探索,揭示多模态能力。

GPT-4V、Gemini、Sphinx 的效果:

VS


http://www.ppmy.cn/devtools/115668.html

相关文章

【初阶数据结构】一文讲清楚 “堆” 和 “堆排序” -- 树和二叉树(二)(内含TOP-K问题)

文章目录 前言1. 堆1.1 堆的概念1.2 堆的分类 2. 堆的实现2.1 堆的结构体设置2.2 堆的初始化2.3 堆的销毁2.4 添加数据到堆2.4.1 "向上调整"算法 2.5 从堆中删除数据2.5.1 “向下调整”算法 2.6 堆的其它各种方法接口函数 3. 堆排序3.1 堆排序的代码实现 4. TOP-K问题…

Administration Console后台弱⼝令登录

1.环境搭建 cd vulhub-master/iboss/CVE-2017-12149 docker-compose up-d 2.访问登录页面 JBoss AS 6 Admin Consolehttp://47.121.211.205:8080/admin-console/login.seam?conversationId4用户名admin 密码vulhub 3.上传war文件 4.访问上传文件并进行连接 访问上传文件 使…

pytorch的动态计算图机制

pytorch的动态计算图机制 一&#xff0c;动态计算图简介 Pytorch的计算图由节点和边组成&#xff0c;节点表示张量或者Function&#xff0c;边表示张量和Function之间的依赖关系。 Pytorch中的计算图是动态图。这里的动态主要有两重含义。 第一层含义是&#xff1a;计算图的…

C# System.BadImageFormatException问题及解决

C# System.BadImageFormatException问题 出现System.BadImageFormatException 异常有两种情况&#xff1a;程序目标平台不一致&引用dll文件的系统平台不一致。 异常参考 BadImageFormatException 程序目标平台不一致&#xff1a; 项目>属性>生成&#xff1a;x86 …

CentOS 上配置多服务器 SSH 免密登录

以下是在 CentOS 上配置多服务器 SSH 免密登录的步骤&#xff1a; 一、准备工作 假设有服务器 A 和服务器 B&#xff0c;需要从服务器 A 免密登录到服务器 B。 二、在服务器 A 上生成密钥对 打开终端&#xff0c;执行以下命令生成 SSH 密钥对&#xff1a; ssh-keygen -t rsa一路…

系统架构设计师 大数据架构篇二

大数据架构 &#x1f310; 大数据处理系统分析 &#x1f50d; 大数据处理系统三大挑战 &#x1f680; 非结构化数据处理&#xff1a;如何处理非结构化和半结构化数据。复杂性与不确定性&#xff1a;大数据复杂性、不确定性特征描述的刻画方法和大数据的系统建模。异构性影响…

RTMP协议在无人机巡检中的应用场景

为什么要用无人机巡检 好多开发者对无人机巡检技术方案&#xff0c;相对陌生&#xff0c;实际上&#xff0c;无人机巡检就是利用无人机对特定区域或设施进行定期或不定期的检查。这种巡检方式相比传统的人工巡检具有显著的优势&#xff0c;包括速度快、覆盖广、风险低、准确性…

git学习【完结】

git学习【完结】 文章目录 git学习【完结】一、Git基本操作1.创建本地仓库2.配置本地仓库1.局部配置2.全局配置 3.认识工作区、暂存区、版本库4.添加文件5.修改文件6.版本回退7.撤销修改8.删除文件 二、Git分支管理1.理解分支2.创建、切换、合并分支3.删除分支4.合并冲突5.合并…