LLM - 理解多模态大语言模型(MLLM) 的评估(Evaluation) 与相关技术 (六)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/142364884

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

评估(Evaluation) 是研发多模态大语言模型(MLLM)的重要部分，也为模型的优化提供反馈，有助于比较不同模型的性能。与传统多模态模型的评估方法相比，MLLM 评估表现的特点如下：

由于 MLLM 通常具有通用性，因此，全面评估 MLLM 非常重要。
MLLM 展现出许多涌现(Emergent) 能力，需要特别关注，例如，无需 OCR 的数学推理，因此需要设计新的评估方案。

根据问题类型，MLLM 的评估主要分为2 类，即 封闭集(closed-set) 和 开放集(open-set)。

封闭集(Closed-Set) 问题，即可能的答案选项，是预定义的，限制在有限集合中的问题，评估通常在特定任务的数据集上进行。在这种情况下，通过 基准指标(Benchmark Metrics) 自然的判断。例如，InstructBLIP 报告在 ScienceQA 的准确率，以及在 NoCaps 和 Flickr30K 上的 CIDEr Score 得分。评估设置通常是零样本(zero-shot) 或者微调(finetuning)。

零样本(zero-shot) 设置，通常覆盖广泛数据集，包括不同的、一般的任务，划分成保留(Held-In) 集和测试(Held-Out) 集。在前者上调整后，零样本性能在后者上进行评估，使用未见过的数据集或甚至未见过的任务。
微调(finetuning) 设置，通常评估特定领域任务。例如，LLaVA 和 LLaMA-Adapter 报告在 ScienceQA 微调之后的性能。LLaVA-Med 报告在生物医学 VQA 的结果。

上述评估方法，仅限于小部分选定的任务或数据集，缺乏全面的 定量(Quantitative) 比较。为此，已经开始开发专门为 MLLM 设计的新基准。例如：

全面的评估基准 MME，包括总共 14 个感知和认知任务，MME 中的所有指令-答案对都是手动设计的，以避免数据泄露。
MMBench 是专门为评估模型能力的多个维度而设计的基准，使用 ChatGPT 将开放响应与预定义的选择相匹配。
Video-ChatGPT 和 Video-Bench 专注于视频领域，并且提出专门的基准以及评估工具。

还有一些评估策略旨在评估模型的特定方面，如 POPE 用于评估幻觉程度的评估。

开放集(Open-Set) 问题，回答可以更加灵活，MLLM 扮演聊天机器人的角色，因为聊天内容是任意的，比封闭性输出更难判断。评判标准可以分为 人工评分(Manual Scoring)、GPT评分(GPT Scoring) 和 案例研究(Case Study)，即：

人工评分(Manual Scoring)，需要人工评估生成的回答，通常涉及人工操作的问题，评估特定的维度。例如，mPLUG-Owl 收集与视觉相关的评估集，以判断 自然图像(Natural Image) 理解、图表(Diagram)、流程图(Flowchart) 理解等能力。同样，GPT4Tools，类似于 Agent，构建 2 套分别用于微调和零样本性能的评估集，从思考(Thought)、行动(Action)、论点(Arguments) 和 整体方面(The Whole) 评估回答。
GPT评分(GPT Scoring)，由于人工评估劳动密集，探索使用 GPT 评分，用于评估多模态对话的表现。LLaVA 提出通过文本 GPT-4 对于回答评分，考虑不同方面，如有帮助性和准确性。具体来说，从 COCO 验证集中抽取 30 张图片，每张图片都包括 简短(Shot) 问题、详细(Detailed) 问题和 复杂推理(Complex Reasoning) 问题，通过在 GPT-4 的 自指令(Self-Instruction)。模型和 GPT-4 生成的答案都发送给 GPT-4 比较，根据这个思路，提示 ChatGPT 或 GPT-4 评分或判断答案是否更好。随着 GPT 视觉接口的发布，使用 GPT-4V 模型评估 MLLM 的性能。Woodpecker 采用 GPT-4V 根据图像判断模型回答的质量，由于 GPT-4V 可以直接访问图像，因此预计评估比仅使用文本 GPT-4 更准确。
案例研究(Case Study)，评估两个典型的高级商业使用模型，GPT-4V 和 Gemini，通过在各个领域和任务中制作一系列样本，进行深入的定性分析，从初步技能，如标题和目标计数，到需要世界知识和推理的复杂任务，如笑话理解和作为 具身智能体(Embodied Agent) 的室内导航。通过设计自动驾驶场景的样本，更专业的评估。通过比较，以及全面评估。结果表明，尽管回答风格不同，GPT-4V 和 Gemini 在视觉推理能力上，表现出相当的水平。

参考论文：

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models, Tencent, 2024.3
- GitHub: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
Woodpecker: Hallucination Correction for Multimodal Large Language Models, Tencent, 2024.8
- GitHub: https://github.com/BradyFU/Woodpecker
MLLM - AD: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving, 2023.11, 自动驾驶(Autonomous Driving) 领域
- GitHub: https://github.com/PJLab-ADG/GPT4V-AD-Exploration
GPT-4V vs Gemini: A challenger to gpt-4v? early explorations of gemini in visual expertise, 2023.12, Tencent
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models，2023.11
- GitHub: https://github.com/Alpha-VLLM/LLaMA2-Accessory

MME: Multimodal Large Language Model (MLLM) Evaluation benchmark，总共评估 14 个子任务的 感知(Perception) 和 认知(Cognition) 能力。避免直接使用公共数据集进行评估，可能出现的数据泄露问题，指令答案对(Instruction Answer Pairs) 的标注都是手动设计的。简洁的指令设计，能够公平地比较 MLLM，而不是依赖于提示工程，还可以进行定量统计。总共有 30 个先进的 MLLM 在 MME 上进行全面评估，表明现有的 MLLM 仍有较大的改进空间，而且还揭示后续模型优化的潜在方向。

MME 的基准测试图表，每张图片对应 2 个问题，其答案分别标记为 是[Y] 和 否[N]，指令由一个问题组成，跟着“请回答是或否”，所有的指令都是手动设计的。合计包括 14 个子任务，其中感知(Perception)任务 10 个，认知(Cognition)任务 4 个，感知任务划分为 粗粒度(Coarse-Grained) 任务、细粒度(Fine-Grained) 任务、OCR 任务，认知任务就是 推理(Reasoning) 任务，每个任务是 200 分，满分是 2800 分。即：

Existence，是否存在
Count，数量
Position，位置 (左右)
Color，颜色
Poster，海报
Celebrity，名人
Scene，厂家
Landmark，地表
Artwork，艺术品
OCR，文字识别
Commonsense Reasoning，常识推理
Numerical Calculation，数字计算
Text Translation，文本翻译
Code Reasoning，代码推理

即：

Woodpecker: 幻觉(Hallucination) 表示生成文本与图像内容不一致的现象，为了减轻幻觉，现有的研究主要采用指令微调(Instruction-Tuning) 的方式，这需要使用特定数据重新训练模型。使用无需训练的方法，就像啄木鸟(Woodpecker) 治愈树木一样，从生成的文本中挑选，纠正幻觉。具体来说，Woodpecker 包括 5 个阶段：

关键概念提取 (Key Concept Extraction)
问题定义 (Question Formulation)
视觉知识验证 (Visual Knowledge Validation)
视觉回答生成 (Visual Claim Generation)
幻觉纠正 (Hallucination Correction)

以事后补救的方式实现，Woodpecker 可以轻松地服务于不同的 MLLM，同时，通过访问 5 个阶段的中间输出来实现可解释性。

Woodpecker 的项目效果：

Woodpecker 的框架：给定图片和查询，MLLM 输出相应的回答，通过包括关键概念提取、问题定义、视觉知识验证、视觉回答生成等 4 个步骤，得到特定于图片和原始回答的视觉知识库。在最后一步中，以边界框为证据，纠正回答中的幻觉，类似于 GPT-o1。即：

GPT-4V vs Gemini: 在大数据和强力计算能力的推动下，大语言模型(LLM) 领域获得了前所未有的热情和进步，在广泛的领域展示出泛化能力。在此基础上，多模态大语言模型(MLLM)正成为新一代研究的重点。目标是将 LLM 与额外的感官输入结合起来，例如图像、音频、3D等。在新模态数据的条件下，MLLM 在通往通用人工智能(AGI) 的道路上迈出重要的一步。OpenAI 的 GPT-4V(ision) 被认为是迄今为止最强大的 MLLM，超过众多基于 LLaMA 的模型，例如 LLaMA-Adapter、LLaVA 和 MiniGPT-4 等。谷歌最近发布的 Gemini 已成为 GPT-4V 的强大挑战者，在不同的基准测试中，展现出显著的多模态能力。鉴于 Gemini 的全部潜力尚未被完全挖掘，在本文中，通过将 Gemini 与现有的最佳表现 MLLM，即 GPT-4V进行比较，进行早期探索，揭示多模态能力。

GPT-4V、Gemini、Sphinx 的效果：