2024.12 迈向可解释和可解释的多模态大型语言模型：一项综合调查

https://arxiv.org/pdf/2412.02104

问题

随着多模态大语言模型（MLLMs）在人工智能领域的快速发展，其在处理多模态信息（如文本、图像、视频、音频）时展现出强大的能力，但模型的复杂性和规模导致其决策过程难以理解，即模型的可解释性成为关键问题。

挑战

数据层面
- 多模态数据处理：不同模态的数据具有不同的特点和结构，如何在预处理、对齐和表示过程中保留各模态的关键信息，同时实现跨模态的有效融合，是一个挑战。例如，将图像和文本数据进行联合处理时，需要找到合适的方法来对齐图像中的视觉元素与文本中的语义信息，确保模型能够准确理解和关联不同模态的信息。
- 因果关系理解：在多模态数据中准确挖掘和理解因果关系较为困难。由于数据的复杂性和多样性，确定不同模态特征之间的因果影响对于解释模型决策至关重要，但目前的方法在这方面仍有待改进。
模型层面
- 内部机制理解：MLLMs 内部包含多个组件（如神经元、层、注意力机制等），理解这些组件在处理多模态信息时的具体作用和相互协作方式具有挑战性。例如，分析神经元如何对不同模态的输入产生响应，以及不同层在特征提取和决策过程中的功能演变。
- 跨模态对齐与整合：实现不同模态信息在模型内部的有效对齐和整合是一个难题。确保模型能够准确捕捉和利用文本与视觉等模态之间的语义关联，避免信息丢失或误解，需要深入研究模型架构和算法设计。
训练与推理层面
- 训练过程优化：设计训练策略以提高模型的可解释性，同时保持模型的性能，是一个挑战。例如，在预训练过程中，如何引导模型学习到更具解释性的特征表示，以及如何通过调整训练机制减少模型的偏差和不确定性。
- 推理阶段的可靠性：在推理过程中，如何确保模型输出的可靠性，减少诸如幻觉等问题的出现，同时提供有效的解释，是当前面临的挑战之一。特别是在处理复杂的多模态任务时，模型需要能够基于合理的推理过程生成准确且可解释的结果。

创新点

提出新的分类框架：首次将多模态大语言模型的可解释性和可解释性研究整合，从数据、模型、训练与推理三个视角进行分类，为系统研究该领域提供了新颖的结构框架。
全面的方法综述：对现有 MLLMs 的可解释性和可解释性方法进行了深入且全面的综述，涵盖了从输入输出分析、模型组件剖析到训练动态探索等多个方面，提供了丰富的技术细节和比较分析。
多维度的分析视角：在模型层面，从多个层次（如令牌、嵌入、神经元、层和架构）对模型进行分析，深入探讨模型内部的工作机制，这种多维度的分析有助于更全面地理解 MLLMs 的行为。

贡献

系统性综述：对 MLLMs 的可解释性和可解释性研究进行了首次全面且深入的综述，整合了相关领域的研究成果，为后续研究提供了坚实的基础。
方法分类与比较：提出了一种新的分类方法，将现有研究方法按照数据、模型、训练与推理三个方面进行组织，通过系统分析和比较，明确了各种方法的优缺点，为研究人员选择和改进方法提供了指导。
未来研究方向指导：基于对现有研究的分析，提出了多个有潜力的未来研究方向，如改进数据集和处理更多模态、增强多模态嵌入的可解释性、深入研究模型组件以及优化模型架构等，为推动该领域的发展提供了方向。

提出的方法

数据层面
- 输入输出分析：通过扰动、显著性图和因果推断等方法，分析模型对输入数据的处理过程以及输出结果的生成机制，以揭示模型决策的依据。例如，利用扰动方法创建显著性图，突出显示输入图像中对模型预测有重要影响的区域。
- 基准评估：开发和利用各种基准、数据集和指标，评估 MLLMs 在不同任务中的可解释性和鲁棒性。例如，VISTA 基准通过与人类视觉注意力数据对齐，评估模型的可信度。
模型层面
- 令牌级分析：研究视觉令牌和视觉 - 文本令牌对模型决策的影响，通过方法如基础分解、注意力机制分析和令牌冗余减少等，提高令牌级别的可解释性。例如，分析 CLIP 模型中图像令牌的作用，以及如何通过改进令牌处理来提升模型性能。
- 嵌入级分析：从视觉、文本和跨模态嵌入等方面入手，通过探测 - 、归因 - 和分解 - 等方法，深入理解模型如何对多模态信息进行编码和表示，以及不同嵌入方式对模型可解释性的影响。例如，使用线性分类器评估视觉特征在模型层中的编码情况，或通过映射神经表示到人类可理解的概念来提高可解释性。
- 神经元级分析：关注单个神经元和神经元组的功能，通过网络剖析等方法，为神经元分配语义标签，理解其在处理特定概念或跨模态任务中的作用。例如，在 CNN 中识别与特定视觉概念相关的神经元，或在多模态模型中发现连接不同模态信息的神经元组。
- 层级分析：从单个组件（如注意力头、MLP 层）的功能分析和整个决策流程（从输入到输出的信息转换）两个角度，研究不同层在模型决策中的贡献，以及信息在层间的流动和转换机制。例如，分析变压器模型中注意力头和 MLP 层的作用，以及信息在各层间的传递和变化。
- 架构级分析
  - 架构分析方法：包括特征归因、单模态和多模态解释以及交互式解释等。通过为特征分配重要性分数、生成单模态或多模态的解释输出，以及基于用户交互提供解释，帮助理解模型架构如何影响决策过程。例如，使用类激活映射（CAM）家族方法识别输入图像中的关键区域，或通过交互式工具让用户探索模型决策的依据。
  - 架构设计方法：采用代理模型、概念 - 、因果 - 等方法，通过设计特定的模块或架构，提高模型的内在可解释性。例如，使用决策树作为代理模型来近似复杂模型的行为，或引入因果学习框架来增强模型的可解释性。
训练与推理层面
- 训练策略改进：通过预训练方法，如利用注意力机制进行跨模态对齐、概念发现与学习等，提高模型对多模态信息的理解能力，同时通过优化训练过程中的权重调整和特征交互，增强模型的可解释性。例如，在预训练阶段引导模型学习视觉概念，或通过调整训练机制减少模型偏差。
- 推理过程优化：采用诸如思维链（CoT）推理和上下文学习（ICL）等技术，在推理过程中提供结构化、可解释的输出，减少幻觉等问题的影响，增强模型输出的可靠性和可解释性。例如，通过 CoT 推理生成连贯的推理步骤，或在 ICL 中利用对比学习揭示关键的表示动态。

指标

数据层面
- 输入输出相关指标：使用准确率、召回率等指标评估扰动或显著性图方法对模型决策影响的分析效果，即通过这些方法能否准确识别出对模型输出有重要影响的输入特征，从而判断模型对输入数据的敏感度和依赖关系。
- 基准评估指标：如在评估模型在不同任务中的可解释性和鲁棒性时，使用准确率、F1 值、均方误差等指标来衡量模型在处理各种任务（如图像 - 文本任务、视频分析任务等）时的性能表现，以及模型在面对数据分布变化或误导性指令时的稳定性。
模型层面
- 令牌级指标：例如通过计算令牌对模型输出的贡献度、令牌之间的相关性等指标，评估令牌级分析方法对理解模型决策过程的有效性，判断不同令牌处理策略（如令牌冗余减少）是否提高了模型的效率和可解释性。
- 嵌入级指标：使用语义相似性指标（如余弦相似度）来评估不同嵌入方法对多模态信息编码的质量，即模型生成的嵌入是否能够准确捕捉不同模态之间的语义关系，以及嵌入空间中的概念分布是否符合人类的认知。
- 神经元级指标：通过测量神经元的激活频率、与特定任务或概念的相关性等指标，评估神经元分析方法对理解神经元功能的效果，判断神经元是否对特定模态或概念有显著响应，以及神经元组在处理多模态信息时的协同作用。
- 层级指标：分析层对模型决策的贡献时，使用信息增益、特征重要性等指标，衡量不同层在提取和转换信息过程中的作用，以及层间信息流动的效率和准确性。
- 架构级指标
  - 架构分析指标：对于特征归因方法，通过评估归因结果与人类理解的一致性、对模型改进的指导效果等指标，判断其解释能力；对于单模态和多模态解释方法，使用用户对解释的满意度、解释对模型理解的提升程度等指标进行评估。
  - 架构设计指标：在使用代理模型时，通过比较代理模型与原模型在决策结果和可解释性方面的差异，评估代理模型的近似效果；对于概念 - 和因果 - 方法，衡量模型学习到的概念是否具有实际意义、因果关系是否合理等指标，判断架构设计对提高模型可解释性的有效性。
训练与推理层面
- 训练指标：在预训练阶段，使用概念学习准确率、模型在下游任务中的泛化能力等指标评估预训练方法对模型可解释性和性能的提升效果；在训练过程中，通过观察权重更新的稳定性、特征交互的有效性等指标，判断训练策略的优化是否有助于提高模型的可解释性。
- 推理指标：对于 CoT 推理，使用推理步骤的合理性、答案的准确性以及解释的连贯性等指标来评估其在提高推理过程可解释性方面的效果；对于 ICL，通过测量模型在不同上下文场景下的响应准确性、对新知识的适应能力等指标，评估其在实时推理和解释方面的性能。

模型结构

论文未提出特定的新模型结构，而是对现有 MLLMs 的模型结构进行分析，从多个层次（令牌、嵌入、神经元、层和架构）理解其内部工作机制，包括不同组件之间的相互作用、信息在模型中的流动路径等，以探讨如何从结构层面提高模型的可解释性和可解释性。例如，分析视觉 - 语言模型中视觉编码器、文本编码器、注意力机制、多层感知器（MLP）等组件如何协同工作来处理多模态输入并生成输出，以及这些组件在不同层中的功能演变和相互影响。

结论

研究总结：本文系统地探讨了多模态大语言模型（MLLMs）的可解释性和可解释性，通过对相关研究的全面综述，从数据、模型、训练与推理三个主要方面对现有方法进行了分类和分析，展示了该领域的研究进展和成果。
研究意义：强调了可解释性和可解释性在 MLLMs 决策过程中的重要性，有助于提高模型的透明度、可信度和可靠性，对于推动 MLLMs 在各个领域的有效应用具有关键意义。
研究成果与不足：虽然在可解释性和可解释性研究方面取得了一定进展，但目前的方法仍面临诸多挑战，如在确保模型广泛适用性方面存在困难，不同方法在处理复杂多模态任务时的有效性和局限性各异。

剩余挑战和未来工作

数据集和更多模态
- 数据表示改进：需要开发标准化的预处理和注释管道，以确保不同模态（文本、图像、视频、音频）数据在输入模型时的一致性，同时保留各模态的独特特征，便于模型更好地理解和处理多模态信息。
- 多模态解释框架：构建能够生成多模态解释（如结合自然语言解释与视觉或时间亮点）的框架，使其输出更符合人类的认知和理解方式，增强模型解释的直观性和有效性。
- 基准测试完善：创建针对特定任务的数据集和评估协议，全面评估模型解释的准确性、完整性和偏差检测能力，同时更好地反映现实世界的复杂性，包括多样化的领域和多语言数据场景。
多模态嵌入
- 令牌级与整体系统连接：致力于在令牌级别的精细解释与整个系统的透明度之间建立更紧密的联系，实现从局部到整体对模型处理多模态信息过程的深入理解。
- 动态令牌重要性机制探索：研究如何动态追踪和准确归因模型预测到特定输入令牌（跨模态），探索令牌重要性随模型处理过程的变化规律，开发更有效的动态令牌重要性评估机制。
- 特征级解释增强：深入挖掘和揭示中间表示（如视觉嵌入和潜在文本特征）中的有意义模式和相关性，通过改进特征提取和表示方法，增强对模型内部特征处理过程的可解释性。
- 统一框架构建：整合令牌级和特征级的分析见解，构建统一的框架，提供对模型如何处理多模态信息的全面且连贯的理解，促进模型可解释性研究的系统性发展。
MLLMs 组件
- 模态对齐机制研究：深入探究多模态神经元感知不同模态概念的内在机制，明确模态间信息对齐的具体过程和原理，为提高模型跨模态理解能力提供理论支持。
- 高效神经元编辑方法开发：开发更精细、高效的神经元编辑方法，实现对神经元功能的精准调控，以便更好地理解和优化模型在处理多模态信息时的行为。
- 电路分析拓展：将神经元分析拓展到电路层面，研究神经元之间的连接和相互作用模式，揭示模型处理多模态信息的更深层次的电路机制，为模型优化提供新的思路。
- 层级决策过程理解：进一步理解不同组件（如各种编码器和投影仪）在跨模态决策过程中的作用，明确非文本输入如何与语言模型的文本空间进行有效对齐，以及各层在处理多模态输入时对语言模型推理能力的影响。
模型架构
- 架构组件功能解析：深入研究不同架构组件（如各种编码器）在处理跨模态信息时的具体功能和相互协作方式，明确信息从原始模态输入到最终集成表示的流动过程，揭示各组件对模型决策的贡献。
- 后投影嵌入处理研究：详细分析后投影嵌入的处理机制，确定哪些层负责处理多模态输入以及它们如何影响模型的最终决策，为优化模型架构和提高可解释性提供依据。
- 可解释架构设计探索：基于对架构组件的深入理解，设计更具透明度和可解释性的模型架构，促进用户对模型决策过程的信任和理解，提高模型在实际应用中的可靠性。
训练动态和推理
- 统一框架构建：开发将可解释性集成到训练和推理过程的统一框架，确保模型在训练过程中能够学习到具有解释性的特征表示，同时在推理过程中能够实时提供清晰、合理的解释。
- 训练阶段优化：在训练过程中，引导模型优先关注透明度和与人类理解的一致性，同时保持模型的可扩展性，适应大规模数据和复杂任务的需求。
- 推理阶段改进：在推理阶段，实现模型能够根据不同任务需求提供实时、自适应的解释，增强用户对模型输出的信任度，提高模型在实际应用中的实用性。
- 基准测试建立：建立用于评估训练和推理阶段可解释性的稳健基准，为模型开发和优化提供客观、可靠的标准，推动多模态模型在实际应用中的广泛部署。

数据集

用于基准测试的数据集
- VISTA：用于评估视觉 - 语言模型的可信度，通过与人类视觉注意力数据对齐，比较模型内部热图与人类注意力模式，以评估模型在处理视觉 - 语言信息时的准确性和可靠性。
- BenchLMM：旨在检测模型对图像风格的识别能力，并评估其在不同风格变化下的错误解释能力，帮助研究人员了解模型在处理多样化视觉输入时的鲁棒性。
- COCO - O：专注于评估对象检测器在自然分布变化下的鲁棒性，通过提供具有挑战性的数据集，揭示模型在面对实际场景中对象外观和背景变化时的性能表现。
- Multimodal Uncertainty Benchmark（MUB）：用于评估 MLLMs 在面对明确和隐含误导性指令时的脆弱性，通过模拟各种误导性场景，测试模型的决策稳定性和抗干扰能力。
- ScienceQA：一个促进模型通过思维链推理进行解释的多模态数据集，涵盖了科学问题和相关解释，用于评估模型在处理复杂科学知识和推理任务时的能力，以及生成可解释性答案的能力。
应用相关数据集
- CMU - MOSEI：用于多模态情感和情绪识别，提供了丰富的音频、视频和文本数据，同时引入了动态融合图（DFG），通过可视化不同模态之间的交互，帮助研究人员分析模型在情感识别任务中的决策依据。
- UrbanClip：通过从网络收集的对比语言 - 图像预训练数据，学习文本增强的城市区域分析，为城市相关的多模态研究提供了数据支持，有助于理解模型在处理城市环境相关信息时的表现。
其他数据集
- 用于评估模型在特定任务（如图像 - 文本任务、视频分析任务、音频处理任务等）中的性能和可解释性的数据集：这些数据集包含了各种类型的图像 - 文本对、视频序列、音频片段等，用于全面评估模型在不同多模态任务中的能力

原文

摘要 — 人工智能（AI）的快速发展彻底改变了许多领域，大型语言模型（LLM）和计算机视觉（CV）系统分别推动了自然语言理解和视觉处理的进步。这些技术的融合催化了多模态 AI 的兴起，实现了更丰富的跨模态理解，涵盖文本、视觉、音频和视频模态。尤其是多模态大型语言模型（MLLM），它已成为一个强大的框架，在图像文本生成、视觉问答和跨模态检索等任务中展示了令人印象深刻的功能。尽管取得了这些进步，但 MLLM 的复杂性和规模在可解释性和可解释性方面带来了重大挑战，这对于在高风险应用程序中建立透明度、可信度和可靠性至关重要。本文对 MLLMs 的可解释性和可解释性进行了全面的调查，提出了一个新的框架，将现有研究分为三个角度：（I）数据，（II）模型，（III）训练与推理。我们系统地分析了从标记级到嵌入级表示的可解释性，评估了与架构分析和设计相关的方法，并探索了提高透明度的训练和推理策略。通过比较各种方法，我们确定了它们的优势和局限性，并提出了未来的研究方向，以解决多模态可解释性中尚未解决的挑战。这项调查为提高 MLLM 的可解释性和透明度提供了基础资源，指导研究人员和从业者开发更负责任和更强大的多模态 AI 系统。

索引术语 - 多模态大型语言模型、可解释性、可解释性、调查。

I. 引言

人工智能（AI）的快速发展极大地改变了广泛的领域。

最近，人工智能领域最具影响力的进步之一是大型语言模型（LLM）的开发，这些模型在文本生成、翻译和对话式 AI 等广泛的自然语言任务中表现出卓越的语言理解和生成能力 [1]。同样，计算机视觉（CV）的进步使系统能够有效地处理和解释复杂的视觉数据，从而以高精度为对象检测、动作识别和语义分割等任务提供支持 [2]。最近，这些技术的融合激发了人们对多式联运的兴趣

AI，它寻求整合文本、视觉、音频和视频，以更丰富、更全面地理解多种模态 [3， 4， 5， 6， 7， 8， 9， 10， 11]。在深度学习技术的重大改进的推动下，多模态大型语言模型（MLLM）经历了快速发展 [12， 13， 14， 15， 16， 17]。通过整合不同的数据源，MLM 在广泛的多模态任务中展示了高级理解、推理和生成能力，包括图像文本生成 [18， 19， 20]、视觉问答 [21， 22， 23， 24， 25， 26， 27， 28]、跨模态检索 [29， 30， 31]、视频理解 [32， 33， 34， 35， 36， 37， 38]。因此，MLM在各个领域[39,40,41]中得到了广泛的应用，包括自然语言处理（NLP）[42,43]、CV [44,45]、视频[15,46,47]、自动驾驶[3,48,49]、医学[50,51,52]和机器人技术[53,54,55,56,57,58]。然而，随着 MLLM 的复杂性和规模的增长，一个关键的挑战出现了：破译 MLLM 的决策过程。[6， 59， 60]。

可解释人工智能（XAI）领域已成为使复杂人工智能系统的决策过程更加透明和可访问的关键 [61， 62， 63]。可解释性和可解释性被定义为以人类可理解的术语进行解释或呈现的能力 [64， 65]。尽管已经取得了重大进展

在单模态可解释性和可解释性方面，例如在卷积神经网络（CNN） [66， 67] 或图像的转换器 [68] 和文本的 LLM [69] 中，多模态域提出了独特的挑战，例如不同模态的对齐和分解。此外，MLLM 的可解释性和可解释性对于确保透明度和可信度至关重要，尤其是在人工智能决策对人类产生重大影响的高风险应用中，它解决了不同数据类型在模型中的组合方式以及它们的相互作用如何影响输出的问题。根据最近的研究 [64， 70， 71]，在本文中，我们将 MLLM 中的可解释性定义为本质上可以理解的内部结构，从而可以直接理解输入如何转化为输出。另一方面，MLM 中的可解释性涉及事后技术，这些技术为模型决策背后的模型行为提供外部分析。

在本文中，我们提出了一种新的见解，通过整合数据、模型、训练和推理的角度来对 MLLM 的可解释性和可解释性进行分类。如图 1 所示，我们从三个角度研究了 MLLM 的可解释性和可解释性：数据（第 III 部分）、模型（第 IV 部分）、训练和推理（第 V 部分）。在数据驱动的可解释性 [72， 73， 74， 75] 研究之后，我们研究了数据视角（第 III 节），探讨了输入和输出数据如何归因于模型的决策。我们还分析了基准和应用程序，以评估各种任务的可信度和可靠性，从而确保在实际场景中的稳健性和适用性 [76， 77]。至于模型的可解释性和可解释性 [78， 79， 80， 81， 82， 83， 84]，从模型的角度（第四节），我们在令牌级别、嵌入级别、神经元级别、层级别和架构级别进行了深入分析。在标记级别 [85， 86， 87， 88， 89]，我们研究了单个标记对模型输出的影响，并探索了提高可解释性的方法。在嵌入层面 [90]，我们评估了多模态嵌入如何影响 MLLM 的性能和可解释性，从而更深入地了解潜在的表示机制。对于神经元水平 [91， 92， 93]，我们分析神经元的单个单元和特殊组，以了解它们对整体模型行为的贡献。在层级 [67， 78， 94]，我们研究了不同层如何影响模型内的决策过程。关于架构，我们区分了架构分析和架构设计 [95， 96， 97， 98] 的可解释性方法，强调了提高透明度和促进更好地理解模型操作的策略。此外，我们还探讨了提高模型透明度和可解释性的训练和推理策略（第 V 节）。在训练阶段 [79]，我们总结了各种训练机制和权重调整如何影响 MLLM 的可解释性。我们讨论了旨在提高对齐、减少幻觉以及促进 MLLM 中核心知识和泛化能力的获取的技术。在推理过程中，我们研究了无需重新训练即可缓解幻觉等问题的方法，包括过度信任惩罚机制和思维链推理技术。

通过整合这些观点 [3， 99， 100]，我们的调查提供了对 MLLM 可解释性和可解释性方面的挑战和进步的整体理解。我们相信，这种全面的分析将成为致力于开发更透明、可靠和值得信赖的多模态模型的研究人员和从业者的宝贵资源。这项工作的主要贡献总结如下：

我们是第一个对关于 MLLM 的可解释性和可解释性的现有研究进行深入和全面审查的人。

・我们提出了对 MLLMs 可解释性和可解释性的当前方法的结构化和比较分析，引入了一种新的分类，将这些方法组织成数据、模型、训练和推理的角度。

我们强调了可能推动该领域发展的潜在研究方向，为旨在进一步开发 MLLM 的可解释性和可解释性方法的研究人员提供有价值的指导。

图 1. 本调查的概念框架。MLLM 处理跨多种模式的输入和输出，例如图像、文本、视频和音频。我们在三个主要维度上探索可解释性和可解释性：数据、模型和训练与推理。

II. 调查情况

A. 调查范围

近年来，多模态模型和 XAI 都取得了重大进展，大量研究探索了使这些复杂模型更加透明和可解释的方法 [72， 73， 74]。为了将本调查的范围缩小到一个可管理的范围，我们关注 MLLM 的可解释性和可解释性。MLLM 的可解释性是指本质上可理解的内部结构，允许直接了解输入如何被处理并转化为输出 [78， 79]。可解释的 MLLM 使研究人员和从业者能够更深入地了解这些跨模态动态，从而清楚地了解每种模态如何影响和塑造模型的决策过程 [90]。可解释性涉及使用外部技术来阐明模型决策背后的原因，这在 MLLM 中对于理解多种模态之间错综复杂的相互作用至关重要 [95]。这一重点不仅增强了我们对多模态集成的理解，还满足了复杂人工智能系统中对透明度日益增长的需求[79]。

在这项调查中，我们专注于 MLM 中可解释性和可解释性的四个主要维度：数据可解释性 – 如何预处理、对齐和表示来自不同模态的输入数据以支持跨模态的可解释性，以及如何将因果归因方法应用于输出以增强对模型决策的理解 [72， 75]。模型可解释性 – 阐明多模态模型本身的结构和功能的技术，提供对神经元、层和架构如何促进可解释性的见解 [67， 78， 79， 80， 85， 86， 87， 90， 91， 95]。训练和推理可解释性 – 了解 MLLM 的训练和推理过程如何影响可解释性，这对于在学习阶段和实际应用中提高透明度至关重要。

为了保持重点，我们将单模态可解释性方法排除在本次调查的主要范围之外，例如 Transformer 可解释性、CNN 可解释性或 LLMs 可解释性，但简要的背景信息除外。同样，不能解决多模态交互独特挑战的一般可解释性方法也超出了本综述的主要范围。相反，我们的重点仍然是明确设计用于解释和解释多种模态之间相互作用的方法和模型。

B. 调查方法

为了全面概述 MLLM 中的可解释性和可解释性，我们对机器学习、NLP、CV 和多模态系统领域的研究论文进行了广泛的审查。我们研究了过去十年（2010-2024 年）发表的论文，重点关注探索这些领域的可解释性和可解释性的不断增长的工作。我们的方法包括几个关键步骤。首先，我们在 Google Scholar 等数据库中使用 “multi modal large models”、“interpretability” 和 “explainability” 等关键词搜索论文，详情见表 I。为了进一步确保我们调查的完整性，我们还审查了关键论文的参考文献列表，并纳入了塑造该领域的早期有影响力的作品。收集候选人论文后，我们遵循了一个多步骤的筛选过程。首先审查标题以确定可能相关的论文，然后进行摘要筛选以确认相关性。如果标题和摘要不足以做出决定，我们会审查全文。如图 2 所示，最终选择涵盖了应用于 MLLM 的各种可解释性和可解释性技术，包括输入输出分析、模型组件和训练动力学。

【这个过程可以由大模型来做】

三、数据

LLM 主要关注在单词、短语或句子级别处理文本输入 [69]。LLM 中的可解释性涉及理解这些模型如何解释输入文本数据并生成可解释的文本数据 [69]。相比之下，计算机视觉中的可解释性通常依赖于 CNN [79] 或视觉转换器（ViTs） [100， 101] 等模型来分析和解释视觉图像数据。MLLM 通过集成视觉、音频和语言信息来扩展这些功能，从而能够生成和理解多模态数据。在本节中，我们主要探讨数据在增强 MLLM 可解释性方面的作用。如图 2 所示，我们将这些工作分为三组：

・输入和输出（第 III-A 节）：重点介绍通过分析模型如何处理输入和输出来提高可解释性的方法，包括扰动、显著性图和因果推理等技术。

基准（第 III-B 节）：重点介绍用于评估多模态模型中的可解释性和稳健性的基准、数据集和指标。

应用（第 III-C 部分）：探索应用于视觉和语言以外的领域的可解释性技术，例如音频、视频、自动驾驶和医学。

A. 输入和输出

MLLM 的稳健性和可解释性在很大程度上取决于这些模型如何处理输入数据和生成输出，以及其决策过程的透明度。早期的工作强调了模型输入处理中的可解释性，Zintgraf et al. [195] 研究了输入图像中特定区域对模型分类的影响，并揭示了不同的图像区域如何有助于预测，从而使深度网络的决策过程更具可解释性。Park 等 [102] 开发了一个多模态可解释性框架，将视觉注意力图与文本理由相结合，提高了视觉和文本输入的模型透明度。Szegedy [196] 表明，深度神经网络对输入数据中微小的、几乎难以察觉的变化非常敏感。

为了进一步探索输入的可解释性，TISE [197] 和 Extremal Perturbations [198] 等方法开发了基于扰动的方法来创建显著性图。这些地图突出显示了输入图像中对模型预测产生重大影响的关键区域，从而通过揭示哪些输入特征对模型决策影响最大来提供可解释的解释。作为对这些方法的补充，Kanehira [199] 提出了一种新的框架，用于生成结合语言和视觉信息的视觉解释。通过最大化模态之间的交互，突出来自不同模态的互补信息如何影响模型决策。最近，Fel et al. [200] 为基于概念的可解释性引入了一个统一的理论框架，将概念提取正式化为字典学习的过程，将概念重要性估计正式化为一种归因方法。

除了这些方法之外，因果推理已成为揭示多模态数据中有意义关系的关键方法。盛冈 [201] 引入了连接性对比学习（CCL），这是一种在多模态环境中发现因果关系的框架。CCL 将混合观察结果解开为独立的潜在成分，并确定它们的因果结构，从而通过提供对多模态数据中潜在因果关系的洞察来提高可解释性。在类似的背景下，CausalPIMA [104] 提出了一种因果表示学习算法，该算法集成了多模态数据和基于物理的约束。CausalPIMA 采用可微的有向无环图 （DAG）学习结构和变分自动编码器，以无监督的方式发现基本的因果关系，从而实现可解释

没有预定义因果假设的因果模式。为了进一步推进因果学习，Klaassen 等人 [105] 在双机器学习（DML）框架内提出了一种神经网络架构，旨在对非结构化数据（如文本和图像）进行因果推理。

扩散模型的最新工作 [202， 203， 204， 205] 为可解释性提供了新的方法，特别是通过像素级归因和信息论方法。DAAM [206] 通过生成使用交叉注意力分数的归因图，提高了大规模扩散模型的可解释性，从而深入了解特定词如何影响图像区域。这种方法揭示了图像生成中复杂的句法和语义关系，例如对象和描述之间的特征纠缠。Liang 等 [106] 提出了一种高效的高模态学习方法，该方法使用信息论指标来测量模态和交互异质性，从而提高了复杂任务中多模态模型的可解释性。在此基础上，Kong et al. [207] 引入了一种信息论方法，以提高去噪扩散模型的可解释性。

图 2. 我们将 MLM 的可解释性分为三个主要类别：数据、模型和训练与推理。此结构有助于全面概述用于解释 MLLM 的各种技术，并讨论在不同范式中评估这些解释的方法。

B. 基准

MLLM 的最新进展为处理和对齐视觉和文本数据提供了变革性的见解 [99， 107]。随着这些模型成为多元化的核心

应用程序，了解它们的决策对于透明度、信任和稳健性至关重要。本文探讨了基准、评估框架和可解释性方法，以应对对齐、稳健性和特定领域的可解释性方面的挑战，强调了可解释性在提高 MLLM 数据集可靠性方面的重要性。

对齐和稳健性。提高视觉语言对齐透明度的努力引入了新的基准和数据集。VISTA [108] 与人类视觉注意力数据保持一致，该数据将视觉语言模型的内部热图与人类注意力模式进行比较，以增强模型的可信度。为了解决分布变化下的鲁棒性问题，Cai 等 [109] 开发了 BenchLMM，使模型能够检测图像样式并解释文体变化下的错误。同样，毛等 [208] 介绍了 COCO-O，旨在评估对象检测器对自然分布变化的鲁棒性，强调了可解释性在识别漏洞中的作用。多模态不确定性基准（MUB） [110] 拓宽了这一观点，评估了 MLLM 对显式和隐式误导性指令的脆弱性。Zhang 等 [111] 进一步开发了 MultiTrust，这是一个涵盖真实性、安全性、稳健性、公平性和隐私性等维度的综合评估框架，揭示了跨模态可解释性的挑战。

图像文本任务。在图像文本任务中，Madhyastha et al. [209] 证明了显式对象信息在识别语义不正确的标题方面的影响，强调了准确编码描述性图像特征以增强可解释性的重要性。在语言表征评估中，Hewitt 和 Liang [210] 引入了控制任务，以验证语言探针是真正捕获了底层结构还是仅仅记住了任务，强调了可解释性评估中选择性的必要性。在文本到图像的生成中，胡等 [112] 提出了 TIFA，这是一种使用视觉问答（VQA）来评估生成图像的忠实度的评估指标。通过将生成的问答对的模型准确性与人类判断相关联，TIFA 提供了精细的可解释性评估。Verma 等 [113] 进一步探索了特定领域的可解释性，研究了视觉属性对模型行为的影响，而 Tiong 等 [114] 介绍了六个可解释性因素来评估视觉语言模型如何表示基本概念。

特定于任务的多模式可解释性。在 VQA 的背景下，Alipour 等人 [115] 证明多模态解释可以提高用户的准确性、信心和理解力，尤其是在模型的响应不准确时。他们引入主动关注作为一种检查因果效应的新方法，突出了透明度在建立信任中的作用。对于零样本学习，Liu 等 [116] 开发了可解释的零样本学习（XZSL）框架，该框架通过深度多模态解释（DME）模型将视觉和文本解释整合到分类决策中。最后，ScienceQA [117] 是一个多模态数据集，通过思维链推理促进可解释性，使结构化讲座和解释能够提高问答性能和学习效率。Schwettmann 等 [211] 介绍了 FIND，这是一个用于自动解释性的基准套件，用于生成和验证黑盒函数的描述以提高理解神经网络行为。

C. 应用

近年来，多模态 AI 模型日益复杂，凸显了对可解释性的需求，这可以为医疗、视频处理、自动驾驶、音频处理和音乐等领域的更多应用提供见解 [12， 99， 107]。本调查回顾了多模态 AI 应用程序最先进的可解释性技术，重点介绍了满足模型透明度各种需求的进步、挑战和方法。

代理可解释性。Xie 等 [8] 探讨了大型多模态智能体（LMA）的系统评价，重点关注基本组成部分、分类、协作框架、评价方法和实际应用，同时强调了多模态可解释性的关键进展并提出了未来的研究方向。可解释性代理在分析模型行为、自动解释特征和识别故障模式方面发挥着关键作用。MAIA [118] 代表了一种多模态自动可解释性代理，旨在解释视觉语言模型和深度网络。该代理使用神经模型进行特征解释和故障模式发现，从而增强对多模态设置中复杂模型行为的理解。同样，Cuadra 等 [119] 引入了一种多模态 LLMs 代理，以提高数字表单完成的可访问性，特别是对于老年人和有感觉障碍的人，从而定制可解释性，以提高人机交互的可用性和包容性。

医学可解释性。多模态人工智能模型中的可解释性在医疗保健领域至关重要，其中透明度可以直接影响临床决策。UnitedNet [212] 是一种可解释的多任务深度神经网络，专为生物数据设计，它揭示了基因表达与其他模态之间的关系，支持可解释的生物数据分析。罗尔斯等人 [213] 采用了因果发现分析。使用因果发现分析（CDA）对酒精使用障碍（AUD）路径进行建模，强调了认知、社会和精神因素对 AUD 严重程度的影响。此外，多模态因果对抗网络（MCAN）[51] 使用多模态因果对抗网络连接功能磁共振成像（fMRI）和脑电图（EEG）数据，促进动态大脑网络结构估计并揭示异常活动模式。Amara 等人 [131] 提出了一种将本体与大型多模态语言模型相结合的新颖框架，以增强特定领域任务的可解释性，使用基于本体的指导和评估来改善模型与领域概念的对齐，特别是对于植物病害分类。区域感知医疗多模态语言模型（MedRegA）[50] 引入了一种区域感知医疗多模态语言模型，通过跨模态实现特定区域的识别和报告生成来与临床工作流程保持一致，从而增强临床实践中的可解释性。

视频可解释性。视频分析领域受益于可解释的多模态模型，这些模型可以阐明复杂的视觉语言任务中的决策。Kanehira 等 [121] 提出了一种用于视频分类的反事实解释方法，通过提高视觉语言的兼容性和理解性来增强可解释性。在 VideoQA 中，Zang 等人 [122] 开发了多模态因果推理（MCR）框架，该框架将因果和混杂特征分开，以提高回答视频相关问题的鲁棒性。同样，Flipped-VQA [123] 通过预测对等视频、问答对来解决 LLM 中的语言偏见，从而增强 VideoQA 的可解释性。Holmes-VAD [124] 通过使用带有单帧注释的多模态数据集来解决视频异常检测问题，从而有助于对异常进行详细的解释。TV-TREES [125] 为逻辑视频语言理解提供了一个蕴涵树生成器，允许人类可解释的证明，并在 TVQA 基准的零镜头场景中实现最先进的性能。

自动驾驶可解释性。在自动驾驶中，可解释性对于理解复杂的决策过程和确保安全至关重要 [3]。胡 et al. [126] 提出了一种概率多模态方法，用于预测车辆行为、解决不确定性和增强可解释性。DriveGPT4 [127] 处理视频输入以提供自然语言解释和低级车辆控制，从而提高对自动驾驶系统的理解。Reason2Drive [48] 引入了一种新的数据集，该数据集具有基于链的推理指标，阐明了决策。Cog-GA [49] 增加了认知映射和双通道场景描述，以支持可解释的视觉语言导航，为场景理解和自动驾驶的自适应规划提供透明度。

音频可解释性。音频处理模型需要可解释性才能有效识别情感和上下文线索。GBAN [128] 采用门控双向对齐网络来对齐语音和文本模态，从而提高了可解释性和情感识别的准确性。Qwen-Audio [214] 扩展了音频语言模型功能，支持多轮对话，提高了以音频为中心的场景的可解释性。多模态注意力合并（MAM）[215] 促进了从文本和图像模型到音频模型的知识转移，而无需额外的微调，而 Jalal 等 [216] 在语音情感中使用了注意力模型

识别映射元音和单词线索，揭示情感模式并提高基于声学的模型的可解释性。Zadeh 等 [129] 提出了用于多模态情感和情感识别的 CMU-MOSEI 数据集，并介绍了动态融合图（DFG），该数据集通过可视化语言、视觉和声学模态之间的交互来详细分析跨模态交互。

音乐可解释性。在音乐信息检索中，可解释性改进了对复杂音频特征的分析，从而提高了音乐分类任务的透明度。Won et al. [217] 开发了一种基于自我注意力的音乐标记模型，将注意力图可视化以捕获音乐成分之间的依赖关系。Lyberatos 等 [218] 将感知特征提取与 SHAP 等可解释性技术相结合，以澄清音乐标记中的歧义标签。PECMAE [219] 使用基于原型的模型和扩散解码器进行音乐分类，从而实现流派和乐器检测的可解释性。Foscarin 等 [220] 基于概念的方法提供了事后解释，将高级音乐概念与模型预测联系起来，促进了音乐学分析。最后，MUSICLIME [130] 在多模态音乐模型中提供了与模型无关的解释，展示了音频和抒情特征如何有助于预测，从而全面理解模型决策。

V. 型号

本节深入探讨了支撑 MLLM 的机制，探讨了如何解释其内部表示，分析了令牌、嵌入、神经元和层等组件，并了解了架构。如图 2 所示，讨论的结构如下：

标记可解释性（第 IV-A 节）：检查标记级别的可解释性，重点是视觉、文本和视觉文本标记。

・视觉标记（第 IV-A1 节）：探讨它们在决策中的作用，重点介绍基础分解、注意力机制和减少标记冗余等方法。

视觉文本标记（第 IV-A2 节）：探索视觉文本对齐、减轻幻觉和改进视觉语言整合。

特征可解释性（第 IV-B 节）：侧重于多模态嵌入和潜在空间的粗粒度分析。

・视觉嵌入（第 IV-B1 节）：探索生成模型中人类可理解的视觉嵌入、内部表示和动态过程。

・视觉文本嵌入（第 IV-B3 节）：讨论可解释的跨模态嵌入和提高对齐和表示能力的技术。

神经元可解释性（第 IV-C 节）：研究多模态模型中单个神经元的可解释性。

・单个单元（第 IV-C1 节）：探索单个神经元在 MLML 中的作用和语义概念。

・专业组（第 IV-C2 节）：突出显示专门从事跨模态或特定领域任务的神经元组。

层可解释性（第 IV-D 节）：分析层在神经网络及其决策过程中的作用。

单个组件（第 IV-B1 节）：检查注意力头、MLP 层和其他组件的功能。

决策工作流程（第 IV-B1 节）：跟踪跨层的表示转换和信息流。

架构可解释性（第 IV-E 节）：从整体上探索模型架构以解释决策过程。

架构分析（第 IV-E1 节）：我们介绍了分析模型特征或可解释性的方法。这些方法中的大多数通常提供视觉或文本解释。我们还使用解释类型作为分类标准来组织这些方法。

架构设计（第 IV-E2 节）：这些方法主要侧重于设计特定的模块或整个框架，以增强模型架构的固有可解释性。通常，它们不提供明确的解释。我们根据它们的不同特征对这些方法进行分类。

A. 令牌

在本节中，我们重点介绍标记级别的多模态可解释性，将标记分为视觉和视觉文本令牌。研究视觉标记主要是为了了解它们对模型输出的影响并减少标记冗余，从而提高模型的可解释性。另一方面，对视觉文本标记进行分析，以探索它们的分布如何影响模型输出，目的是压缩视觉和文本标记以进一步增强可解释性。

视觉标记（IV-A1 节）：讨论了视觉标记在模型决策过程中的重要性，以及可解释基础分解 [228] 和视觉转换器中的注意力机制分析等方法如何增强其可解释性。此外，它还探索了通过减少令牌冗余来提高模型效率和可解释性的方法。视觉 - 文本标记（第 IV-A2 节）：探索视觉和文本模态的集成，重点介绍通过视觉 - 文本标记对齐增强可解释性的方法，减轻多模态模型中的不良行为（如幻觉）并改进视觉语言对齐。

1）视觉标记：视觉标记的可解释性已成为计算机视觉和多模态学习领域的关键焦点。视觉标记是指从图像派生的离散单元，通常表示特定区域或特征，使模型能够更有效地处理高维视觉信息。本文对当前关于视觉标记的研究进行了深入概述，强调了它们在增强模型可解释性、性能和计算效率方面的作用。

背景。最初的研究旨在阐明这些图像标记如何为模型的预测做出贡献，周等 [228] 引入了一个基础分解框架，该框架

将复杂的图像表示简化为基本的视觉组件，从而阐明单个标记对模型预测的影响。最近的进展集中在专门针对 ViT 中独特的自我注意结构量身定制的可解释性技术，重点是图像块之间的交互。例如，马等 [229] 开发了一种可视化补丁交互的方法，强调了跨补丁相关性和注意力分布如何影响整体模型性能。ViT-NeT [230] 和 IA-ViT [231] 等框架扩展了这些可解释性技术，引入了创新的可视化和训练方法。ViT-NeT 利用带有原型的分层树结构来组织和可视化注意力层，提供令牌交互的深刻视图。同时，IA-ViT 对特征提取器、预测器和解释器采用联合训练策略，确保解释保持一致并忠实于模型的内部流程。

令牌效率和冗余。一项重要的研究考察了视觉语言模型深层中视觉标记的效率和冗余性。DynamicViT [232] 引入了一种令牌稀疏化方法，根据输入动态修剪冗余令牌，通过关注信息量最大的

令牌。在多模态设置中，Zhang 等 [134] 进一步研究了 MLLM 中的标记冗余，揭示了标记贡献在浅层收敛，在深层变得冗余，这对模型效率和可解释性有影响。在标记级分析的基础上，FastV [135] 引入了一种方法来修剪 MLLM 中不太相关的视觉标记，从而提高计算效率，同时保留关键的解释性见解。通过专注于高关注标记，FastV 突出了模型在决策过程中优先考虑的视觉元素，从而阐明了视觉信息的流动并增强了对 MLLM 的理解。此外，特定于视觉标记的分析揭示了对视觉语言模型中图像和文本之间语义对齐的进一步见解。Gandelsman 等 [132] 通过将图像表示分解为文本可解释的组件（如注意力头和图像块）来分析 CLIP 的图像编码器，揭示了注意力头的特定作用，包括空间定位和形状识别。同样，Neo 等 [133] 探讨了 LLaVA 模型中视觉标记的可解释性，展示了如何跨层逐渐细化对象特定信息以改进预测。Yao 等 [137] 专注于了解 MLLMs 中的投影仪模块，并跟踪

语义信息从语言标记流回 Visual Patches。

2）视觉文本标记：视觉和文本模态在机器学习中的集成显着提高了复杂任务的可解释性，例如活动识别、视觉问答和内容审核。将视觉元素与文本、多模态可解释性方法对齐，可以更全面地了解模型行为和决策过程。本综述讨论了该领域的最新发展，重点介绍了通过利用视觉文本标记对齐和相关策略来提高可解释性的方法。

在研究 MLLMs 的可解释性时，VLMatch [138] 强调了通过生成器鉴别器结构的可解释性。VL-Match 的工作原理是在细粒度级别对齐令牌，利用负采样进行实例级对齐，并确保视觉和文本表示之间的令牌级一致性。Zhao 等 [139] 研究了 MLLMs 中初始词元的 logit 分布，以揭示这些模型中隐藏的知识。他们的研究结果表明，分析这些分发可以揭示不适当的内容生成、无法回答的问题和其他不良输出，使初始标记分析成为识别和缓解内容生成问题的有用工具。LexVLA [140] 提出了一个补丁级可解释性指标，专门评估图像补丁特征和特定类别文本标记之间的对齐情况，通过检查视觉补丁和相应文本类别之间的一致性，提供了一种细粒度的可解释性方法。此外，DAAM [206] 提出了一种解释大型扩散模型的新方法，方法是使用交叉注意力分数生成像素级归因图，揭示文本提示中的单词如何影响图像生成，并分析影响生成质量的句法和语义现象。

B. 嵌入

尽管对单个标记进行了广泛的研究，但也一直关注对多模态嵌入及其在 MLLM 中的潜在空间进行更粗粒度的分析。同样，我们将这些研究分为视觉、文本和跨模态嵌入。此外，研究还检查了 MLLM 如何理解语言知识以及它们识别图像中文本的能力。如图 4 所示，我们说明了三种关键方法：基于探测的解释、基于归因的解释和基于分解的解释。最近，一些工作分析并提高了 LLM 和 MLLM 的对齐和表征能力 [89， 233， 234， 235， 236， 237]。表 II 总结了嵌入级方法的概述。

1）视觉嵌入：MLLM 的可解释性已成为理解这些模型如何处理和集成视觉信息的焦点，随着这些模型的复杂性和应用范围的扩展，这是一个至关重要的方面。基本方法，例如使用线性分类器 [233] 进行逐层评估，有助于阐明

跨模型层对视觉特征进行渐进式编码，提供对学习表示的结构演变的见解。像 Integrated Gradients [238] 这样的技术提供了一种结构化的方法，用于将模型预测归因于特定的视觉特征，通过描述每个特征对输出的贡献来提高透明度。其他可解释性方法专注于将神经表征映射到人类可理解的概念。例如，网络解剖 [239， 240] 为卷积网络中的各个单元分配语义标签，而使用概念激活向量（TCAV） [234] 进行测试量化了高级用户定义概念对预测的影响。在无监督环境中，空间掩码 [241] 等方法定位了单个潜在维度的影响，捕获了视觉数据中独特的、可解释的变化。

最近的研究扩展了 MLLM 特有的可解释性挑战，强调了文本和视觉表示交互的复杂性。例如，[113] 发现 MLLM 中特定于领域的视觉属性通常在 LLM 中表示，而不是跨模态投影，这强调了了解 LLM 如何编码视觉信息以提高可解释性的重要性。此外，shi 等 [143] 研究了在 MLLM 中集成多个视觉编码器的潜力，表明简单的方法，如连接来自不同编码器的视觉标记，可以显著提高可解释性和模型性能。可解释性研究的另一个领域集中在生成模型，特别是扩散模型，其中理解动态过程至关重要。Park 等 [222] 可视化了生成模型中的扩散过程，展示了这些模型如何通过在连续的时间步长中将注意力引导到相关的视觉概念和区域，逐步构建和完善语义信息。同样，扩散生命树（TDL）Prasad 等 [223] 通过一种创新的嵌入方法可视化了扩散模型中的数据演变，该方法同时保留了语义关系和时间动态，提供了对生成过程的更直观理解，并使模型输出的复杂演变随时间的变化变得可解释。

2）文本嵌入：近年来，理解嵌入内部结构的重大进展极大地增强了多模态模型的可解释性。例如，Hennigen 等 [242] 提出了一种可分解的多元高斯探针，用于文本嵌入的内在分析，发现只有有限的神经元子集编码核心形态句法特征。这种有针对性的方法通过精确定位语言信息在神经表示中的分布方式来提高可解释性。在此基础上，SVO-Probes [144] 确定了多模态图像语言转换器在动词理解方面的具体挑战，特别是与名词相比，从而突出了模型可解释性的关键改进领域。同时，Wolfe 等 [224] 证明，相对于 GPT-2 的 CLIP 嵌入实现了更小的各向异性，增强了单词和句子嵌入之间的语义连贯性和互操作性。此外，Moayeri 等 [145] 引入了一种创新的 “文本到概念” 对齐方法，该方法将预训练模型中的特征映射到 CLIP 的嵌入中

space，以便通过对齐的文本嵌入更直接地解释模型特征。

3）跨模态嵌入：为了应对 MLLM 中可解释性的挑战，研究人员开发了各种方法，专注于创建与人类认知一致的跨模态嵌入。联合非负稀疏嵌入（JNNSE）[146] 引入了一种早期的方法，通过与人类行为和神经影像学数据对齐来生成稀疏、可解释的向量，以捕获多模态语义信息。在此基础上，STAIR [147] 将图像和文本表示建立在人类可理解的标记中，不仅提供了改进的模型可解释性，还增强了检索性能，这强调了以可解释性为中心的嵌入的双重好处。SHARCS（共享概念空间）[148] 扩展了多模态表示的可解释性，将来自不同模态的可解释概念统一到一个共享空间中，从而为涉及缺失模态的情况创建了一个多功能框架，并增强了多模态学习的普遍适用性。

进一步改进跨模态嵌入可解释性的努力包括 SpLiCE [149]，它将 CLIP 嵌入转换为人类友好概念的稀疏、可解释的组合。通过允许在没有明确概念标签的情况下进行概念级分析，SpLiCE 保留了可解释性和下游性能，丰富了对多模态模型的定性和定量理解。此外，Gandelsman 等 [132] 和 Frank 等 [150] 探讨了 CLIP 等模型的结构方面，揭示了信息不对称以及特定注意力头在处理文本和视觉输入中的作用。最后，FreeBind [151] 引入了 “空间纽带”，以整合跨多模态空间的专业知识，同时保持统一的解释连贯性，Parekh et al. [152] 提出了一个字典学习框架，进一步阐明了基于视觉和文本表示的多模态概念提取。这些进步共同反映了对更具可解释性和平衡性的多模态模型的持续推动。

模糊可解释性。MLLM 可解释性技术的最新进展使更直观和可控的生成过程成为可能。非对称反向过程（Asyrp）[227] 在预训练的扩散模型中引入了语义潜在空间（h-space），促进了跨不同时间步长的可解释和精确图像编辑。作为对这些进展的补充，Evirgen 等 [153] 提出了专门针对文本到图像系统的新型解释方法，使用户能够更好地理解和利用这些模型。

探索可解释性。了解跨模态嵌入如何编码和传输信息对于实现更深入的可解释性至关重要。Lindstr ̈om et al. [225] 通过检查视觉语义嵌入并揭示这些嵌入如何从文本和图像模态中捕获互补信息，特别是在涉及同义词和多义词的任务中，提供了有价值的见解。Salin 等 [154] 进一步探索了这一领域，采用探测任务来分析微调如何影响视觉语言模型嵌入的可解释性。扩展这些

perspectives，Ramesh 等 [155] 比较了可解释性框架 —— 标签归因和最优传输 —— 以检查多模态转换器（如 CLIP 和 ViLBERT）中的注意力交互，满足了不同模型之间统一可解释性的需求。Crabb'e 等 [226] 通过使用奇异值分解（SVD）和概念编码来研究跨模态嵌入中的特权方向和多语义特征，展示了这些组件如何跨多个概念编码复杂信息，从而为这一领域做出了贡献。

基于图形的可解释性。除了嵌入之外，还探索了分层和基于图形的方法，以提高多模态模型的可解释性。LaPool [243] 引入了一种可解释的分层图池化方法，该方法同时利用节点特征和图结构。该方法显着改善了图神经网络（GNN）中的分子表示，并增强了药物设计等分子任务的可解释性，证明了可解释模型在专业领域的适用性。

C. 神经元

预训练模型中的神经元一直是可解释性研究的重点，计算机视觉（CV）和自然语言处理（NLP）的研究分析了它们的功能和语义作用 [91,265]。在多模态模型中，工作扩展到探索与特定概念或域相关的神经元。本节概述了这些研究，详见表 III，涵盖了多模态和传统领域的详细和更广泛的分析。

1）单个单元：已广泛探索如何将深度神经网络中的单个神经元与特定概念或功能相关联。

背景。在 transformer 的提议下，Dai et al. [247] 在 transformer 模型中引入了 “知识神经元” 的概念，指的是在表达事实信息时激活的神经元。他们的工作表明，停用这些知识神经元会显着损害 transformer 模型中存储的相应事实的准确性。Meng 等 [249] 进一步探索了 GPT 中的知识神经元，发现 GPT 中的事实关联可以通过定位和编辑 MLP 层中的特定神经元来直接修改。这项工作为语言模型中的知识结构提供了更深入的见解。Chen 等 [254] 通过分析多语言大型语言模型中的知识神经元，扩展了这项研究。他们提出了一种基于梯度的检测方法 AMIG，用于识别存储特定知识的神经元。Chen 等人将这些知识神经元分为两种类型：与语言无关的神经元和退化神经元，它们取决于存储的知识是跨语言共享还是特定于一种语言输入。Qian 等人 [93] 发现公平性和隐私相关神经元在 LLM 中是耦合的。一个简单而有效的解耦操作缓解了公平性与隐私的冲突。

在视觉领域，Bau et al. [239] 提出了 “网络解剖” 任务，旨在识别和标记 CNN 中神经元捕获的概念。

单个神经元。在多模态领域，关于多模态网络中的概念神经元已经有显着的工作。Goh 等 [156] 在 CLIP 中引入了多模态神经元的概念，它对真实和文本图像中存在的概念做出反应。Schwettmann 等人。Gandelsman 等 [157] 分解了 CLIP 表示，以分析单个神经元的间接影响。通过将分解的嵌入向量投影到词汇空间中，他们揭示了 CLIP 中神经元的次要语义效应。至于多模态生成式 AI，Liu 等 [253] 介绍了 “锥体”，这是一种在扩散模型中检测和编辑概念神经元的方法。通过启用概念神经元簇的选择性激活或串联，他们设法操纵生成的图像中的特定主题。Hintersdorf 等 [256] 开发了 NEMO，这是一种在扩散模型的交叉注意力层中精确定位和管理记忆神经元的方法。

2）专业化组：虽然一些研究人员专注于分析单个神经元的功能，但也有一种观点认为神经元组是共同负责特定任务的。

背景。在视觉网络中，Cammarata 等 [258] 发现了专门用于检测图像中曲线的神经元。Schubert 等 [257] 扩展了这些发现，确定了负责检测高频和低频特征的视觉神经元。Olah et al. [259] 进一步证实，类似于 [257， 258] 中的特征和电路在视觉网络中是通用的，为这些网络如何解释图像提供了见解。还有语言模型的相关研究。例如，Gurnee 等 [264] 讨论了 GPT-2 中的通用神经元，指出这些神经元在各种模型实例中表现出一致的激活模式。这些通用神经元对于调整预测不确定性和管理对特定标记的注意力至关重要。Mueller 等 [260] 使用基于因果的方法检查了负责不同语言之间句法一致性的神经元，发现与掩蔽语言模型相比，这些神经元在自回归模型中表现出更大的重叠。Tang 等 [262] 引入了语言特异性神经元（LSN）的概念，并证明了激活或停用这些 LSN 可以影响输出语言

多语言大型语言模型（XLLM）。Kojima 等 [263] 发现 LSN 主要位于 XLLM 的顶层和底层，并且在语言之间表现出最小的重叠。

多模态神经元组。然而，对多模态模型的研究通常强调桥接文本和图像特征的神经元。[261] 扩展了这个概念，即使在 MLLM 的纯文本语言组件中也能检测多模态神经元。同样，Pan 等 [158] 在预训练的转换器中鉴定了多模态神经元，评估了它们的敏感性、特异性和因果效应。Huo 等 [159] 提出了结构域激活概率熵（DAPE）评分来识别结构域特异性神经元，并评估它们对 VQA 任务的影响。最近，Huang 等 [160] 将这一概念扩展到模态特异性神经元，并提出了一种基于重要性评分的方法来检测不同模态特异性的神经元。

D. 图层

经典的深度神经网络，尤其是 transformer 架构，由通过跳过连接连接的堆叠隐藏层组成，例如基于解码器（例如 GPT）、基于编码器（例如 BERT）或编码器 - 解码器模型（例如 T5 [266]）。这些层可以进一步分为 MLP、多头注意力（MHA）和层归一化等组件。本节 IV-C 节从两个角度回顾了有关这些层级元素的文献：首先，特定层（例如，注意力头、MLP 层）的功能及其对模型决策的贡献；第二，跨层的整体决策过程，重点是表示转换。总结的方法如表 IV 所示。

1）单个组件：许多研究试图解释不同层在深度神经网络中跨领域（如 CV、NLP 和多模态应用程序）的作用。

背景。Mahendran 等 [267] 探讨了 CNN 中隐藏状态的可逆性，表明有关图像的摄影准确信息被保留在多个层中。Dosovitskiy 等 [268] 使用上卷积神经网络反转了 CNN 的隐藏状态，发现输入图像的颜色和粗糙轮廓可以从更高网络层的激活中重建，甚至可以从预测的类概率中重建。

随着变压器的兴起，一些研究已经检查了这些模型中注意力头和 MLP 层的功能。Cordonnier 等 [269] 认为，注意力层可以有效地进行卷积，并且经常在实践中学会这样做。他们还证明，具有足够数量的头部的多头部自我注意层至少与任何卷积层一样具有表现力。Sukhbaatar 等 [270] 提议用持久内存向量来增强自我注意层，这表明这些记忆向量可以取代转换器的 MLP 层。Geva 等 [271] 证明，在基于 transformer 的语言模型中，前馈层充当键值记忆，每个键都与训练样本中的文本模式相关联，而每个值都影响输出词汇的分布。Michel 等 [272] 对变压器注意力头进行了消融研究，结果表明：

在测试过程中可以移除许多磁头，而不会造成实质性的性能损失。Voita 等 [273] 分析了单个注意力头，发现只有少数关键头具有可解释的功能，例如关注相邻的单词和跟踪特定的句法关系。

在 NLP 中，已对预训练语言模型的层进行了广泛分析。Clark 等 [274] 研究了 BERT 的注意力头，观察了诸如对分隔符标记的注意力、特定位置偏移量和广泛的句子范围注意力等模式，这些模式通常在同一层内的头之间具有相似的行为。Kovaleva 等 [275] 探索了由 BERT 的各个头部编码的信息，揭示了在不同头部之间重复的一组有限的注意力模式。Htut et al. [276] 研究了 BERT 和 RoBERTa 隐式捕获句法依赖性的能力，发现了一些针对特定依赖类型的专门关注头，尽管没有确定用于整体解析的通才头。任等 [94] 分析了注意力头，以解释 LLM 的情境学习。

多模态组件。Cao 等 [161] 通过跨各种模型架构的探测任务分析了多模态预训练，确定了针对跨模态交互优化的注意力头子集，并有效地编码了语言知识。Gandelsman 等 [132] 将 CLIP 的图像表示分解为单个图像块、层和注意力头的总和，使用 CLIP 的文本表示来解释这些组件。他们发现，每个注意力头的角色可以通过跨越其输出空间的文本表示来表征，从而得出结论，CLIP 中的 MLP 的直接影响最小。Quantmeyer 等 [162] 将语言模型的可解释性方法（如因果追踪）应用于多模态模型，分离出 CLIP 文本编码器中处理否定的部分，并分析注意力头在此任务中的作用。Si 等 [277] 研究了 UNet 对去噪过程的贡献，揭示了其主干主要帮助去噪，而跳跃连接将高频特征引入解码器。

2）决策工作流程：除了分析神经网络中不同层的功能外，从浅层到深层解释模型的决策过程也同样重要。这包括揭示预训练模型如何感知输入并做出决策，从而更深入地了解其理解和推理机制。背景。了解学习的表示在深度神经网络中如何转换是可解释性的另一个重要挑战。Kowal 等 [278] 提出了 “视觉概念连接组”（VCC）方法，该方法识别视觉网络中人类可解释的概念和层间连接，量化这些概念的贡献，而无需标记数据集。在 NLP 中，Van Aken 等 [279] 应用了一般和特定于 QA 的探测任务来揭示存储在每个表示层中的信息，表明 BERT 中的转换遵循与传统管道任务相关的阶段。Tenney et al. [280] 发现 BERT 以可解释的、本地化的方式表示传统 NLP 管道的步骤。

多模态模型的工作流程。最近的工作有 ex

研究了多模态模型的决策工作流程。Xu et al. [163] 将卷积和注意力机制与适配器模块相结合，发现将该模块放在较浅的层比将其放置在顶层更有效地增强了视觉语言模型的性能。Wolfe et al. [224] 观察到 CLIP 的句子嵌入在各层之间逐渐变得不那么相似，这表明对比性的预训练目标推动了细粒度语义句子表示的形成。Palit 等 [281] 在视觉语言模型中采用了一种因果追踪工具进行机械可解释性，阐明了在图像条件文本生成过程中后层中表征的因果作用，为超越简单输入 - 输出相关性的潜在机制提供了见解。Huo et al. [159] 提出了一个关于多模态语言模型如何处理视觉嵌入的三阶段假设，他们使用 logit 镜头方法验证了该假设。Zhang 等 [134] 使用 LLaVACAM 和注意力评分来可视化 MLLMs 中跨层推理过程中的信息流，发现信息在浅层收敛，在深层发散。Tao et al. [164] 指出，模型的中间层编码了更多的全局语义信息，这使得它们比顶层更适合视觉语言蕴涵任务。Prasad 等 [282] 评估了时间步长和 UNet 分量对稳定扩散最终输出的影响，表明较低层主要有助于语义改变，而较高层则侧重于去噪，尤其是在初始生成阶段之后。Nguyen 等 [165] 提出了一个多任务学习框架，该框架利用密集共注意力层来共同学习分层视觉 - 语言表示。通过使用特定于任务的解码器和注意力图可视化，他们的方法增强了可解释性

通过跨模态交互的显式建模。

E. 体系结构

在第 IV-C 节和第 IV-D 节中，我们检查了细粒度神经元和层级别的可解释性。但是，一些研究在更粗粒度的架构级别上探索了 MLLM 的可解释性。我们将提供架构层级的详细定义，然后对这些相关工作进行介绍和分类。与以前侧重于 MLLM 特定组件的方法不同，本小节将 MLLM 模型视为一个整体。我们还旨在探索是否可以以这种方式解释 MLLM 的决策过程。我们将这些作品分为两组：

・架构分析：（第 IV-E1 节）这种方法独立于任何特定的模型结构或内部机制，例如变压器中的注意力操作或 CNN 中的卷积单元，使我们能够将其应用于任何 MLLM 的解释。

– 特征归因：我们引入了经典的解释方法，将重要性分数归因于特征，为后续方法奠定了基础。

– 单模态解释：在这里，我们包括提供单模态解释的方法（主要针对图像模态），提供全面的全局视角。

– 多模态解释：还有一些方法可以提供多模态解释（例如，结合图像和文本模态），为用户提供更全面的视角。

– 交互式解释：根据人类命令或偏好提供解释的方法

在此处归入交互式解释类别。

– 其他：架构级模型分析方法，通过模型比较提供对模型特征的洞察，也包括在这里供参考。

架构设计：（第 IV-E2 节）这些方法通过使用高度可解释的模块修改架构来提高模型的可解释性。与架构分析不同，它们不会生成明确的解释输出，而是专注于特定的模型类型，利用独特的结构或参数来探索内部机制并产生详细的见解。

– 代理模型：使用更简单的模型（例如线性模型或决策树）来近似复杂模型的性能。

– 基于概念：这种方法使模型能够学习人类可理解的概念，然后使用这些概念生成预测。

– 基于因果：这些方法将因果学习中的概念纳入架构设计，例如因果推理或因果框架。

– 其他：我们在此处包含与架构中其他模块相关的方法，这些方法无法归类为上述类。

然后，我们将详细解释这些类别中的方法。

1）架构分析：与前面提到的神经元、层或模块的分析不同，本节介绍利用整个模型架构来提供解释的工作。如图 5 所示，我们根据直观的角度对这些方法进行分类，即解释输出的类型：单模态解释、多模态解释和交互式解释。表 V 中列出了总结的方法。

特征归属。这些方法主要在早些年提出，被用作 CNN 或其他模型的解释技术。虽然它们与 MLLM 没有直接关系，但我们将它们作为背景包含在其中，以便让读者更全面地了解 XAI 开发的时间线。我们也希望这些方法可以激发 MLLM 的新解释技术。

[283， 284， 285] 通过为稀疏特征分配贡献值来解释模型的决策过程。LIME [283] 在输入空间的局部子空间中训练了简单的线性模型，近似了复杂模型在这些区域中的行为。实验表明，LIME 对专家和非专家用户都有效，可以提高各种任务的可解释性，例如模型比较、信任评估、改进不可靠的模型以及深入了解预测。DeepLIFT [284] 将网络中每个神经元的贡献传播回输入特征，以分解预测的输出。它将每个神经元的激活值与其 “参考激活值” 进行比较，以根据差异分配贡献分数。SHAP [285] 通过引入概念，统一了六种现有的解释模型预测的方法（包括 LIME 和 DeepLIFT）

的 “Additive Feature Attribution” 中，为每个特征分配贡献值以阐明单个样本的预测。

单峰解释。在 [286] 中引入的类激活映射（CAM）的基础上，几种后续方法 [287， 288， 289， 290]，统称为 CAM 系列，识别输入图像中的关键区域，并将它们显示为类激活图（热图）。CAM [286] 最初通过突出显示重要区域来演示 CNN 中的对象定位，而无需边界框注释。Grad-CAM [287] 是一种 CAM 变体，无需修改即可将其扩展到多个 CNN 架构。U-CAM [288] 以 VQA 任务为目标，通过基于梯度的估计生成视觉注意力图。Score-CAM [289] 通过使用前向分数来计算激活权重，从而对 CAM 进行了改进，使其与梯度无关，并且在识别和定位方面有效。最后，gScore-CAM [290] 增强了 CLIP 的可解释性，使用梯度采样组生成可靠的注意力图，同时降低复杂性并避免图像中文本的干扰。

[291， 294] 通过优化目标函数来确定决策过程中最重要的图像区域，通常旨在最大限度地降低分类准确性，然后使用热图或显著性图突出显示图像的重要区域。I-GOS [294] 通过最小化分类精度并采用积分梯度而不是传统梯度来计算下降方向，从而确定图像中最重要的区域。该论文 [291] 提到了 CNN 的两种可视化技术：（1）使用激活最大化来说明 CNN 捕获的类别概念，以及（2）通过反向传播的梯度计算特定图像和类别的显著性图。[292， 293， 297] 基于相关性传播方法，该方法定义特征和分类结果之间的相关性，并通过各种传播策略将这种相关性反转回输入图像。[292， 297] 讨论了两种策略：（1）泰勒分解，它通过围绕中性数据点（不属于任何类别的数据点）执行泰勒展开来识别每个像素的贡献，从而线性近似分类函数；（2）逐层相关性传播（LRP），它将分类相关性从每一层传播到前一层。[293] 将深度泰勒分解（DTD）扩展到多层神经网络，生成热图以评估单个像素在分类中的重要性。

多模态解释。[166， 167， 168， 169， 295] 提供多模态可解释性，例如图像和文本解释，与单模态方法相比，提供更详细和系统的见解。[295] 引入了一个通用的 transformer 解释框架，能够解释（i）自我注意架构，（ii）混合自我注意和交叉注意力模型，以及（iii）编码器-解码器注意力设计。DIME [166] 通过解耦不同模态的信息流来增强细粒度的可解释性，阐明每种模态如何为模型的决策做出贡献。CCM [167] 通过协作相关模块改进了 VQA 模型的答案解释，该模块加强了答案和解释之间的联系，并提高了视觉和文本输出的质量。[168] 整合文本和视觉

VQA 系统中的解释，以类似人类的风格呈现答案，以提高清晰度和理解力。VALE [169] 将用于识别有影响力图像区域的 SHAP 与 SAM 和预先训练的视觉语言模型（VLM）相结合，以生成视觉（例如热图）和自然语言解释，从而提供模型推理的全面视图。

交互式解释。可解释 AI 领域最近一直在努力解决这样一个问题，即深度神经网络（DNN）的决策过程是否可以用一组稀疏符号概念来解释。大量工作探索了 DNN 的输入变量之间不同类型的交互，作为解释其内部工作原理的一种方式。Sundararajan 等 [298]、Janizek 等 [299] 和 Tsai 等 [300] 都提出了不同的方法来模拟这些输入级交互。在此基础上，任 et al. [301] 利用 Harsanyi 红元来表示由 DNN 编码的 AND 型交互。有趣的是，他们的实验结果表明 DNN 倾向于依赖

在输入变量之间的稀疏一组此类交互上。进一步推进这一研究方向，Li et al. [302] 揭示了在判别神经网络中，低阶交互在不同输入样本中表现出更高的可转移性。作为补充，任等 [303] 正式推导出了可以保证相互作用稀疏性的共同条件。此外，任等 [304] 引入了一种方法，可以根据输入变量的交互来学习输入变量的最佳掩码状态，从而减轻了基于 Shapley 值的解释中次优掩码引入的偏差。从更广泛的角度来看，Chen et al. [305] 提取了不同神经网络架构之间共享的常见交互模式，表明这种可推广的交互可能支撑网络的推理机制。此外，Cheng 等 [306] 提出了一种从 DNN 的中间层中提取交互的方法，阐明了这些推理模式在正向传播过程中是如何逐渐学习和遗忘的。GANSpace [307]

采用主成分分析（PCA）来揭示潜在空间内的关键方向。通过选择性地沿这些主轴扰动各层，他们实现了高度的可解释性和对生成图像的控制。

Harsanyi 交互理论 [308] 为神经网络的表征能力提供了令人信服的视角，提供了对其行为和学习过程的见解。这可以详细说明如下。Wang 等 [309] 建立并数学验证了深度神经网络（DNN）的对抗性可转移性与对抗性扰动中存在的交互之间的反比关系。任等 [310] 强调，对抗性攻击主要针对高阶交互，而不是低阶交互。同样，周等 [311] 证明，与高阶交互相比，低阶交互表现出更优越的泛化特性。Liu 等 [312] 为 DNN 比高阶互动更擅长学习低阶交互的观察结果提供了解释。邓等 [313] 发现了一个令人惊讶的瓶颈：神经网络经常无法有效地编码中阶二元交互。任等 [314] 表明，贝叶斯神经网络（BNN）比标准神经网络更不可能捕获复杂的 Harsanyi 交互。此外，任等 [315] 和 Zhang 等 [316] 发现了神经网络交互获取中的两阶段学习动态，这种现象在各种架构和任务中都一致观察到。最后，邓等 [317] 通过证明它们的基本机制可以被重新表述为在输入变量之间重新分配交互效应的不同方式，统一了一系列经典的归因方法。

一些可解释性方法支持交互式解释，根据用户偏好提供灵活、精细的分析，例如关注 MLLM 中的特定图像区域或神经元。这些系统集成了各种模式，如文本、图像和图表，以创建全面的解释框架。它们的灵活性和深度为用户提供了更广泛的见解，有助于在复杂场景中做出明智的决策。[118， 170， 296] 提议使用

全面的解释系统或代理，用于提供对模型行为的多模态洞察。[118， 296] 结合了多种可解释性工具，以增强对复杂神经网络的理解。具体来说，[296] 将各种可解释性技术统一为连贯的语法，并创建了更丰富、更有效的用户界面。这些界面，尤其是在视觉任务中，可以帮助用户更好地掌握神经网络的内部工作原理。[118] 引入了 MAIA，它集成并自动化了一系列可解释性工具。MAIA 解决了两个关键挑战：（1）降低对虚假特征的敏感性和（2）自动检测可能分类错误的输入，从而更深入地了解复杂的神经模型。LVLM-Interpret [170] 专注于识别影响模型输出的关键图像补丁。它提出了一种新颖的交互式应用程序，可以增强这些补丁的可解释性，帮助用户理解 LVLM 的内部机制。这些工作共同强调了将多种可解释性工具和用户交互相结合以实现更全面和可访问的模型解释的重要性。Diffusion Explainer [171] 是一种用于扩散的交互式可视化工具，旨在解释稳定扩散如何将文本提示转换为图像。通过比较不同文本提示的图片生成结果，用户可以识别关键词的变化对生成的图片的影响。

别人。此外，一些研究从架构的角度分析模型属性。Tran 等人 [318] 比较了循环（RNN）和非循环（Transformer）结构在分层信息建模中的表现，表明循环结构有利于捕获层次结构并为可解释性研究提供见解。Yang 等 [172] 和 Ramesh 等 [155] 专注于分析 MLLM：Yang 等 [172] 提出了 “视觉表示定律”，揭示了跨模态对齐、视觉一致性和模型性能之间的密切联系，而 Ramesh 等 [155] 研究了各种可解释性方法（例如注意力权重、基于梯度的方法），评估了它们在多模态任务中的优势和局限性，并提供了改进建议。

2）架构设计：如图 6 所示，这类方法侧重于在模型架构中设计特定模块，以增强其固有的可解释性。许多方法利用简单但可解释的代理模型（如决策树或线性模型），将它们集成到架构中以提高可解释性。一些方法首先预测人类可理解的概念，然后使用这些概念生成预测，使结果更易于解释。此外，许多作品基于因果框架构建架构以嵌入可解释性。不属于上述类别的方法被归入 Other designs 类别。表 VI 中列出了总结的方法。

代理模型。一种常见的方法是在解释或决策过程中使用代理模型作为复杂模型的替代模型。所选代理模型可以是决策树或简单线性模型。这些更简单的模型在其决策过程中提供了更高的透明度，并且可以有效地近似复杂模型的行为，从而在一定程度上保留了深度神经网络的高精度特性。这种方法增强了模型的可解释性，使用户能够更好地理解其决策机制。Liu 等人 [320] 和 Wan 等人 [173] 提议使用决策树来近似复杂模型的行为，通过利用神经网络和决策树的优势，有效地平衡可解释性和高准确性。Liu 等人 [320] 通过知识蒸馏将深度神经网络的知识转移到决策树中。Wan 等人 [173] 的 NBDT 采用可微决策序列和替代损失函数来取代神经网络的最终线性层，鼓励模型学习更高级别的概念并减少对不确定决策的依赖。Wong 等 [321] 利用弹性网络正则化在预训练的深度网络的深度特征上训练稀疏线性决策层，允许通过检查不太重要的特征及其线性系数来调试模型行为。

基于概念。Koh 等人 [322] 和 Y ̈uksekg ̈on ̈ul 等人 [323] 通过使模型能够预测人类可理解的概念来增强可解释性。CBM [322] 雇员可解释的概念来预测最终输出，适用于任何网络架构，只需调整给定层中的神经元数量以匹配概念数量，同时用损失函数约束层的输出。然而，CBM 有两个主要缺点：（1）它需要密集的概念注释和（2）它可能会降低模型的准确性。PCBM [323] 对 CBM 进行了改进，包括（1）允许从其他数据集或通过多模态模型进行概念转移，而无需密集的注释，以及（2）结合 SVM 以引入可解释性，同时保持模型性能，解决了 CBM 的两个局限性。LaBo [174] 是一种语言引导的概念瓶颈模型（CBM）方法，它使用 GPT3 通过 CLIP 自动生成与视觉数据一致的可解释瓶颈概念，实现与黑盒模型相当或更好的性能，尤其是在低数据环境中，同时保持可解释性。

基于因果关系。一些工作引入了因果学习来提高模型的可解释性：Li et al. [325] 提出了一个基于因果关系的去偏框架，该框架使用来自训练语料库和 LLM 推理的因果见解来指导去偏提示的设计和选择。[175， 176， 324， 326] 介绍了多模态任务的方法，Chen et al. [324] 通过引入 LLCP 框架解决了视频 QA 中大量数据注释和有限因果推理的挑战，该框架分析了事件中对象的时空动态。TRACE [175] 提出了一个因果事件建模框架，该框架将视频表示为事件序列，利用先前的时间信息、视频输入和文本指令来预测当前事件。MGCE [176] 利用多模态因果嵌入学习网络来增强结构和特征水平上对高质量因果嵌入的学习。Liu 等 [326] 提出了一个专门为多模态数据设计的统一因果模型，展示了多模态对比表示学习在识别潜在耦合变量方面的优势。

别人。在 MLLM 出现之前，有几项工作专注于将可解释性注入模块设计：引入了认知注意力网络（CAN） [319] 来解决视觉常识推理（VCR）任务。CAN 包括两个关键模块：（1）图文融合模块：

该模块集成了来自图像和文本的信息，增强了模型处理多模态输入的能力。（2）推理模块：它对图像、查询和响应之间的常识性关系进行编码，使模型能够通过使用常识知识理解元素之间的关系，从而超越单纯的物体识别进行推理。许多作品也将这个想法应用于多模态模型。IA-ViT [231] 通过分析图像块设计了一个具有增强可解释性的 Vision Transformer，提高了各种视觉任务的可解释性。MultiModN [177] 利用模块化和顺序融合架构，能够清晰跟踪每种模态的贡献，并增强可解释性和鲁棒性，防止缺失数据造成的偏差。VL-MoE [178] 利用稀疏门控专家混合（MoE）通过基于输入模态动态缩放模型来提高视觉语言任务的效率和可解释性，为处理模型复杂性和性能之间的权衡提供见解。IMKGASM [179] 通过采用具有细粒度多模态融合和基于感知交互的奖励机制的序列建模方法，增强了多模态知识图谱链接预测的可解释性，从而在复杂的多模态环境中实现高效和可解释的推理。

V. 训练和推理

我们研究了训练策略、机制和推理方法，以增强和分析

训练策略对于通过影响权重分布和揭示模型内的特征交互来提高模型的可解释性至关重要。优化这些策略为未来对可解释 AI 的研究奠定了坚实的基础。在训练中，预训练方法揭示了注意力机制和跨模态对齐如何增强理解。在推理过程中，思维链（CoT）推理和上下文学习（ICL）等技术提供结构化、可解释的输出。CoT 有助于逐步解释以最大限度地减少幻觉，而多模态 ICL 突出关键表示动态，实现稳健、实时的可解释性。这些方法共同提高了 MLLM 的透明度和可靠性，促进了它们在实际应用中的采用。

A. 培训

预先训练的可解释性。预先训练的 VLM 的可解释性是构建强大、透明的 AI 系统的基础，尤其是当它们部署在需要可解释性的真实场景中时。Value [161] 的早期研究探讨了注意力机制如何通过视觉共指解析和视觉关系检测等任务促进跨模态和模态特异性对齐，阐明了自我注意模式在模型可解释性中的关键作用。在此基础上，Salin 等 [154] 分析了预先训练和微调的 VLM 表示，揭示了固有的偏差，特别是关于物体定位和大小，从而强调需要能够识别和解决公平 AI 应用程序的这些偏见的框架。概念发现与学习（CDL）[180] 进一步推进了这些可解释性工作，引入了基于多模态数据识别和排序视觉概念的方法，增强了模型识别可解释对象的能力，并扩大了它们在需要上下文理解的任务中的可用性。Yun et al. [327] 研究了预训练模型如何学习颜色和形状等基本概念，并引入组合概念映射（CompMap）来评估预测复合概念的可解释性。LIMA [328] 表明，基础知识和泛化能力是在预训练期间建立的，有针对性的微调通过提炼而不是彻底修改核心知识来提高可解释性。为了进一步应对大规模训练的挑战，DistTrain [181] 通过解决模型和数据异质性、优化资源分配和最大限度地减少大规模集群的计算效率低下，增强了多模态 LLM 训练的可解释性和效率。Neo 等 [133] 通过研究自动立体货柜中的内部视觉处理，提供了对其解释机制的见解，并进一步阐明了这些模型如何理解和表示视觉信息，从而扩展了这一研究方向。

对齐可解释性。视觉语言表示的有效对齐对于减少幻觉等问题和提高多模态模型的可靠性至关重要。事实增强 RLHF [182] 通过将事实数据纳入训练过程、最大限度地减少幻觉并生成更准确、可解释的输出来解决这个问题。ViGoR 框架 [183] 通过使用细粒度的奖励建模来改善视觉基础，从而增强了可解释性，并得到了人工和自动评估的支持，以提高多模态任务的准确性。RLHF 已成为使 MLLM 与人类期望保持一致的有效方法，从而提高可解释性。LLaVA-RLHF 模型 [182] 通过将人类反馈与事实增强相结合来减少幻觉并提高模型透明度，从而说明了这种方法。在这种方法的基础上，RLHF-V [184] 集成了密集直接偏好优化（DDPO），以进一步完善策略模型，有效地减轻幻觉，提高复杂多模态场景中的鲁棒性。解决幻觉对于实现可靠的可解释性至关重要。HA-DPO [187] 通过创建风格一致的幻觉样本对并专注于偏好学习来减少幻觉，使模型能够优先考虑事实的准确性，从而增强输出的可解释性。同样，Silkie [329] 利用了来自 AI 反馈的强化学习（RLAIF），利用从更强的 MLLM 中提取的偏好来强化忠实和可解释的输出。RLAIF-V [188] 还通过将 MLLM 与开源反馈保持一致，并通过消除混淆响应生成迭代来提高反馈质量，从而强调可信度。POVID [189] 创新性地整合了 AI 生成的不偏好数据来引入合理的幻觉，从而在没有人工干预的情况下培养了一个细致入微的偏好优化框架。

梯度可解释性。基于梯度的方法通过关注模型如何赋予不同模态的重要性，提供了一种增强多模态模型可解释性的重要方法。SMOOTHGRAD [330] 通过平均噪声扰动版本来改进基于梯度的灵敏度图，以增强像素重要性的可视化，这在图像分类任务中特别有效。在此基础上，多模态路由 [185] 通过动态调整输入模态和输出预测之间的权重来增强可解释性，从而能够对模态 - 预测关系进行本地和全局洞察。IFI [186] 通过改进视频和传感器数据融合的特征选择，进一步提高了基于 transformer 的模型的可解释性，从而提高了模型在特定应用中的性能，如风险检测和视频分类。

幻觉可解释性。最近的进展还侧重于减少多模态模型中的不良行为，例如幻觉。Dai et al. [141] 介绍了一种模型，该模型通过利用更小的、基于补丁的特征和一种新的对象掩码语言建模损失来减轻幻觉。这些设计选择不仅通过减少模型与现实的不一致来增强可解释性，还有助于提高性能，在模型输出的准确性和清晰度之间取得平衡。此外，OPERA [142] 通过引入对摘要标记的过度信任的惩罚来分析标记交互，从而解决了过度自信问题，有效地减少了解码过程中的幻觉，并导致更准确和可靠的解释。作为补充，DOPRA [221] 动态惩罚过度的令牌积累，并采用回溯重新分配策略，在不依赖外部资源的情况下，将生成的内容与图像数据更紧密地对齐。

B. 推理

最近的工作 [190， 331， 332] 探讨了 LLM 中的幻觉现象，这是一个影响多模态应用程序中使用的模型可靠性的紧迫问题。幻觉是指模型生成的信息看似合理但实际上不正确或没有输入数据支持的情况。由于 MLLM 中集成了来自文本和视觉模式的信息，因此此类问题在 MLLM 中尤其复杂。

COT 可解释性。CoT 推理已成为一种强大的技术，可以提高推理任务的可解释性，尤其是在多模态模型中。MultimodalCoT [192] 通过整合文本和视觉信息，生成连贯的基本原理，从而提高推理准确性并减少幻觉，从而为这一领域做出贡献。显式解耦推理步骤的模型进一步推动了 CoT 推理的进步。像 [193， 194， 333] 这样的研究引入了 CoT 推理步骤的手动分离，促进了更细微的多模态交互并增强了模型的可解释性。此外，Visual CoT [334] 提供了一个独特的数据集和多轮处理管道，动态地关注关键视觉区域，以支持 VQA 任务中的可解释推理步骤。更复杂的 CoT 框架集成了外部知识结构。例如

KAM-CoT [335] 利用跨多种模态的 CoT 推理中的知识图谱，动态强调关键信息以提高推理的透明度。 [336] 基准测试解决了跨多个领域和多步骤推理场景的挑战，为理解复杂推理提供了强大的评估框架。视觉思维链（VCOT）[337] 通过生成多模态合成填充物来提供人类可解释的见解，有效地弥合顺序推理任务中的逻辑差距并提高性能，从而进一步提高了可解释性。树增强视觉语言（3VL） [338] 模型，通过用于文本表示的分层树结构增强视觉语言模型中的可解释性和组合推理，以及锚点和差分相关性（DiRe）工具，通过可视化组合理解的成功和失败来阐明模型行为

ICL 可解释性。LLM 中的上下文学习（ICL）功能为实时、上下文相关的响应提供了一种独特的方法，无需重新训练 [339]。然而，在所有模型组件之间实现统一的可解释性仍然存在挑战。例如，[340] 仅探索了对性能有重大贡献的特定注意力头和前馈网络。解决多模态 ICL 中的可解释性问题，[341] 引入了一个多模态对比 ICL 框架，通过采用对比学习技术来揭示关键的表征动态来提高可解释性。

幻觉可解释性。为了应对这一挑战，一项详细的调查 [191] 对 MLLMs 中的幻觉进行了调查，回顾了其根本原因、当前的评估基准和可用的缓解策略。为了在不需要额外数据或重新训练的情况下解决推理过程中的幻觉，OPERA [142] 引入了一种过度信任惩罚机制，并增强了可解释性和性能，为减少 MLLM 中的幻觉提供了一种有前途的方法。视觉对比解码（VCD）[103] 采用了一种无需训练的技术，该技术比较了原始视觉输入和扭曲视觉输入产生的输出分布。通过强调输出一致性的差异，VCD 有效地减少了物体幻觉，从而提高了 MLLM 输出的可靠性和可解释性。

VI. 未来方向

A. 数据集和更多模态

多模态可解释性的未来工作应侧重于改进输入输出数据表示和基准测试。对于输入数据，需要标准化的预处理和注释管道，以确保文本、图像、视频和音频等模态之间的一致性，同时保留特定于模态的基本特征。对于输出，框架应生成多模态解释，例如具有视觉或时间突出显示的自然语言基本原理，与人类理解保持一致。在基准测试方面，未来的工作应该创建特定于任务的数据集和评估协议，以评估保真度、可理解性和偏差检测的可解释性，同时反映现实世界的复杂性，包括不同的领域和多语言数据集。

B. 多模态嵌入

未来关于多模态模型中标记级和嵌入级可解释性的工作应旨在将细粒度的可解释性与整体系统透明度联系起来。在标记级别，研究应侧重于跨模态跟踪和归因于特定输入标记的预测，探索动态标记重要性机制，并使归因与人类推理保持一致。在特征层面，应通过发现有意义的模式和相关性来增强中间表示的可解释性，例如视觉嵌入和潜在文本特征。将令牌和特征级洞察集成到统一框架中，可以全面了解模型如何处理多模态信息。

C. MLM 的组件

多模态神经元分析的未来研究应侧重于模态对齐机制和高效的模型编辑。虽然多模态神经元可以感知跨模态的概念，但其背后的机制仍不清楚。进一步的研究应通过神经元分析来调查对齐过程，并开发精细、高效的神经元编辑方法。将此分析扩展到电路可以揭示单元之间的互连，从而更深入地了解模型行为。对于层级可解释性，未来的工作应该探索组件和工作流在跨模态决策中的作用。这包括了解各种编码器（例如视觉、音频、点云）和投影仪如何将非文本输入与 LLM 的文本空间对齐。此外，研究应阐明如何处理投影后嵌入，识别处理跨模态输入的层，并分析它们对 LLM 推理能力的影响。

D. 模型架构

建筑级多模态可解释性的未来工作应侧重于通过研究不同建筑组件在处理跨模态信息中的特定作用来提高多模态模型的透明度。这包括探索各种编码器（例如视觉、音频和点云编码器）如何相互交互并在 LLM 的文本空间中对齐它们的输出。了解从原始模态输入到其集成表示的信息流，并揭示这些组件如何为最终决策过程做出贡献，这一点至关重要。此外，检查投影后嵌入的功能并确定哪些层负责处理多模态输入，对于揭示跨模态推理的底层机制至关重要。这些见解可以为更具可解释性的架构铺平道路，这些架构可以促进信任和理解，同时提高多模态模型在实际应用中的可靠性。

E. 训练动力学和推理

多模态可解释性的未来工作应侧重于将可解释性集成到训练和推理中的统一框架。在训练期间，模型应优先考虑

透明度并与人类理解保持一致，同时保持可扩展性。推理应提供实时的、任务自适应的解释，以增强信任和清晰度。在这两个阶段评估可解释性的稳健基准将至关重要，从而能够为实际应用开发透明、可靠和高性能的多模态系统。

VII. 结论

本调查系统地探讨了 MLLM 的可解释性和可解释性，强调了透明度在其决策中的重要性。我们将可解释性方法分为三个主要领域 —— 数据、模型以及训练和推理 —— 提供了一个结构化的框架来组织研究和指导未来的研究。虽然已经取得了重大进展，但在可解释性和可解释性方法以及确保广泛适用性方面仍然存在挑战。未来的努力应解决这些差距，以建立对 MLLM 的统一理解，促进创新，使多式联运系统更加可靠和值得信赖。