【大语言模型】ACL2024论文-15 大型语言模型中的最佳解释推断

摘要

大型语言模型（LLMs）在现实世界的应用中取得了成功，但它们背后的解释过程仍然不为人所充分理解。本文提出了一个受哲学上最佳解释推断（IBE）启发的框架IBE-Eval，以推进对LLMs解释的理解和评估。IBE-Eval通过结合明确的逻辑和语言特征（包括一致性、简洁性、连贯性和不确定性）来估计自然语言解释的可信度。在因果问题回答（CQA）上进行了广泛的实验，其中IBE-Eval的任务是在由LLMs（例如GPT 3.5和Llama 2）生成的竞争性解释中选择最可信的因果解释。实验表明，IBE-Eval能够成功识别最佳解释，准确率高达77%（比随机选择高出约27%），比GPT 3.5作为裁判的基线提高了约17%，同时在本质上更高效和可解释。额外的分析表明，尽管模型之间存在差异，但LLM生成的解释倾向于符合IBE标准，并且IBE-Eval与人类判断显著相关，为未来自动化解释验证工具的发展提供了机会。

研究背景

大型语言模型（LLMs）如OpenAI的GPT和Llama 2在多种语言理解和推理任务中表现出色。尽管LLMs的性能已在各种基准测试中得到了充分的研究，但它们逐步推理过程背后的原理和属性仍然不为人所充分理解。LLMs是著名的黑盒模型，难以解释，且商业化的LLMs在模型架构和训练细节上存在战略性保密。此外，神经模型容易受到幻觉和对抗性扰动的影响，经常产生看似合理但事实上不正确的答案。随着LLM架构的规模和复杂性的增加，系统地研究生成的解释变得至关重要，以便更好地解释和验证LLM的内部推理和推理过程。

问题与挑战

自动评估自然语言解释面临几个挑战。没有资源密集型的注释，解释质量方法往往依赖于弱监督，即将正确答案的识别作为解释质量的证据，或者需要注入特定领域的知识。本文旨在通过研究明确的语言和逻辑属性来更好地理解LLM的解释过程。尽管由于其开放式的本质，解释很难形式化，但作者假设它们可以作为语言对象进行分析，具有可测量的特征，这些特征可以用来定义评估其质量的标准。

如何解决

为了解决上述挑战，本文提出了一个受哲学上的IBE启发的解释框架，称为IBE-Eval。该框架旨在通过一系列明确的逻辑和语言特征来估计自然语言解释的可信度。这些特征包括逻辑一致性、简洁性、连贯性和语言不确定性。为了评估IBE-Eval的有效性，作者在多项选择因果问题回答（CQA）设置中进行了广泛的实验。在这些实验中，IBE-Eval的任务是在由LLMs生成的竞争性解释中选择最可信的因果解释。