计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30

计算机前沿技术-人工智能 算法-大语言模型-最新研究进展-2024-10-30

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30
- 目录
- 1. Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - 1. 步骤定义（Step Definition）
    - 2. 步骤引导生成（Step Guidance Generation）
    - 3. 推理生成（Reasoning Generation）
    - 4. 算法流程
  - 实验效果（包含重要数据与结论）
  - 后续优化方向
- 2. Language Agents Meet Causality -- Bridging LLMs and Causal World Models
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型（主要模块及用途）
  - - 1. 因果编码器（Causal Encoder）
    - 2. 文本编码器（Text Encoder）
    - 3. 因果转换模型（Causal Transition Model）
    - 4. 因果映射器（Causal Mapper）
    - 5. 状态描述生成器（State Description Generator）
  - 实验效果（包含重要数据与结论）
  - 后续优化方向
  - 代码
- 3. LLMs Can Evolve Continually on Modality for X-Modal Reasoning
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - 1. Adapter-in-Adapter (AnA) 框架
    - 2. MoE-based Gating Module
  - 实验效果
  - 后续优化方向
- 4. Rethinking the Uncertainty: A Critical Review and Analysis in the Era of Large Language Models
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - 1. 因果编码器（Causal Encoder）
    - 2. 文本编码器（Text Encoder）
    - 3. 因果转换模型（Causal Transition Model）
    - 4. 因果映射器（Causal Mapper）
    - 5. 状态描述生成器（State Description Generator）
  - 实验效果
  - 后续优化方向
- 5. Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - 1. 数据集准备
    - 2. 提示工程
    - 3. 模型微调
    - 4. 个体偏好建模
  - 实验效果
  - 后续优化方向
- 后记

1. Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning

Authors: Lang Cao, Chao Peng, Yitong Li
https://arxiv.org/abs/2410.19817
在这里插入图片描述
逐步引导推理：使用引导生成和步骤推理改进数学推理

摘要

本文探讨了大型语言模型（LLMs）在数学推理方面的挑战，并提出了一种新颖的方法——逐步引导推理（Step Guidance Reasoning, SGR），以提高LLMs的数学推理能力。SGR方法通过在推理阶段引入反思过程，使LLMs能够从一步推理有效地引导到下一步。该方法在AMC23数据集上的准确率从30%提高到57.5%，在MATH数据集的5级问题上相对准确率提高了55.8%，从43%提高到67%。

研究背景

自链式推理（Chain-of-Thought, CoT）方法被引入LLMs以来，复杂问题可以被分解为更小但更易管理的推理步骤。然而，复杂的数学推理仍然是LLMs面临的重大挑战。尽管通过扩大模型参数和训练数据可以提高LLMs在数学推理中的准确性，但高质量的CoT数据量成为了瓶颈。

问题与挑战

当前的方法要么需要大量的推理数据集作为训练数据，要么依赖于少量样本方法，这通常会牺牲准确性。此外，对于更具挑战性的数学问题，如竞赛级别的数学问题，现有的方法表现不佳。

如何解决

SGR方法通过在每一步推理中引入自我提问和自我回答的过程，使模型能够自我引导从一步到下一步的推理。具体来说，在每一步中，模型首先自我提问接下来应该做什么，然后自我回答这个问题以帮助生成下一步的答案，最后使用这种反思来指导后续的生成过程。

创新点

SGR方法的创新之处在于，它不需要对模型进行进一步的微调，而是在推理阶段引入了自我引导的步骤。这种方法使得模型能够在没有额外微调的情况下，显著提高解决复杂问题的能力。

算法模型

SGR涉及多个思考步骤，在推理时每一步由两个主要生成部分组成：步骤引导生成和推理生成。模型首先生成与给定数学问题相关的步骤引导，然后使用生成的步骤引导来得出当前步骤的单步答案。这个过程一直持续到模型生成最终答案或达到迭代预算。

详细算法模型包含如下几步：

1. 步骤定义（Step Definition）

SGR方法不依赖于进一步的模型微调，而是在推理过程中定义了“步骤”的概念。理论上，步骤可以以不同的粒度定义，如token级别、句子级别、段落级别或块级别。考虑到SGR不需要微调，并且复杂的数学问题通常需要数千token的答案，SGR选择使用一个段落作为一个步骤。在实践中，对于英文输出，“.\n\n”可以作为大多数指令/聊天模型（如GPT-4和Qwen）逻辑推理的有效分隔符。为了避免模型在每个“.\n\n”处重复分析第一步，SGR引入了步长约束，即每个由“.\n\n”指示的步骤需要一个最小数量的token。

2. 步骤引导生成（Step Guidance Generation）

步骤引导生成过程包括两个部分：

第一次迭代：LLM被询问与查询相关的第一步引导问题，包括相关知识。然后LLM独立回答这个问题，生成步骤引导。
后续迭代：LLM直接回答下一步需要的相关知识。所有生成的步骤引导仅用于当前步骤，并不保留到后续步骤。

3. 推理生成（Reasoning Generation）

在推理阶段，步骤引导和之前累积的推理结果被包含在提示中，以促进持续推理。生成过程在达到带有最小长度的token“.\n\n”时停止，标志着当前步骤的完成。这种方法类似于Reach-Augmented Generation，但额外的上下文是由LLM自己生成的，而不是预先存在的。

4. 算法流程

SGR的算法流程可以概括为以下几个步骤：

问题输入：将数学问题作为查询输入到模型中。
步骤引导生成：模型生成与问题相关的步骤引导。
单步推理：使用生成的步骤引导，模型进行单步推理，得出当前步骤的答案。
迭代：重复步骤2和3，直到模型生成最终答案或达到迭代预算。
输出最终答案：模型输出最终答案，或在达到迭代预算后停止。

实验效果（包含重要数据与结论）

实验使用了三个具有代表性的挑战性数学基准数据集：AMC23、MATH的5级测试案例和AIME24。结果显示，SGR在所有三个数据集上的性能都优于标准CoT。具体来说，在MATH测试集上相对提高了55.8%，在AMC23上提高了62.5%，在AIME24上提高了94.0%。与现有的数学特定开源模型相比，SGR在不需要微调数据的情况下实现了可比的性能。

后续优化方向

尽管SGR方法取得了显著的改进，但由于计算资源的限制，实验中的测试数据只能从MATH的5级中抽取部分样本。此外，GPT4的评估结果范围有限，因此在AMC23和AIME测试数据集上使用了手动评估方法。未来的工作可以探索如何扩展SGR方法以处理更大规模的数据集，并进一步优化模型以减少推理阶段的计算资源需求。

2. Language Agents Meet Causality – Bridging LLMs and Causal World Models

Authors: John Gkountouras, Matthias Lindemann, Phillip Lippe, Efstratios Gavves, Ivan Titov
https://arxiv.org/abs/2410.19923

语言代理遇见因果关系——将大型语言模型与因果世界模型相桥接

摘要

大型语言模型（LLMs）在规划和推理应用中展现出巨大潜力。这些任务需要鲁棒的系统，而因果理解对于环境至关重要。虽然LLMs能够从预训练数据中获取和反映常识性因果知识，但这些信息往往是不完整的、错误的或不适用于特定环境。相比之下，因果表示学习（CRL）专注于识别给定环境中的基本因果结构。我们提出了一个框架，将CRL与LLMs集成，以实现因果感知的推理和规划。该框架学习了一个因果世界模型，将因果变量与自然语言表达式链接起来。这种映射为LLMs提供了一个灵活的接口，用于处理和生成文本形式的动作和状态描述。实际上，因果世界模型充当了一个模拟器，LLM可以查询和与之交互。我们在不同时间尺度和环境复杂性上的因果推理和规划任务上评估了框架的有效性。实验表明，因果感知方法在长期规划视野中优于基于LLM的推理器。

研究背景

LLMs已成为从自然语言理解到复杂问题解决等一系列任务的强大工具。最近的工作探索了LLMs作为规划和推理任务的行动代理，显示出改善任务特定、下游性能的希望结果。这些方法主要依赖于模型从其训练数据中提取常识性因果信息的能力。尽管LLMs可以反映一般信念和相关性，但这些信息可能是不完整的、错误的或不适用于特定环境。这在动态环境中对LLMs提出了挑战，尤其是在准确建模行动后果至关重要的情况下。

问题与挑战

LLMs在新环境或复杂情况下面临挑战，尤其是在动态环境中，准确的行动后果建模至关重要。此外，现有的CRL方法在将理论应用于具有视觉复杂性的现实环境时面临挑战。

如何解决

我们提出的框架通过将CRL与语言模型集成来解决这些问题，以改善因果推理和规划任务的性能。CRL为LLMs提供了结构化的因果理解，可以在规划期间推理干预措施及其后果。因果世界模型类似于模拟器，但不是预定义的，而是通过学习得到的，允许LLM评估多种可能的未来情况，从而指导其决策。

创新点

提出了第一个将CRL与LLMs集成的框架，以实现交互环境中的因果感知推理和规划。
探索了基于文本的动作表示在CRL中的有效性，并在数据稀缺的情况下展示了其数据效率的改进。
在静态和动态环境中展示了框架在一系列推理和规划任务中的有效性。

算法模型（主要模块及用途）

在这里插入图片描述

1. 因果编码器（Causal Encoder）

使用CRL模型实现，将高维状态表示（图像）映射到其基本组成部分——因果变量。

2. 文本编码器（Text Encoder）

将自然语言描述的动作编码为模型可以理解的格式。

3. 因果转换模型（Causal Transition Model）

使用从图像和编码动作中获得的解耦潜在表示来模拟下一个状态。

4. 因果映射器（Causal Mapper）

从学习到的解耦表示中提取因果变量。

5. 状态描述生成器（State Description Generator）

将估计的因果变量映射到自然语言描述的状态。

实验效果（包含重要数据与结论）

实验在动态的8×8网格世界和静态的3D渲染厨房（AI2-THOR）环境中进行。结果表明，因果世界模型在因果推理任务中一致优于基线模型，即使在8步推理中也保持了75.8%的高准确率。在规划任务中，因果模型在两个环境中均展现出更高的成功率、效率和可扩展性，特别是在长期规划视野中。
在这里插入图片描述

后续优化方向

未来的工作可以探索将框架应用于现实世界环境，提高学习到的因果世界模型的可解释性，并开发独立于标记因果变量的技术。此外，随着更强大的CRL方法的出现，可以将它们集成到我们的框架中，扩展到更复杂、更现实的场景。

代码

https://j0hngou.github.io/LLMCWM/

#!/bin/bashMODELS_URL="https://zenodo.org/records/13992827/files/pretrained_models.zip?download=1"
TARGET_DIR="pretrained_models/"mkdir -p $TARGET_DIRecho "Downloading pretrained models..."
wget -O pretrained_models.zip $MODELS_URLecho "Extracting models..."
unzip pretrained_models.zip -d $TARGET_DIRrm pretrained_models.zipecho "Pretrained models have been downloaded and extracted to $TARGET_DIR."

3. LLMs Can Evolve Continually on Modality for X-Modal Reasoning

Authors: Jiazuo Yu, Haomiao Xiong, Lu Zhang, Haiwen Diao, Yunzhi Zhuge, Lanqing Hong, Dong Wang, Huchuan Lu, You He, Long Chen
https://arxiv.org/abs/2410.20178

代码：
https://github.com/JiazuoYu/PathWeave

LLMs 可以在 X-Modal 推理上不断进化于模态

摘要

多模态大型语言模型（MLLMs）因其在多模态理解中的能力而受到关注。然而，现有方法依赖于大量的模态特定预训练和联合模态调优，这在扩展到新模态时带来了显著的计算负担。本文提出了 PathWeave，一个灵活且可扩展的框架，具有模态路径切换和扩展能力，使 MLLMs 能够不断进化于模态以进行 X-Modal 推理。我们利用持续学习的概念，并在预训练的 MLLMs 上开发了增量训练策略，使其能够使用单模态数据扩展到新模态，而无需执行联合模态预训练。具体来说，我们引入了一种新颖的 Adapter-in-Adapter (AnA) 框架，将单模态和跨模态适配器无缝集成，以促进高效的模态对齐和协作。此外，我们在两种类型的适配器之间应用了基于 MoE 的门控模块，以进一步增强多模态交互。为了验证提出的方法，我们建立了一个具有挑战性的基准测试，称为模态持续学习（MCL），包含来自五种不同模态的高质量 QA 数据：图像、视频、音频、深度和点云。广泛的实验表明，提出的 AnA 框架在持续学习中的学习可塑性和记忆稳定性方面是有效的。此外，PathWeave 在减少参数训练负担 98.73% 的同时，性能与最先进的 MLLMs 相当。

研究背景

随着人工智能的发展，大型语言模型（LLMs）在语言理解和推理方面展现出了令人印象深刻的能力。这促使研究人员开发多模态 LLMs（MLLMs），通过整合额外的输入来处理多模态任务，例如图像-文本理解、音频识别和 3D 问题回答。这些模型通常包括视觉编码器、冻结或可训练的 LLM，以及用于视觉-语言对齐的投影模块。尽管如此，这些模态特定的 LLMs 在感知不同模态方面存在挑战，类似于人类的挑战。
在这里插入图片描述

问题与挑战

现有方法在扩展到新模态时需要重新访问所有历史数据并重复完整的训练过程，这限制了 MLLMs 的持续扩展。此外，这些方法依赖于联合模态优化，这在资源需求上非常高。

如何解决

为了解决这些问题，我们提出了 PathWeave，一个基于持续学习（CL）概念的增量训练框架，允许 MLLMs 通过单模态数据扩展到新模态，无需联合模态预训练或微调。我们使用预训练的视觉 LLM 作为接口，并提出了 AnA 框架，允许其他模态的高效扩展和对齐。

创新点

提出了 PathWeave，一个使 MLLM 能够逐步扩展到多个模态的高效且可扩展的框架，无需联合模态预训练。
引入了 AnA 框架，将单模态和跨模态适配器无缝集成，以增强增量学习中的模态对齐和交互。
建立了具有挑战性的 MCL 基准测试，并定义了评估指标。广泛的结果表明，PathWeave 在持续学习中的模态可塑性和记忆方面是有效的，并且在减少参数训练负担的同时，性能与最先进的 MLLMs 相当。

算法模型

在这里插入图片描述

1. Adapter-in-Adapter (AnA) 框架

AnA 框架包含单模态和跨模态适配器，以促进新模态对齐和跨模态集成。单模态适配器用于适应新模态，而跨模态适配器通过插入一系列内适配器来形成，允许有效整合历史知识和正在进行的模态。

2. MoE-based Gating Module

在单模态和跨模态适配器之间实现的基于 MoE 的门控模块，用于自适应地整合不同模态的输出。

实验效果

我们在 MCL 基准测试上进行了广泛的实验，包括图像、视频、音频、深度和点云数据。结果表明，PathWeave 在新模态学习方面的性能与最先进的 MLLMs 相当，同时显著减少了参数训练负担。具体来说，PathWeave 在减少参数训练负担 98.73% 的同时，性能与最先进的 MLLMs 相当。
在这里插入图片描述

后续优化方向

尽管 PathWeave 在五个模态的扩展上表现出色，但并未涵盖现实世界场景中的所有模态信息。此外，我们的方法中的模态间隐式交互还无法以增量方式完成跨模态联合语言推理任务。未来的工作可以探索扩展到更多模态，并改进模态间的交互机制，以实现更复杂的跨模态任务。

4. Rethinking the Uncertainty: A Critical Review and Analysis in the Era of Large Language Models

Authors: Mohammad Beigi, Sijia Wang, Ying Shen, Zihao Lin, Adithya Kulkarni, Jianfeng He, Feng Chen, Ming Jin, Jin-Hee Cho, Dawei Zhou, Chang-Tien Lu, Lifu Huang
https://arxiv.org/abs/2410.20199

重新思考不确定性：在大型语言模型时代的关键审查与分析

摘要

近年来，大型语言模型（LLMs）在人工智能应用中扮演了基础性角色。随着LLMs应用的扩展，准确估计其预测中的不确定性变得至关重要。当前方法往往难以准确识别、测量和解决真正的不确定性，许多方法主要关注估计模型信心。这种差异主要是由于对不确定性在模型中何时、何地以及如何注入的理解不完整。本文介绍了一个专门设计的框架，用于识别和理解与LLMs独特特征一致的不确定性类型和来源。该框架通过系统地分类和定义每种类型，为开发能够精确量化这些不确定性的针对性方法奠定了基础。文章还详细介绍了相关概念，并检验了当前方法在关键任务和安全敏感应用中的局限性。最后，文章提出了未来方向的视角，旨在增强这些方法在现实场景中的可靠性和实际采用。

研究背景

LLMs在复杂推理和问答任务中展现出了显著的能力。尽管如此，LLMs在生成错误答案时仍面临重大挑战，这在需要高精度和可靠性的领域尤其严重。LLMs决策过程中缺乏透明度和表达力是一个关键问题，全面理解和估计模型的不确定性在这方面起着重要作用。例如，在医疗领域，医生在诊断像癌症这样的严重疾病时，不仅需要模型的高预测准确性，还需要了解与病例相关的不确定性。
在这里插入图片描述

问题与挑战

如何解决

我们提出的框架通过将CRL与语言模型集成，以改善因果推理和规划任务的性能。CRL为LLMs提供了结构化的因果理解，可以在规划期间推理干预措施及其后果。因果世界模型类似于模拟器，但不是预定义的，而是通过学习得到的，允许LLM评估多种可能的未来情况，从而指导其决策。

创新点

提出了第一个将CRL与LLMs集成的框架，以实现交互环境中的因果感知推理和规划。
探索了基于文本的动作表示在CRL中的有效性，并在数据稀缺的情况下展示了其数据效率的改进。
在静态和动态环境中展示了框架在一系列推理和规划任务中的有效性。

算法模型

1. 因果编码器（Causal Encoder）

使用CRL模型实现，将高维状态表示（图像）映射到其基本组成部分——因果变量。

2. 文本编码器（Text Encoder）

将自然语言描述的动作编码为模型可以理解的格式。

3. 因果转换模型（Causal Transition Model）

使用从图像和编码动作中获得的解耦潜在表示来模拟下一个状态。

4. 因果映射器（Causal Mapper）

从学习到的解耦表示中提取因果变量。

5. 状态描述生成器（State Description Generator）

将估计的因果变量映射到自然语言描述的状态。

实验效果

实验在动态的8×8网格世界和静态的3D渲染厨房（AI2-THOR）环境中进行。结果表明，因果世界模型在因果推理任务中一致优于基线模型，即使在8步推理中也保持了75.8%的高准确率。在规划任务中，因果模型在两个环境中均展现出更高的成功率、效率和可扩展性，特别是在长期规划视野中。

后续优化方向

5. Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments

Authors: Marharyta Domnich, Julius Valja, Rasmus Moorits Veski, Giacomo Magnifico, Kadi Tulver, Eduard Barbu, Raul Vicente
https://arxiv.org/abs/2410.21131

迈向统一评估反事实解释：利用大型语言模型进行以人为本的评估

摘要

随着机器学习模型的发展，保持透明度要求更多的以人为本的可解释AI技术。反事实解释，根植于人类推理，识别获得给定输出所需的最小输入变化，因此对支持决策至关重要。尽管它们很重要，但这些解释的评估往往缺乏用户研究的基础，并且仍然分散，现有的指标没有完全捕捉到人的角度。为了解决这一挑战，我们开发了一套多样化的30个反事实情景，并从206名受访者那里收集了8个评估指标的评分。随后，我们微调了不同的大型语言模型（LLMs），以预测这些指标上的平均或个人人类判断。我们的方法允许LLMs在零样本评估中达到高达63%的准确率，并且在所有指标上微调后超过3类预测的准确率达到85%。微调模型预测人类评分提供了更好的可比性和可扩展性，以评估不同的反事实解释框架。

研究背景

大型语言模型（LLMs）在多模态理解方面展现出了令人印象深刻的能力。然而，现有方法严重依赖于广泛的模态特定预训练和联合模态调整，这在扩展到新模态时带来了显著的计算负担。本文提出了PathWeave，一个灵活且可扩展的框架，具有模态路径切换和扩展能力，使MLLMs能够持续在模态上发展，以进行X模态推理。

问题与挑战

评估反事实解释时，现有方法往往没有充分考虑人的角度，依赖于不一致的定量指标，或者依赖于用户研究，这些研究关注特定子集的个体，缺乏跨时间和方法的可比性。此外，用户研究很少用于基准测试反事实解释，部分原因是招募足够数量能够执行这些评估的专家存在困难和成本。

如何解决

为了解决这些问题，研究者们开发了30个多样化的反事实情景，并从206名受访者那里收集了8个评估指标的评分。然后，他们微调了不同的大型语言模型（LLMs），以预测这些指标上的平均或个人人类判断。这种方法使得LLMs能够在零样本评估中达到高达63%的准确率，并且在所有指标上微调后超过3类预测的准确率达到85%。

创新点

提出了PathWeave框架，一个灵活且可扩展的框架，使MLLMs能够持续在模态上发展，以进行X模态推理。
开发了一套多样化的30个反事实情景，并从206名受访者那里收集了8个评估指标的评分。
微调不同的LLMs以预测这些指标上的平均或个人人类判断，提供了更好的可比性和可扩展性，以评估不同的反事实解释框架。

算法模型

在这里插入图片描述

1. 数据集准备

收集和过滤问卷调查响应，创建一个有用的数据集，用于微调LLMs。

2. 提示工程

开发三种提示结构，以实现最佳可能的LLM性能。

3. 模型微调

使用问卷数据作为输入数据集，测试和微调大型语言模型，以自动化评估反事实解释。

4. 个体偏好建模

探索不同人对解释的偏好差异，使用特定参与者的答案数据集进行实验。

实验效果

实验结果表明，LLMs在零样本学习中表现出一定的评估反事实解释的能力，GPT-4模型在指标分割上达到了63%的准确率。所有测试的模型都超过了随机猜测的平均准确率。微调显著提高了准确率，Llama 3 70B Instruct模型在指标分割上达到了85%的准确率，并且在问题分割上也表现出色。混淆矩阵显示，在微调后，表现最佳的模型在所有指标上都没有将“低”分类为“高”或反之的错误，这表明对指标有高水平的理解。

后续优化方向

未来的工作应该旨在生成更大的数据集，并使用最新的反事实算法。这些数据集应该以较小的子集形式呈现给参与者进行评估，因为单个参与者只能认真评估有限数量的解释。此外，主要的启示是，微调的LLM应该被应用于评估各种反事实算法。此外，模型可以随着更大更新和更强大的架构以及数据集的推出而进行迭代重训。随着LLMs的规模和能力的不断提升，这可能会进一步改善模仿人类评估模式的能力。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞、收藏、关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。