机器学习顶会NeurIPS： AGILE: A Novel Reinforcement Learning Framework of LLM Agents

ops/2025/1/12 8:11:39/

🌟 研究背景 🌟

随着大型语言模型（LLMs）在指令遵循、推理和零样本学习等方面展现出卓越的能力，基于LLMs的自主代理（LLM Agents）的研究逐渐兴起。然而，如何将规划、反思、工具使用等关键组件整合到统一框架，并实现端到端的优化，目前仍是一个开放性问题。为了解决这一难题，AGILE框架应运而生，旨在通过强化学习（RL）技术，实现LLM代理的高效学习与优化。

🛠️ 相关工作 🛠️

在LLM代理的研究领域，已有诸多工作探索了不同的组件和方法。例如，WebGPT利用浏览器辅助问答，ReAct通过结合推理和行动提升模型能力，Reflexion则通过口头强化学习实现模型的自我修正。然而，这些研究大多聚焦于单一组件或特定任务，缺乏一个统一的框架来整合多种能力，并进行端到端的优化。AGILE框架的提出，正是为了弥补这一空白，为LLM代理的研究提供新的思路和方法。

🧠 模型图输入输出转变 🧠

AGILE框架的模型图由四个核心模块组成：LLM、记忆、工具和执行器。输入为用户的问题以及相关的上下文信息，包括产品元数据、历史问答对和知识库等。LLM作为策略模型，负责生成指令和处理响应，其输出为一系列动作，如检索记忆、使用工具、寻求专家建议等。执行器则根据LLM的指令，执行相应的操作，并将结果反馈给LLM，形成一个闭环的交互过程。最终，模型输出为针对用户问题的答案，可以是直接预测的答案，也可以是经过工具搜索或专家建议后的综合答案。

🚀 方法与创新 🚀

AGILE框架的核心在于其强化学习方法的应用。首先，将LLM代理的构建问题转化为强化学习问题，以LLM作为策略模型，通过与环境的交互学习最优策略。其次，提出了一个新颖的训练方法，包括模仿学习和策略梯度算法（PPO）两个阶段。在模仿学习阶段，通过观察人类专家或更熟练的代理的行为，生成轨迹并微调LLM。在PPO阶段，进一步优化LLM的策略，使其在不同模块的调用以及推理、规划、反思和寻求建议等能力上更加高效。此外，AGILE框架还创新性地引入了主动寻求人类专家建议的能力，使代理在面对复杂问题时能够及时获取准确答案，并从中学习和积累知识，以适应新任务。这一创新不仅提高了代理在处理复杂问题时的准确性，还促进了代理的自适应学习能力，为其在更广泛的应用场景中发挥作用奠定了基础。

🧪 实验 🧪

实验部分，作者在ProductQA、MedMCQA和HotPotQA三个复杂问答任务上对AGILE框架进行了评估。ProductQA是一个包含88,229个问答对的基准测试，涵盖26个亚马逊产品类别，全面考察了代理处理历史信息、利用工具、与人类交互等能力。实验结果表明，基于7B和13B参数的LLM训练的AGILE代理，在总性能上显著优于GPT-4代理。例如，在ProductQA任务中，agile-vic13b-ppo模型的总性能得分比GPT-4高出9.2%，在MedMCQA任务中，agile-mek7b-ppo模型的准确率从基础模型的53.4%提升至85.2%，超越了GPT4-MedPrompt的79.1%的准确率。