论文 | ART: Automatic multi-step reasoning and tool-use for large language models

news/2024/10/15 11:08:26/

 摘要:

  • LLM 在进行多步推理和工具使用时存在局限性,例如需要大量标注数据或专门训练。
  • 现有的 CoT 提示和工具使用方法难以扩展到新任务和工具。
  • 本文介绍了 ART 框架,该框架使用冻结的 LLM 自动生成推理步骤,并选择和调用外部工具。
  • ART 在 BigBench 和 MMLU 基准测试中取得了显著的性能提升,并可以接受人类反馈进行改进。

 主要内容

  • ART 框架
    • 任务库 (Task Library): 存储了来自不同任务的程序,这些程序展示了如何将任务分解为多个步骤,并使用工具进行计算。
    • 工具库 (Tool Library): 提供了可用的外部工具,例如搜索引擎、代码生成器、代码执行器和知识库查询工具。
    • 自动推理引擎 (Automatic Reasoning Engine): 解析 LLM 生成的程序,并根据程序中的工具调用节点自动调用工具。
    • 人类反馈 (Human Feedback): 用户可以添加新的任务和工具到库中,并通过编辑程序来改进性能,并提供调试工具。
  • ART 的优势
    • 模块化设计: ART 采用模块化设计,每个模块都独立运作,易于扩展和改进。
    • 灵活性和可扩展性: 用户可以轻松地添加新的任务和工具到库中,并定义相应的程序。
    • 可解释性: 生成的程序使用 PeG 语法,具有明确的结构,易于理解。
    • 人类反馈: 用户可以提供调试和改进意见,使 ART 的性能不断提升。

实验结果: 

  • 在 BigBench 和 MMLU 基准测试中,ART 在未见过的任务上取得了显著的性能提升,甚至超过了人工编写的 CoT 提示。
  • 工具使用在测试任务上平均提高了 12.3 个百分点。
  • 通过人类反馈,可以进一步改进 ART 的性能,使其超过 GPT-3 的最佳结果。

 结论

        ART 是一个强大的框架,可以显著提高 LLM 在多步推理和工具使用方面的能力。它可以轻松地扩展到新的任务和工具,并通过人类反馈进行改进,为 LLM 的发展和应用开辟了新的可能性。 

个人思考: 

  • ART 框架展示了 LLM 未来的发展方向,即通过结合任务库、工具库和自动推理机制,实现更强大的智能。
  • 人类反馈在改进 LLM 性能方面发挥着重要作用,未来需要探索更有效的反馈机制。
  • LLM 的应用前景广阔,未来需要在更多领域进行探索和实验。

 

 


http://www.ppmy.cn/news/1538286.html

相关文章

java生成日历数据列表并按日历格式导出到excel

日历格式输出 日历数据列表导出封装日历格式实体类效果 日历数据列表 /**** 封装日历数据* param year 年份* param month 月份*/public List<InspectionDailyStaffPlanCalendarData> selectCalendarDataList(int year,int month,List<InspectionDailyStaffPlan> …

[单master节点k8s部署]34.ingress 反向代理(一)

ingress是k8s中的标准API资源&#xff0c;作用是定义外部流量如何进入集群&#xff0c;并根据核心路由规则将流量转发到集群内的服务。 ingress和Istio工作栈中的virtual service都是基于service之上&#xff0c;更细致准确的一种流量规则。每一个pod对应的service是四层代理&…

AI资深导师指导-ChatGPT深度科研工作应用、论文撰写、数据分析及机器学习与AI绘图

2022年11月30日&#xff0c;可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5&#xff0c;将人工智能的发展推向了一个新的高度。2023年4月&#xff0c;更强版本的ChatGPT4.0上线&#xff0c;文本、语音、图像等多模态交互方式使其在…

【中短文】区分神经网络中 表征特征、潜层特征、低秩 概念

1. 表征特征&#xff08;Representational Feature&#xff09;&#xff1a; 表征特征通常指的是输入数据经过NN处理就得到的中间表示或输出表示。 这些特征由NN经学习过程自动提取&#xff0c;能更好捕捉输入数据的本质属性。 例如&#xff1a;在图像识别任务中&…

概率 期望与方差

一、期望 1、定义 对随机变量可能取值的加权平均&#xff0c;其中权重是每个可能取值的概率。用E表示&#xff0c;如x是随机变量&#xff0c;则该期望为EX 2、离散型随机变量的期望 对于离散随机变量 X &#xff0c;其可能的取值为 x1,x2,…,xn&#xff0c;对应的概率为 E(X)…

从200台手机到一台电脑的时代到了

大家都知道&#xff0c;现在这个时代呀&#xff01;到处都是网络&#xff0c;社交平台那可老火了。其中TK这个平台&#xff0c;好多人都喜欢在上面玩&#xff0c;也有不少人想借着它来做营销呢。但是啊&#xff0c;在做TK营销的时候&#xff0c;有个账号关联的问题老让人又疼。…

python数据分析与可视化介绍

本文主要讲述了数据可视化的基础知识&#xff0c;包括什么是数据可视化&#xff0c;数据可视化应用以及Python可视化工具库。 什么是数据可视化 可视化是一种通过视觉的方式有效传达信息的技术。数据可视化旨在借助于图形化手段&#xff0c;将数据以视觉形式来呈现&#xff0c…

设计模式——门面模式 | 外观模式

哈喽&#xff0c;各位盆友们&#xff01;我是你们亲爱的学徒小z&#xff0c;今天给大家分享的文章是设计模式的——门面模式。 文章目录 定义通用类图1.通用结构2.优点3.缺点 使用场景注意事项1.一个子系统可以有多个门面2.门面不参与子系统内的业务逻辑 定义 定义&#xff1a;…