GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 挑战控制工程的新领域

server/2024/9/22 22:32:50/

介绍

论文地址:https://arxiv.org/abs/2404.03647

近年来,GPT-4Claude 3 Opus 和 Gemini 1.0 Ultra 等大规模语言模型(LLM)迅速发展,展示了它们解决复杂问题的能力。LLM 的这些发展在多个领域都有潜在的应用前景。

最显著的应用之一是控制工程。控制工程是一个涉及数学理论和设计的领域,有可能利用 LLM 的高级推理能力。然而,人们对 LLM 解决控制问题的能力还不完全了解。

因此,本研究旨在确定最先进的 LLM 在多大程度上可以解决大学级别的控制问题。作者开发了一个涵盖基础和应用控制工程的基准数据集 ControlBench,并全面评估了 GPT-4Claude 3 Opus 和 Gemini 1.0 Ultra 这三个模型的性能。

这一举措有望凸显 LLM 在控制工程领域的潜力和局限性,并为人工智能与控制工程的未来融合提供重要见解。

相关研究

开发 ControlBench 数据集

作者构建了一个 ControlBench 数据集,涵盖了大学级别的控制问题。该数据集涵盖控制工程的多个领域,包括稳定性、瞬态响应、方框图、控制系统设计、波特图和奈奎斯特图。该数据集还包括需要可视化信息的问题,旨在全面评估 LLM 的分析能力。

ControlBench 数据收集自教科书和在线资料,并以 LaTeX 格式整理。每个问题还提供了详细的答案和解释,可用于评估 LLM 的性能。

评估 LLM 解决控制问题的能力

上图显示了 GPT-4Claude 3 Opus 的错误类型和百分比;定义了七种错误模式,并对其百分比进行了比较。

首先,可以看出 GPT-4 的主要挑战在于其 “有限的推理能力”。换句话说,从逻辑上解释控制问题并推导出正确的解决方案被认为是 GPT-4 的弱点。

另一方面,Claude 3 Opus 面临的最大挑战是 “计算错误”。它似乎很容易在数学处理方面出错,如公式的转换和数字计算的准确性。

然而,两者之间的比较表明,Claude 3 Opus 因 "推理能力有限 "而出现的错误较少。这说明,在对控制理论的理解和推理能力方面,Claude 3 Opus 更胜一筹。

因此,利用图 1 对每种 LLM 的优势和挑战进行定量比较和分析,可以清楚地表明 LLM 解决控制问题能力的特点。这一分析结果是将 LLM 应用于控制工程的重要发现。

关于 ControlBench-C 的建议

使用 ControlBench 进行的详细评估很有意义,但对于非控制工程专家来说,难度偏高。因此,作者提出了一个更简单的版本,即 ControlBench-C。

ControlBench-C 以单选题取代了 100 道 ControlBench 题目。通过这种形式,无需控制工程方面的专业知识,就能快速自动地评估 LLM 的反应。

ControlBench-C 要求用户输入 LLM 选项的答案及其推理,并计算正确答案百分比(ACC)和自我修正后的正确答案百分比(ACC-s)。通过这种方法,非控制专家可以了解 LLM 解决控制问题的基本能力。

ControlBench-C 的定位是 ControlBench 的补充:ControlBench 提供详细的见解,而 ControlBench-C 的特点是能够进行简单的自动评估。预计在未来的研究中,两者将分别使用。

结论

本文开创性地研究了大规模语言模型(LLM)在控制工程中的适用性。作者开发了一个名为 ControlBench 的基准数据集,并用三种 LLM(GPT-4Claude 3 Opus 和 Gemini 1.0 Ultra)对其进行了评估。

结果表明,Claude 3 Opus 在解决控制问题方面表现最佳。另一方面,也证实了 LLMs 仍存在一些问题,如处理需要视觉信息的问题和计算错误的问题。


http://www.ppmy.cn/server/107701.html

相关文章

【L1.第四章】 Appium Inspector 自动化用例录制

PythonAppiumPytest 自动化测试教程 1、Appium Inspector 是什么?2、Appium Inspector 主要功能有那些?3、Appium Inspector 配置 Desired Capablility 信息1、获取被测 App 信息2、验证 Activity3、配置 Remote Path4、配置 Desired Capablility4.1、设…

Redis—基础篇

Redis基础 1. Redis 简介2. Redis 应用3. Redis 数据结构3.1 String3.2 hash3.3 list3.4 set3.5 sorted set 4. Redis 为什么快?5. Redis I/O 多路复用6. Redis 6.0多线程 1. Redis 简介 Redis 是一种基于键值对的 NoSQL 数据库 Redis 中的 value 支持 string、ha…

在VB.net中,LINQ有什么查询表达式,举例说明

标题 在VB.net中,LINQ有什么查询表达式,举例说明 正文 在VB.net中,LINQ有什么查询表达式,举例说明 在VB.NET中,LINQ(Language Integrated Query)查询表达式提供了一种声明性的方式来查询和操作数…

软件测试基础:功能测试知识详解

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 一、测试项目启动与研读需求文档 (一) 组建测试团队 1、测试团队中的角色 2、测试团队的基本责任 尽早地发现软件程序、系统或产品中…

StringRedisTemplate 删除某key开头的

StringRedisTemplate 删除某key开头的 原创 mob64ca12e732bb2024-03-12 04:13:15©著作权 文章标签数据Redis甘特图文章分类Redis数据库阅读数94 我整理的一些关于【数据】的项目学习资料(附讲解~~)和大家一起分享、学习一…

《亿级流量系统架构设计与实战》第十二章 评论服务

评论服务 一、概述二、单级评论模式1、模型设计2、分库分表必要性3、高并发问题 三、二级评论模式1、模型设计2、评论审核与状态3、按照热度排序4、评论读取流程图5、架构总览 四、盖楼评论模式1、数据库递归查询2、数据库保存完整楼层3、图数据库 内容总结自《亿级流量系统架构…

王老师 linux c++ 通信架构 笔记(六) 第三章 Nginx 开发初步:源码阅读器 vscode 与 xftp 的传输文件

(30) 这里记载一个虚拟机 linux 上不了网的紧张时刻。我家的路由器 A 是联通的入户路由器,在门口,距离太远,用有线自己接了一个新的路由器 B ,把 B 路由器放在了屋子中央。现在的情况就是,笔记本…

学习记录——day38 C++ bool类型 引用

目录 一、bool类型相关概念 二、引用(reference) 1、引用相关 2、引用的定义格式 3、引用的注意事项 4、常引用 const 5、引用与指针的关系 6、引用作为函数的参数 7、引用作为函数的返回值 8、数组的引用 1)不支持引用数组 2&…