GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 挑战控制工程的新领域

ops/2024/9/25 3:30:21/

介绍

论文地址:https://arxiv.org/abs/2404.03647

近年来,GPT-4Claude 3 Opus 和 Gemini 1.0 Ultra 等大规模语言模型(LLM)迅速发展,展示了它们解决复杂问题的能力。LLM 的这些发展在多个领域都有潜在的应用前景。

最显著的应用之一是控制工程。控制工程是一个涉及数学理论和设计的领域,有可能利用 LLM 的高级推理能力。然而,人们对 LLM 解决控制问题的能力还不完全了解。

因此,本研究旨在确定最先进的 LLM 在多大程度上可以解决大学级别的控制问题。作者开发了一个涵盖基础和应用控制工程的基准数据集 ControlBench,并全面评估了 GPT-4Claude 3 Opus 和 Gemini 1.0 Ultra 这三个模型的性能。

这一举措有望凸显 LLM 在控制工程领域的潜力和局限性,并为人工智能与控制工程的未来融合提供重要见解。

相关研究

开发 ControlBench 数据集

作者构建了一个 ControlBench 数据集,涵盖了大学级别的控制问题。该数据集涵盖控制工程的多个领域,包括稳定性、瞬态响应、方框图、控制系统设计、波特图和奈奎斯特图。该数据集还包括需要可视化信息的问题,旨在全面评估 LLM 的分析能力。

ControlBench 数据收集自教科书和在线资料,并以 LaTeX 格式整理。每个问题还提供了详细的答案和解释,可用于评估 LLM 的性能。

评估 LLM 解决控制问题的能力

上图显示了 GPT-4Claude 3 Opus 的错误类型和百分比;定义了七种错误模式,并对其百分比进行了比较。

首先,可以看出 GPT-4 的主要挑战在于其 “有限的推理能力”。换句话说,从逻辑上解释控制问题并推导出正确的解决方案被认为是 GPT-4 的弱点。

另一方面,Claude 3 Opus 面临的最大挑战是 “计算错误”。它似乎很容易在数学处理方面出错,如公式的转换和数字计算的准确性。

然而,两者之间的比较表明,Claude 3 Opus 因 "推理能力有限 "而出现的错误较少。这说明,在对控制理论的理解和推理能力方面,Claude 3 Opus 更胜一筹。

因此,利用图 1 对每种 LLM 的优势和挑战进行定量比较和分析,可以清楚地表明 LLM 解决控制问题能力的特点。这一分析结果是将 LLM 应用于控制工程的重要发现。

关于 ControlBench-C 的建议

使用 ControlBench 进行的详细评估很有意义,但对于非控制工程专家来说,难度偏高。因此,作者提出了一个更简单的版本,即 ControlBench-C。

ControlBench-C 以单选题取代了 100 道 ControlBench 题目。通过这种形式,无需控制工程方面的专业知识,就能快速自动地评估 LLM 的反应。

ControlBench-C 要求用户输入 LLM 选项的答案及其推理,并计算正确答案百分比(ACC)和自我修正后的正确答案百分比(ACC-s)。通过这种方法,非控制专家可以了解 LLM 解决控制问题的基本能力。

ControlBench-C 的定位是 ControlBench 的补充:ControlBench 提供详细的见解,而 ControlBench-C 的特点是能够进行简单的自动评估。预计在未来的研究中,两者将分别使用。

结论

本文开创性地研究了大规模语言模型(LLM)在控制工程中的适用性。作者开发了一个名为 ControlBench 的基准数据集,并用三种 LLM(GPT-4Claude 3 Opus 和 Gemini 1.0 Ultra)对其进行了评估。

结果表明,Claude 3 Opus 在解决控制问题方面表现最佳。另一方面,也证实了 LLMs 仍存在一些问题,如处理需要视觉信息的问题和计算错误的问题。


http://www.ppmy.cn/ops/102366.html

相关文章

买电脑如何选择显卡?

买电脑时选择显卡,可以遵循以下几个关键点来做出决策: 明确使用需求: 日常办公、上网浏览等轻度应用:集成显卡或入门级独立显卡即可满足需求。 游戏玩家:需要选择性能较强的中高端显卡,如NVIDIA的RTX系列…

[E链表] lc141. 环形链表(快慢指针+基础题)

文章目录 1. 题目来源2. 题目解析 1. 题目来源 链接:141. 环形链表 题单: 链表、二叉树与一般树(前后指针/快慢指针/DFS/BFS/直径/LCA) 1.6 快慢指针 2. 题目解析 思路: 用相对速度思考快慢指针的问题会简化很多…

Linux工具使用

Linux编辑器-vim使用 1.vim的基本概念 在vim中,主要的三种模式分别是命令模式,插入模式和底行模式。 正常/普通/命令模式(Normal mode) 控制屏幕光标的移动,字符、字或行的删除,移动复制某区段及进入Insert mode下,…

CentOS 安装 NVIDIA 相关软件包时出现依赖问题

CentOS 安装 NVIDIA 相关软件包时出现依赖问题 1 CentOS 安装 NVIDIA 相关软件包时报错如下2 解决方法 1 CentOS 安装 NVIDIA 相关软件包时报错如下 Error: Package: 3:kmod-nvidia-latest-dkms-550.90.07-1.el7.x86_64 (cuda-rhel7-x86_64)Requires: dkms Error: Package: 3:…

利用移动语义优化 C++ 程序性能的实用指南

利用移动语义优化 C 程序性能的实用指南 在现代 C 编程中,性能优化是一个重要的主题。随着 C11 引入了移动语义(Move Semantics),程序员可以更高效地管理资源,减少不必要的拷贝,从而显著提升程序性能。本文…

Linux下快速搭建七日杀官方私人服务器教程

今天给大家分享一下七日杀的个人开服教程,本教程基于Linux系统开发,推荐有一定基础的小伙伴尝试!如果你没有Linux的基础但实在想开的小伙伴可以根据以下教程一步步进行操作,后续这边也会上架对应视频操作 架设前准备: …

使用 Puppeteer 在 PHP 中解决 reCAPTCHA 以进行网页抓取

您是否在抓取数据时遇到 reCAPTCHA 障碍?我也遇到过。这些 CAPTCHA 挑战会将简单的抓取任务变成一大障碍。但别担心,我有一个解决方案可以帮助您轻松绕过这些障碍。 在本博文中,我将引导您使用 Puppeteer(一个功能强大的 Node.js…

zookeeper客户端命令行操作、节点类型及监听器

zookeeper客户端命令行操作、节点类型及监听器 文档 linux安装java -centos安装java -linux配置java环境变量zookeeper单机安装zookeeper集群安装zookeeper客户端命令行操作、节点类型及监听器zookeeper集群写数据原理java操作zookeeper 启动zookeeper客户端 启动客户端&…