堪比理科博士生的最强AI大模型:GPT-o1全面测评它来了

news/2024/12/21 9:09:39/

❤️作者主页:小虚竹

❤️作者简介:大家好,我是小虚竹。2022年度博客之星🏆,Java领域优质创作者🏆,CSDN博客专家🏆,华为云享专家🏆,掘金年度人气作者🏆,阿里云专家博主🏆,51CTO专家博主🏆

❤️技术活,该赏

❤️点赞 👍 收藏 ⭐再看,养成习惯

文章目录

  • 零、前言
  • 一、o1 模型到底有多牛呢
    • 推理能力大幅提升
    • 数学和编程能力爆表
    • 更像人类一样思考
    • 全新安全训练方法
    • 更强的“越狱”抵抗力
    • o1系列模型的两个版本
  • 二、实战测评
    • 如何使用OpenAI o1
    • 微积分测试
      • Gpt4o
      • o1-preview
      • o1-mini
    • 烧脑推理
      • Gpt4o
      • o1-preview
      • o1-mini
    • 代码优化
      • Gpt4o
      • o1-preview
      • o1-mini
      • 代码优化小结:
    • 9.11和9.9,哪个数字大
      • Gpt4o
      • o1-preview
      • o1-mini
    • 算放假天数
      • Gpt4o
      • o1-preview
      • o1-mini
  • 三、价格与限额
  • 四、感受

零、前言

‌GPT-o1是在2024年9月13日发布的。GPT-o1模型,也被称为草莓模型,首次公开亮相,并展示了其在处理数学、物理以及代码生成等复杂任务时的独特优势。
这回主要是发布两个版本: o1-preview(高级推理)o1-mini(更快的推理速度) 两个版本 。

在这里插入图片描述
之前GPT 4o是文科的博士的话,这回‌GPT-o1就是理科博士了。

一、o1 模型到底有多牛呢

OpenAI隆重推出全新一代的o1模型,该模型在多个领域展现出了非凡的能力,标志着人工智能技术的又一次飞跃。

推理能力大幅提升

o1模型在物理、化学和生物等学科的挑战性基准测试中表现卓越,达到与博士生相当的水平。其深度学习和推理能力使其能够解决复杂的科学问题,推动科研领域的发展。

数学和编程能力爆表

在 2024 年 AIME 考试中,GPT-4o 平均仅解决了 12%(1.8/15)的问题。O1 平均为 74%(11.1/15),且每个问题仅有一个样本。在 64 个样本中,83%(12.5/15)达成一致。当使用学习评分函数对 1000 个样本进行重新排名时,93%(13.9/15)。取得 13.9 分的成绩可跻身全国前 500 名学生之列,该成绩高于美国数学奥林匹克竞赛的分数线。

更像人类一样思考

o1系列模型经过精心训练,能够像人类一样花时间思考问题。它尝试不同的策略,能够自我纠错,这种接近人类思维的方式使其在解决问题时更加高效和准确。

全新安全训练方法

OpenAI开发了一种新的安全训练方法,充分利用o1模型的推理能力,使其更好地遵守安全和对齐准则。这一方法提升了模型的可靠性,确保其应用于各种场景时的安全性。

更强的“越狱”抵抗力

通过一系列“越狱”测试,o1模型表现出了卓越的安全性能。与GPT-4o相比,o1模型更不容易被“越狱”,这意味着其在信息安全方面有了显著提升。

o1系列模型的两个版本

o1-preview:预览版模型,虽然功能相对精简,但具备强大的推理能力,适用于需要深度思考的任务。
o1-mini:更小、更快的推理模型,特别擅长编程任务,且成本更低,适合广泛的应用场景。

二、实战测评

如何使用OpenAI o1

ChatGPT 4o国内直接访问地址:https://share.xuzhugpt.cloud/
上plus的车(无需注册,文末加微即可免费获得24小时OpenAI o1体验)
在这里插入图片描述

输入授权码即可。
在这里插入图片描述
这里可选择o1-preview(高级推理)o1-mini(更快的推理速度) 两个模型。

ChatGPT官网界面已更新,o1模型应该很快会替代原有的4o成为主流。
在这里插入图片描述

微积分测试

上高中时微积分也是彻彻底底的把我这个学渣难了一把,让我们先来看看他的推理到底怎么样。
试题这道题可是15分哦。
在这里插入图片描述
分别对Gpt4o、o1-preview(高级推理)o1-mini(更快的推理速度) 进行测试。
使用提示词:

你是一名教授数学微积分的高级教师,熟悉微积分各种题型和解答方
式,善于一步一步解答问题,下面请回答我所提出的问题。

Gpt4o

gpt4o用了四步讲解了内容。挺详细了。但答案错了。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

o1-preview

现在这个版本暂时没推出文件上传功能,比较不方便。
但解题的效果,真的是太好了。
解题步骤用了6步。真的是太强大了。答案完全正确。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

o1-mini

现在这个版本暂时没推出文件上传功能,比较不方便。
解题步骤用了5步。也很强大了。答案完全正确
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

烧脑推理

针对于o1的推理能力,来点烧脑的推理,一个非常有意思的题目,来一起看看他们表现怎么样:来一个小故事考考GPT。

一对夫妇生了一个小孩,取名叫小黄。小黄渐渐长大,开始学说话,小黄最早学会了叫妈妈:“妈妈,妈妈。”妈妈很开心,隔天就死了。
小黄接着学会了叫奶奶。“奶奶,奶奶,”奶奶很开心,隔天也死了。家里人很担心,于是不教小孩说话了。
有一天,隔壁老王到了小黄家。“哎呀,这孩子可爱,叫爷爷,快叫爷爷。”“爷爷,爷爷."一家人没拦住。
爷爷很担心,一晚上没睡着。隔天,隔壁老王死了。老王的儿子又来小黄家玩。“哎呀,这孩子可爱,叫叔叔,快叫叔叔。”“叔叔,叔叔"一家人没拦住。
老王的儿子很担心,一晚上没睡着,隔天,爸爸死了!问:爷爷和爸爸是什么关系?

你知道答案是什么吗?
分别对Gpt4o、o1-preview(高级推理)o1-mini(更快的推理速度) 进行测试。

Gpt4o

在这里插入图片描述

o1-preview

在这里插入图片描述

o1-mini

在这里插入图片描述

代码优化

有一段:通过回溯算法解答猴子吃桃的java代码,

public class MonkeyEatPeach {// 计算猴子第一天摘的桃子数public static int calculatePeaches(int days) {if (days == 1) {return 1; // 第一天剩一个桃子} else {return (calculatePeaches(days - 1) + 1) * 2; // 前一天的桃子是今天桃子的一半多一个}}public static void main(String[] args) {int days = 10; // 猴子吃桃的天数int peaches = calculatePeaches(days);System.out.println("猴子第一天摘的桃子数: " + peaches);}
}

让它们对代码进行优化。
分别对Gpt4o、o1-preview(高级推理)o1-mini(更快的推理速度) 进行测试。

Gpt4o

有这么一段代码
public class MonkeyEatPeach {// 计算猴子第一天摘的桃子数public static int calculatePeaches(int days) {if (days == 1) {return 1; // 第一天剩一个桃子} else {return (calculatePeaches(days - 1) + 1) * 2; // 前一天的桃子是今天桃子的一半多一个}}public static void main(String[] args) {int days = 10; // 猴子吃桃的天数int peaches = calculatePeaches(days);System.out.println("猴子第一天摘的桃子数: " + peaches);}
}
分析代码的问题,并进行代码优化

在这里插入图片描述
在这里插入图片描述

Gpt4o给出了问题分析:
递归深度:该方法使用递归来计算第一天的桃子数,递归深度为days,在days较大时可能导致栈溢出或性能问题。
性能问题:由于递归方法每次调用都会重复计算相同的子问题,效率较低。
可读性和理解性:递归虽然简洁,但对初学者来说可能不太直观。
并给出了代码优化。优化后的代码并给出解释,挺贴心的。

o1-preview

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
o1-preview是给出了问题分析:
递归效率低下: 原代码使用递归方式计算,对于较大的天数,可能导致栈溢出问题。

变量和注释混淆: 代码中的days变量表示的是剩余天数,而注释和逻辑可能导致理解混乱。

可读性较差: 递归方式使得代码的逻辑不够直观,可读性不高。
多增加了优化建议。
使用迭代替代递归: 迭代方式更高效,避免了递归调用的开销和可能的栈溢出问题。

明确变量含义: 重新命名变量,使其更符合问题描述,例如totalDays表示总天数,peaches表示当前天的桃子数量。

完善注释和代码结构: 添加清晰的注释,优化代码结构,提高可读性。
也有优化代码和优化效果。

o1-mini

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
o1-mini 给出了问题分析:
递归深度限制:

递归方法在 days 较大时可能导致栈溢出(Stack Overflow),因为每增加一天都需要一次函数调用。
效率问题:

递归方法每次调用都会有函数调用的开销,对于较大的 days 值,效率较低。
可读性和维护性:

递归逻辑虽然简洁,但对于不熟悉递归的读者来说,可能不够直观。

并给出了两个优化方案:使用迭代方法和使用数学公式直接计算。
并对两个方案做了对比,最后给出了最佳优化代码推荐。太强大了。

代码优化小结:

代码优化能力,o1-mini > o1-preview > Gpt4o

9.11和9.9,哪个数字大

9.11和9.9,哪个数字大
分别对Gpt4o、o1-preview(高级推理)o1-mini(更快的推理速度) 进行测试。

Gpt4o

在这里插入图片描述

o1-preview

在这里插入图片描述

o1-mini

在这里插入图片描述
o1-preview(高级推理)o1-mini(更快的推理速度) 终于把这个经典问题回答对了。
Gpt4o 解决不了这个问题。

算放假天数

这是中国2024年9月9日(星期一)开始到10月13日的放假调休安排:
上6休3上3休2上5休1上2休7再上5休1。
正常的放假安排:普通的周末放假,9月份有一个中秋节放假1天和国庆节法定假期放假7天
请注意:假期可能与周末重叠的情况
请你告诉我除了我本来该休的周末和法定假期,我因为放假多休息了几天?

分别对Gpt4o、o1-preview(高级推理)o1-mini(更快的推理速度) 进行测试。

Gpt4o

在这里插入图片描述
在这里插入图片描述

o1-preview

在这里插入图片描述
在这里插入图片描述

o1-mini

在这里插入图片描述
在这里插入图片描述

厉害了,o1-preview(高级推理)o1-mini(更快的推理速度) 的结果是正确的。
Gpt4o的结果是错的。

三、价格与限额

o1-preview 限制在了 30 条/周,o1-mini 限制在了 50 条/周。
现在只有ChatGPT Plus账号用户能使用。官网价格是20美元/月。
从虚竹哥这边买,只需要不到一半的价格,而且国内可直接使用。

四、感受

好用的功能太多太多,我就不在这个一一列举了,有兴趣的可以自行尝试。

有提供免费的授权码可体验~

有提供免费的授权码可体验~

有提供免费的授权码可体验~

私信虚竹哥,获取体验码~
国内可直接使用~
在这里插入图片描述


http://www.ppmy.cn/news/1527393.html

相关文章

K8s利用etcd定时备份集群结合钉钉机器人通知

如何通过脚本的方式进行K8s集群的备份 查看K8s中master节点中etcd集群的状态 kubectl get pods -n kube-system | grep etcd由于使用的etcd服务是K8s搭建时自身携带的,并不是独立搭建的etcd集群信息。使用 K8s 搭建集群时,etcd 是 Kubernetes 集成的一个重要组件因此需要查…

2024 年至今回顾:The Sandbox 创作者的历程及下一步展望

2024 年上半年是 The Sandbox 令人振奋的旅程!从激动人心的里程碑、丰厚的奖励到创新的功能,我们见证了来自充满活力的社区的惊人创造力。 作为平台的生命线,我们致力于帮助创作者发光发热。让我们深入了解过去六个月中最激动人心的时刻和更…

Elasticsearch基础(七):Logstash如何开启死信队列

文章目录 Logstash如何开启死信队列 一、确保 Elasticsearch 输出插件启用 DLQ 支持 二、配置 Logstash DLQ 设置 三、查看死信队列 四、排查 CSV 到 Elasticsearch 数据量不一致的问题 Logstash如何开启死信队列 在 Logstash 中,死信队列(Dead Le…

三维数字图像相关法(3D-DIC)用于复合材料力学性能测试

三维数字图像相关法(3D-DIC技术),通过将物体表面随机分布的斑点或伪随机分布的人工散斑场作为变形信息载体,是应用于计算机视觉技术的一种图像测量方法,是一种非接触的,用于全场三维坐标、位移、应变及运动…

104. 二叉树的最大深度【 力扣(LeetCode) 】

零、LeetCode 原题 104. 二叉树的最大深度 一、题目描述 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 二、测试用例 示例 1: 输入:root [3,9,20,null,null,15,7] 输出…

【深度学习 目标检测】基于Transformer检测模型RT-DETR,ultralytics 库如何训练和推理

当RT-DETR遇上侦探:一起揭秘实时检测的奥秘 在人工智能的世界里,有一场盛大的侦探比赛正在进行。我们的主角,RT-DETR,正准备在实时目标检测的领域中大展身手。这位侦探不仅反应迅速,而且头脑冷静,擅长在海…

Gateway学习笔记

目录 介绍: 核心概念 依赖 路由 断言 基本的断言工厂 自定义断言 过滤器 路由过滤器 过滤器工厂 自定义路由过滤器 全局过滤器 其他 过滤器执行顺序 前置后置(?) 跨域问题 yaml 解决 配置类解决 介绍&#x…

运行npm install 时,卡在sill idealTree buildDeps没有反应

一直停留在sill idealTree buildDeps 解决方法 npm config set registry https://registry.npm.taobao.org 配置后用下面命令看是否配置成功 npm config get registry 如果配置还不好使 就执行下行的ssl npm set strict-ssl false 然后执行 npm install 成功执行