最新版的GPT-4.5-Turbo有多强

server/2025/1/16 3:45:18/
aidu_pl">

OpenAI再次用实力证明了,GPT依然是AI世界最强的玩家!在最新的AI基准测试中,OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新夺回了全球第一的AI王座:

fce2c36bc37b326ee5415a3460ae351a.jpeg

值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。

这也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

笔者第一时间通过国内最稳、更新最快的AI镜像站AskManyAI进行了GPT-4.5-Turbo体验。

51c8b9b15db732a147e73facf982d689.jpeg

附AskManyAI地址(GPT-4、Claude3、Gemini都是最新版本):

https://askmanyai.cn

值得一提的是,AskManyAI的有个独特的AI混战模式,你的一个问题,可以指定多个最强的AI同时给你回答,简直就是做大模型测试的理想环境:

ab1b90da66f12fce0edde911144eeed0.jpeg

好了,话不多说,我们这就开始测评了!

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现:

f251520def619bc3098dd7610e6c7da2.jpeg

4a50fe68adef4a035c4e49e905b858e8.jpeg

4bc19e3c2bd5c5396f44898af635c68e.jpeg

这是一个很隐蔽的bug,Claude 3 Opus完全没找到bug在哪,其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo竟然找到了bug!

而且给到了非常正确的修复bug后的代码!

简直惊呆我了,这是第一个能修复这个bug的AI。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度,上传一个生物样品图片给AI:

3769cc649255c727a2985fd5f240bcaa.jpeg

然后我们在AskManyAI网站同时选中Claude、GPT和Gemini这三个地表最强的多模态AI,看他们对这个图片分析的结果:

2dfb2899cb18eae9727081043c8452dc.jpeg

这个case在旧版的GPT-4-Turbo里是个回答错误的badcase,当时明显不如Claude-3 Opus。但几天前的GPT-4-Turbo更新后,竟然回答对了!

不得不表扬下,AskManyAI这个网站的更新速度也真的够快啊!跟官方基本同速了。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

我们再换一个专业问题:

31eafd5e08ae514a6181d19e91319da4.jpeg

b94f954cc551dfce57882c86e6a2ff4d.jpeg

de998272ef999fe1270c33a5a663f386.jpeg

5bb8ef5d163b603c7d22fef535cf9c3c.jpeg

关于Sora技术原理的解释,所有的AI中,只有最新的GPT-4没有出现知识性的错误,Kimi和Gemini的错误是最离谱的,竟然说Sora是GAN的架构。。。而Claude-3的视频片段选择这个地方的讲解出现了错误——Sora是生成式的,不是检索式的。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。

最新版GPT-4完胜!

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

营销能力测试

这次测试加大难度,直接丢给AI一个产品文档PDF,让他去生成一篇营销文案和搜索SEO的标题。

e624462922e4712fec5b0c76b11460bb.jpeg

同样,这次GPT-4完胜!

AI写作能力测试

最后测试下AI写作能力!

9ac28870c0bfcc83539c64a64c49cfe3.jpeg

5974d2bfa1c5dc2adc56f13c1fba84bc.jpeg

7432ea5b2801eefaed197e556d5abbd7.jpeg

671d373aadd03a6f103e2da9c6034437.jpeg

9bbb366cf9962965f1d06aec7ab57945.jpeg

82ff3526d8e4d0d9175f6c4ed4187fcb.jpeg

2ad6b2598cfeb574e534fb4c3f819d38.jpeg

写作的测试结果就要见仁见智了,每个人的看法都可能不一样。

这里面我最喜欢的是GPT-4和Claude-3写的文章,但Gemini Pro的写作速度非常快,不到5秒就写完了全篇。而GPT-4和Claude-3则写了一分钟不止。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

好了,今天的评测就到这里了。你们更喜欢哪个AI呢?


http://www.ppmy.cn/server/2376.html

相关文章

【刷题】图论——最小生成树:Prim、Kruskal【模板】

假设有n个点m条边。 Prim适用于邻接矩阵存的稠密图,时间复杂度是 O ( n 2 ) O(n^2) O(n2),可用堆优化成 O ( n l o g n ) O(nlogn) O(nlogn)。 Kruskal适用于稀疏图,n个点m条边,时间复杂度是 m l o g ( m ) mlog(m) mlog(m)。 Pr…

【论文笔记 | 异步联邦】Asynchronous Federated Optimization

论文信息 Asynchronous Federated Optimization,OPT2020: 12th Annual Workshop on Optimization for Machine Learning,不属于ccfa introduction 背景:联邦学习有三个关键性质 任务激活不频繁(比较难以达成条件)&…

牛客周赛 Round 39(A,B,C,D,E,F,G)

比赛链接 官方题解(视频) B题是个贪心。CD用同余最短路,预处理的完全背包,多重背包都能做,比较典型。E是个诈骗,暴力就完事了。F是个线段树。G是个分类大讨论,出题人钦定的本年度最佳最粪 题目…

【笔记】ASP.NET Core Web API之Token验证

在实际开发中经常需要对外提供接口以便客户获取数据,由于数据属于私密信息,并不能随意供其他人访问,所以就需要验证客户身份。那么如何才能验证客户的身份呢?一个简单的小例子,简述ASP.NET Core Web API开发过程中&…

Linux学习 - 管道、标准输入输出

Linux学习 - 管道、标准输入输出 Linux下的标准输入、输出、重定向、管道 在Linux系统中&#xff0c;有4个特殊的符号&#xff0c;<, ‘>’, ‘|’, ‘-‘&#xff0c;在我们处理输入和输出时存在重要但具有迷惑性的作用。 默认Linux的命令的结果都是输出到标准输出&a…

浅尝 express + ORM框架 prisma 的结合

一、prisma起步 安装&#xff1a; npm i prisma -g查看初始化帮助信息&#xff1a; prisma init -h查看初始化帮助信息结果&#xff1a; Set up a new Prisma projectUsage$ prisma init [options] Options-h, --help Display this help message --datasource-provider …

HTMLCSS(一)---HTML入门

1.1HTML&CSS&JavaScript的作用 (1)HTML 主要用于网页主体结构的搭建 (2)CSS 主要用于页面的美化 (3)JavaScript 主要用于动态处理页面元素 1.2 HTML是什么 HTML的全称是HyperText Markup Language&#xff0c;中文意为“超文本标记语言”。它的主要作用是描述网页的结构…

MySQL -- MySQL Connection C中的API介绍

MySQL – MySQL Connection C中的API介绍 文章目录 MySQL -- MySQL Connection C中的API介绍一、接口介绍1.初始化mysql_init()2. 链接数据库mysql_real_connect3.下发mysql命令mysql_query4.获取执行结果mysql_store_result5.获取结果行数和列数6.获取列名mysql_fetch_fields7…