最新版的GPT-4.5-Turbo有多强

news/2024/10/25 8:14:56/
aidu_pl">

OpenAI再次用实力证明了,GPT依然是AI世界最强的玩家!在最新的AI基准测试中,OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新夺回了全球第一的AI王座:

fce2c36bc37b326ee5415a3460ae351a.jpeg

值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。

这也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

笔者第一时间通过国内最稳、更新最快的AI镜像站AskManyAI进行了GPT-4.5-Turbo体验。

51c8b9b15db732a147e73facf982d689.jpeg

附AskManyAI地址(GPT-4、Claude3、Gemini都是最新版本):

https://askmanyai.cn

值得一提的是,AskManyAI的有个独特的AI混战模式,你的一个问题,可以指定多个最强的AI同时给你回答,简直就是做大模型测试的理想环境:

ab1b90da66f12fce0edde911144eeed0.jpeg

好了,话不多说,我们这就开始测评了!

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现:

f251520def619bc3098dd7610e6c7da2.jpeg

4a50fe68adef4a035c4e49e905b858e8.jpeg

4bc19e3c2bd5c5396f44898af635c68e.jpeg

这是一个很隐蔽的bug,Claude 3 Opus完全没找到bug在哪,其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo竟然找到了bug!

而且给到了非常正确的修复bug后的代码!

简直惊呆我了,这是第一个能修复这个bug的AI。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度,上传一个生物样品图片给AI:

3769cc649255c727a2985fd5f240bcaa.jpeg

然后我们在AskManyAI网站同时选中Claude、GPT和Gemini这三个地表最强的多模态AI,看他们对这个图片分析的结果:

2dfb2899cb18eae9727081043c8452dc.jpeg

这个case在旧版的GPT-4-Turbo里是个回答错误的badcase,当时明显不如Claude-3 Opus。但几天前的GPT-4-Turbo更新后,竟然回答对了!

不得不表扬下,AskManyAI这个网站的更新速度也真的够快啊!跟官方基本同速了。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

我们再换一个专业问题:

31eafd5e08ae514a6181d19e91319da4.jpeg

b94f954cc551dfce57882c86e6a2ff4d.jpeg

de998272ef999fe1270c33a5a663f386.jpeg

5bb8ef5d163b603c7d22fef535cf9c3c.jpeg

关于Sora技术原理的解释,所有的AI中,只有最新的GPT-4没有出现知识性的错误,Kimi和Gemini的错误是最离谱的,竟然说Sora是GAN的架构。。。而Claude-3的视频片段选择这个地方的讲解出现了错误——Sora是生成式的,不是检索式的。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。

最新版GPT-4完胜!

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

营销能力测试

这次测试加大难度,直接丢给AI一个产品文档PDF,让他去生成一篇营销文案和搜索SEO的标题。

e624462922e4712fec5b0c76b11460bb.jpeg

同样,这次GPT-4完胜!

AI写作能力测试

最后测试下AI写作能力!

9ac28870c0bfcc83539c64a64c49cfe3.jpeg

5974d2bfa1c5dc2adc56f13c1fba84bc.jpeg

7432ea5b2801eefaed197e556d5abbd7.jpeg

671d373aadd03a6f103e2da9c6034437.jpeg

9bbb366cf9962965f1d06aec7ab57945.jpeg

82ff3526d8e4d0d9175f6c4ed4187fcb.jpeg

2ad6b2598cfeb574e534fb4c3f819d38.jpeg

写作的测试结果就要见仁见智了,每个人的看法都可能不一样。

这里面我最喜欢的是GPT-4和Claude-3写的文章,但Gemini Pro的写作速度非常快,不到5秒就写完了全篇。而GPT-4和Claude-3则写了一分钟不止。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

好了,今天的评测就到这里了。你们更喜欢哪个AI呢?


http://www.ppmy.cn/news/1429579.html

相关文章

MySQL 中 InnoDB 存储引擎使用的 B+树底层数据结构

简要介绍 InnoDB 和它为什么选择使用 B树 InnoDB 是 MySQL 中默认的存储引擎,广泛用于生产环境中,特别是在要求高可靠性和事务性的应用场景。这个存储引擎支持事务处理、行级锁定、外键约束等高级数据库功能,这使得它非常适合处理大量数据并…

1115: 【C2】【字符串】【入门】最长最短单词

题目描述 输入1行句子(不多于200个单词,每个单词长度不超过100),只包含字母、空格和逗号。单词由至少一个连续的字母构成,空格是单词间的间隔。 试输出第1个最长的单词和第1个最短单词。 输入 一行句子。 输出 两…

界面组件Telerik UI for WPF 2024 Q1新版亮点 - 全新DateRangePicker组件

Telerik UI for WPF拥有超过100个控件来创建美观、高性能的桌面应用程序,同时还能快速构建企业级办公WPF应用程序。UI for WPF支持MVVM、触摸等,创建的应用程序可靠且结构良好,非常容易维护,其直观的API将无缝地集成Visual Studio…

【前端面试常问】MVC与MVVM

🔥【前端面试常问】MVC与MVVM💥:详尽解读与实战指南 前端开发世界中,架构设计犹如高楼之基,决定着代码的组织层次、模块间交互方式以及项目长远的可维护性和扩展性。本文将全方位剖析两种主流前端架构模式——MVC&…

vite - WebAssembly入门

1. 初始化 vite 项目 1.1 安装 nvm(可选) brew update brew install nvm在 ~/.zshrc 添加 export NVM_DIR~/.nvm source $(brew --prefix nvm)/nvm.sh执行如下命令 source ~/.zshrc1.2 安装 node nvm install nodenvm ls -> …

计算机考研408真的很难吗?

408难!科软有人四战没上岸,就是408拖的后腿! 这位同学数二144英二81,真的太可惜了! 是因为择校的问题吗? 看了他的备战经历后,我们发现,还真不是择校问题! 是典型的备…

SpringMVC(五)【拦截器】

前言 今天来把 SpringMVC 最后一部分学完,虽然课时很短,但是学起来还是很慢的,不过确收获很大。不得不感慨学大数据确实有必要把 SSM、SpringBoot 等各种 JavaEE 技术好好学一学,收获很大,尽管我们到现在 Java 代码写了…

数据结构-前缀树

前缀树 前缀树定义 前缀树(Trie树),又称字典树、单词查找树或键树,是一种专门设计用于高效存储和检索字符串集合中词项的树形数据结构。其核心特性在于能够快速实现字符串的前缀匹配,极大减少了无谓的字符比较&#xf…