GPT-4发布：多模态大模型，AI能力再度进化，可识别图像内容

能终结chatGPT的人只有openAI自己。 ——阿卡夫斯基-作者本人
:::

今日凌晨，OpenAI发布了GPT的最新一代版本ChatGPT-4，相比3.5，其AI能力再度进化，同时支持输入的内容不再仅限于文字，而且支持图像内容的输入，成为一个能够理解照片的人工智能。

GPT-4 实现了以下几个方面的飞跃式提升：

比如这张图，你问他这张图内容有什么不一样的地方

他会回答你：这张图的不通寻常之处在于，一个男人正在一辆行驶中的出租车车顶上的熨衣板上熨衣服

再比如这张图，你问他为什么这很可笑？

他会回答你：这幅图的幽默之处在于，把一个大而过时的VGA接口接入一个小而现代的智能手机充电接口

值得一提的是，除了普通图片，GPT-4还能处理更复杂的图像信息，包括表格、考试题目截图、论文截图、漫画等，例如根据专业论文直接给出论文摘要和要点

OpenAI称，公司花费6个月的时间，利用对抗性测试程序和ChatGPT的经验教训迭代调整GPT-4，从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果，“至少对我们而言，GPT-4训练运行前所未有地稳定，成为首个能够提前准确预测其训练性能的大型模型。”

未来，也许ChatGPT不仅仅是支持图像的输入，可能支持视频的输出

结果证明，它在许多测试和基准测试中的表现比前一代确实大大提高：根据他们的测试结果，GPT-4的SAT分数增加了150分，现在能拿到1600分中的1410分；它能通过模拟律师考试，分数在应试者的前10%左右，相比之下，GPT-3.5的得分在倒数 10% 左右

chatgp4考试成绩超过九成人类

在SAT阅读考试中和SAT数学考试中，GPT-4的成绩都能达到领先的排名……

OpenAI官方表示，GPT-4由于其广泛的通用知识和解决问题的能力，可以更准确地解决难题。

GPT-4比以往任何时候都更具创造力和协作性。它可以生成、编辑和迭代用户的创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。

GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中，ChatGPT背后的GPT-3.5排名在倒数10%左右，而GPT-4考到了前10%左右。

此外，GPT-4的长度限制提升到32K tokens，即能处理超过25000个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

OpenAI还贴心地发布了GPT-4开发者视频，手把手教你生成代码、检查错误信息、报税。OpenAI联合创始人兼总裁布罗克曼（Greg Brockman）还说了句有点扎心的话：“它并不完美，但你也一样。”

与免费的ChatGPT不同，GPT-4目前仅向ChatGPT Plus的付费用户开放，它也将作为API（应用程序编程接口）提供给企业及开发者，开发者需进入等候名单上，将该模型集成到他们的应用程序中。

OpenAI开源了Evals框架，以自动评估AI模型性能，允许用户报告模型中的缺点，帮助其改进。OpenAI工程师在介绍说，“GPT-4 是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人。”

不过，GPT-4仍然不是完全可靠的，比如会对事实产生“幻觉”，并出现推理错误。OpenAI提醒，在使用语言模型的输出时，特别是在高风险的情况下，应该非常小心谨慎。

以上就是今天关于GPT-4的介绍，不知道文心一言出来后会如何，不管怎样，迫不及待的用户大概已经开始测试体验了吧。