3月25日凌晨,OpenAI终于放出了憋了一年的大招——GPT-4o图像生成功能正式上线了,目前正开始在ChatGPT和Sora中向所有Plus、Pro、Team和Free用户推出。
本次升级,除了基本的图像生成能力很强以外,还有些值得一提的特性:
- 多轮生成:在聊天上下文中构建图像和文本,确保整体一致性。例如我们要设计一个游戏或者动漫角色,随着不断细化和实验,这个角色的外观也可以在整个迭代过程中保持一致。
- 指令跟随:4o的图像生成遵循详细的提示,注重细节。与其他系统相比,4o可以在一次生成中处理多达10-20个不同的对象,而其他系统在处理5-8个对象时往往会遇到困难。
- 上下文学习:4o可以从用户上传的图片中分析和学习,并将图片的细节无缝地融入其语境中,以指导图片生成。
- 世界知识:原生图像生成使4o能够在其文本和图像之间建立知识链接,从而使模型显得更聪明、更高效。
GPT-4o生成的图片达到了以假乱真的程度,让人乍一看还以为是真人在黑板上写的,下图是由GPT-4o生成的。
