DeepSeek 表示,Janus-Pro 7B 在多个基准测试中的表现优于 OpenAI 的 Dall-E 3 和 Stable Diffusion。但它真的那么好吗?它是否名副其实,还是这只是另一个利用人工智能炒作的模型?
DeepSeek 现已推出Janus-Pro ,这是其最新的多模态模型,专为文本和图像生成而设计。与 R1 一样,Janus Pro 也是开源的,并且提供了强大的基准测试结果。简而言之,它是多模态 AI 领域 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion 的有力竞争对手。
在这篇博客中,我将解释 Janus Pro、它是什么、多模式 AI 的含义、它的工作原理以及如何访问它。
让我们来一探究竟。
什么是Janus-Pro?
简单来说,Janus-Pro是一个强大的AI模型,它可以理解图像和文本,还可以根据文本描述创建图像。
Janus-Pro 是 Janus 模型的增强版,旨在实现统一的多模态理解和生成。它具有更好的训练方法、更多的数据和更大的模型。它还能为短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。
与原始 Janus 模型相比,它引入了多项改进,包括更好的训练策略、更大的数据集和缩放的模型大小(提供 1B 和 7B 参数版本)。
与只专注于一种输入类型的 AI 模型不同,Janus-Pro 等多模态 AI 模型旨在理解和连接这两种模态。例如,您可以上传图像并询问有关该图像的基于文本的问题 - 例如识别场景中的物体、解释图像中的文本,甚至分析其上下文。
Janus-Pro 可以根据文本提示生成高质量图像,例如根据特定说明创建详细的艺术品、产品设计或逼真的可视化效果。它还可以分析视觉输入,例如识别照片中的物体、阅读和解释图像中的文本,或回答有关图表或示意图的问题。
Janus-Pro的技术细节
解耦视觉编码
Janus-Pro 对多模态理解和视觉生成任务使用单独的视觉编码方法。这种设计旨在缓解这两个任务之间的冲突并提高整体性能。
对于多模态理解,Janus-Pro 使用SigLIP 编码器从图像中提取高维语义特征,然后通过理解适配器将其映射到 LLM 的输入空间。
Janus-Pro 旨在处理文本和图像的理解和生成,它通过对其前身进行一些巧妙的改进来实现这一目标。让我以一种更容易理解的方式解释一下它的关键组件。
对于视觉生成,该模型使用VQ 标记器将图像转换为离散 ID,然后通过生成适配器将其映射到 LLM 的输入空间。
在文本到图像的指令跟踪中,Janus-Pro-7B 在GenEval 基准测试中的得分为 0.80 ,优于其他模型,例如 OpenAI 的 Dall-E 3 和 Stability AI 的 Stable Diffusion 3 Medium。
此外,Janus-Pro-7B 在DPG-Bench上获得了 84.19 的分数,超过了所有其他方法,并展示了其遵循文本到图像生成的密集指令的能力。
改进训练流程
Janus-Pro 的训练分为三个阶段,每个阶段旨在提高其能力:
- 学习视觉基础知识:该模型首先在ImageNet等数据集上进行训练,重点是识别对象、文本和视觉模式。此阶段在 Janus-Pro中得到扩展,使模型有更多时间来模拟像素依赖关系并有效处理视觉数据
- 连接视觉效果和文本:在此阶段,Janus-Pro通过对高质量、描述性的文本到图像数据集进行训练来整合文本和视觉效果。与早期版本不同,Janus-Pro跳过了低效的方法,并使用密集提示来获得更好的结果。
- 最后的微调:此阶段调整训练数据(多模式、纯文本和文本转图像)的平衡,从 7:3:10变为 5:1:4。
更大的数据和模型扩展
Janus-Pro 通过等量使用真实数据和合成数据来扩展其功能。这种组合不仅可以确保更高质量的结果,还可以提高图像生成等任务的稳定性。
如何访问
DeepSeek 在 HuggingFace 上向公众发布了 Janus,以支持学术界和商业界更广泛、更多样化的研究。
Janus-1.3B:Hugging Face链接
JanusFlow-1.3B:Hugging Face链接
Janus-Pro-1B:Hugging Face链接
Janus-Pro-7B:Hugging Face链接
请注意,具有 70 亿个参数的 Janus-Pro 模型会占用近 15 GB 的内部存储器。
如果您不想在自己的硬件上运行该模型,您可以简单地在HuggingFace上运行 Gradio 演示。