DeepSeek Janus Pro 论文解析

介绍

统一的多模态理解与生成

图像理解任务

图像生成任务

统一模型的好处

Janus%20%E5%92%8C%20Janus%20Pro%20%E6%9E%B6%E6%9E%84-toc" name="tableOfContents" style="margin-left:40px">Janus 和 Janus Pro>Janus Pro 架构

Janus%20Pro%E4%B8%BB%E8%A6%81%E8%AE%BE%E8%AE%A1%E5%8E%9F%E7%90%86-toc" name="tableOfContents" style="margin-left:80px">Janus Pro>Janus Pro主要设计原理

Janus%20Pro%20%E5%9B%BE%E5%83%8F%E7%BC%96%E7%A0%81%E5%99%A8-toc" name="tableOfContents" style="margin-left:80px">Janus Pro>Janus Pro 图像编码器

LLM 处理和输出

Rectified Flow

Janus%20Pro%20%E8%AE%AD%E7%BB%83%E6%B5%81%E7%A8%8B-toc" name="tableOfContents" style="margin-left:40px">Janus Pro>Janus Pro 训练流程

第一阶段——适应

第二阶段——统一预训练

第三阶段——监督微调

Janus%20Pro%20%E7%BB%93%E6%9E%9C-toc" name="tableOfContents" style="margin-left:40px">Janus Pro>Janus Pro 结果

理解与代际比较

Janus%20%E4%B8%8E%20Janus%20Pro%20%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E8%B4%A8%E9%87%8F-toc" name="tableOfContents" style="margin-left:80px">Janus 与 Janus Pro>Janus Pro 图像生成质量

介绍

业界还在适应最近发布的震惊人工智能界的 DeepSeek-R1。但不久之后，DeepSeek 又发布了另一个出色的开源模型Janus Pro>Janus Pro。这一次，它是一个可以与其他顶级多模态模型相媲美的多模态 AI 模型。

在这篇文章中，我们将解释 DeepSeek Janus Pro>Janus Pro 背后的研究论文，标题为“ Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling”。

要理解这篇论文，我们还需要解释 DeepSeek 之前的论文，该论文介绍了早期的 Janus 模型版本，标题为：“JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation”。

不需要有关原始 Janus 论文的先验知识。新论文以前一篇论文为基础，我们将在这篇文章中对两者进行解释。

统一的多模态理解与生成

两种模型都讨论了统一的多模式理解和生成，因此在深入研究 Janus 模型的方法细节之前，让我们首先了解它的含义。

图像理解任务

图像理解任务示例，由 MLLM 解决

大型语言模型(LLM) 在许多任务中都表现出了卓越的能力。在此基础上，人们创建了多模态大型语言模型(MLLM)，例如 LLaVA。借助 MLLM，我们可以向模型输入文本提示和图像。在上面的例子中，我们询问模型“我的猫在做什么？”并添加一张猫的图像。然后，模型可以理解文本提示和图像，并告诉我们猫正在试图抓鱼。

这种方法已被证明对于图像理解任务非常有效，其中模型可以帮助回答有关输入图像的各种类型的问题。下面，我们可以看到 Janus Pro>Janus Pro 论文中关于图像理解任务的一个示例。Janus 被问及以图像形式提供的蛋糕的背景故事。Janus 准确地检测到蛋糕主题是汤姆和杰瑞，并提供了其背景故事。该模型不仅理解图像，而且还利用其骨干大型语言模型，使用 LLM 中嵌入的通用知识提供超出图像范围的信息。