DeepSeek Janus Pro 论文解析

devtools/2025/2/10 20:54:57/

目录

介绍

统一的多模态理解与生成

图像理解任务

图像生成任务

统一模型的好处

Janus%20%E5%92%8C%20Janus%20Pro%20%E6%9E%B6%E6%9E%84-toc" name="tableOfContents" style="margin-left:40px">JanusJanus Pro>Janus Pro 架构

Janus%20Pro%E4%B8%BB%E8%A6%81%E8%AE%BE%E8%AE%A1%E5%8E%9F%E7%90%86-toc" name="tableOfContents" style="margin-left:80px">Janus Pro>Janus Pro主要设计原理

Janus%20Pro%20%E5%9B%BE%E5%83%8F%E7%BC%96%E7%A0%81%E5%99%A8-toc" name="tableOfContents" style="margin-left:80px">Janus Pro>Janus Pro 图像编码器

LLM 处理和输出

Rectified Flow

Janus%20Pro%20%E8%AE%AD%E7%BB%83%E6%B5%81%E7%A8%8B-toc" name="tableOfContents" style="margin-left:40px">Janus Pro>Janus Pro 训练流程

第一阶段——适应

第二阶段——统一预训练

第三阶段——监督微调

Janus%20Pro%20%E7%BB%93%E6%9E%9C-toc" name="tableOfContents" style="margin-left:40px">Janus Pro>Janus Pro 结果

理解与代际比较

Janus%20%E4%B8%8E%20Janus%20Pro%20%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E8%B4%A8%E9%87%8F-toc" name="tableOfContents" style="margin-left:80px">JanusJanus Pro>Janus Pro 图像生成质量


介绍

业界还在适应最近发布的震惊人工智能界的 DeepSeek-R1。但不久之后,DeepSeek 又发布了另一个出色的开源模型Janus Pro>Janus Pro。这一次,它是一个可以与其他顶级多模态模型相媲美的多模态 AI 模型

在这篇文章中,我们将解释 DeepSeek Janus Pro>Janus Pro 背后的研究论文,标题为“ Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling”。

<a class=Janus-Pro 论文标题和作者" class="wp-image-1202" height="322" src="https://i-blog.csdnimg.cn/img_convert/ac35b7d15776f8f83c2f8efb16ec0efc.png" width="1426">

要理解这篇论文,我们还需要解释 DeepSeek 之前的论文,该论文介绍了早期的 Janus 模型版本,标题为:“JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation”。

<a class=Janus-Pro 之前论文的标题和作者" class="wp-image-1203" height="467" src="https://i-blog.csdnimg.cn/img_convert/84f97e4da67f5c5ca157e62bf557c89e.png" width="1391">

不需要有关原始 Janus 论文的先验知识。新论文以前一篇论文为基础,我们将在这篇文章中对两者进行解释。

统一的多模态理解与生成

两种模型都讨论了统一的多模式理解和生成,因此在深入研究 Janus 模型的方法细节之前,让我们首先了解它的含义。

图像理解任务

图像理解任务示例,由 MLLM 解决

图像理解任务示例,由 MLLM 解决

大型语言模型(LLM) 在许多任务中都表现出了卓越的能力。在此基础上,人们创建了多模态大型语言模型(MLLM),例如 LLaVA。借助 MLLM,我们可以向模型输入文本提示和图像。在上面的例子中,我们询问模型“我的猫在做什么?”并添加一张猫的图像。然后,模型可以理解文本提示和图像,并告诉我们猫正在试图抓鱼。

这种方法已被证明对于图像理解任务非常有效,其中模型可以帮助回答有关输入图像的各种类型的问题。下面,我们可以看到 Janus Pro>Janus Pro 论文中关于图像理解任务的一个示例。Janus 被问及以图像形式提供的蛋糕的背景故事。Janus 准确地检测到蛋糕主题是汤姆和杰瑞,并提供了其背景故事。该模型不仅理解图像,而且还利用其骨干大型语言模型,使用 LLM 中嵌入的通用知识提供超出图像范围的信息。


http://www.ppmy.cn/devtools/157731.html

相关文章

CEF132 编译指南 Windows 篇 - 拉取 CEF 源码 (五)

1. 引言 获取 CEF 132 源码是开始编译工作的前提和关键步骤。在完成 depot_tools 的安装和配置后&#xff0c;我们需要通过正确的方式下载和同步 CEF 的源代码。由于 CEF 项目依赖于 Chromium 的大量组件&#xff0c;因此源码的获取过程需要特别注意同步策略和版本管理&#x…

uniapp实现人脸识别(不使用三方插件)

uniapp实现人脸识别 内容简介功能实现上传身份证进行人脸比对 遇到的问题 内容简介 1.拍摄/相册将身份证照片上传到接口进行图片解析 2.使用live-pusher组件拍摄人脸照片&#xff0c;上传接口与身份证人脸进行比对 功能实现 上传身份证 先看下效果 点击按钮调用chooseImage…

自动化测试(selenium篇)

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、什么是自动化测试 自动化测试通俗一些来讲&#xff0c;就是相当于将人工测试手段进行转换&#xff0c;让代码去自动执行。 自动化测试主要分为&#xff1a;单元…

如何在Windows中配置MySQL?

MySQL是一个广泛使用的开源关系型数据库管理系统&#xff0c;它支持多种操作系统平台&#xff0c;其中包括Windows。无论是开发者进行本地开发&#xff0c;还是管理员为应用程序配置数据库&#xff0c;MySQL都是一个非常流行的选择。本篇文章将详细介绍如何在Windows操作系统中…

如何利用maven更优雅的打包

最近在客户现场部署项目&#xff0c;有两套环境&#xff0c;无法连接互联网&#xff0c;两套环境之间也是完全隔离&#xff0c;于是问题就来了&#xff0c;每次都要远程到公司电脑改完代码&#xff0c;打包&#xff0c;通过网盘&#xff08;如果没有会员&#xff0c;上传下载慢…

Baklib优化数字化内容管理用科技提升商业效率与增值潜力

内容概要 在当今数字化迅速发展的时代&#xff0c;数字化内容管理已成为企业提升竞争力的重要手段。Baklib作为一款强大的智能优化内容管理系统&#xff0c;通过先进的科技手段&#xff0c;帮助企业在内容管理和数据整合方面实现高效运作。Baklib 是什么类型的工具&#xff0c…

MySQL数据库(七)SQL 优化

目录​​​​​​​ 一 插入数据 1 批量插入 2 手动提交事务 3 主键顺序插入 4* 使用load插入指令数据 二 主键优化 1 数据组织方式 2 页分裂 ​编辑3 页合并 4* 主键设计原则 三 order by 优化 四 group by 优化 五 limit 优化 六 count优化 七 update优化 一…

03/29 使用 海康SDK 对接时使用的 MysqlUtils

前言 最近朋友的需求, 是需要使用 海康sdk 连接海康设备, 进行数据的获取, 比如 进出车辆, 进出人员 这一部分是 资源比较贫瘠时的一个 Mysql 工具类 测试用例 public class MysqlUtils {public static String MYSQL_HOST "192.168.31.9";public static int MY…