DeepSeek发布自己的AI图像生成器Janus-Pro

embedded/2025/2/11 12:02:03/

DeepSeek 表示,Janus-Pro 7B 在多个基准测试中的表现优于 OpenAI 的 Dall-E 3 和 Stable Diffusion。但它真的那么好吗?它是否名副其实,还是这只是另一个利用人工智能炒作的模型?

DeepSeek 现已推出Janus-Pro ,这是其最新的多模态模型,专为文本和图像生成而设计。与 R1 一样,Janus Pro 也是开源的,并且提供了强大的基准测试结果。简而言之,它是多模态 AI 领域 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion 的有力竞争对手。

在这篇博客中,我将解释 Janus Pro、它是什么、多模式 AI 的含义、它的工作原理以及如何访问它。

让我们来一探究竟。

什么是Janus-Pro?

简单来说,Janus-Pro是一个强大的AI模型,它可以理解图像和文本,还可以根据文本描述创建图像。

Janus-Pro 是 Janus 模型的增强版,旨在实现统一的多模态理解和生成。它具有更好的训练方法、更多的数据和更大的模型。它还能为短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。
与原始 Janus 模型相比,它引入了多项改进,包括更好的训练策略、更大的数据集和缩放的模型大小(提供 1B 和 7B 参数版本)。在这里插入图片描述
与只专注于一种输入类型的 AI 模型不同,Janus-Pro 等多模态 AI 模型旨在理解和连接这两种模态。例如,您可以上传图像并询问有关该图像的基于文本的问题 - 例如识别场景中的物体、解释图像中的文本,甚至分析其上下文。在这里插入图片描述
Janus-Pro 可以根据文本提示生成高质量图像,例如根据特定说明创建详细的艺术品、产品设计或逼真的可视化效果。它还可以分析视觉输入,例如识别照片中的物体、阅读和解释图像中的文本,或回答有关图表或示意图的问题。在这里插入图片描述

Janus-Pro的技术细节

解耦视觉编码

Janus-Pro 对多模态理解和视觉生成任务使用单独的视觉编码方法。这种设计旨在缓解这两个任务之间的冲突并提高整体性能。
在这里插入图片描述
对于多模态理解,Janus-Pro 使用SigLIP 编码器从图像中提取高维语义特征,然后通过理解适配器将其映射到 LLM 的输入空间。
Janus-Pro 旨在处理文本和图像的理解和生成,它通过对其前身进行一些巧妙的改进来实现这一目标。让我以一种更容易理解的方式解释一下它的关键组件。在这里插入图片描述

对于视觉生成,该模型使用VQ 标记器将图像转换为离散 ID,然后通过生成适配器将其映射到 LLM 的输入空间。
在这里插入图片描述
在文本到图像的指令跟踪中,Janus-Pro-7B 在GenEval 基准测试中的得分为 0.80 ,优于其他模型,例如 OpenAI 的 Dall-E 3 和 Stability AI 的 Stable Diffusion 3 Medium。

此外,Janus-Pro-7B 在DPG-Bench上获得了 84.19 的分数,超过了所有其他方法,并展示了其遵循文本到图像生成的密集指令的能力。

改进训练流程

Janus-Pro 的训练分为三个阶段,每个阶段旨在提高其能力:

  • 学习视觉基础知识:该模型首先在ImageNet等数据集上进行训练,重点是识别对象、文本和视觉模式。此阶段在 Janus-Pro中得到扩展,使模型有更多时间来模拟像素依赖关系并有效处理视觉数据
  • 连接视觉效果和文本:在此阶段,Janus-Pro通过对高质量、描述性的文本到图像数据集进行训练来整合文本和视觉效果。与早期版本不同,Janus-Pro跳过了低效的方法,并使用密集提示来获得更好的结果。
  • 最后的微调:此阶段调整训练数据(多模式、纯文本和文本转图像)的平衡,从 7:3:10变为 5:1:4。

更大的数据和模型扩展

Janus-Pro 通过等量使用真实数据和合成数据来扩展其功能。这种组合不仅可以确保更高质量的结果,还可以提高图像生成等任务的稳定性。

如何访问

DeepSeek 在 HuggingFace 上向公众发布了 Janus,以支持学术界和商业界更广泛、更多样化的研究。

Janus-1.3B:Hugging Face链接
JanusFlow-1.3B:Hugging Face链接
Janus-Pro-1B:Hugging Face链接
Janus-Pro-7B:Hugging Face链接

请注意,具有 70 亿个参数的 Janus-Pro 模型会占用近 15 GB 的内部存储器。
在这里插入图片描述
如果您不想在自己的硬件上运行该模型,您可以简单地在HuggingFace上运行 Gradio 演示。
在这里插入图片描述


http://www.ppmy.cn/embedded/161321.html

相关文章

基于uniapp vue3 的滑动抢单组件

通过在onMounted获取movable-area与movable-view实例&#xff0c;计算出可滑动的距离 效果图&#xff1a; 代码&#xff1a; <template><view class"slider-container"><movable-area class"movable-area" id"movableArea">…

Axios 拦截器实现的原理

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

智慧机房解决方案(文末联系,领取整套资料,可做论文)

智慧机房解决方案-软件部分 一、方案概述 本智慧机房解决方案旨在通过硬件设备与软件系统的深度整合&#xff0c;实现机房的智能化管理与服务&#xff0c;提升机房管理人员的工作效率&#xff0c;优化机房运营效率&#xff0c;确保机房设备的安全稳定运行。软件部分包括机房管…

scRNA-seq scanpy教程1:准备工作+AnnData数据结构理解

此处使用python版本的scRNA-seq处理工具scanpy&#xff0c;而不是R版本的seurat&#xff0c;因为seurat包安装繁杂 一&#xff0c;准备工作 1&#xff0c;python库的安装&#xff1a; 新建1个环境sc-python mamba create -n sc-python -c conda-forge -y scanpy python-igra…

【DeepSeek-01】无需 Docker,千元级电脑本地部署 Ollama + DeepSeek-R1:14b + Chatbox

文章目录 DeepSeek-01&#xff1a;无需 Docker&#xff0c;千元级电脑本地部署 Ollama DeepSeek-R1:14b Chatbox本机环境Ollama 安装步骤1. 下载 Ollama2. 安装3. 初始化配置4. 启动 Ollama 服务 DeepSeek-R1:14b 安装步骤1. 下载deepseek r1 14b模型2. 安装依赖项3. 下载模型…

深入探索人工智能的未来:DeepSeek R1与蓝耘智算平台的完美结合

在当今数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;和机器学习&#xff08;ML&#xff09;正以前所未有的速度改变着我们的生活和工作方式。从智能语音助手到自动驾驶汽车&#xff0c;从精准医疗到金融风险预测&#xff0c;AI的应用无处不在。深度学习作为AI的核…

单片机之基本元器件的工作原理

一、二极管 二极管的工作原理 二极管是一种由P型半导体和N型半导体结合形成的PN结器件&#xff0c;具有单向导电性。 1. PN结形成 P型半导体&#xff1a;掺入三价元素&#xff0c;形成空穴作为多数载流子。N型半导体&#xff1a;掺入五价元素&#xff0c;形成自由电子作为多…

低空经济探索,无人机春季研学活动详解

低空经济探索与无人机春季研学活动是当前科技教育领域的一大热点&#xff0c;以下是对该活动的详细解析&#xff1a; 一、低空经济探索背景 低空经济是以无人机、轻型飞机等低空飞行器为核心&#xff0c;涵盖制造、运营、服务等多个环节的新兴经济形态。随着科技的进步和政策…