deepfloyd/IF

news/2024/11/24 9:35:24/

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成AI画文字终于能画对了https://mp.weixin.qq.com/s/_pwBD4-wLA9zNHBpD6WdNgDeepFloyd IF — DeepFloydhttps://deepfloyd.ai/deepfloyd-ifhttps://colab.research.google.com/#scrollTo=e669eec4&fileId=https%3A//huggingface.co/DeepFloyd/IF-notebooks/blob/main/pipes-DeepFloyd-IF-v1.0.ipynbicon-default.png?t=N4P3https://colab.research.google.com/#scrollTo=e669eec4&fileId=https%3A//huggingface.co/DeepFloyd/IF-notebooks/blob/main/pipes-DeepFloyd-IF-v1.0.ipynb是由研究机构DeepFloyd开发,stability ai提供了gpu计算和训练模型的基础设施,可以认为IF是Imagen的开源复现版本,目前只有英文版本,代码集成diffusers。

一、Deepfloyd IF解决了文生图的两大难题:

1.准确绘制文字(霓虹灯招牌上写着xxx)

2.准确理解空间关系(一只猫照镜子看见狮子的倒影) 

使用DeepFloyd IF,可以把文字巧妙的放置到画面中任何位置,有利于商品渲染图,海报等。

二、模型

DeepFloyd IF基于扩散模型,但与之前的sd相比由两大不同:

1.负责理解文字的部分从openai的clip换成T5-XXL

2.负责图像生成的部分从潜扩散模型换成了像素级扩散模型

其实就是和IMagen基本保持了一直,包括后面生成图像之后接了两个diffusion版本的sr。

上图是模型架构图,其中在每个模块提供了不同参数版本的模型,其中IF-I-XL(4.3B)和IF-II-L(1.2B)需要16G显存,IF-I-XL和IF-II-L和stable X4需要24G显存。其中语言模型理解文本后通过扩散模型生成64x64的下图,再通过不同层次的扩散模型和超分模型生成大图。

在这种架构下,通过把指定图像缩小回64x64,再使用新的prompt重新执行扩散,也可以实现以图生图并调整风格、内容和细节。

三.效果

谷歌Parti和英伟达eDiff-1都可以准确绘制文字,AI不会写字主要是clip的问题,不过eDiff-1不开源,谷歌的所有生图模型都不开源。

四、prompt:

A fuzzy cute owlA spiky fierce porcupineA scaly mischievous dragon

is drinking very dark beer in the baris playing volleyball on the beachis driving the car

in a photorealistic stylein a street art stylein a Chinese watercolour style

A cuddly adorable koalaA slimy agile frogA playful furry fox

playing the drums in a rock bandparticipating in a hot dog eating contestworking as a pilot

in a photorealistic stylein a mosaic stylein a pop art style


http://www.ppmy.cn/news/97553.html

相关文章

如何安装宝塔面板-唯一客服系统文档中心

宝塔面板是安全高效的服务器运维面板 使用宝塔前: 手工输入命令安装各类软件,操作起来费时费力并且容易出错,而且需要记住很多Linux的命令,非常复杂。 使用宝塔后: 2分钟装好面板,一键管理服务器&#xff0…

JavaScript语法专题

1. 异步操作 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width,…

一道经典的网红面试题:从URL输入到页面展现到底发生了什么?

目录 &#x1f3ee; 前言 一、URL 到底是啥 二、域名解析&#xff08;DNS&#xff09; 三、TCP 三次握手 四、发送 HTTP 请求 五、服务器处理请求并返回 HTTP 报文 六、浏览器解析渲染页面 1.根据 HTML 解析 DOM 树 2.根据 CSS 解析生成 CSS 规则树 3.结合 DOM 树和…

第三期:那些年,我们一起经历过的链表中的浪漫

PS&#xff1a;每道题解题方法不唯一&#xff0c;欢迎讨论&#xff01;每道题后都有解析帮助你分析做题&#xff0c;答案在最下面&#xff0c;关注博主每天持续更新。 1. 两个链表的第一个公共节点 “我走过我的世界&#xff0c;再从你的世界走一遍” “你走过你的世界&#x…

redis未授权访问漏洞

1、什么是redis未授权访问漏洞 Redis安装后&#xff0c;如果绑定在 0.0.0.0:6379&#xff0c;并且没有进行采用相关的策略&#xff0c;比如添加防火墙规则避免其他非信任来源 ip 访问等&#xff0c;这样将会将 Redis 服务暴露到公网上&#xff0c;如果在没有设置密码认证或使用…

JetBrains的C和C++集成开发环境CLion 2023版本在Linux系统的下载与安装配置教程

目录 前言一、CLion安装二、使用配置总结 前言 CLion是一款为C和C语言开发人员设计的集成开发环境&#xff08;IDE&#xff09;。它提供了丰富的功能和工具&#xff0c;可以帮助开发人员更高效地编写、调试和部署C和C应用程序。注&#xff1a;已在CentOS7.9和Ubuntu20.04安装测…

flutter_学习记录_02底部 Tab 切换保持页面状态的几种方法

一、IndexedStack 保持页面状态 1.1 IndexedStack原理说明 IndexedStack 和 Stack 一样&#xff0c;都是层布局控件&#xff0c; 可以在一个控件上面放置另一 个控件&#xff0c;但唯一不同的是 IndexedStack 在同一时刻只能显示子控件中的一个控 件&#xff0c;通过 Index 属…

Rk1126 实现 yolov5 6.2 推理

基于 RK1126 实现 yolov5 6.2 推理. 转换 ONNX python export.py --weights ./weights/yolov5s.pt --img 640 --batch 1 --include onnx --simplify 安装 rk 环境 安装部分参考网上, 有很多. 参考: https://github.com/rockchip-linux/rknpu 转换 RK模型 并验证 yolov562_t…