独家 | 为DALL·E 2花了15美元创作这幅AI图像以后,我学到了……

news/2024/12/4 17:53:50/

a873f90ab554df8fbe54b4ab5af001b6.png

作者:Joy Zhang
翻译:陈超
校对:赵茹萱本文约3000字,建议阅读8分钟
本文介绍了作者使用DALL·E 2生成了美洲驼灌篮的逼真版图片的过程。

是的,这是一只美洲驼灌篮。一份对DALL·E 2封闭测试版试验的过程、限制以及学习内容的总结。

98157a548bd6369f93e27bd239eac527.png

美洲驼打篮球,DALL·E 2生成

自从我第一次看到那幅人工生成的“柴犬便当盒”(https://twitter.com/hardmaru/status/1522166259890151424)图像时,我就一直在死磕DALL·E 2。

哇哦,现在已经是颠覆性技术了。

对于不熟悉DALL·E 2的人来说,这是一个由OpenAI创建的能够利用文本生成原创图像的系统。他现在处于封闭测试阶段。我在五月初注册了等候者名单,并在七月底获得了使用权限。在测试阶段,用户收到积分(首月免费赠送50积分,之后每月15积分)后,每次花费1积分,就可以生成3-4幅图片。你可以用15美元购买115积分。

P.S. 如果你不想等,也可以免费使用DALL·E mini版本。当然,图像的质量通常会更差(由此产生了一大批DALL·E的表情包https://www.wired.com/story/dalle-ai-meme-machine/),并且每次要花大概60秒的时间(DALL·E 2只需要5秒左右)。

或许你已经看过了许多精心挑选的在线图像表明DALL·E 2是可以的。本文中,我分享了一个如何通过主题“美洲驼打篮球”来创造一幅有用的图片的详细步骤。如果你想自己尝试使用DALL·E 2或者你只是对它能干什么感兴趣的话,你会发现它很有用。

开始

DALL·E 2是科学和艺术的结合。为了阐述这一点,以下给出了“美洲驼打篮球”的结果:

ceccd3a90c9b5e9de6e0d4088e2ee899.jpeg1f4193870640e5f22497c5db5a82ed24.png 图像由作者使用DALL·E 2通过提示“美洲驼打篮球”生成

为什么DALL·E 2倾向于生成卡通图片呢?我假设在训练过程中缺乏关于美洲驼打篮球的真实图像。

我尝试再进一步地增加“逼真图像”的关键词:

手持打造有凝聚力的场景6632f935e202d2ce174a2cb0798dfc31.jpeg

86e5e9e294466ff12eefdc2c0c62c9a5.png

图像由作者使用 DALL·E 2 通过提示“美洲驼打篮球的逼真照片”生成

这张美洲驼照片看起来更写实,但是整幅图看起来像一团糟的ps作品。在这个案例当中,DALL·E 2明显需要一些手持式动作来创造一个更有粘合度的场景。

提示工程,也可以解释为明确你真正想要的东西的艺术

在DALL·E的情境中,提示工程指的是设计提示线索以给出想要结果的过程。

DALL·E 2提示书就是一个绝佳的资源。它有来源于摄影和艺术的关键词组成的详细线索灵感列表。

为什么这样的关键词是必要的呢?因为从DALL·E 2中获得有用的结果是非常挑剔的(尤其是当你不确定DALL·E 2有什么用的时候)。线索如此之多,以至于一家初创公司甚至建立了一个提示线索的市场,收费1.99美元,以此来节约你自己苦思冥想所耗费的时间和金钱。

我个人最喜欢的发现是“戏剧性的背景光”。

fb67a1da3a6e43754921be6028bf8219.jpeg7178f3257310ef756e01c0e85d32476e.png 图片由作者使用DALL·E 2提示:“美洲驼灌篮的静态影像,低角度,极端长摄,户内,戏剧性背景光”

告诉DALL·E 2你到底想要什么是非常重要的。很显然,从内容来看,这个美洲驼穿着合时宜并不明显。DALL·E 2能够很好地识别到这个想象的场景,然而当规定了“美洲驼穿运动衫”时:

74e8cb71eac9b6d68f7bcfc8b16a693c.jpeg eb3626d5798dc6586e69443ca02377f2.png

灌篮美洲驼,现在穿了运动衫。图像由作者使用DALL·E 2用线索“一只穿着球衣的美洲驼,灌篮的电影剧照,低角度,长镜头,室内,戏剧性的背光,高细节”生成

并没有结束。为了增加图像的戏剧性,让这个美洲驼起飞,我需要明确短语‘灌篮,行动的……’,或者我的个人喜好:“……穿运动衫的美洲驼像迈克尔·乔丹一样灌篮”:

f09d187c44ecc428c002419c3d9bba38.jpeg 3e7bc13129ae869fd63e549e30dcf571.png

迈克尔·乔丹——如果它是美洲驼,根据DALL·E 2。图像由作者使用DALL·E 2用线索“像迈克尔·乔丹这样的球衣中穿着球衣的美洲驼灌篮,低角度,从下面展示,倾斜的框架,35°,荷兰角度,极端长镜头,高细节,室内,戏剧性的背光的静态图像”

Tip:DALL·E 2仅储存了之前的历史表格里的50代。请确保你在制作过程中储存了你最喜欢的图像。

你可能已经注意到:DALL·E 2不擅长合成。

你会认为从“灌篮”的内容,美洲驼、球和篮筐的相对位置应该比较明显。通常,美洲驼灌篮的方式错了,要不就是球的位置放在美洲驼毫无希望投进的位置。虽然所有的线索元素都在,DALL·E 2并不真正‘理解’他们之间的关系。这篇文章讲得更为详细

(https://www.unite.ai/is-dall-e-2-just-gluing-things-together-without-understanding-their-relationships/)。

4d3c962a4962c128b308cc8bf44af0dc.png30b442cb31b27159f01b00e6b46955db.jpeg 图像由作者使用DALL·E 2用线索:“一只身穿球衣的美洲驼像迈克尔·乔丹一样灌篮的静态图像,低角度,从下面拍摄,倾斜的画面,35°,荷兰角度,超长镜头,高细节,室内,戏剧性的背光”

另一个表明DALL·E 2并没有真正“理解”场景的人工产品是偶尔的纹理混淆。在下面的图片里,网是由皮毛制成的(你只要想到就觉得是一个变态的场景):

a814634c0a08ad8abb2c9cf9d2085b51.jpeg 2c85a2ac635e264e595eea2e3b9ef305.png

作者使用 DALL· E 2用提示:“一张富有表现力的照片,一只美洲驼穿着球衣灌篮,像迈克尔·乔丹一样,低角度,极端广角,室内,戏剧性的背光,高细节”生成的图像

DALL·E 2努力生成逼真的人脸

根据一些资源,这可能是一种避免生成深度伪造的深思熟虑的尝试。我想这可能仅仅适用于人类,但是很明显它也适用于美洲驼。

978aecb2e1952112552f8272d2946311.jpeg f7aff34b1a3437777fa3590e5fdc5780.png

作者使用 DALL·E 2用提示:“一张美洲驼穿着球衣像迈克尔·乔丹一样灌篮篮球的戏剧性照片,低角度,广角,室内,戏剧性的背光,高细节。”生成的图像

DALL·E 2的一些其他限制

这里还有我经历过的一些其他的小问题:

角度和摄影解释比较松散

无论我用过多少种‘在远处’或者‘极端长摄’,也很难发现整个美洲驼适应整个框架的图像。

在某些情况下,框架完全被忽略:

6b1e49cc41a7f79af8452b4641601a63.jpeg 9074716e02b42ee64abe380e65475a0d.png

作者使用 DALL·E 2用提示“一只穿着球衣灌篮篮球的美洲驼的戏剧性静态图片,低角度,从下面拍摄,倾斜的框架,35°,荷兰角度,超长镜头,室内,戏剧性的背光,高细节。”生成的图像

DALL·E 2不能拼写

DALL·E 2尽力“理解”成分之间的关系这件事我想并不令人惊讶。然而,它能够在正确的上下文中尝试一些完全成形的字母:

32e97af9fe6b68072017eebfe63aa09f.jpeg 6422710ba10cc35fbb4b9974bf946748.png

作者使用 DALL·E 2用提示“像迈克尔·乔丹一样穿着球衣的毛茸茸的美洲驼灌篮,低角度,从下面拍摄,倾斜的框架,35°,荷兰角度,超长镜头,高细节,室内,戏剧性的背光。”生成的图像

面对复杂或者词汇贫乏的提示,DALL·E 2是相当难搞的

有时,使用特定方法对提示增加关键词或重写线索导致的结果常常与预想完全不同。

在这种情况下,线索(美洲驼穿运动服)的真实对象完全被忽视了:

1239d85f55cb8d11f1213fd7845fac40.jpeg 07c8cca8ff6f4faa19fde4516c896473.png

现在,这是一个令人印象深刻的灌篮。作者使用 DALL· E 2用提示“低角度,长镜头,室内,戏剧性的背光,穿着球衣的美洲驼,灌篮的专业照片。”生成的图像

甚至增加术语“毛茸茸的”也会导致更差的表现,并且,多个案例表明DALL·E 2只会断句:

5a9fb328a2dc96262206c52b4baf533e.jpeg a608f67029386621bc114fb5214c5cb0.png

作者使用 DALL·E 2用提示“像迈克尔·乔丹一样穿着球衣的毛茸茸的美洲驼灌篮,细节丰富,室内,戏剧性的背光。”生成的图像(图像经过有意修改以模糊和隐藏人脸)。

使用DALL·E 2时,重要的是明确你想要什么,不要过度填充或添加多余的单词。

DALL·E 2转换风格的能力令人印象深刻

你需要试一试!

一旦你有了关键词对象,你可以生成可观数量的其他艺术风格的图像。

“抽象画……”

77eae29eb22c941baa268f59074490a0.jpeg d243e7f7d18bf8f9d0662f932e27a022.png

作者使用 DALL·E 2用提示“美洲驼穿着球衣灌篮,像迈克尔·乔丹一样,从下面拍摄,倾斜的框架,35°,荷兰角度,极长镜头,高细节,戏剧性的背光,室内,背景是一个满是人的体育场的抽象画”生成的图像

‘蒸汽波’

8b593507a9b5701b86b78326b5589422.jpeg 30b8b8578011fe28a592a4d26497f61b.png

作者使用 DALL·E 2用提示“像迈克尔·乔丹一样穿着球衣的美洲驼灌篮,戏剧性的背光,充满活力的日落,蒸汽波风格静态图像”生成的图像

‘数字艺术’

4cafc883870ba1c06c046b8d068db81e.jpeg b837f0651c6f3113e1ae46f352dc1b03.png

作者使用 DALL·E 2用提示“穿着球衣的美洲驼像迈克尔·乔丹一样灌篮,从下面拍摄,倾斜的框架,35°,荷兰角度,极长镜头,高细节,戏剧性的背光,史诗般的,数字艺术”生成的图像

‘从宫崎骏动漫电影里生成截图’

3648884514d25af54c079d681a4b5a24.jpeg cb59b6822d161cf8998ccab5a42f3c71.png

作者使用 DALL·E 2用提示“穿着球衣的美洲驼像迈克尔·乔丹一样灌篮,来自宫崎骏动漫电影的截图”生成的图像。感谢本文中的提示。

最后的思考

经过100积分(大约13美元)以及一系列的试错,这是我最终的图像:

9252921a955c31e41082e54accd27286.jpeg c00db5881ca96bf4fe90fed5131b8aa4.png

我的迷人图像。https://labs.openai.com/s/HYv3Kp8ElKDAWKHq2vs76VXu

这幅图并不完美,但是DALL·E 2试图满足80%的摘要。

大多数积分用语尝试风格,面孔以及共同协作的正确组合。

根据OpenAI的DALL·E 宣言,

“……用户拥有充分的使用权来将他们用DALL·E生成的图片进行商业化,包括印刷、出售,和推销。”

预计许多用户会快速而松散地使用这些规则。

作为内容创作者,DALL·E 2对于为博客和网站创建简单的插图,照片和图形最有用。我将用它作为Unsplash的替代品来创建看起来与其他人不同的博客封面图像。

如果你想自己用DALL·E 2,这里有一些开始前的小贴士:

  • 查阅DALL·E 2线索书!(也可以由粉丝做的提示工程表格)。

  • 为了获得你想要的图,要做好试错的准备。15免费积分听起来好像很多,但事实上并非如此。预期至少用15积分生成一幅可用图像。DALL·E 2并不便宜。

  • 在过程中不要忘记保存你最喜欢的图像。

感谢您的阅读!我非常乐意听您分享DALL·E 2的使用经验,欢迎分享任何想法或反馈。

如果你喜欢这篇文章,这里也有其他作者的一些文章你可能会喜欢:

  • 我如何使用DALL-E 2生成OctoSQL的标志

    (https://jacobmartins.com/posts/how-i-used-dalle2-to-generate-the-logo-for-octosql/)来自Jacob Martins

  • 我如何使用AI重构10幅著名的地标画

    (https://towardsdatascience.com/how-i-used-ai-to-reimagine-10-famous-landscape-paintings-3e2924e03f79)来自Alberto Romero

  • DALL-E 2可以和不可以做什么

    (https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do)来自Swimmer963

原文标题:

I spent $15 in DALL·E 2 credits creating this AI image, and here’s what I learned

原文链接:

https://pub.towardsai.net/i-spent-15-in-dall-e-2-credits-creating-this-ai-image-and-heres-what-i-learned-52f352912025

编辑:于腾凯

校对:王欣

译者简介

6616c44d8f7ff7c6a953b224ab609db6.jpeg

陈超,北京大学应用心理硕士在读。本科曾混迹于计算机专业,后又在心理学的道路上不懈求索。越来越发现数据分析和编程已然成为了两门必修的生存技能,因此在日常生活中尽一切努力更好地去接触和了解相关知识,但前路漫漫,我仍在路上。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

91dba9d6f20cee398d3cf18946035304.png

点击“阅读原文”拥抱组织


http://www.ppmy.cn/news/252264.html

相关文章

DALL-E

CogView整体的算法框架与DALL-E相比更为简洁,文本部分的token转换已经十分成熟,下文不再做进一步介绍;图像则是通过一个离散化的AE(Auto-Encoder)转换为token。文本token和图像token拼接到一起之后输入到GPT模型中生成图像。最后在处理文本图…

DALL E2【论文阅读】

Hierarchical Text-Conditional Image Generation with CLIP Latents 1. Background 根据文本生成原创性图像,没有在训练集中出现过,学习特征然后进行组合根据文本对已有的图像进行编辑和修改,可以任意添加或移除已有物体(因为使…

AIGC之论文笔记DALL-E

文章目录 Zero-Shot Text-to-Image Generation一. 简介二. 方法2.1. 第一阶段:Learning the visual codebook2.1.1 回顾VQ-VAE2.1.2 p ψ p_{\psi} pψ​是离散分布,不可导的问题 -> gumbel-softmax Zero-Shot Text-to-Image Generation 一. 简介 …

简洁生动 | 图解 DALL-E 2 工作原理

选自assemblyai 作者:Ryan OConnor 机器之心编译 编辑:蛋酱 效果惊艳的 DALL-E 2,到底是怎么工作的? 2022 年 4 月初,OpenAI 的 DALL-E2,为图像生成和处理领域树立了新的标杆。只需输入简短的文字 promp…

DALL·E-2是如何工作的以及部署自己的DALL·E模型

DALLE-2可以通过自然语言的描述创建现实的图像。 Openai发布了dalle-2的Beta版。 在本文中,我们将仔细研究DALLE-2的原始研究论文,并了解其确切的工作方式。由于并没有开放源代码, Boris Dayma等人根据论文创建了一个迷你但是开源的模型DallE…

OpenAI发布DALL·E 2

2021年1月,OpenAI推出了DALLE ,不用跨界也能从文本生成图像,打破了自然语言与视觉次元壁,引起了 AI 圈的一阵欢呼。 时隔一年多后,DALLE 迎来了升级版本——DALLE 2。 与 DALLE 相比,DALLE 2 在生成用户描…

DALL·E 2 论文阅读笔记

《Hierarchical Text-Conditional Image Generation with CLIP Latents》 Paper: https://cdn.openai.com/papers/dall-e-2.pdf Project: https://openai.com/product/dall-e-2 Author: OpenAI 闲言碎语 时间线:2021.01推出DALLE,2021年底推出GLIDE&…

李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)

文章目录 一、 前言1.1 DALLE简介1.2 DALLE2简介1.3 文生图模型进展 二、 引言2.1 摘要2.2 引言&模型结构 三、 算法铺垫3.1 GANs3.2 AE3.3 DAE/MAE3.4 变分自编码器VAE3.5 VQ-VAE/VQ-VAE23.5.1 为何要做Quantised Vector?3.5.2 VQ-VAE算法3.5.3 局限性3.5.4 VQ…