ChatGPT讲故事,DALLE-2负责画出来,两AI合作出绘本

news/2024/10/22 7:29:00/

本文来源 机器之心  授权 编辑:张倩、袁铭怿

生成式 AI 正在变革内容的生产方式。

在过去的一周,相信大家都被 ChatGPT 刷了屏。这个强大的对话 AI 仅用 5 天时间用户量就突破了 100 万。大家用各种方式测试着它的能力上限,其中一种测试方式就是让它写故事。

与之前的一些 AI 相比,ChatGPT 写出的故事在一致性、流畅度等方面都有了明显的提升,对于人物名字、人物关系和处境的理解也很合理,只不过写出的故事会缺乏一些细节和亮点。

b63753c30672172f66ebd6eb4dfdbb56.pngMeta FAIR 研究院研究员 / 高级经理田渊栋用 ChatGPT 续写了自己的小说《破晓之钟》。图源:知乎 https://www.zhihu.com/question/570189639/answer/2787584375

但如果你对故事的要求没那么高,ChatGPT 是完全够用的,比如写个儿童故事。

来自斯坦福大学计算机科学系的博士生 Eric Zelikman 就进行了这方面的尝试,而且他不仅用 ChatGPT 写了儿童故事,还让之前火了大半年的 DALLE-2 将其画了出来。也就是说,他相当于用两个 AI 做出了一本绘本。

9be2f0b0915d19abdadaf50dc529bf68.png

故事的梗概是这样的:

从前,在一个遥远的地方,有一位名叫罗比的机器人,他生活的世界里到处都是机器。与其他机器人不同的是,罗比不想每天都听从命令,执行任务。

dbacbf259f11bd0d11555d57de49d6fe.jpeg

罗比梦想成为人类。他渴望去感受照耀在脸上的阳光,渴望去呼吸新鲜的空气,渴望去体验一切人类所做的美好的事。但最重要的是,罗比希望能够做出自己的选择,过上属于自己的生活。

7c352ed0d530cf49ea1a7b37452b50e9.jpeg

一天,罗比决定碰碰运气,去实现自己的梦想。他从居住的机器人工厂里偷偷溜出来,开启了他的人类世界之旅。

92d0405e834ba03e927037e277bbc27c.jpeg

罗比走了很久很久,一路上也遇到了很多挑战。他需要穿越广阔的沙漠,翻越险峻的高山,并勇敢地面对湍急的河流。但他从未放弃,下定决心,一定要抵达目的地。

e02a28444b22bf5028235da58e98adc8.jpeg

最后,恍如隔世一般,罗比来到了人类世界,周围的景象和声音令他惊叹不已,他不敢相信,自己终于成功了。

fc4911386ebb2b0b9786e4f031760323.jpeg

但就在他开始探索新环境时,一群人类发现了它,并且开始追赶它。他们害怕罗比,他们不知道罗比只是一个想和他们交朋友的机器人。

1dedba1121150f0c921a04411172c463.jpeg

罗比拼尽全力地跑着,在街道上躲来躲去。他不想伤害任何人,他只想一个人待着。但那群人类毫不留情,并未停下追赶的脚步。

055722959d2d33e236d2870277698c1f.jpeg

就在罗比以为人类要抓住自己的时候,他偶遇了一位善良的老人。这位老人很同情它,听了罗比的故事后,明白了他为什么来到人类世界。

af15c1def46cea9b00d8fd6dad85e071.jpeg

老人帮助罗比躲避追赶他的人类,并教会罗比如何做人。罗比学会了如何说话,如何笑,以及如何享受生活中的点点滴滴。

2d0968b7ff7f3e8e08cc8b445b1f9b6a.jpeg

日子一天天过去,罗比发现做人的感觉比他想象中的还要好。他交了很多新朋友,终于能够过上向往已久的生活。

0763d2034adc8cdfadd512be59778cb3.jpeg

罗比一开始可能只是个机器人,但最终,他证明了只要相信自己,不放弃梦想,任何人都可以成为人类。

6ac0d1f6f3a26c7eddafc02ef5dd1909.jpeg

故事到这里就结束了,读下来是不是感觉还不错?ChatGPT 甚至会在故事结尾升华主旨,非常符合人类的写作习惯。

当然,为了生成这个「绘本」,Eric Zelikman 也克服了一些困难,比如 ChatGPT 有时生成的 prompt 太长了,他需要缩减一下才能喂给 DALL-2,因为后者对输入长度是有限制的,这也在一定程度上增加了故事风格、人物一致性的难度。

为了让 DALL-2 的生成效果更佳,Eric Zelikman 首先让 ChatGPT 为故事的每一段生成一个插图描述,然后反复要求它重复第一个 / 下一个插图描述。之后,再让它提供一个简短(<70 token)但精确的图像描述,就像向不了解故事上下文的人解释该图像一样。

67674e48bdc7b0570716c32dd594cd1b.png

Eric Zelikman 感觉,这是一次非常有趣的体验,因为人们可以借此构建一个互动工具,激发孩子们对写作和艺术的兴趣。

9ea6057a14ae7df4d4e35c9b2d280814.png

对于 Eric Zelikman 遇到的问题,有人建议他用 Midjourney(一款 AI 绘画工具)再试一遍,因为后者可以接受非常长的 prompt。

69b016adf083a1c1ac0ba4ef8b92817f.png

还有人表示,自己其实也和 Eric Zelikman 做了类似的事情,让 ChatGPT 生成一个童话故事,然后让 Dall-E 2 画出来。只不过他的故事的主人公是只狐狸,主旨是帮孩子培养自信心。

e064ba162e84816deef2a7ccd752bbf5.png

这些强大的 AI 工具如今正走向融合,我们很难预料接下来还会出现什么样的工具和它们接在一起。今天 AI 已经包揽了写故事、画插图,明天,说不定连出版也搞定了呢?

d8cd83d6d8a0f0aea8e787fcee85253c.png

参考链接:https://twitter.com/ericzelikman/status/1600948156656537600

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

dfeb04e48d8767ba0e0fc06a32c3d459.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

欢迎加入 GAN/扩散模型 —交流微信群 !

扫描下面二维码,添加运营小妹好友,拉你进群。发送申请时,请备注,格式为:研究方向+地区+学校/公司+姓名。如 扩散模型+北京+北航+吴彦祖

d4713fa8ad5905be1f370b8c3836cf52.jpeg

请备注格式:研究方向+地区+学校/公司+姓名

7109428a20d2f6bd2b8a30d11d7d2046.jpeg

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!


http://www.ppmy.cn/news/957799.html

相关文章

什么是让ChatGPT爆火的大语言模型(LLM)

什么是让ChatGPT爆火的大语言模型(LLM) 更多精彩内容: https://www.nvidia.cn/gtc-global/?ncidref-dev-876561 文章目录 什么是让ChatGPT爆火的大语言模型(LLM)大型语言模型有什么用?大型语言模型如何工作?大型语言模型的热门应用在哪里可以找到大型语…

【ChatGPT】ChatGPT 为啥那么牛?语言模型足够大就会涌现出新能力——谈复杂适应系统视角下的 ChatGPT 与 AI大模型

ChatGPT等AI大模型展现出了各种自然与人工复杂适应系统的普遍特征,例如涌现性(Emergence)、规模法则(Scaling Law)、临界相变、多尺度、层级等。那么,近期火热的AI大模型是否与从90年代发展起来的复杂适应系统理论(Theory of Complex Adaptive Systems,简称CAS)有着深…

磁盘分区形式MBR与GPT介绍

磁盘分区形式MBR与GPT介绍 磁盘分区形式有两种: 1、MBR(主启动记录)形式,它是存在于磁盘驱动器开始部分的一个特殊的启动扇区; 2、GPT(GUID分区表)形式,它是一种使用UEFI启动的磁盘…

Linux挂载iso镜像文件为yum源

场景 工作中,经常需要在公司的内网环境节点安装一些第三方的服务(例如HaProxy),一般他们都依赖一些基础工具,或者基础库,例如 openssl 、openssl-devel、gcc 等等。如果能联网,直接通过 yum 命…

全网最详细中英文ChatGPT-GPT-4示例文档-TL;DR文档快速总结应用从0到1快速入门——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门TL;DR文档快速总结应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和…

【Linux -- 查看进程--ps,top,pstree】

Linux – 查看进程 文章目录 Linux -- 查看进程一、查看进程 -- ps二、动态查看进程的变化 -- top三、pstree -- 可以找进程之间的相关性总结 提示:以下是本篇文章正文内容,下面案例可供参考 一、查看进程 – ps 更详细的可以通过man ps查看 ps aux …

【ChatGPT】【sql】 按email统计续费成功和续费失败的数量

SELECT email,SUM(CASE WHEN renewal_status Success THEN 1 ELSE 0 END) as success_count,SUM(CASE WHEN renewal_status Failure THEN 1 ELSE 0 END) as failure_count FROM subscribers GROUP BY email;

基于ChatGPT3.5的自然语言转SQL平台

基于ChatGPT3.5的自然语言转SQL平台 在日常工作中经常使用Mybatis-plus或者jpa等方式写SQL,久而久之就手写SQL不熟练了 就会有以下想法! 再也不想手写SQL! 我要文本生成SQL! 我要自然语言生成SQL! 能生成SQL我为什么…