AI-多模态-文本->图像-2021:DALL-E模型【OpenAI】

news/2024/12/3 8:36:05/

Dall-e:从拟物文字到图片的创造

人类不断地从五种感官接收和整合信息,通过视觉、听觉、触觉、嗅觉和味觉等生物信息来理解文字和图片。然而文字和图片属于符号,Dall-e模型在理解符号的含义时并不能通过生物信息的传递。通过将对自然语言的理解与生成相应视觉表现的能力结合起来——换句话说,通过“读”和“看”的能力——DALL-E有力地展示了多模态AI的潜力。

DALL-E生成的图像未曾存在于世界上或任何人的想象中。它们不是对互联网上现有图像进行操作的结果——它们是新颖的效果图,有时因其聪明和独创性而令人惊叹。这些图像是DALL-E的人类创造者在很多情况下没有预料到的,也不可能预料到的。

功能一,创造拟人的器具

它不仅能够准确执行,而且能进行创造,举个例子(其结果的默认排序是越靠前越接近文本描述):

功能二,Dall-E能够很聪明地捕捉到每个事物的特性,并且合理地组织在了一起。

比如,“一个用长得像奇美拉的乌龟做的长颈鹿”

功能三,根据文本自动渲染真实场景图片,其仿真程度与真实照片十分接近。

举例,“一个写着open ai的广告牌”

功能四,根据文本指令改变和转换现有图片风格。

比如,“把这张照片里的猫转换成手绘草图”

不同于GAN(生成式对抗网络)的一点是,虽然GAN能够替换视频里的人脸,但其仅仅限制于人脸的范畴,而Dalle是将概念和概念之间做了关联,这在以往也是从未被实现过的。

应用前景设想

以服装设计为例,达利具备了细节属性操控能力,这一点是GAN(生成式对抗网络)所缺乏的能力,在模特图生成上,具备完全自动化属性。

再看室内设计,一个带有拱门和意大利元素且带壁炉的客厅,这样的要求描述不仅符合甲方的思路,而且在满足要求前提下,给出了非常多的合理布局设计。假如室内设计师已经穷尽了创意,用达利来寻找灵感也未尝不可。

对于不同物体之间的合理结合,在启发式设计上Dall-e也可以大开脑洞,将不同物体合理结合,帮助创意突破一般认知。

DALL-E的意义

DALL·E不是一个架空的作品,Openai在去年发布了GPT-3和Image GPT两个模型,各自分别能完成多种类的文本任务以及补全图像中的空缺部分。

DALL·E的模型在技术上来讲和GPT-3应该是大同小异的,同样采用了Transformer模型。它预示着一种被称为“多模态AI”的新型AI范式的到来,这种范式似乎注定了人工智能的未来。多模态AI系统能够在多种信息模态之间进行解释、综合和翻译——在DALL-E的例子中,是语言和图像。毫无疑问,DALL-E虽然并不是第一个多模态AI的例子,但它是迄今为止最有创造能力的。

面对无限的可能,我们只需充满期待。

本期内容来自品览上期「AI论技」直播。

【AI论技】系列直播是品览致力于为AI行业从业者打造的免费线上分享课,目前已经成功进行了6期,内容涵盖了目标检测模型、文本检测模型、3D视觉、目标跟踪、AI图像修复等业界经典模型教学,欢迎前往官网扫码加入品览AI交流群,免费看「AI论技」系列直播。

读完 DALL-E 论文,我们发现大型数据集也有平替版_HyperAI超神经的博客-CSDN博客

OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作


http://www.ppmy.cn/news/252279.html

相关文章

用AI智能(DALL.E2)搞一个Logo和绘制坤坤的脚

浅谈ChatGPT和DALL.E2 ChatGPT 最近有个叫chatgpt的玩意老火了,不仅在科技圈刮起一阵骚乱,同时在金融圈也闹的沸沸扬扬,很多板块个股纷纷水涨船高 chatgpt是美国人工智能研究所实验室OpenAi开发的一种全新的聊天机器人模型,当然我…

AI绘画提示词创作指南:DALL·E 2、Midjourney和 Stable Diffusion最全大比拼

💡 作者:韩信子ShowMeAI 📘 深度学习实战系列:https://www.showmeai.tech/tutorials/42 📘 自然语言处理实战系列:https://www.showmeai.tech/tutorials/45 📘 计算机视觉实战系列:h…

Stable Diffusion和DALL.E 2哪个更好

我无法确定哪个更好,因为它们的功能和用途不同。Stable Diffusion是一种深度学习技术,用于模拟普通微分方程,可用于处理复杂的统计问题和数学模型。而DALLE 2则是一个语言模型,专门用于处理自然语言处理任务。

我跪了!OpenAI发布DALL·E 2!AI化身「现实主义画师」,有详细论文!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 作者 | Ailleurs、钱磊 转载自:AI科技评论 | 编辑:陈彩娴 大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALLE 吗? 当时,DALLE 的…

DALL·E:用文本生成图像

DALLE是OpenAI公司发布的一个用文本生成图像的模型,它是GPT-3的一个版本,经过文本-图像数据集训练,具有120亿参数,可以从文本描述生成图像。DALLE能够创建拟人化的动物和物体,以合理的方式组合不相关的概念&#xff0c…

DALL·E:OpenAI第一代文本生成图片模型

1 简介 本文根据openAI 2021年2月的《Zero-Shot Text-to-Image Generation》翻译总结的。原文详见https://arxiv.org/pdf/2102.12092v1.pdf。 DALLE : 论文中没看到这个名字,可能是后起的吧。 DALLE有120亿参数,基于自回归transformer,在2…

读完 DALL-E 论文,我们发现大型数据集也有平替版

内容提要: OpenAI 团队的新模型 DALL-E 刷屏,这一新型神经网络,使用 120 亿参数,经过「特训」,任意描述性文字输入后,都可以生成相应图像。如今,团队将这一项目的论文和部分模块代码开源&#x…

【多模态】DALL·E 2 笔记

DALLE2 论文题目:《Hierarchical Text-Conditional Image Generation with CLIP Latents》(使用CLIP特征的 层次文本条件图像生成) DALLE 2 模型结构 首先训练一个 CLIP 模型,进行图片-文本对的对比学习,训练得到一…