阿里系文生图(PAI+通义)

news/2024/10/28 18:29:49/

PAI-Diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋 - 知乎作者:汪诚愚、段忠杰、朱祥茹、黄俊导读近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,AI生成内容(AI Generated Content,AIGC)的应用呈现出爆发性增长趋势。其中,文图…https://zhuanlan.zhihu.com/p/590020134EasyNLP中文文图生成模型带你秒变艺术家 - 知乎作者:汪诚愚、刘婷婷导读宣物莫大于言,存形莫善于画。 --【晋】陆机 多模态数据(文本、图像、声音)是人类认识、理解和表达世间万物的重要载体。近年来,多模态数据的爆炸性增长促进了内容互联网的繁荣,也带来…https://zhuanlan.zhihu.com/p/547063102ModelScope 魔搭社区https://modelscope.cn/studios/damo/ai_artist/summaryModelScope 魔搭社区https://modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summaryPAI Diffusion (Food) - a Hugging Face Space by alibaba-paiDiscover amazing ML apps made by the communityicon-default.png?t=N4P3https://huggingface.co/spaces/alibaba-pai/pai-diffusion-artist-xlarge-zh当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界 - 知乎作者:朱祥茹、段忠杰、汪诚愚、黄俊导读用户生成内容(User Generated Content,UGC)是互联网上多模态内容的重要组成部分,UGC数据级的不断增长促进了各大多模态内容平台的繁荣。在海量多模态数据和深度学习大模…https://zhuanlan.zhihu.com/p/581870071对比较英文文生图,对于我们而言,其实要更关注中文文生图,目前已知的太乙,altdiffusion这两个效果很差,非开源版本,百度的文心一格,阿里系的通义,通义后续应该会开源的,其次阿里系内部还有PAI平台也在做文生图,基于easynlp,基本都是开源的。

1.PAI-Diffusion

Text encoder:使用easynlp中文clip,clilp这块阿里系内部还有通义的chineseclip,效果也很好,这里用的是easynlp自己训得跨模态对齐模型的text transformer作为text encoder.

Latent Difuusion:同sd

Auto Endoer:同sd

SR:ESRGAN

使用Wukong数据集中的2千万中文图文数据对对latent diffusion mode部分进行了20天的预训练,并在多个下游任务上微调,参数量在1B左右。

2.vqvae

2.ARTIST

ARTIST模型的构建基于Transformer模型 ,将文图生成任务分为两个阶段进行,第一阶段是通过VQGAN模型对图像进行矢量量化,即对于输入的图像,通过编码器将图像编码为定长的离散序列,解码阶段是以离散序列作为输入,输出重构图。第二阶段是将文本序列和编码后的图像序列作为输入,利用GPT模型学习以文本序列为条件的图像序列生成。为了增强模型先验,我们设计了一个Word Lattice Fusion Layer,将知识图谱中的的实体知识引入模型,辅助图像中对应实体的生成,从而使得生成的图像的实体信息更加精准。

3.通义

整体参数50B

4.评测

 


http://www.ppmy.cn/news/97782.html

相关文章

nosql

Nosql是什么意思? not only sql,泛指所有非关系型数据库 NoSQL 数据库代表:HBase、Cassandra、MongoDB、Redis。 NoSQL 数据库有什么优势? NoSQL 数据库非常适合许多现代应用程序,例如移动、Web 和游戏等应用程序&…

js数据类型和六种运算结果为false的情况

数据类型 number:数字(整数、小数、NaN(Not a Number)) string:字符串、单双引皆可 boolean:布尔。true、false null:对象为空 undefined:当声明的变量初始化时,该变量的默认值…

购买两块巧克力-第105场力扣夜喵双周赛-java双百方案

一、题目描述 给你一个整数数组 prices ,它表示一个商店里若干巧克力的价格。同时给你一个整数 money ,表示你一开始拥有的钱数。 你必须购买 恰好 两块巧克力,而且剩余的钱数必须是 非负数 。同时你想最小化购买两块巧克力的总花费。 请你…

风辞远的科技茶屋:可怖的AI

大家好,我是脑极体的风辞远。一直以来我们都在写大块文章,很少有机会跟大家聊天。时间长了,总觉得这种方式有一点冷漠感,不够轻松,加上往往每篇文章只聚焦一个话题,而我们产能有限,就会有很多值…

如何构建一个安全的系统

对于一个系统,特别是开放给互联网用户使用的系统来讲,系统的安全性是重要问题。一个系统,如果系统架构差一点儿,最多开发效率低;代码写得差一点儿,最多系统运行速度慢,但是如果系统安全有问题&a…

word解决文字与公式mathtype不对齐

修改字体和段落里面的这两个。

数据结构与算法面试题

(1) 红黑树的了解(平衡树,二叉搜索树),使用 场景 把数据结构上几种树集中的讨论一下: 1.AVLtree 定义:最先发明的自平衡二叉查找树。在AVL树中任何节点的两个子树的高度最大差别为一…

使用curl命令传输数据

文章目录 一、curl命令二、举例和注意事项Reference 一、curl命令 curl是传输数据的命令行工具,可以通过命令行发送HTTP请求和接收HTTP响应。它的名字是“client for URLs”,意为URL的客户端,表示该工具主要用于处理URL相关的任务。curl可以…