一个Transformer在尺度上适合多模态扩散的所有分布

news/2025/3/15 12:37:44/

文章目录

  • One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
    • 摘要
    • 本文方法
    • 实验结果

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

摘要

本文提出了一个统一的扩散框架(UniDiffuser)来拟合一个模型中与一组多模态数据相关的所有分布。
我们的关键观点是——边缘分布、条件分布和联合分布的学习扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模态可能是不同的。
受统一视图的启发,UniDiffuser同时学习所有分布,对原始扩散模型进行最小的修改-扰动所有模态的数据,而不是单一模态,输入不同模态的单个时间步长,预测所有模态的噪声,而不是单一模态.
UniDiffuser是由扩散模型的转换器参数化的,以处理不同模态的输入类型。
UniDiffuser在大规模成对的图像-文本数据上实现,可以通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像-文本对的生成,而不需要额外的开销。
特别是,UniDiffuser能够在所有任务中产生感知上真实的样本,其定量结果(例如FID和CLIP分数)不仅优于现有的通用模型,而且在代表性任务(例如文本到图像生成)中也可与定制模型(例如,Stable Diffusion和DALL·e2)相媲美。
代码地址

在这里插入图片描述

本文方法

在这里插入图片描述
与定制扩散器的比较。UniDiffuser在Ho等人的最小修改下同时拟合所有分布(2020)。特别是,通过适当地设置时间步长(或噪声水平),它退化为预定的扩散模型
形式上,假设我们有两个从分布q(x0, y0)中采样的数据模态。我们的目标是设计一个基于扩散的模型,能够捕获由q(x0, y0)决定的所有相关分布,即边际分布q(x0)和q(y0),条件分布q(x0|y0)和q(y0|x0),以及联合分布q(x0, y0)。
使用扩散模型学习分布等同于估计噪声上的条件期望。对边际分布q(x0)进行建模相当于估计注入到xt的噪声的条件期望,即E[λ x |xt]。同样,在对条件分布q(x0|y0)和联合分布q(x0, y0)进行建模时要估计的关键量分别是E[λ x |xt, y0]和E[λ x, λ |xt, yt]。
在这里插入图片描述
联合图像和文本
在这里插入图片描述
UniDiffuser对图像-文本数据的实现。(a)首先,对图像和文本进行隐空间编码。(b)其次,我们以图2所示的方式训练由变压器参数化的UniDiffuser 。

实验结果

在这里插入图片描述


http://www.ppmy.cn/news/822264.html

相关文章

Windows Server 配置(七)VPN服务器的安装

VPN服务器的安装 VPN服务器是双网卡或多网卡的配置,一块网卡连接内网,另一块连接外网,同时外网或远程的客户端可以通过建立VPN连接访问到内网资源。 两块网卡分别设置好地址,外网网卡的地址是否能做的,或者是在路由器…

python路径规划算法可视化_路径规划问题:DIJKSTRA算法 以及Python实现

一. DJKSTRA算法概述 我们可以将地图抽象为Graph的数据结构,然后利用Graph的广度优先遍历算法(Breadth-First Search, BFS)解决无权重的High-Level的地图级别的规划。但是实际应用场景中,地图中各个路径所代表的Graph的边的权重都是不同的,比…

计算机二级要学的函数有哪些,2019年计算机二级等级考试Excel函数公式汇总

1、求和函数: SUM =SUM ( A1:A5 , 5 ) 等于 60 2、条件求和函数:SUMIF = SUMIF ( A2 : A6 , “ 01 ” , F2 : F6 ) 3、求平均值函数: AVERAGE =AVERAGE(A1:A5, 5) 等于 10 4、 最大(小)值函数: MAX( MIN) = MAX(A1:A5) 等于 27 5、统计数值型数据个数函数: COUNT = COUNT …

c语言第七章指针答案,C语言指针练习+答案+讲解

《C语言指针练习+答案+讲解》由会员分享,可在线阅读,更多相关《C语言指针练习+答案+讲解(29页珍藏版)》请在人人文库网上搜索。 1、第七章 指针71 选择题1 若有说明:int a=2, *p=&a, *q=p;,则以下非法的赋值语句是(D)。A p=q; B *p=*q; C a=*q; D q=a;a是整型数,int *…

杭州最新公交线路一览(31-40)

31/K31市一医院-火车东站 上行站点:市一医院、众安桥、皮市巷口、潮鸣寺巷、宝善桥建国路口、莫衙营、公交总公司、闸弄口新村、汽 车东站、火车东站 下行站点:火车东站、汽车东站、闸弄口 新村、公交总公司、莫衙营、宝善桥建国路口、潮鸣寺巷、浙一医院、联桥、市一医院 首…

2021-03-24

计算机二级Excel公式整理 1、提取员工生日: 【 注:” ” 为小写 】 = MID( F3,7,4 )& ”年” & MID( F3,11,2 )& ”月” & MID&…

个人设想中的TCAX GUI生成的带python脚本代码的ASS字幕文件

这个是我自己设想的一种带Python脚本代码的ASS字幕文件,第27行那里的[Python]表示ass字幕文件中的Python脚本代码分区,这部分内容我是打算如果未来有空给TCAX做GUI的话,就在GUI上加入一个专门写Python脚本代码的分区,并且这个分区…

寒假集训D2.22.12.29

Day2 K31.选择器 1.为什么要用控制器 2.element选择器 K32.div的class命名 1.class选择器 K33.id选择器 1.id选择器 K34.通配选择器 1.*通配符/选择器 K35.选择器pro 1.群组选择器 1)原 2)现 2.包含选择器/后代选择器 …