TASK-CUSTOMIZEDMASKED AUTOENCODERVIA MIXTURE OF CLUSTER-CONDITIONAL EXPERTS

embedded/2024/9/22 15:18:22/

发表于:ICLR 2023 notable top 25%(相当于spotlight)
推荐指数: #paper/⭐⭐⭐
论文链接: Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts | OpenReview
poster链接:ICLR 2023 Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts Oral

问题背景:

在不同的数据集上,比如生物数据集和无机事物数据集,用同一个网络结构可能会出现负迁移

具体的例子:对于鸟和飞机用同一个网络结构可能不太合适
解决办法:MOE

MOE_8">前人的工作:tokenMOE

文章配图
但是这个工作会导致模型趋向于同一个专家的问题

MOCE的工作

MOCE的工作是用聚类中心作为门控机制
原始图片->预训练MAE-> F ∈ R d ∗ n F\in\mathbb{R}^{d*n} FRdn
可学习聚类中心: C ∈ R d ∗ m C\in\mathbb{R}^{d*m} CRdm
分配: A = F T C A=F^{T}C A=FTC
聚类后分布: Q ∈ R d ∗ m Q\in\mathbb{R}^{d*m} QRdm
最终: max ⁡ Q T r ( Q T A ) + ε H ( Q ) s . t . Q 1 n = 1 m 1 m , Q T 1 m = 1 n 1 n , \max_{\boldsymbol{Q}}Tr\big(\boldsymbol{Q}^{T}\boldsymbol{A}\big)+\varepsilon H\big(\boldsymbol{Q}\big)s .t .\boldsymbol{Q}\mathbf{1}_{n}=\frac{1}{m}1_{m},\boldsymbol{Q}^{T}\mathbf{1}_{m}=\frac{1}{n}\mathbf{1}_{n}, maxQTr(QTA)+εH(Q)s.t.Q1n=m11m,QT1m=n11n,
给定C,Q可以Sinkhorn-Knopp算法来解决
给定Q,C可以通过SGD来优化
文章配图
门控机制:
G ( x ) = T o p K ( σ ( W g ⋅ C [ x ] + ϵ ) ) , G(\mathbf{x})=TopK(\sigma(W_g\cdot C_{[\mathbf{x}]}+\epsilon)), G(x)=TopK(σ(WgC[x]+ϵ)),


http://www.ppmy.cn/embedded/113491.html

相关文章

Day26_0.1基础学习MATLAB学习小技巧总结(26)——数据插值

利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍,为了在这个过程中加深印象,也为了能够有所足迹,我会把自己的学习总结发在专栏中,以便学习交流。 参考书目: 1、《MATLAB基础教程 (第三版) (薛山)》 2、《MATL…

ODrive学习——添加485编码器支持

系列文章目录 文章目录 系列文章目录前言一、端口处理二、在Encoder中引入新的类型1.增加485类型2.增加串口的初始化操作3.数据处理 总结 前言 尝试在ODrive中添加485型的编码器的支持 一、端口处理 计划使用PA2及PA3作为485通信的端口。这样首先要把外部温度传感器的I/O口给…

JavaSE - 面向对象编程03

01 多态 01_01 认识多态 01_02 多态的好处和缺点 【1】好处:① 可以解耦合,扩展性更强,父类引用指向的子类对象可以随时切换,而后面的逻辑代码并不需要更改。 ② 使用父类引用可以作为方法的形参或返回类型来接收一切子类对象。…

CTFHub技能树-信息泄露-HG泄漏

目录 漏洞产生原因 解题过程 当开发人员使用 Mercurial 进行版本控制,对站点自动部署。如果配置不当,可能会将.hg 文件夹直接部署到线上环境。这就引起了 hg 泄露漏洞。 漏洞产生原因 Mercurial(hg)是一种分布式版本控制系统,它与Git类似也可以用于管…

微信小程序使用 ==== 粘性布局

目录 Chrome杀了个回马枪 position:sticky简介 你可能不知道的position:sticky 深入理解粘性定位的计算规则 粘性定位其他特征 代码实现 微信小程序在scroll-view中使用sticky Chrome杀了个回马枪 position:sticky早有耳闻也有所了解,后来,Chro…

Redis 配置

一、关系型数据库与非关系型数据库 1. 关系型数据库 关系型数据库是一种结构化数据库,基于关系模型(二维表格模型),适合记录数据。通过 SQL(结构化查询语言)进行数据的检索和操作。主流的关系型数据库包括…

力扣每日一题:1372.二叉树中的最长交错路径

题目 给你一棵以 root 为根的二叉树,二叉树中的交错路径定义如下: 选择二叉树中 任意 节点和一个方向(左或者右)。如果前进方向为右,那么移动到当前节点的的右子节点,否则移动到它的左子节点。改变前进方…

【LLM多模态】CogVideoX文生视频模型结构和训练过程

note 通过两阶段训练3D VAE,对视频进行压缩编码 第一阶段:在较低分辨率和较少帧数的视频上进行训练,学习压缩和重建视频的基本能力第二阶段:在更长的视频上训练,提高模型处理长视频的能力,同时保持帧与帧之…