TASK-CUSTOMIZEDMASKED AUTOENCODERVIA MIXTURE OF CLUSTER-CONDITIONAL EXPERTS

TASK-CUSTOMIZEDMASKED AUTOENCODERVIA MIXTURE OF CLUSTER-CONDITIONAL EXPERTS

embedded/2024/11/15 4:02:53/

发表于：ICLR 2023 notable top 25%（相当于spotlight)
推荐指数: #paper/⭐⭐⭐
论文链接: Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts | OpenReview
poster链接：ICLR 2023 Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts Oral

问题背景：

在不同的数据集上，比如生物数据集和无机事物数据集，用同一个网络结构可能会出现负迁移

具体的例子：对于鸟和飞机用同一个网络结构可能不太合适
解决办法：MOE

MOE_8">前人的工作：tokenMOE

文章配图
但是这个工作会导致模型趋向于同一个专家的问题

MOCE的工作

MOCE的工作是用聚类中心作为门控机制
原始图片->预训练MAE-> $F\in\mathbb{R}^{d*n}$
可学习聚类中心： $C\in\mathbb{R}^{d*m}$
分配： $A=F^{T}C$
聚类后分布： $Q\in\mathbb{R}^{d*m}$
最终： $\max_{\boldsymbol{Q}}Tr\big(\boldsymbol{Q}^{T}\boldsymbol{A}\big)+\varepsilon H\big(\boldsymbol{Q}\big)s .t .\boldsymbol{Q}\mathbf{1}_{n}=\frac{1}{m}1_{m},\boldsymbol{Q}^{T}\mathbf{1}_{m}=\frac{1}{n}\mathbf{1}_{n},$
给定C,Q可以Sinkhorn-Knopp算法来解决
给定Q,C可以通过SGD来优化
文章配图
门控机制：
$G(\mathbf{x})=TopK(\sigma(W_g\cdot C_{[\mathbf{x}]}+\epsilon)),$

http://www.ppmy.cn/embedded/113491.html

相关文章

Day26_0.1基础学习MATLAB学习小技巧总结（26）——数据插值

Day26_0.1基础学习MATLAB学习小技巧总结（26）——数据插值

利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍，为了在这个过程中加深印象，也为了能够有所足迹，我会把自己的学习总结发在专栏中，以便学习交流。参考书目： 1、《MATLAB基础教程 (第三版) (薛山)》 2、《MATL…

阅读更多...

ODrive学习——添加485编码器支持

ODrive学习——添加485编码器支持

系列文章目录文章目录系列文章目录前言一、端口处理二、在Encoder中引入新的类型1.增加485类型2.增加串口的初始化操作3.数据处理总结前言尝试在ODrive中添加485型的编码器的支持一、端口处理计划使用PA2及PA3作为485通信的端口。这样首先要把外部温度传感器的I/O口给…

阅读更多...

JavaSE - 面向对象编程03

JavaSE - 面向对象编程03

01 多态 01_01 认识多态 01_02 多态的好处和缺点【1】好处：① 可以解耦合，扩展性更强，父类引用指向的子类对象可以随时切换，而后面的逻辑代码并不需要更改。 ② 使用父类引用可以作为方法的形参或返回类型来接收一切子类对象。…

阅读更多...

CTFHub技能树-信息泄露-HG泄漏

CTFHub技能树-信息泄露-HG泄漏

目录漏洞产生原因解题过程当开发人员使用 Mercurial 进行版本控制，对站点自动部署。如果配置不当,可能会将.hg 文件夹直接部署到线上环境。这就引起了 hg 泄露漏洞。漏洞产生原因 Mercurial(hg)是一种分布式版本控制系统，它与Git类似也可以用于管…

阅读更多...

微信小程序使用 ==== 粘性布局

微信小程序使用 ==== 粘性布局

目录 Chrome杀了个回马枪 position:sticky简介你可能不知道的position:sticky 深入理解粘性定位的计算规则粘性定位其他特征代码实现微信小程序在scroll-view中使用sticky Chrome杀了个回马枪 position:sticky早有耳闻也有所了解，后来，Chro…

阅读更多...

Redis 配置

Redis 配置

一、关系型数据库与非关系型数据库 1. 关系型数据库关系型数据库是一种结构化数据库，基于关系模型（二维表格模型），适合记录数据。通过 SQL（结构化查询语言）进行数据的检索和操作。主流的关系型数据库包括…

阅读更多...

力扣每日一题：1372.二叉树中的最长交错路径

力扣每日一题：1372.二叉树中的最长交错路径

题目给你一棵以 root 为根的二叉树，二叉树中的交错路径定义如下： 选择二叉树中任意节点和一个方向（左或者右）。如果前进方向为右，那么移动到当前节点的的右子节点，否则移动到它的左子节点。改变前进方…

阅读更多...

【LLM多模态】CogVideoX文生视频模型结构和训练过程

【LLM多模态】CogVideoX文生视频模型结构和训练过程

note 通过两阶段训练3D VAE，对视频进行压缩编码第一阶段：在较低分辨率和较少帧数的视频上进行训练，学习压缩和重建视频的基本能力第二阶段：在更长的视频上训练，提高模型处理长视频的能力，同时保持帧与帧之…

阅读更多...

最新文章