发表于:ICLR 2023 notable top 25%(相当于spotlight)
推荐指数: #paper/⭐⭐⭐
论文链接: Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts | OpenReview
poster链接:ICLR 2023 Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts Oral
问题背景:
在不同的数据集上,比如生物数据集和无机事物数据集,用同一个网络结构可能会出现负迁移
具体的例子:对于鸟和飞机用同一个网络结构可能不太合适
解决办法:MOE
MOE_8">前人的工作:tokenMOE
但是这个工作会导致模型趋向于同一个专家的问题
MOCE的工作
MOCE的工作是用聚类中心作为门控机制
原始图片->预训练MAE-> F ∈ R d ∗ n F\in\mathbb{R}^{d*n} F∈Rd∗n
可学习聚类中心: C ∈ R d ∗ m C\in\mathbb{R}^{d*m} C∈Rd∗m
分配: A = F T C A=F^{T}C A=FTC
聚类后分布: Q ∈ R d ∗ m Q\in\mathbb{R}^{d*m} Q∈Rd∗m
最终: max Q T r ( Q T A ) + ε H ( Q ) s . t . Q 1 n = 1 m 1 m , Q T 1 m = 1 n 1 n , \max_{\boldsymbol{Q}}Tr\big(\boldsymbol{Q}^{T}\boldsymbol{A}\big)+\varepsilon H\big(\boldsymbol{Q}\big)s .t .\boldsymbol{Q}\mathbf{1}_{n}=\frac{1}{m}1_{m},\boldsymbol{Q}^{T}\mathbf{1}_{m}=\frac{1}{n}\mathbf{1}_{n}, maxQTr(QTA)+εH(Q)s.t.Q1n=m11m,QT1m=n11n,
给定C,Q可以Sinkhorn-Knopp算法来解决
给定Q,C可以通过SGD来优化
门控机制:
G ( x ) = T o p K ( σ ( W g ⋅ C [ x ] + ϵ ) ) , G(\mathbf{x})=TopK(\sigma(W_g\cdot C_{[\mathbf{x}]}+\epsilon)), G(x)=TopK(σ(Wg⋅C[x]+ϵ)),