结构设计
- MoE 架构:将模型拆分为多个 “专家” 网络,由门控网络根据输入特征选择 Top-K 个相关专家进行计算,实现 “稀疏计算”。
- Dense 架构:采用传统 Transformer 架构,包含编码器 - 解码器层等基本结构,每次计算激活的参数量就是整个模型的全部参数。
计算效率
- MoE 架构:仅激活部分专家,极大减少了计算量,降低算力消耗,在扩大模型规模时可保持计算成本相对固定。
- Dense 架构:所有参数都参与计算,计算量随模型规模增大呈指数级增长,在相同参数量下计算成本较高。
模型性能
- MoE 架构:门控网络可选择合适专家处理不同任务,泛化能力强,在多任务学习场景表现出色,但在小规模数据集上易过拟合,微调困难。
- Dense 架构:通过增加模型规模可直接提升输出质量,性能表现可靠,但在处理复杂多任务时灵活性不如 MoE。
训练难度
资源需求
应用场景