目录 Mixture-of-Depths(MoD) Mixture-of-Depths(MoD) MOD 通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高训练效率和推理速度。 在的大模型训练和推理中,有很多计算是没必要的。比如预测下一个句子很难,但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源,那么后者明显浪费了。 链接 它在输入序列中的特定位置动态分配FLOPs(运算次数或计算资源),优化不同层次的模型深度中的分配。 通过限制给定层的自注意力和MLP计算的token数量,迫使神经网络学会主要关注真正重要的信息。