【笔记】Mixture-of-Depths（MoD），改变了以往Transformer计算模式

devtools/2024/9/25 4:28:03/

Mixture-of-Depths（MoD）

MOD 通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。

在的大模型训练和推理中，有很多计算是没必要的。比如预测下一个句子很难，但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源，那么后者明显浪费了。

链接

它在输入序列中的特定位置动态分配FLOPs（运算次数或计算资源），优化不同层次的模型深度中的分配。

通过限制给定层的自注意力和MLP计算的token数量，迫使神经网络学会主要关注真正重要的信息。

http://www.ppmy.cn/devtools/23691.html

IDEA代码重构

重构重构的目的： 提高代码的可读性、可维护性、可扩展性和性能。重命名元素重命名类当我们进行重命名操作的时候可以看到第六行存在一个R(rename)，点击后就会弹出所偶有引用，这样可以避免我们在修改后存在遗漏引用处未修改。我们可以通过…

c++ new delete 相关应用——申请连续空间不允许部分释放

new delete 详解实验1 int **all_a new int* [2]; // 申请了一片空间足够存储两个int类型指针。// 返回对象是指向空间头的指针，因此是int**int* a new int [3];//申请了足够存储3个int 的空间，返回空间开始位置的指针 int* b new int [3];//申请了…

【R语言】热力图

热力图是一种可视化数据的方法，通常用于显示矩阵或网格数据的模式和趋势。它的主要特点是使用颜色来表示数据的数值大小，从而让观察者可以直观地理解数据的分布情况。在一个热力图中，数据被组织成一个二维的矩阵，每个单元格代表一…

【Transformer原理解析】

Transformer是一种基于自注意力机制（Self-Attention Mechanism）的深度学习模型，它在自然语言处理（NLP）领域取得了显著的成就，特别是在机器翻译任务中。以下是Transformer原理的简要介绍以及使用PyTorch实现…

DBA-现在应该刚刚入门吧

说来话长在2023年以前，我的DBA生涯都是“孤独的”。成长路径除了毕业前的实习期有人带，后续几乎都是靠自学。如何自学，看视频、看文档、网上查阅资料、项目实战。可能是学疏才浅 ，一直都是在中小公司混，在中小公司通…

DS进阶：二叉搜索树

目录一、概念二、搜索二叉树相关操作 1.查找 2.插入 3.删除（难点） 第一类： 第二类： 第三类： 三、性能分析一、概念二叉搜索树，又称二叉排序树，它或者是一颗空树，也是具…

Excel文件解析--超大Excel文件读写

使用POI写入当我们想在Excel文件中写入100w条数据时，我们用普通的XSSFWorkbook对象写入时会发现，只有在将100w条数据全部加载入内存后才会用write()方法统一写入，这样效率很低，所以我们引入了SXSSFWorkbook进行超大Excel文件的读…

1，环境变量将 python.exe 的路径添加到环境变量中。 2，创建 py 文件，调用 ffmpeg import subprocess import time #ffmpeg 录屏：5 秒 ffmpeger=subprocess.Popen(ffmpeg -thread_queue_size 16 -f gdigrab -i desktop -s 1280x720 -vcodec libx264 -y test2.mp4, she…