[论文笔记] LLM模型剪枝

news/2025/1/16 3:33:23/

Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models

        LLaMA2在剪枝时，跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer，跳过attention layer的影响会更小。

        跳过attention layer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～1.8pp。

        跳过ffn：7B/13B从100%参数剪枝到66%，平均指标下降了12.2～15.1pp。

        跳过full later：7B/13B从100%参数剪枝到66%，平均指标下降了12.2～13pp。

        LLaMA2在剪枝时，是否跳过最后一层的ffn/attention layer，影响不大。

The Unreasonable Ineffectiveness of the Deeper Layers

        剪枝崩溃临界点：不同模型的剪枝崩溃临界点不同，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%。

http://www.ppmy.cn/news/1520649.html

iOS 收集打印日志

可以将要在Xcode 控制台打印的日志写在沙盒，最后导出分享，进行问题分析。正式版本不建议使用，避免增加用户内存。配合解决顽固 Bug 可以通过该方法收集打印日志 .h头文件 interface LogManager : NSObject(FSLogManager *)shareInstance; -…

冲刺蓝桥杯第三章字符串

ASCII码值、字母大小写转换、‘0’~‘9’ //数字转字符：A(65)a(97)0(48) char A=char(65); char a=char(97); char c

终极解决 docker 拉取镜像失败的问题，其他类似场景也适用

国内的网络环境，想必大家都是知道的，虽说技术无罪，但奈何政策不允许啊，以下内容我在 CSDN 上发不了，请大家移步我的个人公 * 号：新质程序猿，查看更多原创内容，这里只介绍相关背景和需…

字节6面，面爆炸了

字节跳动昨晚在牛客网刷到一篇"深夜 EMO 贴"，又是讲字节 N 面挂的。原本的 4HR 面都过了，结果 Offer 审批的时候，被 HR 通知加一轮交叉面，一共 6 面。加面时，两个面试官全程黑脸，最后两道算法…

软考 -- 软件设计师 -- 二轮复习(2) -- 程序设计语言(持续更新)

软考 – 软件设计师 – 二轮复习(2) – 程序设计语言(持续更新) 文章目录软考 -- 软件设计师 -- 二轮复习(2) -- 程序设计语言(持续更新)前言一、编译、解释、基本控制结构二、数据类型三、变量和常量、逻辑表达式(短路：&&、||、！)四、传值调用…

【qt】多线程实现倒计时

1.界面设计设置右边的intvalue从10开始倒计时 2.新建Thread类新建Thread类，使其继承QThread类，多态重写run函数，相当于线程执行函数 3.重写run函数重写run函数，让另一个进程每隔1s发出一个信号，主线程使用conne…

Ps：渲染视频

Ps菜单：文件/导出/渲染视频 File/Export/Render Video 在 Photoshop 中创建视频或动画内容后，可以通过渲染视频 Render Video命令对其进行优化、渲染和导出。 “渲染视频”对话框中提供了两种编码器：Adobe Media Encoder 及 Photoshop 图像序…

【Postgresql】地理空间数据的存储与查询，查询效率优化策略，数据类型与查询速度的影响

注：使用postgresql数据库会用到PostGIS 扩展。一、安装PostGIS 扩展在 PostgreSQL 中遇到错误 “type geography does not exist” 通常意味着你的 PostgreSQL 数据库还没有安装 PostGIS 扩展，或者 PostGIS 扩展没有被正确地安装在你的数据库中。geography 类型是 PostGI…

[论文笔记] LLM模型剪枝

相关文章