[论文笔记] LLM模型剪枝

news/2025/1/16 3:33:23/

Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models

        LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。

        跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。

        跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。

        跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。

        LLaMA2在剪枝时,是否跳过最后一层的ffn/attention layer,影响不大。

The Unreasonable Ineffectiveness of the Deeper Layers

        剪枝崩溃临界点:不同模型的剪枝崩溃临界点不同,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%。

      


http://www.ppmy.cn/news/1520649.html

相关文章

iOS 收集打印日志

可以将要在Xcode 控制台打印的日志写在沙盒,最后导出分享,进行问题分析。 正式版本不建议使用,避免增加用户内存。配合解决顽固 Bug 可以通过该方法收集打印日志 .h头文件 interface LogManager : NSObject(FSLogManager *)shareInstance; -…

冲刺蓝桥杯第三章字符串

ASCII码值、字母大小写转换、‘0’~‘9’ //数字转字符:A(65)a(97)0(48) char A=char(65); char a=char(97); char c

终极解决 docker 拉取镜像失败的问题,其他类似场景也适用

国内的网络环境,想必大家都是知道的,虽说技术无罪,但奈何政策不允许啊,以下内容我在 CSDN 上发不了,请大家移步我的个人公 * 号:新质程序猿,查看更多原创内容,这里只介绍相关背景和需…

字节6面,面爆炸了

字节跳动 昨晚在牛客网刷到一篇"深夜 EMO 贴",又是讲字节 N 面挂的。 原本的 4HR 面都过了,结果 Offer 审批的时候,被 HR 通知加一轮交叉面,一共 6 面。 加面时,两个面试官全程黑脸,最后两道算法…

软考 -- 软件设计师 -- 二轮复习(2) -- 程序设计语言(持续更新)

软考 – 软件设计师 – 二轮复习(2) – 程序设计语言(持续更新) 文章目录 软考 -- 软件设计师 -- 二轮复习(2) -- 程序设计语言(持续更新)前言一、编译、解释、基本控制结构二、数据类型三、变量和常量、逻辑表达式(短路:&&、||、!)四、传值调用…

【qt】多线程实现倒计时

1.界面设计 设置右边的intvalue从10开始倒计时 2.新建Thread类 新建Thread类,使其继承QThread类,多态重写run函数,相当于线程执行函数 3.重写run函数 重写run函数,让另一个进程每隔1s发出一个信号,主线程使用conne…

Ps:渲染视频

Ps菜单:文件/导出/渲染视频 File/Export/Render Video 在 Photoshop 中创建视频或动画内容后,可以通过渲染视频 Render Video命令对其进行优化、渲染和导出。 “渲染视频”对话框中提供了两种编码器:Adobe Media Encoder 及 Photoshop 图像序…

【Postgresql】地理空间数据的存储与查询,查询效率优化策略,数据类型与查询速度的影响

注:使用postgresql数据库会用到PostGIS 扩展。 一、安装PostGIS 扩展 在 PostgreSQL 中遇到错误 “type geography does not exist” 通常意味着你的 PostgreSQL 数据库还没有安装 PostGIS 扩展,或者 PostGIS 扩展没有被正确地安装在你的数据库中。geography 类型是 PostGI…