模型压缩中的四大核心技术 —— 量化、剪枝、知识蒸馏和二值化

news/2025/2/12 1:47:36/

一、量化 (Quantization)

量化的目标在于将原始以 32 位浮点数表示的模型参数和中间激活，转换为低精度（如 FP16、INT8、甚至更低位宽）的数值表示，从而在减少模型存储占用和内存带宽的同时，加速推理运算，特别适用于移动、嵌入式和边缘计算场景。

1.1 概念与目标

基本思想
将高精度数值离散化为低精度表示。例如，将 FP32 权重转换为 INT8，可降低内存需求约 4 倍，同时在支持低精度运算的硬件上加速计算。
主要目标
- 压缩存储：降低模型文件大小、显存/内存占用
- 加速计算：低精度运算单元（如 INT8 运算）通常速度更快
- 降低能耗：适用于资源受限设备

1.2 数学模型与公式

假设原始权重

http://www.ppmy.cn/news/1571296.html

在Linux上部署Jenkins的详细指南

引言在当今快速迭代的软件开发环境中，持续集成和持续交付（CI/CD）变得越来越重要。Jenkins作为一个开源自动化服务器，能够帮助开发者更高效地进行代码集成、测试和部署。本文将详细介绍如何在Linux系统上安装和配置Jenkins。准…

无人机避障——基于ESDF地图的JPS算法前端路径规划

原来是用栅格地图的方式，0表示可通行区域，1表示不可通行区域，然后采用JPS算法做路径规划，从起点到终点规划出一条路径。但是目前我需要做的是将栅格地图更换为ESDF地图，那么JPS算法计算代价的部分是否需要进行变化。 …

2.3-2.9学习周报

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录摘要Abstract一、相关概念1.文本提取(DLE)2.以样本为中心的情境学习（SAIL）2.1问题公式化2.2文档级文本相似性2.3实体级文本相似性2.4布局相似…

基于 Nginx 的 CDN 基础实现

概览本文是对基于Nginx的CDN网络的学习笔记，阅读的代码为：https://github.com/leandromoreira/cdn-up-and-running 其中，先确定CDN中的一些基础概念： Balancer：负载均衡，即请求数据的流量最开始打到Bal…

Windows 系统下使用 Ollama 离线部署 DeepSeek - R1 模型指南

引言随着人工智能技术的飞速发展，各类大语言模型层出不穷。DeepSeek - R1 凭借其出色的语言理解和生成能力，受到了广泛关注。而 Ollama 作为一款便捷的模型管理和部署工具，能够帮助我们轻松地在本地环境中部署和使用模型。本文将详细介绍如…

Linux的0号进程、1号进程、2号进程

Linux的0号进程、1号进程、2号进程一、0号进程：系统的“创世进程”二、1号进程：用户空间的“根进程”三、2号进程：内核线程的“管家”四、三者的关系与进程树五、查看这些进程六、总结在 Linux 系统中，0号进程、1号进程和2号进程…

[Deepseek+Heygen+剪映]快速生产数字人讲解的视频内容

在当今这个视频内容爆炸的时代，如何快速、高效地生产高质量的视频内容成为了许多内容创作者的焦点。特别是对于需要大量讲解类视频的场景，例如产品介绍、知识科普、在线教育等，传统真人出镜的方式往往耗时耗力。而数字人技术的出现&#…

LLM Note

PreNorm vs PostNorm Transformer Layer中有两处残连接，分别是网络输入 x \boldsymbol x x与SelfAttention层和MLP/FFN层的输出。前标准化： 标准化在残连接add之前，即对SelfAttention/MLP层的输入进行标准化，将其输出再与输入相…