模型压缩中的四大核心技术 —— 量化、剪枝、知识蒸馏和二值化

news/2025/2/12 1:47:36/

一、量化 (Quantization)

量化的目标在于将原始以 32 位浮点数表示的模型参数和中间激活,转换为低精度(如 FP16、INT8、甚至更低位宽)的数值表示,从而在减少模型存储占用和内存带宽的同时,加速推理运算,特别适用于移动、嵌入式和边缘计算场景。

1.1 概念与目标

  • 基本思想
    将高精度数值离散化为低精度表示。例如,将 FP32 权重转换为 INT8,可降低内存需求约 4 倍,同时在支持低精度运算的硬件上加速计算。

  • 主要目标

    • 压缩存储:降低模型文件大小、显存/内存占用
    • 加速计算:低精度运算单元(如 INT8 运算)通常速度更快
    • 降低能耗:适用于资源受限设备

1.2 数学模型与公式

假设原始权重 x


http://www.ppmy.cn/news/1571296.html

相关文章

在Linux上部署Jenkins的详细指南

引言 在当今快速迭代的软件开发环境中,持续集成和持续交付(CI/CD)变得越来越重要。Jenkins作为一个开源自动化服务器,能够帮助开发者更高效地进行代码集成、测试和部署。本文将详细介绍如何在Linux系统上安装和配置Jenkins。 准…

无人机避障——基于ESDF地图的JPS算法前端路径规划

原来是用栅格地图的方式,0表示可通行区域,1表示不可通行区域,然后采用JPS算法做路径规划,从起点到终点规划出一条路径。但是目前我需要做的是将栅格地图更换为ESDF地图,那么JPS算法计算代价的部分是否需要进行变化。 …

2.3-2.9学习周报

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 摘要Abstract一、相关概念1.文本提取(DLE)2.以样本为中心的情境学习(SAIL)2.1问题公式化2.2文档级文本相似性2.3实体级文本相似性2.4布局相似…

基于 Nginx 的 CDN 基础实现

概览 本文是对基于Nginx的CDN网络的学习笔记,阅读的代码为:https://github.com/leandromoreira/cdn-up-and-running 其中,先确定CDN中的一些基础概念: Balancer:负载均衡,即请求数据的流量最开始打到Bal…

Windows 系统下使用 Ollama 离线部署 DeepSeek - R1 模型指南

引言 随着人工智能技术的飞速发展,各类大语言模型层出不穷。DeepSeek - R1 凭借其出色的语言理解和生成能力,受到了广泛关注。而 Ollama 作为一款便捷的模型管理和部署工具,能够帮助我们轻松地在本地环境中部署和使用模型。本文将详细介绍如…

Linux的0号进程、1号进程、2号进程

Linux的0号进程、1号进程、2号进程 一、0号进程:系统的“创世进程”二、1号进程:用户空间的“根进程”三、2号进程:内核线程的“管家”四、三者的关系与进程树五、查看这些进程六、总结 在 Linux 系统中,0号进程、1号进程和2号进程…

[Deepseek+Heygen+剪映]快速生产数字人讲解的视频内容

在当今这个视频内容爆炸的时代,如何快速、高效地生产高质量的视频内容成为了许多内容创作者的焦点。特别是对于需要大量讲解类视频的场景,例如产品介绍、知识科普、在线教育等,传统真人出镜的方式往往耗时耗力。 而 数字人 技术的出现&#…

LLM Note

PreNorm vs PostNorm Transformer Layer中有两处残连接,分别是网络输入 x \boldsymbol x x与SelfAttention层和MLP/FFN层的输出。 前标准化: 标准化在残连接add之前,即对SelfAttention/MLP层的输入进行标准化,将其输出再与输入相…