大型语言模型高效推理综述

server/2024/9/23 3:19:45/

图片

论文地址:2404.14294.pdf (arxiv.org)

大型语言模型(LLMs)由于在各种任务中的卓越表现而受到广泛关注。然而,LLM推理的大量计算和内存需求给资源受限的部署场景带来了挑战。该领域的努力已经朝着开发旨在提高LLM推理效率的技术方向发展。本文提供了对现有文献关于高效LLM推理的全面综述。我们首先分析了LLM推理效率低下的主要原因,即模型规模大、注意力操作的二次复杂度和自回归解码方法。接着,我们介绍了一个全面的分类法,将当前文献按数据级、模型级和系统级优化进行组织。此外,本文还包括了在关键子领域内代表性方法的比较实验,以提供定量洞见。最后,我们提供了一些知识总结并讨论未来的研究方向。

近年来,大型语言模型(LLMs)已经从学术界和工业界获得了大量关注。LLMs领域经历了显著的增长和重大成就。众多开源的LLMs已经出现,包括GPT系列(GPT-1 [1],GPT-2 [2],和GPT-3 [3]),OPT [4],LLaMA系列(LLaMA [5],LLaMA 2 [5],百川2 [6],Vicuna [7],长聊 [8]),BLOOM [9],FALCON [10],GLM [11],和Mistral [12],这些模型被用于学术研究和商业目的。LLMs的成功源于它们在处理各种任务(如神经语言理解(NLU),神经语言生成(NLG),推理 [13],[14] 和代码生成 [15])中的强大能力,从而使得如ChatGPT、Copilot和Bing等应用产生了重大影响。人们日益相信 [16],LLMs的崛起和成就标志着人类向人工通用智能(AGI)的重大步伐。然而,LLMs的部署并不总是顺利进行。如图1所示,LLMs在推理过程中通常需要更高的计算成本、内存访问成本和内存使用率(我们将在第2.3节分析根本原因),这降低了资源受限场景中的效率指标(例如,延迟、吞吐量、能耗和存储)。这为LLMs在边缘和云场景中的应用带来了挑战。例如,巨大的存储需求使得在个人笔记本电脑上部署一个700亿参数的模型用于开发辅助任务变得不切实际。此外,如果LLMs被用于每一个搜索引擎请求,低吞吐量将导致显著的成本,从而大幅降低搜索引擎的利润。

幸运的是,已经提出了大量技术以实现LLMs的高效推理。为了全面理解现有研究并激发进一步的研究,本综述采用了层次分类和系统总结的方法来描述高效LLM推理的当前景观。具体来说,我们将相关研究分为三个层次:数据级优化、模型级优化和系统级优化(详见第3节)。此外,我们对代表性方法进行了实验分析。目前,已经进行了几项综述 [17],[18],[19],[20],[21],[22],主要关注LLMs效率的不同方面,但仍提供了进一步改进的机会。朱等人 [17],朴等人 [18] 和王等人 [19] 关注于模型级优化中的模型压缩技术。丁等人 [20] 聚焦于考虑数据和模型架构的效率研究。苗等人 [21] 从机器学习系统(MLSys)研究的角度探讨高效LLM推理。与之相比,我们的综述提供了更全面的研究范围,涵盖了数据级、模型级和系统级的优化,并包括了最新的进展。尽管万等人 [22] 和徐等人 [23] 也提供了高效LLM研究的全面综述,我们的工作通过结合比较实验,并根据在几个关键子领域如模型量化和服务系统的实验分析提供实用的见解和建议,进一步扩展了这些工作。这些综述的比较总结在表1中。

本综述的其余部分安排如下:第2节介绍LLMs的基本概念和知识,并详细分析了LLMs推理过程中的效率瓶颈。第3节展示我们的分类法。第4节至第6节分别介绍和讨论在三个不同层次上的效率优化研究。第7节为几个关键应用场景提供更广泛的讨论。第8节总结了本综述提供的关键贡献。

图片

在上述讨论中,我们确定了三个关键因素(即计算成本、内存访问成本和内存使用),这些因素在LLM推理过程中显著影响效率,并进一步分析了三个根本原因(即模型大小、注意力操作和解码方法)。已经做出了许多努力,从不同的角度优化推理效率。通过仔细回顾和总结这些研究,我们将它们分类为三个层次,即数据级优化、模型级优化和系统级优化(如图4所示):

  • 数据级优化指的是通过优化输入提示(即输入压缩)或更好地组织输出内容(即输出组织)来提高效率。这种优化线通常不会改变原始模型,因此无需昂贵的模型训练成本(注意,辅助模型可能需要少量训练,但与原始LLMs的训练成本相比,这种成本可以忽略不计)。

  • 模型级优化指的是在推理过程中设计高效的模型结构(即高效结构设计)或压缩预训练模型(即模型压缩)以提高其效率。这种优化线(1)通常需要昂贵的预训练或较少量的微调成本以保持或恢复模型能力,并且(2)通常在模型性能上是有损的。

  • 系统级优化指的是优化推理引擎或服务系统。这种优化线(1)不涉及昂贵的模型训练,并且(2)通常在模型性能上是无损的。另外,我们在第6.3节简要介绍了硬件加速器设计。


http://www.ppmy.cn/server/13923.html

相关文章

从C到C++

1、结构体内存对齐 在vs里面,对齐数为8,a占一个字节,在0这个位置存放,1到7这些位置为空,都是0;b从8这个位置存放,double占8个字节,所有8到15都是b;c从15位置存放&#xf…

C++的初步知识——命名空间,缺省参数,重载函数

C 首先写一段代码&#xff1a; #include <stdio.h>int main() {printf("Hello world\n");return 0; }这段C语言代码在cpp文件中仍可运行。我们了解C是兼容C语言的&#xff0c;C的关键字中就包含了C语言的关键字和自身的关键字。关于关键字&#xff0c;我们简…

Linux中Ctrl+C和Ctrl+Z的区别_实战讲解(超详细)

1、CtrlC和CtrlZ的区别&#xff1a; CtrlZ&#xff1a;暂停进程 即挂起进程 暂停当前进程并将其放到后台。可以在后续恢复执行。 暂停的进程仍然占用系统内存 CtrlC&#xff1a;终止进程 终止进程后&#xff0c;程序代码占用的内存会释放掉 2、实战讲解 跑人工智能代码的时候…

centos安装mysql错误汇总

显示"failed to start mysqld.service: Unit not found" centos7不再支持mysql&#xff0c;故使用mariadb代替。 查找特定包名&#xff0c;在列出的结果中删除该包&#xff1a; rpm -qa|grep mysqlyum remove xxx提示"error 256 no more mirrors to try"…

golang学习笔记(defer基础知识)

什么是defer defer语句用于golang程序中延迟函数的调用&#xff0c; 每次defer都会把一个函数压入栈中&#xff0c; 函数返回前再把延迟的函数取出并执行。 为了方便描述&#xff0c; 我们把创建defer的函数称为主函数&#xff0c; defer语句后面的函数称为延迟函数。延迟函数…

一个 Java 项目最多定义多少个线程池比较合理,有哪些限制因素需要考量?

在Java项目中&#xff0c;线程池是一种重要的并发机制&#xff0c;用于管理和执行多线程任务。然而&#xff0c;线程池的设计需要谨慎考虑&#xff0c;以确保系统的稳定性、性能和资源利用率。在决定一个Java项目中最多可以定义多少个线程池时&#xff0c;需要综合考虑多种因素…

Java动态规划详解:理论基础与编程实践

Java动态规划详解&#xff1a;理论基础与编程实践 动态规划&#xff08;Dynamic Programming&#xff0c;简称DP&#xff09;是一种求解最优化问题的有效算法设计技术&#xff0c;广泛应用于计算机科学、运筹学、经济学等领域。本文将详细介绍动态规划的基本概念、设计原理、典…

【题解】NowCoder DP4 最小花费爬楼梯

题目来源&#xff1a;牛客 DP4 最小花费爬楼梯 题目描述&#xff1a; 给定一个整数数组 cost &#xff0c; 其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用&#xff0c;下标从 0 开始。一旦你支付此费用&#xff0c;即可选择向上爬一个或者两个台阶。 你可以选择从…