最近大家都在聊 AI,DeepSeek 更是火出圈了!但里面好多专业术语听起来就头大,像什么“混合专家模型”“思维链”“模型蒸馏”……这些到底是什么意思呢?于是,我花了一些时间研究,把 DeepSeek 里那些听起来高大上的名词都整理好了!你直接看就行啦 💪 下次和别人聊 AI 秒变圈内达人~ 😎
- DeepSeek:是一家来自中国本土的 AI 大模型公司,中文名为“深度求索”。注意,DeepSeek 既是公司名称,也是其一系列人工智能产品的名称,包括大模型、网站、App 等。
- DeepSeek-V3:DeepSeek 于2024年12月16日发布的 AI 大模型,专门适用于数学、编码和中文等任务,性能对标 GPT-4o 等竞争产品。发布之后,DeepSeek-V3 在所有模型中排名第七,在开源模型排第一。并且它还是全球前十中性价比最高的模型,每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。
- DeepSeek-R1:DeepSeek 于2025年1月20日发布的 AI 大模型,专门适用于数学、编码和逻辑等任务,性能对标 GPT-o1 等竞争产品。R1 是性价比最高的推理模型,每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元,相当于 GPT-o1 的 3%。
- ChatGPT 4o:OpenAI 于2024年5月发布的 AI 大模型,“o”代表“omni”,即全能。GPT-4o 有强大的多模态处理能力,能同时处理文本、图像和音频输入;响应速度提升,支持更自然的实时对话和多种媒体的结合;整合了 Canvas,支持可视化的工作环境,可实时修改文本或代码。
- ChatGPT o1:OpenAI 于2024年9月(预览版)发布的 AI 大模型(推理模型)。o1 模型在回答问题之前会进行“思考”,使得它在处理复杂的任务、科学和编程方面比 GPT-4o 更优秀,但价格也更昂贵。
- 混合专家模型(Mixture of Experts,MoE):一种 AI 大语言模型架构,包含多个专家网络(Experts)和一个“门控”网络(Gating Network)。每个专家负责处理特定类型的输入数据,门控决定输入数据应该由哪些专家处理,从而实现高效的任务分配。
- 专家并行(Expert Parallelism, EP):混合专家模型(MoE)的一种训练和部署方法,将不同的“专家”(模型中专门负责特定类型输入的子网络)分配到不同的计算设备上。
- 门控机制(Gating Mechanism):一种在神经网络中特别用于控制信息流动的技术,广泛应用于递归神经网络(RNN)及其变体(如 LSTM 和 GRU)。门控机制模型通过遗忘门、输入门和输出门,灵活控制信息在神经网络中的流动,确保模型能够有效记住重要信息并过滤掉无关信息,从而在处理长序列数据时表现更加稳定和高效。
- 动态网络(Dynamic Network):根据输入数据动态调整网络结构或参数权重的技术,常见于 MoE 模型的门控机制。
- 稀疏训练(Sparse Training):一种通过训练过程中设置稀疏性约束来减少模型参数的方法。在稀疏训练中,模型的权重矩阵中有很多元素被设置为零,从而减少了模型的参数量。稀疏训练的目标是通过约束模型的参数,使得模型只关注对任务有用的特征和信息,忽略无关的冗余参数。
- 模型剪枝(Model Pruning):一种通过裁剪掉冗余参数来减少模型大小和计算量的方法。在模型剪枝中,通常通过剪枝算法识别出模型中对任务贡献较小的参数,并将其从模型中移除。模型剪枝的目标是保持模型的性能不受明显影响的情况下减少参数数量和计算复杂度。
- 知识蒸馏(Knowledge Distillation):一种通过在一个较大的“教师”模型的指导下训练一个较小的“学生”模型的方法。在知识蒸馏中,教师模型通常是一个复杂的、高精度的模型,学生模型是一个简化的、低计算量的模型。知识蒸馏的目标是将教师模型的知识和泛化能力传递给学生模型,从而使得学生模型能够在较小的模型规模下达到接近教师模型的性能。
- 自蒸馏(Self Knowledge Distillation):是指不通过新增一个大模型的方式找到一个教师模型,同样可以提供有效增益信息给学生模型,这里的教师模型往往不会比学生模型复杂,但提供的增益信息对于学生模型是有效的增量信息,以提升学生模型效率。该方式可以避免使用更复杂的模型,也可以避免通过一些聚类或者是元计算的步骤生成伪标签。
- 机器学习(Machine Learning,ML):一种人工智能(AI)的分支,它使计算机能够从数据中自动学习规律和模式,而无需进行明确的编程。简单来说,机器学习的目标是让计算机通过数据“学会”完成特定任务,而不是通过手动编写固定规则来实现。可分为监督学习、无监督学习、强化学习等类型。
- 深度学习(Deep Learning,DL):机器学习(ML)的一个分支,它通过构建多层的神经网络结构来模拟人类大脑的信息处理方式,从而实现对复杂数据的自动特征提取和学习。比如说如果要识别照片中的猫和狗,深度学习就是让机器人通过大量猫和狗的图片进行学习,自己总结出猫和狗的区别特征(比如猫有尖耳朵,狗有大鼻子)。机器人通过多层的“思考”(多层神经网络),逐渐学会如何区分它们,而不需要人类手动告诉它每一张图片是什么。 ChatGPT 就是基于一种名为“Transformer”的深度学习架构。
- 强化学习(Reinforcement Learning,RL):一种机器学习范式,通过“试错”和奖励信号来学习最优行为的方法,常用于需要决策的任务,例如对齐模型生成内容与人类价值观。DeepSeek-R1 模型的训练就大量应用了强化学习。
- RLHF:即 Reinforcement Learning from Human Feedback,基于人类反馈的强化学习。是一种机器学习技术,它利用人类反馈来优化 ML 模型,从而更有效地进行自我学习。强化学习技术可训练软件做出可最大限度地提高回报的决策,使其结果更加准确。RLHF 将人类反馈纳入奖励功能,因此 ML 模型可以执行更符合人类目标、愿望和需求的任务。
- 参数(Parameters):参数是模型中可以学习和调整的数值,用于定义模型的结构和行为。它们是模型的“可调部分”,通过训练数据来优化,以使模型能够更好地拟合数据。具体来说,参数也就是模型中可调整的权重值,例如神经网络中的权重矩阵和偏置项,参数量通常决定模型复杂度。
- 权重(Weights):权重是神经网络中的一种参数,也是模型学习的关键组成部分,用于调整输入信号的重要性。在神经网络中,权重表示连接不同神经元之间的强度,它们决定了输入特征对模型输出的贡献。通过训练过程,模型调整权重以最小化损失函数,使模型能够对输入数据进行有效的映射。
- SFT(Supervised Fine-Tuning):监督微调,是指在一个预训练的模型基础上,通过提供标注好的数据进行进一步训练,以使模型在特定任务或领域上表现得更好。
- 梯度裁剪(Gradient Clipping):一种在训练神经网络时常用的技术,它用于防止梯度爆炸问题。而梯度爆炸是指在训练过程中,梯度的大小急剧增加,导致权重更新过大,从而使得模型无法收敛或者性能急剧下降的现象。
- 混合精度训练(Mixed Precision Training):一种在深度学习中提高训练速度和减少内存占用的技术。例如在 PyTorch 中,通过使用半精度浮点数(16位浮点数,FP16)和单精度浮点数(32位浮点数,FP32)的组合格式进行训练,可以加速计算并减少显存占用,同时保持模型精度。
- 困惑度(Perplexity,PP):衡量语言模型预测能力的指标,值越低表示模型对测试数据的预测越准确。
- 对齐(Alignment):通过技术手段(如 RLHF)使模型输出符合人类意图、伦理和安全要求的过程。
- 奖励模型(Reward Model,RM):用于强化学习的辅助模型,对生成内容的质量打分,指导主模型优化策略。
- 对抗训练(Adversarial Training):在训练中引入对抗样本(如恶意提问)增强模型鲁棒性,提升对攻击的防御能力。
- 分布式训练(Distributed Training):使用多 GPU/TPU 并行训练模型的技术,包括数据并行、模型并行和流水线并行。
- 张量并行(Tensor Parallelism):将大型模型的参数张量拆分到不同设备上计算,解决单卡显存不足的问题。
- KV 缓存(Key-Value Cache):在自回归生成中缓存注意力键值对,减少重复计算以提升推理速度。
- 上下文窗口(Context Window):模型单次处理的最大文本长度,如 DeepSeek-V3 支持 128K tokens 的长上下文。
- 零样本学习(Zero-Shot Learning):模型在未经任务特定训练的情况下直接执行新任务的能力。
- 自监督学习(Self-Supervised Learning):利用数据自身结构生成监督信号(如掩码语言建模),减少对标注数据的依赖。
- 思维链(Chain of Thought,CoT):一种模型推理方法,通过将复杂问题分解为一系列中间步骤,引导模型逐步思考和解决问题。它通常用于提升人工智能模型(如大语言模型)的推理能力和逻辑性,使其能够更好地处理需要多步推理的任务。
- 注意力机制(Attention):是神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。
- 自注意力机制(Self-Attention):也称为内部注意力机制,是一种在深度学习模型中应用的机制,尤其在处理序列数据时显得非常有效。它允许输入序列的每个元素都与序列中的其他元素进行比较,以计算序列的表示。这种机制使模型能够聚焦于输入序列中不同位置的关系,从而捕捉序列内的复杂依赖关系。
- 原生稀疏注意力机制(Native Sparse Attention,NSA):一种硬件对齐和本机可训练的稀疏注意力机制,用于超快的长上下文训练和推理。
- 泛化能力(Generalization Ability):是指一个机器学习算法对于没有见过的样本的识别能力。简单来说,就是举一反三的能力,或者叫做学以致用的能力。
- 冗余专家策略(Redundant Experts):一种用于优化混合专家模型(MoE)负载均衡的技术。通过识别高负载的专家(Expert)并将其复制到多个 GPU 上,从而在推理过程中动态分配输入到负载较轻的专家副本,以实现负载均衡。
- Aha Moment:多译为“顿悟时刻”,是指人类突然理解一个以前无法理解的问题或概念时的时刻。在大模型的训练中,这一概念被用来描述模型在训练过程中突然展现出复杂推理能力或自我优化行为的时刻。例如模型出现自我反思,开始回顾和重新评估之前的推理步骤。
- MHA:即 Multi-Head Attention,多头注意力。它是 Transformer 架构的核心组件,通过将输入数据分割成多个“头”(即子空间,就像人用眼睛同时关注多个地方一样),并行计算每个头的注意力权重,从而捕捉输入序列中的不同特征。不过,MHA 技术有个缺点,就是需要很大的内存来存储信息,就像一个很能装的“仓库”,但仓库太大就会浪费空间。
- MLA:即 Multi-Head Latent Attention,多头潜在注意力。它是 MHA 的改进版本,旨在优化推理阶段的效率和内存占用。其核心思想是通过低秩压缩技术减少键值(KV)缓存的大小。
- LLM:即 Large Language Model,大语言模型。基于深度学习技术训练的大型语言处理模型,通常具有数十亿到数万亿参数,能够理解和生成自然语言文本。LLM 通过大规模数据集训练,具备广泛的知识和多任务能力。
- vLLM:伯克利大学 LMSYS 组织开源的大语言模型高速推理框架。
- Hugging Face:一个开源社区和平台,专注于自然语言处理(NLP),提供大量预训练模型、数据集和开发工具。Hugging Face 降低了 AI 技术的准入门槛,便于开发者快速使用和微调模型。
- Transformer:一种深度学习架构,由 Vaswani 等人于2017年提出,基于自注意力机制处理序列数据。Transformer是现代语言模型(如BERT、GPT)的基础架构。
- GPT:由 OpenAI 开发的生成式预训练语言模型,基于 Transformer 架构,通过大规模文本数据预训练,能够生成连贯、有意义的文本。
- BERT:由 Google 开发的双向编码器预训练模型,基于 Transformer 架构,通过双向上下文学习语言表示,广泛应用于自然语言理解任务。
- LLaMA:Meta 开发的一种大语言模型,专注于高效训练和推理,适用于多种自然语言处理任务。
- RAG:即 Retrieval-Augmented Generation,是一种结合检索和生成技术的模型。它通过引用外部知识库的信息来生成答案或内容,具有较强的可解释性和定制能力,适用于问答系统、文档生成、智能助手等多个自然语言处理任务中。RAG 模型的优势在于通用性强、可实现即时的知识更新,以及通过端到端评估方法提供更高效和精准的信息服务。
- Token:语言模型处理文本时的基本单位,由分词器将文本分割成适合模型处理的单元,如单词、子词或符号。
- Benchmark:用于评估模型性能的标准数据集或任务集合,包含多个任务或数据集,用于全面测试模型的能力。
- CUDA:一种由 NVIDIA 开发的并行计算平台和编程模型,用于利用 GPU 加速计算任务。CUDA 广泛应用于深度学习和其他高性能计算领域。
- Hopper GPU:NVIDIA 在2022年3月推出的 GPU 架构,该架构集成 Transformer 引擎,显著提升 AI 训练和推理的性能。Hopper 这个名字来自美国计算机领域的先驱科学家 Grace Hopper。
- FlashMLA:一个针对 Hopper GPU 优化的高效 MLA 解码内核,支持变长序列处理。它通过优化 MLA 解码和分页 KV 缓存,能够提高 LLM 的推理效率,尤其是在 H100 / H800 这样的高端 GPU 上发挥出极致性能。
- DeepEP:一个专为混合专家系统(MoE)和专家并行(EP)定制的通信库。DeepEP 可以显著提升 MoE 模型的性能和效率,适用于大规模 AI 训练和推理。
- DeepGEMM:是一个专为干净、高效的 FP8 通用矩阵乘法(GEMM)而设计的库,具有细粒度缩放功能。该库用 CUDA 编写,在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有内核。