【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

news/2025/2/7 1:39:52/

1. 引言

近年来,大型语言模型 (LLM) 取得了令人瞩目的进展,其中 Llama、Qwen 和 ChatGLM 是三个备受关注的开源模型。它们都在 Transformer 架构的基础上进行了改进和优化,并在各种 NLP 任务上取得了优异的性能。

本文将深入分析 Llama、Qwen 和 ChatGLM 的网络结构和训练方法,比较它们的异同以及各自的优势。

2. 模型结构对比

特性LlamaQwenChatGLM
基础架构Decoder-onlyDecoder-onlyEncoder-Decoder (GLM架构,非传统意义)
预训练目标Causal Language ModelingCausal Language ModelingAutoregressive Blank Infilling (自回归空格填充)
位置编码Rotary Positional Embedding (RoPE)Rotary Positional Embedding (RoPE)2D RoPE (二维位置编码,类似transformer-xl)
归一化RMS NormRMS NormLayer Norm (Pre-Normalization)
激活函数SwiGLUSwiGLUGeGLU
注意力机制GQA (Grouped-Query Attention)GQA (Grouped-Query Attention), FlashAttentionMulti-head Attention, FlashAttention (可选)
分词器SentencePiece (BPE)Tiktoken (GPT-4 同款)SentencePiece (BPE)
最大序列长度4k (Llama2), 可外推32k (Qwen-72B), 可外推2k (ChatGLM-6B), 8k (ChatGLM2-6B), 可外推
参数量7B, 13B, 34B, 70B1.8B, 7B, 14B, 72B6B, 12B
特色开源且性能强大支持更长的上下文和多语言; 微调代码丰富双语支持,针对中文优化,推理性能强

2.1 基础架构:Decoder-only vs. Encoder-Decoder (GLM)

  • Llama 和 Qwen 都采用了 Decoder-only 架构,这意味着它们只使用 Transformer 的解码器部分。Decoder-only 架构的模型擅长生成文本,因为它们在训练过程中只看到前面的 token,这与生成任务的自回归特性相符。
  • ChatGLM 基于 GLM (Gen

http://www.ppmy.cn/news/1569954.html

相关文章

css中字体的加载,仅在使用的时候加载,会阻塞,用font-display:swap

在 font-face 中指定字体的 src URL时,字体文件仅会在实际使用该 font-family 的时候加载。也就是说,如果你没有在页面上使用该字体(即没有设置 font-family 为指定的字体),浏览器不会加载那个字体文件。 但是如果系统…

【机器学习】自定义数据集 使用pytorch框架实现逻辑回归并保存模型,然后保存模型后再加载模型进行预测,对预测结果计算精确度和召回率及F1分数

一、使用pytorch框架实现逻辑回归 1. 数据部分: 首先自定义了一个简单的数据集,特征 X 是 100 个随机样本,每个样本一个特征,目标值 y 基于线性关系并添加了噪声。将 numpy 数组转换为 PyTorch 张量,方便后续在模型中…

pytorch生成对抗网络

人工智能例子汇总:AI常见的算法和例子-CSDN博客 生成对抗网络(GAN,Generative Adversarial Network)是一种深度学习模型,由两个神经网络组成:生成器(Generator)和判别器&#xff0…

ES6 变量解构赋值总结

1. 数组的解构赋值 1.1 基本用法 // 基本数组解构 const [a, b, c] [1, 2, 3]; console.log(a); // 1 console.log(b); // 2 console.log(c); // 3// 跳过某些值 const [x, , y] [1, 2, 3]; console.log(x); // 1 console.log(y); // 3// 解构剩余元素 const [first, ...re…

day37|完全背包基础+leetcode 518.零钱兑换II ,377.组合总和II

完全背包理论基础 完全背包与01背包的不同在于01背包的不同物品每个都只可以使用一次,但是完全背包的不同物品可以使用无数次 在01背包理论基础中,为了使得物品只被使用一次,我们采取倒序遍历来控制 回顾:>> for(int j …

STM32 DMA数据转运

DMA简介 DMA(Direct Memory Access)直接存储器存取 DMA可以提供外设和存储器或者存储器和存储器之间的高速数据传输,无须CPU干预,节省了CPU的资源 12个独立可配置的通道: DMA1(7个通道)&#xf…

RTMP 和 WebRTC

WebRTC(Web Real-Time Communication)和 RTMP(Real-Time Messaging Protocol)是两种完全不同的流媒体协议,设计目标、协议栈、交互流程和应用场景均有显著差异。以下是两者的详细对比,涵盖协议字段、交互流程及核心设计思想。 一、协议栈与设计目标对比 特性RTMPWebRTC传…

Spring Web MVC基础第一篇

目录 1.什么是Spring Web MVC? 2.创建Spring Web MVC项目 3.注解使用 3.1RequestMapping(路由映射) 3.2一般参数传递 3.3RequestParam(参数重命名) 3.4RequestBody(传递JSON数据) 3.5Pa…