【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

news/2025/2/7 1:39:52/

1. 引言

近年来，大型语言模型 (LLM) 取得了令人瞩目的进展，其中 Llama、Qwen 和 ChatGLM 是三个备受关注的开源模型。它们都在 Transformer 架构的基础上进行了改进和优化，并在各种 NLP 任务上取得了优异的性能。

本文将深入分析 Llama、Qwen 和 ChatGLM 的网络结构和训练方法，比较它们的异同以及各自的优势。

2. 模型结构对比

特性	Llama	Qwen	ChatGLM
基础架构	Decoder-only	Decoder-only	Encoder-Decoder (GLM架构，非传统意义)
预训练目标	Causal Language Modeling	Causal Language Modeling	Autoregressive Blank Infilling (自回归空格填充)
位置编码	Rotary Positional Embedding (RoPE)	Rotary Positional Embedding (RoPE)	2D RoPE (二维位置编码,类似transformer-xl)
归一化	RMS Norm	RMS Norm	Layer Norm (Pre-Normalization)
激活函数	SwiGLU	SwiGLU	GeGLU
注意力机制	GQA (Grouped-Query Attention)	GQA (Grouped-Query Attention), FlashAttention	Multi-head Attention, FlashAttention (可选)
分词器	SentencePiece (BPE)	Tiktoken (GPT-4 同款)	SentencePiece (BPE)
最大序列长度	4k (Llama2), 可外推	32k (Qwen-72B), 可外推	2k (ChatGLM-6B), 8k (ChatGLM2-6B), 可外推
参数量	7B, 13B, 34B, 70B	1.8B, 7B, 14B, 72B	6B, 12B
特色	开源且性能强大	支持更长的上下文和多语言; 微调代码丰富	双语支持，针对中文优化，推理性能强

2.1 基础架构：Decoder-only vs. Encoder-Decoder (GLM)

Llama 和 Qwen 都采用了 Decoder-only 架构，这意味着它们只使用 Transformer 的解码器部分。Decoder-only 架构的模型擅长生成文本，因为它们在训练过程中只看到前面的 token，这与生成任务的自回归特性相符。
ChatGLM 基于 GLM (Gen

http://www.ppmy.cn/news/1569954.html

相关文章

css中字体的加载，仅在使用的时候加载，会阻塞，用font-display:swap

css中字体的加载，仅在使用的时候加载，会阻塞，用font-display:swap

在 font-face 中指定字体的 src URL时，字体文件仅会在实际使用该 font-family 的时候加载。也就是说，如果你没有在页面上使用该字体（即没有设置 font-family 为指定的字体），浏览器不会加载那个字体文件。但是如果系统…

阅读更多...

$【机器学习】自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测，对预测结果计算精确度和召回率及F1分数$

【机器学习】自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测，对预测结果计算精确度和召回率及F1分数

一、使用pytorch框架实现逻辑回归 1. 数据部分： 首先自定义了一个简单的数据集，特征 X 是 100 个随机样本，每个样本一个特征，目标值 y 基于线性关系并添加了噪声。将 numpy 数组转换为 PyTorch 张量，方便后续在模型中…

阅读更多...

pytorch生成对抗网络

pytorch生成对抗网络

人工智能例子汇总：AI常见的算法和例子-CSDN博客生成对抗网络（GAN，Generative Adversarial Network）是一种深度学习模型，由两个神经网络组成：生成器（Generator）和判别器&#xff0…

阅读更多...

ES6 变量解构赋值总结

ES6 变量解构赋值总结

1. 数组的解构赋值 1.1 基本用法 // 基本数组解构 const [a, b, c] [1, 2, 3]; console.log(a); // 1 console.log(b); // 2 console.log(c); // 3// 跳过某些值 const [x, , y] [1, 2, 3]; console.log(x); // 1 console.log(y); // 3// 解构剩余元素 const [first, ...re…

阅读更多...

day37|完全背包基础+leetcode 518.零钱兑换II ，377.组合总和II

day37|完全背包基础+leetcode 518.零钱兑换II ，377.组合总和II

完全背包理论基础完全背包与01背包的不同在于01背包的不同物品每个都只可以使用一次，但是完全背包的不同物品可以使用无数次在01背包理论基础中，为了使得物品只被使用一次，我们采取倒序遍历来控制回顾：>> for(int j …

阅读更多...

STM32 DMA数据转运

STM32 DMA数据转运

DMA简介 DMA（Direct Memory Access）直接存储器存取 DMA可以提供外设和存储器或者存储器和存储器之间的高速数据传输，无须CPU干预，节省了CPU的资源 12个独立可配置的通道： DMA1（7个通道）&#xf…

阅读更多...

RTMP 和 WebRTC

RTMP 和 WebRTC

WebRTC（Web Real-Time Communication）和 RTMP（Real-Time Messaging Protocol）是两种完全不同的流媒体协议，设计目标、协议栈、交互流程和应用场景均有显著差异。以下是两者的详细对比，涵盖协议字段、交互流程及核心设计思想。一、协议栈与设计目标对比特性RTMPWebRTC传…

阅读更多...

Spring Web MVC基础第一篇

Spring Web MVC基础第一篇

目录 1.什么是Spring Web MVC？ 2.创建Spring Web MVC项目 3.注解使用 3.1RequestMapping（路由映射） 3.2一般参数传递 3.3RequestParam（参数重命名） 3.4RequestBody（传递JSON数据） 3.5Pa…

阅读更多...

最新文章