【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

devtools/2025/2/5 23:28:28/

1. 引言

近年来,大型语言模型 (LLM) 取得了令人瞩目的进展,其中 Llama、Qwen 和 ChatGLM 是三个备受关注的开源模型。它们都在 Transformer 架构的基础上进行了改进和优化,并在各种 NLP 任务上取得了优异的性能。

本文将深入分析 Llama、Qwen 和 ChatGLM 的网络结构和训练方法,比较它们的异同以及各自的优势。

2. 模型结构对比

特性LlamaQwenChatGLM
基础架构Decoder-onlyDecoder-onlyEncoder-Decoder (GLM架构,非传统意义)
预训练目标Causal Language ModelingCausal Language ModelingAutoregressive Blank Infilling (自回归空格填充)
位置编码Rotary Positional Embedding (RoPE)Rotary Positional Embedding (RoPE)2D RoPE (二维位置编码,类似transformer-xl)
归一化RMS NormRMS NormLayer Norm (Pre-Normalization)
激活函数SwiGLUSwiGLUGeGLU
注意力机制GQA (Grouped-Query Attention)GQA (Grouped-Query Attention), FlashAttentionMulti-head Attention, FlashAttention (可选)
分词器SentencePiece (BPE)Tiktoken (GPT-4 同款)SentencePiece (BPE)
最大序列长度4k (Llama2), 可外推32k (Qwen-72B), 可外推2k (ChatGLM-6B), 8k (ChatGLM2-6B), 可外推
参数量7B, 13B, 34B, 70B1.8B, 7B, 14B, 72B6B, 12B
特色开源且性能强大支持更长的上下文和多语言; 微调代码丰富双语支持,针对中文优化,推理性能强

2.1 基础架构:Decoder-only vs. Encoder-Decoder (GLM)

  • Llama 和 Qwen 都采用了 Decoder-only 架构,这意味着它们只使用 Transformer 的解码器部分。Decoder-only 架构的模型擅长生成文本,因为它们在训练过程中只看到前面的 token,这与生成任务的自回归特性相符。
  • ChatGLM 基于 GLM (Gen

http://www.ppmy.cn/devtools/156392.html

相关文章

用Impala对存储在HDFS中的大规模数据集进行快速、实时的交互式SQL查询的具体步骤和关键代码

AWS EMR(Elastic MapReduce)中应用Impala的典型案例,主要体现在大型企业和数据密集型组织如何利用Impala对存储在Hadoop分布式文件系统(HDFS)中的大规模数据集进行快速、实时的交互式SQL查询。以下是一个具体的案例说明…

HTML5+SVG+CSS3实现雪中点亮的圣诞树动画效果源码

源码介绍 这是一款基于HTML5SVGCSS3实现雪中点亮的圣诞树动画效果源码。画面中的圣诞树矗立在雪地中,天上飘落着雪花。当鼠标滑过圣诞树时,可见到圣诞树上的灯光闪烁,同时左下角探出雪怪模样的半个脑袋,四处张望着。整体画面栩栩…

二维前缀和:高效求解矩阵区域和问题

在处理二维矩阵时,频繁计算某一子矩阵的和是一个常见的操作。传统的做法是直接遍历该子矩阵,时间复杂度较高。当矩阵非常大且有大量的查询时,直接计算将变得低效。为了提高效率,我们可以通过 二维前缀和 技巧在常数时间内解决这个…

特权模式docker逃逸

目录 1.环境 2.上线哥斯拉 3.特权模式逃逸 1.判断是否为docker环境 2.判断是否为特权模式 3.挂载宿主机磁盘到docker 4.计划任务反弹shell 1.环境 ubuntu部署一个存在CVE-2017-12615的docker: (ip:192.168.117.147) kali(ip:192.168.117.128) 哥斯拉 2.上线哥斯拉…

MongoDb user自定义 role 添加 action(collStats, EstimateDocumentCount)

使用 mongosh cd mongsh_bin_path mongosh “mongodb://user:passip:port/db”这样就直接进入了对应的db 直接输入: 这样 role “read_only_role" 就获得了3个 action, 分别是 查询,列举集合,集合元数据查询 P.S: 如果没有 …

RK3568使用QT操作LED灯

文章目录 一、QT中操作硬件设备思路Linux 中的设备文件操作硬件设备的思路1. 打开设备文件2. 写入数据到设备3. 从设备读取数据4. 设备控制5. 异常处理在 Qt 中操作设备的典型步骤实际应用中的例子:控制 LED总结二、QT实战操作LED灯设备1. `mainwindow.h` 头文件2. `mainwindo…

玩转Docker | 使用Docker部署MySQL数据库

玩转Docker | 使用Docker部署MySQL数据库 玩转Docker | 使用Docker部署MySQL数据库一、Docker简介(一)Docker是什么(二)Docker的优势二、准备工作(一)安装Docker(二)了解MySQL数据库三、使用Docker部署MySQL数据库(一)拉取MySQL镜像(二)运行MySQL容器(三)验证MyS…

SpringBoot+Vue的理解(含axios/ajax)-前后端交互前端篇

文章目录 引言SpringBootThymeleafVueSpringBootSpringBootVue(前端)axios/ajaxVue作用响应式动态绑定单页面应用SPA前端路由 前端路由URL和后端API URL的区别前端路由的数据从哪里来的 Vue和只用三件套axios区别 关于地址栏url和axios请求不一致VueJSPS…