大语言模型教程与实践(开源)

embedded/2024/9/21 12:23:42/

1.简介

语言模型(Large Language Models, LLMs)的兴起确实始于OpenAI在2018年发布的GPT(Generative Pre-trained Transformer),这一开创性工作引领了自然语言处理领域的新纪元。随后,2022年底ChatGPT的横空出世,进一步加速了大语言模型技术的应用普及,它不仅展示了惊人的生成能力和理解深度,还极大地推动了人工智能技术的社会认知与应用边界。

对于技术开发者而言,想要深入学习大语言模型技术,确实需要掌握一系列复杂而深奥的知识体系。在24年之前,市面上尚缺乏关于大型模型的系统书籍。因此,从网络上搜集整理了大量关于大型语言模型的知识,并将这些资料分类汇总后开源至GitHub。在深入学习这一领域时,发现关于模型微调、部署应用的文章较为丰富,相比之下,关于从头开始训练大型模型、SFT、DPO等方面的实践知识则相对稀缺。鉴于此,,在学习的过程中,从零开始训练一个小参数的大语言模型,让消费级的显卡也能训练起来大模型,学习大模型的实践知识。

适用人群:

  • wdndev/llm_interview_note:适合初学者了解什么是大模型;想转行大模型的技术人员;
  • wdndev/tiny-llm-zh:想深入了解大模型,动手实践

2.LLMs基础知识

开源地址:wdndev/llm_interview_note

本项目系统性地从以下九个维度对大模型相关知识进行了细致整理与分类,旨在便于学习与查阅。尤为重要的是,我们已将核心知识点导出为PDF文档,以便学习者能够便捷地打印,进行线下纸质学习,提升学习的灵活性与深度。

以下是项目部分内容的目录概览:

目录
01.大语言模型简介
02.大语言模型基础
03.语言模型训练数据集
04.分布式训练
05.有监督微调
06.推理
07.强化学习
08.检索增强rag
09.大语言模型评估
10.大语言模型应用
98.LLMs相关课程
99.参考资料

在这里插入图片描述

3.Tiny LLM zh

开源地址:wdndev/tiny-llm-zh (github.com)

本项目的核心目标是创建一个轻量级的中文语言大模型,旨在加速初学者掌握大模型领域的相关知识。已开源一款92M参数的模型,在无GPU配置的计算机上能够迅速响应,平均只需约1秒即可生成问题解答。对于从零开始训练,92M模型在处理90亿token的数据上,利用8块RTX 3090显卡,预计可在一天之内完成训练任务。

模型架构:采纳了成熟的开源设计,模型架构囊括了业界广泛认可的技术组件,如RMSNorm(均方根层归一化)、RoPE(旋转位置编码)以及多头自注意力机制(MHA)等。

实现细节:遵循严谨的两阶段训练流程及后续的人工智能对齐策略,具体步骤为:预训练(PTM)->指令精细调整(SFT)->人类对齐(采用RLHF或DPO技术)->评估。

开源资源:对数据源,数据处理,预训练,微调代码都已开源,方便学习训练。

项目已部署,可以在如下网站上体验:ModeScope Tiny LLM

在这里插入图片描述


http://www.ppmy.cn/embedded/33025.html

相关文章

【Java EE】MyBatis使用注解操作数据库

文章目录 🍀参数传递🌴增(Insert)🌸返回主键 🍃删(Delete)🌳改(Update)🌲查(Select)🌸起别名🌸结果映射🌸开启驼峰命名(推荐) ⭕总结 🍀参数传递 需求: 查找…

uni-app 从vue3项目创建到Pinia管理数据全局使用 持久化存储数据 详细教程

一、创建uni-app项目 1. 安装HBuilder X,下载地址:https://www.dcloud.io/hbuilderx.html 2. 打开HBuilder X,点击左上角的“文件”->“新建”->“项目”,选择“uni-app”项目模板,填写项目名称和项目路径&…

区块链 | IPFS:IPNS(实操版)

🦊原文:Publishing IPNS names Publishing IPNS names with Kubo Step1: 启动你的 IPFS 守护进程(如果尚未运行): $ ipfs daemon说明:以 $ 开头的是命令,以 > 开头的是执行结果…

Wpf DataGrid ComboBox 列

遇到的问题 最开始找到的例子要写 Convert, 感觉和 Vue-Elment 的差别比较大后面找到类似与 Vue-Element UI 的写法&#xff0c;开始时数值不更新 关键代码 <DataGridTemplateColumn Header"Digit" Width"100"><DataGridTemplateColumn.CellTem…

《QT实用小工具·五十四》果冻弹出效果的动画按钮

1、概述 源码放在文章末尾 该项目实现动画按钮&#xff0c;鼠标放在按钮上可以弹性拉出的三个按钮&#xff0c;使用贝塞尔曲线实现&#xff0c;项目demo显示如下所示&#xff1a; 项目部分代码如下所示&#xff1a; #ifndef WATERCIRCLEBUTTON_H #define WATERCIRCLEBUTTON…

MLP一夜被干掉?革命性新网络KAN【第一篇-base】

要看完哦&#xff0c;文末彩蛋&#xff01; 用“极市平台”的导读语来说&#xff1a;新网络KAN基于柯尔莫哥洛夫-阿诺德定理&#xff0c;带着更少的参数、更强的性能、更好的可解释性来了&#xff0c;深度学习架构革新进入新时代&#xff01; 目录 导语 ​编辑 KAN的基础理论…

公考学习平台|基于SprinBoot+vue的公考学习平台(源码+数据库+文档)

公考学习平台目录 目录 基于SprinBootvue的公考学习平台 一、前言 二、系统设计 三、系统功能设计 5.1用户信息管理 5.2 视频信息管理 5.3公告信息管理 5.1论坛信息管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&…

系统如何做好数据质量管理

对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题&#xff0c;进行识别、监控、预警、处理等一系列管理活动&#xff0c;并通过改善和提高管理水平使得数据质量获 得进一步提高。 2术语和定义 2.1数据质量 data quality 2.2…