Build a Large Language Model (From Scratch)学习汇总

news/2024/10/4 15:55:38/

目录

  • 中文理解代码
  • 电子书
  • 全文中文翻译
    • 第1章:理解大型语言模型
    • 第2章:处理文本数据
    • 第3章:编码Attention机制
    • 第4章:从零实现GPT模型
    • 第5章:在未标记数据上进行预训练
    • 第6章:用于文本分类的微调
    • 第7章:为指令执行进行微调
    • 附录A:PyTorch简介
    • 附录E:使用LoRA进行参数高效微调

中文理解代码

https://github.com/Czi24/Awesome-MLLM-LLM-Colab/tree/master/LLMs-from-scratch-CN-Colab

电子书

通过网盘分享的文件:Build a Large Language Model (From Scratch).pdf
链接: https://pan.baidu.com/s/1BKVbCtaW7BV2my-9_T9xSA?pwd=8vjk 提取码: 8vjk
–来自百度网盘超级会员v7的分享

全文中文翻译

第1章:理解大型语言模型

md版本:
https://blog.csdn.net/weixin_46460463/article/details/137842001
pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140028245

第2章:处理文本数据

md版本:
https://blog.csdn.net/weixin_46460463/article/details/138326265
pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140028914

第3章:编码Attention机制

md版本:
https://blog.csdn.net/weixin_46460463/article/details/137842001
pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140028527

第4章:从零实现GPT模型

md版本:
https://blog.csdn.net/weixin_46460463/article/details/140594223
pdf版本:

第5章:在未标记数据上进行预训练

md版本:
https://blog.csdn.net/weixin_46460463/article/details/140622833
pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140028821

第6章:用于文本分类的微调

pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140028973

第7章:为指令执行进行微调

pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140480811

附录A:PyTorch简介

pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140182619

附录E:使用LoRA进行参数高效微调

pdf版本:
https://blog.csdn.net/weixin_46460463/article/details/140181974


http://www.ppmy.cn/news/1534494.html

相关文章

行为设计模式 -策略设计模式- JAVA

策略设计模式 一 .简介二. 案例2.1 抽象策略(Strategy)类2.2 具体策略(Concrete Strategy)类2.3 环境(Context)类2.4 测试 三. 结论3.1 优缺点3.2 使用场景 前言 这是我在这个网站整理的笔记,有错误的地方请…

Docekrfile和docker compose编写指南及注意事项

Dockerfile 基础语法 我们通过编写dockerfile,将每一层要做的事情使用语法固定下来,之后运行指令就可以通过docker来制作自己的镜像了。 构建镜像的指令:docker build /path -t imageName:tag 注意,docker build后的path必须是dockerfile…

关于Elastic Search与MySQL之间的数据同步

目录 前言 思路分析 同步调用 异步通知 监听binlog 选择 实现数据同步 思路 运行项目 声明交换机、队列 1)引入依赖 2)声明队列交换机名称 3)声明队列交换机 发送MQ消息 接收MQ消息 前言 Elastic Search中的酒店数据来自于MyS…

创建实体类pojo实现Serializable接口

案例如下: 一、什么是Serializable接口 在 Java 中,Serializable 接口是一个标记接口,它的主要作用是指示一个类的对象可以被序列化。 序列化是将对象转换为字节流的过程,以便将其保存到文件、通过网络传输或存储在数据库中&…

(C语言贪吃蛇)14.用绝对值方式解决不合理的走位

目录 前言 解决方式 运行效果 总结 前言 我们上节实现了贪吃蛇四方向走位,但是出现了一些不合理的走位,比如说身体节点和头节点重合等等,本节我们便来解决这个问题。 我们希望贪吃蛇撞到自身时游戏会重新开始,并且贪吃蛇的运动方…

【Kubernetes】常见面试题汇总(四十七)

目录 106.考虑一种情况,公司希望通过保持最低成本来提高效率和技术运营速度。您如何看待公司将如何实现这一目标? 107.假设一家公司想要修改其部署方法,并希望构建一个可扩展性和响应性更高的平台。您如何看待这家公司能够实现这一目标以满足…

日常工作技术点总结

1&#xff0c;在el-input中只能输入数值与小数点&#xff0c;且不会有其他的校验影响 //在模板中 <el-col :span"7"><el-form-item label"建设单位支付(元)" prop"unitAmount" label-width"120px">el-input v-model"…

如何突破科技服务领域的客户管理困境?

在知识产权与科技服务领域&#xff0c;企业面临着独特的客户管理需求和挑战&#xff0c;这些挑战不仅要求高度的专业性和精细化操作&#xff0c;还涉及复杂的法律流程、数据保密性以及不断变化的客户需求。传统的客户管理方式&#xff0c;如纸质档案、简单的电子表格或人工处理…