Machine Learning Engineering Open Book 机器学习工程开放书

embedded/2025/2/5 12:11:56/

文章目录


Machine_Learning_Engineering_Open_Book_2">一、关于 Machine Learning Engineering Open Book

这是一个开放的方法、工具和分步说明集合,有助于成功训练和微调大型语言模型和多模态模型及其推理。

这是一份适合LLM/VLM培训工程师和操作员的技术材料。这里的内容包含大量脚本和n-粘贴命令,使您能够快速满足您的需求。

这个存储库是我训练大型语言模型(LLM)(和VLM)的经验的持续大脑转储;我在2022年训练开源BLOOM-176B模型和2023年训练IDEFICS-80B多模态模型以及2024年训练RAG模型时获得的许多专业知识。Contextual.AI。

我一直在为自己编译这些信息,这样我就可以快速找到我过去已经研究过并且有效的解决方案,但是像往常一样,我很乐意与更广泛的机器学习社区分享这些笔记。

  • github : https://github.com/stas00/ml-engineering
  • PDF 版本: https://huggingface.co/stas/ml-engineering-book/resolve/main/Stas Bekman - Machine Learning Engineering.pdf
  • 更新请关注:https://twitter.com/StasBekman
  • 欢迎讨论分享:https://github.com/stas00/ml-engineering/discussions

二、书籍目录

第1部分 见解

  1. 人工智能战场工程——你需要知道什么才能成功。
  2. 如何选择云提供商-这些问题将使您获得成功的计算云体验。

第2部分 硬件

  1. 计算-加速器,CPU,CPU内存。
  2. 存储-本地、分布式和共享文件系统。
  3. 网络-节点内和节点间网络。

第3部分 编排

  1. 编排系统-管理容器和资源
  2. SLURM-资源管理的简单Linux工具

第4部分 训练

  1. 训练- 模型培训相关指南

第5部分 推理

  1. 推理- 模型推理洞察

第6部分 开发

  1. 调试和故障排除-如何调试简单和困难的问题
  2. 还有更多的调试
  3. 测试——让测试写作变得愉快的众多技巧和工具

第7部分 杂项

  1. 资源-LLM/VLM编年史

三、关键对照表

高端加速器:

  • 理论加速器TFLOPS
  • 加速器内存大小和速度

网络:

  • 理论节点间速度
  • 理论节点内速度

四、快捷方式

你可能需要快速经常找到的东西。

工具:

  • all_reduce_bench.py-一种比nccl-测试更简单的网络吞吐量基准测试方法。
  • torch-distributed-gpu-test.py-快速测试节点间连接的工具
  • mamf-finder.py-您可以从加速器获得的实际TFLOPS测量值是多少。

指南:

  • 调试pytorch应用程序-解决挂起或中断pytorch应用程序的快速n-粘贴解决方案
  • slurm为用户-slurm备忘单和技巧
  • 制作微型模型/数据集/标记器
  • LLM/VLM编年史收藏

2025-01-27(一)


http://www.ppmy.cn/embedded/159745.html

相关文章

对比DeepSeek、ChatGPT和Kimi的学术写作中搜集参考文献能力

参考文献 列出引用过的文献,按引用顺序排列,并确保格式规范。只列举确实阅读过的文献,包括书籍、期刊文章等,以便读者进一步查阅相关资料。也可以利用endnotes和zotero等文献管理工具插入文献。由于ChatGPT4无法联网进行检索&…

深度解读 Docker Swarm

一、引言 随着业务规模的不断扩大和应用复杂度的增加,容器集群管理的需求应运而生。如何有效地管理和调度大量的容器,确保应用的高可用性、弹性伸缩和资源的合理分配,成为了亟待解决的问题。Docker Swarm 作为 Docker 官方推出的容器集群管理工具,正是在这样的背景下崭露头…

【Convex Optimization Stanford】Lec7. Statistical estimation

【Convex Optimization Stanford】Lec7. Statistical estimation 前言参数化分布估计带有独立同分布噪声的线性估计Logistic 回归二分假说检验 实验设计 前言 略 参数化分布估计 极大似然估计,大概意思就是调整参数,让 y y y出现的概率的对数值最大。…

部署keepalvied+lVS(dr)高可用集群

第一步,环境准备 服务器名称 IP 描述 master VIP:192.168.244.100 DIP:192.168.244.101 高可用keeplived_master LVS负载均衡 backup VIP:192.168.244.100 DIP:192.168.244.102 高可用keeplived_backup LVS负载均衡 server1 RIP:192.168.244.103 Web服务…

【Redis】缓存+分布式锁

目录 缓存 Redis最主要的使用场景就是作为缓存 缓存的更新策略: 1.定期生成 2.实时生成 面试重点: 缓存预热(Cache preheating): 缓存穿透(Cache penetration) 缓存雪崩 (Cache avalan…

消息队列篇--通信协议篇--STOMP(STOMP特点、格式及示例,WebSocket上使用STOMP,消息队列上使用STOMP等)

STOMP(Simple Text Oriented Messaging Protocol,简单面向文本的消息传递协议)是一种轻量级、基于文本的协议,旨在为消息代理(消息队列)和客户端之间的通信(websocket)提供一种简单的…

微软悉尼大学|UniGraspTransformer:灵巧机器人抓取技术新突破!

摘要 在机器人研究领域,灵巧机器人抓取任务始终是极具挑战性的难题。不同形状、尺寸和物理属性的物体,以及多指灵巧手复杂的控制要求,都为机器人实现精准抓取带来了诸多阻碍。虽然已有研究取得了一定进展,但仍存在训练过程复杂、模…

.找到字符串中所有字母异位词(滑动窗口)

给定两个字符串 s 和 p,找到 s 中所有 p 的 异位词 的子串,返回这些子串的起始索引。不考虑答案输出的顺序。 示例 1: 输入: s "cbaebabacd", p "abc" 输出: [0,6] 解释: 起始索引等于 0 的子串是 "cba", 它是 "…