Machine Learning Engineering Open Book 机器学习工程开放书

devtools/2025/2/5 21:16:47/

文章目录


Machine_Learning_Engineering_Open_Book_2">一、关于 Machine Learning Engineering Open Book

这是一个开放的方法、工具和分步说明集合,有助于成功训练和微调大型语言模型和多模态模型及其推理。

这是一份适合LLM/VLM培训工程师和操作员的技术材料。这里的内容包含大量脚本和n-粘贴命令,使您能够快速满足您的需求。

这个存储库是我训练大型语言模型(LLM)(和VLM)的经验的持续大脑转储;我在2022年训练开源BLOOM-176B模型和2023年训练IDEFICS-80B多模态模型以及2024年训练RAG模型时获得的许多专业知识。Contextual.AI。

我一直在为自己编译这些信息,这样我就可以快速找到我过去已经研究过并且有效的解决方案,但是像往常一样,我很乐意与更广泛的机器学习社区分享这些笔记。

  • github : https://github.com/stas00/ml-engineering
  • PDF 版本: https://huggingface.co/stas/ml-engineering-book/resolve/main/Stas Bekman - Machine Learning Engineering.pdf
  • 更新请关注:https://twitter.com/StasBekman
  • 欢迎讨论分享:https://github.com/stas00/ml-engineering/discussions

二、书籍目录

第1部分 见解

  1. 人工智能战场工程——你需要知道什么才能成功。
  2. 如何选择云提供商-这些问题将使您获得成功的计算云体验。

第2部分 硬件

  1. 计算-加速器,CPU,CPU内存。
  2. 存储-本地、分布式和共享文件系统。
  3. 网络-节点内和节点间网络。

第3部分 编排

  1. 编排系统-管理容器和资源
  2. SLURM-资源管理的简单Linux工具

第4部分 训练

  1. 训练- 模型培训相关指南

第5部分 推理

  1. 推理- 模型推理洞察

第6部分 开发

  1. 调试和故障排除-如何调试简单和困难的问题
  2. 还有更多的调试
  3. 测试——让测试写作变得愉快的众多技巧和工具

第7部分 杂项

  1. 资源-LLM/VLM编年史

三、关键对照表

高端加速器:

  • 理论加速器TFLOPS
  • 加速器内存大小和速度

网络:

  • 理论节点间速度
  • 理论节点内速度

四、快捷方式

你可能需要快速经常找到的东西。

工具:

  • all_reduce_bench.py-一种比nccl-测试更简单的网络吞吐量基准测试方法。
  • torch-distributed-gpu-test.py-快速测试节点间连接的工具
  • mamf-finder.py-您可以从加速器获得的实际TFLOPS测量值是多少。

指南:

  • 调试pytorch应用程序-解决挂起或中断pytorch应用程序的快速n-粘贴解决方案
  • slurm为用户-slurm备忘单和技巧
  • 制作微型模型/数据集/标记器
  • LLM/VLM编年史收藏

2025-01-27(一)


http://www.ppmy.cn/devtools/156373.html

相关文章

Linux实操篇-文件目录类>/>>/echo/head/tail/ln/history

目录 传送门前言一、>、 >>概念二、>、 >>实战1. **>(输出重定向)**2. **>>(追加输出)****区别总结:** 三、echo、head、tail概念四、echo、head、tail实战1. **echo****用法**&#xff1a…

mysql重学(一)mysql语句执行流程

思考 一条查询语句如何执行?mysql语句中若列不存在,则在哪个阶段报错一条更新语句如何执行?redolog和binlog的区别?为什么要引入WAL什么是Changbuf?如何工作写缓冲一定好吗?什么情况会引发刷脏页删除语句会…

93,【1】buuctf web [网鼎杯 2020 朱雀组]phpweb

进入靶场 页面一直在刷新 在 PHP 中,date() 函数是一个非常常用的处理日期和时间的函数,所以应该用到了 再看看警告的那句话 Warning: date(): It is not safe to rely on the systems timezone settings. You are *required* to use the date.timez…

机器人介绍

以下是关于机器人的介绍: 定义 机器人是一种能够自动执行任务的机器系统,它集成了机电、机构学、材料学及仿生学等多个学科技术,可以接受人类指挥,运行预先编排的程序,或根据人工智能技术制定的原则纲领行动&#xf…

增删改查(CRUD)操作

文章目录 MySQL系列:1.CRUD简介2.Create(创建)2.1单行数据全列插入2.2 单行数据指定插入2.3 多⾏数据指定列插⼊ 3.Retrieve(读取)3.1 Select查询3.1.1 全列查询3.1.2 指定列查询3.1.3 查询字段为表达式(都是临时表不会对原有表数据产生影响)…

数据结构之时间复杂度与空间复杂度

算法的时间复杂度和空间复杂度是衡量算法效率的两个重要指标。 时间复杂度 时间复杂度描述了算法运行时间随输入规模增长的变化趋势。通常用大O符号(O)表示,忽略常数和低阶项,关注最高阶项。 常见时间复杂度 1. O(1)&#xff1…

【deepseek实战】绿色好用,不断网

前言 最佳deepseek火热网络,我也开发一款windows的电脑端,接入了deepseek,基本是复刻了网页端,还加入一些特色功能。 助力国内AI,发出自己的热量 说一下开发过程和内容的使用吧。 目录 一、介绍 二、具体工作 1.1、引…

携程Android开发面试题及参考答案

在项目中,给别人发的动态点赞功能是如何实现的? 数据库设计:首先要在数据库中为动态表添加一个点赞字段,用于记录点赞数量,同时可能需要一个点赞关系表,记录用户与动态之间的点赞关联,包括点赞时间等信息。界面交互:在 Android 界面上,为点赞按钮设置点击事件监听器。…