ML system 入坑指南 | 摸黑干活
最近ChatGpt大火,越来越多开始关注大模型2,但对于大模型落地而言,除了先进的算法,其背后的MLsystem(机器学习系统), 从分布式训练到高效推理的完整链路同样重要, 好的基础设施是应用爆发的基础.
作为一个入坑MLsys快两年半的练习生, 本文主要围绕自己学习的经历来构筑,会持续更新,希望能给希望入坑的新人一个指引,也给非Mlsys背景但感兴趣的其他领域的同学一些启发.
Course
首先是课程,入坑MLsys,基本的计算机背景知识比如数据结构就不多聊了,更多讲讲一些更加专业性的进阶课程,
Operating System
南京大学JYY OS
南京大学JYY老师开的操作系统课内容非常硬核, workload巨大,课程质量比肩四大
MIT 6.S081
MIT经典OS课,资料,lab都非常全
- 课程主页
- MIT 6.S081 中文 Tutorial Book
Parallel computing
CMU15418 Parallel computing
并行计算非常好的入门课,内容硬核,workload巨大,涉及现代多处理器,CPU加速比如SIMD,分布式通讯协议MPI,GPU加速Cuda编程,异构计算,同步,Cache
- 课程主页
UCB cs267 Applications of Parallel Computers
HPC祖师爷 Jim Demmel 22 spring最新版本,
- 课程主页
Distributed system
MIT6.824分布式系统
这门课推荐的人也非常多了,用go实现,了解传统的分布式系统知识和历史对现代的分布式机器学习系统的学习还是有一定的帮助,不过对于做MLsys不是必须.
- 课程主页
MLSystem
CMU DL System
陈天奇老师的课,涉及nn库实现,自动微分,GPU加速,模型部署和部分AI编译内容,内容除了分布式训练涉及的不够,基础的MLsys还是非常全面的.
- 课程主页
Mini torch
完全用python实现的简单torch版本,涉及自动微分,张量,GPU加速.适合新手入门
- 课程主页
机器学习系统:设计和实现
华为Mindspore团队(没错,就是我打过工的Team)和一群大佬AP搞的, 计算图,编译器前后端,分布式训练都有涉及,内容比较全面,比较适合有一定基础的人阅读或者作为工具书.
- 主页
System for AI
微软发起的,目前还在快速迭代更新的工具书,舍和补全基础.
- 主页
AI Compilation
Machine Learning Compilation
还是陈天奇老师的课,以TVM为基础, AI编译器这样前沿的领域为数不多的课.
- 课程主页
Large model
对于做ML system 的同学而言,了解一些最新的算法也是非常必要的,不用过度关系一些fancy的技巧,更多关注模型架构,参数,大的范式上的变化即可.
算法的业界进展确实太快了,很难有系统的课,某些顶级大学会用讲座的形式开展,去讲GPT,PLAM这样的大模型, 看论文和