ML system 入坑指南

news/2024/9/23 10:25:45/

ML system 入坑指南 | 摸黑干活

最近ChatGpt大火,越来越多开始关注大模型2,但对于大模型落地而言,除了先进的算法,其背后的MLsystem(机器学习系统), 从分布式训练到高效推理的完整链路同样重要, 好的基础设施是应用爆发的基础.

作为一个入坑MLsys快两年半的练习生, 本文主要围绕自己学习的经历来构筑,会持续更新,希望能给希望入坑的新人一个指引,也给非Mlsys背景但感兴趣的其他领域的同学一些启发.

Course

首先是课程,入坑MLsys,基本的计算机背景知识比如数据结构就不多聊了,更多讲讲一些更加专业性的进阶课程,

Operating System

南京大学JYY OS

南京大学JYY老师开的操作系统课内容非常硬核, workload巨大,课程质量比肩四大

MIT 6.S081

MIT经典OS课,资料,lab都非常全

  • 课程主页
  • MIT 6.S081 中文 Tutorial Book

Parallel computing

CMU15418 Parallel computing

并行计算非常好的入门课,内容硬核,workload巨大,涉及现代多处理器,CPU加速比如SIMD,分布式通讯协议MPI,GPU加速Cuda编程,异构计算,同步,Cache

  • 课程主页
UCB cs267 Applications of Parallel Computers

HPC祖师爷 Jim Demmel 22 spring最新版本,

  • 课程主页

Distributed system

MIT6.824分布式系统

这门课推荐的人也非常多了,用go实现,了解传统的分布式系统知识和历史对现代的分布式机器学习系统的学习还是有一定的帮助,不过对于做MLsys不是必须.

  • 课程主页

MLSystem

CMU DL System

陈天奇老师的课,涉及nn库实现,自动微分,GPU加速,模型部署和部分AI编译内容,内容除了分布式训练涉及的不够,基础的MLsys还是非常全面的.

  • 课程主页
Mini torch

完全用python实现的简单torch版本,涉及自动微分,张量,GPU加速.适合新手入门

  • 课程主页
机器学习系统:设计和实现

华为Mindspore团队(没错,就是我打过工的Team)和一群大佬AP搞的, 计算图,编译器前后端,分布式训练都有涉及,内容比较全面,比较适合有一定基础的人阅读或者作为工具书.

  • 主页
System for AI

微软发起的,目前还在快速迭代更新的工具书,舍和补全基础.

  • 主页

AI Compilation

Machine Learning Compilation

还是陈天奇老师的课,以TVM为基础, AI编译器这样前沿的领域为数不多的课.

  • 课程主页

Large model

对于做ML system 的同学而言,了解一些最新的算法也是非常必要的,不用过度关系一些fancy的技巧,更多关注模型架构,参数,大的范式上的变化即可.
算法的业界进展确实太快了,很难有系统的课,某些顶级大学会用讲座的形式开展,去讲GPT,PLAM这样的大模型, 看论文和


http://www.ppmy.cn/news/1450310.html

相关文章

LeetCode 15 —— 三数之和

阅读目录 1. 题目2. 解题思路3. 代码实现 1. 题目 2. 解题思路 首先我们对数组进行从小到大排序,然后遍历数组 [ 0 , n u m s . s i z e ( ) − 3 ] [0,nums.size()-3] [0,nums.size()−3] 作为三元组中的 a a a,由于三元组的索引互不相同&#xff0c…

[C++基础学习]----05-函数详解

前言 在学习C的基础阶段,函数是一个非常重要的概念。函数是用来完成特定任务的一段代码,它可以被多次调用,并且可以接受参数和返回值。 正文 01-函数简介 函数的定义: 在C中,函数的定义通常包括函数的返回类…

WPF之可翻转面板

1&#xff0c;创建翻转面板的资源字典&#xff1a;FlippPanel.xaml。 无外观控件同样必须给样式指定类型&#xff08; <ControlTemplate TargetType"ss:FlipPanel">&#xff09;&#xff0c;相关详情参考&#xff1a;WPF之创建无外观控件-CSDN博客&#xff09…

Go怎么实现map并发安全的三种方式

1. 加锁 对整个map加上读写锁sync.RWMutex 优点&#xff1a;解决了问题。 缺点&#xff1a;锁粒度大。 2. 分片加锁 一个操作会导致整个map被锁住&#xff0c;导致性能降低。所以提出了分片思想&#xff0c;将一个map分成几个片&#xff0c;按片加锁。 第三方包实现&#x…

Kafka如何将消息发送到指定分区

背景 面试一个时&#xff0c;面试官问了一个问题&#xff0c;Kafka如何做到顺序消息。我回答只给Kafka的Topic创建一个分区&#xff0c;发送到该Topic的消息在Kafka中就是有序的。 面试官又问&#xff0c;如果Topic有多个分区呢&#xff1f;我回答消息发送者在发送消息的时候…

论文笔记总结

写论文不能只讲概念&#xff0c;一定要结合项目理论实际。》例如某xxx具体的项目例子&#xff0c;不能描述某一个软件的功能。 1.历年真题 2.十段式划分&#xff08;回应子题目&#xff0c;三个子题目&#xff09; 3.论文模板&#xff0c;万能模板 4.具体主题相关 第一个主…

js,JavaScript 对象(2024-05-02)

对象是 JavaScript 的数据类型之一。 对象用于存储键/值&#xff08;名称/值&#xff09;集合。 JavaScript 对象是命名值的集合。 下例创建具有四个键/值属性的 JavaScript 对象&#xff1a; const person {firstName: "Bill",lastName: "Gates",age:…

如何下载钉钉群直播回放:完整步骤解析

在当今快节奏的商业和教育环境中&#xff0c;钉钉群直播已经成为了沟通和学习的重要工具。直播结束后&#xff0c;很多观众都希望回顾内容&#xff0c;但却不知如何开始。如果你错过了实时直播&#xff0c;或者只是想再次观看精彩的演讲和讨论&#xff0c;那么下载钉钉群直播回…