【AI系统内容推荐第26期】更新一下我对深度学习编译器和框架的认识;OpenPPL 中的卷积优化技巧;机器学习访存密集计算编译优化框架AStitch

news/2024/11/29 7:35:52/

1、更新一下我对深度学习编译器和框架的认识

深度学习基础软件里最hard core的问题有两个,一个是微观层次的auto codegen,即用领域特定语言 DSL 描述一个算法的逻辑,自动生成在各种后端上最高效的代码;另一个是宏观层次的自动分布式并行,也就是用户面向单卡写一个神经网络模型,框架自动生成在特定拓扑结构连接的多机多卡上运行的分布式代码。OneFlow团队和世界上其它同行最近做的一些工作,给我越来越强的信号,这些问题,无论是微观层次,还是宏观层次,都快要被解决了。

链接:袁进辉:更新一下我对深度学习编译器和框架的认识

2、机器学习访存密集计算编译优化框架AStitch,大幅提升任务执行效率

AStitch通过编译优化的手段来自动化地提高机器学习任务的执行效率, 提出了一种大粒度计算融合的编译优化手段,通过计算图的依赖关系特性、GPU多层次存储架构上的数据局部性、以及不同数据尺寸之下的线程并发性等三个方面的联合考虑,自动化地为大粒度的复杂访存密集算子子图生成高效的GPU代码,从而大幅减少GPU kernel调用及框架层算子调度的额外开销,避免了不必要的重复计算。大幅减少片外访存的同时,可适配各种数据尺寸以得到最佳并行效率。对比XLA[1],AStitch最高可以取得2.73倍的性能加速。

链接:阿里灵杰:【ASPLOS 2022】机器学习访存密集计算编译优化框架AStitch,大幅提升任务执行效率

3、一文轻松掌握深度学习框架中的einsum

本文主要介绍了如何理解 PyTorch 中的爱因斯坦求和 (einsum) ,并结合实际例子讲解和 PyTorch C++实现代码解读,希望读者看完本文后掌握 einsum 的基本用法。

链接:一文轻松掌握深度学习框架中的einsum

4、一文理解深度学习框架中的InstanceNorm

本文主要推导 InstanceNorm 关于输入和参数的梯度公式,同时还会结合 PyTorch 和 MXNet 里的 InstanceNorm 代码来分析。

链接:一文理解深度学习框架中的InstanceNorm

5、CUDA GEMM 理论性能分析与 kernel 优化

GEMM(General Matrix Multiplication,通用矩阵乘法)是并行计算中经典的计算密集型应用,也是入门计算密集型 CUDA 程序优化非常好的例子,本文从 CUDA GEMM 实现方案的理论性能分析和 kernel 代码优化技巧两个方面分享如何将 GEMM 性能优化到接近设备理论算力。

链接:李少侠:[施工中] CUDA GEMM 理论性能分析与 kernel 优化

6、OpenPPL 中的卷积优化技巧

本文将介绍 OpenPPL 目前开源的卷积算子实现方法,从算法层面介绍 OpenPPL 在 Tensor Core 上的设计方法和优化经验。不涉及 mma 指令、ldmatrix 指令等的使用技巧,比如 conflict-free 的数据搬运、shared memory 的数据排布等,相关知识可以参考 ptx 手册及英伟达官方的教程。

链接:OpenPPL:OpenPPL 中的卷积优化技巧

7、GPU在外卖场景精排模型预估中的应用实践

GPU等专用芯片以较低的成本提供海量算力,已经成为机器学习领域的核心利器,在人工智能时代发挥着越来越重要的作用。如何利用GPU这一利器赋能业务场景,是很多技术研发者都要面临的问题。本文分享了美团外卖搜索/推荐业务中模型预估的GPU架构设计及落地的过程,希望能对从事相关应用研发的同学有所帮助或启发。

链接:GPU在外卖场景精排模型预估中的应用实践

8、机器内存不够怎么办?梯度累积算法快速帮你解决

在深度学习训练的时候,数据的batch size大小受到GPU内存限制,batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下,模型越来越大,那么这就意味着数据的batch size智能缩小,这个时候,梯度累积(Gradient Accumulation)可以作为一种简单的解决方案来解决这个问题。

链接:机器内存不够怎么办?简易好用的梯度累积算法快速帮你解决!

9、强化学习算法成功控制核聚变;元宇宙里的AI玩出新花样

近期业内发布了这些有趣且重要的AI应用:Nature重磅,DeepMind利用强化学习算法成功控制核聚变装置;突破原有技术应用形态,Meta元宇宙这样玩AI;告别渣画质动漫视频,B站开源动漫超分辨率模型;2D图片生成3D新模型,NeROIC让你的手办更精致

链接:强化学习算法成功控制核聚变;元宇宙里的AI玩出新花样

其他人都在看

  • OneFlow实习岗位热招

  • 计算机架构的新黄金时代

  • 那些在开源世界顶半边天的女同胞们

  • 一文理解深度学习框架中的InstanceNorm

  • 计算机史最疯狂一幕:“蓝色巨人”奋身一跃

  • 30年做成三家独角兽公司,AI芯片创业的底层逻辑

欢迎下载体验OneFlow新一代开源深度学习框架:

https://github.com/Oneflow-Inc/oneflowicon-default.png?t=M276https://github.com/Oneflow-Inc/oneflow


http://www.ppmy.cn/news/487271.html

相关文章

开源风暴吞噬AI界?从Stable Diffusion的爆火说起

近日,文本生成图像模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资,估值达10亿美元,这家基于开源社区的“草根”企业的风头一时间甚至盖过了业界顶级研究机构OpenAI。 本文作者认为,尽管开源项目存在商业…

强大到离谱!硬核解读Stable Diffusion(完整版)

原文链接: 硬核解读Stable Diffusion(完整版) 2022年可谓是AIGC(AI Generated Content)元年,上半年有文生图大模型DALL-E2和Stable Diffusion,下半年有OpenAI的文本对话大模型ChatGPT问世,这让冷却的AI又沸腾起来了,因为AIGC能让更多的人真真切切感受到AI的力量。这篇…

强烈安利试试这个!效果爆炸的漫画变身AI,火到服务器几度挤爆

转自:量子位 “排队1241人,等待2600秒……” ——这届网友为了看一眼自己在动漫里的样子,可真是拼了! “始作俑者”是一款可以把人像变动漫的生成器。 只需一张图片或一段视频,无论男女老少、明星素人都可以一睹自己的…

styleGAN环境搭建 、 动漫模型效果测试

📙 声明: 本博文的主体内容借鉴该博文: https://blog.csdn.net/weixin_41943311/article/details/100539707 我主要做的工作是精简流程和测试记录,想了解更多内容可以关注 https://blog.csdn.net/weixin_41943311 博客主页下的一…

CSAPP - LinkLab实验(阶段1-5)

LinkLab实验&#xff08;阶段1-5&#xff09; 官网&#xff1a;http://csapp.cs.cmu.edu/3e/labs.html 实验内容 每个实验阶段&#xff08;共5个&#xff09;考察ELF文件组成与程序链接过程的不同方面知识 阶段1&#xff1a;全局变量 <-> 数据节 阶段2&#xff1a;强符…

npm安装失败;node_modules拷贝;

当前版本&#xff1a; node版本&#xff1a;12.16.3npm版本&#xff1a;6.14.4cnpm版本&#xff1a;7.1.0 npm装包失败&#xff1a; 解决办法1&#xff1a;使用cnpm淘宝镜像装包&#xff08;如果需要拷贝node_modules包&#xff0c;使用cnpm装的包会有拷贝不全丢包问题导致包…

【Java】统计字符个数

package day4; //字数统计 import java.util.Scanner;public class StringDemo3 {public static void main(String[] args) {Scanner scnew Scanner(System.in);System.out.println("请输入一个字符串");String line sc.nextLine();// 统计三种字符个数int b…

Java统计英文字母、空格、数字和其它字符的个数

Java统计英文字母、空格、数字和其它字符的个数 输入一行字符&#xff0c;分别统计出其中英文字母、空格、数字和其它字符的个数. 方法一&#xff1a; package test; import java.util.Scanner; public class Chuan {public static void main(String[] args) {Scanner scnew…