torch.cuda.empty_cache无法释放显存的原因

news/2024/11/24 11:33:50/

众所周知,Pytorch中简单地del某个tensor并不能释放掉该tensor占用的显存,还需要搭配torch.cuda.empty()来进行。但是,这也有例外。比如,如果该tensor在一个依然alive的计算图中,就无法被释放显存。下面是示例:

import torchdef active_bytes():stats = torch.cuda.memory_stats()current_active_byte =  stats['active_bytes.all.current']return current_active_byte# initial usage
print("Init usage {}". format(active_bytes()))# vanilla tensor
x = torch.randn((256, 128), device='cuda')
w = torch.randn((128, 512), device='cuda')
l = torch.matmul(x, w)
print("Vanilla tensor {}". format(active_bytes()))del x
print("Vanilla tensor: del x {}". format(active_bytes()))
del w
print("Vanilla tensor: del w {}". format(active_bytes()))
l = l.cpu()
print("Vanilla tensor: l = l.cpu() {}". format(active_bytes()))# requires_grad=True
x = torch.randn((256, 128), device='cuda', requires_grad=True)
w = torch.randn((128, 512), device='cuda', requires_grad=True)
l = torch.matmul(x, w)
print("requires_grad=True {}". format(active_bytes()))del x
print("requires_grad=True: del x {}". format(active_bytes()))
del w
print("requires_grad=True: del w {}". format(active_bytes()))
l = l.cpu()
print("requires_grad=True: l = l.cpu() {}". format(active_bytes()))

以上代码的运行结果如下:

Init usage 0
Vanilla tensor 917504
Vanilla tensor: del x 786432
Vanilla tensor: del w 524288
Vanilla tensor: l = l.cpu() 0
requires_grad=True 917504
requires_grad=True: del x 917504
requires_grad=True: del w 917504
requires_grad=True: l = l.cpu() 393216

可以看到:在设置叶子节点x、w的requires_grad=True之后,del并不能释放x、w所占用的显存。我的理解是:w、x均需参与backward的过程,属于计算图的一部分,而此时计算图仍然“alive”,所以无法释放w、x的显存。那么,我把计算图整个移走可不可以呢?答案是:不行。Pytorch的计算图一旦初始化(即调用了forward),就不会改变位置。也就是说,如果你在某块GPU上进行了forward操作,你就只能在这块GPU上进行backward。

这种机制导致了一个很现实的状况:你在训练模型前最好提前估算好模型占用的显存规模,乖乖地选择一块显存足够用的GPU(nvidia狂喜)。


http://www.ppmy.cn/news/464712.html

相关文章

torch.cuda.empty_cache()运行时主动清理GPU memory

这篇forum信息量很大,先马住: https://discuss.pytorch.org/t/how-can-we-release-gpu-memory-cache/14530 另外还有这篇blog也可以参考

CUDA——L1缓存全局内存加载

已知A和B两个数组类型int,尺寸100。现在使用一些thread来将A中的一些元素复制到B中去。通过一些对比,来明确一些基本概念。 L1缓存的载入事务粒度是128字节。 #- 编译中显式开启L1缓存,启动一个warp,加载的数据为128字节&#x…

pytorch的显存机制torch.cuda.empty_cache()

转自:https://oldpan.me/archives/pytorch-gpu-memory-usage-track 注意 本文撰写时间为2019年,相关内容可能已失效 Pytorch已经可以自动回收我们不用的显存,类似于python的引用机制,当某一内存内的数据不再有任何变量引用时&…

【pytorch】torch.cuda.empty_cache()==>释放缓存分配器当前持有的且未占用的缓存显存

Pytorch 训练时无用的临时变量可能会越来越多,导致 out of memory ,可以使用下面语句来清理这些不需要的变量。 torch.cuda.empty_cache() 官网 上的解释为: Releases all unoccupied cached memory currently held by the caching allocato…

为什么一打开Adobe Creative Cloud 桌面上就会出现一个GPUCache文件夹

是因为Adobe Creative Cloud打开后,后台有baiAdobe Creative Cloud要进行的项目,但是还没完全进du行完成zhi卡住了导致。GPUCache文件夹dao正常删除或对文件夹的任何操作皆为文件被占用(与adobecloud开启与否无关),用c…

Tensorflow100%占用GPU内存

在使用GPU进行“炼丹”的过程中,经常会出现,明明数据不是很大,网络规模也很小,batch_size也不大,但是GPU内存占用瞬间拉满。GPU内存拉满的原因可能时Tensorflow默认将内存全部沾满,以利用大块内存&#xff…

显存优化 | Pytorch的显存机制torch.cuda.empty_cache及周边概念

注:文中涉及一些内部底层实现机制,可能和大家外界看到的不一样,这里略过不做介绍。借着笔记,分享平时碰到的技术点,不高端,不炫酷,对你有用更好了。 最近在做模型的优化工作,主要涉…

9. CUDA shared memory使用------GPU的革命

9. CUDA shared memory使用------GPU的革命 序言:明年就毕业了,下半年就要为以后的生活做打算。这半年,或许就是一个抉择的时候,又是到了一个要做选择的时候。或许是自己的危机意识比较强,一直都觉得自己做得不够好&a…