[pytorch] 运行一段时间后 GPU OOM

2022-09-28 10:46:12

pytorch的dataloader会将数据传到GPU上，这个过程GPU的mem占用会逐渐增加，为了避免GPUmen被无用的数据占用，可以在每个step后用del删除一些变量，也可以使用torch.cuda.empty_cache()释放显存：

del targets, input_k, input_mask
torch.cuda.empty_cache()

这时能观察到GPU的显存一直在动态变化。

但是上述方式不是一个根本的解决方案，因为他受到峰值的影响很大。比如某个batch的数据量明显大于其他batch，可能模型处理该batch时显存会不够用，这也会导致OOM，虽然其他的batch都能顺利执行。

显存的占用跟这几个因素相关：

模型参数量
batch size
一个batch的数据 size

通常我们不希望改变模型参数量，所以只能通过动态调整batch-size，使得一个batch的数据 size不会导致显存OOM：

ilen = int(sorted_data[start][1]['input'][0]['shape'][0])
olen = int(sorted_data[start][1]['output'][0]['shape'][0])
# if ilen = 1000 and max_length_in = 800
# then b = batchsize / 2
# and max(1, .) avoids batchsize = 0
# 太长的句子会被动态改变bsz，单独成一个batch，否则padding的部分就太多了，数据量太大，OOM
factor = max(int(ilen / max_length_in), int(olen / max_length_out))
b = max(1, int(batch_size / (1 + factor)))
#b = batch_size
end = min(len(sorted_data), start + b)
minibatch.append(sorted_data[start:end])
if end == len(sorted_data):
    break
start = end

此外，如何选择一个合适的batchsize也是个很重要的问题，我们可以先对所有数据按照大小（长短）排好序（降序），不进行shuffle，按照64,32,16依次尝试bsz，如果模型在执行第一个batch的时候没出现OOM，那么以后一定也不会出现OOM（因为降序排列了数据，所以前面的batch的数据size最大）。

作者：ASR_THU
原文链接：https://blog.csdn.net/zongza/article/details/98647490
更新时间：2022-09-28 10:46:12

相关文章

Python3中闭包介绍
Python3中的闭包(closure)是一个函数对象，它记住封闭作用域(enclosing function
2022-10-11

mysql存储文件以及导出，附shell脚本实现
mysql存储文件以及导出，附shell脚本实现
2022-10-11

java中的多线程+手写死锁+线程池
java线程的基本方法：Thread类，Runnable接口。线程的创建方法：Thread();Thread
2022-10-11

Pytorch中的register_buffer()
Pytorch中的register_buffer1.register_buffer( )的使用随着例子边看边讲
2022-10-11

随机文章

vue封装request携带token
vue封装request携带token
2022-03-18

js常用的几种数组去重方法详解
1.indexof数组去重数组去重描述：从数组中找到相同的元素，并将相同的元素删除；保证数组中的每个元素都是独
2022-02-20

python打包成exe_如何将python脚本封装成exe程序？
我们在编写代码时候，，有没有想过怎么去运行这个代码，绝非是在编程软件里的预览哦。而是让用户去使用，绝对要成一个
2022-05-12

Jenkins + Maven + Harbor + SVN集成打包SpringBo
搭建了持续集成环境，按照下图跑自动构建自动部署流程：先完成到了打包进入Harbor这一步了。还是先说明一下安装
2022-03-13

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录