Pytorch evaluation阶段GPU内存持续上涨

2022-10-27 08:09:24

这是一段DeBERTa的代码，会在evaluation阶段造成GPU内存持续上涨，小内存的GPU很容易就OOM

    predicts=[]
    labels=[]
    for batch in tqdm(AsyncDataLoader(eval_dataloader), ncols=80, desc='Evaluating: {}'.format(prefix), disable=no_tqdm):
      batch = batch_to(batch, device)
      with torch.no_grad():
        output = model(**batch)
      logits = output['logits'].detach()
      tmp_eval_loss = output['loss'].detach()
      if 'labels' in output:
        label_ids = output['labels'].detach().to(device)
      else:
        label_ids = batch['labels'].to(device)
      predicts.append(logits)
      labels.append(label_ids)
      eval_loss += tmp_eval_loss.mean().item()
      input_ids = batch['input_ids']
      nb_eval_examples += input_ids.size(0)
      nb_eval_steps += 1

原因就是代码中predicts和labels一直被保留着，而且是在GPU上，为了解决这个问题，我们应该将数据放在CPU上，改成一下即可

predicts=[]
    labels=[]
    for batch in tqdm(AsyncDataLoader(eval_dataloader), ncols=80, desc='Evaluating: {}'.format(prefix), disable=no_tqdm):
      batch = batch_to(batch, device)
      with torch.no_grad():
        output = model(**batch)
      logits = output['logits'].detach().cpu() # 修改
      tmp_eval_loss = output['loss'].detach()
      if 'labels' in output:
        label_ids = output['labels'].detach().cpu() # 修改
      else:
        label_ids = batch['labels'].cpu() # 修改
      predicts.append(logits)
      labels.append(label_ids)
      eval_loss += tmp_eval_loss.mean().item()
      input_ids = batch['input_ids']
      nb_eval_examples += input_ids.size(0)
      nb_eval_steps += 1

作者：咆哮蜗牛
原文链接：https://blog.csdn.net/x_yz_/article/details/121197803
更新时间：2022-10-27 08:09:24

相关文章

OkHttp3 超时设置
目录1，AsyncTimeout2-1，耗时段介绍「从上往下」2-2，4个超时设置「OkHttpClient.
2023-03-28

解决二进制方式安装 docker 不能使用 systemd(systemctl) 工
一、引言接触 docker 已经有一段时间了，在这段时间里面，我使用二进制的方式安装了最新版的 docker，
2023-03-28

C语言中弱符号与弱引用的实际应用
最近在学习《程序员的自我修养——链接、装载与库》时，get到了一个新的知识点：弱符号与弱引用。书中简短的介绍，
2023-03-28

05.MyBatis学习--全局配置文件_typeAliases_别名
通常，我们在xml映射文件中，的返回值类型都是写全类名，但是全类名太长，这时候，我们就可以通过起别名的方式来进
2023-03-28

随机文章

Redis过期策略
一设置了过期时间定期删除+惰性删除定期删除: redis默认每隔100ms就随机抽取一些设置了过期时间的ke
2022-09-05

springboot统一返回结果封装
大多数公司使用的都是前后端分离框架，例如springboot+vue，springboot+react等，因此
2022-09-05

Zookeeper——Java客户端API使用
Zookeeper作为一个分布式服务框架，主要用来解决分布式数据一致性问题，它对多种编程语言提供了API。下面
2022-09-05

Zookeeper分布式一致性协议ZAB
1、分布式一致性协议ZAB详解Zookeeper Atomic Broadcast（Zookeeper 原子广
2022-09-05

文章导航