Pytorch--分布式训练DistributedDataParallel

2022-10-13 08:36:49

DistributedDataParallel介绍

DistributedDataParallel介绍

为什么使用DistributedDataParallel

在并行训练中使用DataParallel进行分布式运算时容易遇到list没有复制到GPU等各种问题，导致无法进行分布式计算，然而pytorch推荐的DistributedDataParallel能大大降低bug的发生，因此本文介绍一下DistributedDataParallel函数的正确使用。

DistributedDataParallel使用方法

parser.add_argument('--local_rank', default=-1,type=int)
args= parser.parse_args()

首先需要定义local_rank参数，其表示进程对应的GPU编号，不加的话会报错！

初始化环境

if args.local_rank!=-1:
    torch.cuda.set_device(args.local_rank)
    device=torch.device("cuda", args.local_rank)
    torch.distributed.init_process_group(backend="nccl", init_method='env://')

将模型放入GPU，并进行分布式训练

model.to(device)# 将模型放入GPU中
model= nn.parallel.DistributedDataParallel(teacher_model, device_ids=[args.local_rank],
                                                output_device=args.local_rank)

调整DataLoder函数

这里需要将pin_memory设置为True，可以提高模型训练速度。

train_dataloader= DataLoader(train_datasets, sampler=train_sampler, batch_size=args.train_batch_size,
num_workers=args.num_workers, pin_memory=True)

分布式程序在终端中的启动指令

python-m torch.distributed.launch--nproc_per_node=NUM_GPU train.py

此处NUM_GPU为使用的GPU数量。同时也可以在前面加入CUDA_VISIBLE_DEVICES指定使用GPU的编号。

CUDA_VISIBLE_DEVICES=0,1,2 python-m torch.distributed.launch--nproc_per_node=3 train.py

这是表示使用GPU编号为0,1,2的三块显卡进行训练。0

作者：程序员毛师傅
原文链接：https://blog.csdn.net/qq_42035274/article/details/124075646
更新时间：2022-10-13 08:36:49

相关文章

springboot在开发文件下载过程中出现的文件损坏问题
链接：https://www.jianshu.com/p/f4016e2e1158https://blog.c
2022-08-07

JAVA一门强大的面向对象编程语言
JAVA————一门强大的面向对象编程语言Java是一门面向对象编程语言，不仅吸收了C++语言的各种优点，还摒
2022-08-07

openpyxl使用实例
* coding:utf-8 *import openpyxlclass HandleExcel:“”"处理e
2022-08-07

Spring JWT 生成 Token
Spring Jwt 生成 Token由来当前后端结合的时候可以根据请求返回数据，在服务端储存 cookie，
2022-08-07

随机文章

vue中scoped的问题、样式穿透
vue中scoped让css样式只作用于当前文件的原理如果在vue文件中的style标签中写上了scoped属
2022-07-25

SpringBoot高级(自动配置事件监听监控)
SpringBoot高级SpringBoot高级SpringBoot自动配置condition-1Condit
2022-07-25

vue style样式中scoped无效解决方案
如果你使用的是import方法导入样式后无效，解决方案如下：// 第一种（最快捷）将<style sco
2022-07-25

CSS几种定位的使用
默认值static这个是我们不使用定位的默认值。即position:static相对定位relative相对定
2022-07-25

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录