分布式通信包(已弃用）-torch.distributed.deprecated

警告

torch.distributed.deprecated 是 torch.distributed 的早期版本，当前已被弃用，并且很快将被删除。请参照使用 torch.distributed 的文档，这是PyTorch最新的分布式通信包。

torch.distributed提供类似MPI的接口，用于跨多机网络交换张量数据。它提供一些不同的后台并且支持不同的初始化方法。

当前的torch.distributed.deprecated支持四个后台，每个都有不同的功能。这个表展示了对于CPU/GPU张量来说，哪些函数是可以使用的。只有在用于构建PyTorch的实现支持时，MPI才支持cuda。

基础

torch.distributed.deprecated为在一台或多台机器上运行的多个计算节点上的多进程并行性提供PyTorch支持和通信原语。torch.nn.parallel.deprecated.DistributedDataParallel()类以此功能为基础，提供同步分布式训练，作为任何PyTorch模型的包装器。这与Multiprocessing包提供的那种并行性不同，torch.multiprocessing和torch.nn.DataParallel()支持多个联网的计算机，并且用户必须为每个进程显式地启动主要训练脚本的独立副本。

在单机同步的情况下，torch.distributed.deprecated或者torch.nn.parallel.deprecated.DistributedDataParallel()包装器仍比其他数据并行方法有优势，包括torch.nn.DataParallel(): * 每个进程都维护自己的优化器，并在每次迭代时执行完整的优化步骤。虽然这可能看似多余，但由于梯度已经聚集在一起并且在整个过程中进行平均，因此对于每个过程都是相同的，这意味着不需要参数广播步骤，从而减少了在节点之间传输张量所花费的时间 * 每个进程都包含一个独立的Python解释器，消除了额外的解释器开销以及来自单个Python进程驱动多个执行单元、模型副本或者GPUs的“GIL-thrashing”

初始化

在调用任何其他方法之前，需要使用torch.distributed.deprecated.init_process_group(）函数初始化包。这将阻止所有进程加入。

torch.distributed.deprecated.init_process_group(backend, init_method='env://', **kwargs)

初始化分布式包

参数： * backend(str)-待使用后台的名字。取决于构建时配置有效值，包括：tco,mpi,gloo以及nccl。 * init_method(str,optional)-指定如何初始化包的URL * world_size(int,optional)-参与的进程数量 * rank(int,optional)-当前进程的等级 * group_name(str,optional)-组名。可以参考初始化方法的描述。

设置backend == mpi，需要在支持MPI的系统上用源码构建。如果您想使用支持CUDA的Open MPI，请使用Open MPI主要版本2及更高版本。

注意

此方法初始化CUDA上下文。因此，如果多个进程在单个计算机上运行但使用不同的GPU，请确保在此方法之前使用torch.cuda.set_device(）以避免在第一个可见设备上不必要地创建上下文。

torch.distributed.deprecated.get_rank()

返回当前进程的等级。Rank是分配给分布式组中每个进程的唯一标识符。它们总是连续的整数，范围从0到world_size - 1(包括）。

torch.distributed.deprecated.get_world_size()

返回分布式组中进程的数量。

当前支持三种初始化方法：

TCP初始化

有两种使用TCP初始化的方法，两种方法都需要从所有进程可以访问的网络地址和所需的world_size。第一种方法需要指定属于rank 0进程的地址。此初始化方法要求所有进程都具有手动指定的等级。

或者，地址必须是有效的IP多播地址，在这种情况下，可以自动分配等级。多播初始化还支持group_name参数，该参数允许您为多个作业使用相同的地址，只要它们使用不同的组名称即可。

import torch.distributed.deprecated as dist

#Use address of one of the machines
dist.init_process_group(backend, init_method='tcp://10.1.1.20:23456', rank=args.rank, world_size=4)

#or a multicast address - rank will be assigned automatically if unspecified
dist.init_process_group(backend,init_method='tcp://[ff15:1e18:5d4c:4cf0:d02d:b659:53ba:b0a7]:23456',world_size=4)

共享文件系统初始化

另一种初始化方法使用从组中的所有机器共享和可见的文件系统，以及期望的world_size。 URL应以file：//开头，并包含共享文件系统上不存在的文件(在现有目录中）的路径。此初始化方法还支持group_name参数，该参数允许您为多个作业使用相同的共享文件路径，只要它们使用不同的组名称即可。

警告

此方法假定文件系统支持使用fcntl进行锁定 - 大多数本地系统和NFS都支持它

import torch.distributed.deprecated as dist

#Rank will be assigned automatically if unspecified
dist.init_process_group(backend, init_method='file:///mnt/nfs/sharedfile',
                    world_size=4, group_name=args.group)

环境变量初始化

此方法将从环境变量中读取配置，从而可以完全自定义信息的获取方式。要设置的变量是：

MASTER_PORT-必要；必须是机器上的自由端口且等级为0
MASTER_ADDR-必要(除非等级为0）；等级为0的节点的地址
WORLD_SIZE-必要；可以在这里设置，也可以在调用初始化函数中
RANK-必要；可以在这里设置，也可以在调用初始化函数中

等级为0的机器将用于设置所有连接。

这是默认方法，这意味着不必指定init_method(或者可以是env：//）。

组

默认情况下，集合体在默认组(也称为世界）上运行，并要求所有进程都进入分布式函数调用。但是，一些工作负载可以从更细粒度的通信中受益。这是分布式群体发挥作用的地方。new_group()函数可以用来创建具有所有进程的任意子集的新组。它返回一个不透明的组句柄，可以作为所有集合体的组参数给出(集合体是分布式函数，用于在某些众所周知的编程模式中交换信息）。

torch.distributed.deprecated.new_group(ranks=None)

创建一个新的分布式组。

此功能要求主组中的所有进程(即，作为分布式作业一部分的所有进程）都进入此功能，即使它们不是该组的成员也是如此。此外，应在所有进程中以相同的顺序创建组。

rank

点到点通讯

torch.distributed.deprecated.send(tensor, dst)

同步发送张量。

参数：

tensor(Tensor)-接受数据的张量
dst(int)-目的等级

orch.distributed.deprecated.recv(tensor, src=None)

同步接收张量。

参数：

tensor(Tensor)-接收数据的张量
src(int,optional)-源等级，如果未指定，将会接受任意进程的数据

sender

isend(）和irecv(）在使用时返回分布式请求对象。通常，此对象的类型未指定，因为它们永远不应手动创建，但它们保证支持两种方法：

is_completed()-操作完成返回真
wait()-将阻止该过程，直到操作完成。 is_completed(）保证一旦返回就返回True。

当使用MPI后台时，isend()和irecv()支持非插队特性，这样可以保证信息的顺序。关于更多细节，请访问 http://mpi-forum.org/docs/mpi-2.2/mpi22-report/node54.htm#Node54

torch.distributed.deprecated.isend(tensor, dst)

异步发送张量。

参数：

tensor(Tensor)-发送的张量
dst(int)-目的等级

dis

torch.distributed.deprecated.irecv(tensor, src)

异步接收张量

参数：

tensor(Tensor)-接收数据的张量
src(int)-源等级

dis

集体函数

torch.distributed.deprecated.broadcast(tensor, src, group=<object object>)

将张量广播到整个组。

tensor必须在参与集合体的所有过程中具有相同数量的元素。

参数：

分布式通信包(已弃用）-torch.distributed.deprecated

基础

初始化

TCP初始化

共享文件系统初始化

环境变量初始化

组

点到点通讯

集体函数

多GPU整体函数

启动实用程序

如何使用这个模块：