ZeroRedundancyOptimizerとDistributedDataParallelの比較

2024-04-02

PyTorchの分散オプティマイザー torch.distributed.optim.ZeroRedundancyOptimizer.step() は、大規模なモデルを複数GPUで訓練する際に、メモリ使用量を削減するために用いられる関数です。従来の分散オプティマイザーと異なり、各GPUはモデルパラメータの全てを保持するのではなく、一部のみを保持することでメモリ使用量を抑えます。

仕組み

ZeroRedundancyOptimizer は、以下の手順で動作します。

モデルパラメータを、各GPUのメモリ容量に基づいて複数のシャードに分割します。
各GPUは、割り当てられたシャードのみを保持します。
訓練ステップごとに、各GPUは割り当てられたシャードの勾配を計算します。
計算された勾配は、すべてのGPU間で通信されます。
各GPUは、通信された勾配を使用して、割り当てられたシャードのパラメータを更新します。

利点

メモリ使用量を削減できる
大規模なモデルを複数GPUで訓練できる

欠点

パラメータ更新の順序がランダムになるため、訓練の収束速度が遅くなる可能性がある
実装が複雑

コード例

import torch
import torch.distributed as dist

# 分散訓練の設定
dist.init_process_group("nccl", init_method="env://")

# モデルとオプティマイザーの定義
model = torch.nn.Linear(10, 1)
optimizer = ZeroRedundancyOptimizer(model.parameters())

# 訓練ループ
for epoch in range(10):
    # データの読み込み
    ...

    # 勾配計算
    model.zero_grad()
    loss = model(data).loss()
    loss.backward()

    # パラメータ更新
    optimizer.step()

# 訓練終了
dist.destroy_process_group()

補足

ZeroRedundancyOptimizer は、PyTorch 1.7以降で使用可能です。

ZeroRedundancyOptimizer 以外にも、DistributedDataParallel と組み合わせることでメモリ使用量を削減できる分散オプティマイザーがいくつかあります。詳細は、PyTorchのドキュメントを参照してください。

PyTorchの分散オプティマイザー「torch.distributed.optim.ZeroRedundancyOptimizer.step()」のサンプルコード

シンプルな例

import torch
import torch.distributed as dist

# 分散訓練の設定
dist.init_process_group("nccl", init_method="env://")

# モデルとオプティマイザーの定義
model = torch.nn.Linear(10, 1)
optimizer = ZeroRedundancyOptimizer(model.parameters())

# 訓練ループ
for epoch in range(10):
    # データの読み込み
    ...

    # 勾配計算
    model.zero_grad()
    loss = model(data).loss()
    loss.backward()

    # パラメータ更新
    optimizer.step()

# 訓練終了
dist.destroy_process_group()

データ並列と組み合わせる例

import torch
import torch.distributed as dist
import torch.nn.parallel as nn

# 分散訓練の設定
dist.init_process_group("nccl", init_method="env://")

# モデルとオプティマイザーの定義
model = torch.nn.Linear(10, 1)
model = nn.DataParallel(model)
optimizer = ZeroRedundancyOptimizer(model.parameters())

# 訓練ループ
for epoch in range(10):
    # データの読み込み
    ...

    # 勾配計算
    model.zero_grad()
    loss = model(data).loss()
    loss.backward()

    # パラメータ更新
    optimizer.step()

# 訓練終了
dist.destroy_process_group()

チェックポイントの保存と復元に組み合わせる例

import torch
import torch.distributed as dist
import torch.nn.parallel as nn
import torch.optim as optim

# 分散訓練の設定
dist.init_process_group("nccl", init_method="env://")

# モデルとオプティマイザーの定義
model = torch.nn.Linear(10, 1)
model = nn.DataParallel(model)
optimizer = ZeroRedundancyOptimizer(model.parameters())

# 訓練ループ
for epoch in range(10):
    # データの読み込み
    ...

    # 勾配計算
    model.zero_grad()
    loss = model(data).loss()
    loss.backward()

    # パラメータ更新
    optimizer.step()

    # チェックポイントの保存
    if epoch % 10 == 0:
        torch.save(model.state_dict(), "checkpoint.pth")

# 訓練終了
dist.destroy_process_group()

# モデルの復元
model = torch.nn.Linear(10, 1)
model.load_state_dict(torch.load("checkpoint.pth"))

PyTorchの分散オプティマイザー「torch.distributed.optim.ZeroRedundancyOptimizer.step()」以外の方法

DistributedDataParallel

import torch
import torch.distributed as dist
import torch.nn.parallel as nn

# 分散訓練の設定
dist.init_process_group("nccl", init_method="env://")

# モデルとオプティマイザーの定義
model = torch.nn.Linear(10, 1)
model = nn.DistributedDataParallel(model)
optimizer = torch.optim.SGD(model.parameters())

# 訓練ループ
for epoch in range(10):
    # データの読み込み
    ...

    # 勾配計算
    model.zero_grad()
    loss = model(data).loss()
    loss.backward()

    # パラメータ更新
    optimizer.step()

# 訓練終了
dist.destroy_process_group()

手動でパラメータを分割する

ZeroRedundancyOptimizer 以外にも、手動でパラメータを分割して分散訓練を行う方法があります。この方法は、より柔軟な制御が可能ですが、実装が複雑になります。

その他のライブラリ

PyTorch以外にも、HorovodやDeepSpeedなどの分散訓練用のライブラリがあります。これらのライブラリは、ZeroRedundancyOptimizer などの分散オプティマイザーを自動的に設定してくれるので、より簡単に分散訓練を行うことができます。

どの方法を選択するべきかは、以下の要素を考慮する必要があります。

モデルのサイズ
使用可能なGPUのメモリ容量
必要な柔軟性
実装の複雑さ

ZeroRedundancyOptimizer は、大規模なモデルを複数GPUで訓練する際にメモリ使用量を削減するために用いられる分散オプティマイザーです。他にも、DistributedDataParallel や手動でのパラメータ分割などの方法があります。どの方法を選択するべきかは、上記の要素を考慮する必要があります。

ZeroRedundancyOptimizerとDistributedDataParallelの比較

PyTorchの分散オプティマイザー「torch.distributed.optim.ZeroRedundancyOptimizer.step()」のサンプルコード

シンプルな例

データ並列と組み合わせる例

チェックポイントの保存と復元に組み合わせる例

PyTorchの分散オプティマイザー「torch.distributed.optim.ZeroRedundancyOptimizer.step()」以外の方法

DistributedDataParallel

手動でパラメータを分割する

その他のライブラリ

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

torch.fft.ifftを使いこなせ！画像処理・音声処理・機械学習の強力なツール

PyTorchで多 boyut DFT：torch.fft.hfftn()の使い方とサンプルコード

PyTorchの逆フーリエ変換：torch.fft.ihfftnとその他の方法

PyTorch初心者でも安心！torch.fft.fftnを使ったサンプルコード集

OneHotCategorical.param_shape：PyTorchでカテゴリカル分布を扱うための鍵

GPU並行処理の秘訣！PyTorchにおけるtorch.cuda.set_streamの役割と使い方

要素ごとに異なる値を持つ密行列を構築する torch.Tensor.scatter_add メソッド

PyTorch Tensor の要素抽出： torch.Tensor.masked_select の詳細解説

【PyTorch NN 関数】出力値を滑らかに制限したい？ torch.nn.functional.softplus を使ってみよう