PyTorch 分散チェックポイント徹底解説：DefaultLoadPlanner を使いこなす

2024-04-02

PyTorch の分散チェックポイントと DefaultLoadPlanner

DefaultLoadPlanner は、以下の動作を行うシンプルなロードプランナーです。

モデルの状態を複数のファイルに分割します。
各ファイルを異なる GPU に読み込みます。
すべてのファイルが読み込まれるまで、GPU を同期します。

DefaultLoadPlanner は、以下の利点があります。

実装が簡単です。
多くの場合、良好なパフォーマンスを発揮します。

しかし、DefaultLoadPlanner は、以下の欠点もあります。

すべての GPU が同じ速度で読み込みを行う必要があるため、遅い GPU によって全体のパフォーマンスが制限される可能性があります。
ネットワーク帯域幅が制限されている場合、ファイルの読み込みに時間がかかる可能性があります。

DefaultLoadPlanner を使用するには、以下のコードを使用します。

from torch.distributed.checkpoint import DefaultLoadPlanner

# ロードプランナーを作成します。
load_planner = DefaultLoadPlanner()

# チェックポイントファイルを読み込みます。
checkpoint = torch.load("checkpoint.pth", map_location="cpu")

# モデルの状態を復元します。
load_planner.load_checkpoint(checkpoint)

DefaultLoadPlanner は、以下のオプションをサポートしています。

chunk_size: ファイル分割時のチャンクサイズです。
timeout: ファイル読み込みのタイムアウト時間です。
min_chunk_size: 最小チャンクサイズです。

これらのオプションは、パフォーマンスを調整するために使用できます。

DefaultLoadPlanner は、PyTorch の分散チェックポイント機能で使用されるシンプルなロードプランナーです。多くの場合、良好なパフォーマンスを発揮しますが、ネットワーク帯域幅が制限されている場合や、GPU の速度が異なる場合は、他のロードプランナーの方が良いパフォーマンスを発揮する可能性があります。

DefaultLoadPlanner を使用した分散チェックポイントのサンプルコード

import torch
import torch.distributed as dist
from torch.distributed.checkpoint import DefaultLoadPlanner

# 分散環境を初期化します。
dist.init_process_group("nccl", init_method="env://")

# モデルを定義します。
model = torch.nn.Linear(10, 1)

# モデルを訓練します。
for epoch in range(10):
    # ...

# モデルの状態を保存します。
torch.save(model.state_dict(), "checkpoint.pth")

# ロードプランナーを作成します。
load_planner = DefaultLoadPlanner()

# チェックポイントファイルを読み込みます。
checkpoint = torch.load("checkpoint.pth", map_location="cpu")

# モデルの状態を復元します。
load_planner.load_checkpoint(checkpoint)

このコードは、以下の手順を実行します。

分散環境を初期化します。
モデルを定義します。
モデルを訓練します。
モデルの状態を保存します。
ロードプランナーを作成します。
チェックポイントファイルを読み込みます。

異なる GPU 速度に対応するサンプルコード

以下のコードは、異なる GPU 速度に対応するために、chunk_size オプションを使用するサンプルコードです。

# ...

# ロードプランナーを作成します。
load_planner = DefaultLoadPlanner(chunk_size=1024 * 1024)

# ...

このコードは、ファイルを 1MB のチャンクに分割して読み込みます。これにより、遅い GPU がファイルを読み込むのを待っている間に、速い GPU が処理を続行することができます。

ネットワーク帯域幅制限に対応するサンプルコード

以下のコードは、ネットワーク帯域幅制限に対応するために、timeout オプションを使用するサンプルコードです。

# ...

# ロードプランナーを作成します。
load_planner = DefaultLoadPlanner(timeout=10)

# ...

このコードは、ファイル読み込みのタイムアウトを 10 秒に設定します。これにより、ネットワーク帯域幅が制限されている場合でも、ファイル読み込みが長時間になるのを防ぐことができます。

これらのサンプルコードは、DefaultLoadPlanner を使用して分散チェックポイントを行うための参考になります。

DefaultLoadPlanner 以外の分散チェックポイント方法

ShardedLoadPlanner は、モデルの状態をシャードと呼ばれる小さな部分に分割し、各シャードを異なる GPU に読み込むロードプランナーです。ShardedLoadPlanner は、DefaultLoadPlanner よりも以下の利点があります。

ネットワーク帯域幅の使用量を削減できます。
異なる GPU 速度に対応できます。

しかし、ShardedLoadPlanner は、DefaultLoadPlanner よりも実装が複雑です。

PipelinedLoadPlanner は、モデルの状態を複数のファイルに分割し、ファイルをパイプラインで読み込むロードプランナーです。PipelinedLoadPlanner は、DefaultLoadPlanner よりも以下の利点があります。

ファイル読み込み時間を短縮できます。

しかし、PipelinedLoadPlanner は、実装が複雑であり、すべての GPU が同じ速度で読み込みを行う必要があるという制限があります。

自作のロードプランナー

上記以外にも、独自のロードプランナーを作成することもできます。独自のロードプランナーを作成する場合は、以下の点を考慮する必要があります。

ネットワーク帯域幅の使用量
GPU 速度
実装の複雑さ

DefaultLoadPlanner は、PyTorch の分散チェックポイント機能で使用できるシンプルなロードプランナーです。多くの場合、良好なパフォーマンスを発揮しますが、ネットワーク帯域幅が制限されている場合や、GPU の速度が異なる場合は、他のロードプランナーの方が良いパフォーマンスを発揮する可能性があります。

上記のロードプランナーの比較表を参考にして、ニーズに合ったロードプランナーを選択してください。

ロードプランナー	利点	欠点
DefaultLoadPlanner	実装が簡単	ネットワーク帯域幅や GPU 速度の影響を受けやすい
ShardedLoadPlanner	ネットワーク帯域幅の使用量を削減できる	実装が複雑
PipelinedLoadPlanner	ファイル読み込み時間を短縮できる	実装が複雑、すべての GPU が同じ速度で読み込みを行う必要がある

PyTorch 分散チェックポイント徹底解説：DefaultLoadPlanner を使いこなす

PyTorch の分散チェックポイントと DefaultLoadPlanner

DefaultLoadPlanner を使用した分散チェックポイントのサンプルコード

異なる GPU 速度に対応するサンプルコード

ネットワーク帯域幅制限に対応するサンプルコード

DefaultLoadPlanner 以外の分散チェックポイント方法

自作のロードプランナー

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

PyTorchで多 boyut DFT：torch.fft.hfftn()の使い方とサンプルコード

PyTorch初心者でも安心！torch.fft.fftnを使ったサンプルコード集

PyTorchで信号処理を行うその他の方法：フィルタリング、スペクトログラム、波形生成

PyTorchで画像処理： torch.fft.fftshift() を活用した高度なテクニック

PyTorchで確率分布を扱う：NegativeBinomialを超えて

PyTorchにおけるニューラルネットワークの剪定方法：L1Unstructured vs. RandomUnstructured vs. MagnitudeStructured

PyTorch Storage と torch.TypedStorage.float() 以外でテンソルのデータを格納する方法

PyTorchによるベータ分布：エントロピー計算とサンプルコード

画像処理、機械学習、数学における PyTorch Tensor の XOR の活用