SavePlanner.create_global_plan() のサンプルコード

2024-04-02

torch.distributed.checkpoint.SavePlanner.create_global_plan() は、PyTorch Distributed Checkpoint の重要な機能の一つであり、複数の GPU 上に分散されたモデルのチェックポイントを効率的に保存するための計画を作成します。この関数は、すべての GPU 上のすべてのモジュールの状態を保存する単一のファイルを作成するのではなく、各 GPU 上のモジュールの状態のみを保存する複数のファイルを作成します。これにより、チェックポイントの保存と読み込みが高速化されます。

パラメータ

state_dict: 保存するモジュールの状態辞書。
filename_prefix: 保存されるファイル名のプレフィックス。
global_rank: 現在のプロセスランク。
world_size: プロセスの総数。
backend: 使用するバックエンド。

処理内容

state_dict を分割して、各 GPU 上に保存するモジュールの状態を取得します。
各 GPU 上のモジュールの状態を保存するためのファイル名を作成します。
各 GPU 上のモジュールの状態をファイルに保存します。
すべてのファイルが保存されたら、すべてのファイルを開閉します。

コード例

import torch.distributed.checkpoint as cp

# モジュールの状態を取得
state_dict = model.state_dict()

# ファイル名のプレフィックスを設定
filename_prefix = "my_checkpoint"

# SavePlanner を作成
planner = cp.SavePlanner(state_dict, filename_prefix)

# グローバルプランを作成
global_plan = planner.create_global_plan()

# 各 GPU でプランを実行
for rank, plan in enumerate(global_plan):
    if rank == torch.distributed.get_rank():
        cp.save_on_this_process(plan)

# すべてのファイルを開閉
cp.barrier()

注意事項

SavePlanner は、分散訓練中にのみ使用できます。
create_global_plan() は、すべての GPU 上で一度だけ呼び出す必要があります。
save_on_this_process() は、各 GPU 上で一度だけ呼び出す必要があります。

PyTorch Distributed Checkpoint の SavePlanner.create_global_plan() サンプルコード

シンプルな例

import torch
import torch.distributed as dist
import torch.distributed.checkpoint as cp

def main():
    # モデルを定義
    model = torch.nn.Linear(10, 1)

    # モジュールの状態を取得
    state_dict = model.state_dict()

    # ファイル名のプレフィックスを設定
    filename_prefix = "my_checkpoint"

    # SavePlanner を作成
    planner = cp.SavePlanner(state_dict, filename_prefix)

    # グローバルプランを作成
    global_plan = planner.create_global_plan()

    # 各 GPU でプランを実行
    for rank, plan in enumerate(global_plan):
        if rank == dist.get_rank():
            cp.save_on_this_process(plan)

    # すべてのファイルを開閉
    cp.barrier()

if __name__ == "__main__":
    main()

オプションの指定

import torch
import torch.distributed as dist
import torch.distributed.checkpoint as cp

def main():
    # モデルを定義
    model = torch.nn.Linear(10, 1)

    # モジュールの状態を取得
    state_dict = model.state_dict()

    # ファイル名のプレフィックスを設定
    filename_prefix = "my_checkpoint"

    # オプションを指定
    options = cp.CheckpointOptions(
        compress=True,
        shard_size=1024 * 1024 * 1024,
    )

    # SavePlanner を作成
    planner = cp.SavePlanner(state_dict, filename_prefix, options)

    # グローバルプランを作成
    global_plan = planner.create_global_plan()

    # 各 GPU でプランを実行
    for rank, plan in enumerate(global_plan):
        if rank == dist.get_rank():
            cp.save_on_this_process(plan)

    # すべてのファイルを開閉
    cp.barrier()

if __name__ == "__main__":
    main()

カスタムチェックポイント

import torch
import torch.distributed as dist
import torch.distributed.checkpoint as cp

def custom_checkpoint_fn(state_dict, filename):
    # 独自のチェックポイント保存ロジックを実装
    ...

def main():
    # モデルを定義
    model = torch.nn.Linear(10, 1)

    # モジュールの状態を取得
    state_dict = model.state_dict()

    # ファイル名のプレフィックスを設定
    filename_prefix = "my_checkpoint"

    # カスタムチェックポイント関数を指定
    planner = cp.SavePlanner(state_dict, filename_prefix, checkpoint_fn=custom_checkpoint_fn)

    # グローバルプランを作成
    global_plan = planner.create_global_plan()

    # 各 GPU でプランを実行
    for rank, plan in enumerate(global_plan):
        if rank == dist.get_rank():
            cp.save_on_this_process(plan)

    # すべてのファイルを開閉
    cp.barrier()

if __name__ == "__main__":
    main()

上記のサンプルコードは、PyTorch Distributed Checkpoint の基本的な使い方を示しています。
詳細については、PyTorch Distributed Checkpoint documentation を参照してください。

PyTorch Distributed Checkpoint の SavePlanner.create_global_plan() 以外の方法

SavePlanner を使用せずに、手動でチェックポイントを保存することもできます。

import torch
import torch.distributed as dist

def main():
    # モデルを定義
    model = torch.nn.Linear(10, 1)

    # モジュールの状態を取得
    state_dict = model.state_dict()

    # ファイル名のプレフィックスを設定
    filename_prefix = "my_checkpoint"

    # 各 GPU でチェックポイントを保存
    for rank in range(dist.get_world_size()):
        if rank == dist.get_rank():
            torch.save(state_dict, f"{filename_prefix}_{rank}.ckpt")

    # すべてのファイルを開閉
    dist.barrier()

if __name__ == "__main__":
    main()

第三者のライブラリを使用する

PyTorch Distributed Checkpoint 以外にも、分散訓練用のチェックポイント管理ライブラリがいくつか存在します。

これらのライブラリは、SavePlanner よりも高度な機能を提供する場合があります。

シンプルなチェックポイント保存であれば、SavePlanner を使用するのが最も簡単です。
より高度な機能が必要であれば、手動でチェックポイントを保存するか、第三者のライブラリを使用する必要があります。

PyTorch Distributed Checkpoint の SavePlanner.create_global_plan() は、複数の GPU 上に分散されたモデルのチェックポイントを効率的に保存するための便利な機能です。しかし、要件によっては、他の方法の方が適している場合もあります。

SavePlanner.create_global_plan() のサンプルコード

PyTorch Distributed Checkpoint の SavePlanner.create_global_plan() サンプルコード

シンプルな例

オプションの指定

カスタムチェックポイント

PyTorch Distributed Checkpoint の SavePlanner.create_global_plan() 以外の方法

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

torch.fft.ifftを使いこなせ！画像処理・音声処理・機械学習の強力なツール

画像処理に役立つ PyTorch の Discrete Fourier Transforms と torch.fft.ihfft2()

PyTorch初心者でも安心！torch.fft.fftnを使ったサンプルコード集

PyTorchで画像処理： torch.fft.fftshift() を活用した高度なテクニック

PyTorch NN 関数における torch.nn.functional.celu の詳細解説

torch.ao.quantization.fx.custom_config.ConvertCustomConfig クラスの詳解

PyTorchでSciPyライクSpecialモジュールを使う：torch.special.scaled_modified_bessel_k1()徹底解説

PyTorch Tensor.index_add_() の代替方法: スライスと代入、torch.scatter_() メソッドなど

PyTorchのTorch Scriptとtorch.jit.ScriptModule.train()