PyTorch FSDP とは？

2024-04-02

PyTorchの「Fully Sharded Data Parallel」における「torch.distributed.fsdp.FullyShardedDataParallel.apply()」の解説

torch.distributed.fsdp.FullyShardedDataParallel.apply() は、FSDPで重要な役割を果たす関数です。この関数は、与えられたモジュールとその子孫モジュールすべてに対して、FSDPのラッピング処理を適用します。

動作

torch.distributed.fsdp.FullyShardedDataParallel.apply() は、以下の処理を行います。

与えられたモジュールとその子孫モジュールすべてを走査します。
各モジュールに対して、以下の条件を満たす場合、FSDPでラッピングします。
- モジュールが torch.nn.Module のサブクラスであること。
- モジュールがすでにFSDPでラッピングされていないこと。
ラッピングされたモジュールは、FullyShardedDataParallel クラスのインスタンスとなります。

使用例

import torch
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP

# モデルを定義
model = torch.nn.Sequential(
    torch.nn.Linear(10, 100),
    torch.nn.ReLU(),
    torch.nn.Linear(100, 10)
)

# FSDPでモデルをラッピング
fsdp_model = FSDP.apply(model)

# モデルの訓練
...

# モデルの保存
torch.save(fsdp_model.state_dict(), "model.ckpt")

上記の例では、model というモジュールを FSDP.apply() 関数を使ってFSDPでラッピングしています。ラッピングされたモジュールは fsdp_model という変数に格納されます。その後、fsdp_model を使ってモデルの訓練や保存を行うことができます。

torch.distributed.fsdp.FullyShardedDataParallel.apply() は、FSDPでモジュールをラッピングするための重要な関数です。この関数を理解することで、FSDPを使って大規模なモデルを効率的に分散トレーニングすることができます。

FSDPは、PyTorch 1.9以降で利用可能です。
FSDPは、GPUのみをサポートしています。
FSDPは、まだ開発段階の機能です。

PyTorch Fully Sharded Data Parallel (FSDP) サンプルコード集

MNIST 分類

import torch
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

from torch.distributed.fsdp import FullyShardedDataParallel as FSDP

# モデルを定義
class Net(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = torch.nn.Conv2d(1, 32, 3, 1)
        self.conv2 = torch.nn.Conv2d(32, 64, 3, 1)
        self.dropout1 = torch.nn.Dropout(0.25)
        self.fc1 = torch.nn.Linear(9216, 128)
        self.dropout2 = torch.nn.Dropout(0.5)
        self.fc2 = torch.nn.Linear(128, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = F.relu(x)
        x = self.conv2(x)
        x = F.max_pool2d(x, 2)
        x = self.dropout1(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.dropout2(x)
        x = self.fc2(x)
        output = F.log_softmax(x, dim=1)
        return output

# データセットを準備
train_dataset = datasets.MNIST(
    root="./data",
    train=True,
    download=True,
    transform=transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
    ]),
)

train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)

# モデルをFSDPでラッピング
model = Net()
fsdp_model = FSDP.apply(model)

# オプティマイザを定義
optimizer = torch.optim.SGD(fsdp_model.parameters(), lr=0.01)

# モデルの訓練
for epoch in range(10):
    for batch_idx, (data, target) in enumerate(train_loader):
        data = data.cuda()
        target = target.cuda()

        output = fsdp_model(data)
        loss = F.nll_loss(output, target)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

# モデルの保存
torch.save(fsdp_model.state_dict(), "mnist_model.ckpt")

画像分類

import torch
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

from torch.distributed.fsdp import FullyShardedDataParallel as FSDP

# モデルを定義
class Resnet18(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.resnet18 = torch.hub.load('pytorch/vision:v0.10.0', 'resnet18', pretrained=True)

    def forward(self, x):
        x = self.resnet18(x)
        return x

# データセットを準備
train_dataset = datasets.ImageFolder(
    root="./data/imagenet",
    transform=transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))
    ]),
)

train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)

# モデルをFSDPでラッピング
model = Resnet18()
fsdp_model = FSDP.apply(model)

# オプティマイザを定義
optimizer = torch.optim.SGD(fsdp_model.parameters(), lr=0.01)

# モデルの訓練
for epoch in range(10):
    for batch_idx, (data, target) in enumerate(train_loader):
        data = data.cuda()
        target = target.

PyTorch Fully Sharded Data Parallel (FSDP) のその他の方法

Horovod は、PyTorch だけでなく、TensorFlow や Keras などの他のディープラーニングフレームワークにも対応しています。

メリット:
- 複数のディープラーニングフレームワークに対応している
- 使いやすい
デメリット:
- FSDP よりも機能が限定されている
- FSDP ほど効率的ではない

DeepSpeed は、Microsoft が開発した分散ディープラーニングのためのオープンソースライブラリです。FSDPと同様に、DeepSpeedはモデルのパラメータ、勾配、オプティマイザの状態をシャードと呼ばれる小さな部分に分割し、各GPUに割り当てます。

DeepSpeed は、FSDP よりも多くの機能を提供しており、大規模なモデルを効率的にトレーニングすることができます。

メリット:
- FSDP よりも多くの機能を提供している
- FSDP よりも効率的
デメリット:
- FSDP よりも複雑
- 使いにくい

Megatron は、NVIDIA が開発した分散ディープラーニングのためのオープンソースフレームワークです。FSDPと同様に、Megatronはモデルのパラメータ、勾配、オプティマイザの状態をシャードと呼ばれる小さな部分に分割し、各GPUに割り当てます。

Megatron は、大規模な言語モデルのトレーニングに特化しており、GPT-3 などの最先端の言語モデルをトレーニングするために使用されています。

メリット:
- 大規模な言語モデルのトレーニングに特化している
- 最先端の言語モデルをトレーニングするために使用できる
デメリット:
- FSDP や DeepSpeed よりも複雑
- 使いにくい

FSDP は、PyTorch で大規模なモデルを効率的に分散トレーニングするための優れた方法です。ただし、他の方法も存在し、それぞれにメリットとデメリットがあります。

最適な方法は、使用しているフレームワーク、モデルのサイズ、必要な機能によって異なります。

PyTorch FSDP とは？

PyTorchの「Fully Sharded Data Parallel」における「torch.distributed.fsdp.FullyShardedDataParallel.apply()」の解説

動作

使用例

PyTorch Fully Sharded Data Parallel (FSDP) サンプルコード集

MNIST 分類

画像分類

PyTorch Fully Sharded Data Parallel (FSDP) のその他の方法

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

PyTorchで画像処理： torch.fft.fftshift() を活用した高度なテクニック

torch.fft.ifftを使いこなせ！画像処理・音声処理・機械学習の強力なツール

PyTorchの逆フーリエ変換：torch.fft.ihfftnとその他の方法

PyTorch初心者でも安心！torch.fft.fftnを使ったサンプルコード集

PyTorch チュートリアル：Tensor.normal_() メソッドを使ってニューラルネットワークの重みを初期化

Tensor の隠れたトレンドを可視化: PyTorch Tensor の mode() メソッドによるデータ分析

pixel_unshuffle に関するその他のリソース

PyTorch torch.get_default_dtype 関数：デフォルトのデータ型を理解する

torch.nn.ModuleDict のサンプルコード