torch.distributed.tensor.parallel.parallelize_module() の使い方

2024-04-02

PyTorch Tensor Parallelism と torch.distributed.tensor.parallel.parallelize_module()

torch.distributed.tensor.parallel.parallelize_module() は、Tensor Parallelism を利用してモジュールの並列化を簡単に行うための関数です。この関数は、モジュールとそのパラメータを自動的に分割し、複数の GPU 上に配置します。

使い方

import torch
from torch.distributed.tensor.parallel import parallelize_module

# モデルを定義
model = torch.nn.Sequential(
    torch.nn.Linear(100, 100),
    torch.nn.ReLU(),
    torch.nn.Linear(100, 10)
)

# デバイスメッシュを定義
device_mesh = torch.distributed.device_mesh(
    world_size=4,
    ranks=[0, 1, 2, 3],
    dims=[2, 2]
)

# モジュールを並列化する
parallelize_module(model, parallelize_style=torch.distributed.tensor.parallel.RowwiseParallel(), device_mesh=device_mesh)

# モデルをトレーニング
...

パラメータ

model: 並列化するモジュール
parallelize_style: 並列化の種類。RowwiseParallel または ColwiseParallel を指定できます。
device_mesh: デバイスメッシュ。torch.distributed.device_mesh() 関数を使って作成できます。

利点

コードが簡潔になる
モジュールの並列化を自動的に行うことができる
高いパフォーマンスとスケーラビリティを実現できる

注意点

Tensor Parallelism は、すべてのモジュールでサポートされているわけではありません。
モデルを並列化する前に、モデルが Tensor Parallelism に対応していることを確認する必要があります。
Tensor Parallelism を使う場合は、モデルのトレーニングコードを変更する必要があります。

Tensor Parallelism は、PyTorch の高度な機能の一つです。この機能を使いこなすには、PyTorch の知識と経験が必要になります。Tensor Parallelism を使い始める前に、チュートリアルやドキュメントをよく読んで理解しておくことをお勧めします。

PyTorch Tensor Parallelism サンプルコード

線形モデル

import torch
from torch.distributed.tensor.parallel import parallelize_module

# モデルを定義
model = torch.nn.Sequential(
    torch.nn.Linear(100, 100),
    torch.nn.ReLU(),
    torch.nn.Linear(100, 10)
)

# デバイスメッシュを定義
device_mesh = torch.distributed.device_mesh(
    world_size=4,
    ranks=[0, 1, 2, 3],
    dims=[2, 2]
)

# モジュールを並列化する
parallelize_module(model, parallelize_style=torch.distributed.tensor.parallel.RowwiseParallel(), device_mesh=device_mesh)

# モデルをトレーニング
...

畳み込みモデル

import torch
from torch.distributed.tensor.parallel import parallelize_module

# モデルを定義
model = torch.nn.Sequential(
    torch.nn.Conv2d(1, 32, 3, 1, 1),
    torch.nn.ReLU(),
    torch.nn.Conv2d(32, 64, 3, 1, 1),
    torch.nn.ReLU(),
    torch.nn.Flatten(),
    torch.nn.Linear(64 * 10 * 10, 10)
)

# デバイスメッシュを定義
device_mesh = torch.distributed.device_mesh(
    world_size=4,
    ranks=[0, 1, 2, 3],
    dims=[2, 2]
)

# モジュールを並列化する
parallelize_module(model, parallelize_style=torch.distributed.tensor.parallel.ColwiseParallel(), device_mesh=device_mesh)

# モデルをトレーニング
...

Transformer モデル

import torch
from torch.distributed.tensor.parallel import parallelize_module

# モデルを定義
model = torch.nn.Transformer(
    d_model=512,
    nhead=8,
    num_encoder_layers=6,
    num_decoder_layers=6,
    dim_feedforward=2048,
    dropout=0.1,
    activation="relu"
)

# デバイスメッシュを定義
device_mesh = torch.distributed.device_mesh(
    world_size=4,
    ranks=[0, 1, 2, 3],
    dims=[2, 2]
)

# モジュールを並列化する
parallelize_module(model, parallelize_style=torch.distributed.tensor.parallel.PipelineParallel(), device_mesh=device_mesh)

# モデルをトレーニング
...

その他

Tensor Parallelism についてさらに詳しく知りたい場合は、以下のリソースを参照してください。

PyTorch Tensor Parallelism を利用するその他の方法

torch.distributed.tensor.parallel.parallelize_module() 関数を使わずに、手動でモジュールを並列化することもできます。この方法は、より細かい制御が可能ですが、コード量が増え、複雑になります。

その他のライブラリを使う

Tensor Parallelism を利用するライブラリがいくつかあります。これらのライブラリを使うと、コードを簡単に書くことができます。

研究論文を読む

Tensor Parallelism に関する研究論文を読むことで、この技術についてより深く理解することができます。

コミュニティに参加する

PyTorch コミュニティに参加することで、Tensor Parallelism に関する質問をしたり、他のユーザーからアドバイスを得たりすることができます。

PyTorch 開発者に問い合わせる

Tensor Parallelism に関する問題が発生した場合は、PyTorch 開発者に問い合わせることができます。

torch.distributed.tensor.parallel.parallelize_module() の使い方

PyTorch Tensor Parallelism と torch.distributed.tensor.parallel.parallelize_module()

PyTorch Tensor Parallelism サンプルコード

線形モデル

畳み込みモデル

Transformer モデル

その他

PyTorch Tensor Parallelism を利用するその他の方法

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

PyTorchで画像処理： torch.fft.fftshift() を活用した高度なテクニック

PyTorch初心者でも安心！torch.fft.fftnを使ったサンプルコード集

PyTorchの逆フーリエ変換：torch.fft.ihfftnとその他の方法

PyTorchで信号処理を行うその他の方法：フィルタリング、スペクトログラム、波形生成

PyTorchニューラルネットワークの秘密兵器！ L1アンストラクチャード剪定で推論速度を劇的に向上させる

PyTorch パフォーマンスチューニング： torch.addr 関数で処理速度を劇的に向上

ファイルディスクリプタ共有 vs ファイルシステム共有：torch.multiprocessing.get_sharing_strategy()で最適な共有戦略を選択

PyTorchのニューラルネットワークでパラメータを複製！torch.nn.ParameterDict.copy()の完全理解

PyTorch の ONNX と torch.onnx.OnnxRegistry.is_registered_op() の詳細解説