PyTorch の Optimization における torch.optim.SGD.step() の詳細解説

2024-04-02

PyTorch の Optimization における torch.optim.SGD.step() の詳細解説

torch.optim.SGD.step() は、PyTorch の torch.optim モジュールで提供される 確率的勾配降下法 (SGD) アルゴリズムに基づくオプティマイザーの更新ステップを実行する関数です。SGD は、ニューラルネットワークの学習において最も広く使用される最適化アルゴリズムの一つです。

機能

torch.optim.SGD.step() は、以下の機能を提供します。

パラメータの更新: 勾配に基づいて、ニューラルネットワークのパラメータを更新します。
学習率の調整: 学習率をスケーリングすることで、更新の速度を調整できます。
モメンタムの適用: 過去の勾配情報を考慮することで、更新の安定性を向上できます。

コード例

import torch

# モデルと損失関数を定義
model = torch.nn.Linear(10, 1)
loss_fn = torch.nn.MSELoss()

# SGD オプティマイザーを生成
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 入力データと正解ラベル
x = torch.randn(10, 1)
y = torch.randn(10, 1)

# 順伝播と損失計算
y_pred = model(x)
loss = loss_fn(y_pred, y)

# 勾配の計算
loss.backward()

# オプティマイザーによるパラメータ更新
optimizer.step()

パラメータ

torch.optim.SGD.step()は以下のパラメータを受け取ります。

closure: 勾配計算とパラメータ更新をまとめた関数を指定します。
zero_grad: 勾配をゼロクリアするかどうかを指定します。デフォルトは True です。

詳細解説

SGD アルゴリズム: SGD アルゴリズムは、以下の式に基づいてパラメータを更新します。

θ_t+1 = θ_t - α * ∇f(θ_t)

ここで、

θ_t: 時刻 t におけるパラメータ
α: 学習率
∇f(θ_t): 時刻 t における損失関数の勾配
学習率: 学習率は、更新の速度を調整するハイパーパラメータです。学習率が大きければ更新速度が速くなり、小さければ更新速度が遅くなります。
モメンタム: モメンタムは、過去の勾配情報を考慮することで、更新の安定性を向上させるハイパーパラメータです。モメンタムが大きければ、過去の勾配の影響が大きくなり、更新方向が安定します。

補足

torch.optim.SGD.step() は、ニューラルネットワークの学習以外にも、様々な最適化問題に適用できます。
torch.optim モジュールには、SGD 以外にも様々なオプティマイザーが実装されています。

PyTorch SGD サンプルコード集

import torch
from torchvision import datasets, transforms

# モデルと損失関数を定義
model = torch.nn.Sequential(
    torch.nn.Flatten(),
    torch.nn.Linear(784, 10),
)
loss_fn = torch.nn.CrossEntropyLoss()

# SGD オプティマイザーを生成
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# データセットの読み込み
train_dataset = datasets.MNIST(root=".", train=True, download=True, transform=transforms.ToTensor())
test_dataset = datasets.MNIST(root=".", train=False, download=True, transform=transforms.ToTensor())

# データローダーの作成
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False)

# 学習ループ
for epoch in range(10):
    for images, labels in train_loader:
        # 順伝播と損失計算
        outputs = model(images)
        loss = loss_fn(outputs, labels)

        # 勾配の計算
        loss.backward()

        # オプティマイザーによるパラメータ更新
        optimizer.step()

    # テストデータでの評価
    with torch.no_grad():
        correct = 0
        total = 0
        for images, labels in test_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        print(f"Epoch {epoch + 1}: Accuracy: {100 * correct / total:.2f}%")

CIFAR-10 データセットによる画像分類

import torch
from torchvision import datasets, transforms

# モデルと損失関数を定義
model = torch.nn.Sequential(
    torch.nn.Conv2d(3, 6, 5),
    torch.nn.ReLU(),
    torch.nn.MaxPool2d(2, 2),
    torch.nn.Conv2d(6, 16, 5),
    torch.nn.ReLU(),
    torch.nn.MaxPool2d(2, 2),
    torch.nn.Flatten(),
    torch.nn.Linear(16 * 5 * 5, 10),
)
loss_fn = torch.nn.CrossEntropyLoss()

# SGD オプティマイザーを生成
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# データセットの読み込み
train_dataset = datasets.CIFAR10(root=".", train=True, download=True, transform=transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]))
test_dataset = datasets.CIFAR10(root=".", train=False, download=True, transform=transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]))

# データローダーの作成
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False)

# 学習ループ
for epoch in range(10):
    for images, labels in train_loader:
        # 順伝播と損失計算
        outputs = model(images)
        loss = loss_fn(outputs, labels)

        # 勾配の計算
        loss.backward()

        # オプティマイザーによるパラメータ更新
        optimizer.step()

    # テストデータでの評価
    with torch.no_grad():
        correct = 0
        total = 0
        for images, labels in test_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).

PyTorch SGD の代替方法

Adam は、SGD と Adagrad の利点を組み合わせたアルゴリズムです。学習率の調整が容易で、多くの場合 SGD よりも高速に収束します。

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

RMSProp は、SGD の学習率スケジュール問題を解決するために提案されたアルゴリズムです。勾配の二乗平均平方根に基づいて学習率を調整するため、SGD よりも安定した学習が可能になります。

optimizer = torch.optim.RMSProp(model.parameters(), lr=0.001)

AdaGrad は、過去の勾配情報に基づいて学習率を調整するアルゴリズムです。パラメータごとに異なる学習率を設定するため、スパースなデータセットに有効です。

optimizer = torch.optim.AdaGrad(model.parameters(), lr=0.001)

Adadelta は、AdaGrad の欠点を克服するために提案されたアルゴリズムです。AdaGrad と同様にパラメータごとに異なる学習率を設定しますが、学習率の更新に二乗平均平方根を用いるため、AdaGrad よりも安定した学習が可能になります。

optimizer = torch.optim.Adadelta(model.parameters(), lr=0.001)

LBFGS は、限記憶擬ニュートン法に基づいたアルゴリズムです。SGD よりも高速に収束しますが、メモリ使用量が多くなります。

optimizer = torch.optim.LBFGS(model.parameters(), lr=0.001)

最適なオプティマイザーは、データセット、モデル、タスクによって異なります。さまざまなオプティマイザーを試して、最も良い結果を得られるものを選ぶのが良いでしょう。

その他の代替方法

自身の勾配降下法アルゴリズムの実装
学習率スケジューラ

PyTorch の Optimization における torch.optim.SGD.step() の詳細解説