PyTorch Optimizationにおけるtorch.optim.lr_scheduler.CosineAnnealingWarmRestarts.print_lr()解説

2024-04-02

PyTorch Optimizationにおけるtorch.optim.lr_scheduler.CosineAnnealingWarmRestarts.print_lr()解説

torch.optim.lr_scheduler.CosineAnnealingWarmRestarts.print_lr() は、PyTorchの最適化ライブラリ torch.optim の一部である CosineAnnealingWarmRestarts 学習率スケジューラクラスのメソッドです。このメソッドは、現在の学習率をコンソールに出力します。

詳細

CosineAnnealingWarmRestarts は、学習率を余弦関数に従って減衰させる学習率スケジューラです。学習率は、エポックごとに最大値から最小値まで減衰し、その後、再起動と呼ばれるプロセスで再び最大値に上昇します。

print_lr() メソッドは、現在の学習率をコンソールに出力します。これは、学習率スケジューラがどのように動作しているかを監視するために役立ちます。

使用方法

print_lr() メソッドを使用するには、以下のコードのように呼び出します。

scheduler = CosineAnnealingWarmRestarts(optimizer, T_max, eta_min)

for epoch in range(num_epochs):
    # ...

    scheduler.step()
    scheduler.print_lr()

出力

print_lr() メソッドは、以下の形式で現在の学習率を出力します。

Epoch: [epoch] | LR: [learning_rate]

例

以下のコードは、CosineAnnealingWarmRestarts 学習率スケジューラを使用して、MNIST データセットで画像分類を行う例です。

import torch
from torchvision import datasets, transforms

# データセットの読み込み
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transforms.ToTensor())
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transforms.ToTensor())

# データローダーの作成
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False)

# モデルの作成
model = torch.nn.Sequential(
    torch.nn.Flatten(),
    torch.nn.Linear(784, 128),
    torch.nn.ReLU(),
    torch.nn.Linear(128, 10),
    torch.nn.LogSoftmax(dim=1)
)

# 損失関数の定義
criterion = torch.nn.CrossEntropyLoss()

# 最適化アルゴリズムの定義
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 学習率スケジューラの作成
scheduler = CosineAnnealingWarmRestarts(optimizer, T_max=200, eta_min=0.001)

# 学習の実行
for epoch in range(num_epochs):
    # ...

    scheduler.step()
    scheduler.print_lr()

# モデルの評価

このコードを実行すると、以下の形式で現在の学習率が出力されます。

Epoch: [epoch] | LR: [learning_rate]

CosineAnnealingWarmRestartsのサンプルコード

import torch
from torchvision import datasets, transforms

# データセットの読み込み
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transforms.ToTensor())
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transforms.ToTensor())

# データローダーの作成
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False)

# モデルの作成
model = torch.nn.Sequential(
    torch.nn.Flatten(),
    torch.nn.Linear(784, 128),
    torch.nn.ReLU(),
    torch.nn.Linear(128, 10),
    torch.nn.LogSoftmax(dim=1)
)

# 損失関数の定義
criterion = torch.nn.CrossEntropyLoss()

# 最適化アルゴリズムの定義
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 学習率スケジューラの作成
scheduler = CosineAnnealingWarmRestarts(optimizer, T_max=200, eta_min=0.001)

# 学習の実行
for epoch in range(num_epochs):
    # ...

    scheduler.step()
    scheduler.print_lr()

# モデルの評価

CIFAR-10 データセットによる画像分類

import torch
from torchvision import datasets, transforms

# データセットの読み込み
train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transforms.ToTensor())
test_dataset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transforms.ToTensor())

# データローダーの作成
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False)

# モデルの作成
model = torch.nn.Sequential(
    torch.nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1),
    torch.nn.BatchNorm2d(64),
    torch.nn.ReLU(),
    torch.nn.MaxPool2d(kernel_size=2, stride=2),
    torch.nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1),
    torch.nn.BatchNorm2d(128),
    torch.nn.ReLU(),
    torch.nn.MaxPool2d(kernel_size=2, stride=2),
    torch.nn.Flatten(),
    torch.nn.Linear(128 * 4 * 4, 10),
    torch.nn.LogSoftmax(dim=1)
)

# 損失関数の定義
criterion = torch.nn.CrossEntropyLoss()

# 最適化アルゴリズムの定義
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 学習率スケジューラの作成
scheduler = CosineAnnealingWarmRestarts(optimizer, T_max=200, eta_min=0.001)

# 学習の実行
for epoch in range(num_epochs):
    # ...

    scheduler.step()
    scheduler.print_lr()

# モデルの評価

学習率スケジューラの T_max パラメータは、学習率が最大値から最小値まで減衰するエポック数を指定します。
学習率スケジューラの eta_min パラメータは、学習率の最小値を指定します。
学習率スケジューラの last_epoch パラメータは、前回のエポック数を指定します。これは、ウォームリスタートを行う際に使用されます。

CosineAnnealingWarmRestarts 以外の学習率スケジューラ

ExponentialLR は、学習率を指数関数的に減衰させる学習率スケジューラです。

scheduler = ExponentialLR(optimizer, gamma=0.95)

ReduceLROnPlateau は、検証指標が一定期間改善されない場合に学習率を減衰させる学習率スケジューラです。

scheduler = ReduceLROnPlateau(optimizer, patience=10)

CyclicLR は、学習率を周期的に変化させる学習率スケジューラです。

scheduler = CyclicLR(optimizer, base_lr=0.01, max_lr=0.1, step_size_up=2000, step_size_down=2000)

LambdaLR は、学習率をユーザー定義の関数に従って変化させる学習率スケジューラです。

scheduler = LambdaLR(optimizer, lr_lambda=lambda epoch: 0.95 ** epoch)

上記以外にも、PyTorch にはさまざまな学習率スケジューラが用意されています。詳細は、PyTorch のドキュメントを参照してください。

PyTorch Optimization チュートリアル: URL PyTorch Optimization チュートリアル
学習率スケジューラ: URL 学習率スケジューラ

適切な学習率スケジューラの選択は、問題やモデルによって異なります。いくつかの異なるスケジューラを試して、最適な結果を得られるものを探すことをお勧めします。

PyTorch Optimizationにおけるtorch.optim.lr_scheduler.CosineAnnealingWarmRestarts.print_lr()解説