パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

2024-04-06

PyTorchのDatasetとDataLoader：torch.utils.data解説

Datasetは、データセットを表す抽象クラスです。データセットは、画像、テキスト、音声など、機械学習モデルの学習に使用できるデータのコレクションです。Datasetクラスは、データセットを読み込み、処理するための基本的なインターフェースを提供します。

DataLoaderは、Datasetからデータを効率的に読み込むためのクラスです。DataLoaderは、データセットをバッチに分割し、マルチスレッド処理をサポートし、データのシャッフルやサンプリングを行うことができます。

Datasetクラスは、以下の2つのメソッドを実装する必要があります。

len：データセット内のデータの数を返すメソッド
getitem：インデックスを受け取り、そのインデックスのデータポイントを返すメソッド

class MyDataset(torch.utils.data.Dataset):
  def __init__(self):
    # データセットの読み込み
    ...

  def __len__(self):
    # データセット内のデータの数を返す
    return len(self.data)

  def __getitem__(self, idx):
    # インデックスを受け取り、そのインデックスのデータポイントを返す
    return self.data[idx]

DataLoaderクラスは、Datasetクラスを受け取り、データセットを効率的に読み込むためのイテレータを提供します。

dataset = MyDataset()

# DataLoaderの作成
dataloader = torch.utils.data.DataLoader(
  dataset,
  batch_size=16,
  shuffle=True,
  num_workers=4
)

# DataLoaderをイテレート
for batch in dataloader:
  # バッチ処理
  ...

PyTorchのtorch.utils.dataモジュールは、データセットの読み込みと処理を効率的に行うためのツールを提供します。DatasetクラスとDataLoaderクラスを理解することで、PyTorchで効率的に機械学習モデルを学習することができます。

PyTorch Dataset と DataLoader サンプルコード

MNIST データセット

import torch
from torchvision import datasets, transforms

# MNIST データセットの読み込み
train_dataset = datasets.MNIST(
  root='./data',
  train=True,
  download=True,
  transform=transforms.ToTensor()
)

test_dataset = datasets.MNIST(
  root='./data',
  train=False,
  download=True,
  transform=transforms.ToTensor()
)

# DataLoaderの作成
train_dataloader = torch.utils.data.DataLoader(
  train_dataset,
  batch_size=64,
  shuffle=True
)

test_dataloader = torch.utils.data.DataLoader(
  test_dataset,
  batch_size=64,
  shuffle=False
)

# モデルの定義
model = torch.nn.Sequential(
  torch.nn.Flatten(),
  torch.nn.Linear(784, 128),
  torch.nn.ReLU(),
  torch.nn.Linear(128, 10),
  torch.nn.LogSoftmax(dim=1)
)

# 損失関数の定義
criterion = torch.nn.CrossEntropyLoss()

# オプティマイザの定義
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 学習
for epoch in range(10):
  for batch in train_dataloader:
    # データの取得
    images, labels = batch

    # 予測
    outputs = model(images)

    # 損失の計算
    loss = criterion(outputs, labels)

    # オプティマイザによる更新
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

# 評価
with torch.no_grad():
  correct = 0
  total = 0
  for batch in test_dataloader:
    images, labels = batch
    outputs = model(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

  print(f'Accuracy: {100 * correct / total:.2f}%')

画像データセット

このサンプルコードでは、画像データセットを読み込み、DataLoader を使用してバッチ処理を行います。

import torch
from torchvision import datasets, transforms

# 画像データセットの読み込み
dataset = datasets.ImageFolder(
  root='./data',
  transform=transforms.Compose([
    transforms.Resize((256, 256)),
    transforms.ToTensor()
  ])
)

# DataLoaderの作成
dataloader = torch.utils.data.DataLoader(
  dataset,
  batch_size=32,
  shuffle=True
)

# モデルの定義
model = torch.nn.Sequential(
  torch.nn.Conv2d(3, 64, kernel_size=3, padding=1),
  torch.nn.ReLU(),
  torch.nn.MaxPool2d(2, stride=2),
  torch.nn.Conv2d(64, 128, kernel_size=3, padding=1),
  torch.nn.ReLU(),
  torch.nn.MaxPool2d(2, stride=2),
  torch.nn.Flatten(),
  torch.nn.Linear(128 * 64 * 64, 10),
  torch.nn.LogSoftmax(dim=1)
)

# 損失関数の定義
criterion = torch.nn.CrossEntropyLoss()

# オプティマイザの定義
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 学習
for epoch in range(10):
  for batch in dataloader:
    # データの取得
    images, labels = batch

    # 予測
    outputs = model(images)

    # 損失の計算
    loss = criterion(outputs, labels)

    # オプティマイザによる更新
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

# 評価
with torch.no_grad():
  correct = 0
  total = 0
  for batch in

PyTorch Dataset と DataLoader のその他の方法

サンプリング

ランダムサンプリング: shuffle=True を設定すると、データがランダムにサンプリングされます。
順序サンプリング: shuffle=False を設定すると、データが順序通りにサンプリングされます。
ウェイト付きサンプリング: sampler オプションを使用して、データポイントに重みを割り当てることができます。

マルチスレッド処理

DataLoader は、マルチスレッド処理を使用してデータの読み込みを高速化することができます。

num_workers オプションを使用して、データを読み込むためのワーカーの数

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

PyTorchのDatasetとDataLoader：torch.utils.data解説

PyTorch Dataset と DataLoader サンプルコード

MNIST データセット

画像データセット

PyTorch Dataset と DataLoader のその他の方法

サンプリング

マルチスレッド処理

PyTorchのC++バックトレースを取得：torch.utils.get_cpp_backtraceの使い方

PyTorchで事前学習済みモデルを使う：torch.utils.model_zoo徹底解説

PyTorch Tensorboard で PR 曲線を使って二値分類モデルの性能を評価する方法

PyTorch vmap チュートリアル：ベクトル化による高速化とコード簡潔化をマスターしよう！

PyTorch初心者向け：torch.var_mean関数でテンソルの分散と平均値をマスターしよう

PyTorch Tensor の add_ メソッド：要素ごとの加算をマスターしよう

PyTorchでSciPyライクな信号処理：torch.signal.windows.hann徹底解説

PyTorchで確率分布を自在に操る：TransformedDistribution.cdf()のサンプルコード集

PyTorch NN 関数における torch.nn.functional.celu の詳細解説

PyTorchでテンソルを自在に操る： torch.Tensor.clip() による要素制限のサンプルコード集