PyTorchで離散確率分布を扱う：torch.distributions.categorical.Categoricalの解説

2024-04-02

PyTorchの確率分布：torch.distributions.categorical.Categorical

torch.distributions.categorical.Categorical は、PyTorchで離散確率分布を扱うためのモジュールの一つです。カテゴリカル分布は、有限個のカテゴリからなる離散確率分布を表します。各カテゴリは、事象が起こる確率を表します。

主な機能

カテゴリカル分布からのランダムサンプリング
確率密度関数 (PDF) の計算
累積分布関数 (CDF) の計算
エントロピーの計算
モーメントの計算

使い方

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.tensor([0.2, 0.3, 0.5])
categorical = Categorical(probs)

# ランダムサンプリング
sample = categorical.sample()

# 確率密度関数の計算
pdf = categorical.log_prob(sample)

# 累積分布関数の計算
cdf = categorical.cdf(sample)

# エントロピーの計算
entropy = categorical.entropy()

# モーメントの計算
mean = categorical.mean()
variance = categorical.variance()

例

10個のサイコロを振ったとき、各目が出る確率を計算してみましょう。

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.ones(10) / 10
categorical = Categorical(probs)

# ランダムサンプリング
sample = categorical.sample((10,))

# 各目の出現頻度を計算
counts = torch.bincount(sample)

# 結果を出力
print(counts)

このコードは、10個のサイコロを10回振った結果を出力します。

torch.distributions モジュールには、カテゴリカル分布以外にも様々な離散確率分布が用意されています。
詳細については、PyTorchドキュメントを参照してください。

補足

Categorical クラスは、probs という名前の属性を持ちます。これは、各カテゴリの確率を表すテンソルです。
sample メソッドは、カテゴリカル分布からランダムサンプリングを行うためのメソッドです。
log_prob メソッドは、確率密度関数の対数を与えるメソッドです。
cdf メソッドは、累積分布関数を計算するためのメソッドです。
entropy メソッドは、エントロピーを計算するためのメソッドです。
mean メソッドは、平均を計算するためのメソッドです。
variance メソッドは、分散を計算するためのメソッドです。

カテゴリカル分布のサンプルコード

サイコロの目

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.ones(6) / 6
categorical = Categorical(probs)

# ランダムサンプリング
sample = categorical.sample()

# 結果を出力
print(f"サイコロの目: {sample}")

コイン投げ

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.tensor([0.5, 0.5])
categorical = Categorical(probs)

# ランダムサンプリング
sample = categorical.sample((10,))

# 結果を出力
print(f"コイン投げの結果: {sample}")

文字列の出現確率

import torch
from torch.distributions import Categorical

# 文字列の出現頻度
counts = torch.tensor([2, 3, 1, 5])

# カテゴリカル分布の定義
probs = counts / counts.sum()
categorical = Categorical(probs)

# ランダムサンプリング
sample = categorical.sample((10,))

# 結果を出力
print(f"文字列の出現: {sample}")

カテゴリカル分布のパラメータ推定

import torch
from torch.distributions import Categorical

# データ
data = torch.tensor([0, 1, 2, 1, 0, 2, 0])

# カテゴリカル分布の定義
probs = torch.ones(3) / 3
categorical = Categorical(probs)

# 最尤推定
optimizer = torch.optim.Adam(categorical.parameters(), lr=0.1)

for epoch in range(100):
    # 負の対数尤度関数の計算
    loss = -categorical.log_prob(data).sum()

    # パラメータ更新
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

# 推定された確率
print(f"推定された確率: {categorical.probs}")

カテゴリカル分布からのサンプリング

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.tensor([0.2, 0.3, 0.5])
categorical = Categorical(probs)

# 10個のサンプル
samples = categorical.sample((10,))

# 結果を出力
print(f"サンプル: {samples}")

カテゴリカル分布の確率密度関数

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.tensor([0.2, 0.3, 0.5])
categorical = Categorical(probs)

# 確率密度関数
pdf = categorical.log_prob(torch.tensor([0, 1, 2]))

# 結果を出力
print(f"確率密度関数: {pdf}")

カテゴリカル分布の累積分布関数

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.tensor([0.2, 0.3, 0.5])
categorical = Categorical(probs)

# 累積分布関数
cdf = categorical.cdf(torch.tensor([0.1, 0.4, 0.7]))

# 結果を出力
print(f"累積分布関数: {cdf}")

カテゴリカル分布のエントロピー

import torch
from torch.distributions import Categorical

# カテゴリカル分布の定義
probs = torch.tensor([0.2, 0.3, 0.5])
categorical = Categorical(probs)

# エントロピー
entropy = categorical.entropy()

# 結果を出力
print(f"エントロピー: {entropy}")

カテゴリカル分布のKLダイバージェンス

import torch
from torch.distributions import Categorical

# カテゴリカル分布

カテゴリカル分布を扱うその他の方法

手動で実装

カテゴリカル分布は、確率密度関数と累積分布関数を定義することで、手動で実装することができます。

import torch

def categorical_pdf(probs, x):
  """
  カテゴリカル分布の確率密度関数
  """
  return probs[x]

def categorical_cdf(probs, x):
  """
  カテゴリカル分布の累積分布関数
  """
  cdf = torch.zeros(x.size())
  for i in range(x.size(0)):
    cdf[i] = probs[:x[i]].sum()

# カテゴリカル分布の定義
probs = torch.tensor([0.2, 0.3, 0.5])

# ランダムサンプリング
x = torch.randint(0, 3, (10,))

# 確率密度関数
pdf = categorical_pdf(probs, x)

# 累積分布関数
cdf = categorical_cdf(probs, x)

# 結果を出力
print(f"確率密度関数: {pdf}")
print(f"累積分布関数: {cdf}")

Pyroは、ベイズ統計モデリングのためのPythonライブラリです。Pyroでは、Categorical クラスを使ってカテゴリカル分布を定義することができます。

import pyro

# カテゴリカル分布の定義
probs = torch.tensor([0.2, 0.3, 0.5])
categorical = pyro.distributions.Categorical(probs)

# ランダムサンプリング
x = pyro.sample("x", categorical)

# 結果を出力
print(f"サンプル: {x}")

TensorFlow Probabilityは、TensorFlow上で確率モデリングを行うためのライブラリです。TensorFlow Probabilityでは、Categorical クラスを使ってカテゴリカル分布を定義することができます。

import tensorflow_probability as tfp

# カテゴリカル分布の定義
probs = tf.constant([0.2, 0.3, 0.5])
categorical = tfp.distributions.Categorical(probs)

# ランダムサンプリング
x = categorical.sample(10)

# 結果を出力
print(f"サンプル: {x}")

PyTorchでカテゴリカル分布を扱う方法はいくつかあります。それぞれの方法にはメリットとデメリットがあり、状況に合わせて使い分けることが重要です。

PyTorchで離散確率分布を扱う：torch.distributions.categorical.Categoricalの解説

PyTorchの確率分布：torch.distributions.categorical.Categorical

カテゴリカル分布のサンプルコード

サイコロの目

コイン投げ

文字列の出現確率

カテゴリカル分布のパラメータ推定

カテゴリカル分布からのサンプリング

カテゴリカル分布の確率密度関数

カテゴリカル分布の累積分布関数

カテゴリカル分布のエントロピー

カテゴリカル分布のKLダイバージェンス

カテゴリカル分布を扱うその他の方法

手動で実装

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

PyTorch初心者でも安心！torch.fft.fftnを使ったサンプルコード集

PyTorchで多 boyut DFT：torch.fft.hfftn()の使い方とサンプルコード

PyTorchで画像処理： torch.fft.fftshift() を活用した高度なテクニック

PyTorchで信号処理を行うその他の方法：フィルタリング、スペクトログラム、波形生成

【初心者向け】PyTorchで自動微分を使いこなす！「torch.autograd.function.FunctionCtx.mark_dirty()」の役割と使い方

PyTorch NN 関数における torch.nn.functional.dropout2d の徹底解説

PyTorch Tensor.index_add_() の代替方法: スライスと代入、torch.scatter_() メソッドなど

Python と Torch Script での型チェック： isinstance() と torch.jit.isinstance() の比較

PyTorch Storage と UntypedStorage.data_ptr() の代替方法