PyTorchで確率分布を自在に操る：TransformedDistribution.cdf()のサンプルコード集

2024-04-02

PyTorchの確率分布モジュールにおけるTransformedDistribution.cdf()解説

PyTorchの確率分布モジュールは、確率統計モデルの構築と分析に役立つ強力なツールです。TransformedDistributionクラスは、既存の分布を変換することで、より複雑な分布を表現できる便利な機能を提供します。cdf()メソッドは、変換された分布の累積分布関数（CDF）を計算します。

CDFとは

CDFは、確率変数が特定の値以下になる確率を表します。TransformedDistribution.cdf()は、基底となる分布のCDFを変換関数で変換することで、変換された分布のCDFを計算します。

TransformedDistribution.cdf()は以下の式で計算されます。

cdf(x) = P(Y <= x) = P(T(X) <= x) = F(T^{-1}(x))

ここで、

Y は変換された分布からのランダム変数
X は基底となる分布からのランダム変数
T は変換関数
F は基底となる分布のCDF
T^{-1} は変換関数の逆関数

例：正規分布の逆変換

標準正規分布からサンプルを取り、その値の逆数を取得するような変換を考えてみましょう。この変換は、TransformedDistributionクラスとtorch.distributions.transforms.InverseTransformクラスを使用して実装できます。

import torch
from torch.distributions import TransformedDistribution, Normal, InverseTransform

base_distribution = Normal(torch.tensor(0.), torch.tensor(1.))
transform = InverseTransform()
transformed_distribution = TransformedDistribution(base_distribution, transform)

# CDFの計算
x = torch.tensor(0.5)
cdf = transformed_distribution.cdf(x)

# 結果の確認
print(cdf)

このコードは、x = 0.5における変換された分布のCDFを計算します。結果は、標準正規分布のCDFの0.5における値と一致するはずです。

TransformedDistribution.cdf()は、既存の分布を変換することで、より複雑な分布のCDFを計算できる便利なメソッドです。確率統計モデルの構築と分析において、幅広い用途に活用できます。

補足

TransformedDistributionクラスには、log_prob()やentropy()などの他のメソッドも用意されています。

さまざまなサンプルコード

正規分布の逆変換

import torch
from torch.distributions import TransformedDistribution, Normal, InverseTransform

base_distribution = Normal(torch.tensor(0.), torch.tensor(1.))
transform = InverseTransform()
transformed_distribution = TransformedDistribution(base_distribution, transform)

# CDFの計算
x = torch.tensor(0.5)
cdf = transformed_distribution.cdf(x)

# 結果の確認
print(cdf)

# 逆変換されたサンプルの生成
sample = transformed_distribution.rsample()

# 結果の確認
print(sample)

ガンマ分布の累積分布関数

import torch
from torch.distributions import TransformedDistribution, Gamma

base_distribution = Gamma(torch.tensor(3.), torch.tensor(2.))
transform = torch.exp
transformed_distribution = TransformedDistribution(base_distribution, transform)

# CDFの計算
x = torch.tensor(2.)
cdf = transformed_distribution.cdf(x)

# 結果の確認
print(cdf)

ベータ分布の逆変換と対数確率密度関数

import torch
from torch.distributions import TransformedDistribution, Beta, InverseTransform

base_distribution = Beta(torch.tensor(2.), torch.tensor(5.))
transform = InverseTransform()
transformed_distribution = TransformedDistribution(base_distribution, transform)

# CDFの計算
x = torch.tensor(0.5)
cdf = transformed_distribution.cdf(x)

# 対数確率密度関数の計算
log_prob = transformed_distribution.log_prob(x)

# 結果の確認
print(cdf, log_prob)

混合分布

import torch
from torch.distributions import TransformedDistribution, Normal, MixtureSameFamily, Categorical

# 基底となる分布
normal1 = Normal(torch.tensor(0.), torch.tensor(1.))
normal2 = Normal(torch.tensor(1.), torch.tensor(1.))

# 混合分布の重み
weights = torch.tensor([0.6, 0.4])

# カテゴリカル分布
categorical = Categorical(weights)

# 混合分布
mixture_distribution = MixtureSameFamily(categorical, [normal1, normal2])

# サンプルの生成
sample = mixture_distribution.rsample()

# 結果の確認
print(sample)

導関数

import torch
from torch.distributions import TransformedDistribution, Normal, Exponential

# 基底となる分布
base_distribution = Normal(torch.tensor(0.), torch.tensor(1.))

# 指数変換
transform = Exponential()

# 変換された分布
transformed_distribution = TransformedDistribution(base_distribution, transform)

# 導関数の計算
x = torch.tensor(0.5)
derivative = transformed_distribution.log_prob(x).backward()

# 結果の確認
print(derivative)

逆変換後の分布のCDFを使用する

TransformedDistribution.cdf()は、基底となる分布のCDFを変換関数で変換することで計算されます。

def cdf_via_inverse_transform(x, base_distribution, transform):
  """
  逆変換後の分布のCDFを使用する方法

  Args:
    x: 入力値
    base_distribution: 基底となる分布
    transform: 変換関数

  Returns:
    変換された分布のCDF
  """

  y = transform(x)
  cdf = base_distribution.cdf(y)
  return cdf

# 例
base_distribution = Normal(torch.tensor(0.), torch.tensor(1.))
transform = InverseTransform()
x = torch.tensor(0.5)

cdf_via_inverse_transform(x, base_distribution, transform)

数値積分を使用する

def cdf_via_numerical_integration(x, base_distribution, transform):
  """
  数値積分を使用する方法

  Args:
    x: 入力値
    base_distribution: 基底となる分布
    transform: 変換関数

  Returns:
    変換された分布のCDF
  """

  def integrand(y):
    return base_distribution.pdf(y)

  a = transform.inverse(torch.tensor(0.))
  b = transform.inverse(x)
  cdf = torch.quad(integrand, a, b)[0]
  return cdf

# 例
base_distribution = Normal(torch.tensor(0.), torch.tensor(1.))
transform = InverseTransform()
x = torch.tensor(0.5)

cdf_via_numerical_integration(x, base_distribution, transform)

シミュレーションを使用する

def cdf_via_simulation(x, base_distribution, transform, n_samples):
  """
  シミュレーションを使用する方法

  Args:
    x: 入力値
    base_distribution: 基底となる分布
    transform: 変換関数
    n_samples: サンプル数

  Returns:
    変換された分布のCDF
  """

  samples = base_distribution.rsample((n_samples,))
  transformed_samples = transform(samples)
  cdf = torch.mean(torch.le(transformed_samples, x)).item()
  return cdf

# 例
base_distribution = Normal(torch.tensor(0.), torch.tensor(1.))
transform = InverseTransform()
x = torch.tensor(0.5)
n_samples = 10000

cdf_via_simulation(x, base_distribution, transform, n_samples)

これらの方法は、それぞれ異なる利点と欠点があります。

逆変換後の分布のCDFを使用する方法は、最も正確な結果を得られますが、逆変換関数が存在しない場合や計算が難しい場合に使用できません。
数値積分を使用する方法は、逆変換関数が存在しない場合でも使用できますが、計算コストが高くなります。
シミュレーションを使用する方法は、最も計算コストが低い方法ですが、精度が低くなります。

具体的な状況に応じて、最適な方法を選択する必要があります。

PyTorchで確率分布を自在に操る：TransformedDistribution.cdf()のサンプルコード集

PyTorchの確率分布モジュールにおけるTransformedDistribution.cdf()解説

さまざまなサンプルコード

正規分布の逆変換

ガンマ分布の累積分布関数

ベータ分布の逆変換と対数確率密度関数

混合分布

導関数

逆変換後の分布のCDFを使用する

数値積分を使用する

シミュレーションを使用する

パフォーマンス向上：PyTorch Dataset と DataLoader でデータローディングを最適化する

torch.fft.ifftを使いこなせ！画像処理・音声処理・機械学習の強力なツール

PyTorch初心者でも安心！torch.fft.fftnを使ったサンプルコード集

PyTorchで画像処理： torch.fft.fftshift() を活用した高度なテクニック

PyTorchの逆フーリエ変換：torch.fft.ihfftnとその他の方法

NumPy、SciPy、TensorFlow Probability... ライブラリ別カイ二乗分布の使い分け

PyTorch「torch.distributions.dirichlet.Dirichlet.has_rsample」：詳細解説とサンプルコード

torch.Tensor.ormqr() 関数に関する参考情報

LazyBatchNorm1d の代替方法：Batchnorm、GroupNorm、InstanceNorm、LayerNorm

torch.Tensor.tril 関数のサンプルコード