PyTorch Quantization：ObserverBase.with_callable_args()を使いこなしてモデルを軽量化

2024-04-02

PyTorchにおけるQuantizationとObserverBase.with_callable_args()

Quantizationは、モデルの重みと活性化関数を、浮動小数点型から低精度な整数型に変換することで、モデルサイズと推論速度を削減します。主に以下の2種類があります。

静的量子化: トレーニング後にモデルを量子化する。
動的量子化: 推論時にモデルを量子化する。

ObserverBase.with_callable_args()の役割

ObserverBase.with_callable_args()は、動的量子化において、観測器と呼ばれるオブジェクトを作成するための関数です。観測器は、推論中にモデルの入力と出力を監視し、その統計情報に基づいて量子化スケールを計算します。

この関数は、以下の引数を受け取ります。

observer_constructor: 観測器のクラスオブジェクト。
args: 観測器のコンストラクタに渡される引数。
kwargs: 観測器のコンストラクタに渡されるキーワード引数。

ObserverBase.with_callable_args()を使用して観測器を作成するには、以下のコードのように記述します。

from torch.ao.quantization.observer import ObserverBase

observer = ObserverBase.with_callable_args(
    observer_constructor=MinMaxObserver,
    args=(1.0, 5.0),
    kwargs={"dtype": torch.quint8},
)

このコードは、MinMaxObserverという観測器を作成します。MinMaxObserverは、入力と出力の最小値と最大値を観測し、その範囲に基づいて量子化スケールを計算します。

まとめ

ObserverBase.with_callable_args()は、PyTorchにおける動的量子化において重要な役割を果たす関数です。観測器を作成することで、推論中にモデルの入力と出力を監視し、その統計情報に基づいて量子化スケールを計算することができます。

PyTorch QuantizationにおけるObserverBase.with_callable_args()のサンプルコード

ここでは、ObserverBase.with_callable_args()を使用したサンプルコードをいくつか紹介します。

MinMaxObserverは、入力と出力の最小値と最大値を観測し、その範囲に基づいて量子化スケールを計算します。

from torch.ao.quantization.observer import MinMaxObserver

observer = ObserverBase.with_callable_args(
    observer_constructor=MinMaxObserver,
    args=(1.0, 5.0),
    kwargs={"dtype": torch.quint8},
)

MovingAverageObserverは、入力と出力の移動平均値を観測し、その値に基づいて量子化スケールを計算します。

from torch.ao.quantization.observer import MovingAverageObserver

observer = ObserverBase.with_callable_args(
    observer_constructor=MovingAverageObserver,
    args=(0.9, 1.0),
    kwargs={"dtype": torch.quint8},
)

このコードは、MovingAverageObserverという観測器を作成します。MovingAverageObserverは、入力と出力の移動平均値を観測し、その値に基づいて量子化スケールを計算します。

PerChannelMinMaxObserverは、入力と出力の各チャンネルの最小値と最大値を観測し、その範囲に基づいて量子化スケールを計算します。

from torch.ao.quantization.observer import PerChannelMinMaxObserver

observer = ObserverBase.with_callable_args(
    observer_constructor=PerChannelMinMaxObserver,
    args=(1.0, 5.0),
    kwargs={"dtype": torch.quint8},
)

このコードは、PerChannelMinMaxObserverという観測器を作成します。PerChannelMinMaxObserverは、入力と出力の各チャンネルの最小値と最大値を観測し、その範囲に基づいて量子化スケールを計算します。

FakeQuantizationObserverは、実際の量子化を行わず、代わりにシミュレーションを行います。

from torch.ao.quantization.observer import FakeQuantizationObserver

observer = ObserverBase.with_callable_args(
    observer_constructor=FakeQuantizationObserver,
    args=(1.0, 5.0),
    kwargs={"dtype": torch.quint8},
)

このコードは、FakeQuantizationObserverという観測器を作成します。FakeQuantizationObserverは、実際の量子化を行わず、代わりにシミュレーションを行います。

その他

ObserverBase.with_callable_args()を使用して、さまざまな観測器を作成することができます。詳細は、PyTorch Quantizationのドキュメントを参照してください。

上記のサンプルコードを実行するには、PyTorch Quantizationと必要なライブラリをインストールする必要があります。

pip install torch torchvision torchaudio

インストール後、以下のコマンドを実行してサンプルコードを実行できます。

python sample.py

注意

上記のサンプルコードは、あくまでも参考です。実際の使用例に合わせて、コードを変更する必要があります。

PyTorch QuantizationにおけるObserverBase.with_callable_args()の代替方法

直接観測器を作成する

ObserverBase.with_callable_args()を使用せずに、直接観測器を作成することもできます。

from torch.ao.quantization.observer import MinMaxObserver

observer = MinMaxObserver(
    min_val=1.0,
    max_val=5.0,
    dtype=torch.quint8,
)

このコードは、MinMaxObserverという観測器を直接作成します。

torch.quantization.quantize_dynamic()を使用して、モデルを動的に量子化することもできます。

from torch.quantization import quantize_dynamic

model = quantize_dynamic(model, observer)

このコードは、observerを使用してモデルを動的に量子化します。

その他

上記の2つの方法以外にも、さまざまな方法で動的量子化を行うことができます。詳細は、PyTorch Quantizationのドキュメントを参照してください。

各方法の比較

方法	メリット	デメリット
ObserverBase.with_callable_args()	簡単に観測器を作成できる	柔軟性に欠ける
直接観測器を作成する	柔軟性が高い	コード量が増える
torch.quantization.quantize_dynamic()	コード量が少なく済む	細かい制御ができない

簡単な方法で動的量子化を行いたい場合は、ObserverBase.with_callable_args()を使用するのがおすすめです。
より柔軟な方法で動的量子化を行いたい場合は、直接観測器を作成するのがおすすめです。
コード量を抑えたい場合は、torch.quantization.quantize_dynamic()を使用するのがおすすめです。

注意

上記の比較は、あくまでも参考です。実際の使用例に合わせて、最適な方法を選択する必要があります。

PyTorch Quantization：ObserverBase.with_callable_args()を使いこなしてモデルを軽量化

PyTorchにおけるQuantizationとObserverBase.with_callable_args()

PyTorch QuantizationにおけるObserverBase.with_callable_args()のサンプルコード

PyTorch QuantizationにおけるObserverBase.with_callable_args()の代替方法

PyTorch「torch.autograd.functional.vjp()」の解説とサンプルコード集

【初心者向け】PyTorchで自動微分を使いこなす！「torch.autograd.function.FunctionCtx.mark_dirty()」の役割と使い方

PyTorch の Automatic Differentiation の詳細：torch.autograd.Function.backward() の仕組み

GradScaler.state_dict() を使って、PyTorch Automatic Mixed Precision の訓練を中断して後で再開する方法

PyTorch Backends: torch.backends.cuda.flash_sdp_enabled()のサンプルコード集

豊富なサンプルコードで理解を深める！PyTorchでtorch.trapezoidを使った数値積分の実装例

PyTorchで勾配爆発を防ぐ: torch.nn.utils.clip_grad_value_の徹底解説

OneHotCategorical.param_shape：PyTorchでカテゴリカル分布を扱うための鍵

【初心者向け】PyTorchでカスタム対数関数を自作：torch.mvlgamma 関数の仕組みを理解しよう

PyTorch CUDA synchronize の使い方: GPUとCPU間のデータ転送を効率的に制御