Pandas DataFrame の MAD 関数：データのばらつきを測る

2024-04-02

Pandas DataFrame の mad 関数：詳細解説

pandas.DataFrame.mad 関数は、データフレーム内のデータのばらつきを測る指標である 平均絶対偏差 (MAD) を計算します。MAD は、平均値からの各データポイントの距離の平均値であり、外れ値の影響を受けにくいという特徴があります。

使い方

DataFrame.mad 関数は、以下の形式で呼び出します。

df.mad(axis=0, skipna=True)

axis : 計算対象となる軸を指定します。デフォルトは 0 で、列方向に計算されます。1 を指定すると行方向に計算されます。
skipna : 欠損値 (NaN) を無視するかどうかのフラグです。デフォルトは True で、欠損値は無視されます。False を指定すると、欠損値を含むデータも計算に含めます。

計算式

DataFrame.mad 関数は、以下の式で MAD を計算します。

def mad(self, axis=0, skipna=True):
    return _mad(self, axis=axis, skipna=skipna)

def _mad(data, axis=0, skipna=True):
    if skipna:
        data = data.dropna(axis=axis)
    return np.nanmean(np.abs(data - data.mean(axis=axis)), axis=axis)

np.nanmean : 欠損値を含めた平均値を計算します。
np.abs : データと平均値との差の絶対値を計算します。

出力結果

DataFrame.mad 関数は、Series 型のデータフレームを返します。各列 (または行) は、その列 (または行) のデータの MAD を表します。

例

以下の例では、df データフレームの列方向と行方向の MAD を計算しています。

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

# 列方向の MAD
print(df.mad(axis=0))

# 出力結果:
# A    1.0
# B    1.0
# C    1.0

# 行方向の MAD
print(df.mad(axis=1))

# 出力結果:
# 0    1.0
# 1    1.0
# 2    1.0

応用例

DataFrame.mad 関数は、以下の様な応用例があります。

データのばらつきを比較する
外れ値を検出する
データの正規性を検証する

補足

DataFrame.mad 関数は、NumPy の np.mad 関数と同様の機能を提供します。
DataFrame.std 関数は、標準偏差を計算します。標準偏差は、MAD と同様にデータのばらつきを測る指標ですが、外れ値の影響を受けやすいという特徴があります。

Pandas DataFrame.mad サンプルコード集

このサンプルコード集では、DataFrame.mad 関数の様々な使い方を紹介します。

列方向と行方向の MAD を計算

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

# 列方向の MAD
print(df.mad(axis=0))

# 出力結果:
# A    1.0
# B    1.0
# C    1.0

# 行方向の MAD
print(df.mad(axis=1))

# 出力結果:
# 0    1.0
# 1    1.0
# 2    1.0

欠損値を含むデータの MAD を計算

df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, 6], 'C': [7, np.nan, 9]})

# 欠損値を無視して MAD を計算
print(df.mad(axis=0, skipna=True))

# 出力結果:
# A    1.0
# B    1.0
# C    1.0

# 欠損値を含めて MAD を計算
print(df.mad(axis=0, skipna=False))

# 出力結果:
# A    1.5
# B    1.0
# C    1.5

特定の列の MAD を計算

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

# 列 'B' の MAD を計算
print(df['B'].mad())

# 出力結果:
# 1.0

MAD を用いて外れ値を検出

df = pd.DataFrame({'A': [1, 2, 3, 100], 'B': [4, 5, 6, 7]})

# 列 'A' の MAD と 3 倍の MAD を計算
mad = df['A'].mad()
threshold = 3 * mad

# MAD の閾値を超える値を抽出
outliers = df[df['A'] > threshold]

# 出力結果:
#   A  B
# 3  100  7

MAD を用いてデータの正規性を検証

import scipy.stats as stats

df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})

# 列 'A' の MAD を計算
mad = df['A'].mad()

# シャピロ・ウィルク検定を実行
shapiro_test = stats.shapiro(df['A'])

# p 値が 0.05 より小さい場合、正規分布に従わないと判断
if shapiro_test.pvalue < 0.05:
    print('データは正規分布に従わない')
else:
    print('データは正規分布に従う')

# 出力結果:
# データは正規分布に従う

DataFrame.mad 関数は、データのばらつきを測る指標である MAD を計算する便利な関数です。このサンプルコード集を参考に、様々なデータ分析に活用してください。

Pandas DataFrame のばらつきを測る他の方法

標準偏差は、平均値からの各データポイントの距離の平方平均値です。DataFrame.std 関数で計算できます。

df.std(axis=0, skipna=True)

標準偏差は、MAD と同様にデータのばらつきを測る指標ですが、外れ値の影響を受けやすいという特徴があります。

四分位範囲は、データのばらつきを表す指標の一つです。データの 25% 、 50% 、 75% の位置にある値 (四分位点) を用いて計算します。

df.describe(percentiles=[0.25, 0.5, 0.75])

# 出力結果:
#              25%       50%       75%
# A  1.250000  2.500000  3.750000
# B  4.250000  5.000000  5.750000
# C  7.250000  8.000000  8.750000

四分位範囲は、外れ値の影響を受けにくく、データの分布の形を把握するのに役立ちます。

IQR は、四分位範囲 (IQR) は、データの 75% 四分位点と 25% 四分位点の差です。

df.quantile(0.75) - df.quantile(0.25)

# 出力結果:
# A    2.5
# B    1.5
# C    1.5

IQR は、四分位範囲と同様に、外れ値の影響を受けにくく、データの分布の形を把握するのに役立ちます。

変動係数は、標準偏差を平均値で割った値です。

df.std(axis=0, skipna=True) / df.mean(axis=0, skipna=True)

変動係数は、データのばらつきを平均値と比較して評価する指標です。

箱ひげ図は、データのばらつきを視覚的に表現する図です。

import seaborn as sns

sns.boxplot(data=df)

箱ひげ図は、外れ値やデータの分布の形を把握するのに役立ちます。

DataFrame.mad 関数以外にも、Pandas DataFrame のばらつきを測る方法はいくつかあります。それぞれの方法には、それぞれメリットとデメリットがあります。データの特性や目的に合わせて、適切な方法を選択することが重要です。

Pandas DataFrame の MAD 関数：データのばらつきを測る

Pandas DataFrame の mad 関数：詳細解説

Pandas DataFrame.mad サンプルコード集

列方向と行方向の MAD を計算

欠損値を含むデータの MAD を計算

特定の列の MAD を計算

MAD を用いて外れ値を検出

MAD を用いてデータの正規性を検証

Pandas DataFrame のばらつきを測る他の方法

Pandas Data Offsets: pandas.tseries.offsets.LastWeekOfMonth.apply の使い方

Pandas Data Offsets: Minute.kwds とは？

Pandasでビジネスサイクルに沿ったデータ分析を実現！ pandas.tseries.offsets.BusinessMonthBegin の使い方と注意点

【完全ガイド】 pandas.tseries.offsets.YearBegin で年単位のオフセット計算をマスターしよう！

Pandas Data Offsets でカスタムビジネス月の末日を扱う：詳細解説とサンプルコード

年末処理、データ分析、キャンペーンも楽々！ Pandas Timestamp 型の is_year_end 属性の活用例

Pandas Data Offsets と Tick.freqstr 属性：詳細解説とサンプルコード

pandas.Timedelta.to_timedelta64 関数で Pandas Timedelta を NumPy timedelta64 に変換

Pandasで月末から15日と月末を表す：SemiMonthEnd.freqstr徹底解説

Excelファイルを読み込むためのPythonライブラリ