Pandas Series の aggregate メソッド入門：グループ化と集計の基本

2024-04-02

Pandas Series の aggregate メソッド：グループ化と集計をマスターしよう！

pandas.core.groupby.SeriesGroupBy.aggregate メソッドは、Pandas の Series オブジェクトをグループ化し、グループごとに集計を行う強力なツールです。このチュートリアルでは、aggregate メソッドの仕組みと、さまざまな集計関数を用いた具体的な使い方を、分かりやすく解説していきます。

aggregate メソッドの基本
代表的な集計関数
複数の集計関数を同時に使う
グループごとのカスタム集計
まとめ

aggregate メソッドは、Series オブジェクトをグループ化した後に、グループごとに集計を行う関数です。グループ分けは、groupby メソッドで指定した列に基づいて行われます。

例:

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'Country': ['Japan', 'US', 'Japan', 'UK', 'US'],
                   'Age': [25, 30, 28, 20, 27]})

# 国別に年齢の平均を計算
grouped = df.groupby('Country')
age_average = grouped['Age'].aggregate('mean')

# 結果の確認
print(age_average)

# 出力
# Country
# Japan    26.5
# US        28.5
# Name: Age, dtype: float64

上記の例では、Country 列に基づいてグループ化し、Age 列の平均値を計算しています。

代表的な集計関数

aggregate メソッドで使用できる集計関数は多数存在します。以下は、代表的な関数とその役割です。

mean: 平均値を計算
sum: 合計値を計算
count: グループ内のデータ数をカウント
std: 標準偏差を計算
min: 最小値を取得
max: 最大値を取得

これらの関数は、単独で使うだけでなく、組み合わせて使うこともできます。

例:

# 国別に年齢の平均、合計、最小値、最大値を取得
age_stats = grouped['Age'].aggregate(['mean', 'sum', 'min', 'max'])

# 結果の確認
print(age_stats)

# 出力
# Country  mean  sum  min  max
# Japan   26.5  53.0  25.0  28.0
# US       28.5  57.0  27.0  30.0

複数の集計関数を同時に使う

aggregate メソッドは、複数の集計関数を同時に実行することができます。

例:

# 国別に年齢の平均と標準偏差を取得
age_stats = grouped['Age'].aggregate(['mean', 'std'])

# 結果の確認
print(age_stats)

# 出力
# Country  mean  std
# Japan   26.5  1.732051
# US       28.5  1.414214

グループごとのカスタム集計

aggregate メソッドは、lambda式を用いて、グループごとのカスタム集計を行うこともできます。

例:

# 国別に20歳以上の割合を計算
age_percentage = grouped['Age'].aggregate(lambda x: (x >= 20).mean())

# 結果の確認
print(age_percentage)

# 出力
# Country
# Japan    0.666667
# US        0.800000
# Name: Age, dtype: float64

まとめ

pandas.core.groupby.SeriesGroupBy.aggregate メソッドは、Pandas の Series オブジェクトをグループ化し、グループごとに集計を行う強力なツールです。このチュートリアルで解説した内容を参考に、さまざまな集計関数やカスタム集計を活用して、データ分析を効率的に進めてください。

このチュートリアルで

グループ化と集計の基本

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'Country': ['Japan', 'US', 'Japan', 'UK', 'US'],
                   'Age': [25, 30, 28, 20, 27]})

# 国別に年齢の平均を計算
grouped = df.groupby('Country')
age_average = grouped['Age'].aggregate('mean')

# 結果の確認
print(age_average)

# 出力
# Country
# Japan    26.5
# US        28.5
# Name: Age, dtype: float64

代表的な集計関数

# 国別に年齢の平均、合計、最小値、最大値を取得
age_stats = grouped['Age'].aggregate(['mean', 'sum', 'min', 'max'])

# 結果の確認
print(age_stats)

# 出力
# Country  mean  sum  min  max
# Japan   26.5  53.0  25.0  28.0
# US       28.5  57.0  27.0  30.0

複数の集計関数を同時に使う

# 国別に年齢の平均と標準偏差を取得
age_stats = grouped['Age'].aggregate(['mean', 'std'])

# 結果の確認
print(age_stats)

# 出力
# Country  mean  std
# Japan   26.5  1.732051
# US       28.5  1.414214

グループごとのカスタム集計

# 国別に20歳以上の割合を計算
age_percentage = grouped['Age'].aggregate(lambda x: (x >= 20).mean())

# 結果の確認
print(age_percentage)

# 出力
# Country
# Japan    0.666667
# US        0.800000
# Name: Age, dtype: float64

集計結果の型指定

# 国別に年齢の平均を、小数点第2位まで出力
age_average = grouped['Age'].aggregate('mean', precision=2)

# 結果の確認
print(age_average)

# 出力
# Country
# Japan    26.50
# US        28.50
# Name: Age, dtype: float64

集計結果の列名の変更

# 国別に年齢の平均を計算し、列名を変更
age_average = grouped['Age'].aggregate('mean', name='平均年齢')

# 結果の確認
print(age_average)

# 出力
# Country
# Japan    26.5
# US        28.5
# Name: 平均年齢, dtype: float64

グループ化キーの複数指定

# 国と性別別に年齢の平均を計算
grouped = df.groupby(['Country', 'Gender'])
age_average = grouped['Age'].aggregate('mean')

# 結果の確認
print(age_average)

# 出力
# Country  Gender  Age
# Japan   Male      27.0
#         Female   26.0
# US       Male      29.0
#         Female   28.0
# Name: Age, dtype: float64

集計結果のフィルタリング

# 国別に年齢の平均を計算し、平均年齢が25歳以上の国のみ出力
age_average = grouped['Age'].aggregate('mean')
filtered_average = age_average[age_average >= 25]

# 結果の確認
print(filtered_average)

# 出力
# Country
# Japan    26.5
# US        28.5
# Name: Age, dtype: float64

集計結果のソート

# 国別に年齢の平均を計算し、平均年齢の高い順に並べ替え
age_average = grouped['Age'].aggregate('mean')
sorted_average = age_average.sort_values(ascending=False)

# 結果の確認
print(sorted_average)

# 出力
# Country
# US        28.5
# Japan    26.5
# Name: Age, dtype: float64

Pandas Series の aggregate メソッド：グループ化と集計をマスターしよう！

例:

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'Country': ['Japan', 'US', 'Japan', 'UK', 'US'],
                   'Age': [25, 30, 28, 20, 27]})

# 国別に年齢の平均を計算
grouped = df.groupby('Country')
age_average = grouped['Age'].aggregate('mean')

# 結果の確認
print(age_average)

# 出力
# Country
# Japan    26.5
# US        28.5
# Name: Age, dtype: float64

上記の例では、Country 列に基づいてグループ化し、Age 列の平均値を計算しています。

代表的な集計関数

aggregate メソッドで使用できる集計関数は多数存在します。以下は、代表的な関数とその役割です。

これらの関数は、単独で使うだけでなく、組み合わせて使うこともできます。

例:

# 国別に年齢の平均、合計、最小値、最大値を取得
age_stats = grouped['Age'].aggregate(['mean', 'sum', 'min', 'max'])

# 結果の確認
print(age_stats)

# 出力
# Country  mean  sum  min  max
# Japan   26.5  53.0  25.0  28.0
# US       28.5  57.0  27.0  30.0

複数の集計関数を同時に使う

aggregate メソッドは、複数の集計関数を同時に実行することができます。

例:

# 国別に年齢の平均と標準偏差を取得
age_stats = grouped['Age'].aggregate(['mean', 'std'])

# 結果の確認
print(age_stats)

# 出力
# Country  mean  std
# Japan   26.5  1.732051
# US       28.5  1.414214

グループごとのカスタム集計

aggregate メソッドは、lambda式を用いて、グループごとのカスタム集計を行うこともできます。

例:

# 国別に20歳以上の割合を計算
age_percentage = grouped['Age'].aggregate(lambda x: (x >= 20).mean())

# 結果の確認
print(age_percentage)

# 出力
# Country
# Japan    0.666667
# US        0.800000
# Name: Age, dtype: float64

まとめ

Pandas GroupBy Tricks to

Pandas Series の aggregate メソッド入門：グループ化と集計の基本

Pandas Series の aggregate メソッド：グループ化と集計をマスターしよう！

グループ化と集計の基本

代表的な集計関数

複数の集計関数を同時に使う

グループごとのカスタム集計

集計結果の型指定

集計結果の列名の変更

グループ化キーの複数指定

集計結果のフィルタリング

集計結果のソート

Pandas Series の aggregate メソッド：グループ化と集計をマスターしよう！

Pandas Data Offsets：pandas.tseries.offsets.SemiMonthEnd.n 完全ガイド

Pandas Data Offsets: MonthBegin.is_quarter_end を活用した四半期分析

Pandas Data Offsets: 高精度時間操作を可能にする「Tick」クラスの徹底解説

Pandas Data Offsets と BusinessMonthBegin.isAnchored を用いた時系列データ分析

Pandas.tseries.offsets.Tick: 高精度な時間間隔を操る魔法の杖

Pandas.Period.hour のサンプルコード集：様々な時間操作をマスター

Pandas Seriesのインデックスを取得：keys属性を使いこなすための完全ガイド

Pandas Data Offsets と Micro.is_month_start で月の初日を判定

pandas Data Offsets: QuarterBegin.is_year_start の詳細

Pandas Data Offsets と BusinessMonthBegin を徹底解説！