Pandas DataFrame.eval メソッドを使いこなすためのヒント：データ分析をもっと効率化しよう

2024-04-02

pandas.DataFrame.eval() メソッドは、文字列式を評価し、結果を新しい列として返す強力なツールです。式は、DataFrame の列を参照し、算術演算、論理演算、条件分岐など、さまざまな操作を実行できます。

基本的な使い方

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 新しい列を追加
df['C'] = df['A'] + df['B']

# 式を評価
df['D'] = df.eval('A * B')

# 条件分岐
df['E'] = df.eval('A > B', inplace=False)

print(df)

#   A  B  C  D   E
# 0  1  4  5   False
# 1  2  5  7   False
# 2  3  6  9    True

式で使えるもの

算術演算子: +, -, *, /, //, %, **
論理演算子: and, or, not
比較演算子: ==, !=, <, <=, >, >=
Python の組み込み関数: len, abs, max, min, sum, mean, median, etc.
NumPy の関数: np.log, np.sin, np.cos, etc.
ユーザー定義関数

注意点

式は、DataFrame の列名を参照できる必要があります。
式は、Python の構文に従う必要があります。
式は、安全で信頼できるものである必要があります。

応用例

新しい指標を計算する
データをフィルタリングする
データの欠損値を処理する
データのグループ化と集計

eval() メソッドは、複雑な処理を簡潔に記述できるため、Pandas でデータ分析を行う際に非常に便利なツールです。上記の参考資料などを参考に、使いこなせるように練習することをおすすめします。

Pandas DataFrame.eval サンプルコード

df['C'] = df['A'] + df['B']

式を評価

df['D'] = df.eval('A * B')

条件分岐

df['E'] = df.eval('A > B', inplace=False)

複数条件の処理

df['F'] = df.eval('(A > B) & (C < 10)', inplace=False)

ユーザー定義関数

def g(x):
  return x**2

df['G'] = df.eval('g(A)', inplace=False)

グループ演算

df['H'] = df.groupby('A')['B'].transform('mean')

欠損値処理

df['I'] = df['A'].fillna(0)

文字列操作

df['J'] = df['A'].str.upper()

正規表現

df['K'] = df['A'].str.extract(r'(\d+)')

日付処理

df['L'] = pd.to_datetime(df['A'])

マージ

df = df.merge(df2, on='A')

集計

df = df.groupby('A').agg({'B': 'sum', 'C': 'mean'})

ソート

df = df.sort_values('A', ascending=False)

可視化

import matplotlib.pyplot as plt

plt.plot(df['A'], df['B'])
plt.show()

データの保存

df.to_csv('data.csv')

データの読み込み

df = pd.read_csv('data.csv')

上記は、Pandas DataFrame.eval メソッドのさまざまな使い方の例です。これらの例を参考に、データ分析に必要な処理を記述してみてください。

Pandas DataFrame.eval 以外の方法

算術演算

df['C'] = df['A'] + df['B']

# 同等
df['C'] = df.A + df.B

条件分岐

df['E'] = df.eval('A > B', inplace=False)

# 同等
df['E'] = df['A'] > df['B']

ユーザー定義関数

def g(x):
  return x**2

df['G'] = df.eval('g(A)', inplace=False)

# 同等
def g(x):
  return x**2

df['G'] = g(df['A'])

グループ演算

df['H'] = df.groupby('A')['B'].transform('mean')

# 同等
def g(df):
  return df['B'].mean()

df['H'] = df.groupby('A').apply(g)

欠損値処理

df['I'] = df['A'].fillna(0)

# 同等
df['I'] = df['A'].replace(np.nan, 0)

文字列操作

df['J'] = df['A'].str.upper()

# 同等
df['J'] = df['A'].apply(str.upper)

正規表現

df['K'] = df['A'].str.extract(r'(\d+)')

# 同等
df['K'] = df['A'].apply(lambda x: re.extract(r'(\d+)', x))

日付処理

df['L'] = pd.to_datetime(df['A'])

# 同等
df['L'] = pd.to_datetime(df['A'], errors='coerce')

マージ

df = df.merge(df2, on='A')

# 同等
df = pd.merge(df, df2, on='A')

集計

df = df.groupby('A').agg({'B': 'sum', 'C': 'mean'})

# 同等
df = df.groupby('A').aggregate({'B': 'sum', 'C': 'mean'})

ソート

df = df.sort_values('A', ascending=False)

# 同等
df = df.sort_values(by='A', ascending=False)

可視化

import matplotlib.pyplot as plt

plt.plot(df['A'], df['B'])
plt.show()

# 同等
import seaborn as sns

sns.lineplot(x='A', y='B', data=df)
plt.show()

データの保存

df.to_csv('data.csv')

# 同等
df.to_pickle('data.pkl')

データの読み込み

df = pd.read_csv('data.csv')

# 同等
df = pd.read_pickle('data.pkl')

eval() メソッドは、式を記述することで複雑な処理を簡潔に記述できるため、便利なツールです。しかし、すべての処理を eval() メソッドで記述する必要はありません。状況に応じて、上記のような他の方法も検討してみてください。

Pandas DataFrame.eval メソッドを使いこなすためのヒント：データ分析をもっと効率化しよう

Pandas DataFrame.eval サンプルコード

Pandas DataFrame.eval 以外の方法

PandasのMonthEnd.name属性：月単位の時系列データ分析をマスターするための必須アイテム

Pandas: Data Offsets - CustomBusinessHour.rollforward のサンプルコード集

pandas.tseries.offsets.BYearEnd.month 以外の方法

Pandas初心者でも安心！ pandas.tseries.offsets.Milli.call を使ったミリ秒単位の日付オフセット生成

質問：pandas.tseries.offsets.QuarterEnd.isAnchored の役割と使い方をわかりやすく解説してください。

Pandas で年の初めをカスタマイズ: YearBegin.base とその他的方法

Pandas Data Offsets でデータ分析をレベルアップ: pandas.tseries.offsets.QuarterEnd.is_anchored の奥深さ

pandas.errors.UndefinedVariableError エラーとは？

Stack Overflow での Pandas Nano.rollforward に関する質問と回答

【初心者向け】Pandasで時差付きタイムスタンプを扱う： is_datetime64tz_dtype 関数でデータ型判別

Pandas DataFrame.eval メソッドを使いこなすためのヒント： データ分析をもっと効率化しよう

Pandas DataFrame.eval サンプルコード

Pandas DataFrame.eval 以外の方法

Pandas DataFrame.eval メソッドを使いこなすためのヒント：データ分析をもっと効率化しよう