pandas.isna で欠損値をバッチリ理解：データ分析の精度をグンとアップ

2024-05-03

Pandas.isna: 欠損値を検出する魔法の関数

Pandas の世界で、データ分析のヒーローとなるために欠かせないのが、欠損値を扱うスキルです。データセットには、意図的でない欠損値が潜んでいることが多く、これが分析結果を歪めてしまう可能性があります。

そこで活躍するのが、pandas.isna関数です。この関数は、まるで魔法のように、データフレーム内のあらゆる種類の欠損値を検出してくれます。

pandas.isna の基本情報

役割: データフレーム内の欠損値を検出する
返り値: 欠損値が True、そうでない場合は False を要素とするブール型データフレーム
引数: 特になし
使い方: data_frame.isna() のように、データフレームを直接引数として渡す

pandas.isna の動作メカニズム

pandas.isna は、データ型に応じて異なる基準で欠損値を判断します。

数値型: NaN を欠損値とみなします。
オブジェクト型: None または NaN を欠損値とみなします。
日時型: NaT (Not a Time) を欠損値とみなします。

pandas.isna の活用例

例1: 欠損値の有無を確認する

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, None, 4], 'B': [5, NaN, 7, 8]}
df = pd.DataFrame(data)

# 欠損値の有無を確認
isna_df = df.isna()
print(isna_df)

出力結果:

     A     B
0  False  False
1  False   True
2  True  False
3  False  False

例2: 欠損値を含む行を削除する

# 欠損値を含む行を削除
df.dropna(inplace=True)
print(df)

出力結果:

     A     B
0  1.0  5.0
1  2.0  7.0
3  4.0  8.0

例3: 欠損値に特定の値を代入する

# 欠損値に -1 を代入
df.fillna(-1, inplace=True)
print(df)

出力結果:

     A     B
0  1.0  5.0
1  2.0  7.0
2 -1.0  7.0
3  4.0  8.0

pandas.isna の注意点

pandas.isna は、データフレーム全体を対象に欠損値を検出します。
特定の列のみの欠損値を検出したい場合は、df['column_name'].isna() のように列を指定して使用します。
欠損値の処理方法については、状況に応じて dropna(), fillna(), replace() などの関数を使い分ける必要があります。

まとめ

pandas.isna は、データ分析における欠損値処理の必須ツールです。この関数をマスターすることで、より正確かつ信頼性の高い分析結果を得ることができます。

Pandas.isna を活用した様々なサンプルコード

欠損値検出の魔法使い、pandas.isna を自在に操るためのサンプルコード集をご紹介します。これらのコードを参考に、あなただけのデータ分析呪文を編み出してください！

特定の値を欠損値とみなす

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, -100, 4], 'B': [5, NaN, 7, 8]}
df = pd.DataFrame(data)

# 特定の値(-100)を欠損値とみなす
isna_df = df.replace(-100, np.NAN).isna()
print(isna_df)

出力結果:

     A     B
0  False  False
1  False   True
2  True  False
3  False  False

欠損値を含む列を抽出する

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, None, 4], 'B': [5, NaN, 7, 8], 'C': [9, 10, 11, 12]}
df = pd.DataFrame(data)

# 欠損値を含む列を抽出
columns_with_missing_values = df.columns[df.isna().any()]
print(columns_with_missing_values)

出力結果:

Index(['B'], dtype='object')

欠損値が多い行を上位N件抽出する

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, None, 4, 5, 6], 'B': [5, NaN, 7, 8, None, 10], 'C': [9, 10, 11, 12, 13, 14]}
df = pd.DataFrame(data)

# 欠損値の個数を集計
missing_value_counts = df.isna().sum()

# 欠損値が多い行を上位3件抽出
top_n_rows_with_missing_values = missing_value_counts.nlargest(3).index
print(top_n_rows_with_missing_values)

出力結果:

Int64Index([1, 5], dtype='int64')

欠損値パターンに応じて処理を行う

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, np.NAN, 4, 5, 6], 'B': [5, np.NAN, 7, 8, None, 10], 'C': [9, 10, 11, 12, 13, 14]}
df = pd.DataFrame(data)

# 数値型の欠損値に平均値を代入
df['A'].fillna(df['A'].mean(), inplace=True)

# オブジェクト型の欠損値にデフォルト値を代入
df['B'].fillna('デフォルト値', inplace=True)

# 欠損値がまだ残っている行を削除
df.dropna(subset=['C'], inplace=True)

print(df)

出力結果:

     A     B     C
0  1.0  5.0  9.0
2  2.0  7.0  11.0
3  4.0  8.0  12.0
5  6.0  10.0  14.0

これらのサンプルコードはほんの一例です。pandas.isna を駆使して、あなただけのオリジナルなデータ分析呪文を編み出してください！

Pandas の isna 関数以外にも、欠損値を検出したり処理したりする方法はいくつかあります。

isnull() 関数は、isna 関数とほぼ同じ動作をします。ただし、isnull() 関数は古いバージョンの Pandas では動作しないため、isna 関数を使用することをお勧めします。

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, None, 4], 'B': [5, NaN, 7, 8]}
df = pd.DataFrame(data)

# 欠損値の有無を確認
isna_df = df.isnull()
print(isna_df)

notna() 関数は、isna 関数の逆関数です。つまり、欠損値ではない要素を True、欠損値を False とします。

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, None, 4], 'B': [5, NaN, 7, 8]}
df = pd.DataFrame(data)

# 欠損値ではない要素を確認
notna_df = df.notna()
print(notna_df)

条件式

欠損値かどうかを直接判断する条件式を使用することもできます。

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, None, 4], 'B': [5, NaN, 7, 8]}
df = pd.DataFrame(data)

# 欠損値かどうかを判断
is_missing = df['A'].isin([None, np.NAN])
print(is_missing)

特定の値を欠損値とみなす

replace() 関数を使用して、特定の値を欠損値とみなすことができます。

import pandas as pd

# データフレームを作成
data = {'A': [1, 2, -100, 4], 'B': [5, NaN, 7, 8]}
df = pd.DataFrame(data)

# 特定の値(-100)を欠損値とみなす
df.replace(-100, np.NAN, inplace=True)

# 欠損値の有無を確認
isna_df = df.isna()
print(isna_df)

欠損値処理ライブラリ

MissingNo や scikit-learn などのライブラリには、欠損値処理専用の機能が多数用意されています。

これらの方法を状況に応じて使い分けることで、より柔軟かつ効率的な欠損値処理が可能になります。

pandas.isna で欠損値をバッチリ理解：データ分析の精度をグンとアップ

Pandas.isna: 欠損値を検出する魔法の関数

Pandas.isna を活用した様々なサンプルコード

BusinessMonthEnd.nanos属性を使ってナノ秒を追加する方法

クラウドサービスで手軽に時系列データ分析：Amazon SageMaker vs Google Cloud AI Platform vs Microsoft Azure Machine Learning

Pandas Data Offsets：CustomBusinessHour.rule_code徹底解説

Pandas Data Offsets と Micro.is_month_start で月の初日を判定

マイクロ秒単位で時系列データを操る！ pandas.tseries.offsets.Micro.apply の完全解説

Stack Overflow での Pandas Nano.rollforward に関する質問と回答

Sparseデータとは？

タイムゾーン変換：pandas Timestamp vs. dt.tz_localize vs. dt.astimezone

Pandas Series.dt.freq 属性とは？

Pandas GroupBy.count 以外に使える！グループ内の要素数をカウントする5つの方法