Pandas Styleで特定範囲の値を視覚的に強調表示： highlight_quantile メソッド完全解説

2024-04-03

Pandas Styleで特定の範囲の値をハイライト表示する：highlight_quantile メソッドの詳細解説

メソッドの概要

highlight_quantile メソッドは、以下の引数を受け取ります。

quantile: ハイライト対象となる範囲を指定します。0から1までの数値で、データの範囲を表します。例えば、quantile=0.25 とすると、下位25％の値がハイライトされます。
subset: ハイライト対象となる列を指定します。デフォルトでは全ての列が対象となりますが、特定の列のみをハイライトしたい場合は、列名をリストで指定できます。
color: ハイライト表示の色を指定します。デフォルトでは'yellow'ですが、CSSのカラーコードや名前で任意の色を指定できます。
axis: ハイライト対象となる軸を指定します。デフォルトでは0で、行方向にハイライト表示されます。1 を指定すると、列方向にハイライト表示されます。
method: 範囲の計算方法を指定します。デフォルトでは'inclusive'で、指定された範囲を含む全ての値がハイライトされます。'exclusive' を指定すると、範囲に含まれない値のみがハイライトされます。
na_rule: 欠損値の扱い方を指定します。デフォルトでは'ignore'で、欠損値はハイライト対象となりません。'highlight' を指定すると、欠損値もハイライトされます。

実践的な例

以下の例では、highlight_quantile メソッドを使って、データフレーム内の下位25％と上位25％の値をそれぞれ異なる色でハイライト表示しています。

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]})

# 下位25%を黄色、上位25%を青色でハイライト
df.style.highlight_quantile(
    quantile=[0.25, 0.75],
    colors=['yellow', 'blue'],
    subset=['A', 'B'],
)

出力結果：

この例のように、highlight_quantile メソッドは、データの分布や異常値を視覚的に強調表示することで、データ分析をより効率的に行うことができます。

補足情報

highlight_quantile メソッドは、Styler オブジェクトに対して呼び出します。
複数の範囲を同時にハイライトしたい場合は、quantile 引数に複数の数値をリストで渡すことができます。
ハイライト表示のスタイルは、CSS を使ってカスタマイズできます。

その他の関連メソッド

highlight_max: 最大値をハイライト表示します。
highlight_between: 2つの値の間にある値をハイライト表示します。

これらのメソッドを組み合わせることで、データフレームをより詳細に分析することができます。

pandas.io.formats.style.Styler.highlight_quantile メソッドは、データフレーム内の特定の範囲の値を視覚的に強調表示するための強力なツールです。この機能を使いこなすことで、データ分析をより効率的に行うことができます。

Pandas Styleで特定の範囲の値をハイライト表示する：highlight_quantile メソッドのサンプルコード集

基本的な例

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]})

# 下位25%を黄色、上位25%を青色でハイライト
df.style.highlight_quantile(
    quantile=[0.25, 0.75],
    colors=['yellow', 'blue'],
    subset=['A', 'B'],
)

複数の範囲をハイライト

df.style.highlight_quantile(
    quantile=[0.1, 0.5, 0.9],
    colors=['red', 'yellow', 'green'],
    subset=['A', 'B'],
)

特定の列のみをハイライト

df.style.highlight_quantile(
    quantile=[0.25, 0.75],
    colors=['yellow', 'blue'],
    subset=['A'],
)

範囲の計算方法を指定

df.style.highlight_quantile(
    quantile=[0.25, 0.75],
    colors=['yellow', 'blue'],
    method='exclusive',
)

欠損値の扱い方を指定

df.style.highlight_quantile(
    quantile=[0.25, 0.75],
    colors=['yellow', 'blue'],
    na_rule='highlight',
)

スタイルのカスタマイズ

df.style.highlight_quantile(
    quantile=[0.25, 0.75],
    colors=['yellow', 'blue'],
    styler=lambda x: x.background_gradient('red', 'green')
)

条件付きハイライト

def highlight_low(x):
    return x.apply(lambda y: 'background-color: yellow' if y < 3 else '')

df.style.highlight_quantile(
    quantile=0.25,
    subset=['A'],
    styler=highlight_low
)

Pandasで特定の範囲の値をハイライト表示するその他の方法

loc と where を使う

df.loc[df['A'] < df['A'].quantile(0.25), 'A'] = 'yellow'
df.loc[df['A'] > df['A'].quantile(0.75), 'A'] = 'blue'

mask を使う

mask = (df['A'] < df['A'].quantile(0.25)) | (df['A'] > df['A'].quantile(0.75))
df['A'] = df['A'].mask(mask, 'yellow')

条件付きフォーマットを使う

df.style.apply(lambda x: ['background-color: yellow' if y < 3 else '' for y in x], subset=['A'])

カスタムフォーマッターを使う

def highlight_quantile(val):
    if val < df['A'].quantile(0.25):
        return 'background-color: yellow'
    elif val > df['A'].quantile(0.75):
        return 'background-color: blue'
    else:
        return ''

df.style.format(formatter=highlight_quantile, subset=['A'])

これらの方法はいずれも、highlight_quantile メソッドよりも簡潔に記述できますが、機能的には劣ります。

シンプルなハイライト表示であれば、loc と where を使う方法が最も簡単です。
より複雑な条件でハイライト表示したい場合は、mask を使う方法がおすすめです。
条件付きフォーマットを使うと、コードをより簡潔に記述できますが、すべてのバージョンでサポートされているわけではありません。
カスタムフォーマッターを使うと、最も柔軟な方法でハイライト表示できますが、コード量が増えてしまいます。

pandas.io.formats.style.Styler.highlight_quantile メソッド以外にも、データフレーム内の特定の範囲の値をハイライト表示する方法はいくつかあります。どの方法を使うべきかは、状況によって異なります。

Pandas Styleで特定範囲の値を視覚的に強調表示： highlight_quantile メソッド完全解説

Pandas Styleで特定の範囲の値をハイライト表示する：highlight_quantile メソッドの詳細解説

メソッドの概要

実践的な例

補足情報

その他の関連メソッド

Pandas Styleで特定の範囲の値をハイライト表示する：highlight_quantile メソッドのサンプルコード集

基本的な例

複数の範囲をハイライト

特定の列のみをハイライト

範囲の計算方法を指定

欠損値の扱い方を指定

スタイルのカスタマイズ

条件付きハイライト

Pandasで特定の範囲の値をハイライト表示するその他の方法

loc と where を使う

mask を使う

条件付きフォーマットを使う

カスタムフォーマッターを使う

Pandas Data Offsets でデータ分析をレベルアップ: pandas.tseries.offsets.QuarterEnd.is_anchored の奥深さ

Pandas Data Offsets と pandas.tseries.offsets.Second.is_month_start の完全ガイド

Pandas Data Offsets の活用：CustomBusinessDay オブジェクトで時系列データ分析をレベルアップ

pandas.tseries.offsets.CustomBusinessHour.nanos 属性の詳細解説

Pandas: Data Offsets - CustomBusinessHour.rollforward のサンプルコード集

Pandasでファイルパス、URL、名前、メールアドレスなどを楽々解析！「pandas.Series.str.rpartition」の実践ガイド

時系列データ分析に役立つ YearEnd.is_anchored 属性: Pandas Data Offsets の活用

Pandas データオフセット：Tick オブジェクトを使いこなして時系列データ分析をレベルアップ

Pandas DataFrame の pivot_table メソッドとは？

【初心者向け】Pandasで時差付きタイムスタンプを扱う： is_datetime64tz_dtype 関数でデータ型判別