record.argsort() を使いこなして、NumPy Standard Array Subclasses の構造化配列を自在に操る

2024-04-06

NumPy の Standard array subclasses における record.argsort() の解説

NumPy の record.argsort() は、構造化配列（record array）の要素を、指定されたフィールドに基づいてソートする際に使用する関数です。Standard array subclasses は、NumPy の基本的な配列型 (ndarray) を拡張したものであり、record.argsort() を含む多くの NumPy 関数をサポートします。

record.argsort() は、以下の引数を受け取ります。

arr: ソート対象の構造化配列
kind: ソートの種類 ("stable" または "quicksort")
order: ソート順序 ("ascending" または "descending")
axis: ソートする軸

record.argsort() は、ソートされた要素のインデックスを返す配列を返します。

例

以下の例では、record.argsort() を使用して、構造化配列を age フィールドに基づいて降順にソートする方法を示します。

import numpy as np

# 構造化配列を作成
data = np.rec.array([
    ('John', 20, 1.8),
    ('Jane', 25, 1.6),
    ('Alice', 30, 1.7)
], dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# age フィールドに基づいて降順にソート
indices = data.argsort(field='age', order='descending')

# ソートされた結果を出力
print(data[indices])

出力:

[(Alice, 30, 1.7)
 (Jane, 25, 1.6)
 (John, 20, 1.8)]

Standard array subclasses との関係

record.argsort() は、Standard array subclasses のすべての型で利用できます。Standard array subclasses には、以下のものがあります。

numpy.matrix: 行列演算に特化した配列
numpy.memmap: ファイル上のデータをメモリマップされた配列として扱う
numpy.recarray: 構造化データを表す配列

これらのサブクラスは、ndarray と同様に record.argsort() を使用できます。

補足

record.argsort() は、要素の比較に __lt__ メソッドを使用します。
record.argsort() は、ソートされた要素のインデックスを返すため、元の配列は変更されません。
複数のフィールドに基づいてソートするには、order 引数にフィールド名のリストを渡すことができます。

NumPy の Standard array subclasses における record.argsort() のサンプルコード

複数のフィールドに基づいてソート

import numpy as np

# 構造化配列を作成
data = np.rec.array([
    ('John', 20, 1.8, 'A'),
    ('Jane', 25, 1.6, 'B'),
    ('Alice', 30, 1.7, 'C')
], dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4'), ('group', 'U1')])

# age フィールドと group フィールドに基づいて降順にソート
indices = data.argsort(order=['age', 'group'], descending=True)

# ソートされた結果を出力
print(data[indices])

[(Alice, 30, 1.7, 'C')
 (Jane, 25, 1.6, 'B')
 (John, 20, 1.8, 'A')]

特定の軸に基づいてソート

import numpy as np

# 構造化配列を作成
data = np.rec.array([
    [('John', 20, 1.8), ('Jane', 25, 1.6)],
    [('Alice', 30, 1.7), ('Bob', 35, 1.9)]
], dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# 0番目の軸 (行)に基づいて age フィールドで昇順にソート
indices = data.argsort(axis=0, field='age')

# ソートされた結果を出力
print(data[indices])

出力:

[[('Jane', 25, 1.6) ('John', 20, 1.8)]
 [('Alice', 30, 1.7) ('Bob', 35, 1.9)]]

numpy.matrix サブクラス

import numpy as np

# 構造化配列を作成
data = np.matrix([
    ('John', 20, 1.8),
    ('Jane', 25, 1.6),
    ('Alice', 30, 1.7)
], dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# age フィールドに基づいて降順にソート
indices = data.argsort(field='age', order='descending')

# ソートされた結果を出力
print(data[indices])

出力:

[[('Alice', 30, 1.7)
  ('Jane', 25, 1.6)
  ('John', 20, 1.8)]]

numpy.memmap サブクラス

import numpy as np

# 構造化配列を作成
data = np.memmap('data.bin', dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# age フィールドに基づいて降順にソート
indices = data.argsort(field='age', order='descending')

# ソートされた結果を出力
print(data[indices])

出力:

[(Alice, 30, 1.7)
 (Jane, 25, 1.6)
 (John, 20, 1.8)]

numpy.recarray サブクラス

import numpy as np

# 構造化配列を作成
data = np.recarray(10, dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# age フィールドに基づいて降順にソート
indices = data.argsort(field='age', order='descending')

# ソートされた結果を出力
print(data[indices])

出力:

[(0, 0, 0.0)
 (1, 0, 0.0)
 (2, 0, 0.0)
 (3, 0, 0.0)
 (4, 0, 0.0)
 (5, 0,

NumPy の Standard array subclasses における record.argsort() の代替方法

np.sort() を使用して、構造化配列のフィールドに基づいてソートできます。

import numpy as np

# 構造化配列を作成
data = np.rec.array([
    ('John', 20, 1.8),
    ('Jane', 25, 1.6),
    ('Alice', 30, 1.7)
], dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# age フィールドに基づいて降順にソート
indices = np.lexsort((-data['age'],))

# ソートされた結果を出力
print(data[indices])

出力:

[(Alice, 30, 1.7)
 (Jane, 25, 1.6)
 (John, 20, 1.8)]

ラムダ式と sorted() を使用して、構造化配列の要素をソートできます。

import numpy as np

# 構造化配列を作成
data = np.rec.array([
    ('John', 20, 1.8),
    ('Jane', 25, 1.6),
    ('Alice', 30, 1.7)
], dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# age フィールドに基づいて降順にソート
indices = sorted(range(len(data)), key=lambda i: -data['age'][i])

# ソートされた結果を出力
print(data[indices])

出力:

[(Alice, 30, 1.7)
 (Jane, 25, 1.6)
 (John, 20, 1.8)]

自作のソート関数を使用して、構造化配列の要素をソートできます。

import numpy as np

def sort_by_age(data):
    return np.lexsort((-data['age'],))

# 構造化配列を作成
data = np.rec.array([
    ('John', 20, 1.8),
    ('Jane', 25, 1.6),
    ('Alice', 30, 1.7)
], dtype=[('name', 'U10'), ('age', 'i4'), ('height', 'f4')])

# age フィールドに基づいて降順にソート
indices = sort_by_age(data)

# ソートされた結果を出力
print(data[indices])

出力:

[(Alice, 30, 1.7)
 (Jane, 25, 1.6)
 (John, 20, 1.8)]

これらの方法は、record.argsort() 以外にも、Standard array subclasses の要素をソートする際に役立ちます。

補足

上記の例では、age フィールドに基づいてソートしていますが、他のフィールドに基づいてソートすることもできます。
降順にソートするには、- 演算子を使用してフィールドの値を反転します。
複数のフィールドに基づいてソートするには、np.lexsort() またはラムダ式を使用できます。

record.argsort() を使いこなして、NumPy Standard Array Subclasses の構造化配列を自在に操る

NumPy の Standard array subclasses における record.argsort() の解説

NumPy の Standard array subclasses における record.argsort() のサンプルコード

複数のフィールドに基づいてソート

特定の軸に基づいてソート

numpy.matrix サブクラス

numpy.memmap サブクラス

numpy.recarray サブクラス

NumPy の Standard array subclasses における record.argsort() の代替方法

Pythonプログラマー必見！NumPy static ma.MaskedArray.new(): データ分析をレベルアップ

NumPy C-API：UFUNC_MASK_OVERFLOWフラグの真偽：オーバーフロー処理のベストプラクティス

NumPy C-API: void PyUFunc_e_e_As_d_d() の詳細解説とサンプルコード集

NumPy C-API: NpyIter_GetMultiIndexFunc 関数詳解

NumPy C-API: UFUNC_SHIFT_DIVIDEBYZEROフラグによるゼロ除算処理の詳細解説

NPY_MIN_BUFSIZE を使用したサンプルコード

Chebyshev.trim() だけじゃない：NumPyによるチェビシェフ多項式の次数削減方法

ma.MaskedArray.transpose() の注意事項

NumPyの chebval2d 関数で2次元チェビシェフ多項式をマスターしよう！

NumPy Masked Array Operations とは？