NumPy C-API: PyObject *PyArray_ArgPartition() 関数徹底解説

2024-04-02

NumPy C-API: PyObject *PyArray_ArgPartition() 関数の詳細解説

PyObject *PyArray_ArgPartition() 関数は、NumPy 配列内の要素を部分配列ごとに k番目の大きい要素 を基準に 昇順または降順に並べ替える C-API 関数です。この関数は、NumPy 配列を直接操作するため、ループ処理を記述するよりも効率的に部分配列の分割と並べ替えを実行できます。

関数定義

PyObject *PyArray_ArgPartition(PyArrayObject *array, int k, int axis, int kind);

引数

array: 操作対象の NumPy 配列
k: 部分配列内の k番目の大きい要素 のインデックス (0 から始まる)
axis: 分割と並べ替えを行う軸
kind: 並べ替えの種類 (NPY_PARTITION_LEFT または NPY_PARTITION_RIGHT)

戻り値

成功時には None オブジェクト、失敗時にはエラーオブジェクトを返します。

詳細解説

部分配列の分割

PyArray_ArgPartition() 関数は、まず axis で指定された軸に基づいて array を部分配列に分割します。各部分配列は、k 番目の大きい要素を中心とした 左部分配列 と 右部分配列 に分割されます。

k番目の大きい要素の検索

分割された各部分配列に対して、k 番目の大きい要素のインデックスを検索します。この検索には、quickselect アルゴリズムが使用されます。

部分配列の並べ替え

kind 引数によって、部分配列をどのように並べ替えるかが決まります。

NPY_PARTITION_LEFT: 左部分配列は昇順、右部分配列は降順に並べ替えられます。

結果の返却

すべての部分配列の並べ替えが完了すると、None オブジェクトが返されます。失敗時には、エラーオブジェクトが返されます。

コード例

以下のコードは、PyArray_ArgPartition() 関数を使用して、3 次元 NumPy 配列の各列を 2番目の大きい要素 を基準に昇順に並べ替える例です。

#include <numpy/arrayobject.h>

int main() {
  // 3次元 NumPy 配列を作成
  npy_intp dims[3] = {2, 3, 4};
  PyArrayObject *array = PyArray_SimpleNew(3, dims, NPY_INT32);

  // 配列に値を設定
  int i, j, k;
  for (i = 0; i < PyArray_SIZE(array); i++) {
    ((int *)PyArray_GETPTR1(array, i))[0] = i;
  }

  // 2番目の大きい要素を基準に昇順に並べ替え
  PyArray_ArgPartition(array, 2, 1, NPY_PARTITION_LEFT);

  // 結果を出力
  for (i = 0; i < PyArray_SHAPE(array)[0]; i++) {
    for (j = 0; j < PyArray_SHAPE(array)[1]; j++) {
      for (k = 0; k < PyArray_SHAPE(array)[2]; k++) {
        printf("%d ", ((int *)PyArray_GETPTR3(array, i, j, k))[0]);
      }
      printf("\n");
    }
    printf("\n");
  }

  Py_DECREF(array);
  return 0;
}

注意事項

PyArray_ArgPartition() 関数は、NumPy 配列を直接操作するため、メモリ管理に注意する必要があります。
並べ替え後の配列は、元の配列と同じメモリ領域を使用します。
k 番目の大きい要素が存在しない場合、エラーが発生します。

NumPy C-API: PyArray_ArgPartition() 関数のサンプルコード

#include <numpy/arrayobject.h>

int main() {
  // 1次元 NumPy 配列を作成
  npy_intp size = 10;
  PyArrayObject *array = PyArray_SimpleNew(1, &size, NPY_INT32);

  // 配列に値を設定
  int i;
  for (i = 0; i < PyArray_SIZE(array); i++) {
    ((int *)PyArray_GETPTR1(array, i))[0] = i;
  }

  // 3番目の大きい要素を基準に昇順に並べ替え
  PyArray_ArgPartition(array, 3, 0, NPY_PARTITION_LEFT);

  // 結果を出力
  for (i = 0; i < PyArray_SIZE(array); i++) {
    printf("%d ", ((int *)PyArray_GETPTR1(array, i))[0]);
  }
  printf("\n");

  Py_DECREF(array);
  return 0;
}

出力例:

0 1 2 3 4 5 6 7 8 9

2次元配列の各列を並べ替え

#include <numpy/arrayobject.h>

int main() {
  // 2次元 NumPy 配列を作成
  npy_intp dims[2] = {3, 4};
  PyArrayObject *array = PyArray_SimpleNew(2, dims, NPY_INT32);

  // 配列に値を設定
  int i, j;
  for (i = 0; i < PyArray_SHAPE(array)[0]; i++) {
    for (j = 0; j < PyArray_SHAPE(array)[1]; j++) {
      ((int *)PyArray_GETPTR2(array, i, j))[0] = i * 4 + j;
    }
  }

  // 各列を2番目の大きい要素を基準に降順に並べ替え
  PyArray_ArgPartition(array, 2, 1, NPY_PARTITION_RIGHT);

  // 結果を出力
  for (i = 0; i < PyArray_SHAPE(array)[0]; i++) {
    for (j = 0; j < PyArray_SHAPE(array)[1]; j++) {
      printf("%d ", ((int *)PyArray_GETPTR2(array, i, j))[0]);
    }
    printf("\n");
  }

  Py_DECREF(array);
  return 0;
}

出力例:

6 2 5 1
9 5 8 4
12 8 11 7

マスク配列を使用した部分配列の並べ替え

#include <numpy/arrayobject.h>

int main() {
  // 2次元 NumPy 配列を作成
  npy_intp dims[2] = {3, 4};
  PyArrayObject *array = PyArray_SimpleNew(2, dims, NPY_INT32);

  // 配列に値を設定
  int i, j;
  for (i = 0; i < PyArray_SHAPE(array)[0]; i++) {
    for (j = 0; j < PyArray_SHAPE(array)[1]; j++) {
      ((int *)PyArray_GETPTR2(array, i, j))[0] = i * 4 + j;
    }
  }

  // マスク配列を作成
  PyArrayObject *mask = PyArray_SimpleNew(2, dims, NPY_BOOL);
  for (i = 0; i < PyArray_SHAPE(mask)[0]; i++) {
    for (j = 0; j < PyArray_SHAPE(mask)[1]; j++) {
      ((char *)PyArray_GETPTR2(mask, i, j))[0] = (i % 2 == 0);
    }
  }

  // マスクされた部分配列のみを2番目の大きい要素を基準に昇順に並べ替え
  PyArray_ArgPartition(array, 2, 1, NPY_PARTITION_LEFT, mask);

  // 結果を出力
  for (i =

NumPy 配列を部分配列ごとに k 番目の大きい要素で分割・並べ替える他の方法

NumPy の partition 関数

import numpy as np

# 3次元 NumPy 配列を作成
array = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

# 各列を 2 番目の大きい要素で昇順に並べ替え
array = np.partition(array, 2, axis=1)

# 結果を出力
print(array)

# 出力:
# [[[1 2 3]
#  [4 5 6]]
# [[7 9 8]
#  [10 12 11]]]

partition 関数は、PyArray_ArgPartition 関数よりも簡潔に記述できますが、以下の点に注意する必要があります。

NumPy 1.20 以降を使用する必要がある
部分配列の分割は行われない
並べ替えは昇順のみ

np.argsort と np.take の組み合わせ

NumPy の np.argsort と np.take 関数を組み合わせて、部分配列ごとに k 番目の大きい要素で分割・並べ替えることができます。

import numpy as np

# 3次元 NumPy 配列を作成
array = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

# 各列を 2 番目の大きい要素で昇順に並べ替え
for i in range(array.shape[0]):
  indices = np.argsort(array[i], axis=1)
  array[i] = np.take(array[i], indices[:, 1:-1], axis=1)

# 結果を出力
print(array)

# 出力:
# [[[1 2 3]
#  [4 5 6]]
# [[7 9 8]
#  [10 12 11]]]

この方法は、PyArray_ArgPartition 関数よりも汎用性が高いですが、処理速度は遅くなります。

自作関数

上記のいずれの方法もニーズに合わない場合は、自作関数を作成することができます。

def argpartition(array, k, axis, kind):
  # 自作関数のコード

  return sorted_array

# 3次元 NumPy 配列を作成
array = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

# 各列を 2 番目の大きい要素で昇順に並べ替え
sorted_array = argpartition(array, 2, axis=1, kind="left")

# 結果を出力
print(sorted_array)

# 出力:
# [[[1 2 3]
#  [4 5 6]]
# [[7 9 8]
#  [10 12 11]]]

自作関数は、処理速度やメモリ使用量を最適化することができますが、開発に時間がかかります。

NumPy 配列を部分配列ごとに k 番目の大きい要素で分割・並べ替える方法は、いくつかあります。それぞれの特徴を理解して、ニーズに合った方法を選択してください。

NumPy C-API: PyObject *PyArray_ArgPartition() 関数徹底解説

NumPy C-API: PyObject *PyArray_ArgPartition() 関数の詳細解説

NumPy C-API: PyArray_ArgPartition() 関数のサンプルコード

NumPy 配列を部分配列ごとに k 番目の大きい要素で分割・並べ替える他の方法

NumPy の partition 関数

np.argsort と np.take の組み合わせ

自作関数

Pythonプログラマー必見！NumPy static ma.MaskedArray.new(): データ分析をレベルアップ

C言語からNumPyの64ビット整数型にアクセス： npy_longlong 型詳細解説

NumPy C-API を用いたメモリ管理: void PyDimMem_FREE() 関数を中心に

PyArray_EMPTY() 関数 vs PyArray_Zeros() 関数: 空のNumPy配列作成時の違い

NumPy C-API: UFUNC_SHIFT_DIVIDEBYZEROフラグによるゼロ除算処理の詳細解説

NumPy char.chararray.isnumeric() 関数：詳細解説と応用例

NumPy 配列分割：初心者から上級者まで役立つ完全ガイド

NumPyでMaskedArrayオブジェクトを比較する：ma.MaskedArray.le()メソッドの使い方

NumPy recarray.mean() 関数：レコード配列の平均値を計算

ma.minimum_fill_value() 関数の代替方法：np.min() と np.where() を組み合わせる