Pandas Series の shift メソッドで時系列データ分析をマスターしよう！

2024-04-02

pandas.Series.shift メソッドは、Series の各要素を指定されたオフセット分だけ前後にずらす関数です。データ分析において、過去や未来のデータと比較したり、時系列データの分析に役立ちます。

構文

series.shift(periods=n, fill_value=None)

引数

periods: ずらすオフセットの数。正の値で未来、負の値で過去にずれます。
fill_value: ずらした後の欠損値を埋める値。デフォルトは None で、欠損値のままになります。

例

import pandas as pd

# データ作成
s = pd.Series([1, 2, 3, 4, 5])

# 1つ過去にずらす
shifted_series = s.shift(1)

# 出力
print(shifted_series)

# 出力結果
# 0    NaN
# 1    1.0
# 2    2.0
# 3    3.0
# 4    4.0

上記の例では、s を 1 つ過去にずらした結果、最初の要素は欠損値になり、それ以降の要素が 1 つずつ左にずれています。

応用例

前日比の計算
移動平均線の計算
時系列データの比較

補足

axis=1 を指定することで、DataFrame の列方向にシフトできます。
fill_value には、数値だけでなく、文字列や NaN を指定することもできます。

Pandas Series の shift メソッドのサンプルコード

import pandas as pd

# データ作成
df = pd.DataFrame({'Close': [100, 110, 120, 130, 140]})

# 前日比を計算
df['前日比'] = df['Close'].shift(1) / df['Close'] - 1

# 出力
print(df)

# 出力結果
#         Close  前日比
# 0        100    NaN
# 1        110  0.100000
# 2        120  0.090909
# 3        130  0.083333
# 4        140  0.076923

移動平均線の計算

import pandas as pd

# データ作成
df = pd.DataFrame({'Close': [100, 110, 120, 130, 140]})

# 3日移動平均線
df['3日移動平均線'] = df['Close'].shift(1).rolling(3).mean()

# 出力
print(df)

# 出力結果
#         Close  3日移動平均線
# 0        100          NaN
# 1        110          NaN
# 2        120  110.000000
# 3        130  120.000000
# 4        140  126.666667

時系列データの比較

import pandas as pd

# データ作成
df1 = pd.DataFrame({'Close': [100, 110, 120, 130, 140]}, index=pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05']))
df2 = df1.shift(days=1)

# 1年前と比較
df['1年前'] = df2['Close']

# 出力
print(df)

# 出力結果
#         Close  1年前
# 2023-01-01  100    NaN
# 2023-01-02  110  100.0
# 2023-01-03  120  110.0
# 2023-01-04  130  120.0
# 2023-01-05  140  130.0

これらのサンプルコードは、pandas.Series.shift メソッドの使い方を理解するのに役立ちます。

Pandas Series の shift メソッドの代替方法

iloc メソッドは、インデックス番号に基づいて Series の要素にアクセスできます。過去や未来の要素にアクセスするには、負のインデックス番号を使用します。

import pandas as pd

# データ作成
s = pd.Series([1, 2, 3, 4, 5])

# 1つ過去にずらす
shifted_series = s.iloc[:-1]

# 出力
print(shifted_series)

# 出力結果
# 0    2
# 1    3
# 2    4
# 3    5

for ループを使用して、Series の各要素をループ処理し、手動でずらすこともできます。

import pandas as pd

# データ作成
s = pd.Series([1, 2, 3, 4, 5])

# 1つ過去にずらす
shifted_series = []
for i in range(len(s)):
  if i == 0:
    shifted_series.append(None)
  else:
    shifted_series.append(s[i-1])

# 出力
print(shifted_series)

# 出力結果
# [None, 1, 2, 3, 4]

.head() と .tail() メソッド

.head() メソッドと .tail() メソッドを使用して、Series の先頭または末尾の要素を取得できます。

import pandas as pd

# データ作成
s = pd.Series([1, 2, 3, 4, 5])

# 1つ過去にずらす
shifted_series = s.tail(4)

# 出力
print(shifted_series)

# 出力結果
# 2    2
# 3    3
# 4    4
# 5    5

これらの方法は、pandas.Series.shift メソッドよりも簡潔な場合がありますが、処理速度が遅くなる可能性があります。

pandas.Series.shift メソッドは、Series の要素をずらすための便利な方法です。ただし、状況によっては他の方法の方が適している場合があります。

Pandas Data Offsets と BDay の使い方

BDay は、Data Offsets の中でもビジネスデイを扱うためのオフセットです。つまり、土日や祝日を除いた営業日のみを加算・減算することができます。BDay は以下の方法で使用できます。単独で使用するDateOffset と組み合わせて使用する

Pandasでタイムスタンプを自在に操る： pandas.tseries.offsets.Second.call のサンプルコード集

Data Offsetsは、特定の時間間隔を表すオブジェクトです。例えば、Secondオフセットは1秒を表し、Dayオフセットは1日を表します。これらのオフセットは、日付や時刻に加算したり減算したりすることで、タイムシリーズデータの操作に役立ちます。

Pandas Data Offsets: pandas.tseries.offsets.LastWeekOfMonth.kwds を駆使して毎月最後の週の金曜日にオフセットを設定する方法

Pandas の Data Offsets は、時間間隔を表現するための便利なツールです。pandas. tseries. offsets. LastWeekOfMonth は、その中でも、毎月最後の週を表すオフセットです。kwds 属性は、このオフセットの動作をカスタマイズするために使用されるオプション引数です。

52-53週会計年度におけるナノ秒単位のオフセット：pandas.tseries.offsets.FY5253.nanos徹底解説

pandas. tseries. offsets. FY5253. nanosは、52-53週会計年度（4-4-5カレンダーとも呼ばれる）におけるナノ秒単位のオフセットを表します。これは、会計年度を常に同じ曜日に終了させたい企業で使用されます。

Pandas Data Offsets と MonthEnd.is_month_end の徹底解説

Pandas は、時間系列データを扱うための強力な Python ライブラリです。Data offsets は、日付や時間軸を操作するための便利な機能です。pandas. tseries. offsets. MonthEnd は、月単位で日付を操作するためのオフセットです。

Pandasでカテゴリカルデータの威力を解き放つ！CategoricalIndex徹底解説

pandasはデータ分析に欠かせないPythonライブラリですが、データを効率的に扱うためには、データ型を理解することが重要です。pandas. CategoricalIndexは、カテゴリカルデータを扱うための強力なツールです。カテゴリカルデータとは？

データ分析の時間を短縮：Pandasのread_clipboard関数でクリップボードからデータを読み込む

このチュートリアルでは、pandas. read_clipboardの使い方を、以下の項目に沿って分かりやすく解説します。概要pandas. read_clipboardの役割必要なもの動作環境基本的な使い方引数データの読み込みオプション指定

Pandas DatetimeIndex.timetz属性でタイムゾーン関連のタスクを効率的に

pandas. DatetimeIndex. timetz 属性は、DatetimeIndex オブジェクトの各タイムスタンプのタイムゾーン情報にアクセスするための強力なツールです。この属性を使用することで、タイムゾーンの取得、変更、比較、その他の操作が可能になります。

Pandas Series の truediv メソッドとは？

引数other: スカラー、リスト、別の Series オブジェクト、または DataFrame オブジェクトaxis: {0 or 'index', 1 or 'columns'}, デフォルトは 'index' 0 or 'index': 行方向に除算 1 or 'columns': 列方向に除算

【初心者向け】pandasでカテゴリカルデータ分析を制覇！「pandas.CategoricalDtype」のしくみと使い方を分かりやすく解説

pandas. CategoricalDtype は、カテゴリカルデータ（有限なカテゴリを持つデータ）を効率的に扱うために pandas ライブラリが提供するデータ型です。通常の文字列型と異なり、カテゴリカルデータの特性を考慮したさまざまな機能を提供します。