Pandas.io.stata.StataWriter.write_file関数を使ってStata形式のデータファイルを出力する方法

2024-04-02

pandas.io.stata.StataWriter.write_file を使ってStata形式のデータファイルを出力

pandas.io.stata.StataWriter.write_file 関数は、PandasのDataFrameをStata形式のデータファイル(.dta)として出力します。Stataは統計分析ソフトウェアであり、この関数は、Pandasで作成したデータフレームをStataで読み込んで分析できるようにするためのものです。

使い方

from pandas import DataFrame
from pandas.io.stata import StataWriter

# データフレームの作成
df = DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})

# StataWriterの生成
writer = StataWriter('output.dta', df)

# データフレームの書き込み
writer.write_file()

引数

fname: 出力ファイル名
data: 出力するデータフレーム
convert_dates: 日付型列をStata形式に変換するかどうか。デフォルトはFalse。
write_index: インデックスを出力するかどうか。デフォルトはTrue。
byteorder: 出力ファイルのバイトオーダー。デフォルトはsys.byteorder。
time_stamp: 出力ファイルのタイムスタンプ。デフォルトは現在時刻。
data_label: データファイルのラベル。
variable_labels: 変数名のラベル。
value_labels: 値ラベル。

例

日付型列をStata形式に変換する例

df = DataFrame({'date': pd.to_datetime(['2023-01-01', '2023-02-01', '2023-03-01'])})

writer = StataWriter('output.dta', df, convert_dates={'date': '%td'})

writer.write_file()

インデックスを出力しない例

writer = StataWriter('output.dta', df, write_index=False)

writer.write_file()

補足

Stata形式にはバージョン114とバージョン115があります。write_file 関数はデフォルトでバージョン115形式で出力します。バージョン114形式で出力したい場合は、version 引数を114に設定します。
Stata形式のデータファイルは、Stataだけでなく、他の統計分析ソフトウェアでも読み込むことができます。

pandas.io.stata.StataWriter.write_file を使ったサンプルコード

基本的な例

import pandas as pd
from pandas.io.stata import StataWriter

# データフレームの作成
df = pd.DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})

# StataWriterの生成
writer = StataWriter('output.dta', df)

# データフレームの書き込み
writer.write_file()

日付型列をStata形式に変換する例

df = pd.DataFrame({'date': pd.to_datetime(['2023-01-01', '2023-02-01', '2023-03-01'])})

writer = StataWriter('output.dta', df, convert_dates={'date': '%td'})

writer.write_file()

インデックスを出力しない例

writer = StataWriter('output.dta', df, write_index=False)

writer.write_file()

変数名と値ラベルを設定する例

df = pd.DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})

writer = StataWriter('output.dta', df)
writer.write_file(variable_labels={'x': '変数X', 'y': '変数Y'},
                  value_labels={'x': {1: '値1', 2: '値2', 3: '値3'},
                               'y': {4: '値4', 5: '値5', 6: '値6'}})

データファイルにラベルを設定する例

writer = StataWriter('output.dta', df)
writer.write_file(data_label='サンプルデータ',
                  variable_labels={'x': '変数X', 'y': '変数Y'},
                  value_labels={'x': {1: '値1', 2: '値2', 3: '値3'},
                               'y': {4: '値4', 5: '値5', 6: '値6'}})

Stataバージョン114形式で出力する例

writer = StataWriter('output.dta', df, version=114)
writer.write_file()

PandasのDataFrameをStata形式で出力する他の方法

to_stata メソッド

df.to_stata('output.dta')

この方法は、StataWriter クラスを使用するよりも簡潔で、多くの場合で十分です。ただし、write_file 関数のように、日付型列の変換やインデックスの出力、変数名や値ラベルの設定などのオプションはありません。

stata.export_stata 関数

from statsmodels.io.stata import export_stata

export_stata(df, 'output.dta')

この方法は、statsmodels パッケージが必要です。to_stata メソッドよりも多くのオプションがあり、日付型列の変換やインデックスの出力、変数名や値ラベルの設定などを行うことができます。

手動で出力

Stata形式は比較的シンプルなテキスト形式なので、手動で出力することも可能です。ただし、これは時間がかかり、エラーが発生しやすいので、あまりお勧めできません。

簡潔さを求める場合は、to_stata メソッドを使用します。
日付型列の変換やインデックスの出力、変数名や値ラベルの設定などを行う必要がある場合は、write_file 関数または stata.export_stata 関数を使用します。
完全な制御が必要な場合は、手動で出力します。

Pandas.io.stata.StataWriter.write_file関数を使ってStata形式のデータファイルを出力する方法

pandas.io.stata.StataWriter.write_file を使ってStata形式のデータファイルを出力

pandas.io.stata.StataWriter.write_file を使ったサンプルコード

基本的な例

日付型列をStata形式に変換する例

インデックスを出力しない例

変数名と値ラベルを設定する例

データファイルにラベルを設定する例

Stataバージョン114形式で出力する例

PandasのDataFrameをStata形式で出力する他の方法

to_stata メソッド

stata.export_stata 関数

手動で出力

Pandas Data Offsets と LastWeekOfMonth.is_month_end 以外の方法

Pandasで曜日・月・四半期・年ごとの集計：LastWeekOfMonthで月単位の分析

BQuarterBegin.kwds のサンプルコード

BQuarterBegin.nanosを使いこなして、ナノ秒単位で四半期オフセットを調整

Pandas Data Offsets と pandas.tseries.offsets.Second.is_month_start の完全ガイド

Pandas Seriesのstr.removeprefixメソッドとその他の方法の比較

Pandas Data Offsets と pandas.tseries.offsets.Second.is_month_start の完全ガイド

Pandas DatetimeIndex.timetz属性でタイムゾーン関連のタスクを効率的に

Pandas Data Offsets でデータ分析をレベルアップ: pandas.tseries.offsets.QuarterEnd.is_anchored の奥深さ

時系列データの分析に役立つ！Pandas Resampler.minのサンプルコード集