3.3.1 Pandas ロードマップ：生の表から分析用テーブルへ

Pandas は、このコースの表データ作業台です。CSV、Excel、ログ表、SQL の結果を、グラフや機械学習に渡せる形へ整えるときに使います。

まずワークフローを見る

Pandas データ処理ロードマップ

まずこの流れを覚えます。

読み込み -> 確認 -> 抽出 -> クリーニング -> 変換 -> 集計 -> 結合 -> 出力

最初から API を全部覚えようとしなくて大丈夫です。今ある表は何か、必要な表は何か、どの手順で変わるのかを見ます。

小さな表を一度動かす

pandas_first_loop.py を作り、pandas をインストールしてから実行します。

import pandas as pd

orders = pd.DataFrame(
    [
        {"date": "2026-05-01", "category": "book", "amount": 120},
        {"date": "2026-05-02", "category": "tool", "amount": 80},
        {"date": "2026-05-03", "category": "book", "amount": None},
        {"date": "2026-06-01", "category": "book", "amount": 150},
    ]
)

clean = (
    orders.dropna(subset=["amount"])
    .assign(month=lambda df: pd.to_datetime(df["date"]).dt.to_period("M").astype(str))
)
summary = clean.groupby(["month", "category"], as_index=False)["amount"].sum()

print(summary)

出力の形：

     month category  amount
2026-05     book   120.0
2026-05     tool    80.0
2026-06     book   150.0

これは Pandas の基本ループです。データを作る/読む、欠損を落とす、列を追加する、グループ化して集計する、という流れです。

この順番で学ぶ

順番	読む	練習すること
1	3.3.2 コアデータ構造	`Series`、`DataFrame`、`Index`
2	3.3.3 データの読み書き	CSV、Excel、JSON、出力
3	3.3.4 選択とフィルタリング	`loc`、`iloc`、条件抽出
4	3.3.5 データクリーニング	欠損値、重複、型
5	3.3.6 データ変換	新しい列、マッピング、文字列/日付処理
6	3.3.7 グループ化と集計	`groupby`、指標、カテゴリ/月別集計
7	3.3.8 データ結合	複数テーブルを安全に結合する
8	3.3.9 時系列	日付インデックス、リサンプリング、時間窓

合格ライン

生の表をきれいな集計表に変え、各列をなぜ処理したか説明でき、可視化や機械学習へ渡せるなら、この小節は合格です。

まずワークフローを見る​

小さな表を一度動かす​

この順番で学ぶ​

合格ライン​

まずワークフローを見る

小さな表を一度動かす

この順番で学ぶ

合格ライン