9.1.6 TD-Gammon から AlphaGo へ：強化学習は Agent にどう影響したのか

強化学習から Agent への歴史的ブレークスルーマップ

この節の位置づけ

現代の LLM Agent は強化学習そのものではありませんが、Agent という考え方は強化学習の歴史ととても深い関係があります。

この節では、まず次の3つの話を押さえます：

TD-Gammon は、機械が自分自身との対戦から強くなれることを証明しました。DQN は、深層ネットワークがピクセルと報酬から方策を学べることを証明しました。AlphaGo は、学習・探索・計画を組み合わせると複雑なゲームを突破できることを証明しました。

なぜ Agent の講義で強化学習の歴史を学ぶのか？

Agent が気にするのは、次のようなことです。

環境の中で状態を観察する
次の行動を決める
フィードバックに応じて方策を調整する
長期目標のために計画する

これは、強化学習の基本問題ととてもよく似ています。

強化学習の言葉	Agent システムの言葉
state	現在のコンテキスト、タスクの状態
action	ツール呼び出し、応答、計画ステップ
reward	ユーザーのフィードバック、評価スコア、タスク完了の有無
policy	意思決定方策、ツールを呼び出すルール
environment	外部システム、知識ベース、ブラウザ、コードリポジトリ

そのため、強化学習の歴史は脇役ではありません。
Agent がなぜフィードバック、計画、試行錯誤、安全境界を気にするのかを理解する助けになります。

TD-Gammon：自己対戦から方策を学ぶ

1992 年ごろ、Gerald Tesauro の TD-Gammon は、時系列差分学習を使ってバックギャモンで非常に高い実力を達成しました。

この手法のとても魅力的な点は次の通りです。

システムは人間の棋譜をただ真似するのではなく、大量の自己対戦を通じて、結果のフィードバックから判断を改善していきます。

初心者向けには、次のように考えると分かりやすいです。

普通の教師あり学習	TD-Gammon の特徴
各ステップに正解がある	多くの場合、最後の勝敗フィードバックしかない
ラベルに当てはめることが中心	長期的な方策を学ぶことが中心
データはたいてい人が用意する	システムが自己対戦で経験を生み出せる

このことは、その後の強化学習やゲーム AI にとって重要な発想を開きました。

システムが自分で経験を作れるなら、人手によるラベル付きデータに完全には縛られない。

DQN Atari：ピクセルから行動へ

2015 年、DeepMind の DQN は Atari ゲームでブレークスルーを起こしました。
その重要性は、深層学習と強化学習を組み合わせたことにあります。

入力はゲーム画面のピクセル
出力は次の行動
フィードバックはゲームスコア

これは、モデルに「画面を見る」ことからゲームを学ばせるようなものです。

ゲーム画面 -> ニューラルネットワーク -> 行動 -> スコアのフィードバック -> 方策を更新

これが現代の Agent に与えた示唆は次の通りです。

Agent は静的なテキストだけを扱うとは限らない
Agent は環境の中で連続して行動できる
行動はその後の状態を変える
評価は毎ステップすぐに出るとは限らない

だからこそ、Agent の評価は普通の質問応答の評価より難しいのです。

AlphaGo：学習・探索・計画をひとつにする

2016 年、AlphaGo が李世乭に勝利したことで、多くの人が AI の飛躍を非常に直感的に感じました。

AlphaGo の重要な点は、「1つのニューラルネットワークがそのまま指す」ことではなく、複数の能力を組み合わせていたことです。

能力	AlphaGo での役割	Agent への示唆
方策ネットワーク	次の候補手を判断する	実行可能な行動を生成する
価値ネットワーク	局面の良し悪しを見積もる	現在の計画を評価する
モンテカルロ木探索	先の展開を何手か読んで結果を見る	計画と探索を行う
自己対戦	さらに多くの学習経験を作る	フィードバックから改善する

Agent にとって、この示唆はとても重要です。

強いシステムは、たいてい1つのモデルだけで強くなるのではなく、モデル・探索・ツール・フィードバック・制約が一緒に動いて強くなります。

この流れは LLM Agent とどう関係するのか？

現代の LLM Agent の中心は、必ずしも RL アルゴリズムではありません。
しかし、強化学習が扱ってきた多くの問題を受け継いでいます。

典型的な RL の問題	LLM Agent での対応
報酬をどう定義するか	タスク成功、引用の正しさ、ユーザー満足度をどう測るか
探索が危険ではないか	ツール呼び出しでファイルを誤削除したり、誤送信したりしないか
長期目標をどう分解するか	複数ステップのタスクをどう計画・実行・修正するか
方策をどう評価するか	Agent benchmark、ログ再生、手動レビュー

そのため、後で ReAct、Plan-and-Execute、ツール呼び出し、Agent 評価を学ぶときは、次のように考えるとよいです。

これは、言語モデルの時代における「行動・フィードバック・計画」という古くて重要な問題の新しい実装だ。

この歴史の節目を講義の章に対応づける

歴史的な節目	解決した問題	対応する講義章
TD-Gammon	自己対戦と長期フィードバックから方策を学ぶ	9.1 Agent の歴史的背景、9.2 推論と計画
DQN / Atari	深層ネットワークが環境フィードバックから行動を学ぶ	9.8 Agent 評価、安全性、環境との相互作用
AlphaGo	学習・探索・計画を強いシステムとして統合する	9.2 計画、9.7 マルチ Agent / 複雑システム
RLHF	人間の好みでモデルの振る舞いを調整する	第7章アラインメント、9.8 安全性評価
ReAct	推論と行動を交互に行わせる	9.2 ReAct、9.3 ツール呼び出し

この節を学び終えたときに持ってほしい感覚

Agent は、「モデルを自由に動かす」だけのものではありません。
むしろ、次の要素のあいだで常にバランスを取るシステムに近いです。

目標
行動
環境
フィードバック
計画
安全上の制約

TD-Gammon、DQN、AlphaGo の物語が教えてくれるのは、次のことです。
本当に強い知能システムは、ただ質問に答えるだけではなく、環境の中で行動し、そのフィードバックに応じて方策を修正できるのです。

なぜ Agent の講義で強化学習の歴史を学ぶのか？​

TD-Gammon：自己対戦から方策を学ぶ​

DQN Atari：ピクセルから行動へ​

AlphaGo：学習・探索・計画をひとつにする​

この流れは LLM Agent とどう関係するのか？​

この歴史の節目を講義の章に対応づける​

この節を学び終えたときに持ってほしい感覚​