主线 3:做大模型应用(7-9)9 AI Agent 与智能体系统9.1-9.2 Agent 基础、推理与规划1.6 从 TD-Gammon 到 AlphaGo:强化学习怎样影响 Agent本页总览从 TD-Gammon 到 AlphaGo:强化学习怎样影响 Agent 本节定位现代 LLM Agent 不等于强化学习,但 Agent 这个概念和强化学习历史有很深的关系。这一节先抓住三个故事: TD-Gammon 证明机器可以从自我对弈中变强,DQN 证明深度网络可以从像素和奖励中学策略,AlphaGo 证明学习、搜索和规划结合后可以打穿复杂博弈。 一、为什么 Agent 课程要补强化学习历史?