0.3 AI 全栈能力地图

先看图。课程是一条路线:
tools -> Python -> data -> models -> LLM -> RAG -> Agent -> specialization/delivery
现在不需要懂每个细节,只记住:
| 如果卡在... | 回到... |
|---|---|
| 代码跑不起来 | 工具和 Python |
| 输入很乱 | 数据 |
| 回答不可靠 | 评估和 RAG |
| 动作不可控 | Agent trace 和权限 |
七层能力
| 层级 | 对应章节 | 第一个可见证据 | 更深一层问题 |
|---|---|---|---|
| 工具 | 1 | 可复现项目文件夹和 Git 历史 | 别人能不能重跑 |
| Python | 2 | 输入输出清楚的小脚本 | 代码是否易读、有类型、可测试 |
| 数据 | 3 | 干净表格、图表和说明 | 你是否知道数据哪里错、哪里偏 |
| 模型 | 4-6 | 训练或检查过的模型实验 | 哪个指标会改变你的决策 |
| LLM | 7 | prompt、token、embedding、Transformer 直觉 | 行为来自数据、解码还是上下文 |
| RAG | 8 | 检索 trace 和回答评估 | 答案有没有用对证据 |
| Agent | 9 | 工具 trace、权限、记忆边界、部署记录 | 当用户、文件和动作都是真的,会在哪里失败 |
| 专项 / 交付 | 10-12 和选修 | 视觉/NLP/多模态 demo、导出资产、部署记录 | 哪些领域约束会改变产品决策 |
这门课不是主题堆叠,而是一套调试栈。AI 应用表现不好时,原因可能藏在你正在看的功能下面好几层。
主线和扩展路线
默认先按第 1-9 章走主线。完成第 9 章后,你应该能做出一个小型 LLM/RAG/Agent 项目,并留下证据、日志和安全边界。
然后按产品需要选择第 10-12 章:
| 需求 | 选择 | 原因 |
|---|---|---|
| 图像、摄像头、OCR、检测、分割 | 第 10 章 计算机视觉 | 输出是视觉结果:标签、框、mask、文字或视频事件 |
| 文本标签、信息抽取、摘要、语言评估 | 第 11 章 NLP | 输出是文本任务:标签、字段、span 或生成文本 |
| 图片、PDF、音频、视频、创意资产、多模态 RAG | 第 12 章 多模态/AIGC | 工作流混合多种模态,需要来源、prompt、审查和导出记录 |
| 部署、进阶 Python、经典 ML 深度 | 选修模块 | 主项目需要某个具体工程或算法旁支能力 |
怎样使用这张地图
开始项目之前,先标出风险最高的层。比如 PDF 问答应用通常先坏在数据清洗和检索,不是聊天界面。自动化 Agent 通常先坏在工具权限、状态和评估,不是 prompt 用词。
每章都要留下一个能证明这一层可用的产物。截图有帮助,但日志、README 命令、小数据集、指标表和失败笔记更强,因为它们之后还能帮助你排错。
可选背景:如果想知道这些能力是怎样发展出来的,可以快速看一眼 AI 15 阶段发展史。
下一步,选择学习路线。