课程 Boss 战挑战地图

Boss 战不是为了增加压力,而是为了让学习者知道“这一阶段到底要打通什么”。每个 Boss 都是一个小型综合挑战,要求你把本阶段最关键的能力串起来,留下能展示的证据。
Boss 战分三档:基础版保证新手能完成,标准版适合进入作品集,挑战版留给有余力的人。第一遍学习只需要打过基础版。
Boss 战总览
| 阶段 | Boss 名称 | 核心能力 | 基础通关证据 |
|---|---|---|---|
| 1 开发者工具基础 | 工作台守门人 | 终端、环境、Git、README | 从空目录到一次 Git 提交 |
| 2 Python 编程基础 | JSON 地牢管理员 | 函数、文件、异常、数据结构 | 一个能保存任务的 CLI |
| 3 数据分析与可视化 | 脏数据侦探 | 清洗、统计、图表、解释 | 一份数据质量报告 |
| 4 AI 数学基础 | 指标迷宫 | 向量、概率、loss、指标 | 一个可运行小实验 |
| 5 机器学习 | Baseline 守门员 | 划分、baseline、评估、错误样本 | 一个可信 baseline |
| 6 深度学习 | Shape 巨兽 | tensor、训练循环、loss、曲线 | 一次训练日志和曲线 |
| 7 Prompt 与大模型 | JSON 漂移怪 | Prompt、schema、结构化输出 | 10 个固定输入输出测试 |
| 8 RAG | 引用幻觉龙 | chunk、检索、引用、评估 | 10 个带引用问答样例 |
| 9 Agent | 无限循环魔王 | 工具、trace、停止条件、权限 | 3 个可回放任务 trace |
| 10~12 方向拓展 | 多模态混沌体 | 视觉、文本、多模态、审核 | 一个输入到输出完整案例 |
| 毕业项目 | 最终产品 Boss | 综合设计、部署、评估、演示 | 可运行 Demo 和评估报告 |
每个 Boss 战都要保留成功和失败证据。成功证明你能做,失败证明你能复盘。
Boss 1:工作台守门人
这个 Boss 检查你是否真的拥有一个可复现 开发环境。很多后续问题都来自第一站没打牢:不知道当前目录,不会看报错,不会提交版本,不会写运行命令。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 创建项目目录,写一个 hello_ai.py 并运行 | 终端能输出一句话 |
| 标准版 | 增加 README、虚拟环境说明和 Git 提交 | 别人按 README 能复现 |
| 挑战版 | 故意制造一个路径错误并写排障记录 | 有失败样本和修复记录 |
通关后,你应该获得“终端生存”和“Git 存档”能力。
Boss 2:JSON 地牢管理员
这个 Boss 检查你是否能写出一个真正保存数据的小程序。它不需要复杂界面,但必须能处理正常输入、空输入和坏文件。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 新增、查看、完成学习任务 | 数据能保存到 JSON |
| 标准版 | 支持分类、搜索、异常处理 | 空文件和损坏 JSON 不会直接崩溃 |
| 挑战版 | 写 3 个命令行测试样例 | 正常、异常、空输入都有记录 |
通关后,你应该能解释列表、字典、函数、文件读写和异常处理如何组成一个小工具。
Boss 3:脏数据侦探
这个 Boss 检查你是否能把一份不完美的数据整理成可信结论。数据分析不是画图比赛,而是从数据质量开始。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 检查缺失、重复和异常值 | 输出数据质量检查表 |
| 标准版 | 清洗数据并画 2 张图 | 每张图有一句结论和局限 |
| 挑战版 | 故意保留一个错误结论并解释为什么错 | 有清洗前后对比 |
通关后,你应该能说清楚数据从哪里来,哪里不可信,结论边界是什么。
Boss 4:指标迷宫
这个 Boss 检查你是否能把抽象数学概念变成可运行的小实验。你不需要成为数学家,但要能用代码解释模型里常见的量。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 用代码计算两个向量的相似度 | 能解释结果大小代表什么 |
| 标准版 | 比较概率、loss 或距离指标 | 有手算样例和代码样例 |
| 挑战版 | 说明同一个问题用不同指标会得到什么差异 | 有指标选择理由 |
通关后,你应该不再害怕相似度、概率、loss 和评价指标这些词。
Boss 5:Baseline 守门员
这个 Boss 检查你是否能判断模型结果是否可信。没有 baseline 的模型项目,很难说明真的有效。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 做 train/test 划分并训练 Dummy baseline | 输出 baseline 指标 |
| 标准版 | 训练一个真实模型并和 baseline 对比 | 有指标表和错误样本 |
| 挑战版 | 检查一次数据泄漏或类别不平衡 | 有泄漏检查记录 |
通关后,你应该能讲清楚模型有没有比“最笨方法”更好。
Boss 6:Shape 巨兽
这个 Boss 检查你是否能跑通一次深度学习训练,并在出错时定位 shape、loss 或数据问题。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 跑通一个最小训练循环 | 有 loss 输出 |
| 标准版 | 保存训练曲线和验证指标 | 能解释是否过拟合 |
| 挑战版 | 故意制造 shape mismatch 并修复 | 有错误日志和修复记录 |
通关后,你应该知道深度学习项目不能只看最终分数,还要看训练过程。
Boss 7:JSON 漂移怪
这个 Boss 检查你是否能让 LLM 稳定输出结构化结果。Prompt 项目最怕的是一次成功、十次漂移。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 设计一个输出 JSON 的 Prompt | 至少 5 次输出字段完整 |
| 标准版 | 用 schema 校验 10 个固定输入 | 有通过率和失败样本 |
| 挑战版 | 做 Prompt 版本对比 | 有版本表和改进记录 |
通关后,你应该把 Prompt 当成可测试组件,而不是一句神秘咒语。
Boss 8:引用幻觉龙
这个 Boss 检查你是否能让 RAG 基于资料回答,并证明引用支持答案。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 导入 3 个 Markdown 文档并回答 5 个问题 | 每个回答给出来源 |
| 标准版 | 建 10 个评估问题并检查 citation_ok | 有检索日志和引用检查表 |
| 挑战版 | 比较不同 chunk 或 top-k 策略 | 有失败类型统计 |
通关后,你应该能区分“回答看起来对”和“回答有来源支持”。
Boss 9:无限循环魔王
这个 Boss 检查你是否能设计可控 Agent。Agent 的难点不是会调用工具,而是能停止、能复盘、能限制权限。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 让 Agent 完成 3 个固定任务 | 每个任务有步骤记录 |
| 标准版 | 保存 tool_calls 和 agent_traces | 能回放一次失败 |
| 挑战版 | 增加高风险动作 人工确认 | 有越权测试和安全说明 |
通关后,你应该能说明 Agent 什么时候该自动执行,什么时候必须停下来问人。
最终 Boss:可展示 AI 产品
最终 Boss 不是把所有技术堆到一起,而是把一个清晰问题做成可运行、可评估、可演示的产品。
| 难度 | 任务 | 通关条件 |
|---|---|---|
| 基础版 | 本地可运行 Demo | README、示例输入输出齐全 |
| 标准版 | 有评估集、日志、失败样本和演示脚本 | 能解释效果和限制 |
| 挑战版 | 部署上线并做成本、安全和监控说明 | 有完整作品集页面 |
最终展示时,建议用“Boss 战通关记录”讲故事:我先打通环境,再做数据,再做模型,再做 RAG 和 Agent,最后把它们整合成一个产品。
Boss 战记录模板
## Boss 战:引用幻觉龙
### 挑战目标
让 RAG 回答 10 个课程问题,并检查引用是否支持答案。
### 难度
标准版。
### 通关证据
保存 eval_questions.csv、retrieval_logs.jsonl 和 citation_check.csv。
### 失败样本
问题:Agent 和 RAG 有什么区别?
失败:检索只命中了 RAG 页面,没有命中 Agent 页面。
### 修复动作
扩大导入文档范围,并在 metadata 中保存 stage 信息。
### 下一次挑战
比较不同 chunk size 对命中率的影响。
Boss 战的意义是把学习变成一个个清晰关卡。每打过一关,你都获得一个可解释、可展示、可复盘的能力。