跳到主要内容

课程 Boss 战挑战地图

课程 Boss 战挑战地图

Boss 战不是为了增加压力,而是为了让学习者知道“这一阶段到底要打通什么”。每个 Boss 都是一个小型综合挑战,要求你把本阶段最关键的能力串起来,留下能展示的证据。

Boss 战分三档:基础版保证新手能完成,标准版适合进入作品集,挑战版留给有余力的人。第一遍学习只需要打过基础版。

Boss 战总览

阶段Boss 名称核心能力基础通关证据
1 开发者工具基础工作台守门人终端、环境、Git、README从空目录到一次 Git 提交
2 Python 编程基础JSON 地牢管理员函数、文件、异常、数据结构一个能保存任务的 CLI
3 数据分析与可视化脏数据侦探清洗、统计、图表、解释一份数据质量报告
4 AI 数学基础指标迷宫向量、概率、loss、指标一个可运行小实验
5 机器学习Baseline 守门员划分、baseline、评估、错误样本一个可信 baseline
6 深度学习Shape 巨兽tensor、训练循环、loss、曲线一次训练日志和曲线
7 Prompt 与大模型JSON 漂移怪Prompt、schema、结构化输出10 个固定输入输出测试
8 RAG引用幻觉龙chunk、检索、引用、评估10 个带引用问答样例
9 Agent无限循环魔王工具、trace、停止条件、权限3 个可回放任务 trace
10~12 方向拓展多模态混沌体视觉、文本、多模态、审核一个输入到输出完整案例
毕业项目最终产品 Boss综合设计、部署、评估、演示可运行 Demo 和评估报告

每个 Boss 战都要保留成功和失败证据。成功证明你能做,失败证明你能复盘。

Boss 1:工作台守门人

这个 Boss 检查你是否真的拥有一个可复现开发环境。很多后续问题都来自第一站没打牢:不知道当前目录,不会看报错,不会提交版本,不会写运行命令。

难度任务通关条件
基础版创建项目目录,写一个 hello_ai.py 并运行终端能输出一句话
标准版增加 README、虚拟环境说明和 Git 提交别人按 README 能复现
挑战版故意制造一个路径错误并写排障记录有失败样本和修复记录

通关后,你应该获得“终端生存”和“Git 存档”能力。

Boss 2:JSON 地牢管理员

这个 Boss 检查你是否能写出一个真正保存数据的小程序。它不需要复杂界面,但必须能处理正常输入、空输入和坏文件。

难度任务通关条件
基础版新增、查看、完成学习任务数据能保存到 JSON
标准版支持分类、搜索、异常处理空文件和损坏 JSON 不会直接崩溃
挑战版写 3 个命令行测试样例正常、异常、空输入都有记录

通关后,你应该能解释列表、字典、函数、文件读写和异常处理如何组成一个小工具。

Boss 3:脏数据侦探

这个 Boss 检查你是否能把一份不完美的数据整理成可信结论。数据分析不是画图比赛,而是从数据质量开始。

难度任务通关条件
基础版检查缺失、重复和异常值输出数据质量检查表
标准版清洗数据并画 2 张图每张图有一句结论和局限
挑战版故意保留一个错误结论并解释为什么错有清洗前后对比

通关后,你应该能说清楚数据从哪里来,哪里不可信,结论边界是什么。

Boss 4:指标迷宫

这个 Boss 检查你是否能把抽象数学概念变成可运行的小实验。你不需要成为数学家,但要能用代码解释模型里常见的量。

难度任务通关条件
基础版用代码计算两个向量的相似度能解释结果大小代表什么
标准版比较概率、loss 或距离指标有手算样例和代码样例
挑战版说明同一个问题用不同指标会得到什么差异有指标选择理由

通关后,你应该不再害怕相似度、概率、loss 和评价指标这些词。

Boss 5:Baseline 守门员

这个 Boss 检查你是否能判断模型结果是否可信。没有 baseline 的模型项目,很难说明真的有效。

难度任务通关条件
基础版做 train/test 划分并训练 Dummy baseline输出 baseline 指标
标准版训练一个真实模型并和 baseline 对比有指标表和错误样本
挑战版检查一次数据泄漏或类别不平衡有泄漏检查记录

通关后,你应该能讲清楚模型有没有比“最笨方法”更好。

Boss 6:Shape 巨兽

这个 Boss 检查你是否能跑通一次深度学习训练,并在出错时定位 shape、loss 或数据问题。

难度任务通关条件
基础版跑通一个最小训练循环有 loss 输出
标准版保存训练曲线和验证指标能解释是否过拟合
挑战版故意制造 shape mismatch 并修复有错误日志和修复记录

通关后,你应该知道深度学习项目不能只看最终分数,还要看训练过程。

Boss 7:JSON 漂移怪

这个 Boss 检查你是否能让 LLM 稳定输出结构化结果。Prompt 项目最怕的是一次成功、十次漂移。

难度任务通关条件
基础版设计一个输出 JSON 的 Prompt至少 5 次输出字段完整
标准版用 schema 校验 10 个固定输入有通过率和失败样本
挑战版做 Prompt 版本对比有版本表和改进记录

通关后,你应该把 Prompt 当成可测试组件,而不是一句神秘咒语。

Boss 8:引用幻觉龙

这个 Boss 检查你是否能让 RAG 基于资料回答,并证明引用支持答案。

难度任务通关条件
基础版导入 3 个 Markdown 文档并回答 5 个问题每个回答给出来源
标准版建 10 个评估问题并检查 citation_ok有检索日志和引用检查表
挑战版比较不同 chunk 或 top-k 策略有失败类型统计

通关后,你应该能区分“回答看起来对”和“回答有来源支持”。

Boss 9:无限循环魔王

这个 Boss 检查你是否能设计可控 Agent。Agent 的难点不是会调用工具,而是能停止、能复盘、能限制权限。

难度任务通关条件
基础版让 Agent 完成 3 个固定任务每个任务有步骤记录
标准版保存 tool_calls 和 agent_traces能回放一次失败
挑战版增加高风险动作人工确认有越权测试和安全说明

通关后,你应该能说明 Agent 什么时候该自动执行,什么时候必须停下来问人。

最终 Boss:可展示 AI 产品

最终 Boss 不是把所有技术堆到一起,而是把一个清晰问题做成可运行、可评估、可演示的产品。

难度任务通关条件
基础版本地可运行 DemoREADME、示例输入输出齐全
标准版有评估集、日志、失败样本和演示脚本能解释效果和限制
挑战版部署上线并做成本、安全和监控说明有完整作品集页面

最终展示时,建议用“Boss 战通关记录”讲故事:我先打通环境,再做数据,再做模型,再做 RAG 和 Agent,最后把它们整合成一个产品。

Boss 战记录模板

## Boss 战:引用幻觉龙

### 挑战目标
让 RAG 回答 10 个课程问题,并检查引用是否支持答案。

### 难度
标准版。

### 通关证据
保存 eval_questions.csv、retrieval_logs.jsonl 和 citation_check.csv。

### 失败样本
问题:Agent 和 RAG 有什么区别?
失败:检索只命中了 RAG 页面,没有命中 Agent 页面。

### 修复动作
扩大导入文档范围,并在 metadata 中保存 stage 信息。

### 下一次挑战
比较不同 chunk size 对命中率的影响。

Boss 战的意义是把学习变成一个个清晰关卡。每打过一关,你都获得一个可解释、可展示、可复盘的能力。