跳到主要内容

全课程能力评估与通关标准

这页用来回答一个核心问题:学到什么程度才算真正掌握?AI 全栈学习不能只用“看完章节”判断进度,更应该看你能不能解释概念、跑通代码、完成项目、评估结果、复盘失败,并把这些证据整理成可展示成果。

四级能力标准

等级状态能力表现典型证据
了解级看懂概念能说出这个技术解决什么问题学习笔记、概念图、关键术语解释
实操级跑通最小闭环能独立运行示例并修改关键参数可运行脚本、命令记录、截图
项目级做出完整小项目有输入、处理流程、输出、异常处理和 README项目仓库、示例输入输出、结果说明
工程级能评估和迭代有 baseline、指标、日志、失败样本和改进记录评估表、日志、失败样本、复盘报告

学习早期不需要每一章都达到工程级,但每个主阶段至少要有一个项目达到项目级。进入 RAG、Agent 和毕业项目后,评估、日志和失败样本应该成为默认要求。

阶段通关矩阵

阶段最低通关标准推荐通关标准进入下一阶段前要确认
1 开发者工具基础能使用命令行、Git 和开发环境运行项目能创建仓库、提交代码、写清运行说明不再依赖复制粘贴路径和命令
2 Python 编程基础能写函数、读写文件、处理异常能把脚本拆成模块并做一个小 API 或 CLI能独立排查常见 Python 报错
3 数据分析与可视化能读取数据、清洗、统计和画图能写一份有结论的数据分析报告能解释数据质量如何影响结论
4 AI 数学基础能解释向量、概率、梯度的直觉能用小实验展示数学概念如何影响模型不把公式当成黑箱记忆
5 机器学习能训练 baseline 并看懂指标能做特征处理、模型对比和错误分析能区分训练效果、泛化效果和数据问题
6 深度学习与 Transformer能跑通训练循环并看曲线能分析过拟合、欠拟合和迁移学习结果能理解 Transformer 为什么适合序列建模
7 大模型与 Prompt能设计可复用 Prompt 并比较输出能做结构化输出、版本记录和回归样本不再只凭感觉判断 Prompt 好坏
8 LLM 应用与 RAG能完成带来源引用的问答原型有切块、检索日志、评估集和失败样本能判断失败来自检索、生成还是引用
9 AI Agent能定义工具并完成多步骤任务有 trace、工具日志、权限边界和安全测试能说明 Agent 何时应该停止和确认
10 多模态与 AIGC能完成一个图片、语音、视频或多模态理解实验有输入素材、生成/理解流程、质量标准和人工审核不把生成效果只交给主观感觉判断
11 自然语言处理能完成文本分类、抽取或摘要任务能比较传统 NLP、深度学习和 LLM 方案能说明文本表示、标签边界和评估方式
12 计算机视觉能完成图像分类、检测或 OCR 实验有数据标注、指标、错误样本和可视化结果能解释视觉模型失败来自数据、标注还是模型
毕业项目能运行完整 AI 应用有部署说明、评估报告、失败复盘和演示脚本能在 3 分钟内讲清架构、指标、限制和下一步

每阶段复盘问题

每完成一个阶段,不要只问“我看完了吗”,而要问:我能不能用自己的话解释这一阶段解决了什么问题;我是否亲手跑过一个最小项目;我是否留下了 README、运行命令和示例输出;我是否记录过至少一个失败样本;如果下周重新运行项目,我是否还能复现结果。

如果这些问题里有两项以上答不上来,建议先补项目证据,再进入下一阶段。课程进度不是越快越好,而是每一步都能留下可验证成果。

AI 应用阶段的额外验收

从 Prompt、RAG、Agent 开始,项目不能只看“回答是否像样”。AI 应用项目还要检查模型调用是否有错误处理,Prompt 是否有版本,RAG 是否能展示来源和检索日志,Agent 是否有工具边界和执行轨迹,系统是否能记录成本、延迟和失败原因。

项目类型必须保留的证据不合格信号
Prompt 项目Prompt 版本、固定输入、输出对比、失败样本只展示一次成功输出
RAG 项目chunks、retrieval logs、eval questions、citation check答案有引用但引用不支持结论
Agent 项目tool schema、agent trace、max_steps、安全边界Agent 做了什么说不清,失败无法回放
部署项目环境变量说明、启动命令、日志、错误处理只能在个人电脑上运行

最终判断标准

当你能把一个项目从问题定义讲到运行方式,从技术路线讲到评估结果,从成功样本讲到失败样本,再从当前限制讲到下一步迭代,就说明它已经接近作品集级。真正的 AI 全栈能力不是知道多少工具名,而是能把问题、数据、模型、工程、评估和复盘连接成一个稳定闭环。