跳到主要内容

学习卡点诊断地图

学习 AI 全栈时,卡住并不说明你不适合学,而是说明当前项目暴露了某一层能力缺口。最有效的处理方式不是继续硬读后面的章节,而是先判断卡点属于哪一层,再回到对应内容做一个最小复现实验。

这页和 常见错误与排障索引 的区别是:排障索引更偏具体错误,这页更偏学习路线和项目回流。你可以把它当成“从失败现象反查课程章节”的地图。

诊断总流程

遇到卡点时,先问四个问题:我能不能复现,输入是什么,预期是什么,实际是什么。如果这四项都说不清,优先补记录,而不是补知识点。

一张表快速定位

卡点现象多半缺的是优先回看最小修复动作作品集证据
命令跑不起来、环境混乱开发工具和运行环境1 开发者工具基础、环境准备在新终端按 README 重跑一次命令记录、环境版本、修复说明
Python 脚本经常路径错、文件读不到文件路径、异常处理、项目结构2 Python 编程基础写一个最小文件读写脚本输入文件、输出文件、异常样例
数据分析结论不可信数据质量和清洗流程3 数据分析与可视化打印缺失、重复、异常值检查数据字典、清洗日志、图表解释
看不懂相似度、loss、概率或指标数学直觉和指标解释4 AI 数学基础用 5 行代码复现一个指标小实验、手算说明、指标边界
模型分数很高但不敢相信数据泄漏、baseline、评估方式5 机器学习重做 train/test 划分和 Dummy baselinebaseline、指标表、错误样本
训练不收敛、shape mismatch深度学习训练循环6 深度学习与 Transformer打印 tensor shape,跑小数据过拟合测试训练日志、曲线、失败样本
LLM 输出格式飘、JSON 不稳定Prompt、schema、校验重试7 大模型与 Prompt固定 10 个输入做输出对比Prompt 版本、schema 校验结果
RAG 答非所问或引用不支持文档处理、检索、RAG 评估8 LLM 应用与 RAG只打印检索结果,不调用模型chunks、retrieval logs、citation_check
Agent 循环或乱用工具目标边界、工具 schema、停止条件9 AI Agent限制 3 步并保存 traceagent_traces、tool_calls、安全边界
多模态输出看起来好但不可控素材、审核、导出和质量标准10~12 方向拓展保存输入素材和人工审核记录素材来源、审核表、失败样本
项目能跑但讲不清README、评估和复盘不足项目交付标准、作品集清单补运行方式、示例、失败样本README、demo_notes、improvement_record
本地能跑,别人跑不起来依赖、配置、部署说明工程化、环境准备、部署章节在干净目录按 README 重跑.env.example、依赖文件、部署日志

定位以后,不要只“看一遍相关章节”。更有效的是做一个最小修复动作,并把结果写回项目资料。

环境和工具卡点

环境问题最容易让新手误以为自己学不会。其实它通常和当前目录、PATH、Python 环境、Node 依赖、Git 状态有关。

现象先查什么回流章节修复后补什么
command not found命令是否安装,当前 shell 是否加载 PATH终端与命令行、包管理器README 增加安装命令
ModuleNotFoundErrorpip 是否装到当前 Python 环境Python 环境、虚拟环境requirements.txt 或依赖说明
npm run start 失败是否在项目根目录,是否安装依赖开发环境配置记录 Node 版本和启动命令
Git 提交失败是否初始化、暂存、配置身份Git 与版本管理记录 git status 排查步骤

最小实验是:关闭当前终端,打开新终端,从项目根目录按 README 完整运行一次。如果跑不通,说明 README 或环境说明还不够完整。

Python、数据和项目结构卡点

如果代码能写一点,但经常在路径、JSON、DataFrame、编码、空数据上卡住,说明需要回到“数据进入程序以后如何被检查和保护”。

现象可能原因最小实验回流章节
相对路径一换目录就失效没有理解工作目录打印 Path.cwd() 和目标文件路径Python 文件读写
JSON 文件损坏后程序崩溃缺少异常处理准备一个损坏 JSON 测试异常处理、文件 I/O
DataFrame 列名对不上header、空格、大小写、分隔符问题打印 df.columns.tolist()Pandas 读取与清洗
图表有结论但解释薄弱没有连接业务问题给每张图写一句“回答什么问题”数据可视化最佳实践

这一层修好以后,项目应该多出异常输入样例、空输入样例、文件损坏样例或数据质量检查表。

模型和指标卡点

模型阶段的常见误区是只看分数,不看分数是否可信。凡是遇到“分数太高、分数太低、解释不清、调参没方向”,都应该回到 baseline、划分、指标和错误样本。

现象先排查最小实验应留下的证据
准确率异常高数据泄漏、重复样本、答案字段删除可疑特征,重新训练 baseline泄漏检查记录
验证集很差过拟合、数据量少、划分不合理对比训练/验证曲线曲线和错误样本
loss 不降学习率、标签格式、归一化小数据过拟合测试配置和训练日志
指标讲不清指标和业务问题不匹配用 5 个样本手算指标指标解释文档

如果项目里没有 baseline,就不要急着说模型优化。先做一个最简单的 baseline,很多问题会自然暴露。

Prompt 和 LLM 卡点

LLM 项目最常见的卡点是“看起来会回答,但不稳定”。如果输出格式漂移、字段缺失、幻觉、成本突然升高,就要把 Prompt 当成可测试组件,而不是一次性文字。

现象可能原因最小修复评估材料
JSON 少字段schema 不清楚或没有校验增加 required 字段和校验prompt_eval_cases.csv
同一问题输出差异大Prompt 约束弱、温度高、样例不足固定 10 个输入比较版本Prompt 版本表
回答编造事实没有限制信息来源要求无依据时拒答失败样本和拒答样例
成本高上下文太长、重试过多记录 token 和请求次数llm_calls.jsonl

Prompt 阶段的目标不是写出一条万能提示词,而是建立版本、测试和回归意识。

RAG 卡点

RAG 失败时,不要先怪模型。先把模型关掉,只看检索结果。只要检索没有命中正确资料,后面的生成很难可靠。

现象定位顺序最小实验回流章节
检索不到相关文档文档是否导入、chunk 是否合理、query 是否匹配用原文关键词检索文档处理、向量检索
检索到了但答案错Prompt 是否要求基于来源,模型是否忽略片段把检索片段直接喂给模型RAG 生成和引用
引用不支持答案citation 是否精确到片段,答案句子是否可对齐人工标注 citation_okRAG 评估
问题稍微改写就失败query rewrite、同义词、metadata 过滤不足固定 10 个改写问题测试检索优化

RAG 项目的核心证据包括 eval_questions、gold_doc、gold_answer、citation_ok、retrieval_logs 和失败类型统计。

Agent 卡点

Agent 卡住时,通常不是“模型不够聪明”,而是目标、工具、状态和停止条件没有设计好。Agent 项目必须能复盘每一步,否则一次成功演示不够可信。

现象先查什么最小修复作品证据
一直循环目标是否过宽,停止条件是否清楚设置最大步数和完成条件trace 对比
工具参数错schema、示例、必填字段是否清楚手写一次工具调用tool schema 和错误样本
工具选错工具描述重叠或权限边界不清合并或重写工具描述tool_calls.jsonl
越权操作是否区分只读、写入、删除、发送高风险动作人工确认安全边界说明
完成但不可复盘没有记录 thought/action/observation保存 agent_traces.jsonltrace replay 样例

Agent 的最小验收不是“完成一个任务”,而是“失败时能说清楚哪一步错了”。

作品集和课程安排卡点

有些学习者不是技术卡住,而是课程安排和项目表达卡住:学了很多但不知道怎么展示,项目能跑但讲不清,或者每阶段都像从零开始。

现象问题本质回流页面修复动作
不知道先学什么路线选择不清四条主线学习路线选定一条路线,坚持一个阶段
每阶段项目割裂缺少贯穿项目AI 学习助手版本路线图把阶段产出合并到同一项目
项目很多但不成作品集缺少交付标准项目页交付标准、作品集清单统一 README、截图、评估和复盘
学完一章就忘没有最小练习课程页面使用指南每章补一个可运行动作
毕业项目不知道选什么输入材料和目标不清毕业项目设计指南用决策树选方向

当你觉得课程太大时,不要增加新资料。先减少当前目标:只完成当前路线、当前阶段、当前项目版本的最低交付。

卡点记录模板

每次卡住后,建议把它记录成一个可复用条目。这样你的失败不会浪费,而会变成作品集里的工程证据。

## 卡点标题

### 当前阶段
我正在学习哪一站,做哪个项目版本。

### 现象
我执行了什么命令或输入了什么内容,实际发生了什么。

### 预期
我原本以为应该发生什么。

### 归因层级
环境 / Python / 数据 / 数学指标 / 机器学习 / 深度学习 / Prompt / RAG / Agent / 部署 / 作品集表达。

### 最小复现
用最小输入或最小命令复现这个问题。

### 回流章节
我回看了哪些课程页面。

### 修复动作
我改了什么,为什么这样改。

### 回归检查
以后用哪个测试样例确认它没有复发。

学习顺畅不是从不失败,而是失败以后能快速定位、修复、记录和回归。每次卡点都能沉淀成一条证据,课程就会越学越轻。