学习指南：深度学习与 Transformer 基础怎么学最不容易学乱

如果你来到 05 深度学习与 Transformer 基础 后觉得代码变长、模型变多，先把注意力放回训练闭环。深度学习第一遍最重要的是知道数据如何经过模型、损失和梯度更新参数。

本阶段总原则

深度学习要抓住一条主线：数据进入网络，前向传播得到输出，损失函数衡量差距，反向传播计算梯度，优化器更新参数。

第一个项目建议做手写数字或小型图像分类，练习 Dataset、DataLoader、CNN、训练和评估。

第二个项目建议做文本情感分类，练习序列输入、Embedding 和基础文本模型。

第三个项目可以做 Transformer 结构阅读或小实验，重点理解 Attention 输入输出和上下文建模。

最常见的卡点是 loss、梯度和优化器串不起来。你可以用一个极小模型和几条样本，打印每一步的输入、输出、loss 和参数变化。

第二个卡点是 PyTorch 代码模板太长。建议先写最小训练循环，再逐步封装函数，不要一开始就追求工程化。

第三个卡点是模型效果不好。先查数据、标签、学习率、loss 是否下降，再考虑换模型。

学完本阶段后，你应该能从零写出一个 PyTorch 训练脚本，训练一个简单模型，画出 loss 变化，并解释模型为什么这样更新。

如果你能说清楚 CNN、RNN、Transformer 分别解决什么问题，就可以进入大模型原理阶段。