跳到主要内容

学习指南:深度学习与 Transformer 基础怎么学最不容易学乱

如果你来到 05 深度学习与 Transformer 基础 后觉得代码变长、模型变多,先把注意力放回训练闭环。深度学习第一遍最重要的是知道数据如何经过模型、损失和梯度更新参数。

本阶段总原则

深度学习要抓住一条主线:数据进入网络,前向传播得到输出,损失函数衡量差距,反向传播计算梯度,优化器更新参数。

推荐学习顺序

第一轮先学神经网络基础。重点理解神经元、激活函数、前向传播、反向传播、损失函数、优化器和正则化。

第二轮学 PyTorch。不要只复制代码,要知道张量、自动求导、nn.Module、Dataset、DataLoader 和训练循环分别负责什么。

第三轮学 CNN。图像分类最直观,适合第一次把网络结构和任务联系起来。

第四轮学 RNN 和序列模型。它们帮助你理解序列任务,也为 Transformer 的出现提供历史背景。

第五轮学 Attention 和 Transformer。这是进入大模型主线前最关键的桥。

生成模型和训练技巧可以作为扩展,不必在第一遍全部吃透。

建议学习节奏

内容类型建议时间学习目标
神经网络基础3~6 小时能解释训练闭环
PyTorch 基础6~10 小时能写最小训练循环
CNN / RNN4~8 小时能理解不同数据结构对应的网络
Transformer4~8 小时能解释 Attention 的基本直觉
项目页10~20 小时完成一个可训练、可评估的小模型

阶段项目路线

第一个项目建议做手写数字或小型图像分类,练习 Dataset、DataLoader、CNN、训练和评估。

第二个项目建议做文本情感分类,练习序列输入、Embedding 和基础文本模型。

第三个项目可以做 Transformer 结构阅读或小实验,重点理解 Attention 输入输出和上下文建模。

常见卡点

最常见的卡点是 loss、梯度和优化器串不起来。你可以用一个极小模型和几条样本,打印每一步的输入、输出、loss 和参数变化。

第二个卡点是 PyTorch 代码模板太长。建议先写最小训练循环,再逐步封装函数,不要一开始就追求工程化。

第三个卡点是模型效果不好。先查数据、标签、学习率、loss 是否下降,再考虑换模型。

过关标准

学完本阶段后,你应该能从零写出一个 PyTorch 训练脚本,训练一个简单模型,画出 loss 变化,并解释模型为什么这样更新。

如果你能说清楚 CNN、RNN、Transformer 分别解决什么问题,就可以进入大模型原理阶段。