学习指南:深度学习与 Transformer 基础怎么学最不容易学乱
如果你来到 05 深度学习与 Transformer 基础 后觉得代码变长、模型变多,先把注意力放回训练闭环。深度学习第一遍最重要的是知道数据如何经过模型、损失和梯度更新参数。
本阶段总原则
深度学习要抓住一条主线:数据进入网络,前向传播得到输出,损失函数衡量差距,反向传播计算梯度,优化器更新参数。
推荐学习顺序
第一轮先学神经网络基础。重点理解神经元、激活函数、前向传播、反向传播、损失函数、优化器和正则化。
第二轮学 PyTorch。不要只复制代码,要知道张量、自动求导、nn.Module、Dataset、DataLoader 和训练循环分别负责什么。
第三轮学 CNN。图像分类最直观,适合第一次把网络结构和任务联系起来。
第四轮学 RNN 和序列模型。它们帮助你理解序列任务,也为 Transformer 的出现提供历史背景。
第五轮学 Attention 和 Transformer。这是进入大模型主线前最关键的桥。
生成模型和训练技巧可以作为扩展,不必在第一遍全部吃透。
建议学习节奏
| 内容类型 | 建议时间 | 学习目标 |
|---|---|---|
| 神经网络基础 | 3~6 小时 | 能解释训练闭环 |
| PyTorch 基础 | 6~10 小时 | 能写最小训练循环 |
| CNN / RNN | 4~8 小时 | 能理解不同数据结构对应的网络 |
| Transformer | 4~8 小时 | 能解释 Attention 的基本直觉 |
| 项目页 | 10~20 小时 | 完成一个可训练、可评估的小模型 |