6 深度学习与 Transformer 基础

这一阶段解决的是“模型内部到底是怎么学出来的”。机器学习阶段更多使用现成模型接口,而深度学习阶段会让你真正看到参数、梯度、训练循环、网络结构和表示学习。
故事化导入:走进模型的发动机舱
如果说机器学习阶段像是在驾驶一辆车,深度学习阶段就是打开引擎盖,看清楚动力如何产生。张量是燃料,网络层是零件,损失函数像仪表盘,梯度和优化器负责不断调校。你会第一次真正看到模型如何从错误中学习。
学习闯关地图
互动练习:盯住训练循环的四个数字
训练小模型时,不要只看最终准确率。每次实验都观察训练损失、验证损失、训练准确率和验证准确率。如果训练集越来越好但验证集不变,可能是过拟合;如果两个都很差,可能是模型、数据或学习率有问题。把这些曲线看懂,比盲目换模型更重要。
项目彩蛋
本阶段的彩蛋作品可以是一个“小型模型实验室”:同一个数据集上,分别记录不同网络结构、学习率、batch size、训练轮数的效果,并画出对比曲线。这个实验室会成为你理解微调、大模型训练和多模态模型的基础模板。
阶段定位
| 信息 | 说明 |
|---|---|
| 适合对象 | 已完成机器学习,希望进入深度学习、Transformer、大模型或多模态方向的学习者 |
| 预估学时 | 140~190 小时 |
| 前置要求 | 完成前四个阶段 |
| 阶段产出 | 图像分类、文本情感分类或简单生成模型项目 |
新手最小通关路线
新手先跑通张量、自动求导、数据加载、模型定义、损失计算、反向传播和优化器更新这条训练闭环。只要能用 PyTorch 训练一个小型分类模型,并看懂训练损失和验证指标,就算完成最小通关。
进阶深入路线
有经验的学习者可以深入 CNN、RNN、Attention、Transformer、正则化、初始化和训练诊断。进一步尝试记录不同网络结构和超参数的实验结果,形成自己的小型模型实验室。
深度学习为什么重要
深度学习让模型可以从数据中自动学习复杂表示。图像中的边缘、纹理和物体,文本中的词义和上下文,都可以通过多层网络逐步形成表示。Transformer 又进一步成为大语言模型和多模态模型的核心架构。
新人先做什么,进阶再做什么
新人第一次学这一阶段时,先理解神经网络训练的最小闭环:准备数据、定义模型、计算损失、反向传播、更新参数、观察曲线。不要一开始追求复杂架构。
有经验的学习者可以把重点放在训练诊断上:过拟合如何发现,学习率如何影响曲线,数据增强和正则化什么时候有用,Transformer 为什么改变序列建模。你的目标是能解释一次训练为什么成功或失败。
本阶段学习路径
第一章学习神经网络基础。你会理解神经元、激活函数、前向传播、反向传播、优化器、正则化和参数初始化。
第二章学习 PyTorch。你会从张量、自动求导、nn.Module、数据加载和训练循环开始,真正搭出一个可训练模型。
第三章学习 CNN。视觉任务最直观,适合作为第一次理解深度网络结构的入口。
第四章学习 RNN 与序列模型。你会看到序列数据为什么和普通表格不同,也会理解 LSTM、GRU 的历史意义。
第五章学习 Attention 与 Transformer。它是后续大模型主线的关键桥梁。
第六和第七章作为扩展,帮助你理解生成模型和训练调优。