跳到主要内容

学前导读：微积分与优化这章到底在学什么

如果说线性代数告诉你“数据和变换怎样表示”，那这一章要回答的是：

模型到底是怎么学起来的？

它的核心主线其实很简单：

导数：告诉你一个量变化得有多快
梯度：告诉你多变量函数朝哪个方向变化最快
梯度下降：告诉你怎样一步步把损失降下来
反向传播：告诉你神经网络里那么多参数的梯度怎么高效算出来

学习目标

建立“导数 -> 梯度 -> 梯度下降 -> 反向传播”的整章地图
知道微积分在 AI 训练里的实际作用
知道新人该抓哪些核心直觉，避免一开始掉进推导细节

一、这一章四节之间是什么关系？

你可以把这章压缩成一句话：

先学会衡量变化，再学会利用变化去更新参数，最后学会在深层网络里高效传播这些变化。

二、这一章和 AI 的关系

章节	在 AI 里最直接的作用
导数	理解“一个参数变一点，损失会怎样变”
梯度	理解多参数模型该往哪个方向更新
梯度下降	理解模型训练为什么是一轮轮迭代优化
反向传播	理解神经网络为什么能在很多层里算梯度

当你以后在 PyTorch 里看到：

loss.backward()
optimizer.step()

背后其实就是这整章在工作。

三、新人最应该怎么学这一章？

3.1 先抓“变化率”这个核心直觉

不要一开始就被复杂公式带走。先记住：

导数是变化率
梯度是多变量版本的变化率
负梯度方向通常是下降最快的方向

3.2 每节都要和“训练模型”连起来

如果你学导数时没有想到“损失怎么变”，学梯度时没有想到“参数怎么调”，那很容易觉得这些内容只是数学题。

3.3 先会看图、会看代码，再补推导

对自学 AI 的新人来说，优先级更应该是：

看懂图像直觉
看懂最小代码
理解公式是什么意思
最后再看更严格的推导

四、学完这章后，你至少应该会什么？

看到导数时，知道它表示变化率
看到梯度时，知道它表示多变量函数上升最快的方向
看到梯度下降时，知道模型是在一点点往损失更小的地方走
看到反向传播时，知道它本质上是在应用链式法则

学习目标
一、这一章四节之间是什么关系？
二、这一章和 AI 的关系
三、新人最应该怎么学这一章？
四、学完这章后，你至少应该会什么？