跳到主要内容

学前导读:微积分与优化这章到底在学什么

如果说线性代数告诉你“数据和变换怎样表示”,那这一章要回答的是:

模型到底是怎么学起来的?

它的核心主线其实很简单:

  • 导数:告诉你一个量变化得有多快
  • 梯度:告诉你多变量函数朝哪个方向变化最快
  • 梯度下降:告诉你怎样一步步把损失降下来
  • 反向传播:告诉你神经网络里那么多参数的梯度怎么高效算出来

学习目标

  • 建立“导数 -> 梯度 -> 梯度下降 -> 反向传播”的整章地图
  • 知道微积分在 AI 训练里的实际作用
  • 知道新人该抓哪些核心直觉,避免一开始掉进推导细节

一、这一章四节之间是什么关系?

你可以把这章压缩成一句话:

先学会衡量变化,再学会利用变化去更新参数,最后学会在深层网络里高效传播这些变化。


二、这一章和 AI 的关系

章节在 AI 里最直接的作用
导数理解“一个参数变一点,损失会怎样变”
梯度理解多参数模型该往哪个方向更新
梯度下降理解模型训练为什么是一轮轮迭代优化
反向传播理解神经网络为什么能在很多层里算梯度

当你以后在 PyTorch 里看到:

loss.backward()
optimizer.step()

背后其实就是这整章在工作。


三、新人最应该怎么学这一章?

3.1 先抓“变化率”这个核心直觉

不要一开始就被复杂公式带走。先记住:

  • 导数是变化率
  • 梯度是多变量版本的变化率
  • 负梯度方向通常是下降最快的方向

3.2 每节都要和“训练模型”连起来

如果你学导数时没有想到“损失怎么变”,学梯度时没有想到“参数怎么调”,那很容易觉得这些内容只是数学题。

3.3 先会看图、会看代码,再补推导

对自学 AI 的新人来说,优先级更应该是:

  1. 看懂图像直觉
  2. 看懂最小代码
  3. 理解公式是什么意思
  4. 最后再看更严格的推导

四、学完这章后,你至少应该会什么?

  • 看到导数时,知道它表示变化率
  • 看到梯度时,知道它表示多变量函数上升最快的方向
  • 看到梯度下降时,知道模型是在一点点往损失更小的地方走
  • 看到反向传播时,知道它本质上是在应用链式法则