梯度下降:AI 最核心的优化算法
本节是整个数学阶段的高潮
梯度下降是所有深度学习模型训练的基础。理解了它,你就理解了 AI 模型是如何"学习"的。
学习目标
- 直觉理解梯度下降——"蒙着眼下山"
- 理解学习率的影响(太大/太小)
- 从头实现梯度下降拟合一条直线
- 了解 BGD、SGD、Mini-batch SGD 的区别
- 理解局部最小值和鞍点
一、直觉:蒙着眼睛下山
想象你站在一座山上,被蒙住了眼睛,想走到山谷最低点。你会怎么做?
- 用脚感受地面:哪个方向最陡?(= 计算梯度)
- 往最陡的下坡方向走一步(= 沿负梯度方向更新参数)
- 重复,直到感觉周围都是平的(= 梯度接近零,到达最低点)