超参数调优策略
本节定位
很多训练问题最后都会绕回一句话:
- 参数没调好
但“调参”常常被做得很随意,好像只能靠运气。
其实更稳的做法是:
把调参当成实验设计问题,而不是盲目撞点。
这节课会把这件事讲实。
学习目标
- 理解哪些超参数最值得先调
- 理解学习率、batch size、正则化等参数分别在影响什么
- 通过可运行示例建立“实验记录和排序比较”的调参直觉
- 学会设计更稳的调参顺序
先建立一张地图
如果你已经学过优化器、正则化和训练循环,这一节最自然的续接就是:
- 前面你已经知道模型能怎么训
- 这一节开始问“怎样把这些训练配置调得更稳、更有效”
所以调参不是训练之外的附加题,而是:
- 训练闭环真正跑起来以后,迟早会面对的实验设计问题
调参最好不要理解成“试很多组合”,而要理解成:
这节真正想帮你建立的是:
- 先调什么
- 后调什么
- 怎样避免实验失控
一、为什么调参不能靠乱试?
1.1 因为参数之间经常互相影响
例如:
- 学习率和 batch size 会一起影响稳定性
- dropout 和 weight decay 会一起影响泛化
1.2 如果没有顺序,实验很快失控
你会遇到:
- 同时改太多参数
- 不知道是哪项起作用
- 结果不可复现
1.3 一个类比
调参像做烘焙。
如果你一次同时改:
- 温度
- 时间
- 糖量
- 面粉量
你很难知道最后成败到底是谁导致的。