经典 CNN 架构

本节定位
学经典架构不是为了背模型名字,而是为了看清一条非常重要的演进主线:
当图像任务越来越复杂时,CNN 到底是怎么一步步变强的?
看懂这条主线,你后面遇到更现代的视觉模型时,就不会只看到一堆名词。
学习目标
- 理解 LeNet、AlexNet、VGG、ResNet 各自解决了什么问题
- 看懂经典 CNN 的演进逻辑,而不是只记结构图
- 理解“小卷积核堆叠”和“残差连接”为什么重要
- 写出一个最小残差块,真正理解 ResNet 的核心想法
- 能从工程角度判断不同架构的优缺点
一、为什么要学“经典架构”?
1.1 经典模型不是过时知识,而是视觉建模的演化史
很多初学者看 CNN 架构时容易这样学:
- LeNet:记一个名字
- AlexNet:再记一个名字
- VGG:又记一个名字
- ResNet:好像很重要
这样学很容易散。
更好的方式是把它们看成一条演化链:
- LeNet:证明卷积网络能做图像识别
- AlexNet:把深 CNN 真正做大并在大数据上打出效果
- VGG:把“多层小卷积核”这件事做成标准思路
- ResNet:解决深网络训练困难的问题
所以学经典架构的真正目标不是“知道名字”,而是知道:
每一代在补哪一个关键短板。