现代分类架构
本节定位
做图像分类时,模型结构不是“越新越好”,
而是在不断围绕几个核心问题演化:
- 怎么让网络更深
- 怎么让训练更稳
- 怎么让算力利用更高
这一节不是给你背模型名字,而是帮你抓住它们演化背后的动机。
学习目标
- 理解几代主流图像分类架构在解决什么问题
- 理解残差连接为什么改变了深层网络训练
- 理解效率型架构为什么重要
- 建立架构选择时的基本判断
先建立一张地图
如果你刚学完数据增强,这一节最自然的续接就是:
- 前一节在解决“同样一张图可以怎样更稳地喂给模型”
- 这一节开始解决“模型骨架本身该怎么设计得更强、更稳、更省”
所以这一节不是在单独背架构名字,而是在补图像分类里的另一半:
- 数据怎么准备
- 网络怎么搭得合理
现代分类架构这节最适合新人的理解 顺序不是“看一串名字”,而是先看清架构演进在回答什么问题:
所以这节真正想解决的是:
- 图像分类网络为什么会一路演进
- 不同架构到底在补哪类瓶颈
一个更适合新人的总类比
你可以把分类架构演进理解成:
- 工厂流水线一次次升级改造
每一代改造都不是为了“名字更新”,
而是为了回答一些很现实的问题:
- 线能不能拉得更长
- 机器会不会越跑越不稳
- 同样电费下能不能产出更多
一、为什么图像分类架构会不断演进?
1.1 因为“更深”不自动等于“更好”
早期网络一变深,常常会遇到:
- 梯度难传
- 优化困难
- 训练不稳定