Pipeline 与工作流

本节定位
真实项目中,数值特征、类别特征需要不同的预处理。本节教你用 ColumnTransformer + Pipeline 构建完整的特征工程流水线,一个对象搞定所有。
学习目标
- 掌握 ColumnTransformer 处理混合类型
- 学会自定义 Transformer
- 构建完整的特征工程流水线
先建立一张地图
很多新人前面每一步都能单独做,但一到真实项目就会乱掉。Pipeline 解决的就是:
怎样把“数据处理 -> 特征工程 -> 模型训练”固化成一条稳定、可复现、不会泄漏的工作流。
一个更适合新人的总类比
你可以把 Pipeline 理解成:
- 把零散手工步骤装进一条自动装配线
如果没有 Pipeline,你很容易变成:
- 手动补缺失值
- 手动编码
- 手动缩放
- 手动把结果喂给模型
这就很像: