特征构造

本节定位
特征构造是从已有数据中创造新特征,往往是提升模型效果最有效的手段。Kaggle 竞赛的胜负,常常取决于谁构造了更好的特征。
学习目标
- 掌握多项式特征与交互特征
- 掌握时间特征提取
- 掌握统计特征(分组统计)
- 理解领域知识驱动的特征设计
先建立一张地图
特征构造不是“随便多造一些列”,而是:
把原始字段变成更接近问题本质的表示。
一个更适合新人的总类比
你可以把特征构造理解成:
- 把原材料加工成更适合模型入口的半成品
原始字段常常像:
- 还没切好的菜
而构造后的特征更像:
- 已经按用途切好、配好、能直接下锅的食材
所以特征构造真正重要的,不是“多造几列”,而是:
- 让数据更接近问题本质