跳到主要内容

学前导读:特征工程这一章到底在学什么

如果说模型是在“学规律”,那特征工程解决的是:

你给模型看的数据,到底是不是它容易学、值得学、学得稳的数据。

很多时候,模型效果差并不是因为算法不够高级,而是因为输入给模型的特征质量不够好。

这一章五节之间的关系

这条线很适合新人:

  • 先看懂手里有什么特征
  • 再把脏数据处理干净
  • 再尝试造出更有信息量的新特征
  • 再删掉冗余或无用特征
  • 最后把整条流程固化成可复用流水线

这一章应该和哪几章交叉学

这一章最适合和下面两章来回穿插:

  • 和第二章监督学习一起学:边建模边体会特征影响
  • 和第四章模型评估一起学:看特征处理到底有没有真的提升效果

新人这一章最该带走什么

  • 知道“特征比模型更重要”不是口号,而是实战规律
  • 知道不同类型特征要用不同的处理方式
  • 知道真实项目里为什么必须用 Pipeline 固化流程