跳到主要内容

阶段学习任务单:机器学习入门到实战

这个阶段的目标是让你理解机器学习项目的完整闭环:定义问题、准备数据、构造特征、训练模型、评估效果、分析错误。不要把重点放在背算法公式上,而要把每个算法放回“它适合解决什么问题、如何判断效果好坏”的场景里。

本阶段必须完成的任务

任务产出物通过标准
建立 ML 问题意识一份问题定义说明能区分分类、回归、聚类和异常检测
跑通 sklearn baseline一个最小训练脚本能完成 train/test split、fit、predict、score
完成特征工程一份特征处理记录能说明缺失值、类别变量、标准化和泄漏风险
完成模型评估一份指标对比表能解释准确率、召回率、F1、AUC 或 RMSE 的适用场景
完成阶段项目一个可复现实验项目有 README、数据说明、指标、失败样本和改进计划

推荐学习顺序

先学习机器学习基本概念和 sklearn 工作流,再学习监督学习、无监督学习、评估方法和特征工程。特征工程不要放到最后才看,因为真实项目里模型效果往往首先取决于数据和特征。

每学一个算法,都要同时问三个问题:它的输入是什么,它输出什么,什么情况下它可能失败。这样比单独记住算法名称更有用。

和 AI 学习助手项目的关系

本阶段对应 AI 学习助手的 v0.4 学习建议 baseline。你可以用历史学习问题和阶段标签训练一个简单分类器,预测新问题属于哪个阶段或哪个主题。这个模型不一定很强,但能帮助你理解“从规则到模型”的变化。

建议实现一个简单版本:手工准备几十条学习问题样本,使用 TF-IDF 或简单文本特征,训练一个分类模型,输出推荐章节。然后和规则匹配方法对比,记录各自优缺点。

常见卡点

常见问题包括训练集测试集混用、用测试集调参数、只看准确率、忽略类别不平衡、特征处理在切分前完成导致数据泄漏、模型结果无法复现。机器学习项目里,评估流程是否正确通常比模型是否高级更重要。

阶段通关问题

学完后,你应该能回答这些问题:为什么要划分训练集和测试集,什么是数据泄漏,什么时候准确率不可靠,Pipeline 解决什么问题,为什么一个简单 baseline 是所有 ML 项目的起点。

完成状态 Checklist

  • 我能把一个问题判断为分类、回归、聚类或异常检测。
  • 我能用 sklearn 跑通一个 baseline,并保存评估结果。
  • 我能区分训练集、验证集和测试集的职责。
  • 我能识别至少一种数据泄漏风险,并用 Pipeline 降低风险。
  • 我已经完成一个机器学习项目,并记录指标、错误样本和改进计划。