跳到主要内容

阶段学习任务单:机器学习入门到实战

机器学习通关任务清单图

这个阶段的目标是让你理解机器学习项目的完整闭环:定义问题、准备数据、构造特征、训练模型、评估效果、分析错误。不要把重点放在背算法公式上,而要把每个算法放回“它适合解决什么问题、如何判断效果好坏”的场景里。

本阶段必须完成的任务

任务产出物通过标准
建立 ML 问题意识一份问题定义说明能区分分类、回归、聚类和异常检测
跑通 sklearn baseline一个最小训练脚本能完成 train/test split、fit、predict、score
完成特征工程一份特征处理记录能说明缺失值、类别变量、标准化和泄漏风险
完成模型评估一份指标对比表能解释准确率、召回率、F1、AUC 或 RMSE 的适用场景
完成阶段项目一个可复现实验项目有 README、数据说明、指标、失败样本和改进计划

推荐学习顺序

先学习机器学习基本概念和 sklearn 工作流,再学习监督学习、无监督学习、评估方法和特征工程。特征工程不要放到最后才看,因为真实项目里模型效果往往首先取决于数据和特征。

每学一个算法,都要同时问三个问题:它的输入是什么,它输出什么,什么情况下它可能失败。这样比单独记住算法名称更有用。

和 AI 学习助手项目的关系

本阶段对应 AI 学习助手的 v0.4 学习建议 baseline。你可以用历史学习问题和阶段标签训练一个简单分类器,预测新问题属于哪个阶段或哪个主题。这个模型不一定很强,但能帮助你理解“从规则到模型”的变化。

建议实现一个简单版本:手工准备几十条学习问题样本,使用 TF-IDF 或简单文本特征,训练一个分类模型,输出推荐章节。然后和规则匹配方法对比,记录各自优缺点。

常见卡点

常见问题包括训练集测试集混用、用测试集调参数、只看准确率、忽略类别不平衡、特征处理在切分前完成导致数据泄漏、模型结果无法复现。机器学习项目里,评估流程是否正确通常比模型是否高级更重要。

轻松版 / 标准版 / 挑战版任务

难度你要完成什么适合谁
轻松版训练 Dummy baseline 并输出指标第一遍学习、时间少或刚入门的学习者
标准版训练真实模型并和 baseline 对比希望把本阶段放进作品集的学习者
挑战版检查一次数据泄漏、类别不平衡或错误样本已有基础、想做更强项目证据的学习者

本阶段徽章与 Boss 战

类型内容
Boss 战Baseline 守门员
可解锁徽章Baseline 守门员、泄漏侦查员
最小通关口号先跑通、再解释、再记录失败
证据保存建议把截图、日志、失败样本或评估表保存到 reports/evals/logs/

完成轻松版就可以继续前进;完成标准版才建议写进作品集;挑战版只在你有余力时再做。

阶段作品集交付物

如果你想把本阶段成果沉淀到作品集,建议至少保留下面这些文件或等价材料。

交付物说明
train.py 或 Notebook可复现的 baseline 训练流程,包含数据切分、训练和评估
feature_report.md特征含义、缺失值处理、编码、标准化和泄漏风险检查
metrics.md记录 accuracy、F1、AUC、RMSE 等指标及选择理由
error_analysis.md保存预测错误样本,分析数据、特征、模型或指标问题
README.md问题定义、运行命令、模型结果、限制和下一步计划

这些材料会让机器学习项目不只是“跑出一个分数”,而是具备可复现、可解释、可改进的建模闭环。

阶段通关问题

学完后,你应该能回答这些问题:为什么要划分训练集和测试集,什么是数据泄漏,什么时候准确率不可靠,Pipeline 解决什么问题,为什么一个简单 baseline 是所有 ML 项目的起点。

完成状态 Checklist

  • 我能把一个问题判断为分类、回归、聚类或异常检测。
  • 我能用 sklearn 跑通一个 baseline,并保存评估结果。
  • 我能区分训练集、验证集和测试集的职责。
  • 我能识别至少一种数据泄漏风险,并用 Pipeline 降低风险。
  • 我已经完成一个机器学习项目,并记录指标、错误样本和改进计划。