阶段学习任务单：机器学习入门到实战

机器学习通关任务清单图

这个阶段的目标是让你理解机器学习项目的完整闭环：定义问题、准备数据、构造特征、训练模型、评估效果、分析错误。不要把重点放在背算法公式上，而要把每个算法放回“它适合解决什么问题、如何判断效果好坏”的场景里。

本阶段必须完成的任务

任务	产出物	通过标准
建立 ML 问题意识	一份问题定义说明	能区分分类、回归、聚类和异常检测
跑通 sklearn baseline	一个最小训练脚本	能完成 train/test split、fit、predict、score
完成特征工程	一份特征处理记录	能说明缺失值、类别变量、标准化和泄漏风险
完成模型评估	一份指标对比表	能解释准确率、召回率、F1、AUC 或 RMSE 的适用场景
完成阶段项目	一个可复现实验项目	有 README、数据说明、指标、失败样本和改进计划

本阶段对应 AI 学习助手的 v0.4 学习建议 baseline。你可以用历史学习问题和阶段标签训练一个简单分类器，预测新问题属于哪个阶段或哪个主题。这个模型不一定很强，但能帮助你理解“从规则到模型”的变化。

建议实现一个简单版本：手工准备几十条学习问题样本，使用 TF-IDF 或简单文本特征，训练一个分类模型，输出推荐章节。然后和规则匹配方法对比，记录各自优缺点。

常见问题包括训练集测试集混用、用测试集调参数、只看准确率、忽略类别不平衡、特征处理在切分前完成导致数据泄漏、模型结果无法复现。机器学习项目里，评估流程是否正确通常比模型是否高级更重要。

类型	内容
Boss 战	Baseline 守门员
可解锁徽章	Baseline 守门员、泄漏侦查员
最小通关口号	先跑通、再解释、再记录失败
证据保存建议	把截图、日志、失败样本或评估表保存到 `reports/`、`evals/` 或 `logs/`

完成轻松版就可以继续前进；完成标准版才建议写进作品集；挑战版只在你有余力时再做。

如果你想把本阶段成果沉淀到作品集，建议至少保留下面这些文件或等价材料。

交付物	说明
`train.py` 或 Notebook	可复现的 baseline 训练流程，包含数据切分、训练和评估
`feature_report.md`	特征含义、缺失值处理、编码、标准化和泄漏风险检查
`metrics.md`	记录 accuracy、F1、AUC、RMSE 等指标及选择理由
`error_analysis.md`	保存预测错误样本，分析数据、特征、模型或指标问题
`README.md`	问题定义、运行命令、模型结果、限制和下一步计划

这些材料会让机器学习项目不只是“跑出一个分数”，而是具备可复现、可解释、可改进的建模闭环。

学完后，你应该能回答这些问题：为什么要划分训练集和测试集，什么是数据泄漏，什么时候准确率不可靠，Pipeline 解决什么问题，为什么一个简单 baseline 是所有 ML 项目的起点。