阶段学习任务单：机器学习入门到实战

这个阶段的目标是让你理解机器学习项目的完整闭环：定义问题、准备数据、构造特征、训练模型、评估效果、分析错误。不要把重点放在背算法公式上，而要把每个算法放回“它适合解决什么问题、如何判断效果好坏”的场景里。

本阶段必须完成的任务

任务	产出物	通过标准
建立 ML 问题意识	一份问题定义说明	能区分分类、回归、聚类和异常检测
跑通 sklearn baseline	一个最小训练脚本	能完成 train/test split、fit、predict、score
完成特征工程	一份特征处理记录	能说明缺失值、类别变量、标准化和泄漏风险
完成模型评估	一份指标对比表	能解释准确率、召回率、F1、AUC 或 RMSE 的适用场景
完成阶段项目	一个可复现实验项目	有 README、数据说明、指标、失败样本和改进计划

本阶段对应 AI 学习助手的 v0.4 学习建议 baseline。你可以用历史学习问题和阶段标签训练一个简单分类器，预测新问题属于哪个阶段或哪个主题。这个模型不一定很强，但能帮助你理解“从规则到模型”的变化。

建议实现一个简单版本：手工准备几十条学习问题样本，使用 TF-IDF 或简单文本特征，训练一个分类模型，输出推荐章节。然后和规则匹配方法对比，记录各自优缺点。

常见问题包括训练集测试集混用、用测试集调参数、只看准确率、忽略类别不平衡、特征处理在切分前完成导致数据泄漏、模型结果无法复现。机器学习项目里，评估流程是否正确通常比模型是否高级更重要。

学完后，你应该能回答这些问题：为什么要划分训练集和测试集，什么是数据泄漏，什么时候准确率不可靠，Pipeline 解决什么问题，为什么一个简单 baseline 是所有 ML 项目的起点。