阶段学习任务单：数据分析与可视化

这个阶段的目标是让你能把原始数据变成可理解的结论。后续机器学习、RAG 评估、Agent 日志分析都需要数据处理能力，因此这里要重点训练数据读取、清洗、统计、可视化和解释。

本阶段必须完成的任务

本阶段对应 AI 学习助手的 v0.3 学习记录分析版本。你可以读取前面记录的学习问题日志，统计用户最常问的章节、最常见的问题类型和每周学习频率，然后生成一份简单分析报告。

建议输出包括：问题数量趋势、问题分类统计、高频关键词、最容易卡住的阶段，以及下一步学习建议。这会让项目开始从“记录工具”变成“辅助学习工具”。

常见问题包括 DataFrame 行列搞反、索引和列名混淆、链式赋值警告、日期字段没转换、图表无法显示中文、把相关性误解成因果关系。遇到分析结论时，要问自己：这个结论来自哪一列、哪一步处理可能影响它、有没有反例。

类型	内容
Boss 战	脏数据侦探
可解锁徽章	脏数据侦探、图表讲述者
最小通关口号	先跑通、再解释、再记录失败
证据保存建议	把截图、日志、失败样本或评估表保存到 `reports/`、`evals/` 或 `logs/`

完成轻松版就可以继续前进；完成标准版才建议写进作品集；挑战版只在你有余力时再做。

如果你想把本阶段成果沉淀到作品集，建议至少保留下面这些文件或等价材料。

交付物	说明
`analysis.ipynb`	完整 EDA Notebook，包含读取、清洗、统计、图表和结论
`data_dictionary.md`	数据字段含义、类型、单位和缺失情况说明
`cleaning_log.md`	缺失值、异常值、重复值和类型转换的处理记录
`figures/`	关键图表导出文件，每张图对应一个分析问题
`report.md`	分析目标、主要发现、局限性和下一步建模建议

这些材料会让数据分析阶段从“会用 Pandas”升级成“能用数据支持判断，并能把过程讲清楚”。

学完后，你应该能回答这些问题：NumPy 的 shape 为什么重要，Pandas 的 Series 和 DataFrame 有什么区别，缺失值处理会如何影响结论，一张图应该服务于什么问题，为什么数据分析报告要写局限性。