阶段学习任务单:数据分析与可视化
这个阶段的目标是让你能把原始数据变成可理解的结论。后续机器学习、RAG 评估、Agent 日志分析都需要数据处理能力,因此这里要重点训练数据读取、清洗、统计、可视化和解释。
本阶段必须完成的任务
| 任务 | 产出物 | 通过标准 |
|---|---|---|
| 使用 NumPy 处理数组 | 一个数组计算练习文件 | 能解释 shape、广播、切片和矩阵运算 |
| 使用 Pandas 读取数据 | 一个数据读取脚本或 Notebook | 能读取 CSV/Excel/JSON 并查看基本信息 |
| 完成数据清洗 | 一份清洗前后对比记录 | 能处理缺失值、重复值、异常值和类型转换 |
| 完成探索分析 | 一份 EDA Notebook | 能用统计和图表说明主要发现 |
| 完成阶段项目 | 一份数据分析报告 | 有问题定义、图表、结论和局限性 |
推荐学习顺序
先学习 NumPy 的数组直觉,再进入 Pandas 的表格处理,最后学习可视化。不要一开始就追求复杂图表,先确保每张图都能回答一个明确问题。
数据分析的关键不是“画了多少图”,而是每一步都能解释为什么这么处理。比如为什么删除某些行,为什么填充缺失值,为什么选择柱状图而不是折线图。
和 AI 学习助手项目的关系
本阶段对应 AI 学习助手的 v0.3 学习记录分析版本。你可以读取前面记录的学习问题日志,统计用户最常问的章节、最常见的问题类型和每周学习频率,然后生成一份简单分析报告。
建议输出包括:问题数量趋势、问题分类统计、高频关键词、最容易卡住的阶段,以及下一步学习建议。这会让项目开始从“记录工具”变成“辅助学习工具 ”。
常见卡点
常见问题包括 DataFrame 行列搞反、索引和列名混淆、链式赋值警告、日期字段没转换、图表无法显示中文、把相关性误解成因果关系。遇到分析结论时,要问自己:这个结论来自哪一列、哪一步处理可能影响它、有没有反例。
轻松版 / 标准版 / 挑战版任务
| 难度 | 你要完成什么 | 适合谁 |
|---|---|---|
| 轻松版 | 完成缺失、重复、异常值检查 | 第一遍学习、时间少或刚入门的学习者 |
| 标准版 | 输出清洗前后对比和两张图表 | 希望把本阶段放进作品集的学习者 |
| 挑战版 | 解释一个错误结论是如何由脏数据造成的 | 已有基础、想做更强项目证据的学习者 |
本阶段徽章与 Boss 战
| 类型 | 内容 |
|---|---|
| Boss 战 | 脏数据侦探 |
| 可解锁徽章 | 脏数据侦探、图表讲述者 |
| 最小通关口号 | 先跑通、再解释、再记录失败 |
| 证据保存建议 | 把截 图、日志、失败样本或评估表保存到 reports/、evals/ 或 logs/ |
完成轻松版就可以继续前进;完成标准版才建议写进作品集;挑战版只在你有余力时再做。
阶段作品集交付物
如果你想把本阶段成果沉淀到作品集,建议至少保留下面这些文件或等价材料。
| 交付物 | 说明 |
|---|---|
analysis.ipynb | 完整 EDA Notebook,包含读取、清洗、统计、图表和结论 |
data_dictionary.md | 数据字段含义、类型、单位和缺失情况说明 |
cleaning_log.md | 缺失值、异常值、重复值和类型转换的处理记录 |
figures/ | 关键图表导出文件,每张图对应一个分析问题 |
report.md | 分析目标、主要发现、局限性和下一步建模建议 |
这些材料会让数据分析阶段从“会用 Pandas”升级成“能用数据支持判断,并能把过程讲清楚”。
阶段通关问题
学完后,你应该能回答这些问题:NumPy 的 shape 为什么重要,Pandas 的 Series 和 DataFrame 有什么区别,缺失值处理会如何影响结论,一张图应该服务于什么问题,为什么数据分析报告要写局限性。