跳到主要内容

阶段学习任务单:数据分析与可视化

这个阶段的目标是让你能把原始数据变成可理解的结论。后续机器学习、RAG 评估、Agent 日志分析都需要数据处理能力,因此这里要重点训练数据读取、清洗、统计、可视化和解释。

本阶段必须完成的任务

任务产出物通过标准
使用 NumPy 处理数组一个数组计算练习文件能解释 shape、广播、切片和矩阵运算
使用 Pandas 读取数据一个数据读取脚本或 Notebook能读取 CSV/Excel/JSON 并查看基本信息
完成数据清洗一份清洗前后对比记录能处理缺失值、重复值、异常值和类型转换
完成探索分析一份 EDA Notebook能用统计和图表说明主要发现
完成阶段项目一份数据分析报告有问题定义、图表、结论和局限性

推荐学习顺序

先学习 NumPy 的数组直觉,再进入 Pandas 的表格处理,最后学习可视化。不要一开始就追求复杂图表,先确保每张图都能回答一个明确问题。

数据分析的关键不是“画了多少图”,而是每一步都能解释为什么这么处理。比如为什么删除某些行,为什么填充缺失值,为什么选择柱状图而不是折线图。

和 AI 学习助手项目的关系

本阶段对应 AI 学习助手的 v0.3 学习记录分析版本。你可以读取前面记录的学习问题日志,统计用户最常问的章节、最常见的问题类型和每周学习频率,然后生成一份简单分析报告。

建议输出包括:问题数量趋势、问题分类统计、高频关键词、最容易卡住的阶段,以及下一步学习建议。这会让项目开始从“记录工具”变成“辅助学习工具”。

常见卡点

常见问题包括 DataFrame 行列搞反、索引和列名混淆、链式赋值警告、日期字段没转换、图表无法显示中文、把相关性误解成因果关系。遇到分析结论时,要问自己:这个结论来自哪一列、哪一步处理可能影响它、有没有反例。

轻松版 / 标准版 / 挑战版任务

难度你要完成什么适合谁
轻松版完成缺失、重复、异常值检查第一遍学习、时间少或刚入门的学习者
标准版输出清洗前后对比和两张图表希望把本阶段放进作品集的学习者
挑战版解释一个错误结论是如何由脏数据造成的已有基础、想做更强项目证据的学习者

本阶段徽章与 Boss 战

类型内容
Boss 战脏数据侦探
可解锁徽章脏数据侦探、图表讲述者
最小通关口号先跑通、再解释、再记录失败
证据保存建议把截图、日志、失败样本或评估表保存到 reports/evals/logs/

完成轻松版就可以继续前进;完成标准版才建议写进作品集;挑战版只在你有余力时再做。

阶段作品集交付物

如果你想把本阶段成果沉淀到作品集,建议至少保留下面这些文件或等价材料。

交付物说明
analysis.ipynb完整 EDA Notebook,包含读取、清洗、统计、图表和结论
data_dictionary.md数据字段含义、类型、单位和缺失情况说明
cleaning_log.md缺失值、异常值、重复值和类型转换的处理记录
figures/关键图表导出文件,每张图对应一个分析问题
report.md分析目标、主要发现、局限性和下一步建模建议

这些材料会让数据分析阶段从“会用 Pandas”升级成“能用数据支持判断,并能把过程讲清楚”。

阶段通关问题

学完后,你应该能回答这些问题:NumPy 的 shape 为什么重要,Pandas 的 Series 和 DataFrame 有什么区别,缺失值处理会如何影响结论,一张图应该服务于什么问题,为什么数据分析报告要写局限性。

完成状态 Checklist

  • 我能读取 CSV、Excel 或 JSON 数据,并查看行列、类型和缺失值。
  • 我能完成一次基础数据清洗,并说明每一步处理原因。
  • 我能用统计表和图表回答一个明确问题。
  • 我已经完成一份小型 EDA 报告或学习记录分析。
  • 我能说明数据分析结论的限制,而不是只给出图表。