跳到主要内容

阶段学习任务单:数据分析与可视化

这个阶段的目标是让你能把原始数据变成可理解的结论。后续机器学习、RAG 评估、Agent 日志分析都需要数据处理能力,因此这里要重点训练数据读取、清洗、统计、可视化和解释。

本阶段必须完成的任务

任务产出物通过标准
使用 NumPy 处理数组一个数组计算练习文件能解释 shape、广播、切片和矩阵运算
使用 Pandas 读取数据一个数据读取脚本或 Notebook能读取 CSV/Excel/JSON 并查看基本信息
完成数据清洗一份清洗前后对比记录能处理缺失值、重复值、异常值和类型转换
完成探索分析一份 EDA Notebook能用统计和图表说明主要发现
完成阶段项目一份数据分析报告有问题定义、图表、结论和局限性

推荐学习顺序

先学习 NumPy 的数组直觉,再进入 Pandas 的表格处理,最后学习可视化。不要一开始就追求复杂图表,先确保每张图都能回答一个明确问题。

数据分析的关键不是“画了多少图”,而是每一步都能解释为什么这么处理。比如为什么删除某些行,为什么填充缺失值,为什么选择柱状图而不是折线图。

和 AI 学习助手项目的关系

本阶段对应 AI 学习助手的 v0.3 学习记录分析版本。你可以读取前面记录的学习问题日志,统计用户最常问的章节、最常见的问题类型和每周学习频率,然后生成一份简单分析报告。

建议输出包括:问题数量趋势、问题分类统计、高频关键词、最容易卡住的阶段,以及下一步学习建议。这会让项目开始从“记录工具”变成“辅助学习工具”。

常见卡点

常见问题包括 DataFrame 行列搞反、索引和列名混淆、链式赋值警告、日期字段没转换、图表无法显示中文、把相关性误解成因果关系。遇到分析结论时,要问自己:这个结论来自哪一列、哪一步处理可能影响它、有没有反例。

阶段通关问题

学完后,你应该能回答这些问题:NumPy 的 shape 为什么重要,Pandas 的 Series 和 DataFrame 有什么区别,缺失值处理会如何影响结论,一张图应该服务于什么问题,为什么数据分析报告要写局限性。

完成状态 Checklist

  • 我能读取 CSV、Excel 或 JSON 数据,并查看行列、类型和缺失值。
  • 我能完成一次基础数据清洗,并说明每一步处理原因。
  • 我能用统计表和图表回答一个明确问题。
  • 我已经完成一份小型 EDA 报告或学习记录分析。
  • 我能说明数据分析结论的限制,而不是只给出图表。