3.0 学习指南与任务单:数据分析与可视化

主要学习路线已经放在 第 3 章入口。本页只作为练习时快速查看的清单。
一句话模型
读取 -> 检查 -> 清洗 -> 统计 -> 可视化 -> 解释
如果一张图不能用一句话解释,就回到数据问题本身。
练习清单
| 检查项 | 证据 |
|---|---|
| 能检查行、列、类型和缺失值 | df.info() 和缺失值记录 |
| 能处理重复、缺失和明显异常值 | 清洗日志 |
能用 groupby 回答一个问题 | 汇总表 |
| 能为具体问题选择图表 | 3 个图表文件 |
| 能写出结论和局限 | report.md |
| 能完成可复现实操 | ch03_output/ |
证据标准
| 产物 | 应该回答什么 |
|---|---|
| 数据字典 | 每一列是什么意思,单位是什么,数据从哪里来? |
| 清洗日志 | 哪些行或值被改变,为什么这个规则可以接受? |
| 汇总表 | 哪个数值模式支撑了答案? |
| 图表 | 这张图回答了哪一个具体问题? |
| 局限记录 | 缺失数据、抽样、时间或泄漏还可能造成什么问题? |
可以继续的信号
当一个 CSV 能从原始数据走到清洗数据、汇总表、图表和简短文字结论时,就可以进入第 4 章。