跳到主要内容

第二阶段:数据分析与可视化

信息说明
预估学时80~120h
前置要求完成第一阶段

掌握数据处理、分析与可视化的核心工具与方法。

为什么这个阶段很重要?

AI 的一切都始于数据。无论你未来做机器学习、深度学习还是大模型应用,第一步永远是:获取数据 → 理解数据 → 清洗数据 → 分析数据。

本阶段你将掌握 Python 数据科学的"三件套":NumPy(数值计算)、Pandas(数据处理)、Matplotlib/Seaborn(可视化),这三个库在 AI 领域无处不在。

本阶段内容

第 1 章:从 Python 到数据分析的过渡(预热)

主题你将学到
1.1纯 Python 处理数据用纯 Python 分析 Titanic 数据集,体会为什么需要专业工具

第 2 章:NumPy 科学计算

主题你将学到
2.1NumPy 概述NumPy 是什么、为什么快、ndarray vs list
2.2数组基础数组创建、属性、数据类型
2.3数组索引与切片基本索引、布尔索引、花式索引
2.4数组运算向量化运算、广播机制、聚合函数
2.5数组变形reshape、拼接、分割、转置
2.6线性代数操作矩阵乘法、逆矩阵、解方程
2.7随机数与统计随机数生成、概率分布、统计运算

第 3 章:Pandas 数据处理

主题你将学到
3.1核心数据结构Series 与 DataFrame 的创建和使用
3.2数据读写CSV、Excel、JSON 等格式的读取与导出
3.3数据选择与过滤loc、iloc、条件过滤、query
3.4数据清洗缺失值、重复值、异常值处理
3.5数据转换apply、map、排序、替换
3.6分组与聚合groupby、agg、pivot_table
3.7数据合并merge、join、concat
3.8时间序列日期处理、重采样、滚动窗口

第 4 章:数据可视化

主题你将学到
4.1Matplotlib 基础Figure/Axes 模型、常见图表、样式定制
4.2Seaborn 统计可视化分布图、关系图、分类图、热力图
4.3交互式可视化【选修】Plotly 基础、交互式图表
4.4可视化最佳实践图表选择、配色原则、避免误导

第 5 章:数据库基础【选修】

主题你将学到
5.1关系型数据库表、行、列、主键、外键
5.2SQL 基础SELECT、WHERE、JOIN、GROUP BY
5.3Python 数据库操作sqlite3、SQLAlchemy、Pandas + SQL
5.4数据库设计范式、索引、实践

第 6 章:实战项目

项目主题涉及知识点
项目 1探索性数据分析(EDA)数据清洗、统计分析、可视化、撰写报告
项目 2多数据源整合分析多格式数据读取、数据整合、透视分析、仪表盘

学习建议

  • 先做预热:第 1 章的预热练习一定要做,它会让你后续学习事半功倍
  • 多用 Jupyter:数据分析非常适合在 Jupyter Notebook 中进行,边写边看结果
  • 跟着敲代码:每个示例都亲手运行一遍,修改参数看看效果有什么变化
  • 用真实数据:学完基础后,找一个你感兴趣的数据集(Kaggle 上有很多)来练手