统计推断基础

统计推断 = 从数据反推规律
上一节学了各种概率分布。但真实世界中,我们不知道分布的参数(比如硬币正面概率是多少)。统计推断就是从观测到的数据,反推出分布的参数。
学习目标
- 理解最大似然估计(MLE)的直觉——为什么要"最大化概率"
- 理解最大后验估计(MAP)——加入先验知识
- 理解假设检验和 p 值(A/B 测试思维)
- 用 Python 实现 MLE
历史背景:MLE 和 EM 各自是怎么来的?
这一节里有两个特别值得知道的历史节点:
| 年份 | 节点 | 关键作者 | 它最重要地解决了什么 |
|---|---|---|---|
| 1922 | Maximum Likelihood Estimation | Ronald Fisher | 把“最能解释观测数据的参数”系统化,成为统计学习和损失函数主线的重要底座 |
| 1977 | EM Algorithm | Dempster, Laird, Rubin | 给“有隐变量、缺失信息”的参数估计问题提供了稳定迭代框架 |
这里有个很重要的区分:
- MLE 更像一个完整领域 / 原则
- EM 更像在某类困难场景下求 MLE 的经典方法
所以新人第一次学这一节,最值得先知道的是:
MLE 在回答“什么参数最像真的”,EM 在回答“当问题里有看不见的部分时,怎么一步步逼近这个参数”。
为什么这条线对很多初学者会特别有吸引力?
因为它第一次把“从数据反推规律”这件事讲得很像破案:
- 真相你没直接看到
- 参数也没人告诉你
- 但你手里已经有很多观测痕迹
于是问题就变成:
- 哪种解释最能把这些痕迹串起来?
MLE 会让人觉得“像侦探”,
EM 会让人觉得“像在黑箱里摸着石头过河”,
这也是为什么很多人第一次认真学统计推断时,会突然感觉:
原来模型训练不只是算公式,而是在做一种有步骤的反推。