概率统计历史主线:Bayes、MLE、EM 与信息论

本节定位
这一节不是额外背历史,而是帮你把概率统计里最容易散掉的概念串起来。
你只需要先记住一句话:
Bayes 让判断可以随证据更新,MLE 让参数可以从数据里反推,EM 让有隐藏信息的问题也能迭代逼近,Shannon 让不确定性可以被度量。
一、为什么这些老概念今天还在 AI 里反复出现?
AI 模型看起来很现代,但底层一直在处理三个老问题:
| 老问题 | 对应思想 | 今天在哪里出现 |
|---|---|---|
| 新证据来了,判断要不要变? | 贝叶斯法则 | 分类概率、诊断系统、推荐系统、RAG 置信度 |
| 参数 没人告诉我,怎样从数据里猜? | 最大似然估计 MLE | 损失函数、逻辑回归、语言模型训练 |
| 有些变量看不见,还能不能估计参数? | EM 算法 | 聚类、主题模型、隐变量模型 |
| 预测到底有多不确定? | 信息论 | 熵、交叉熵、KL 散度、分类 loss |
所以这几个节点不是“数学课的古董”,而是很多现代算法仍在使用的底层语言。
二、Bayes:新证据来了,判断要更新
贝叶斯法则最适合用“侦探更新判断”来理解。
一开始你有一个初始判断,叫先验。后来看到新证据,就要把判断更新成后验。
先验判断 + 新证据 -> 更新后的判断
在 AI 项目里,这个直觉特别常见:
- 垃圾邮件检测:看到关键词后,邮件是垃圾邮件的概率变了吗?
- 医疗辅助判断:看到新的检测结果后,某种疾病的可能性变了吗?
- RAG 问答:检索证据足够强吗,还是应该回答“不确定”?
贝叶斯法则最重要的不是公式长什么样,而是这个习惯:
不要把第一眼判断当成终局,证据会改变概率。
三、MLE:从数据倒推最可能的参数
最大似然估计回答的是另一个问题:
如果数据已经发生了,哪一组参数最像能生成这些数据?
可以把 MLE 想成“反推案情”:
| 侦探故事 | 统计推断 |
|---|---|
| 现场留下了痕迹 | 我们观察到了数据 |
| 不知道真正发生了什么 | 不知道真实参数 |
| 找最能解释痕迹的故事 | 找最能解释数据的参数 |
一个最小例子是抛硬币。你抛了 10 次,8 次正面。
那正面概率 p 最可能是多少?
直觉上是 p = 0.8。
MLE 做的就是把这件事数学化:
import numpy as np
heads = 8
tails = 2
p_values = np.linspace(0.01, 0.99, 99)
likelihood = p_values**heads * (1 - p_values)**tails
p_mle = p_values[np.argmax(likelihood)]
print(round(p_mle, 2))
这个思想会在第 5 章逻辑回归、第 6 章交叉熵、第 7 章语言模型训练中反复出现。