BERT 系列

本节定位
BERT 是现代 NLP 进入“预训练大一统时代”的关键节点之一。
很多今天你看到的大模型概念,虽然形态已经演化,但不少理解基础都能从 BERT 身上找到。
学习目标
- 理解 BERT 为什么会成为 NLP 的里程碑
- 说清楚 BERT 和 GPT 这类自回归模型的核 心区别
- 掌握
[CLS]、[SEP]、[MASK]、双向上下文这些关键概念 - 看懂一个最小 BERT 输入示例
- 理解 BERT 常见的微调方式
历史背景:BERT 来自哪篇论文?
这一节最关键的历史节点是:
| 年份 | 论文 | 关键作者 | 它最重要地解决了什么 |
|---|---|---|---|
| 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Devlin 等 | 把双向 Transformer 预训练 + 微调做成现代 NLP 理解任务的主线 |
对新人来说,最值得先记的是:
- BERT 不是“又一个模型名”
- 它代表的是一种非常重要的范式变化:
先在海量文本上做通用预训练,再把同一个底座微调到不同任务上。
这也是为什么你今天学大模型时,很多“先预训练、再适配”的感觉,会在 BERT 这里看到非常清楚的雏形。