7.4.1 预训练路线图:数据、目标、工程
预训练让模型先学到广泛语言模式。工程视角是:清理数据,选择目标,大规模训练,追踪风险。
先看预训练三角


| 部分 | 先问的问题 |
|---|---|
| 数据 | 哪些文本进入训练,哪些必须过滤? |
| 目标 | 哪个预测任务产生学习信号? |
| 工程 | 规模、checkpoint、日志和失败如何处理? |
| 评估 | 模型能做什么,哪里会失败? |
创建 next-token 样本
tokens = ["AI", "learns", "from", "text"]
pairs = list(zip(tokens[:-1], tokens[1:]))
for source, target in pairs:
print(f"{source} -> {target}")
预期输出:
AI -> learns
learns -> from
from -> text
这个小例子就是 next-token prediction 的形状。真实预训练会把它扩展到海量文本,并配合严格的数据治理。
按这个顺序学
| 顺序 | 阅读 | 先抓住什么 |
|---|---|---|
| 1 | 7.4.2 预训练数据 | 来源、过滤、去重、污染 |
| 2 | 7.4.3 预训练方法 | next-token prediction、loss、scaling |
| 3 | 7.4.4 预训练工程 | 分布式训练、checkpoint、监控 |
通过标准
能解释数据、目标和工程分别如何影响最终模型,并知道数据污染为什么会让评估误导人,就算通过。