Skip to main content

7.4.1 预训练路线图:数据、目标、工程

预训练让模型先学到广泛语言模式。工程视角是:清理数据,选择目标,大规模训练,追踪风险。

先看预训练三角

预训练章节关系图

预训练数据、目标与工程三角图

部分先问的问题
数据哪些文本进入训练,哪些必须过滤?
目标哪个预测任务产生学习信号?
工程规模、checkpoint、日志和失败如何处理?
评估模型能做什么,哪里会失败?

创建 next-token 样本

tokens = ["AI", "learns", "from", "text"]
pairs = list(zip(tokens[:-1], tokens[1:]))

for source, target in pairs:
print(f"{source} -> {target}")

预期输出:

AI -> learns
learns -> from
from -> text

这个小例子就是 next-token prediction 的形状。真实预训练会把它扩展到海量文本,并配合严格的数据治理。

按这个顺序学

顺序阅读先抓住什么
17.4.2 预训练数据来源、过滤、去重、污染
27.4.3 预训练方法next-token prediction、loss、scaling
37.4.4 预训练工程分布式训练、checkpoint、监控

通过标准

能解释数据、目标和工程分别如何影响最终模型,并知道数据污染为什么会让评估误导人,就算通过。