学前导读：预训练技术这一章到底在学什么

本章定位

这一章解决的是一个核心问题：模型的通用能力到底从哪里来。前面你已经学过 Transformer 结构、Prompt 和大模型基础，但如果只知道“模型很大、数据很多”，仍然很难理解为什么同一个模型能写代码、总结文档、回答问题、做推理和适配不同任务。

预训练技术就是回答这个问题的关键。它把海量数据、训练目标、模型结构、算力工程和数据治理连接在一起，让模型先学到通用表示，再通过 Prompt、微调、RAG 或 Agent 被接入具体应用。

这一章承接前面的 Transformer 深入，也为后面的 Prompt、微调、对齐和 LLM 应用做铺垫。你不需要真的从零训练一个大模型，但要能解释：数据如何影响能力边界，目标函数如何塑造模型行为，训练工程为什么决定成本、稳定性和可复现性。

学习时不要把这些内容当成论文名词清单，而要一直追问：这个设计解决了什么失败？例如，去重是为了减少记忆和数据泄漏，质量过滤是为了提升有效学习信号，混合精度是为了降低训练成本，检查点是为了防止长时间训练失败后无法恢复。

如果你是新人，第一遍只要抓住“数据决定上限，目标决定学习方式，工程决定能不能训完”。如果你已经有深度学习经验，可以重点看训练稳定性、数据治理和后续微调/RAG/对齐之间的边界。

第一个误区是以为预训练只是“把很多网页喂给模型”。真实预训练更像一条数据和工程流水线：采集、过滤、去重、分词、配比、训练、监控、评估，每一步都会影响最终模型。

第二个误区是以为模型越大一定越好。模型大小只是因素之一，数据质量、训练目标、推理成本、部署环境和任务类型同样重要。一个课程问答助手未必需要最大模型，可能更需要好的 RAG、引用和评估集。

第三个误区是把预训练、微调、RAG 混在一起。预训练负责获得通用能力，微调用来改变或强化行为模式，RAG 用来接入外部知识。三者不是互相替代，而是解决不同层次的问题。

本章不要求你训练大模型。建议做一个“预训练决策说明卡”：选择一个模型应用场景，例如课程问答助手、代码助手或学习计划助手，写清楚它需要什么数据、哪些数据不能用、是否需要微调、是否更适合 RAG、上线后要观察哪些质量指标。

基础版只需要写一页 Markdown；标准版可以加一个数据清洗示例，比如去掉重复文本、过滤过短样本、统计 token 长度；挑战版可以比较两个小模型或两个 Prompt/RAG 配置，说明“预训练底座不同会带来哪些效果差异”。

学完这一章后，你应该能用自己的话解释：为什么预训练能产生通用能力，为什么数据质量比单纯数据规模更重要，为什么训练工程决定模型能否稳定产出，以及为什么很多应用问题不应该靠重新预训练解决。