跳到主要内容

学前导读:预训练技术这一章到底在学什么

本章定位

这一章解决的是一个核心问题:模型的通用能力到底从哪里来。前面你已经学过 Transformer 结构、Prompt 和大模型基础,但如果只知道“模型很大、数据很多”,仍然很难理解为什么同一个模型能写代码、总结文档、回答问题、做推理和适配不同任务。

预训练技术就是回答这个问题的关键。它把海量数据、训练目标、模型结构、算力工程和数据治理连接在一起,让模型先学到通用表示,再通过 Prompt、微调、RAG 或 Agent 被接入具体应用。

这一章在整门课里的位置

这一章承接前面的 Transformer 深入,也为后面的 Prompt、微调、对齐和 LLM 应用做铺垫。你不需要真的从零训练一个大模型,但要能解释:数据如何影响能力边界,目标函数如何塑造模型行为,训练工程为什么决定成本、稳定性和可复现性。

本章学习主线

学习时不要把这些内容当成论文名词清单,而要一直追问:这个设计解决了什么失败?例如,去重是为了减少记忆和数据泄漏,质量过滤是为了提升有效学习信号,混合精度是为了降低训练成本,检查点是为了防止长时间训练失败后无法恢复。

本章各节怎么读

小节重点问题学完后应该能说清楚什么
预训练数据模型到底从什么数据里学习数据来源、清洗、去重、版权、安全和偏差怎样影响模型能力
预训练方法为什么模型靠预测任务能学到通用能力自回归、掩码语言模型、多任务目标分别适合什么模型形态
训练工程为什么训练大模型是一项工程系统分布式训练、显存、吞吐、检查点、日志和失败恢复的重要性

如果你是新人,第一遍只要抓住“数据决定上限,目标决定学习方式,工程决定能不能训完”。如果你已经有深度学习经验,可以重点看训练稳定性、数据治理和后续微调/RAG/对齐之间的边界。

常见误区

第一个误区是以为预训练只是“把很多网页喂给模型”。真实预训练更像一条数据和工程流水线:采集、过滤、去重、分词、配比、训练、监控、评估,每一步都会影响最终模型。

第二个误区是以为模型越大一定越好。模型大小只是因素之一,数据质量、训练目标、推理成本、部署环境和任务类型同样重要。一个课程问答助手未必需要最大模型,可能更需要好的 RAG、引用和评估集。

第三个误区是把预训练、微调、RAG 混在一起。预训练负责获得通用能力,微调用来改变或强化行为模式,RAG 用来接入外部知识。三者不是互相替代,而是解决不同层次的问题。

本章小项目出口

本章不要求你训练大模型。建议做一个“预训练决策说明卡”:选择一个模型应用场景,例如课程问答助手、代码助手或学习计划助手,写清楚它需要什么数据、哪些数据不能用、是否需要微调、是否更适合 RAG、上线后要观察哪些质量指标。

基础版只需要写一页 Markdown;标准版可以加一个数据清洗示例,比如去掉重复文本、过滤过短样本、统计 token 长度;挑战版可以比较两个小模型或两个 Prompt/RAG 配置,说明“预训练底座不同会带来哪些效果差异”。

过关标准

学完这一章后,你应该能用自己的话解释:为什么预训练能产生通用能力,为什么数据质量比单纯数据规模更重要,为什么训练工程决定模型能否稳定产出,以及为什么很多应用问题不应该靠重新预训练解决。