学前导读:微调这一章到底在学什么
这一章解决的是:当 Prompt 已经不足以稳定改变模型行为时,怎样通过训练让模型更适合某类任务、格式或领域。
微调不是“让模型什么都变强”的魔法按钮。它更适合解决风格、格式、领域表达、固定任务模式和特定行为习惯的问题。很多知识更新类问题,其实更适合 RAG;很多一次性任务,其实更适合 Prompt;只有当你有稳定任务、足够样本和明确评估标准时,微调才值得认真考虑。
这一章在整个课程里的位置
你已经学过大模型概览、预训练和 Prompt 工程。预训练解释模型通用能力从哪里来,Prompt 解释如何在不改参数的情况下调用能力。微调则进入另一条路线:在已有模型基础上,用任务数据继续训练,让模型行为更贴近你的目标。
这一章真正要解决的问题
这一章要回答五个问题:什么情况下应该微调,什么情况下不该微调;微调数据应该怎样收集、清洗、标注和切分;LoRA、QLoRA 和其他 PEFT 方法为什么能降低训练成本;微调训练大致包含哪些步骤;怎样通过评估判断微调是真的有效,而不是只在训练样例上看起来更好。
新人最容易误解的是:模型答错领域知识,就立刻想微调。事实上,如果问题是“资料太新、知识太私有、需要可引用来源”,RAG 往往更合适;如果问题是“输出格式、语气、任务套路长期不稳定”,微调才更可能发挥价值。
新人推荐学习顺序
建议先看微调概述,建立“为什么微调”和“什么时候不微调”的边界。然后学 LoRA/QLoRA,因为它们是当前入门微调最常见、成本较低的路径。接着了解其他 PEFT 方法,知道全量微调之外还有多种参数高效方案。最后看微调实践和数据标注,把数据准备、训练配置、验证集、评估样例和上线风险串起来。