学前导读：对齐这一章到底在学什么

本章定位

预训练让模型获得通用语言能力，微调让模型适配任务，但这还不等于模型会按人类期望的方式回答。对齐这一章解决的是：怎样让模型更有帮助、更诚实、更安全，更符合使用者的意图和边界。

如果说预训练回答“模型知道什么”，微调回答“模型擅长什么任务”，对齐则回答“模型应该怎样表现”。这也是为什么 ChatGPT 之后，对齐从研究问题变成了大模型产品体验的核心问题。

本章在大模型路线中的位置

对齐不是一个孤立技巧，而是连接模型能力、用户体验和安全治理的一组方法。后面做 RAG、Agent、工具调用时，你也会继续遇到对齐问题：模型什么时候应该拒绝，什么时候应该请求确认，什么时候不能编造来源或擅自执行动作。

本章学习主线

小节	重点问题	学完后应该能说清楚什么
对齐问题	为什么有能力的模型仍可能不好用	幻觉、迎合、越权、偏见和不稳定输出
RLHF	怎样用人类偏好训练模型行为	SFT、奖励模型、强化学习的大致流程
替代方法	为什么出现 DPO、RLAIF 等方法	对齐方法的工程成本和替代路线

学习时不要陷入公式细节，而要抓住：人类偏好如何被收集，模型行为如何被比较，安全边界如何被注入，评估如何判断对齐是否真的改善。

对齐和应用开发的关系

很多应用问题不能只靠 Prompt 解决。例如客服机器人不能编造政策，医疗助手不能越权诊断，Agent 不能直接删除文件或付款。你可以通过系统提示、工具权限、RAG 引用和人工确认来约束行为，但底层模型是否倾向于遵守指令、承认不知道、避免危险输出，仍然和对齐有关。

本章小项目出口

本章不要求你训练 RLHF。建议做一个“模型行为对比记录表”：设计 10 个容易出问题的问题，例如含糊需求、冲突指令、缺少来源、越权工具请求、安全边界请求，比较不同 Prompt 或不同模型的回答差异。基础版写成 Markdown 表格；标准版加入评分维度，如有用性、诚实性、边界感、引用可靠性；挑战版把它接入后面的 RAG 或 Agent 评估集。

常见误区

第一个误区是把对齐等同于“让模型更听话”。真正的对齐还包括拒绝不该做的事、承认不知道、避免误导和保护用户。第二个误区是认为对齐只发生在模型训练阶段；应用层的系统提示、工具权限、人工确认和日志审计也是广义对齐的一部分。第三个误区是只看单次回答，不做成体系的行为评估。

过关标准

学完这一章后，你应该能解释预训练、微调和对齐的区别，能说清 RLHF 的基本流程，知道为什么会出现 DPO 等替代方法，并能把“有用性、诚实性、安全边界”写进自己的 LLM 应用评估清单。

本章定位​

本章在大模型路线中的位置​

本章学习主线​

对齐和应用开发的关系​

本章小项目出口​

常见误区​

过关标准​