学前导读:对齐这一章到底在学什么
本章定位
预训练让模型获得通用语言能力,微调让模型适配任务,但这还不等于模型会按人类期望的方式回答。对齐这一章解决的是:怎样让模型更有帮助、更诚实、更安全,更符合使用者的意图和边界。
如果说预训练回答“模型知道什么”,微调回答“模型擅长什么任务”,对齐则回答“模型应该怎样表现”。这也是为什么 ChatGPT 之后,对齐从研究问题变成了大模型产品体验的核心问题。
本章在大模型路线中的位置
对齐不是一个孤立 技巧,而是连接模型能力、用户体验和安全治理的一组方法。后面做 RAG、Agent、工具调用时,你也会继续遇到对齐问题:模型什么时候应该拒绝,什么时候应该请求确认,什么时候不能编造来源或擅自执行动作。
本章学习主线
| 小节 | 重点问题 | 学完后应该能说清楚什么 |
|---|---|---|
| 对齐问题 | 为什么有能力的模型仍可能不好用 | 幻觉、迎合、越权、偏见和不稳定输出 |
| RLHF | 怎样用人类偏好训练模型行为 | SFT、奖励模型、强化学习的大致流程 |
| 替代方法 | 为什么出现 DPO、RLAIF 等方法 | 对齐方法的工程成本和替代路线 |
学习时不要陷入公式细节,而要抓住:人类偏好如何被收集,模型行为如何被比较,安全边界如何被注入,评估如何判断对齐是否真的改善。
对齐和应用开发的关系
很多应用问题不能只靠 Prompt 解决。例如客服机器人不能编造政策,医疗助手不能越权诊断,Agent 不能直接删除文件或付款。你可以通过系统提示、工具权限、RAG 引用和人工确认来约束行为,但底层模型是否倾向于遵守指令、承认不知道、避免危险输出,仍然和对齐有关。
本章小项 目出口
本章不要求你训练 RLHF。建议做一个“模型行为对比记录表”:设计 10 个容易出问题的问题,例如含糊需求、冲突指令、缺少来源、越权工具请求、安全边界请求,比较不同 Prompt 或不同模型的回答差异。基础版写成 Markdown 表格;标准版加入评分维度,如有用性、诚实性、边界感、引用可靠性;挑战版把它接入后面的 RAG 或 Agent 评估集。
常见误区
第一个误区是把对齐等同于“让模型更听话”。真正的对齐还包括拒绝不该做的事、承认不知道、避免误导和保护用户。第二个误区是认为对齐只发生在模型训练阶段;应用层的系统提示、工具权限、人工确认和日志审计也是广义对齐的一部分。第三个误区是只看单次回答,不做成体系的行为评估。
过关标准
学完这一章后,你应该能解释预训练、微调和对齐的区别,能说清 RLHF 的基本流程,知道为什么会出现 DPO 等替代方法,并能把“有用性、诚实性、安全边界”写进自己的 LLM 应用评估清单。