语言模型基础
本节定位
“语言模型”这个词后面会反复出现。
如果前面没有把最基本的直觉建立起来,后面学大模型时就很容易只剩流行词。
这节课的目标是先讲清一件事:
语言模型本质上是在预测:给定前面的文本,后面最可能出现什么。
它表面上像一个简单任务,但后面很多能力都从这里长出来。
学习目标
- 理解语言模型最基本的任务目标
- 理解 n-gram 语 言模型和现代神经语言模型之间的连续性
- 通过可运行示例建立“预测下一个 token”的直觉
- 理解为什么语言模型会成为后面大模型的共同基础
一、语言模型到底在学什么?
1.1 最基本的形式
一句话讲,就是:
- 给定前文,预测下一个 token
例如:
- “我 爱” -> 下一个词可能是
AI、你、Python
1.2 为什么这个任务看起来简单却很强?
因为要做好这件事,模型必须逐渐学会:
- 词法搭配
- 语法结构
- 常见语义关系
- 一些世界知识
也就是说,
“预测下一个 token”虽然目标简单,
但背后会逼着模型学很多语言规律。