学习指南：自然语言处理怎么学最不容易学乱

如果你来到 10 自然语言处理（方向选修） 后觉得 token、embedding、分类、抽取、生成、BERT、GPT 全都混在一起，先回到 NLP 的主线：文本如何变成模型能处理的表示。

本阶段总原则

NLP 第一遍要抓住一条演进线：文本先被清洗和切分，再变成向量表示，然后进入分类、抽取、生成等任务，最后走向预训练语言模型。

第一个项目建议做文本分类，例如情感分析、垃圾邮件识别或评论分类。

第二个项目建议做信息抽取，例如命名实体识别、简历信息抽取或合同字段抽取。

第三个项目可以做问答系统或文本摘要，把传统 NLP 思维和预训练模型结合起来。

最常见的卡点是直接跳到大模型，忽略文本表示。即使使用 LLM，你仍然需要理解 token、上下文、文本清洗和评估。

第二个卡点是任务边界不清。分类输出类别，序列标注输出每个 token 的标签，生成任务输出新文本。

第三个卡点是只看模型不看数据。文本任务非常依赖标注质量、类别定义和评估集设计。

学完本阶段后，你应该能解释文本从原始字符串到模型输入的大致过程，并能完成一个文本分类或信息抽取项目。

如果你能说清楚 BERT 和 GPT 在训练目标、适用任务和使用方式上的差异，就能更顺畅地进入大模型原理。