跳到主要内容

学习指南:自然语言处理怎么学最不容易学乱

这页适合什么时候看

如果你来到第七阶段后开始觉得:

  • token、embedding、语言模型容易混
  • 分类、抽取、生成三条线容易乱
  • 一看到 BERT / GPT 就想跳过前面基础

那这页就是给你的。

这一阶段最重要的总原则

第七阶段最容易学乱的原因,不是模型太多,而是太容易跳过“文本表示”直接追预训练。

更适合新人的主线其实是:

先把文本怎么变成表示看顺,再把任务按分类 / 抽取 / 生成三条线拆开,最后再进入预训练。

最推荐的阅读顺序

  1. 先学文本基础
    分词、预处理、文本表示。

  2. 再学词嵌入和语言模型
    建立表示学习直觉。

  3. 先做文本分类
    最容易建立第一个 NLP 项目闭环。

  4. 再学序列标注
    理解词级任务。

  5. 再学 Seq2Seq 与注意力
    理解生成主线。

  6. 最后学预训练模型和项目

每篇大概该花多久

页类型建议时间目标
表示学习页2~4 小时看懂词和句子表示
任务页2~4 小时看懂输入输出粒度
预训练页2~5 小时看懂为什么范式变了
项目页4~8 小时真正把任务做成闭环

这一阶段最容易卡住的地方

1. 把表示和任务混在一起

先分清:

  • 表示层
  • 任务层
  • 预训练范式层

2. 一上来就跳 BERT / GPT

先把词向量、上下文化表示、Seq2Seq 这些过渡看顺,会更稳。

3. 不知道任务粒度差在哪

先问:

  • 整句一个标签?
  • 每个 token 一个标签?
  • 还是输出一整段序列?

第一次做 NLP 项目,最稳的默认顺序

  1. 先选清任务类型
  2. 先做 baseline
  3. 先看错例
  4. 再决定是换表示、换任务形式,还是上预训练

如果你准备进入第八 A 阶段,最值得先带走什么

进入大模型原理前,最值得先带走的是:

  1. 文本表示直觉
  2. 分类 / 抽取 / 生成三条任务主线
  3. 预训练为什么会改变 NLP

一句话版的过关标准

  • 能说清文本为什么必须先表示成数字
  • 能分清分类、抽取、生成
  • 能理解 BERT / GPT 为什么不是突然出现的

如果这三件事已经开始成立,第七阶段就已经学得很值了。