序列标注任务

本节定位
文本分类的输出通常是:
- 整句一个标签
而序列标注的输出更细:
- 每个 token 一个标签
这一步非常关键,因为它把 NLP 从“整句判断”推进到了:
在句子内部定位具体信息。
也正是从这里开始,我们才更自然地走向命名实体识别、信息抽取、槽位填充这类任务。
学习目标
- 理解序列标注和整句分类的根本区别
- 理解 BIO / BIOES 这类标签体系为什么常用
- 通过可运行示例理解 token 级标注过程
- 建立序列标注和信息抽取任务之间的联系
一、序列标注到底在解决什么问题?
1.1 它不只是判断“这句话是什么”,而是判断“这句话里哪一段是什么”
例如句子:
- “张三在北京大学工作”
如果做文本分类,也许只会输出:
- 这是一个关于人物与地点的句子
但序列标注更关心:
张三是人名北京大学是机构名