传统文本分类
本节定位
做文本分类时,很多人会本能地想:
- 直接上大模型
但在大量真实业务里,传统方法仍然有非常高的实用价值,尤其是:
- 数据量不大
- 标签较清楚
- 需要快速、便宜、可解释基线
所以这节课的重点不是怀旧,而是建立一个很实用的判断:
什么时候传统文本分类已经够好,甚至是更好的第一步。
学习目标
- 理解词袋与 TF-IDF 的基本直觉
- 理解线性分类器在文本任务里为什么经常表现不错
- 通过可运行示例掌握传统文本分类最小流程
- 建立“传统方法是强基线而不是过时方案”的判断
先建立一张地图
传统文本分类更适合按“文本怎么变成特征,再怎么进入分类器”来理解:
所以这节真正想解决的是:
- 为什么这条路线在很多真实任务里已经够强
- 为什么它很适合作为第一版 baseline
一、传统文本分类在做什么?
1.1 先把文本变成特征,再把特征喂给分类器
典型流程是:
- 文本预处理
- 词袋 / TF-IDF 向量化
- 线性模型或朴素贝叶斯分类
也就是说,它不是端到端深度模型,
而是显式的“特征工程 + 分类器”。
1.2 为什么这条路能工作?
因为在很多文本任务里,
单词和短语本身就已经有很强区分度。
例如:
- “退款”
- “证书”
- “密码”
这些词本来就能强烈暗示类别。
1.3 一个类比
传统文本分类很像人工整理线索卡片。
你先把关键词线索提出来,再让分类器根据这些线索判断。
1.4 一个更适合新人的总类比
你也可以把它理解成:
- 先给每条文本做一张“关键词清单”,再让分类器按清单打分
这就是为什么它在这些任务里会特别顺手:
- 类别边界清楚
- 关键词本身就很有区分度