阶段学习任务单:自然语言处理
这个阶段的目标是让你理解文本任务如何从清洗、表示、建模、评估走到真实应用。即使大模型已经很强,传统 NLP、文本标注、任务定义和错误分析仍然是做可靠文本系统的基础。
本阶段必须完成的任务
| 任务 | 产出物 | 通过标准 |
|---|---|---|
| 理解文本预处理 | 一个文本清洗脚本 | 能处理分词、大小写、停用词、标点和特殊字符 |
| 完成文本表示实验 | 一份表示方法对比记录 | 能比较 BoW、TF-IDF、Embedding 和预训练模型表示 |
| 完成文本分类任务 | 一个分类 Demo | 能说明标签、数据划分、指标和错误样本 |
| 完成抽取或摘要练习 | 一个信息抽取/摘要样例 | 能说明字段边界、事实一致性和评估方式 |
| 完成阶段项目 | 一个文本理解小项目 | 有输入输出、指标、失败样本和 README |