文档处理与向量化
学习目标
完成本节后,你将能够:
- 理解为什么 RAG 效果很大程度取决于前处理
- 掌握文档清洗、切块、重叠和元数据的直觉
- 写出一个简单可运行的切块与检索示例
- 理解“向量化”到底在做什么
一、为什么 RAG 不是“文档直接塞进去”?
因为真实文档往往很长、很乱、很杂。
例如一份 PDF 可能包含:
- 页眉页脚
- 目录
- 空行
- 标题层级
- 表格
- 重复文本
如果你把它原样塞给模型,常见问题包括:
- 上下文太长,塞不下
- 重点埋在长文里,不容易被检索到
- 噪声太多,影响检索质量
所以文档处理 其实是在做一件事:
把资料整理成模型更容易找到、也更容易利用的知识块。
二、文档处理常见的 4 步
1. 清洗
去掉无关噪声,比如:
- 多余空格
- 页码
- 重复标题
2. 切块(Chunking)
把长文切成适合检索的小片段。
3. 加元数据
给每块附加信息,如:
- 来源文件
- 标题
- 页码
- 标签
4. 向量化
把文本块变成可做相似度检索的向量。