机器翻译实战【选修】
本节定位
翻译是 Seq2Seq 最经典的任务。
它很适合用来练习一整条“输入文本 -> 输出文本”的项目闭环。
这节课不会硬上大模型训练,
而是先把最关键的项目结构做清楚:
- 数据对长什么样
- 最小翻译系统怎么跑
- 错误应该怎么看
学习目标
- 理解一个翻译项目的最小组成
- 学会从平行语料对组织数据
- 通过可运行示例建立最小翻译基线
- 学会做简单的翻译错误分析
先建立一张地图
机器翻译实战这节最适合新人的理解顺序不是“先换更强模型”,而是先看清项目闭环:
所以这节真正想解决的是:
- 翻译项目到底该怎么推进
- 为什么错误分析会比盲目上大模型更重要
一个更适合新人的总类比
你可以把机器翻译项目想成:
- 两个人在做双语对照笔记
一边写源语言,另一边写目标语言。
真正困难的地方不只是“查到对应词”,而是:
- 这句话该怎么重组
- 哪些词不能逐字翻
- 哪些表达必须看上下文
这样理解后,为什么翻译任务天然适合 Seq2Seq,会直观很多。