阶段学习任务单：计算机视觉

这个阶段的目标是让你理解 AI 如何处理图像和视频。你需要掌握基础图像处理、视觉任务类型、数据标注、模型评估和错误样本分析，而不是只调用一个视觉模型得到结果。

本阶段必须完成的任务

本阶段可以为 AI 学习助手补充视觉能力，例如识别课件截图、OCR 提取图片文字，或分析学习资料中的图表。它也可以作为后续多模态阶段的输入能力。

建议最小功能包括：上传或读取一张课件截图，提取其中的文字或关键区域，输出结构化摘要，并记录失败样本。

常见问题包括图片路径错误、颜色通道 BGR/RGB 混淆、训练样本太少、类别不平衡、标注框不准、只看 Demo 图不看真实输入、把视觉模型结果当成绝对事实。排查时先看原图、预处理结果、标注和错误样本。

类型	内容
Boss 战	视觉线索猎人
可解锁徽章	图像观察员、视觉失败记录员
最小通关口号	先跑通、再解释、再记录失败
证据保存建议	把截图、日志、失败样本或评估表保存到 `reports/`、`evals/` 或 `logs/`

完成轻松版就可以继续前进；完成标准版才建议写进作品集；挑战版只在你有余力时再做。

如果你想把本阶段成果沉淀到作品集，建议至少保留下面这些文件或等价材料。

这些材料会让视觉项目从“能识别一张图”升级成“知道数据、指标、失败和应用边界在哪里”。

学完后，你应该能回答这些问题：图像分类、目标检测、分割和 OCR 的输出有什么不同，为什么标注质量会影响模型效果，mAP 和 IoU 解决什么问题，为什么视觉模型在真实图片上容易失败。