阶段学习任务单：计算机视觉

这个阶段的目标是让你理解 AI 如何处理图像和视频。你需要掌握基础图像处理、视觉任务类型、数据标注、模型评估和错误样本分析，而不是只调用一个视觉模型得到结果。

本阶段必须完成的任务

本阶段可以为 AI 学习助手补充视觉能力，例如识别课件截图、OCR 提取图片文字，或分析学习资料中的图表。它也可以作为后续多模态阶段的输入能力。

建议最小功能包括：上传或读取一张课件截图，提取其中的文字或关键区域，输出结构化摘要，并记录失败样本。

常见问题包括图片路径错误、颜色通道 BGR/RGB 混淆、训练样本太少、类别不平衡、标注框不准、只看 Demo 图不看真实输入、把视觉模型结果当成绝对事实。排查时先看原图、预处理结果、标注和错误样本。

如果你想把本阶段成果沉淀到作品集，建议至少保留下面这些文件或等价材料。

这些材料会让视觉项目从“能识别一张图”升级成“知道数据、指标、失败和应用边界在哪里”。

学完后，你应该能回答这些问题：图像分类、目标检测、分割和 OCR 的输出有什么不同，为什么标注质量会影响模型效果，mAP 和 IoU 解决什么问题，为什么视觉模型在真实图片上容易失败。