阶段学习任务单:计算机视觉
这个阶段的目标是让你理解 AI 如何处理图像和视频。你需要掌握基础图像处理、视觉任务类型、数据标注、模型评估和错误样本分析,而不是只调用一个视觉模型得到结果。
本阶段必须完成的任务
| 任务 | 产出物 | 通过标准 |
|---|---|---|
| 理解视觉任务类型 | 一份任务对比表 | 能区分分类、检测、分割、OCR 和视觉问答 |
| 跑通图像处理 | 一个 OpenCV 练习脚本 | 能读取、裁剪 、缩放、灰度、边缘检测或增强图像 |
| 完成图像分类实验 | 一个分类 Demo | 能说明数据划分、训练/推理流程和指标 |
| 分析错误样本 | 一份误判样本记录 | 能从清晰度、标注、类别混淆和分布差异分析原因 |
| 完成阶段项目 | 一个视觉应用小项目 | 有输入输出、运行方式、指标和限制说明 |
推荐学习顺序
先理解图片在计算机里的表示,再学习 OpenCV 基础处理,然后学习分类、检测、分割、OCR 等任务。不要一开始就追最新模型,先看清每个视觉任务的输入、输出和评估指标。
视觉项目很依赖数据质量。训练前要看样本是否清晰、类别是否平衡、标注是否一致;评估后要看错误样本,而不是只看一个总体分数。
和 AI 学习助手项目的关系
本阶段可以为 AI 学习助手补充视觉能力,例如识别课件截图、OCR 提取图片文字,或分析学习资料中的图表。它也可以作为后续多模态阶段的输入能力。
建议最小功能包括:上传或读取一张课件截图,提取其中的文字或关键区域,输出结构化摘要,并记录失败样本。