跳到主要内容

阶段学习任务单:计算机视觉

这个阶段的目标是让你理解 AI 如何处理图像和视频。你需要掌握基础图像处理、视觉任务类型、数据标注、模型评估和错误样本分析,而不是只调用一个视觉模型得到结果。

本阶段必须完成的任务

任务产出物通过标准
理解视觉任务类型一份任务对比表能区分分类、检测、分割、OCR 和视觉问答
跑通图像处理一个 OpenCV 练习脚本能读取、裁剪、缩放、灰度、边缘检测或增强图像
完成图像分类实验一个分类 Demo能说明数据划分、训练/推理流程和指标
分析错误样本一份误判样本记录能从清晰度、标注、类别混淆和分布差异分析原因
完成阶段项目一个视觉应用小项目有输入输出、运行方式、指标和限制说明

推荐学习顺序

先理解图片在计算机里的表示,再学习 OpenCV 基础处理,然后学习分类、检测、分割、OCR 等任务。不要一开始就追最新模型,先看清每个视觉任务的输入、输出和评估指标。

视觉项目很依赖数据质量。训练前要看样本是否清晰、类别是否平衡、标注是否一致;评估后要看错误样本,而不是只看一个总体分数。

和 AI 学习助手项目的关系

本阶段可以为 AI 学习助手补充视觉能力,例如识别课件截图、OCR 提取图片文字,或分析学习资料中的图表。它也可以作为后续多模态阶段的输入能力。

建议最小功能包括:上传或读取一张课件截图,提取其中的文字或关键区域,输出结构化摘要,并记录失败样本。

常见卡点

常见问题包括图片路径错误、颜色通道 BGR/RGB 混淆、训练样本太少、类别不平衡、标注框不准、只看 Demo 图不看真实输入、把视觉模型结果当成绝对事实。排查时先看原图、预处理结果、标注和错误样本。

阶段作品集交付物

如果你想把本阶段成果沉淀到作品集,建议至少保留下面这些文件或等价材料。

交付物说明
opencv_demo.py图像读取、预处理和基础可视化脚本
vision_dataset.md数据来源、类别、样本数量、标注方式和限制
eval_results.md分类准确率、检测 mAP、OCR 命中率或其他指标
failure_cases.md保存误判图片、可能原因和修复方向
README.md项目目标、运行命令、输入输出示例和场景边界

这些材料会让视觉项目从“能识别一张图”升级成“知道数据、指标、失败和应用边界在哪里”。

阶段通关问题

学完后,你应该能回答这些问题:图像分类、目标检测、分割和 OCR 的输出有什么不同,为什么标注质量会影响模型效果,mAP 和 IoU 解决什么问题,为什么视觉模型在真实图片上容易失败。

完成状态 Checklist

  • 我能解释常见视觉任务的输入、输出和指标。
  • 我能用 OpenCV 完成基础图像处理并保存结果。
  • 我能跑通一个图像分类、OCR 或检测 Demo。
  • 我记录了若干视觉错误样本,并分析可能原因。
  • 我能说明视觉能力如何接入多模态或 AI 学习助手项目。