10 计算机视觉(方向选修)

这一阶段解决的是“怎样让模型理解图像”。它是方向选修:如果你的主线目标是 LLM 应用和 Agent,可以后补;如果你想做视觉、多模态、工业检测、OCR 或医学影像,就建议系统学习。
故事化导入:教模型看见世界
人类看到一张图片,会自然识别物体、位置、边界和动作;模型看到的却只是像素矩阵。计算机视觉要做的事,就是让模型从像素中逐步学会“这是什么”“在哪里”“边界到哪里”。从分类到检测再到分割,每一步都让模型看得更细。
学习闯关地图
互动练习:同一张图问三个层级的问题
拿一张包含多个物体的图片,先问“这张图主要是什么类别”,再问“每个物体在哪里”,最后问“每个物体的边界在哪里”。这三个问题分别对应分类、检测和分割。你会发现视觉任务的难度不是突然增加,而是输出越来越精细。
项目彩蛋
本阶段的彩蛋作品可以是一个“视觉检测小工具”:上传图片后,系统完成预处理、识别目标、标出位置,并输出置信度和结果说明。它可以继续升级成 OCR 文档助手、工业缺陷检测或多模态问答项目。
阶段定位
| 信息 | 说明 |
|---|---|
| 适合对象 | 已完成深度学习基础,希望进入视觉或多模态方向的学习者 |
| 预估学时 | 120~180 小时 |
| 前置要求 | 完成深度学习与 Transformer 基础 |
| 阶段产出 | 图像分类、目标检测、图像分割或视觉综合项目 |
新手最小通关路线
新手先理解图像像素、颜色空间、OpenCV 预处理、分类、检测和分割的区别,不需要一开始追最新模型。只要能训练或调用一个图像分类模型,并说清楚检测和分割比分类多输出了什么,就算完成最小通关。
进阶深入路线
有经验的学习者可以深入数据标注、增强策略、YOLO、分割模型、mAP、部署场景和失败案例分析。进一步尝试把视觉模型接入一个小应用,输出带标注框、置信度和错误样例说明的结果。
视觉任务如何由浅入深
计算机视觉不是一个单一任务。它通常按输出粒度逐步变复杂:先判断整张图是什么,再找出目标在哪里,再判断每个像素属于什么区域。