阶段学习任务单:AIGC 与多模态
这个阶段的目标是让你把文本、图像、语音、视频和文档等多种输入输出组织成一个可交付的 AI 应用。重点不是单次生成效果多惊艳,而是输入质量、版本记录、人工审核、版权边界和最终交付流程是否清楚。
本阶段必须完成的任务
| 任务 | 产出物 | 通过标准 |
|---|---|---|
| 理解多模态输入输出 | 一张多模态链路图 | 能说明文本、图片、音频、视频和文档如何进入系统 |
| 跑通图像理解或生成 | 一 个最小 Demo | 能记录输入、Prompt、输出和人工筛选结果 |
| 完成文档或截图理解 | 一个多模态解析样例 | 能保留来源页码、区域或截图证据 |
| 加入审核与交付流程 | 一份审核清单 | 能检查版权、肖像、敏感内容和事实风险 |
| 完成阶段项目 | 一个多模态作品或创意工作台 | 有输入输出、版本记录、审核、导出和 README |
推荐学习顺序
先理解多模态系统的输入输出边界,再学习图片理解、图片生成、视频/语音生成和多模态应用。不要把生成结果只当成审美问题,要记录需求、素材、Prompt、版本、人工筛选和交付格式。
多模态项目要特别注意来源和权限。外部图片、人物肖像、音乐、视频片段、PDF 内容都可能涉及版权、隐私或安全边界,作品集里要说明使用范围和审核方式。
和 AI 学习助手项目的关系
本阶段可以对应 AI 学习助手 v1.0:理解课件截图、PDF、语音笔记和图文资料,并生成复习卡片、图文总结或演示材料。它也可以作为毕业项目的展示层。
建议最小功能包括:输入一张课程截图或 PDF 页面,提取关键信息,生成结构化摘要,并保留来源引用和人工确认记录。
常见卡点
常见问题包括图片太糊导致理解错误,PDF 表格解析混乱,生成图片不符合用途,视频分镜不连贯,素材来源不清,生成结果无法导出或复用。排查时先看原始输入质量、Prompt 版本、生成参数、人工筛选和审核记录。
轻松版 / 标准版 / 挑战版任务
| 难度 | 你要完成什么 | 适合谁 |
|---|---|---|
| 轻松版 | 完成一个素材到输出案例 | 第一遍学习、时间少或刚入门的学习者 |
| 标准版 | 记录素材来源、生成过程和人工审核 | 希望把本阶段放进作品集的学习者 |
| 挑战版 | 比较成功、失败、边界样例并写导出限制 | 已有基础、想做更强项目证据的学习者 |
本阶段徽章与 Boss 战
| 类型 | 内容 |
|---|---|
| Boss 战 | 多模态混沌体 |
| 可解锁徽章 | 多模态审核员、素材管理员 |
| 最小通关口号 | 先跑通、再解释、再记录失败 |
| 证据保存建议 | 把截图、日志、失败样本或评估表保存到 reports/、evals/ 或 logs/ |
完成轻松版就可以继续前进;完成标准版才建议写进作品集;挑战版只在你有余力时再做。
阶段作品集交付物
如果你想把本阶段成果沉淀到作品集,建议至少保留下面这些文件或等价材料。
| 交付物 | 说明 |
|---|---|
multimodal_pipeline.md | 输入、解析、生成、审核、导出的系统链路 |
prompts/ | 多模态 Prompt、参考图、负面提示和版本记录 |
outputs/ | 生成结果、候选版本、人工筛选理由和最终交付文件 |
safety_review.md | 版权、肖像、敏感内容、事实性和使用边界检查 |
README.md | 项目目标、运行方式、素材来源、示例输出和限制说明 |
这些材料会让多模态项目从“生成一个好看的结果”升级成“能解释需求、来源、版本、审核和交付边界的完整作品”。
阶段通关问题
学完后,你应该能回答这些问题:多模态输入为什么需要保留来源,图片生成为什么要记录 Prompt 和版本,PDF/截图理解为什么要检查证据,内容生成为什么需要人工审核,什么时候多模态能力适合接入 RAG 或 Agent。
完成状态 Checklist
- 我能解释一个多模态应用的输入、处理、输出和审核链路。
- 我能跑通图像理解、图像生成或文档理解 Demo。
- 我能记录 Prompt、素材、候选输出和筛选理由。
- 我完成了版权、肖像、敏感内容和事实风险检查。
- 我已经把多模态能力接入一个可展示项目或毕业作品。