阶段学习任务单:AIGC 与多模态
这个阶段的目标是让你把文本、图像、语音、视频和文档等多种输入输出组织成一个可交付的 AI 应用。重点不是单次生成效果多惊艳,而是输入质量、版本记录、人工审核、版权边界和最终交付流程是否清楚。
本阶段必须完成的任务
| 任务 | 产出物 | 通过标准 |
|---|---|---|
| 理解多模态输入输出 | 一张多模态链路图 | 能说明文本、图片、音频、视频和文档如何进入系统 |
| 跑通图像理解或生成 | 一个最小 Demo | 能记录输入、Prompt、输出和人工筛选结果 |
| 完成文档或截图理解 | 一个多模态解析样例 | 能保留来源页码、区域或截图证据 |
| 加入审核与交付流程 | 一份审核清单 | 能检查版权、肖像、敏感内容和事实风险 |
| 完成阶段项目 | 一个多模态作品或创意工作台 | 有输入输出、版本记录、审核、导出和 README |
推荐学习顺序
先理解多模态系统的输入输出边界,再学习图片理解、图片生成、视频/语音生成和多模态应用。不要把生成结果只当成审美问题,要记录需求、素材、Prompt、版本、人工筛选和交付格式。
多模态项目要特别注意来源和权限。外部图片、人物肖像、音乐、视频片段、PDF 内容都可能涉及版权、隐私或安全边界,作品集里要说明使用范围和审核方式。
和 AI 学习助手项目的关系
本阶段可以对应 AI 学习助手 v1.0:理解课件截图、PDF、语音笔记和图文资料,并生成复习卡片、图文总结或演示材料。它也可以作为毕业项目的展示层。
建议最小功能包括:输入一张课程截图或 PDF 页面,提取关键信息,生成结构化摘要,并保留来源引用和人工确认记录。
常见卡点
常见问题包括图片太糊导致理解错误,PDF 表格解析混乱,生成图片不符合用途,视频分镜不连贯,素材来源不清,生成结果无法导出或复用。排查时先看原始输入质量、Prompt 版本、生成参数、人工筛选和审核记录。