跳到主要内容

阶段学习任务单:AIGC 与多模态

这个阶段的目标是让你把文本、图像、语音、视频和文档等多种输入输出组织成一个可交付的 AI 应用。重点不是单次生成效果多惊艳,而是输入质量、版本记录、人工审核、版权边界和最终交付流程是否清楚。

本阶段必须完成的任务

任务产出物通过标准
理解多模态输入输出一张多模态链路图能说明文本、图片、音频、视频和文档如何进入系统
跑通图像理解或生成一个最小 Demo能记录输入、Prompt、输出和人工筛选结果
完成文档或截图理解一个多模态解析样例能保留来源页码、区域或截图证据
加入审核与交付流程一份审核清单能检查版权、肖像、敏感内容和事实风险
完成阶段项目一个多模态作品或创意工作台有输入输出、版本记录、审核、导出和 README

推荐学习顺序

先理解多模态系统的输入输出边界,再学习图片理解、图片生成、视频/语音生成和多模态应用。不要把生成结果只当成审美问题,要记录需求、素材、Prompt、版本、人工筛选和交付格式。

多模态项目要特别注意来源和权限。外部图片、人物肖像、音乐、视频片段、PDF 内容都可能涉及版权、隐私或安全边界,作品集里要说明使用范围和审核方式。

和 AI 学习助手项目的关系

本阶段可以对应 AI 学习助手 v1.0:理解课件截图、PDF、语音笔记和图文资料,并生成复习卡片、图文总结或演示材料。它也可以作为毕业项目的展示层。

建议最小功能包括:输入一张课程截图或 PDF 页面,提取关键信息,生成结构化摘要,并保留来源引用和人工确认记录。

常见卡点

常见问题包括图片太糊导致理解错误,PDF 表格解析混乱,生成图片不符合用途,视频分镜不连贯,素材来源不清,生成结果无法导出或复用。排查时先看原始输入质量、Prompt 版本、生成参数、人工筛选和审核记录。

阶段作品集交付物

如果你想把本阶段成果沉淀到作品集,建议至少保留下面这些文件或等价材料。

交付物说明
multimodal_pipeline.md输入、解析、生成、审核、导出的系统链路
prompts/多模态 Prompt、参考图、负面提示和版本记录
outputs/生成结果、候选版本、人工筛选理由和最终交付文件
safety_review.md版权、肖像、敏感内容、事实性和使用边界检查
README.md项目目标、运行方式、素材来源、示例输出和限制说明

这些材料会让多模态项目从“生成一个好看的结果”升级成“能解释需求、来源、版本、审核和交付边界的完整作品”。

阶段通关问题

学完后,你应该能回答这些问题:多模态输入为什么需要保留来源,图片生成为什么要记录 Prompt 和版本,PDF/截图理解为什么要检查证据,内容生成为什么需要人工审核,什么时候多模态能力适合接入 RAG 或 Agent。

完成状态 Checklist

  • 我能解释一个多模态应用的输入、处理、输出和审核链路。
  • 我能跑通图像理解、图像生成或文档理解 Demo。
  • 我能记录 Prompt、素材、候选输出和筛选理由。
  • 我完成了版权、肖像、敏感内容和事实风险检查。
  • 我已经把多模态能力接入一个可展示项目或毕业作品。