阶段学习任务单：AIGC 与多模态

这个阶段的目标是让你把文本、图像、语音、视频和文档等多种输入输出组织成一个可交付的 AI 应用。重点不是单次生成效果多惊艳，而是输入质量、版本记录、人工审核、版权边界和最终交付流程是否清楚。

本阶段必须完成的任务

本阶段可以对应 AI 学习助手 v1.0：理解课件截图、PDF、语音笔记和图文资料，并生成复习卡片、图文总结或演示材料。它也可以作为毕业项目的展示层。

建议最小功能包括：输入一张课程截图或 PDF 页面，提取关键信息，生成结构化摘要，并保留来源引用和人工确认记录。

常见问题包括图片太糊导致理解错误，PDF 表格解析混乱，生成图片不符合用途，视频分镜不连贯，素材来源不清，生成结果无法导出或复用。排查时先看原始输入质量、Prompt 版本、生成参数、人工筛选和审核记录。

如果你想把本阶段成果沉淀到作品集，建议至少保留下面这些文件或等价材料。

这些材料会让多模态项目从“生成一个好看的结果”升级成“能解释需求、来源、版本、审核和交付边界的完整作品”。

学完后，你应该能回答这些问题：多模态输入为什么需要保留来源，图片生成为什么要记录 Prompt 和版本，PDF/截图理解为什么要检查证据，内容生成为什么需要人工审核，什么时候多模态能力适合接入 RAG 或 Agent。