12 AIGC 与多模态

这一阶段解决的是“当输入输出不再只是文字时,AI 系统会怎样扩展”。它属于方向拓展,适合在你已经理解 LLM 应用、RAG 和 Agent 后,再进入图像、语音、视频和跨模态生成。
故事化导入:把 AI 从文字世界带到真实世界
当 AI 只能处理文字时,它像一个很会写作和推理的助手;当 AI 能同时理解图像、声音、视频和文本 时,它就开始接近真实世界的复杂输入输出。AIGC 与多模态不是单纯“生成好看的内容”,而是把理解、生成、编辑和工作流连接成新的创作系统。
学习闯关地图
互动练习:把一个创意拆成多模态流水线
选择一个主题,比如“为一门 AI 课程做宣传短片”。先写文案,再生成配图,再设计旁白,再规划视频分镜,最后加入审核和导出。你会发现多模态项目的重点不是某个模型,而是把多个生成步骤组织成可控流程。
项目彩蛋
本阶段的彩蛋作品可以是一个“AI 创意工作台”:输入主题后自动生成标题、文案、配图提示词、分镜脚本和语音稿,并提供人工修改和审核环节。它非常适合作为整门课程的收官展示项目。
阶段定位
| 信息 | 说明 |
|---|---|
| 适合对象 | 已完成大模型应用主线,希望进入多模态、生成式内容或创意工具方向的学习者 |
| 预估学时 | 80~120 小时 |
| 前置要求 | 完成 LLM 应用开发与 RAG,建议了解 Agent 基础 |
| 阶段产出 | 多模态问答、图像生成工作流、视频/语音生成 Demo 或创意平台原型 |
新手最小通关路线
新手先理解文本、图像、语音、视频如何进入同一个 AI 工作流,以及图像生成和多模态问答的基本流程。只要能完成一个简单图像生成或多模态问答 Demo,并说明提示词、模型和后处理各自作用,就算完成最小通关。
进阶深入路线
有经验的学习者可以深入扩散模型、图文对齐、视频生成、语音合成、数字人、版权合规和内容安全。进一步尝试把多个生成步骤组织成可审核、可编辑、可导出的创意产品工作流。
多模态为什么重要
真实世界不是纯文本的。人类通过文字、图像、声音、视频和动作理解世界。多模态模型试图把这些不同形式的信息放进统一系统里,让 AI 能看图、读文档、听语音、生成图片和辅助创作。
前半段先理解多模态输入和生成能力, 后半段再把内容创作、审核、导出和产品原型串起来。
新人先做什么,进阶再做什么
新人第一次学这一阶段时,先把多模态理解成“不同输入输出形式进入同一条产品流程”。先做图片理解、提示词生成或内容包导出的小项目,不要一开始追完整视频生成链路。
有经验的学习者可以把重点放在产品化和风险控制上:素材来源、版本管理、人工编辑、版权肖像、审核清单和导出格式。你的目标是把生成能力组织成可交付的创作工具。
多模态应用精讲:从图文能力到真实工作流
2025~2026 年的多模态应用不只是“看图说话”或“生成图片”。更常见的工程问题是:如何读取截图、PDF、表格和图表,如何把视觉理解接入 RAG,如何让 Agent 根据图片或文档行动,如何把文案、图片、语音和视频生成串成可编辑、可审核、可导出的流程。
| 精讲主题 | 解决的问题 | 学习重点 |
|---|---|---|
| Vision-Language Models | 模型同时理解图像和文字 | 图片问答、图表解释、截图理解、视觉推理 |
| Document AI | PDF、表格、扫描件和课件难以直接进入文本 流程 | 版面解析、OCR、表格抽取、结构化输出 |
| Multimodal RAG | 知识库不只有 Markdown 和纯文本 | 把图片、PDF 页面、图表和文本片段统一检索与引用 |
| Multimodal Agent | Agent 需要根据截图、页面或文档采取行动 | 观察视觉输入、选择工具、生成可复盘轨迹 |
| Video Generation Workflow | 视频生成不是一次 Prompt 就完成 | 文案、分镜、角色、镜头、旁白、字幕和审核流水线 |
| Realtime Voice | 语音交互强调延迟、打断和连续上下文 | 语音输入、实时响应、转写、合成和对话状态 |
| Content Safety | 生成内容可能涉及版权、肖像、事实和敏感风险 | 素材授权、人工审核、风险标注和导出限制 |
学习多模态时,要把“模型能力”翻译成“产品流程”。例如课程资料助手不只要读 Markdown,也可能要读课件截图、PDF 表格和图示;创意工作台不只要生成一张图,还要让用户修改文案、选择版本、审核风险并导出最终文件。
多模态 RAG 和多模态 Agent 怎么接到主线
多模态不是课程主线之外的孤岛。第 8 站的 RAG 会扩展成多模态 RAG,第 9 站的 Agent 会扩展成能看截图、读文档、处理图表的多模态 Agent,第 12 站则把这些能力组织成完整创作或理解工作流。
一个适合收官的项目是“多模态学习助手”:它能读取课程截图或 PDF 页面,提取关键概念,结 合课程文档做 RAG 回答,再生成复盘卡或学习计划。这样能自然展示你对 RAG、Agent、多模态和工程化的综合理解。
本阶段学习路径
第一章学习多模态大模型,理解图文对齐、视觉语言模型和多模态应用。
第二章学习图像生成,理解扩散模型、Stable Diffusion、常见应用、微调和最新进展。
第三章学习视频生成与数字人,理解视频生成、语音合成、TTS 和数字人系统。
第四章学习 AIGC 前沿与伦理,包括趋势、版权、偏见、合规和安全边界。
第五章完成综合项目,把生成能力组织成一个产品工作流。
学完后你应该能做到
- 能解释文本、图像、语音、视频在多模态系统中的角色
- 能理解扩散模型和 Stable Diffusion 的基本工作流
- 能搭建一个简单图像生成或多模态问答 Demo
- 能分析 AIGC 产品中的素材、提示词、模型、后处理和交付流程
- 能意识到版权、肖像、偏见和内容安全等风险
常见误区
不要只把 AIGC 当成“好玩的图片工具”。真正的多模态产品会涉及资产管理、提示词工程、模型选择、 后处理、用户工作流和合规边界。
也不要追逐每一个新模型。前沿变化很快,更重要的是抓住稳定主线:表示、对齐、生成、编辑、评估和工作流。
AIGC 错误剧场:生成好看不等于可交付
如果生成结果不符合需求,先检查输入约束、风格参考和负面要求是否清楚;如果多次生成难以比较,说明缺少版本记录;如果作品要对外使用,还要检查版权、肖像、敏感内容、来源说明和导出格式。
多模态可运行小实验:先把图片或 PDF 变成结构化记录
多模态项目的最小实验可以不从视频生成开始,而是从“把一张截图变成结构化信息”开始。学习者可以选一张课程截图、报错截图或 PDF 页面,手动模拟模型输出,先设计数据结构:图片里有什么、关键信息是什么、不确定点在哪里、能否进入 RAG 或 Agent 下一步。
visual_record = {
"source": "course-slide-01.png",
"content_type": "课程截图",
"visible_text": ["RAGOps", "评估集", "Trace", "成本监控"],
"objects": ["流程图", "表格"],
"uncertainty": ["右下角小字不清晰"],
"next_step": "写入多模态 RAG 索引,供课程问答助手引用",
}
print(visual_record)
这个实验的重点是建立多模态工程意识:模型看图之后,结果要能被检查、引用、编辑和进入后续流程。等结构化记录设计清楚后,再替换成真实视觉模型、OCR、PDF 解析或多模态 API。
多模态失败案例库:生成之前先管输入和交付
| 现象 | 常见原因 | 定位方法 | 修复方向 |
|---|---|---|---|
| 图片理解漏掉关键信息 | 截图分辨率低、文字太小、版面复杂 | 检查原图清晰度和 OCR 结果 | 提高输入质量,裁剪区域,保留不确定标记 |
| PDF 表格解析混乱 | 版面结构复杂或跨页 | 对比原 PDF、解析文本和结构化结果 | 分页处理,单独抽表,保留页码来源 |
| 生成图片好看但不符合需求 | 风格、尺寸、用途和负面要求不清楚 | 对照需求清单检 查输出 | 增加提示词模板、参考图和人工筛选 |
| 视频生成不连贯 | 没有分镜和角色一致性设计 | 检查每个镜头的文案、画面和转场 | 先写分镜脚本,再逐段生成和审核 |
| 作品不能对外使用 | 版权、肖像、敏感内容或事实风险未检查 | 用审核清单逐项确认 | 增加素材来源、人工确认和导出限制 |
阶段验收 Rubric
| 等级 | 验收标准 | 作品集证据 |
|---|---|---|
| 基础通过 | 能完成一个图像理解、图像生成或多模态问答 Demo | 输入样例、输出结果、提示词或解析记录 |
| 标准通过 | 能把生成或理解结果接入可编辑、可审核、可导出的流程 | 版本记录、人工编辑截图、审核清单 |
| 优秀作品 | 能把多模态能力接入 RAG 或 Agent,并说明来源、风险和交付边界 | 多模态 RAG 引用、多模态 Agent trace、内容安全记录 |
面试或作品集展示时,不要只展示“生成得很好看”。更好的讲法是:我把多模态输入解析成结构化记录,再接入检索、生成、人工编辑、审核和导出流程,重点解决输入质量、版本比较、版权肖像和交付格式问题。
阶段项目
基础版是完成一个图像生成或多模态问答 Demo,能输入主题并得到可展示结果。标准版需要加入提示 词模板、生成结果筛选、人工编辑和导出流程。挑战版可以做 AI 创意工作台,串联文案、配图、分镜、语音稿、审核和交付,形成整门课程的收官作品。
如果你想看更细的学习节奏,可以阅读 学习指南:多模态与 AIGC 怎么学最不容易学乱。
本阶段趣味任务卡
| 玩法 | 本阶段任务 |
|---|---|
| 剧情任务 | 让助手处理文字以外的资料:图片、截图、语音或生成内容都要有素材、审核和导出记录。 |
| Boss 战 | 多模态混沌体 |
| 可解锁徽章 | 多模态审核员、素材管理员 |
| 新手轻松版 | 只完成一个最小输入到输出闭环,先留下运行截图或命令输出 |
| 作品集证据 | 素材来源、生成记录和人工审核表 |
如果你觉得本阶段内容很多,先把这张任务卡当作最低目标。能完成新手轻松版,就可以继续往后学;以后准备作品集时,再回来升级标准版和挑战版。
阶段交付物
| 交付物 | 最小版 | 作品集版 |
|---|---|---|
| 多模态 Demo | 完成图像理解、图像生成或图文问答 | 能接入截图、PDF、语音或视频片段并输出结构化结果 |
| Prompt/素材记录 | 保存输入提示词和素材来源 | 有版本对比、参考图、负面提示和审核记录 |
| 生成/理解结果 | 展示一次成功输出 | 有失败样本、人工筛选、编辑记录和质量标准 |
| 安全审核清单 | 检查版权、肖像和敏感内容 | 说明使用边界、人工确认和导出限制 |
| 毕业展示材料 | 写清运行方式和示例 | 有架构图、演示脚本、评估结果和复盘报告 |
和 AI 学习助手贯穿项目的关系
本阶段可以对应 AI 学习助手 v1.0:理解截图、课件图表、语音笔记和多模态资料,形成毕业作品。 如果你正在按贯穿项目路线学习,建议本阶段结束时至少提交一次版本记录:本阶段新增了什么能力、如何运行、示例输入输出是什么、遇到了什么问题、下一步准备怎么改。
阶段通关标准
| 通关层级 | 你需要做到什么 |
|---|---|
| 最低通关 | 能把图像、语音、视频、文档和大模型能力组织成多模态作品。 |
| 推荐通关 | 完成本阶段至少一个可运行小项目,并在 README 中记录运行方式、示例输入输出和遇到的问题。 |
| 作品集通关 | 把本阶段产出接入“AI 学习助手”贯穿项目,留下截图、日志、评估样例和下一步计划。 |
学完本阶段后,不需要把所有细节都背下来。更重要的是能说清楚:本阶段解决什么问题,它和上一阶段的关系是什么,以及它会怎样支撑后续学习。这一阶段适合作为课程毕业作品和作品集展示。