跳到主要内容

12 AIGC 与多模态

AIGC 与多模态主视觉

这一阶段解决的是“当输入输出不再只是文字时,AI 系统会怎样扩展”。它属于方向拓展,适合在你已经理解 LLM 应用、RAG 和 Agent 后,再进入图像、语音、视频和跨模态生成。

故事化导入:把 AI 从文字世界带到真实世界

当 AI 只能处理文字时,它像一个很会写作和推理的助手;当 AI 能同时理解图像、声音、视频和文本时,它就开始接近真实世界的复杂输入输出。AIGC 与多模态不是单纯“生成好看的内容”,而是把理解、生成、编辑和工作流连接成新的创作系统。

学习闯关地图

互动练习:把一个创意拆成多模态流水线

选择一个主题,比如“为一门 AI 课程做宣传短片”。先写文案,再生成配图,再设计旁白,再规划视频分镜,最后加入审核和导出。你会发现多模态项目的重点不是某个模型,而是把多个生成步骤组织成可控流程。

项目彩蛋

本阶段的彩蛋作品可以是一个“AI 创意工作台”:输入主题后自动生成标题、文案、配图提示词、分镜脚本和语音稿,并提供人工修改和审核环节。它非常适合作为整门课程的收官展示项目。

阶段定位

信息说明
适合对象已完成大模型应用主线,希望进入多模态、生成式内容或创意工具方向的学习者
预估学时80~120 小时
前置要求完成 LLM 应用开发与 RAG,建议了解 Agent 基础
阶段产出多模态问答、图像生成工作流、视频/语音生成 Demo 或创意平台原型

新手最小通关路线

新手先理解文本、图像、语音、视频如何进入同一个 AI 工作流,以及图像生成和多模态问答的基本流程。只要能完成一个简单图像生成或多模态问答 Demo,并说明提示词、模型和后处理各自作用,就算完成最小通关。

进阶深入路线

有经验的学习者可以深入扩散模型、图文对齐、视频生成、语音合成、数字人、版权合规和内容安全。进一步尝试把多个生成步骤组织成可审核、可编辑、可导出的创意产品工作流。

多模态为什么重要

真实世界不是纯文本的。人类通过文字、图像、声音、视频和动作理解世界。多模态模型试图把这些不同形式的信息放进统一系统里,让 AI 能看图、读文档、听语音、生成图片和辅助创作。

前半段先理解多模态输入和生成能力,后半段再把内容创作、审核、导出和产品原型串起来。

新人先做什么,进阶再做什么

新人第一次学这一阶段时,先把多模态理解成“不同输入输出形式进入同一条产品流程”。先做图片理解、提示词生成或内容包导出的小项目,不要一开始追完整视频生成链路。

有经验的学习者可以把重点放在产品化和风险控制上:素材来源、版本管理、人工编辑、版权肖像、审核清单和导出格式。你的目标是把生成能力组织成可交付的创作工具。

多模态应用精讲:从图文能力到真实工作流

2025~2026 年的多模态应用不只是“看图说话”或“生成图片”。更常见的工程问题是:如何读取截图、PDF、表格和图表,如何把视觉理解接入 RAG,如何让 Agent 根据图片或文档行动,如何把文案、图片、语音和视频生成串成可编辑、可审核、可导出的流程。

精讲主题解决的问题学习重点
Vision-Language Models模型同时理解图像和文字图片问答、图表解释、截图理解、视觉推理
Document AIPDF、表格、扫描件和课件难以直接进入文本流程版面解析、OCR、表格抽取、结构化输出
Multimodal RAG知识库不只有 Markdown 和纯文本把图片、PDF 页面、图表和文本片段统一检索与引用
Multimodal AgentAgent 需要根据截图、页面或文档采取行动观察视觉输入、选择工具、生成可复盘轨迹
Video Generation Workflow视频生成不是一次 Prompt 就完成文案、分镜、角色、镜头、旁白、字幕和审核流水线
Realtime Voice语音交互强调延迟、打断和连续上下文语音输入、实时响应、转写、合成和对话状态
Content Safety生成内容可能涉及版权、肖像、事实和敏感风险素材授权、人工审核、风险标注和导出限制

学习多模态时,要把“模型能力”翻译成“产品流程”。例如课程资料助手不只要读 Markdown,也可能要读课件截图、PDF 表格和图示;创意工作台不只要生成一张图,还要让用户修改文案、选择版本、审核风险并导出最终文件。

多模态 RAG 和多模态 Agent 怎么接到主线

多模态不是课程主线之外的孤岛。第 8 站的 RAG 会扩展成多模态 RAG,第 9 站的 Agent 会扩展成能看截图、读文档、处理图表的多模态 Agent,第 12 站则把这些能力组织成完整创作或理解工作流。

一个适合收官的项目是“多模态学习助手”:它能读取课程截图或 PDF 页面,提取关键概念,结合课程文档做 RAG 回答,再生成复盘卡或学习计划。这样能自然展示你对 RAG、Agent、多模态和工程化的综合理解。

本阶段学习路径

第一章学习多模态大模型,理解图文对齐、视觉语言模型和多模态应用。

第二章学习图像生成,理解扩散模型、Stable Diffusion、常见应用、微调和最新进展。

第三章学习视频生成与数字人,理解视频生成、语音合成、TTS 和数字人系统。

第四章学习 AIGC 前沿与伦理,包括趋势、版权、偏见、合规和安全边界。

第五章完成综合项目,把生成能力组织成一个产品工作流。

学完后你应该能做到

  • 能解释文本、图像、语音、视频在多模态系统中的角色
  • 能理解扩散模型和 Stable Diffusion 的基本工作流
  • 能搭建一个简单图像生成或多模态问答 Demo
  • 能分析 AIGC 产品中的素材、提示词、模型、后处理和交付流程
  • 能意识到版权、肖像、偏见和内容安全等风险

常见误区

不要只把 AIGC 当成“好玩的图片工具”。真正的多模态产品会涉及资产管理、提示词工程、模型选择、后处理、用户工作流和合规边界。

也不要追逐每一个新模型。前沿变化很快,更重要的是抓住稳定主线:表示、对齐、生成、编辑、评估和工作流。

AIGC 错误剧场:生成好看不等于可交付

如果生成结果不符合需求,先检查输入约束、风格参考和负面要求是否清楚;如果多次生成难以比较,说明缺少版本记录;如果作品要对外使用,还要检查版权、肖像、敏感内容、来源说明和导出格式。

多模态可运行小实验:先把图片或 PDF 变成结构化记录

多模态项目的最小实验可以不从视频生成开始,而是从“把一张截图变成结构化信息”开始。学习者可以选一张课程截图、报错截图或 PDF 页面,手动模拟模型输出,先设计数据结构:图片里有什么、关键信息是什么、不确定点在哪里、能否进入 RAG 或 Agent 下一步。

visual_record = {
"source": "course-slide-01.png",
"content_type": "课程截图",
"visible_text": ["RAGOps", "评估集", "Trace", "成本监控"],
"objects": ["流程图", "表格"],
"uncertainty": ["右下角小字不清晰"],
"next_step": "写入多模态 RAG 索引,供课程问答助手引用",
}

print(visual_record)

这个实验的重点是建立多模态工程意识:模型看图之后,结果要能被检查、引用、编辑和进入后续流程。等结构化记录设计清楚后,再替换成真实视觉模型、OCR、PDF 解析或多模态 API。

多模态失败案例库:生成之前先管输入和交付

现象常见原因定位方法修复方向
图片理解漏掉关键信息截图分辨率低、文字太小、版面复杂检查原图清晰度和 OCR 结果提高输入质量,裁剪区域,保留不确定标记
PDF 表格解析混乱版面结构复杂或跨页对比原 PDF、解析文本和结构化结果分页处理,单独抽表,保留页码来源
生成图片好看但不符合需求风格、尺寸、用途和负面要求不清楚对照需求清单检查输出增加提示词模板、参考图和人工筛选
视频生成不连贯没有分镜和角色一致性设计检查每个镜头的文案、画面和转场先写分镜脚本,再逐段生成和审核
作品不能对外使用版权、肖像、敏感内容或事实风险未检查用审核清单逐项确认增加素材来源、人工确认和导出限制

阶段验收 Rubric

等级验收标准作品集证据
基础通过能完成一个图像理解、图像生成或多模态问答 Demo输入样例、输出结果、提示词或解析记录
标准通过能把生成或理解结果接入可编辑、可审核、可导出的流程版本记录、人工编辑截图、审核清单
优秀作品能把多模态能力接入 RAG 或 Agent,并说明来源、风险和交付边界多模态 RAG 引用、多模态 Agent trace、内容安全记录

面试或作品集展示时,不要只展示“生成得很好看”。更好的讲法是:我把多模态输入解析成结构化记录,再接入检索、生成、人工编辑、审核和导出流程,重点解决输入质量、版本比较、版权肖像和交付格式问题。

阶段项目

基础版是完成一个图像生成或多模态问答 Demo,能输入主题并得到可展示结果。标准版需要加入提示词模板、生成结果筛选、人工编辑和导出流程。挑战版可以做 AI 创意工作台,串联文案、配图、分镜、语音稿、审核和交付,形成整门课程的收官作品。

如果你想看更细的学习节奏,可以阅读 学习指南:多模态与 AIGC 怎么学最不容易学乱

本阶段趣味任务卡

玩法本阶段任务
剧情任务让助手处理文字以外的资料:图片、截图、语音或生成内容都要有素材、审核和导出记录。
Boss 战多模态混沌体
可解锁徽章多模态审核员、素材管理员
新手轻松版只完成一个最小输入到输出闭环,先留下运行截图或命令输出
作品集证据素材来源、生成记录和人工审核表

如果你觉得本阶段内容很多,先把这张任务卡当作最低目标。能完成新手轻松版,就可以继续往后学;以后准备作品集时,再回来升级标准版和挑战版。

阶段交付物

交付物最小版作品集版
多模态 Demo完成图像理解、图像生成或图文问答能接入截图、PDF、语音或视频片段并输出结构化结果
Prompt/素材记录保存输入提示词和素材来源有版本对比、参考图、负面提示和审核记录
生成/理解结果展示一次成功输出有失败样本、人工筛选、编辑记录和质量标准
安全审核清单检查版权、肖像和敏感内容说明使用边界、人工确认和导出限制
毕业展示材料写清运行方式和示例有架构图、演示脚本、评估结果和复盘报告

和 AI 学习助手贯穿项目的关系

本阶段可以对应 AI 学习助手 v1.0:理解截图、课件图表、语音笔记和多模态资料,形成毕业作品。 如果你正在按贯穿项目路线学习,建议本阶段结束时至少提交一次版本记录:本阶段新增了什么能力、如何运行、示例输入输出是什么、遇到了什么问题、下一步准备怎么改。

阶段通关标准

通关层级你需要做到什么
最低通关能把图像、语音、视频、文档和大模型能力组织成多模态作品。
推荐通关完成本阶段至少一个可运行小项目,并在 README 中记录运行方式、示例输入输出和遇到的问题。
作品集通关把本阶段产出接入“AI 学习助手”贯穿项目,留下截图、日志、评估样例和下一步计划。

学完本阶段后,不需要把所有细节都背下来。更重要的是能说清楚:本阶段解决什么问题,它和上一阶段的关系是什么,以及它会怎样支撑后续学习。这一阶段适合作为课程毕业作品和作品集展示。