学习指南：多模态与 AIGC 怎么学最不容易学乱

如果你来到 11 AIGC 与多模态 后觉得图像、语音、视频、数字人和各种新模型很散，先不要追所有 Demo。多模态第一遍要理解不同模态如何进入同一个系统。

本阶段总原则

多模态与 AIGC 要抓住一条系统线：不同模态被编码成表示，模型完成理解或生成，最后接入创作、编辑、审核和交付工作流。

第一个项目建议做图像生成工作流，例如根据主题生成海报、封面或课程配图。

第二个项目建议做图文多模态问答，例如上传图片并让模型解释、分类或生成说明。

第三个项目可以做创意内容平台原型：输入主题，生成文案、配图、语音或视频脚本，并加入审核和导出流程。

最常见的卡点是追新模型而不理解工作流。生成式产品不是一个模型就够了，还需要提示、素材、控制条件、后处理、审核和交付。

第二个卡点是忽视版权和肖像风险。AIGC 项目从一开始就要考虑素材来源、授权、人物肖像和内容安全。

第三个卡点是把多模态理解成“图片加文字”。真正的多模态系统要考虑不同模态之间如何对齐、引用、编辑和共同完成任务。

学完本阶段后，你应该能解释一个多模态系统如何接收文本、图像、语音或视频，并完成理解或生成。

如果你能做出一个带输入、生成、编辑、审核和导出步骤的 AIGC 小产品原型，就达到了方向入门标准。