12.0 学习检查表:AIGC 与多模态
这页当成可打印检查表使用。需要完整讲解时,回到 第 12 章入口页。

两小时快速通读
| 时间 | 做什么 | 能说出这句话就停 |
|---|---|---|
| 20 分钟 | 看入口页的工作流闭环 | “多模态工作从保留来源的输入开始。” |
| 25 分钟 | 运行视觉记录脚本 | “我能把视觉内容转成可检查的结构化记录。” |
| 25 分钟 | 浏览多模态基础和图像生成 | “理解和生成都需要 Prompt、模型、输出和审核。” |
| 25 分钟 | 浏览伦理与合规 | “对外使用前要查版权、肖像、敏感内容和事实风险。” |
| 25 分钟 | 阅读 RAG/Agent 桥接图 | “多模态可以扩展 RAG、Agent 和收官项目。” |
必须留下的证据
| 证据 | 最小版本 |
|---|---|
multimodal_pipeline.md | 输入、解析、生成/理解、审核、导出 |
visual_records.jsonl | 来源、页码/区域/时间引用、可见文字、对象、不确定点 |
prompts/ | Prompt 版本、参考素材、负面要求、选择记录 |
outputs/ | 候选输出、选中输出、被拒输出、原因 |
safety_review.md | 版权、肖像、敏感内容、事实性、使用边界 |
README.md | 目标、运行命令、素材来源、示例输出、限制 |
质量闸门
| 闸门 | 通过条件 |
|---|---|
| 来源追踪 | 每个输入和输出都保留 source、owner/license、version,必要时保留 page/region/time reference。 |
| Prompt/版本 | 候选输出能追溯到 Prompt、模型或工具、参考素材和选择理由。 |
| 审核 | 检查版权、肖像或声音、敏感内容、事实性、可访问性和导出范围。 |
| 导出 | README、manifest、选中输出、被拒输出、限制和下一步修复可被他人检查。 |
离章问题
- 你能为截图、PDF、图片、音频或视频保留来源引用吗?
- 你能把非文本输入变成 RAG 或 Agent 可使用的结构化记录吗?
- 你能用 Prompt 版本和审核记录比较生成输出吗?
- 你能说明对外发布前必须检查什么吗?
- 你能把结果整理成最终作品集或毕业 Demo 吗?
如果答案都是可以,这门课就形成了完整端到端路线:基础、数据、模型、LLM 应用、Agent 和多模态产品工作流。