Stable Diffusion 架构
本节定位
上一节我们已经知道扩散模型的核心是:
从噪声一步步恢复结构。
这一节要回答的是:
为什么 Stable Diffusion 能把这件事真正做得工程上可用?
答案的核心不只是“扩散”,还包括:
- latent space
- 文本条件
- U-Net
- VAE
- cross-attention
学习目标
- 理解 Stable Diffusion 的整体模块分工
- 理解为什么它不在像素空间扩散,而在 latent space 中扩散
- 理解文本编码器、U-Net 和 VAE 分别负责什么
- 理解 cross-attention 怎样把文本真正接进图像生成
- 建立对 Stable Diffusion 整体工作流的系统地图
一、为什么原始扩散思路还不够“实用”?
1.1 一个最直观的问题:像素空间太大
如果你直接在原始图像像素空间做扩散: