很多人看到数字人时,第一反应是:
“这是不是一个特别强的视频生成模型?”
但更准确的理解通常是:
数字人更像一个多模块协作系统。
因为它常常要同时处理:
学习目标
- 理解数字人系统最核心的模块组成
- 理解它为什么不只是“视频生成”
- 看懂一个最小数字人工作流
- 建立对数字人项目复杂度来源的正确直觉
先建立一张地图
数字人系统更适合按“文本 / 语音 / 口型 / 渲染”四层来理解:
所以这节真正想解决的是:
- 为什么数字人不是单一模型问题
- 为什么它天然更像多模块协作系统
一、数字人到底在做什么?
1.1 最简单的理解