Wan 2.7 模型架构拆解:五个核心设计如何决定视频质量
从技术人员视角拆解 Wan 2.7 架构设计的五个关键选择:DiT 替换 U-Net 的底层逻辑、MoE 参数量与推理速度的平衡、全时空注意力的计算代价与收益、流匹配在更少步数内的生成优势、以及因果 3D VAE 的时序压缩原理。
用同一个 prompt 在两个视频模型上跑一次,结果经常完全不同。一个角色跑几帧就变形了,另一个能撑完整段。一个生成花了快两分钟,另一个半分钟就出片了。
这种差距跟模型参数量关系不大——参数量决定知识容量,不决定生成质量的上限。真正拉开差距的,是架构设计。
Wan 2.7 的技术报告里提到五个核心模块:因果 3D VAE、DiT 骨干、MoE 专家混合、全时空注意力、流匹配。理解这五个模块各自解决了什么实际问题,比看任何 benchmark 表都更能说明 Wan 2.7 和其他模型的价值差异。
如果你主要是想用 Wan 2.7 而不是研究内部结构,可以先看 Wan 2.7 完整使用指南。这篇文章是为想理解"为什么这么设计"的读者准备的。
模型家族与统一架构
Wan 2.7 发布的不只是一个模型,而是基于同一套架构的一组模型族。
| 模型 | 任务 | 骨干网络 | 参数规模 |
|---|---|---|---|
| T2V-14B | 文生视频 | 3D DiT + MoE | 270亿总参,140亿激活 |
| I2V-14B | 图生视频 | 3D DiT + MoE | 270亿总参,140亿激活 |
| T2I-14B | 文生图 | 2D DiT + MoE | 270亿总参,140亿激活 |
| T2V-1.3B | 文生视频(轻量版) | 3D DiT | 13亿密集参数 |
14B 系列的三个模型共享同一套骨干网络,只在任务适配层做了修改。1.3B 版本去掉了 MoE,改用密集参数,专门为低显存环境设计。
整条数据处理链路分为四个阶段:
- VAE 编码器把原始视频或图像压缩到潜在空间
- T5 编码器把文本 prompt 转换成嵌入向量
- DiT 骨干网络以文本嵌入为条件,在潜在空间里做去噪
- VAE 解码器把去噪后的潜在表示还原成像素画面
下面不按模块逐个介绍,而是从一条实际 prompt 的视角出发,看它经过每个组件时,每个组件做了什么、为什么这样做。
第一步:T5 编码器——为什么视频生成需要更好的文本理解
大部分图像生成模型用 CLIP 做文本编码。CLIP 的优势在于文本和图像之间的对比学习对齐,它在"一只猫坐在窗台上"这种简单描述上表现稳定。
视频生成的文本输入比图像生成复杂太多。一个典型的视频 prompt 里经常包含多个主体、空间位置关系和动态变化——"穿红裙的女人从左往右走,狗跟在她身后两步远,背景是阳光穿过树荫的公园长椅"。CLIP 倾向于把这类信息压缩成一个模糊的语义向量,丢失实体之间的组合关系。
Wan 2.7 选了 T5-XXL,原因就在于此。T5 是纯语言编码器,在语法解析和长距离语义依赖上比 CLIP 强。它能区分女人、狗、长椅、树荫、阳光这些实体以及它们之间的从属关系,嵌入向量保留了更多的结构信息。
| 编码器 | 强项 | 弱项 |
|---|---|---|
| CLIP | 图像-文本对齐好 | 组合关系和长 prompt 表现差 |
| T5 | 深层语言理解、支持长 prompt | 计算开销更大 |
双语支持不是附加功能,而是实际需求。Wan 2.7 由阿里训练,数据同时包含中英文,T5 编码器原生处理两种语言。这意味着用中文写包含复杂空间关系的 prompt 时,模型的跟从度不会比英文差。
T5 输出的文本嵌入通过交叉注意力层注入 DiT 骨干。每个时空 patch 在去噪过程中会动态关注 prompt 中的相关片段——生成人物时关注人物描述,生成背景时关注环境描述。
第二步:因果 3D VAE——视频压缩不是图片压缩的延伸
原始视频对 transformer 来说太大了。一段 16 帧的 720p 视频,24 位色深,未压缩约 265 MB。即使切成 patch,token 数量也不切实际。
VAE 解决这个问题的方式是以精度换尺寸——把视频编码成更小的潜在表示,保留视觉信息,丢弃冗余。DiT 在这个压缩后的空间里处理,最后 VAE 解码器还原回全分辨率。
Wan 2.7 的 VAE 和 Stable Diffusion 用的 2D VAE 有两个本质区别。
3D 压缩。 普通图像 VAE 逐帧独立压缩,帧与帧之间的大量重复信息被重复存储和处理。3D VAE 同时在空间和时间维度上压缩,相邻帧的冗余只存储一次。这不仅是存储效率问题,还直接影响视频的时序连贯性——独立压缩的帧在解码后容易出现帧边界处的视觉断裂。
因果设计。 编码每一帧时只依赖过去的帧,不依赖未来的帧。处理流式输入或长视频时,这意味着不需要等整段视频加载完再开始编码,逐帧到位即可处理。
| 维度 | 输入 | 潜在空间 | 压缩率 |
|---|---|---|---|
| 空间(H×W) | 1280×720 | 160×90 | 每轴 8 倍 |
| 时间(帧数) | 16 | 4 | 4 倍 |
| 通道深度 | 3(RGB) | 16(潜在) | 扩展 |
有效压缩率约 8 × 8 × 4 × (16/3) ≈ 1365×——265 MB 的视频被压缩到潜在空间约 200 KB。
潜在空间采用连续向量(而非 VQ-VAE 的离散编码),保留更平滑的渐变和更多细节。代价是 DiT 的去噪过程需要更高精度——潜在空间的一个小误差,解码后会在全分辨率下被放大成可见 artifacts。
部署注意: VAE 的编解码需要独占 2-4 GB 显存(14B 模型下),在 RTX 4090 的 24 GB 中约占六分之一到八分之一。这是本地部署时容易被忽略的固定开销。
第三步:DiT 骨干——U-Net 的局部视野如何被打破
U-Net 是从 Stable Diffusion 时代延续下来的扩散模型骨干。它的工作方式是在多个分辨率上做卷积,每层只看一个局部窗口。这种设计计算效率高,但有一个结构性天花板:长距离依赖必须通过多次下采样和上采样来传递,每经过一次 bottleneck 就会丢失一部分空间信息。
DiT(Diffusion Transformer)用 self-attention 替代了这一机制。视频被切分成 patch,每个 patch 展平成 token,所有 token 在 attention 操作中直接交互。第一帧左下角的物体和第六十帧右上角出现的同一个物体,在 DiT 里只需要一次 attention 计算就能建立联系。U-Net 做不到这一点。
对于视频生成,这个差异是决定性的。视频不是一组静态图片的拼接,而是时间和空间的耦合体。物体在帧之间的位移、外观连续变化、遮挡关系的重建——这些都需要跨帧上下文来理解。DiT 让跨帧理解成为架构原生能力,而不是靠后期处理来补救。
Wan 2.7 的 DiT 操作的是 3D patch——输入视频被切成时空立方体,不是 2D 方块。这是视频版 DiT 和图像版 DiT 在 patch 层面的关键区别。
一个工程经验:patch 越小,token 数越多,细节保留越好,计算量越大。Wan 2.7 在 14B 版本上选了偏小的 patch size,优先保证细节精度。1.3B 版本做了妥协,因为同样的 patch size 在小模型上不现实。
第四步:全时空注意力——最贵但最值的一笔投入
全时空注意力是 Wan 2.7 在架构上最重的计算投入,也是对视频质量影响最大的一个选择。
空间注意力处理单帧内部的关系——哪些像素属于同一个物体、边缘怎么过渡、纹理长什么样。时间注意力处理帧与帧之间的关系——物体怎么运动、光照怎么变化、出画再入画时是否连贯。
Wan 2.7 把两者合并在同一个注意力操作中。视频里的每个 patch 空间上关注所有其他 patch,时间上也关注所有其他帧的 patch。结果是一个真正三维的注意力矩阵。
计算成本的估算:720p 视频 16 帧,patch size 16×16,大约 92,000 个 patch。全注意力意味着约 85 亿对 pairwise 交互。
存在一种便宜的替代方案叫分解式注意力——空间注意力和时间注意力分开算,先处理后帧内的空间关系,再处理帧间的时间关系。问题在于:一个运动的物体,其空间位置变化和跨帧外观变化是同时发生的、不可分离的。分解式注意力会丢失这种耦合信息,最终表现是运动不自然、物体在变向时变形。
Wan 2.7 的分场景方案很明确:14B 版本用全注意力保质量,1.3B 密集版用分解式注意力控成本。这不是技术上的优劣,而是质量目标下的取舍。
判断一个视频模型有没有在时间连贯性上做投入,快速的方法就是看它用全注意力还是分解式注意力。全注意力计算更重,但运动更自然——尤其是多个物体同时运动的场景。
在 DiT block 内部,每层的处理流程是:全时空 self-attention 计算所有 patch 的相互关系 → MoE 前馈层细化表示 → 自适应条件控制注入。重复多层后输出去噪后的潜在表示。
效率保障:MoE 专家混合
回到开头的参数问题:模型名里的 14B 到底指什么?
14B 指的是每次前向传播的激活参数量,不是总参数量。
Wan 2.7 用了 Mixture-of-Experts(MoE)架构。总参数 270 亿,但在任何一次推理中,只有 140 亿被激活。剩余 130 亿参数以"专家"的形式存在——它们就位但不参与计算,直到路由器判定某个 token 需要它们的专长。
| 概念 | 含义 |
|---|---|
| 总参数 | 270亿——占存储和内存 |
| 激活参数 | 140亿——每次前向传播的真实计算量 |
| 专家数量 | 未公开(按常见 MoE 比例估算在 8-16 之间) |
| Top-k 路由 | 每个 token 激活 2 个专家 |
| 专家分工 | 不同专家学到不同模式(运动、纹理、光照等) |
路由器的决策过程很轻量:它查看每个输入 token,从可用专家中选出最匹配的两个,按权重合并它们的输出。整个过程增加的延迟可以忽略。
MoE 的用户价值很直接——用 140 亿参数的计算成本享受到 270 亿参数模型的知识容量。推理速度不受那 130 亿休眠参数的影响。这是 Wan 2.7 能在消费级 GPU 上同时做到高质量和可接受速度的核心原因。
MoE 有一个众所周知的故障模式叫路由器坍缩:训练过程中路由器把所有 token 都分配给同一个专家,专家分工设置的意义就消失了。Wan 2.7 的解决方案是在训练损失中加入负载均衡惩罚项。具体权重未公开,但这已经是生产级 MoE 的标准做法。
国内用户对 MoE 并不陌生。智谱 GLM 系列早期版本就用了类似思路,目的也是在模型容量和推理成本之间找平衡。Wan 2.7 的 MoE 规模更大,而且应用在视频生成这种计算密集度更高的任务上,工程挑战也不同。
训练框架:流匹配
训练框架选择直接决定推理速度。Wan 2.7 没有用 Stable Diffusion 的标准扩散目标,而是用了流匹配(flow matching)。
标准扩散的训练过程是按固定 schedule 往数据上加噪声,模型学习预测每个时间步的噪声。生成时从纯噪声开始,逐步去噪,需要 50-100 步。
流匹配定义了一条从噪声到数据的连续路径,用常微分方程(ODE)表示。模型学习预测路径上每个点的变化方向和幅度——也就是"速度"。生成时从噪声出发,沿 ODE 路径走到数据分布一端,通常只需要 28-50 步。
| 维度 | 扩散模型 | 流匹配 |
|---|---|---|
| 训练目标 | 预测噪声 ε | 预测速度 v |
| 采样路径 | 随机过程 | ODE 确定路径 |
| 所需步数 | 50-100 步 | 28-50 步 |
| 采样速度 | 中等 | 快 |
| 训练复杂度 | 固定 noise schedule | 路径定义直观 |
流匹配还有一个独特优势叫纠正流——通过后续训练阶段把采样轨迹进一步"拉直",推理步数可以更少而质量几乎不损失。
一个直观的类比:扩散模型像在没有地图的城市里找目的地,每到一个路口都要停下来判断方向,走错了退回来,所以需要很多步。流匹配像出发前规划好了路线,每一步都在缩短目标距离,方向偏差小,自然步数少。
Wan 2.7 使用 ODE 求解器做采样,14B 模型通常用 28-50 步。和同等质量的扩散模型比,这是一个可以直接用秒表验证的速度优势。
几个关键对比
270亿 vs 140亿——显存和速度分别看哪个数
每次提到 Wan 2.7 的参数量都要同时标两个数字,原因是它们回答不同的问题。
总参数量(270亿)决定模型的存储和内存占用——加载模型需要多少显存。激活参数量(140亿)决定每次生成的计算量——跑一次推理需要多少算力。
评估部署硬件时:显存看 270 亿,速度看 140 亿。14B MoE 模型在 RTX 4090(24 GB)上可以跑,但如果它是一个纯密集 270 亿参数的模型,24 GB 显存完全不够。MoE 的设计让它多出来的参数几乎不增加显存负担——这是消费级部署成为可能的根本原因。
Wan 2.7 和 Stable Diffusion 3
SD3 是架构上和 Wan 2.7 最接近的可比对象——同样用 DiT + MoE + 流匹配。主要分岔点:
- 文本编码器配置: SD3 用三重编码器组合(CLIP + T5),Wan 2.7 用单一双语 T5。SD3 的方式在图像-文本对齐上更强,Wan 2.7 的方式更简洁且原生支持双语言
- MoE 配置: SD3 的专家配置因模型规模而调整,Wan 2.7 的配置在整个 14B 系列上统一
- 视频能力: SD3 没有视频模型。Wan 2.7 的视频版增加了 3D patchification 和全时空注意力
- 训练数据: Wan 2.7 包含大量中文数据,中文 prompt 的跟从度明显优于 SD3
和国内其他视频模型
国内同类模型中,Wan 2.7 在架构透明度和配置上都有明显差异。它是目前国产开源视频模型中唯一公开完整 DiT + MoE 技术细节的。全时空注意力在国产模型中属于高端配置——大多国内视频模型在时间维度上做了简化以控制成本。T5 双语言模型对中英文混合 prompt 的支持比纯中文编码器更灵活。
架构选择如何影响实际体验
架构决策最终会变成你肉眼可见的差异:
| 架构做什么 | 你在画面上看到什么 |
|---|---|
| DiT 骨干 + 全时空注意力 | 跨帧运动一致,物体不飘不闪 |
| MoE 140亿激活参数 | 270亿容量的模型跑出140亿的速度 |
| 流匹配训练 | 采样步数少,出结果更快 |
| 双语 T5 编码器 | 复杂场景跟从度高,中英文一致 |
| 因果 3D VAE | 时序压缩平滑,没有帧边界伪影 |
上面这些差异用一次对比就能验证。拿同一个复杂 prompt——"一个人牵着一只狗穿过公园,背景里有骑自行车的人经过"——在 Wan 2.7 T2V-14B 和任意 U-Net 视频模型上各跑一次。对比快速运动时的帧连贯性:哪个模型能保持物体跨帧的一致性,哪个会模糊或闪烁,一个片段就能看出来。
14B MoE 模型需要约 20-24 GB 显存,适合 RTX 4090 或 A6000。1.3B 密集版是 8-12 GB 配置的实用选择。想在线体验的话,可以直接在 wan27.org 上测试 14B 版本——无需本地部署,浏览器里就能跑。
FAQ
Wan 2.7 的 DiT 是什么?
Diffusion Transformer(DiT)是核心去噪骨干网络,用 self-attention 替代 U-Net 的卷积操作。视频被切成 patch,所有 patch 之间可以直接交互,实现跨帧的上下文理解。长距离时间连贯性是架构原生能力,不是后期补救。
Wan 2.7 的 MoE 怎么节省计算量?
MoE 把前馈层拆成多个专家网络,每个 token 通过轻量路由激活 2 个专家。总参数 270 亿只有 140 亿参与前向计算,剩余专家不产生推理开销。效果是用 140 亿的算力享受 270 亿的知识容量。
Wan 2.7 的图像和视频模型架构有什么区别?
图像模型用 2D VAE + 仅空间注意力处理单帧。视频模型用因果 3D VAE + 全时空注意力处理多帧时序数据。DiT 骨干、MoE 路由、T5 编码器和流匹配框架共享。
Wan 2.7 有多少参数?
14B 模型总参数 270 亿,每次前向传播激活 140 亿。另有 1.3B 密集参数版本(非 MoE)用于轻量部署。总参数决定显存需求,激活参数决定推理速度。
Wan 2.7 的流匹配是什么?
流匹配是用 ODE 定义噪声到数据连续路径的训练目标,取代标准扩散去噪。模型学习预测路径上每点的速度(方向和幅度)而非噪声。采样步数更少(28-50 步 vs 扩散的 50-100 步),生成更确定、更快。
Wan 2.7 架构和 Stable Diffusion 3 有什么异同?
两者架构基础接近(DiT + MoE + 流匹配)。主要差异:Wan 2.7 用单双语 T5 编码器,SD3 用三个编码器组合;Wan 2.7 原生支持视频生成(3D patch + 全时空注意力);Wan 2.7 中文支持更好。
这套架构能在本地跑吗?
14B MoE 需 20-24 GB 显存(RTX 4090 / A6000),1.3B 密集版可在 8-12 GB 显存运行。MoE 设计是关键——如果它是纯密集 270 亿参数,消费级本地部署基本不现实。也欢迎直接在 wan27.org 上在线使用。
总结
Wan 2.7 的架构可以概括为六个工程决策,每一个对应一个具体的生成瓶颈:
- DiT 骨干:解决 U-Net 的长距离依赖传递问题,让跨帧连贯成为原生能力
- MoE 270亿 / 140亿:在不牺牲推理速度的前提下扩大模型容量
- 全时空注意力:捕获运动-纹理耦合,提升多主体场景连贯性
- 流匹配:用更少的采样步数实现更快的生成
- 双语 T5:支持中英文复杂 prompt,减少语义丢失
- 因果 3D VAE:高效压缩视频的同时保留时间连续性
每个决策都不是纸上最优解——它们是在计算约束、延迟要求和质量目标之间的工程取舍。理解这些取舍,比记住参数量更能判断一个模型是否适合你的使用场景。
想亲自验证?打开 wan27.org,输入一个包含运动主体和背景互动的 prompt,观察帧与帧之间的物体一致性。那个"没变形、没闪烁、自然连贯"的效果,就是这六个设计一起作用的结果。
分类
更多文章

Wan 2.7 完整指南:功能、API、价格和开源情况
一篇实用的 Wan 2.7 入门指南,梳理它和旧版 Wan 的区别、视频与图像能力、API 访问、本地工作流、价格和最快上手方式。
Wan 2.7 能白嫖吗?开源部署、免费额度、试用——三种不花钱的方法
不花一分钱用 Wan 2.7 的全部方法。开源本地部署(完全免费)、各平台免费额度对比、限时试用。不吹不黑,每个方案给多少、有什么坑,全说清楚。
Wan 2.7 在线使用指南:8个免费平台横向对比(2026)
不需要GPU!汇总所有可以在线使用Wan 2.7的平台:通义万相、阿里云百炼、HuggingFace、Invideo、Picsart、fal.ai、Tensor Art、wan27.org。对比功能、价格、限制,帮你找到最合适的平台。
订阅简报
加入我们的社区
订阅我们的简报,获取最新动态与资讯