2026/06/04

Wan 2.2 vs LTX 2.3 实测:选哪个不看参数,看你做什么

两台模型在同一张 4090 上跑了三周,结论很简单:做角色短视频选 Wan 2.2,批量出片选 LTX 2.3,搞 NSFW 只能选 Wan 2.2。看完五分钟能决定。

Wan 2.2 vs LTX 2.3 实测:选哪个不看参数,看你做什么

网上大部分对比都在说同一句话:Wan 2.2 画质好,LTX 2.3 跑得快。

这话对,但一点用都没有。

你自己跑过就知道,真正该纠结的不是"谁更好",而是你拿它做什么。做角色换脸和做产品短视频,答案可能完全相反。我拿一张 4090 同时跑这两个模型,跑了三周,结论就一句:它们不是竞品,是两把用途不同的刀。

读完这篇,五分钟内你能决定用哪个。

一句话选模型

你最看重什么选谁一句话原因
图生视频,提示词要跟得紧Wan 2.2复杂指令还原最好,角色脸不崩
出图快,能反复试LTX 2.3快 2-4 倍,显存还省
NSFW / 无审查Wan 2.2LoRA 和 Remix 生态碾压
要自带声音LTX 2.3Wan 2.2 没音频,LTX 一步到位
超过 5 秒的长片LTX 2.3原生支持长片段
ComfyUI 里方便用Wan 2.2官方原生工作流,模板一堆
显卡不太好(6-12G)LTX 2.312G 插上就能跑

如果你做图生视频、提示词写得细,到这就可以停了,选 Wan 2.2。要速度、要音频、要长片,上 LTX 2.3。

拿不准?花五分钟自己跑一遍。 用你自己的参考图和你最常用的一条提示词,两个模型各跑一次。Wan 2.2 等两分钟,LTX 大概三十秒。跑完你就知道了——如果 Wan 2.2 更贴合你的指令,你缺的是控制力;如果你先被 LTX 的速度爽到了,答案不用我说。

它俩根本不是一回事

先说 Wan 2.2。

阿里通义万相的第三代,MoE 架构,14B 参数,主打 5 秒短视频。它的看家本事是图生视频——丢一张参考图,写一段提示词,吐一段画面稳得住的短片。ComfyUI 社区给它的生态已经养得很肥了:几百个工作流模板、一堆 LoRA、好几个 Remix 改版、NSFW 微调也有。要啥有啥。

LTX 2.3 呢?Lightricks 做的,出发点跟 Wan 2.2 完全两路。它优先干两件事:跑得快,出得大。一张显卡直接出 1080p,还自带音频。训练数据里长视频多,显存优化也狠。代价就是提示词还原度比 Wan 2.2 差一截,社区生态冷清很多——LoRA 没几个,工作流得自己搭,微调基本没有。

一句话总结:Wan 2.2 是给想精细控制的人用的,LTX 2.3 是给要效率的人用的。它俩不是谁替代谁,是各管一摊。

技术细节。 Wan 2.2 的 MoE 每次推理只激活部分参数,不会真的吃满 14B。配上 FP8 和 LightX2V 蒸馏 LoRA,16G 显卡能跑。门槛其实比很多人想的低。

图生视频:Wan 2.2 确实更强

如果你的工作流是传一张图、出一段视频,Wan 2.2 的优势实打实的。我拿 30 组提示词和参考图,同等条件跑了两边。

提示词跟不跟。 复杂指令——镜头运动、光影描述、角色动作序列——Wan 2.2 能接住。LTX 2.3 碰上复杂的就喜欢偷懒,次要指令直接跳过。

角色脸崩不崩。 面部特写场景,Wan 2.2 从头到尾脸是稳的。LTX 2.3 不行——眼睛形状、鼻梁、肤色,帧和帧之间一直在微调,累积到最后你会觉得"说不上哪不对"。做角色换脸或 IP 形象的话,这个差距是致命的。

画面流不流畅。 这条反而是差距最小的。大范围镜头运动,LTX 2.3 更顺;Wan 2.2 快速平移会偶尔抽一下。但镜头不动、人在动的场景,Wan 2.2 又反超了。

经验: 提示词超过 30 个字、带着具体动作和构图指令,Wan 2.2 明显更好。提示词就一句话("女生在林间散步"),两个差不多——但 LTX 快得多。

速度才是 LTX 2.3 的王牌

Wan 2.2 跑一张 5 秒片子大概一分半到两分钟(4090,FP8)。LTX 2.3 同样 5 秒,25 到 40 秒。

差三四倍是什么概念?LTX 这边:跑一张 → 看一眼 → 改提示词 → 再跑。前后不到一分钟。Wan 2.2 那边每次两分钟起步,调试阶段这个时间一攒就很可观了。

显存方面,Wan 2.2 的 14B 在 16G 以下得靠 GGUF 量化或 LightX2V 蒸馏才能跑。LTX 2.3 插上 12G 就能跑,有人说 8G 也跑起来了。

经验: 一次要跑 15 段以上,LTX 的速度优势值钱;15 段以内,差距不大。

NSFW:生态差距大到不用比

Wan 2.2 在 C 站和 Hugging Face 上啥都有:NSFW LoRA 一抓一把,Remix 变体好几个,微调模型一堆。光是 Remix NSFW 的 5B 和 14B 两个版本就被下了几千次,社区还专门做了无审查工作流。

LTX 2.3 这边就寒酸了。有几个早期 LoRA 实验品,但成熟的微调生态根本不存在。模型本身没装过滤器,但没有社区微调撑着,NSFW 输出的质量明显跟不上——人体结构错得更多,稳定性更差。

经验:做无审查内容的话,Wan 2.2 是这两个里面唯一能选的。

NSFW 选哪个版本? 做图生视频的 NSFW 从 Remix NSFW 14B 开始;要速度就用 Remix NSFW 5B 配 LightX2V 4 步 LoRA。

音频:有就是有,没有就是没有

LTX 2.3 出片自带环境音、脚步、简单人声。Wan 2.2 是无声的。

做短视频、产品演示、旁白类内容,LTX 2.3 直接省了一步——你不用再找音效、不用后期对轨。音质别期待太高,就是压缩环境音的水平,但是它自动同步的。

用 Wan 2.2 就得自己上 TTS 或者找音效,然后手动对齐。

经验: 做社媒内容需要音频,直接 LTX。如果你本来就要后期配音,Wan 2.2 没声反而是好事——少了一轨要删掉的原生音频。

时长:Wan 2.2 定死在 5 秒

Wan 2.2 只用 5 秒片段训练的。你能靠拼接和插值把片子拉长,但原生就是 5 秒。LTX 2.3 原生跑 10 秒以上没问题。

项目需要不拼接的长片段,选 LTX。你本来就打散成多段拼接的,5 秒限制无所谓。

三个真实场景,直接对号入座

做角色短视频(抖音、B 站、小红书)

手上有角色参考图,提示词写得细,5 秒够用,角色脸不能崩。上 Wan 2.2。 它能帮你少返工——这点比 LTX 跑得快更重要。

批量出带声音的片子(产品展示、信息流)

一次要跑二三十条,每条要有基础音频,你在意数量多过单条完美。上 LTX 2.3。 光速度一项就没什么好纠结的。

无审查创作

需要 LoRA、需要成熟微调、需要社区铺好的路。上 Wan 2.2。 生态差距大到不用想。

两个模型都有的毛病

别把锅甩给某一个,这些问题它俩都解决不了:

画面里出文字是糊的。 两个模型都渲染不了可读的文字。后期自己加。

三个以上角色同框就乱。 多主体场景对哪个都是难题。拆成单人镜头分别拍,后期拼。

手指变形。 行业通病。参考图里把手的位置固定好,别让手成为画面焦点。

想用 Wan 2.2 但显存不够。 用 GGUF 量化版 + LightX2V 蒸馏 LoRA,12G 甚至 8G 都能跑。

LTX 2.3 提示词还原度不够。 把长提示拆成两三条短句,分别跑,挑最好的。

该注意的事

算力要钱。 本地跑得有好显卡。没硬件就走云 API,按调用收费。先算预算。

NSFW 合规。 无审查 ≠ 无限制。各国规定不一样,发布前自己确认。

许可协议。 两个模型都是开源权重,但商用条款不同。接商业项目前看一眼。

署个名。 AI 生成的内容发出去的时候,标上模型名和版本是好习惯。协作项目尤其需要。

常见问题

新手选哪个?

Wan 2.2 上手更容易。ComfyUI 文档齐、模板多、社区大。LTX 2.3 配置手动一些,但对差一点的显卡更友好。

12G 显卡能跑 Wan 2.2 吗?

能,上 GGUF 量化 + LightX2V 蒸馏 LoRA。LTX 2.3 不需要这些就能跑。

Wan 2.2 能出声吗?

不能。Wan 2.2 纯无声。两个里面只有 LTX 2.3 带音频。

NSFW 哪个好?

Wan 2.2。C 站和 HF 上 LoRA、Remix、社区工作流源源不断,LTX 根本比不了。

跑一段要多久?

4090 上 Wan 2.2 搞一段 5 秒要一分半到两分钟。LTX 2.3 同样 5 秒大概半分钟。

能在同一个 ComfyUI 里切着用吗?

能。两个模型都装上,看项目需求随时切。很多人用 LTX 打草稿,Wan 2.2 出成品。


Wan 2.2 和 LTX 2.3 不是直接竞品。Wan 2.2 在控制力、提示词还原、社区生态上下了功夫;LTX 2.3 死磕速度、分辨率、音频和硬件门槛。

别纠结哪个更好。看你做的是哪种片子:

  • 图生视频、提示词写得细 → Wan 2.2
  • 要快、要音频、显卡一般 → LTX 2.3
  • 无审查 → Wan 2.2

有 16G 以上显存、主要做图生视频的话,从 Wan 2.2 起手,LTX 2.3 当你有音频需求时的快枪。两个一起用,比二选一聪明。

wan27.org 传张参考图,两分钟出你的第一条 Wan 2.2。

订阅简报

加入我们的社区

订阅我们的简报,获取最新动态与资讯