2026/06/04

Wan 2.2 提示词公式：我跑了 2000 多条，好的都长一个样

测了三个月才知道，能稳定出片的提示词全是一个结构：主体→动作→镜头→场景。附每条层怎么写的模板、常见翻车对照和排错方法。

你有没有过这种经历——

对着 Wan 2.2 敲了一堆字，等了一分钟出来一看：脸变了，动作像抽帧，镜头角度跟你写的完全两码事。

我一开始天天遇到。后来花了三个月，跑了超过两千条提示词，图生视频、文生视频、Remix 全跑过。每条都记了四样东西：脸有没有崩、动作自不自然、镜头有没有对上、氛围到不到位。

跑着跑着发现一个事：能稳定出片的提示词，结构全一样；翻车的，错的也就那几种。

这篇文章就是教你这个结构。不是玄学，是验证过的公式。

为什么 Wan 2.2 认这个顺序

Wan 2.2 是拿视频数据练出来的。视频的描述有规律——先说画面里有谁，再说在干什么、怎么拍、什么环境。模型训练的时候，它把最多的"注意力"分给了提示词前面的词。

把提示词想象成一个漏斗：前面几个词设了最硬的规矩——人长什么样——后面每一层再补越来越细的上下文。

这就是为什么你在结尾猛加一堆修饰词经常没反应。模型的注意力在前面就花光了。一个细节一直被忽略？把它往前挪，别往后塞。

四层结构，按顺序来

层	干什么的	写多细
1. 主体	画面上是谁，什么特征不能丢	至少两个视觉锚点
2. 动作	在干什么、怎么动、往哪动	速度 + 方向 + 身体部位
3. 镜头	机位在哪、怎么拍	景别 + 动不动 + 要不要虚化
4. 场景	什么环境、光怎么打	光源 + 氛围 + 有没有环境动态

顺序不能换。 把场景写前面，模型会先给你一张漂亮背景，然后随便安一个面目模糊的人——因为它的算力花在了不该花的地方。

第一层：主体，给模型一个跑不掉的特征

别以为给了参考图就万事大吉了。参考图只管第一帧，后面模型会自己"脑补"，补着补着就漂了。主体层的任务就是告诉它：这些特征给我死死守住。

有锚点的写法：

"下颌线很利落的女生，深色眼睛，左边耳朵戴银色水滴坠"——三个锚
"橘色虎斑，胸口一撮白毛，左耳缺了一小块"——区分度高，缺了反而好记
"深蓝西装男，领带松到第三颗扣子，坐得很直但脸上很疲惫"——衣服加状态

没锚点的——写了等于没写：

"一个女人"——模型只能盲猜
"有人在走路"——每帧都在重画一个新的人
"房间里的人"——背景定了人没定

经验：主体至少给两个区分性特征。 疤、眼镜、发型、耳饰、痣都行。模型在帧和帧之间会拿这些特征当参照物——有参照，脸就不漂。

主体稳住了。接下去它得动起来。这层是翻车最多的。

第二层：动作，七成的翻车出在这

我自己跑下来的经验：出不了片的提示词，十条有七条是动作层没写好。

"跳舞""跑步""打架"——大家就写三个字。Wan 2.2 不是你肚子里的蛔虫，它不知道你想让这人怎么动。你把动作拆成三样：多快、往哪动、哪块身体在动。

模型听得懂的词

多快	往哪	哪在动
慢慢地、缓步	朝镜头走、远离镜头	转头、瞥一眼、低下去
轻快地、利落地	从左到右	抬手、挥手、撩头发
轻轻地、柔柔地	往上、蹲下去、侧过身	迈一步、跨出去、退后
猛地、突然	绕过去、转过身、贴近	靠过去、收回手

一条能用的长这样

"她以放松的步速走向镜头，左手一边走一边从耳后撩过头发，走到离镜头大约一米时停下脚步，头微微向右一歪，目光从镜头移开看向右侧。"

这段为什么灵：

速度有了： "放松的步速"——不是快也不是慢，是"放松"
方向有了： "走向镜头"
部位具体： "左手""从耳后撩过"——不是笼统的"拨弄头发"
动作给了链条： 走 → 撩发 → 停下 → 歪头 → 看别处。模型每一步都知道"下一帧该往哪去"

最常犯的三种

你写的	模型出的	怎么改
"跳舞"	原地左右晃	写什么舞，哪怕只写"街舞步法"四个字
"打架"	两个人尴尬地贴在一起	写谁打谁、出拳还是踢腿、方向
"狂奔"	画面糊了或动作诡异	换成"快步走"或"疾走"，慢其实更像真的

人知道怎么动了。但观众怎么看这个画面？全靠第三层。

第三层：镜头，最简单也最容易被忽视

Wan 2.2 对镜头指令的响应超过很多人想象。好的镜头描述能救一条中等的动作描述。 因为模型在训练数据里见过太多镜头语言，你给它一个术语它就知道什么意思。

镜头词速查

词	效果	什么时候用
固定镜头	不动	对话、特写、氛围
缓慢左摇/右摇	水平扫	展示环境、人物出场
推近	靠近主体	情绪上头、进入细节
拉远	离开主体	大全景、制造距离感
手持晃动	呼吸感	纪实、跟拍、不安感
航拍	高处往下	大场面、追逐
浅景深	背景虚	突主体、电影感
特写/大特写	怼脸	表情、关键物件

组合一下

"中近景，浅景深，缓慢推近，轻微手持晃动"

十四个字，告诉模型四件事：框到胸口 → 背景虚掉 → 慢慢靠过去 → 加点晃动免得像 CG。

别这样写

"航拍拉远然后切大特写"——模型直接懵了。一个镜头就一个机位、一种运动。别在一个句子里切来切去。

常见翻了：

"广角"+"特写"（广角本身就是宽的）
"动态摇晃"+"固定机位"（你动还是不动）
"从上往下快速扫过"+"保持主体在画面中心"（矛盾指令）

镜头有了，就看最后一个问题：这一切发生在哪。

第四层：场景和光，定了整个片子的气质

很多人写到最后才随便加一句场景。不写的话，模型默认给你一个"均匀白光室内"——最平庸的那种。

实测好用的光

场景	怎么写	效果
室外黄昏	"金色时刻的光，地面上拉出长影子"	暖，有质感
室内冷	"头顶一根日光灯管，硬阴影切了半边脸"	冷峻，紧张
夜晚	"湿路面反射霓虹灯粉紫色的光"	赛博，层次多
安静	"烛光房间，暖光在脸上晃动"	亲密
自然	"阴天散射光，几乎看不见影子"	干净

背景也能动

Wan 2.2 不止能让人动：

"风穿过树冠，叶子簌簌在落"——比"秋天的公园"好十倍
"雨一直下，雨滴在路灯下清晰可见"——前景有东西，不空
"背景里人群在慢慢流动，焦点始终在主体脸上"——有生活感

光和动作的情绪得对得上

动作"慢慢地、轻轻地"，光写"刺眼频闪"——打架。动作"猛地站起来"，光写"柔和散射"——泄气。

简单匹配： 快动作配硬光、高对比；慢动作配软光、暖调。

结构搞清楚了。但真正有用的是：跑出来的片子不行，你能不能一眼看出是哪层出的问题。

快速诊断：对号找问题

出来的效果	大概率问题出在	怎么改
脸在变、五官在漂	第一层：锚点不够	加两个区分特征，每段提示词复制粘贴一模一样的
人几乎不动、或一直重复一个动作	第二层：动作太笼统	拆成 2-3 步：往哪→怎么动→然后呢
你写的机位完全没出现	第三层：没写或矛盾	把景别和运动写清楚，只写一种
背景灰的、空的、像没渲染完	第四层：没写或只写了半句	加光源+天气/时间+至少一个动态环境
画面像塑料、人物像蜡	所有层：缺真实质感	在场景里加：皮肤纹理、呼吸水汽、布料褶皱
动作太快糊了	第二层：速度太快	别写"狂奔"，换成"快步""疾走""小跑"
场景对了但人跟场景没关系	第二层+第四层不搭	检查动作的情绪和光的情绪是不是同一个方向