2026/06/04

Wan 2.2 提示词公式:我跑了 2000 多条,好的都长一个样

测了三个月才知道,能稳定出片的提示词全是一个结构:主体→动作→镜头→场景。附每条层怎么写的模板、常见翻车对照和排错方法。

Wan 2.2 提示词公式:我跑了 2000 多条,好的都长一个样

你有没有过这种经历——

对着 Wan 2.2 敲了一堆字,等了一分钟出来一看:脸变了,动作像抽帧,镜头角度跟你写的完全两码事。

我一开始天天遇到。后来花了三个月,跑了超过两千条提示词,图生视频、文生视频、Remix 全跑过。每条都记了四样东西:脸有没有崩、动作自不自然、镜头有没有对上、氛围到不到位。

跑着跑着发现一个事:能稳定出片的提示词,结构全一样;翻车的,错的也就那几种。

这篇文章就是教你这个结构。不是玄学,是验证过的公式。

为什么 Wan 2.2 认这个顺序

Wan 2.2 是拿视频数据练出来的。视频的描述有规律——先说画面里有谁,再说在干什么、怎么拍、什么环境。模型训练的时候,它把最多的"注意力"分给了提示词前面的词。

把提示词想象成一个漏斗:前面几个词设了最硬的规矩——人长什么样——后面每一层再补越来越细的上下文。

这就是为什么你在结尾猛加一堆修饰词经常没反应。模型的注意力在前面就花光了。一个细节一直被忽略?把它往前挪,别往后塞。

四层结构,按顺序来

干什么的写多细
1. 主体画面上是谁,什么特征不能丢至少两个视觉锚点
2. 动作在干什么、怎么动、往哪动速度 + 方向 + 身体部位
3. 镜头机位在哪、怎么拍景别 + 动不动 + 要不要虚化
4. 场景什么环境、光怎么打光源 + 氛围 + 有没有环境动态

顺序不能换。 把场景写前面,模型会先给你一张漂亮背景,然后随便安一个面目模糊的人——因为它的算力花在了不该花的地方。


第一层:主体,给模型一个跑不掉的特征

别以为给了参考图就万事大吉了。参考图只管第一帧,后面模型会自己"脑补",补着补着就漂了。主体层的任务就是告诉它:这些特征给我死死守住。

有锚点的写法:

  • "下颌线很利落的女生,深色眼睛,左边耳朵戴银色水滴坠"——三个锚
  • "橘色虎斑,胸口一撮白毛,左耳缺了一小块"——区分度高,缺了反而好记
  • "深蓝西装男,领带松到第三颗扣子,坐得很直但脸上很疲惫"——衣服加状态

没锚点的——写了等于没写:

  • "一个女人"——模型只能盲猜
  • "有人在走路"——每帧都在重画一个新的人
  • "房间里的人"——背景定了人没定

经验:主体至少给两个区分性特征。 疤、眼镜、发型、耳饰、痣都行。模型在帧和帧之间会拿这些特征当参照物——有参照,脸就不漂。


主体稳住了。接下去它得动起来。这层是翻车最多的。

第二层:动作,七成的翻车出在这

我自己跑下来的经验:出不了片的提示词,十条有七条是动作层没写好。

"跳舞""跑步""打架"——大家就写三个字。Wan 2.2 不是你肚子里的蛔虫,它不知道你想让这人怎么动。你把动作拆成三样:多快、往哪动、哪块身体在动。

模型听得懂的词

多快往哪哪在动
慢慢地、缓步朝镜头走、远离镜头转头、瞥一眼、低下去
轻快地、利落地从左到右抬手、挥手、撩头发
轻轻地、柔柔地往上、蹲下去、侧过身迈一步、跨出去、退后
猛地、突然绕过去、转过身、贴近靠过去、收回手

一条能用的长这样

"她以放松的步速走向镜头,左手一边走一边从耳后撩过头发,走到离镜头大约一米时停下脚步,头微微向右一歪,目光从镜头移开看向右侧。"

这段为什么灵:

  • 速度有了: "放松的步速"——不是快也不是慢,是"放松"
  • 方向有了: "走向镜头"
  • 部位具体: "左手""从耳后撩过"——不是笼统的"拨弄头发"
  • 动作给了链条: 走 → 撩发 → 停下 → 歪头 → 看别处。模型每一步都知道"下一帧该往哪去"

最常犯的三种

你写的模型出的怎么改
"跳舞"原地左右晃写什么舞,哪怕只写"街舞步法"四个字
"打架"两个人尴尬地贴在一起写谁打谁、出拳还是踢腿、方向
"狂奔"画面糊了或动作诡异换成"快步走"或"疾走",慢其实更像真的

人知道怎么动了。但观众怎么看这个画面?全靠第三层。

第三层:镜头,最简单也最容易被忽视

Wan 2.2 对镜头指令的响应超过很多人想象。好的镜头描述能救一条中等的动作描述。 因为模型在训练数据里见过太多镜头语言,你给它一个术语它就知道什么意思。

镜头词速查

效果什么时候用
固定镜头不动对话、特写、氛围
缓慢左摇/右摇水平扫展示环境、人物出场
推近靠近主体情绪上头、进入细节
拉远离开主体大全景、制造距离感
手持晃动呼吸感纪实、跟拍、不安感
航拍高处往下大场面、追逐
浅景深背景虚突主体、电影感
特写/大特写怼脸表情、关键物件

组合一下

"中近景,浅景深,缓慢推近,轻微手持晃动"

十四个字,告诉模型四件事:框到胸口 → 背景虚掉 → 慢慢靠过去 → 加点晃动免得像 CG。

别这样写

"航拍拉远然后切大特写"——模型直接懵了。一个镜头就一个机位、一种运动。别在一个句子里切来切去。

常见翻了:

  • "广角"+"特写"(广角本身就是宽的)
  • "动态摇晃"+"固定机位"(你动还是不动)
  • "从上往下快速扫过"+"保持主体在画面中心"(矛盾指令)

镜头有了,就看最后一个问题:这一切发生在哪。

第四层:场景和光,定了整个片子的气质

很多人写到最后才随便加一句场景。不写的话,模型默认给你一个"均匀白光室内"——最平庸的那种。

实测好用的光

场景怎么写效果
室外黄昏"金色时刻的光,地面上拉出长影子"暖,有质感
室内冷"头顶一根日光灯管,硬阴影切了半边脸"冷峻,紧张
夜晚"湿路面反射霓虹灯粉紫色的光"赛博,层次多
安静"烛光房间,暖光在脸上晃动"亲密
自然"阴天散射光,几乎看不见影子"干净

背景也能动

Wan 2.2 不止能让人动:

  • "风穿过树冠,叶子簌簌在落"——比"秋天的公园"好十倍
  • "雨一直下,雨滴在路灯下清晰可见"——前景有东西,不空
  • "背景里人群在慢慢流动,焦点始终在主体脸上"——有生活感

光和动作的情绪得对得上

动作"慢慢地、轻轻地",光写"刺眼频闪"——打架。动作"猛地站起来",光写"柔和散射"——泄气。

简单匹配: 快动作配硬光、高对比;慢动作配软光、暖调。


结构搞清楚了。但真正有用的是:跑出来的片子不行,你能不能一眼看出是哪层出的问题。

快速诊断:对号找问题

出来的效果大概率问题出在怎么改
脸在变、五官在漂第一层:锚点不够加两个区分特征,每段提示词复制粘贴一模一样的
人几乎不动、或一直重复一个动作第二层:动作太笼统拆成 2-3 步:往哪→怎么动→然后呢
你写的机位完全没出现第三层:没写或矛盾把景别和运动写清楚,只写一种
背景灰的、空的、像没渲染完第四层:没写或只写了半句加光源+天气/时间+至少一个动态环境
画面像塑料、人物像蜡所有层:缺真实质感在场景里加:皮肤纹理、呼吸水汽、布料褶皱
动作太快糊了第二层:速度太快别写"狂奔",换成"快步""疾走""小跑"
场景对了但人跟场景没关系第二层+第四层不搭检查动作的情绪和光的情绪是不是同一个方向

三十秒筛一遍,别每次都干等

这是我三板斧后的工作习惯:写复杂提示词之前,先来个极简版测试。

  1. 只写主体 + 动作,控制在十五个字以内
  2. 最低分辨率跑一段 5 秒
  3. 只检查两样:脸稳不稳?动作自不自然?

这两样不过,加镜头和场景也救不回来。脸漂和动作僵是地基问题,后面几层补不了。

过了,再往上加镜头和场景跑完整版。

这个习惯帮我省了大概六成的调参时间。每次验证只要二三十秒,不用等完整版的一分多钟。改五轮提示词就省了五分钟。


下面两组完整案例,差→还行→好,都列出来。

完整对比:人像镜头

差: "一个女生在笑"

→ 模型给你一张塑料笑脸,不动,没层次。

还行: "银色短发女生,戴圆框玳瑁眼镜,看书时抬起头轻轻笑了一下,固定特写,窗外午后阳光从左边打过来,柔和的阴影在脸上"

→ 脸有锚点(短发、眼镜)、动作有节奏(抬→笑)、光有来源。

好的: "银色短发女生,戴圆框玳瑁眼镜,左眉上一道浅浅旧疤——正从旧平装书里缓缓抬头,笑意从嘴角慢慢漫开,目光对上镜头后停住,浅景深固定特写,午后暖光透过纱帘洒进来,光柱里有细小的灰尘在浮动,背景是柔和的虚化光斑"

→ 疤和眼镜是两个不能丢的锚。"笑意慢慢漫开"是节奏化的,不是一次性动作。灰尘浮动给光线加了质感。背景虚化光斑告诉模型浅景深要出什么效果。

完整对比:动作镜头

差: "城市里有人在跑"

→ 步态诡异,背景糊成一片。

还行: "穿深色连帽衫的男人,在窄巷里快步走,背后跟拍,湿路面反射橙色路灯的光,下着小雨"

→ 速度给了、机位给了、氛围有了。

好的: "深色连帽衫的男人,帽子拉起来遮了半张脸,在砖墙窄巷里快步走——冷空气里能看见他呼出的白色雾气,齐腰高背后跟拍,镜头轻微上下晃像有人在后面追着拍,湿鹅卵石路面反射橙色钠灯的光,细雨在光束里拉成亮丝,他经过的井盖上冒着白色蒸汽"

→ 关键是这些:可见的呼吸给了温度信息。镜头晃动给了"被追拍"的感觉。齐腰高度不像摆拍。井盖蒸汽告诉你这是有温度的真实街道,不是背景板。


写对了、验证过了。但跑多了总会遇到几个死磕的问题。

四个顽固问题的解法

人脸跑到中途变了

什么现象: 前两秒好好的,第三秒开始脸型变了、五官位置跑了。

原因: 主体锚不够。模型在帧和帧之间没有足够信息"绑住"这个人。

怎么改: 加两个锚点。疤、眼镜、耳饰、发色、痣。而且所有需要连在一起的片段,主体描述一个字都不能改——改一个字模型就可能重新理解这个角色。

动作动一半停了

什么现象: 开头在动,中间卡了,或者一直在循环同一个动作。

原因: 只给了一个动词。"走路"只告诉模型"要动",没告诉"动到哪、之后干啥"。

怎么改: 给 2-3 步。"走向镜头 → 停住 → 歪头看向右边"。每一步都给模型一个"下一帧要达到的目标"。

镜头跟你写的不一样

什么现象: 写了"固定",结果画面在推;写了"特写",出来是全景。

原因: Wan 2.2 在没镜头指令的时候会默认轻微推近。而且如果你塞了互相矛盾的词,它不知道你要干嘛就瞎选。

怎么改: 每条提示词里必须写镜头,哪怕就"固定镜头"三个字。做运动就只做一种,别混。

像动画不像实拍

什么现象: 画面太干净、太"光滑",一看就是 AI 做的。

原因: 缺质感。真实画面有噪点、有瑕疵、有皮肤纹理。

怎么改: 在场景层加这些短词:皮肤纹理、胶片颗粒、轻微噪点、呼吸水汽、布料褶皱。不需要全加,加一两个就有用。


要说的差不多都在上面了。帮你省点时间,最后再列几条反复验证过的经验。

  • 提示词越短,越要把主体写死;越长,越要注意别在镜头层塞矛盾词。
  • 别在提示词最后猛追加修饰——前面没提的东西,后面追也没用。把重要的往前搬。
  • 同一个角色、需要多段衔接,主体描述一个字别动。copy paste 过去。
  • 你习惯先写场景再写人的话——改过来。先把人说清楚。
  • NSFW 用 Remix 版本,别用基础模型。基础模型要么糊要么不生成。
  • LightX2V 4 步 LoRA 能在几乎不丢画质的前提下把速度提一倍。显存不够的,这是救命的。

给 Wan 2.2 写提示词不是碰运气。好的 prompt,结构是一样的。

把这个公式记住:主体 → 动作 → 镜头 → 场景。 先写一遍,跑一次,哪不行从镜头层开始改。不要每次整段重写。

wan27.org 上传一张参考图,把提示词贴上去,两分钟出片。按这个结构来,第一轮就能看到不一样。

订阅简报

加入我们的社区

订阅我们的简报,获取最新动态与资讯