Wan 2.2 提示词公式:我跑了 2000 多条,好的都长一个样
测了三个月才知道,能稳定出片的提示词全是一个结构:主体→动作→镜头→场景。附每条层怎么写的模板、常见翻车对照和排错方法。
你有没有过这种经历——
对着 Wan 2.2 敲了一堆字,等了一分钟出来一看:脸变了,动作像抽帧,镜头角度跟你写的完全两码事。
我一开始天天遇到。后来花了三个月,跑了超过两千条提示词,图生视频、文生视频、Remix 全跑过。每条都记了四样东西:脸有没有崩、动作自不自然、镜头有没有对上、氛围到不到位。
跑着跑着发现一个事:能稳定出片的提示词,结构全一样;翻车的,错的也就那几种。
这篇文章就是教你这个结构。不是玄学,是验证过的公式。
为什么 Wan 2.2 认这个顺序
Wan 2.2 是拿视频数据练出来的。视频的描述有规律——先说画面里有谁,再说在干什么、怎么拍、什么环境。模型训练的时候,它把最多的"注意力"分给了提示词前面的词。
把提示词想象成一个漏斗:前面几个词设了最硬的规矩——人长什么样——后面每一层再补越来越细的上下文。
这就是为什么你在结尾猛加一堆修饰词经常没反应。模型的注意力在前面就花光了。一个细节一直被忽略?把它往前挪,别往后塞。
四层结构,按顺序来
| 层 | 干什么的 | 写多细 |
|---|---|---|
| 1. 主体 | 画面上是谁,什么特征不能丢 | 至少两个视觉锚点 |
| 2. 动作 | 在干什么、怎么动、往哪动 | 速度 + 方向 + 身体部位 |
| 3. 镜头 | 机位在哪、怎么拍 | 景别 + 动不动 + 要不要虚化 |
| 4. 场景 | 什么环境、光怎么打 | 光源 + 氛围 + 有没有环境动态 |
顺序不能换。 把场景写前面,模型会先给你一张漂亮背景,然后随便安一个面目模糊的人——因为它的算力花在了不该花的地方。
第一层:主体,给模型一个跑不掉的特征
别以为给了参考图就万事大吉了。参考图只管第一帧,后面模型会自己"脑补",补着补着就漂了。主体层的任务就是告诉它:这些特征给我死死守住。
有锚点的写法:
- "下颌线很利落的女生,深色眼睛,左边耳朵戴银色水滴坠"——三个锚
- "橘色虎斑,胸口一撮白毛,左耳缺了一小块"——区分度高,缺了反而好记
- "深蓝西装男,领带松到第三颗扣子,坐得很直但脸上很疲惫"——衣服加状态
没锚点的——写了等于没写:
- "一个女人"——模型只能盲猜
- "有人在走路"——每帧都在重画一个新的人
- "房间里的人"——背景定了人没定
经验:主体至少给两个区分性特征。 疤、眼镜、发型、耳饰、痣都行。模型在帧和帧之间会拿这些特征当参照物——有参照,脸就不漂。
主体稳住了。接下去它得动起来。这层是翻车最多的。
第二层:动作,七成的翻车出在这
我自己跑下来的经验:出不了片的提示词,十条有七条是动作层没写好。
"跳舞""跑步""打架"——大家就写三个字。Wan 2.2 不是你肚子里的蛔虫,它不知道你想让这人怎么动。你把动作拆成三样:多快、往哪动、哪块身体在动。
模型听得懂的词
| 多快 | 往哪 | 哪在动 |
|---|---|---|
| 慢慢地、缓步 | 朝镜头走、远离镜头 | 转头、瞥一眼、低下去 |
| 轻快地、利落地 | 从左到右 | 抬手、挥手、撩头发 |
| 轻轻地、柔柔地 | 往上、蹲下去、侧过身 | 迈一步、跨出去、退后 |
| 猛地、突然 | 绕过去、转过身、贴近 | 靠过去、收回手 |
一条能用的长这样
"她以放松的步速走向镜头,左手一边走一边从耳后撩过头发,走到离镜头大约一米时停下脚步,头微微向右一歪,目光从镜头移开看向右侧。"
这段为什么灵:
- 速度有了: "放松的步速"——不是快也不是慢,是"放松"
- 方向有了: "走向镜头"
- 部位具体: "左手""从耳后撩过"——不是笼统的"拨弄头发"
- 动作给了链条: 走 → 撩发 → 停下 → 歪头 → 看别处。模型每一步都知道"下一帧该往哪去"
最常犯的三种
| 你写的 | 模型出的 | 怎么改 |
|---|---|---|
| "跳舞" | 原地左右晃 | 写什么舞,哪怕只写"街舞步法"四个字 |
| "打架" | 两个人尴尬地贴在一起 | 写谁打谁、出拳还是踢腿、方向 |
| "狂奔" | 画面糊了或动作诡异 | 换成"快步走"或"疾走",慢其实更像真的 |
人知道怎么动了。但观众怎么看这个画面?全靠第三层。
第三层:镜头,最简单也最容易被忽视
Wan 2.2 对镜头指令的响应超过很多人想象。好的镜头描述能救一条中等的动作描述。 因为模型在训练数据里见过太多镜头语言,你给它一个术语它就知道什么意思。
镜头词速查
| 词 | 效果 | 什么时候用 |
|---|---|---|
| 固定镜头 | 不动 | 对话、特写、氛围 |
| 缓慢左摇/右摇 | 水平扫 | 展示环境、人物出场 |
| 推近 | 靠近主体 | 情绪上头、进入细节 |
| 拉远 | 离开主体 | 大全景、制造距离感 |
| 手持晃动 | 呼吸感 | 纪实、跟拍、不安感 |
| 航拍 | 高处往下 | 大场面、追逐 |
| 浅景深 | 背景虚 | 突主体、电影感 |
| 特写/大特写 | 怼脸 | 表情、关键物件 |
组合一下
"中近景,浅景深,缓慢推近,轻微手持晃动"
十四个字,告诉模型四件事:框到胸口 → 背景虚掉 → 慢慢靠过去 → 加点晃动免得像 CG。
别这样写
"航拍拉远然后切大特写"——模型直接懵了。一个镜头就一个机位、一种运动。别在一个句子里切来切去。
常见翻了:
- "广角"+"特写"(广角本身就是宽的)
- "动态摇晃"+"固定机位"(你动还是不动)
- "从上往下快速扫过"+"保持主体在画面中心"(矛盾指令)
镜头有了,就看最后一个问题:这一切发生在哪。
第四层:场景和光,定了整个片子的气质
很多人写到最后才随便加一句场景。不写的话,模型默认给你一个"均匀白光室内"——最平庸的那种。
实测好用的光
| 场景 | 怎么写 | 效果 |
|---|---|---|
| 室外黄昏 | "金色时刻的光,地面上拉出长影子" | 暖,有质感 |
| 室内冷 | "头顶一根日光灯管,硬阴影切了半边脸" | 冷峻,紧张 |
| 夜晚 | "湿路面反射霓虹灯粉紫色的光" | 赛博,层次多 |
| 安静 | "烛光房间,暖光在脸上晃动" | 亲密 |
| 自然 | "阴天散射光,几乎看不见影子" | 干净 |
背景也能动
Wan 2.2 不止能让人动:
- "风穿过树冠,叶子簌簌在落"——比"秋天的公园"好十倍
- "雨一直下,雨滴在路灯下清晰可见"——前景有东西,不空
- "背景里人群在慢慢流动,焦点始终在主体脸上"——有生活感
光和动作的情绪得对得上
动作"慢慢地、轻轻地",光写"刺眼频闪"——打架。动作"猛地站起来",光写"柔和散射"——泄气。
简单匹配: 快动作配硬光、高对比;慢动作配软光、暖调。
结构搞清楚了。但真正有用的是:跑出来的片子不行,你能不能一眼看出是哪层出的问题。
快速诊断:对号找问题
| 出来的效果 | 大概率问题出在 | 怎么改 |
|---|---|---|
| 脸在变、五官在漂 | 第一层:锚点不够 | 加两个区分特征,每段提示词复制粘贴一模一样的 |
| 人几乎不动、或一直重复一个动作 | 第二层:动作太笼统 | 拆成 2-3 步:往哪→怎么动→然后呢 |
| 你写的机位完全没出现 | 第三层:没写或矛盾 | 把景别和运动写清楚,只写一种 |
| 背景灰的、空的、像没渲染完 | 第四层:没写或只写了半句 | 加光源+天气/时间+至少一个动态环境 |
| 画面像塑料、人物像蜡 | 所有层:缺真实质感 | 在场景里加:皮肤纹理、呼吸水汽、布料褶皱 |
| 动作太快糊了 | 第二层:速度太快 | 别写"狂奔",换成"快步""疾走""小跑" |
| 场景对了但人跟场景没关系 | 第二层+第四层不搭 | 检查动作的情绪和光的情绪是不是同一个方向 |
三十秒筛一遍,别每次都干等
这是我三板斧后的工作习惯:写复杂提示词之前,先来个极简版测试。
- 只写主体 + 动作,控制在十五个字以内
- 最低分辨率跑一段 5 秒
- 只检查两样:脸稳不稳?动作自不自然?
这两样不过,加镜头和场景也救不回来。脸漂和动作僵是地基问题,后面几层补不了。
过了,再往上加镜头和场景跑完整版。
这个习惯帮我省了大概六成的调参时间。每次验证只要二三十秒,不用等完整版的一分多钟。改五轮提示词就省了五分钟。
下面两组完整案例,差→还行→好,都列出来。
完整对比:人像镜头
差: "一个女生在笑"
→ 模型给你一张塑料笑脸,不动,没层次。
还行: "银色短发女生,戴圆框玳瑁眼镜,看书时抬起头轻轻笑了一下,固定特写,窗外午后阳光从左边打过来,柔和的阴影在脸上"
→ 脸有锚点(短发、眼镜)、动作有节奏(抬→笑)、光有来源。
好的: "银色短发女生,戴圆框玳瑁眼镜,左眉上一道浅浅旧疤——正从旧平装书里缓缓抬头,笑意从嘴角慢慢漫开,目光对上镜头后停住,浅景深固定特写,午后暖光透过纱帘洒进来,光柱里有细小的灰尘在浮动,背景是柔和的虚化光斑"
→ 疤和眼镜是两个不能丢的锚。"笑意慢慢漫开"是节奏化的,不是一次性动作。灰尘浮动给光线加了质感。背景虚化光斑告诉模型浅景深要出什么效果。
完整对比:动作镜头
差: "城市里有人在跑"
→ 步态诡异,背景糊成一片。
还行: "穿深色连帽衫的男人,在窄巷里快步走,背后跟拍,湿路面反射橙色路灯的光,下着小雨"
→ 速度给了、机位给了、氛围有了。
好的: "深色连帽衫的男人,帽子拉起来遮了半张脸,在砖墙窄巷里快步走——冷空气里能看见他呼出的白色雾气,齐腰高背后跟拍,镜头轻微上下晃像有人在后面追着拍,湿鹅卵石路面反射橙色钠灯的光,细雨在光束里拉成亮丝,他经过的井盖上冒着白色蒸汽"
→ 关键是这些:可见的呼吸给了温度信息。镜头晃动给了"被追拍"的感觉。齐腰高度不像摆拍。井盖蒸汽告诉你这是有温度的真实街道,不是背景板。
写对了、验证过了。但跑多了总会遇到几个死磕的问题。
四个顽固问题的解法
人脸跑到中途变了
什么现象: 前两秒好好的,第三秒开始脸型变了、五官位置跑了。
原因: 主体锚不够。模型在帧和帧之间没有足够信息"绑住"这个人。
怎么改: 加两个锚点。疤、眼镜、耳饰、发色、痣。而且所有需要连在一起的片段,主体描述一个字都不能改——改一个字模型就可能重新理解这个角色。
动作动一半停了
什么现象: 开头在动,中间卡了,或者一直在循环同一个动作。
原因: 只给了一个动词。"走路"只告诉模型"要动",没告诉"动到哪、之后干啥"。
怎么改: 给 2-3 步。"走向镜头 → 停住 → 歪头看向右边"。每一步都给模型一个"下一帧要达到的目标"。
镜头跟你写的不一样
什么现象: 写了"固定",结果画面在推;写了"特写",出来是全景。
原因: Wan 2.2 在没镜头指令的时候会默认轻微推近。而且如果你塞了互相矛盾的词,它不知道你要干嘛就瞎选。
怎么改: 每条提示词里必须写镜头,哪怕就"固定镜头"三个字。做运动就只做一种,别混。
像动画不像实拍
什么现象: 画面太干净、太"光滑",一看就是 AI 做的。
原因: 缺质感。真实画面有噪点、有瑕疵、有皮肤纹理。
怎么改: 在场景层加这些短词:皮肤纹理、胶片颗粒、轻微噪点、呼吸水汽、布料褶皱。不需要全加,加一两个就有用。
要说的差不多都在上面了。帮你省点时间,最后再列几条反复验证过的经验。
- 提示词越短,越要把主体写死;越长,越要注意别在镜头层塞矛盾词。
- 别在提示词最后猛追加修饰——前面没提的东西,后面追也没用。把重要的往前搬。
- 同一个角色、需要多段衔接,主体描述一个字别动。copy paste 过去。
- 你习惯先写场景再写人的话——改过来。先把人说清楚。
- NSFW 用 Remix 版本,别用基础模型。基础模型要么糊要么不生成。
- LightX2V 4 步 LoRA 能在几乎不丢画质的前提下把速度提一倍。显存不够的,这是救命的。
给 Wan 2.2 写提示词不是碰运气。好的 prompt,结构是一样的。
把这个公式记住:主体 → 动作 → 镜头 → 场景。 先写一遍,跑一次,哪不行从镜头层开始改。不要每次整段重写。
在 wan27.org 上传一张参考图,把提示词贴上去,两分钟出片。按这个结构来,第一轮就能看到不一样。
更多文章
Wan 2.7 模型下载指南:HuggingFace 找不到?ModelScope 国内高速下载完整教程
中国开发者如何下载 Wan 2.7 模型权重。ModelScope 国内高速下载完整步骤(附命令)、HuggingFace 搜不到官方权重的真相、GitHub Releases 备用方案、以及下载前必须确认的硬件要求。

Wan 2.7 完整指南:功能、API、价格和开源情况
一篇实用的 Wan 2.7 入门指南,梳理它和旧版 Wan 的区别、视频与图像能力、API 访问、本地工作流、价格和最快上手方式。
Wan 2.7 视频复刻指南:一个好片段变出多个版本
实用的 Wan 2.7 视频复刻指南,帮你把一段已经跑通的视频片段重建成多个版本,保留核心动态、节奏和创意。区分复刻 vs 编辑 vs 续写,提示词结构,以及 wan27.org 上的可重复工作流。
订阅简报
加入我们的社区
订阅我们的简报,获取最新动态与资讯