Wan 2.7 怎么训 LoRA?从准备数据到 ComfyUI 加载,完整流程
Wan 2.7 训练 LoRA 完整教程。不用重训整个模型,用十几张图就能让 AI 学会你的角色、画风或产品。包含数据准备、标签写法、Kohya SS 参数设置、常见踩坑和 ComfyUI 加载方法。
你在小红书或者 B 站上看到有人用 Wan 2.7 做了一条短片。主角从第一个镜头到最后一个镜头都是同一张脸。衣服没变,长相没崩。
你不死心,自己去试。
提示词写得很详细了——"棕色短发的亚洲女生,圆脸,大眼睛"——第一段还行。第二段开始,脸型变了,发型歪了,第三段直接换人。
你加了参考图。好一点,但还是不稳。
这个时候你需要的不叫"更好的提示词"。叫 LoRA。
LoRA 不是 Wan 2.7 专属的东西,它最早在 Stable Diffusion 圈子里普及开的——用十几张到几十张图,训练一个小插件,挂在模型上,模型就能稳定产出你要的角色、画风、或者产品外观。
Wan 2.7 支持 LoRA。这篇教程就是教你从头到尾训一个出来。
先想清楚:你要训什么?
LoRA 不是万能的。它能学会这些东西:
- 一个特定的人脸、身材、服装搭配
- 一种统一的画风——比如宫崎骏风、赛博朋克风、水彩风
- 一个实体产品的外观——你的玩具、你的包包、你的耳机
- 一种运镜习惯——手持晃动、平滑推拉
- 去掉安全审查(NSFW)
反过来,它不适合学这些:
- 复杂的动作序列——LoRA 学的是"长什么样",不是"怎么动"
- 多个完全不相关的主体放在一个 LoRA 里——会互相干扰
- 只用文字概念去训——必须要有图
想清楚再动手,比瞎训重要得多。
准备数据:这一步决定了 LoRA 的上限
说句实话:LoRA 效果好不好,八成取决于你喂的图好不好。参数调半天不如把图选好。
要多少张?
一个角色或者一个画风,最少 10-15 张,推荐 20-50 张。
少于 10 张不是不能训,但模型基本就是在背你那几张图,换个角度就崩。
什么样的图算好?
拿训练一个角色来举例。假设你要训一个女生角色,叫"小云"。
好数据长这样:
- 正面照、侧面照、半侧脸、大半身、全身——全都有
- 有的在室内,有的在室外,光线不一样
- 有的笑,有的不笑,表情有变化
- 穿不同的衣服——但体型一致
- 全都是高清图,1024x1024 以上,不糊
- 没有水印、没有字幕、没有美颜滤镜
差数据长这样:
- 10 张全是同一组自拍,角度一样,光线一样
- 有几张糊了,有几张加了滤镜
- 背景全是白墙——模型学了之后,一生成就是白墙背景
一句话:你要让模型看到这个角色在不同情况下的样子,但每次都能认出"这是同一个人"。
训画风的话同理——用不同内容的图,但全都套了同一种画风。
标签怎么写?
每张图都要配一行文字标签。标签的作用是告诉模型"图里哪些东西是你要它学的,哪些是背景噪音可以忽略"。
假设你要训的角色叫 xiaoyun。
好的标签:
xiaoyun, 一个女生坐在咖啡馆里, 手里拿着咖啡, 自然光从窗户照进来, 背景有其他客人坏的标签:
一个棕色短发的亚洲女生, 圆脸, 大眼睛, 坐在咖啡馆里拿着咖啡看出区别没有?
好的标签:触发词只占一小部分,大量描述的是背景、光线、环境、动作。 这样模型就会把"xiaoyun"和画面里所有跟背景无关的东西绑定在一起——正好就是角色本身。
坏的标签:把角色的特征全写出来了——"棕色短发、圆脸、大眼睛"。模型学会了按这些特征去画,而不是按触发词去调角色。最后你写 xiaoyun 它没反应,写"棕色短发圆脸"反而对了——这就没意义了。
再加一条:标签里可以写"不存在"的东西。 比如这个角色从来不戴眼镜,标签里写"没戴眼镜"。这能帮模型不要脑补眼镜上去。
格式上,用逗号分隔,用自然语言,不要用 Stable Diffusion 那种 tag 堆叠体("1girl, brown hair, round face..."),Wan 2.7 吃自然语言比吃 tag 好。
准备硬件
好消息:训 LoRA 比跑 Wan 2.7 视频生成对显卡要求低。
| 你的卡 | 能不能训 | 大概多久 | 备注 |
|---|---|---|---|
| RTX 4090 24GB | ✅ | 半小时到一个多小时 | 目前最好的消费级选择 |
| RTX 3090 24GB | ✅ | 一小时到两小时 | 跟 4090 体验接近 |
| RTX 4080 16GB | ✅ | 一到三小时 | 开 gradient checkpointing |
| RTX 4070 12GB | ⚠️ | 两小时以上 | rank 设小一点 |
| RTX 4060 8GB | ⚠️ 勉强 | 慢 | 得用云端方案更实际 |
| 没有 NVIDIA 卡 | ❌ | — | Colab 或者 AutoDL 租卡 |
没有好显卡的话,AutoDL 或者恒源云租一个 3090,几块钱一小时,训完就关,比买卡划算。
开始训练
工具选哪个?
Kohya SS。 有图形界面,社区最成熟。不管你是第一次训还是训过 Stable Diffusion 的 LoRA,都先用这个。别一上来就折腾 diffusers 命令行——等你能稳定训出能用的 LoRA 了再说。
Kohya SS 本身有英文版,但国内社区也有不少中文教程和汉化包,B 站一搜就有。
第一步:整理文件夹
建一个项目文件夹,比如叫 xiaoyun_lora。结构长这样:
xiaoyun_lora/
image/
01.jpg
02.jpg
03.jpg
...
caption/
01.txt
02.txt
03.txt
...图片放 image 文件夹,标签放 caption 文件夹,一一对应。
标签文件的内容就是你写的那一行:xiaoyun, 一个女生坐在咖啡馆里, 自然光...
第二步:设 Kohya SS 参数
打开 Kohya SS。几个关键参数:
- LoRA type: Standard
- Network rank (dim): 设 32。这个是 LoRA 的"容量"。32 够一个角色用了。想更细腻上 64,但文件体积翻倍。
- Network alpha: 设 16。一般是 rank 的一半。
- Learning rate: 1e-4(也就是 0.0001)。这个是学习速度。新手别乱改。
- Batch size: 显存够就 2,显存紧张就 1。
- Max train epochs: 10。先别改。
- Optimizer: AdamW8bit。
- Resolution: 1024x1024。你的图是多大就设多大。
- Save every N epochs: 设 1。每个 epoch 都存一个版本,方便回滚。
参数的意思搞不清楚不要紧,新手用这套默认值,十有八九能训出一个能用的 LoRA。
第三步:开训,但别等跑完再看
点开始训练之后,最蠢的操作是一口气等它跑完再回来看结果。
正确做法:
- 跑完第 1 个 epoch,去 output 文件夹找到刚存的 LoRA 文件
- 扔进 ComfyUI,用触发词生成一张图
- 看看角色有没有出来
判断标准:触发词 xiaoyun 加上去之后,生成的人脸能看到跟训练图相似的特征。但背景、动作、光线还能跟着提示词变。这就对了。
如果第 1 个 epoch 角色完全没出来 → 继续跑,可能要多跑几个 epoch 才生效。
如果到了第 5-6 个 epoch,角色是出来了,但无论提示词写什么背景都是白墙(训练图里的背景)→ 过拟合了。回退到第 3-4 个 epoch 的版本用。
如果画面开始扭曲、人脸变形、颜色诡异 → 练过头了。降低 learning rate 重新训,或者直接用更早的 epoch 版本。
一般来说,20 张训练图、1024 分辨率、rank 32,5-8 个 epoch 是最佳区间。不要迷信"越多越好"。
在 ComfyUI 里用
LoRA 文件是 .safetensors 格式。训好之后:
- 把它丢进
ComfyUI/models/loras/文件夹 - 在 ComfyUI 工作流里加一个 Load LoRA 节点
- Load LoRA → 接在 Load Checkpoint 和 KSampler 之间
- Strength 设 0.7-0.8。不要设 1.0,会让 LoRA 压死提示词的灵活性
- 提示词里写上你的触发词,比如
xiaoyun
能叠加多个 LoRA。一个角色 LoRA 拉 0.8,加一个画风 LoRA 拉 0.5,两个都会生效。但别超过三个——叠多了画质会崩。
踩坑速查
训 LoRA 来回翻几次车很正常。这几个坑是最多人踩的:
标签把角色特征全写出来了。 角色是"棕色短发圆脸女生",标签里全写上了。模型学会了这些特征词,没学会触发词。→ 标签只写环境和动作,别写角色特征。
训练图全是同一个角度。 10 张图全是一个角度的脸。换个角度就崩。→ 正面、侧面、半侧、全身都要有。
跑太多 epoch,过拟合。 触发词写下去永远出同一张图,别的提示词怎么写都没用。→ 每个 epoch 都存,挑中间版本的用。
用低分辨率图训练,然后想生成 1080p 视频。 全是马赛克和伪影。→ 训练图和目标输出分辨率一致。
触发词太普通。 用"girl"或者"美女"当触发词,跟模型本身的知识打架。→ 用自造词。
常见问题
没显卡怎么办?
租云 GPU。AutoDL 或者恒源云,3090 一小时几块钱。Kohya SS 可以在云上跑。
训好之后能商用吗?
能。Apache 2.0 许可证,你训出来的 LoRA 是你的衍生作品,可以卖、可以分享、可以商用。
用图片训的 LoRA,生成视频也管用吗?
管用。底层模型是同一个,LoRA 学的特征会在视频生成时也表现出来。但如果是特定动作相关的,最好训练集里加几帧视频画面。
一个 LoRA 能学多个角色吗?
能,但不太建议新手搞。多个角色各自配不同的触发词,训练图要翻倍,rank 也得加。先训好单角色再说。
API 版能用 LoRA 吗?
不能。LoRA 必须本地部署才能加载。这也是很多人从 API 转本地的分水岭。
训 LoRA 这件事,门槛不在技术,在耐心。
第一遍大概率翻车。第二遍可能勉强能用。第三遍你会摸到感觉——什么样的图能训好、标签怎么写更稳、几个 epoch 该停。
一旦训出来了,Wan 2.7 就从"别人的模型"变成了"你自己的工具"。
准备好训了?环境还没搭的话,先看 Wan 2.7 ComfyUI 本地部署指南 把环境跑通。
更多文章
Wan 2.7 开源了吗?能免费用、能本地部署吗?(2026年5月最新)
阿里通义万相 Wan 2.7 开源状况全说清:Apache 2.0 可商用、ModelScope 和 HuggingFace 下载、24GB 显存起步、ComfyUI 本地部署步骤、和阿里云 API 版的区别。

Wan 2.7 官网怎么找:官方来源和在线使用入口
2026 年 4 月 22 日更新:Wan 2.7 的官方来源主要指向 wan.video 和阿里云模型工作室。如果只是想在线生成,可以直接使用 wan27.org。

Wan 2.7 Image 发布:时间、功能、价格和使用方法
2026 年 4 月 24 日更新:Wan 2.7 Image 的发布日期、标准版和 Pro 区别、wan27.org 当前积分价格,以及它适合用来生成什么。
订阅简报
加入我们的社区
订阅我们的简报,获取最新动态与资讯