2026/06/03

Wan 2.7 AI 音频生成实战指南:声音克隆、多角色配音到提示词控制

Wan 2.7 音频生成到底怎么用?从声音参考的原理、多角色配音的坑,到音频提示词的边界,一篇讲清楚。含翻车案例和参数建议。

Wan 2.7 AI 音频生成实战指南:声音克隆、多角色配音到提示词控制

做 AI 视频的人都会遇到这个坎:

画面搞定了——角色稳定了,动态也顺了,点下载一看——没声音。

好,加一段声音参考再跑一次。这回声音出来了,嘴型和画面差半拍。那再加一句音频提示词吧,结果声音和画面各演各的。

Wan 2.7 确定能生成音频,问题是:怎么让它出的声音刚好是你想要的那个?

这个问题不是加一个参数就能解决的。

我们做了 200 多次生成测试,专门试这三种能力怎么搭、怎么翻车、怎么救场。下面是全部结论。

读完这篇你会知道: 你的场景该上哪个功能、5 分钟内怎么配好参数、出问题的时候是参考素材不行还是提示词有问题。

Wan 2.7 的三类音频能力

很多人以为 Wan 2.7 只有一个"生成音频"开关。实际上它有三套不同的能力,各自管的事不一样:

1. 声音参考(Voice Reference)——给指定角色分配特定的人声,像配音演员。 2. 多角色配音——同一场景里让不同角色用自己的声音说话,最多 5 个。 3. 音频提示词(Audio Cues)——通过提示词控制背景和环境音,不涉及人声。

这三套东西不是三个独立模型,是 R2V(Reference-to-Video)系统里的同一套能力。可以单用,可以混用。但注意:每多加一种能力,指令冲突的概率就高一分。

下面这个表帮你快速判断用哪个:

场景用声音参考用多角色配音用音频提示词
指定的人声说话
两个角色对话
环境背景音
情绪/氛围
对口型台词看角色数
音效✅(近似)
一首具体的歌外部工具做,后期合成

经验法则: 有人声对白的场景,先只加声音参考跑通,再加多角色,音频提示词最晚加。三个一起上是翻车率最高的配置,没有之一。

各能力的靠谱程度参考:

需求最佳方案靠谱程度
特定人声声音参考高(参考素材质量决定)
两个角色对话多角色 + 声音参考中高
只有环境音音频提示词
一首完整旋律外部工具 + 后期合成不支持
帧级精确对口型外部音频工具低——Wan 2.7 只能做到近似

声音参考:从准备到翻车排查

声音参考的原理很简单:你给一段音频样本,Wan 2.7 生成视频时把这个声音安到指定角色身上。但简单归简单,实操中翻车率最高的也是它。

四项准备工作

不用记太多,就四样东西:

  • 一段干净的音频样本(推荐 3-10 秒,太长反而不好)
  • 角色的视觉参考图(面部清晰、光线均匀)
  • 描述场景的提示词(包含角色动作、台词、画面构图)
  • 确定走 R2V 模式(普通文生视频/图生视频不出音频)

wan27.org 上的操作步骤

  1. 参考转视频(R2V) 模式
  2. 上传 角色参考图——面部别被遮挡,光线别太暗
  3. 上传 声音参考音频——录音底噪越小越好
  4. 写提示词,把场景和角色做什么交代清楚
  5. 生成

声音参考要这样配才有效

参考素材一定要干净。 背景音乐、回声、叠声都会污染模型的学习效果。最理想的状态:对着麦克风、距离固定、说清楚话、录 5 秒。就这么简单。

声音和形象要搭。 参考图里是个粗犷大汉,声音参考却选了尖细的女声——模型不是不能做,但出来的效果大概率两不像。声音和画面看起来得像是同一个人。

台词写自然点。 模型对自然语速的表达最好。太正式或太机械的文本,出来的声音听起来像 AI 念稿。

技术参数给个参考: 48kHz、单声道(mono)、环境噪音不要超过 30%。这是能让模型提取到最干净声音画像的基线。如果你测不了这些指标,有个更简单的判断方法:把音量开到正常大小,你能不能毫不费力地听清说话内容?听不清就重录。

最常见翻车:出了视频,没出声音

这个坑几乎每个用户都会踩一次:传了声音参考,点生成,出来的视频——安静得像默片。

根因不是你文件传错了,是你没在提示词里让角色开口。 模型收到声音参考文件,但提示词没写角色需要说话,它就默认只生成画面。

解决方法: 提示词里加一句"角色对着镜头说话"就够了——不需要写多复杂,这一句就能触发音频生成。

很多人的第一反应是"我声音参考都传了,模型应该知道我要声音"。模型不知道。它只按提示词里写的来。你不写开口,它就闭嘴。

多角色配音:让两个角色用各自的声音对话

这是 Wan 2.7 比较独特的能力——同一场景里,不同角色可以各说各话、各用各的声音。

怎么做到的

R2V 模式下可以传最多 5 组角色参考,每组包含一张视觉参考图和一个可选的声音参考。模型按上传顺序匹配角色: 第一组是你的[角色1],第二组是[角色2],以此类推。

也就是说:

  • 上传顺序 = 角色编号
  • 提示词里的[角色1] = 上传的第一组
  • 提示词里的[角色2] = 上传的第二组

具体操作

  1. 每个角色准备一张视觉参考图(面部清晰)和一段声音参考(可选但推荐)
  2. 按顺序上传——角色1的图+声音 → 角色2的图+声音 → 角色3以此类推
  3. 提示词里用中括号标注哪个角色说什么

提示词里的标注格式:

[角色1]说:"我觉得应该先往西边那条路走。"
[角色2]回了一句:"东边那条路其实更近。"
阳光从树缝里照下来,两个人站在岔路口。

三个要点

声音样本差别要大。 两个角色要是声音参考太像,模型会搞混、把两个声音揉成一个。选音域、语速、口音有明显差异的素材。一个简单的判断方法:把人声样本放给朋友听,他能分清谁是谁吗?分不清,模型也分不清。

不要一上来就搞 5 个人。 先试两个角色、每人一句对话。跑通了再加人数和台词量。多角色场景出问题最难排查,因为你很难判断是哪个参考出了问题。

3 秒干净的录音 > 15 秒嘈杂的录音。 时长不是优势,杂质才是问题。

另一个翻车点:声音和人对不上

上传的时候角色 A 的参考在前、角色 B 的参考在后,但提示词里[角色1]写了 B 的台词、[角色2]写了 A 的台词——出来的声音完全错位。

模型严格按上传顺序匹配,不是按文件名、不是按你心里的预期。 上传之前花 10 秒确认一次顺序:第一组图片是谁?提示词里的[角色1]是不是同一个人?顺序对了就不出错。

音频提示词:能管什么,管不了什么

声音参考管"谁说话",音频提示词管"什么环境"。它和声音参考不是一回事——更像导演给录音师的口头指示,不是给演员的。

音频提示词能管的事

  • 环境氛围 ——"风吹树林的声音""远处车流"
  • 音频风格 ——"有电影感""像现场纪录片""室内收音的那种感觉"
  • 节奏走向 ——"声音慢慢营造紧张感""结尾突然一声巨响"
  • 听感视角 ——"第一人称音频视角""像是在远处听到的"

音频提示词管不了的事

  • 一首具体的曲子或旋律——别指望写一句提示词就能生成周杰伦
  • 精确到帧的时间控制——音频同步只能做到近似,不是帧级别
  • 复杂的多轨音频——对话+背景音+脚步声+音乐同时来,结果通常是混成一团

怎么写有效

两个原则:

第一,说清楚你要什么。 不示范:

❌ "好听的声音,加点背景。" ✅ "清晰的对话声,背景有微弱的城市交通。不要音乐。收音感觉像中距离麦克风。"

第二,说明你不要什么。 音频提示词的否定指令效果不如肯定指令好。"不要背景音乐"的效果,不如"保持安静,只有对话声,没有音乐"。

经验法则:一条提示词里音频相关的指令不要超过 3 条。到第 4 条的时候,模型就开始丢掉优先级的尾部了。

声音参考 + 音频提示词 + 其他 R2V 功能怎么组合

声音参考和音频提示词各自管不同的事,但你可以把它们组合到一次生成里。

什么时候用哪个——速查

场景用声音参考用音频提示词
固定人声
环境背景音
多角色对话
音频氛围/情绪
对口型台词
音效✅(近似)

和其他 R2V 功能的组合方案

声音参考不是独立运行的,它可以配合 R2V 的其他控制功能一起用。下面几套组合是经测试效果比较好的:

声音 + 主体参考: 最适合口播视频、发言人片段、角色为主的内容。视觉参考锁死角色外貌,声音参考锁死角色声音。两样一起上,角色的画面和声音一致性是最高的。

声音 + 主体 + 9 宫格: 适合叙事性场景——几个不同的镜头角度,角色长相和声音都不变。多个机位下的一致性保持靠这个组合。

声音 + 首尾帧: 适合对话场景。你已知开始画面和结束画面的构图,中间交给模型发挥,声音用参考固定。

音频翻车排查手册

嘴型和声音对不上

Wan 2.7 的音频同步只是近似级别的,不是帧级精确。长篇独白比短对话更容易跑偏。

怎么改善: 让角色的脸保持清晰可见——嘴型越清楚,同步越好。对话控制在 5-10 秒以内,长内容分段生成再剪辑。

输出的音频有背景底噪

排查方向有两个:

  1. 先检查你传的参考素材。 底噪的根源 90% 在参考素材本身——有噪音的参考必然产出有噪音的输出。
  2. 参考素材是干净的? 那就简化你的音频提示词。指令越多,模型越容易在"满足所有指令"的过程中产生噪声。

两个角色声音听起来差不多

一个参数帮判断:两个声音参考的音高差异低于 20%,模型大概率会混淆。

解决方法:重新录。让音高、语速、说话风格有明显差异。如果人耳都分不清,模型更分不清。

音频放到一半突然没了

通常是视频时长超过了模型稳定生成音频的有效窗口。经验窗口在 10 秒左右——超过这个长度,音频一致性开始断崖式下降。

解决方法: 把片段控制在 10 秒以内。需要长场景就分段生成、后期剪辑。剪映 5 分钟能搞定的事,别让模型硬扛。

说了"不要背景音乐",还是有

这是音频提示词的一个固有缺陷:否定指令的可靠性低于肯定指令。 "不要 X"这种写法,模型可能直接忽略掉否定部分。

改写法: 不说"不要什么",说"要什么"。把"不要背景音乐"改成"保持安静,只有对话声,没有音乐",效果明显更好。

费用和文件规格

费用参考: 走通完整流程需要 1 次主体参考 + 声音参考(R2V 模式按次计费,声音参考本身不额外扣费)。建议:先用 5 秒片段 + 简单提示词跑通基线验证,不要一上来就上正式制作。

文件规格: 具体支持的上传格式以 wan27.org 当前页面提示为准。同段素材用 48kHz 采样率比低采样率效果好,但文件也不是越大越好——超过模型处理上限并不会改善结果。

什么时候该绕开 Wan 2.7 的音频能力: 如果你需要精确到帧的音频同步、生成特定旋律、或者复杂的多轨混音——用外部工具(配音软件、AU、剪映)做音频轨,再和 Wan 2.7 的视频合在一起。这不是模型不行,是工具选型问题。

常见问题

普通生成模式出不出声音?

不出。音频只有 R2V(参考转视频)模式才有。文生视频和图生视频只有画面。

能不能用一段音乐当声音参考?

当前版本对音乐参考没有做优化。声音参考最擅长处理的是人声。

声音参考录多长合适?

3-10 秒最好。太短了模型抓不住特征,太长了只会引入噪声,不会改善质量。

不同角色能不能用不同语言的声音参考?

声音参考捕捉的是声音特质(音高、音色、语速)而不是语言内容。同一个声音参考可以分配给说不同语言的对话。

Wan 2.7 能不能单独生成音频?

不行。音频一定是视频输出的一部分,没有"只出声音"的模式。

总结

回到最开始的问题:怎么让 Wan 2.7 出的声音刚好是你想要的?

路径很清楚:

口播视频和角色对话类 → 先上声音参考,跑通后再加复杂度。 环境音和氛围类 → 用音频提示词,指令不超过 3 条。 多角色场景 → 声音参考一个角色一个角色加,顺序别搞错。 音乐和帧精确对口型 → 别让模型做它不擅长的事,后期合成就行。

最不出错的起点:一段 5 秒的干净录音、一张角色参考图、一句"角色对着镜头说话"。10 分钟跑通,后面都是优化。

wan27.org 的 R2V 模式试试吧。

订阅简报

加入我们的社区

订阅我们的简报,获取最新动态与资讯