你可能也在烦恼:用 AI 生成大片,画面质感已经很到位了,可角色一开口,瞬间让人出戏。
画面里明明在经历生死关头,配音听起来却像在四平八稳地念产品说明书;好不容易有点情绪起伏,也全靠生硬的大喊大叫…更难受的是,不同的片段里角色的音色完全不一样,很难保持音色一致性。
更别说后面还需要自己添加环境音、音效、背景音乐,对口型…非常折腾。
前不久的火山引擎 FORCE 原动力大会上,字节正式发布了豆包音频生成模型 1.0,丰富且有情绪的声音素材也能端到端生成了。
我们输入一段提示词,豆包音频生成模型1.0 就能把人声、音效、配乐、场景声一次性打包生成。不仅省去了繁琐的多轨混剪,还能模拟出真人说话时细微的呼吸和情绪变化,让 AI 声音听起来更自然、更有人味儿。
在真实创作中表现怎么样呢?今天我们一起实测看看。
01. 多场景下的 AI 声音魔法
我们打开火山方舟体验中心,选择豆包音频生成模型1.0,普通用户有 30 分钟的免费体验额度,后续可通过 API 调用。
我们输入效果提示词和合成文本,点击生成就可以得到一段包含人声和环境音的完整声音片段。
单人配音
我试着生成了一段小说人物独白。
背景音乐轻微铺底,以低沉弦乐、远处鼓声和空灵女声吟唱为主,开头压抑肃穆,像风雪前的寂静;随着人物情绪推进,音乐逐渐增强,但不要盖过人声,整体氛围从孤身赴局到破局立道,庄严、悲壮、克制而高燃。谢长安(青年女声,音色清冷通透,声线稳定,略带压抑感,后段逐渐坚定高燃)状态平静、克制、像在万众注视下立下自己的道一般说道:“满朝贵人都爱惜己身,那就只能由我这样一个小人物来动手,我的道,是众生道,众生,人人可走。有局必有破局之法,与其顺应而行,不如绝地求生,说不定柳暗花明,就在意想不到的第三条路。”
一开始我写青年女声,清冷通透,结果声音偏软,仙气有了,压迫感不够。后来我把提示词改成青年女中音、不要甜美、不要软萌、不要少女感,效果就很接近大女主了。
同步生成的背景音乐也很有气势,和人物声音、情绪很贴合。
多角色配音
我们上传一段双人相声,设置了2个差异比较大的角色:
背景音乐极轻,以小剧场开场锣鼓和短促三弦点缀为主,开头有轻微观众环境声,整体氛围热闹、轻松、接地气。笑声可以少量出现,但不要频繁,不要盖住对白,人声必须清晰靠前。
女逗哏(青年女声,声音明亮清脆,语速快,嘴皮子利索,带一点京味儿和俏皮感,情绪外放但不尖锐)状态兴奋、得意,像发现新工具一样说道:“我跟你说,现在 AI 配音可厉害了,我把稿子一输进去,它直接给我说出来。”
男捧哏(中年男声,声音低沉厚实,语速慢半拍,语气稳,带一点冷幽默和怀疑感)状态淡定、质疑地接话说道:“这有什么新鲜的?以前也能说。”
女逗哏(青年女声,语气抬高,夸张但可爱)说道:“以前那叫说吗?以前那叫电梯播报。”
男捧哏(中年男声,慢半拍,认真接梗)说道:“还挺有纪律。”
女逗哏(青年女声,快速接住,带笑)说道:“纪律是有了,感情是一点没有。”
男捧哏(中年男声,低声笑一下)说道:“主打一个众生平等。”
女逗哏(青年女声,继续兴奋,语速快)说道:“现在不一样了。你让它说儿童故事,它能温柔;你让它说悬疑短剧,它能压低声音;你让它说大女主,它还能带点破局的劲儿。”
男捧哏(中年男声,故意怀疑)说道:“那让它说相声呢?”
女逗哏(青年女声,停顿一下,认真)说道:“这不正说着呢吗?”
男捧哏(中年男声,慢半拍,突然反应过来)说道:“合着我也被生成了?”
两人对话实测下来,双人对话的自然度比普通 TTS 好很多。
女逗哏的节奏更快,情绪转换非常自然,男捧哏的反应更慢,每个音色都很有特点,音色一致性也保持的很棒。
重点是豆包音频生成模型1.0 还直接生成了相声表演现场的观众笑声,非常自然。
一句话就能感受到身临其境的场景,AI 配音的效率提升可见一斑。
有声书长文本
复杂的有声书,往往需要多角色、多环境声的配合。我们尝试了一段复杂的古风悬疑群像:
背景音乐轻微铺底,以低沉弦乐、远处鼓声和冷调古琴为主,整体氛围肃杀、冷冽、压抑,带古风权谋感。第一章宫门与朝堂场景,音乐庄严紧绷,像风雪压城;第二章偏殿密谈场景,音乐更低、更暗,增加轻微悬疑感。环境音包括风雪声、宫门开启声、衣料摩擦声、殿内灯芯爆响、远处禁军脚步声。人声必须清晰靠前,音乐和环境音不要盖过对白。旁白(成年女声,低沉沉稳,叙事感强,语速中等偏慢,声音有画面感和悬疑感,不要播音腔)状态冷静、克制,像在讲述一场风雪夜里的朝堂杀局。沈照雪(青年女中音,声线冷冽、稳定、偏低,有胸腔支撑,咬字清晰,尾音干净,不要甜美、不要软萌、不要少女感)状态隐忍、冷静、锋利,前期压着怒意,后期逐渐显露破局的决绝和掌控感。萧承(青年男声,低沉清冷,语速不快,声音克制,带东宫太子的疏离感和试探感)状态谨慎、沉稳、压抑,像多年蛰伏的人在试探一把可能伤人的刀。裴敬之(中老年男声,低沉薄冷,语速慢,咬字稳,带权臣的压迫感和审视感)状态从容、傲慢、危险,像习惯了掌控朝局的人第一次遇到失控变量。小皇帝(少年男声,声音偏稚嫩但努力端正,语气有紧张和不安)状态被朝局压住,既想问真相,又害怕真相。周侍郎(中年男声,声音略虚,语速先稳后乱)状态心虚、惊慌、强撑镇定。禁军/守将(成年男声,声音低沉短促,语气服从、紧张)状态肃穆、戒备。小太监(少年男声,声音发抖,气息不稳)状态恐惧、崩溃、求生。 沈照雪进京那日,北境的讣告比她先到。讣告上写得明白:镇北军粮道使沈照雪,押送军粮途中遇匪,连人带车坠入黑峡,尸骨无存。可黄昏时分,她披着一件洗得发白的狐裘,牵着一匹瘦马,站在了朱雀门外。守门的禁军看见她腰间那枚半裂的铜雀符,脸色当场变了。铜雀符是先帝赐给镇北军的调兵信物,一半在北境,一半在御案。天下人都知道,北境那半枚,十年前随沈家满门入狱后便失踪了。沈照雪抬手,把铜雀符放在守将掌心。“烦请通传。”她说,“死人回京,想见一见活着的诸公。”风雪灌进宫门,守将的手一抖。半个时辰后,太极殿灯火尽燃。殿中站满了人。左相裴敬之披着紫袍,手里的象牙笏板压在袖中。他年过五旬,眼皮很薄,抬眼看人时,总像在看一页将要烧掉的纸。太子萧承坐在御阶下首,指尖缓慢摩挲茶盏。他身旁的小皇帝只有十二岁,肩上的龙袍宽得像借来的。沈照雪跪在殿中,雪水从衣角滴到青砖上。裴敬之先开口。“沈氏罪女,既未死,何不先去刑部投案?”沈照雪抬起头。她脸色很白,眼神却稳。“臣女若先去刑部,今晚诸位大人就听不见北境的消息了。”殿上有人冷笑。“你一个罪臣之后,能带什么消息?”沈照雪从袖中取出一卷油布,双手呈上。“十七万石军粮,三个月前出了洛仓,账上写着已入北境。可镇北军收到的,只有五万石。”殿中一静。裴敬之没有动。太子萧承却轻轻放下茶盏。“继续说。”沈照雪道:“缺的十二万石,换成白银,足够养三万私兵一年。”有人当场斥道:“放肆!你可知自己在说什么?”“知道。”沈照雪看向那人,“户部右侍郎周大人,您批的出仓文书,印泥里掺了朱砂。臣女从黑峡捡回来的半截粮牌上,正好也有这个印。”周侍郎脸上的血色褪得干干净净。裴敬之终于抬眼。“沈姑娘坠崖未死,倒是长了一张利口。”沈照雪笑了笑。“坠崖前,臣女也不爱说话。”殿外风声更重。小皇帝攥紧龙椅扶手,小声问:“那粮呢?”这句话落下,满殿官员都低了头。沈照雪看着那个少年皇帝。“粮没了。”她顿了顿。“北境也快没了。”太子萧承的眼神沉下去。“镇北军如何?”“七日前,羌戎破了霜河口。镇北军退守沉沙城,城中只余两日粮。”小皇帝站了起来。“为何无人奏报?”沈照雪没有立刻答。她从怀中拿出第二样东西。一支断箭。箭杆上缠着半截红布,红布已经被血浸成黑色。“因为送奏报的人,死在入京前三十里。”她把断箭放到地上。“这是第六个。”殿中无人再笑。太子萧承缓缓起身,走下御阶。他停在沈照雪三步外,视线落在她肩头那片未融的雪上。“你想要什么?”“开仓。”“只要开仓?”“还要一队禁军,护我去洛仓提粮。”裴敬之终于笑了一声。“你要兵?”沈照雪看向他。“裴相说错了,我要的是路。”裴敬之的笑意淡了。“洛仓在京畿,守仓兵马皆归户部调度。一个罪臣之女,凭什么开仓?”沈照雪将手伸进袖中。禁军齐齐按刀。她取出的却是一封血书。血书上的字已经糊了大半,只剩最后一行仍看得清楚。臣沈怀山,愿以满门性命,换北境三年无战。沈怀山是她父亲。十年前,他被定为私通羌戎,满门下狱。沈照雪那年十五岁,跪在刑部门口三日,没人敢给她一口水。如今那封从未送到御前的血书,躺在殿上,像一块迟来的骨头。小皇帝脸色发白。裴敬之的手指在袖中动了一下。沈照雪看见了。她俯身叩首,声音不高,却压过了殿外风雪。“臣女凭沈家十年前没能送到的一封奏疏,凭北境七万将士的命,凭沉沙城中尚未断气的百姓。”她抬起头。“若仍不够,臣女愿立军令状。”萧承问:“几日?”“三日。”“若粮不到沉沙城?”沈照雪看着他,一字一句道:“我死在城门前。”殿上安静得能听见灯芯爆响。
豆包音频生成模型1.0 会自动识别有声书内容,比如文本中风雪灌进宫门的描写,自动去推理和匹配适合的音效。
女主声音冷静、克制,大臣声音慢、带有压迫感,旁白、不同的角色声线都有较高的辨识度。
人声、环境音和背景音乐的音量比例也相对适中,省去了我们在剪辑软件里反复拉音量条的繁琐步骤。
不过豆包音频生成模型1.0 单次最多生成 2 分钟的音频。如果要做完整有声书,需要分段生成。
长文本生成效果一般,部分对话的顺序会颠倒,多音字的识别效果不太稳定,需要备注读音。
AI 短剧配音
我们再试试生活化 AI 短剧。普通 TTS 只能读台词,但短剧需要声音有空间感。
背景音乐轻微铺底,以温暖钢琴、轻柔弦乐和微弱城市环境音为主,整体氛围真实、生活化、带一点温情和反转,不要悬疑恐怖。环境音包括咖啡店轻微人声、杯子碰撞声、门铃声、手机震动声、雨后街道车辆声。人声必须清晰靠前,音乐不要盖过对白。旁白(成年女声,音色温和沉稳,语速中等,带生活故事叙事感)状态平静、细腻,像在讲述一件发生在普通人身上的小事。林夏(青年女声,声音干净清亮,语气有点疲惫但很克制)状态从失落、强撑体面,到后半段慢慢释然。周砚(青年男声,音色低沉温和,语速不快,语气真诚但有点笨拙)状态小心、愧疚、努力解释,不要霸总腔。店员(青年女声,声音轻快自然,语气礼貌)状态短促出现,生活化。章节内容:《靠窗的位置》旁白:“林夏和周砚约在那家咖啡店,是分手后的第七天。”旁白:“雨刚停,窗外的树叶还在滴水。林夏坐在靠窗的位置,桌上放着两杯咖啡。一杯热的,一杯已经凉了。”店员:“您好,需要帮您换一杯热的吗?”林夏:“不用了,谢谢。”旁白:“她说完,看了一眼手机。周砚迟到了二十六分钟。”旁白:“门口风铃响起时,林夏已经把那句‘以后别再联系了’在心里排练了三遍。”周砚:“对不起,我来晚了。”林夏:“你一直都很会来晚。”周砚:“今天是真的堵车。”林夏:“上次是加班,上上次是临时会议。周砚,我不是来听理由的。”旁白:“周砚站在桌边,手里拎着一个纸袋。袋口被雨打湿了一点。”周砚:“我知道。”林夏:“那就坐下,把话说完。”旁白:“他坐到她对面,却没有碰那杯已经冷掉的咖啡。”周砚:“你那天说,我从来没有把你放在第一位。”林夏:“难道不是吗?”周砚:“是。”旁白:“林夏抬眼看他。这个答案太干脆,反倒让她准备好的责备卡在喉咙里。”周砚:“我总觉得,先把工作做好,先把房贷攒够,先把生活稳定下来,我们就会好一点。”林夏:“可我等到的,是你一次又一次缺席。”周砚:“所以我今天不是来求你原谅。”林夏:“那你来干什么?”旁白:“周砚把那个纸袋推到她面前。”周砚:“还你东西。”旁白:“林夏打开纸袋。里面不是她落在他家的围巾,也不是钥匙。”旁白:“是一叠车票、电影票根,还有十几张外卖小票。”林夏:“这是什么?”周砚:“你说我什么都不记得。其实我记得,只是没说。”旁白:“林夏翻到最下面,看见一张已经褪色的便利贴。”旁白:“上面是她两年前写的字:如果以后吵架了,就去靠窗的位置和好。”林夏没有说话。周砚:“我知道,现在说这些有点晚。”林夏:“确实晚。”周砚:“嗯。”旁白:“窗外有车经过,水声轻轻溅起来。”周砚:“但我想把它们还给你。不是为了让你回头,是想告诉你,那些日子我没有忘。”林夏:“那你为什么不早点说?”周砚:“因为我一直以为,做比说重要。”林夏:“后来呢?”周砚:“后来我发现,只做不说,也会让人觉得自己不重要。”旁白:“林夏低头看着那张便利贴。纸角已经翘起来,字却还清楚。”林夏:“周砚,我不想再等一个总是迟到的人了。”周砚:“我知道。”林夏:“但这杯咖啡,我可以陪你喝完。”旁白:“周砚愣了一下,慢慢笑了。”周砚:“它已经凉了。”林夏:“那就换一杯热的。”旁白:“店员走过来收走冷咖啡。窗外的云散开一点,阳光落在靠窗的位置上。”结尾音效:杯子轻轻放下,门铃响起一声,背景音乐温柔收束。
人物的对白非常自然,能够让人感受到情绪的流动。雨声、卡片翻动的声音都在帮我们建立画面。
声音不再是视频做完后最后贴上去的配件,而是可以从脚本阶段就参与创作。
复刻声音
豆包音频生成模型1.0 目前单次最多生成 2 分钟的音频。如果我们要创作长音频,或者做续集,怎么保证声音不串戏呢?
我们可以上传参考音频,或者将历史生成的音频作为参考音频,单次最多支持3条,在提示词里指定某个角色使用某种音色。
比如,我们尝试复刻一下豆包的声线:
音乐开头由轻快爵士鼓点、短促贝斯和几下俏皮钢琴进入,背景有小剧场观众低声聊天、杯子轻碰、零星笑声。整体氛围松弛、热闹、都市夜场脱口秀感。演员开口后音乐迅速降低,只保留极轻的贝斯律动。观众笑声、起哄声和掌声可以自然出现,但不要盖过人声。
脱口秀演员(青年女声,普通话,音调偏低,声音略沙哑,语速中等偏快,吐槽节奏强,有自然停顿和包袱停顿,不要播音腔,扮演者为)状态松弛、自嘲、像在小剧场和观众聊天一样说道:“我最近发现,AI 最大的影响不是替代工作,是让我妈终于确认了,我确实没什么用。”
观众轻笑。
脱口秀演员(认真铺垫)继续说道:“以前我妈遇到问题会喊我。手机坏了喊我,电视没声音喊我,微信找不到群喊我。现在不一样了,她先问 AI。”
停顿半秒。
脱口秀演员(语气突然低一点)说道:“问完 AI,再喊我。”
观众笑。
脱口秀演员(无奈)说道:“她说,AI 给了答案,但她不放心,想让我确认一下。我说妈,你这是把我从技现音乐开头由轻快爵士鼓点、短促贝斯和几下俏皮钢琴进入,背景有小剧场观众低声聊天、杯子轻碰、零星笑声。整体氛围松弛、热闹、都市夜场脱口秀感。演员开口后音乐迅速降低,只保留极轻的贝斯律动。观众笑声、起哄声和掌声可以自然出现,但不要盖过人声。脱口秀演员(青年女声,普通话,音调偏低,声音略沙哑,语速中等偏快,吐槽节奏强,有自然停顿和包袱停顿,不要播音腔,扮演者为 @音频1 )状态松弛、自嘲、像在小剧场和观众聊天一样说道:“我最近发现,AI 最大的影响不是替代工作,是让我妈终于确认了,我确实没什么用。”观众轻笑。脱口秀演员(认真铺垫)继续说道:“以前我妈遇到问题会喊我。手机坏了喊我,电视没声音喊我,微信找不到群喊我。现在不一样了,她先问 AI。”停顿半秒。脱口秀演员(语气突然低一点)说道:“问完 AI,再喊我。”观众笑。脱口秀演员(无奈)说道:“她说,AI 给了答案,但她不放心,想让我确认一下。我说妈,你这是把我从技术支持,降级成了人工复核。”观众笑声增强。脱口秀演员(语速加快)说道:“最可怕的是,她现在会用 AI 写朋友圈。以前她朋友圈是:今天包饺子。现在是:岁月在面粉里沉淀,亲情在褶皱中发光。”停顿。脱口秀演员(压低声音)说道:“我爸看完问她,今天这饺子是能吃,还是要展览?”观众大笑。脱口秀演员(继续吐槽)说道:“我妈还特别认真地问我,这样发会不会太普通。我说不会,挺好的,就是不像你。她说哪里不像?我说你平时发朋友圈,标点符号都不放,突然亲情在褶皱中发光,亲戚会以为你被面粉夺舍了。”观众笑。
生成的音色与参考音色有较高的相似度,并且保留了脱口秀所需的自嘲与松弛感,包袱点的停顿和观众笑声的穿插非常自然。
豆包音频生成模型1.0 不仅能克隆音色,还能代入更多的情绪,更像是用音色在完成一场表演。
02. 一些分享
以前的 AI 配音,我们只是把文字喂给它;现在,我们需要在提示词里像导演一样给角色讲戏——写清楚角色年龄、音色特征、当下的情绪、动作气口以及背景里该有什么动静。给出的细节越具象,生成的效果往往越贴近预期。
以往配音、配乐、找音效、对齐混音的繁琐工作流,现在可以通过一个合理的 Prompt 快速跑出第一版完整小样,效率提升显而易见。短剧、广告、课程、虚拟 IP 的生产速度会明显变快。
目前,火山方舟体验中心已经开放了豆包音频生成模型1.0 的体验,普通用户可以获得 30 分钟的免费体验额度。未来还将接入剪映、番茄小说等日常工具,普通人做音频内容的门槛会继续下降。
如果说过去 AI 配音解决的是有没有声音,那豆包语音模型1.0 开始解决的是声音有没有戏的问题。
当然,作为 1.0 版本,豆包音频生成模型1.0 在一些较为复杂的物理声场变化、多音、重音细节上,依然有可以雕琢和优化的空间。但豆包语音模型1.0 展现出的端到端生成潜力,已经让我们看到了音频生产力变革的雏形。
当图像、视频、文案和音频的 AI 工具链变得越来越完整,AI 配音也会成为提升内容体验的关键一环。
原文链接:声音从“能听”到“有戏”,AI 配音这次真的进步了




