發瘋文學的“瘋”,終于是讓AI給吶喊出來了
例如電視劇《180天重啟計劃》中的這段發瘋名場面:
然后啊,我們讓AI用于謙+郭德綱的腔調打開這段對話,畫風是這樣的:
視頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
這要放以前,那些平平淡淡的AI語音,這癲感、這吶喊,大概率是發不出來的。
那為什么現在AI就可以做到了呢?
因為就在剛剛,火山引擎把豆包語音大模型升級了——
語音學會了思考,更能理解臺詞,情感表達更有張力。
具體來說,火山引擎這次主要升級了2個模型,分別是豆包語音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包聲音復刻模型2.0(Doubao-Seed-ICL 2.0)。
剛才的那段發瘋對話片段的制作過程,就是先上傳了郭德綱和于謙的音頻,讓豆包聲音復刻模型2.0在短短幾秒中的時間里復刻出聲音:
然后再在豆包語音合成模型2.0中,分別選擇于謙和郭德綱的聲音,并在臺詞的前面標注了一下想要達到的情緒效果:
值得注意的是,上面這一步的操作,就是此次豆包語音合成模型2.0的一大關鍵點,分為三種模式:
默認模式:可以在臺詞前像我們剛才那樣,添加細節描述內容;
語音指令:可以控制說話的情緒、方言、語氣和語速等;
引入上文:把上文內容引進來,讓AI更好地去理解完整內容。