10月16日消息,在OpenAI的Sora引發(fā)全網(wǎng)熱議之際,谷歌正式發(fā)布了新一代AI視頻生成模型Veo 3.1,試圖在這場(chǎng)AI視頻大戰(zhàn)中扳回一城。
美國(guó)時(shí)間周三,谷歌宣布這款旗艦級(jí)視頻生成工具已面向付費(fèi)Gemini用戶開(kāi)放,同時(shí)支持Flow電影制作平臺(tái)、Gemini API及Vertex AI平臺(tái)調(diào)用。
谷歌此次更新為其AI視頻生成器帶來(lái)了對(duì)象級(jí)編輯(Object-level Editing)、多圖像場(chǎng)景控制、首尾幀過(guò)渡和更豐富的背景音頻等功能,讓用戶在處理每次提示時(shí)都能獲得更強(qiáng)的創(chuàng)作控制力和電影級(jí)畫質(zhì)。
如果說(shuō)Sora 2是AI界的“抖音”,以快速便捷取勝,那么Veo 3.1就是“奈飛”,它更注重品質(zhì)、沉浸感與專業(yè)控制。這或許標(biāo)志著迄今為止最實(shí)用的AI視頻生成工具已經(jīng)到來(lái)。
精準(zhǔn)掌控:從“接受結(jié)果”到“塑造愿景”
與Sora 2的“生成即所得”不同,Veo 3.1讓用戶能夠精細(xì)調(diào)整每一個(gè)細(xì)節(jié)。谷歌通過(guò)提升分辨率和加速生成,真正將電影制作的能力交到了用戶手中。其核心突破體現(xiàn)在:
· 對(duì)象編輯:可在任何場(chǎng)景中添加或移除物體,如同視頻版的“智能填充”(Content-Aware Fill)。
· 場(chǎng)景延伸:可將視頻突破原始結(jié)尾,并保留環(huán)境音效,實(shí)現(xiàn)無(wú)縫敘事延續(xù)。
· 智能過(guò)渡:只需提供首尾兩張靜態(tài)圖像,即可生成電影級(jí)的開(kāi)場(chǎng)或結(jié)尾轉(zhuǎn)場(chǎng)。
· 多圖引導(dǎo):通過(guò)多張參考圖像精準(zhǔn)控制角色、物件與場(chǎng)景氛圍。
對(duì)象級(jí)編輯:重構(gòu)敘事的新維度
對(duì)象級(jí)精準(zhǔn)編輯堪稱本次最亮眼的升級(jí)。用戶現(xiàn)在可以像專業(yè)剪輯師一樣,通過(guò)添加或移除物體、人物甚至景觀來(lái)改變故事走向。
“插入物體”功能現(xiàn)已開(kāi)放,“移除物體”功能也即將推出。這些升級(jí)讓場(chǎng)景編輯變得直觀簡(jiǎn)單,無(wú)論是讓森林中憑空出現(xiàn)貓頭鷹與樹木,還是將汽車替換為宇宙飛船,都只需簡(jiǎn)單操作。任何不協(xié)調(diào)的元素都能通過(guò)指向和提示輕松消除。
更令人印象深刻的是,Veo 3.1能夠自動(dòng)處理場(chǎng)景光照與陰影,確保所有編輯都自然融入畫面。
四大獨(dú)門利器:Veo的差異化優(yōu)勢(shì)
Veo的真正競(jìng)爭(zhēng)力在于其模塊化創(chuàng)意工具集,讓AI成為專業(yè)視頻工作流的一部分:
· 素材轉(zhuǎn)視頻(Ingredients to Video):輸入多張參考圖像,Veo將其融合成連貫場(chǎng)景,用戶全程掌控風(fēng)格與元素。
· 首尾幀過(guò)渡(First & Last Frame):提供首尾靜態(tài)圖,模型便可自動(dòng)生成流暢轉(zhuǎn)場(chǎng),完美呈現(xiàn)情緒轉(zhuǎn)換、瞬間移動(dòng)等效果。
· 場(chǎng)景延伸(Scene Extension):可延續(xù)現(xiàn)有視頻的敘事,并保持視覺(jué)風(fēng)格與背景音頻的連貫性。
· 物體插刪(Insert/Remove Object):實(shí)現(xiàn)精細(xì)化的世界構(gòu)建與故事講述,無(wú)論是清理畫面還是添加新元素皆可。
音頻升級(jí):沉浸式敘事新體驗(yàn)
除了畫質(zhì)提升,Veo 3.1在音頻方面也有重大突破。新模型提供更豐富的背景音效和更強(qiáng)的敘事理解能力,能夠更自然地遵循電影敘事結(jié)構(gòu)。從此,場(chǎng)景能夠承載情緒、節(jié)奏與基調(diào)。
相比之下,Sora仍在節(jié)奏把控和語(yǔ)音控制方面存在局限。而Veo 3.1承諾能夠理解上下文語(yǔ)境,如同用戶的私人制片助理般協(xié)助場(chǎng)景創(chuàng)作。
透明定價(jià),成本可控
目前Veo 3.1處于預(yù)覽階段,僅面向Gemini API付費(fèi)用戶開(kāi)放。計(jì)費(fèi)標(biāo)準(zhǔn)延續(xù)前代:
· 標(biāo)準(zhǔn)版:每秒視頻0.40美元
· Fast版:每秒視頻0.15美元
Veo 3.1采用按需計(jì)費(fèi)模式,僅對(duì)成功生成的視頻收費(fèi),無(wú)免費(fèi)額度。這種透明的定價(jià)策略便于企業(yè)團(tuán)隊(duì)進(jìn)行預(yù)算管理。
該模型支持720p/1080p分辨率輸出,幀率為24fps。基礎(chǔ)時(shí)長(zhǎng)為4-8秒,通過(guò)“延伸”功能最長(zhǎng)可達(dá)148秒。
特別值得一提的是,企業(yè)用戶上傳產(chǎn)品圖像或品牌風(fēng)格參考后,系統(tǒng)能夠精準(zhǔn)復(fù)現(xiàn)并保持這些視覺(jué)元素在不同生成內(nèi)容中的一致性,這對(duì)零售、廣告等行業(yè)的內(nèi)容標(biāo)準(zhǔn)化生產(chǎn)極具價(jià)值。
全面集成到谷歌生態(tài)系統(tǒng)
更新后的視頻AI模型將全面接入谷歌生態(tài)系統(tǒng)。用戶既可通過(guò)Gemini應(yīng)用使用Veo 3.1及其Fast版本進(jìn)行創(chuàng)作,開(kāi)發(fā)者也能通過(guò)Vertex AI平臺(tái)和Gemini API調(diào)用該模型。
今年初亮相的Veo已引發(fā)行業(yè)震動(dòng),在Veo 2發(fā)布僅數(shù)月后,新一代模型就在視頻質(zhì)量上實(shí)現(xiàn)了跨越式進(jìn)步。顯然,YouTube海量的視頻資源為AI模型訓(xùn)練提供了得天獨(dú)厚的條件,如今谷歌又?jǐn)y一系列新功能快步推出了Veo 3.1。
谷歌表示,Veo 3.1對(duì)提示詞的理解更加精準(zhǔn),不僅能生成更優(yōu)質(zhì)的視頻內(nèi)容,還能減少無(wú)效計(jì)算消耗。作為Veo 3標(biāo)志性功能的音頻系統(tǒng)也得到進(jìn)一步優(yōu)化。雖然前代模型的文本轉(zhuǎn)視頻功能僅限于生成720p橫屏視頻,但為適應(yīng)互聯(lián)網(wǎng)上日益增長(zhǎng)的豎屏內(nèi)容需求,Veo 3.1已同時(shí)支持橫屏與16:9豎屏視頻生成。
此前谷歌曾承諾將把Veo視頻工具整合至YouTube Shorts中,這類短視頻與TikTok一樣采用豎屏格式。Veo 3.1的發(fā)布無(wú)疑為這一承諾的落地鋪平了道路。可以預(yù)見(jiàn),符合平臺(tái)格式要求的Veo生成視頻未來(lái)在TikTok上的出現(xiàn)頻率也將大幅提升。
此舉也讓谷歌在與老對(duì)手OpenAI的競(jìng)爭(zhēng)中保持了火力,后者近期剛在移動(dòng)端應(yīng)用中集成了新版視頻AI。