10 月 30 日,智源研究院正式發布了「悟界 EMU3.5」多模態世界大模型。
在當前大語言模型(LLM)的文本能力逐漸觸頂、行業普遍尋求新突破口的背景下,多模態被視為人工智能的下一個重要方向。
然而,如何有效融合文本、圖像、視頻等不同模態的數據,一直是業界面臨的難題。
長期以來,多模態領域存在兩種不同的技術路徑:一種是 DiT(Diffusion Transformer)架構,在文生圖、文生視頻等生成任務上表現出色;另一種則是以智源 Emu 系列為代表的「原生多模態」架構,嘗試從一開始就用統一的模型處理一切。
智源研究院院長王仲遠在發布會上表示,EMU3.5 的發布,標志著人工智能從「語言學習」向「多模態世界學習」演進的新紀元,并率先指明了多模態 Scaling(規模化)的新范式。
從一年前驗證技術路線的 Emu3,到今天宣稱「開啟新紀元」的 EMU3.5,智源究竟解決了什么關鍵問題?這背后又體現了怎樣的技術思路?
01
多模態 AI 的核心挑戰之一,是如何建立一個「大一統」的模型。
行業中常見的做法,是將不同功能的模型(如一個理解模型、一個生成模型)拼接起來。但這會帶來融合的挑戰,不同架構間的「語言」并不相通。
智源從 Emu3 開始,就選擇了一條更徹底、也更難的「原生多模態」路線:使用統一的自回歸架構。

圖片來源:智源研究院
自回歸架構是目前大語言模型的基石,其范式是「Next-Token Prediction」。智源將其推廣到了多模態領域,無論是文本、圖像還是視頻,都被打散成 Token,由模型統一預測。這樣做的好處是理論上極其簡潔優雅,實現了「圖像、文本、視頻的大一統」。
但這個選擇在過去一年里也面臨著一個致命的「原罪」:推理效率太低。
當模型生成圖像時,需要一個 Token 一個 Token 地「吐」出來,這個過程就像「像素點打印」,相較于 Diffusion 等模型并行的生成方式,速度慢了幾個數量級。
一個無法高效運行的模型,其「統一」的理論優勢就很難在實踐中落地。因此,效率問題,是 EMU3.5 必須攻克的第一座大山。MU3.5 團隊提出了一項名為「DiDA(Discrete Diffusion Adaptation,DiDA),離散擴散自適應)」的創新技術,作為這個難題的解方。
DiDA 是一種高效的混合推理預測方法,它允許自回歸模型在推理時,可以并行地預測和生成大規模的 Token。這從根本上改變了「一個點一個點畫」的低效模式。
帶來的提升是顯著的:在不犧牲性能的前提下,每張圖片的推理速度提升了近 20 倍。王仲遠談到,這使得 EMU3.5 的自回歸架構,「首次使自回歸模型的生成效率媲美頂尖的閉源擴散模型」。
這個工程上的關鍵突破,補齊了原生多模態路線的核心短板。它證明了這條路不僅在理論上可行,在實踐中也具備了「可用性」和「可競爭性」。
解決了效率枷鎖后,通往「規模化」的道路才真正被打開。
02
在人工智能領域,「Scaling Law」(規模定律)是過去幾年最重要的發現之一。它指的是,只要持續增加模型參數、訓練數據和算力投入,模型的性能就會相應地可預期地提升。大模型的成功,就是建立在這一「力大磚飛」的信仰之上。
但在多模態領域,這條路一直不甚明朗。由于技術路線不統一,行業并不確定多模態模型是否存在清晰的 Scaling Law。
EMU3.5 通過 DiDA 技術解決了效率問題后,智源迅速開始了規模化的驗證。從 Emu3 到 EMU3.5 的變化清晰地體現了這一點:
模型參數: 從 8B(80 億)躍升至 34B(340 億),提升超過 4 倍;訓練數據: 累計的視頻數據訓練時長,從 15 年猛增到 790 年,躍升超過 50 倍;性能也隨之獲得了顯著提升。
基于這一實踐,王仲遠在發布會上提出了一個大膽的判斷:EMU3.5 開啟了繼「語言預訓練」和「后訓練及推理」之后的「第三個 Scaling 范式」。
為什么稱其為「新范式」?智源給出了三個理由:
-
架構的統一性: EMU 的自回歸架構能夠大一統地處理各種模態的數據,為規模化提供了簡潔的基礎。 -
設施的可復用性: 這一架構可以「大規模復用已有的計算基礎設施」。這意味著,所有為訓練 LLM 而構建的昂貴智算集群,幾乎都可以無縫遷移過來訓練 EMU 模型,極大降低了 Scaling 的門檻。 -
強化學習的引入: EMU3.5 首次在多模態領域實現了大規模強化學習(RL)。強化學習(尤其是 RLHF)是激發 LLM 高級能力、使其「聽話」的關鍵步驟。如今,智源將這套在語言上被驗證過的成熟方案,成功地應用到了更復雜的多模態模型上。
「Scaling 范式」的意義在于「可預期」。而 EMU3.5 的潛力才剛剛開始釋放。王仲遠在現場提到,目前 34B 的參數規模,相比 LLM 動輒萬億的規模還很小;而 790 年的視頻數據量,「只占全互聯網公開視頻數據不到 1%」。
這意味著,無論是在模型參數還是在數據維度上,這條路都還有著巨大的提升空間。只要沿著這條路繼續「力大磚飛」,模型能力的上限遠未到來。
03
學習世界規則:
從「預測 Token」到「預測狀態」
如果說,解決效率問題和開啟規模化,回答了「怎么做」的問題,那么 EMU3.5 的另一大轉變,則是在回答「學什么」的問題。
智源團隊在發布會上反復強調「第一性原理」。王仲遠舉了一個觀察兩歲小女孩的例子:她通過刷短視頻,觀察視頻里的人如何吃糖葫蘆,然后在現實世界中模仿、嘗試、失敗、再嘗試,最終自己學會了串糖葫蘆。
他強調人類的學習,不是從文本開始的,而是從對這個世界、對物理規律的視覺觀察開始的。
這也是 EMU3.5 試圖模擬的核心理念:AI 不應只學習「語言」,更應學習「世界」。
為此,EMU3.5 提出了一個核心范式的升級:從 Emu3 的「Next-Token Prediction」),升級為「Next-State Prediction (NSP)」。
這個轉變意味著模型的目標,不再是機械地「續寫」數據(比如預測下一個像素或下一個詞),而是要理解事物背后的因果和規律,預測世界在邏輯上的「下一個狀態」。
基于此,智源也對「世界模型」這一概念提出了自己的定義。王仲遠在采訪中直言,不完全贊同「世界模型就是視頻生成」的觀點。他認為,世界模型的核心,是「對于整個世界因果關系、時空、物理建模的能力」。
他用一個「桌邊的咖啡」的例子來說明:
一個「視頻生成模型」,也許能預測出「杯子掉落、咖啡灑一地」的逼真畫面。
但一個「世界模型」,首先應該理解「這個杯子放得很危險(狀態)」,并預測「它很可能會掉落(狀態變化)」。
更進一步,當接收到「拿起這杯咖啡」的指令時,這個模型會基于對物理常識(紙杯的力度、重心的位置)的理解,來規劃「下一步的行動」。