10 月 17 日消息,EXO Labs 昨日展示了其“分布式推理”新成果,解決了被部分網友戲稱為“世紀難題”的選擇問題 —— 買 AI 小主機究竟是買蘋果 Mac Studio 還是買英偉達 DGX Spark?
如圖所示,EXO Labs 同時使用了兩臺 NVIDIA DGX Spark 與一臺搭載 M3 Ultra 芯片的 Mac Studio,在 AI 大語言模型推理測試中取得 2.8 倍性能提升。
該成果基于 EXO Labs 的開源項目 EXO,該框架旨在讓大語言模型(LLM)能夠高效運行于不同硬件的混合環境中。
與傳統僅依賴單一 GPU 或加速器的推理方式不同,EXO 可將工作負載自動分配到多種設備上,使臺式機、筆記本、服務器甚至平板電腦與智能手機組成類似 WiFi Mesh 網絡的“AI Mesh”。
DGX Spark 與 M3 Ultra 的互補組合
正如 EXO 所述,3999 美元(IT之家注:現匯率約合 28505 元人民幣)的 DGX Spark 側重計算性能,而 5599 美元(現匯率約合 39910 元人民幣) Mac Studio 則在數據帶寬上更具優勢。在這里,EXO 直接將兩臺 DGX Spark 與一臺 Mac Studio 組合成統一的 AI 系統。
大型語言模型的推理過程通常分為兩個階段:
預填充(prefill)階段:模型讀取和處理輸入提示,這一階段主要受計算性能限制;
解碼(decode)階段:模型逐個生成新詞元(token),此過程更依賴內存帶寬。
EXO 的方案是將兩階段分配給不同設備執行:
DGX Spark 負責計算密集的預填充任務,而 M3 Ultra 負責帶寬敏感的解碼任務。系統通過逐層傳輸模型的內部數據(稱為 KV 緩存),實現兩臺設備的同時工作,而非依次等待。
在使用 Meta Llama-3.1 8B 模型進行的基準測試中,該混合架構相較單獨使用 Mac Studio,推理性能提升 2.8 倍。測試中 DGX Spark 的預填充速度比 Mac Studio 快 3.8 倍,而 Mac Studio 的生成速度又比 DGX Spark 快 3.4 倍,實現了性能互補。