統一多模態嵌入模型是眾多任務的技術基石。
當前主流方法通常采用批內負例挖掘策略,通過計算查詢-候選對的相似度進行訓練。
但這類方法存在明顯局限:難以捕捉候選樣本間細微的語義差異,負例樣本多樣性不足,且模型在區分錯誤負例與困難負例時的判別能力有限。
針對這些問題,團隊提出全新解決方案——基于多模態大模型語義理解能力的統一多模態嵌入模型UniME-V2。
該方法首先通過全局檢索構建潛在困難負例集,隨后創新性地引入“MLLM-as-a-Judge”機制:利用MLLM對查詢-候選對進行語義對齊評估,生成軟語義匹配分數。
這一設計帶來三重突破:
- 以匹配分數為依據實現精準困難負例挖掘,有效規避錯誤負例干擾
- 確保篩選出的困難負例兼具多樣性與高質量特性
- 通過軟標簽機制打破傳統一對一的剛性映射約束

通過將模型相似度矩陣與軟語義匹配分數矩陣對齊,使模型真正學會辨析候選樣本間的語義差異,顯著提升判別能力。
為進一步提升性能,團隊基于挖掘的困難負例訓練出重排序模型UniME-V2-Reranker,采用配對與列表聯合優化策略。

圖1 UniME-V2與以往方法的本質不同,在于巧妙利用了多模態大模型(MLLM)的深層語義理解能力。它不僅能用此能力精準挖掘“困難負例”,更能生成一個軟語義匹配分數,如同一位資深導師,指導模型學會辨別候選樣本間微妙的語義差異。
方法
MLLM-as-a-Judge 困難負樣本挖掘
過去的研究主要依賴于批內硬負樣本挖掘,其中計算查詢-候選嵌入相似性以采樣負樣本。
然而,這種方法通常受到負樣本多樣性有限和嵌入判別能力不足的困擾,難以有效區分錯誤和困難的負樣本。
為了克服這些挑戰,如圖2所示,首先利用全局檢索構建一個潛在的困難負樣本集。
之后,利用MLLM的強大理解能力來評估每個查詢-候選對的語義對齊性,并生成軟語義匹配分數。
這個分數指導了硬負樣本挖掘,使得能夠識別出多樣化和高質量的困難負樣本,同時減少錯誤負樣本的影響。
