瑞士聯邦理工學院(EPFL)與蘋果的研究人員合作開發的4M框架在人工智能領域引起了廣泛關注。該框架的核心目標是訓練多模態基礎模型,能夠跨足多個模態和任務,以提高視覺處理的可伸縮性和多樣性。在自然語言處理領域,大型語言模型(LLMs)的訓練已經變得流行,但在視覺領域,仍然需要創建同樣靈活和可擴展的模型。為了克服這些障礙,研究團隊提出了一種訓練單一Transformer編碼器-解碼器的策略,該策略使用了一種名為“Massively Multimodal Masked Modeling”(4M)的方法。
該方法通過結合遮蔽建模和多模態學習的優點,實現了強大的跨模態預測編碼能力和共享場景表示。4M通過使用模態特定的分詞器,能夠將不同格式的輸入轉換成集合或序列的標記,從而使單一Transformer可以用于文本、邊界框、圖片或神經網絡特征等各種模態的訓練。這種標記化的方法不僅提高了模型的兼容性和可伸縮性,還避免了使用任務特定的編碼器和頭部,使得Transformer能夠在任何模態下保持完全參數共享。
值得注意的是,4M框架在訓練效率方面也取得了成功。它通過利用輸入和目標遮蔽,即從所有模態中隨機選擇少量標記作為模型輸入和另一組作為目標,實現了對大量模態的高效訓練目標。這種策略在防止計算成本隨模態數量增加而急劇增加的同時,還允許在不同和大規模數據集上進行訓練,而無需多模態/多任務注釋。
總的來說,4M框架通過使用多模態遮蔽建模目標,實現了可控生成模型的訓練,這使得模型能夠根據任何模態進行條件化。這為用戶意圖的多樣表達和各種多模態編輯任務提供了可能。通過對4M框架性能的深入分析,研究團隊展示了其在許多視覺任務和未來發展中的巨大潛力。這一研究不僅對于提高視覺處理模型的靈活性和性能至關重要,也為人工智能領域的未來發展提供了有益的啟示。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。