近日,來自華中科技大學、字節跳動和約翰斯·霍普金斯大學的研究人員推出了一款名為GLEE的全新通用物體級別基礎模型,為圖像和視頻分析帶來了全新的可能性。這一技術突破依賴深度學習的神奇,使計算機視覺系統能夠像虛擬偵探一樣,在數字體驗的畫布上識別、跟蹤和理解各種物體。

GLEE的獨特之處在于其卓越的通用性,無需特定任務的適應即可在各種任務中定位和識別物體。該模型集成了圖像編碼器、文本編碼器和視覺提示器,用于多模態輸入處理和廣義物體表示預測。通過在Objects365、COCO和Visual Genome等多樣化的數據集上進行訓練,GLEE采用統一框架,涵蓋檢測、分割、跟蹤、定位和識別開放場景中的對象。
GLEE通過使用動態類頭的MaskDINO以及相似性計算進行預測的對象解碼器,經過目標檢測和實例分割的預訓練,聯合訓練實現了在各種圖像和視頻任務中的最先進性能。不僅如此,GLEE還展現了卓越的靈活性和強大的泛化能力,有效應對各種下游任務,無需特定任務的適應。
該模型在對象檢測、實例分割、定位、多目標跟蹤、視頻實例分割、視頻對象分割以及交互式分割和跟蹤等各種圖像和視頻任務中均表現卓越。甚至在與其他模型集成時,GLEE仍保持著最先進性能,展示了其表示的多樣性和有效性。
除了在技術上的突破,GLEE在零樣本泛化方面也取得了顯著進展,通過整合大量自動標記的數據進一步提升了模型的性能。作為一種基礎模型,GLEE為當前視覺基礎模型的局限性提供了創新性的解決方案,提供準確而通用的物體級信息。
研究的未來方向聚焦在擴展GLEE在處理復雜場景和具有長尾分布的挑戰性數據集方面的能力上,以提高其適應性。此外,研究人員還探索了在訓練過程中使用廣泛的圖像-標題對,類似于DALL-E模型,從而提高GLEE生成詳細圖像內容的潛力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。