近日,智源研究院聯(lián)合上海交通大學(xué)等機構(gòu)正式發(fā)布了一款新一代超長視頻理解模型——Video-XL-2。這一模型的推出標(biāo)志著長視頻理解技術(shù)在開源領(lǐng)域取得了重大突破,為多模態(tài)大模型在長視頻內(nèi)容理解方面的發(fā)展注入了新的活力。
在技術(shù)架構(gòu)方面,Video-XL-2主要由視覺編碼器、動態(tài)Token合成模塊(DTS)以及大語言模型(LLM)三個核心組件構(gòu)成。該模型采用SigLIP-SO400M作為視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼為高維視覺特征。隨后,DTS模塊對這些視覺特征進行融合壓縮,并建模其時序關(guān)系,以提取更具語義的動態(tài)信息。處理后的視覺表征通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現(xiàn)模態(tài)對齊。最終,對齊后的視覺信息輸入至Qwen2.5-Instruct,以實現(xiàn)對視覺內(nèi)容的理解與推理,并完成相應(yīng)的下游任務(wù)。
在訓(xùn)練策略上,Video-XL-2采用了四階段漸進式訓(xùn)練的設(shè)計,逐步構(gòu)建其強大的長視頻理解能力。前兩個階段主要利用圖像/視頻-文本對,完成DTS模塊的初始化與跨模態(tài)對齊;第三階段則引入更大規(guī)模、更高質(zhì)量的圖像與視頻描述數(shù)據(jù),初步奠定模型對視覺內(nèi)容的理解能力;第四階段,在大規(guī)模、高質(zhì)量且多樣化的圖像與視頻指令數(shù)據(jù)上進行微調(diào),使Video-XL-2的視覺理解能力得到進一步提升與強化,從而能夠更準(zhǔn)確地理解和響應(yīng)復(fù)雜的視覺指令。
此外,Video-XL-2還系統(tǒng)性設(shè)計了效率優(yōu)化策略。它引入了分段式的預(yù)裝填策略(Chunk-based Prefilling),將超長視頻劃分為若干連續(xù)的片段(chunk),在每個chunk內(nèi)部使用稠密注意力機制進行編碼,而不同chunk之間則通過時間戳傳遞上下文信息,顯著降低了預(yù)裝填階段的計算成本與顯存開銷。同時,Video-XL-2還設(shè)計了基于雙粒度KV的解碼機制(Bi-granularity KV Decoding),在推理過程中,模型會根據(jù)任務(wù)需求,選擇性地對關(guān)鍵片段加載完整的KVs(dense KVs),而對其他次要片段僅加載降采樣后的稀疏的KVs(sparse KVs),有效縮短了推理窗口長度,從而大幅提升解碼效率。得益于這些策略的協(xié)同優(yōu)化,Video-XL-2實現(xiàn)了在單張顯卡上對萬幀級視頻的高效推理,顯著增強了其在實際應(yīng)用場景中的實用性。
在實驗效果方面,Video-XL-2在MLVU、VideoMME和LVBench等主流長視頻評測基準(zhǔn)上全面超越現(xiàn)有所有輕量級開源模型,達成當(dāng)前最先進性能(SOTA),相較第一代Video-XL實現(xiàn)了顯著提升。尤其值得關(guān)注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等參數(shù)規(guī)模高達720億的大模型。此外,在時序定位(Temporal Grounding)任務(wù)中,Video-XL-2也在Charades-STA數(shù)據(jù)集上取得了領(lǐng)先的結(jié)果,進一步驗證了其在多模態(tài)視頻理解場景中的廣泛適用性與實際價值。
在視頻長度方面,Video-XL-2展現(xiàn)出顯著優(yōu)勢。在單張24GB消費級顯卡(如RTX3090/4090)上,Video-XL-2可處理長達千幀的視頻;而在單張80GB高性能顯卡(如A100/***)上,模型更支持萬幀級視頻輸入,遠超現(xiàn)有主流開源模型。相較于VideoChat-Flash和初代Video-XL,Video-XL-2顯著拓展了視頻理解的長度并有效降低了資源需求,為處理復(fù)雜的視頻任務(wù)提供了有力的支撐。
在速度上,Video-XL-2也展現(xiàn)出卓越性能。僅需12秒即可完成2048幀視頻的預(yù)填充,其預(yù)填充時間與輸入幀數(shù)之間呈現(xiàn)出近似線性增長,體現(xiàn)了其出色的可擴展性。相比之下,Video-XL與VideoChat-Flash在輸入長視頻條件下的工作效率明顯落后于Video-XL-2。
得益于出色的視頻理解能力與對超長視頻的高效處理性能,Video-XL-2在多種實際應(yīng)用場景中展現(xiàn)出很高的應(yīng)用潛力。例如,在影視內(nèi)容分析方面,它可以快速準(zhǔn)確地理解電影情節(jié),回答相關(guān)問題;在監(jiān)控視頻中,它能夠檢測異常行為并發(fā)出安全預(yù)警;此外,它還可以用于影視作品的內(nèi)容總結(jié)以及游戲直播內(nèi)容的分析等任務(wù),為現(xiàn)實世界中的復(fù)雜視頻理解需求提供高效、精準(zhǔn)的技術(shù)支撐。
目前,Video-XL-2的模型權(quán)重已全面向社區(qū)開放,項目主頁、模型鏈接和倉庫鏈接均已公布,未來該模型有望在更多實際場景中發(fā)揮重要作用,推動長視頻理解技術(shù)的進一步發(fā)展。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。