1月29日 消息:SliceGPT是微軟開發(fā)的一種新型的大語言模型壓縮方法。通過SLICE GPT,可以在保持99%,99%,和90%零樣本任務性能的同時,將LLAMA2-70B、OPT66B和Phi-2模型分別去除高達25%的模型參數(shù)(包括嵌入)。
這意味著使用SLICE GPT的模型可以在更少的GPU上運行,并且運行速度更快,無需任何額外的代碼優(yōu)化。在24GB的消費級GPU上,將LLAMA2-70B的總計算量減少到密集模型的64%;在40GB的A100GPU上減少到66%。
SLICE GPT的主要特點包括解決了大語言模型在存儲和計算資源上的高需求問題,并提供了一種有效減輕這些資源需求的方法,同時保持或僅輕微犧牲模型性能,這對于推廣大型模型的應用和降低運行成本具有重要意義。
具體來說,SLICE GPT能夠減少大型語言模型的尺寸,通過在不損失顯著性能的前提下,減少模型參數(shù)數(shù)量,SLICE GPT能夠減少大型語言模型的尺寸。它還能提高模型在硬件上的運行效率,減少了所需的計算資源,并且能夠在去除一定比例的模型參數(shù)的同時,保持模型的性能。此外,SLICE GPT不僅適用于特定的模型或架構,它的方法可以廣泛應用于各種變換器網(wǎng)絡模型。
SLICE GPT的工作原理基于一種新的后訓練稀疏化方案,通過兩個關鍵步驟來減少大型語言模型的計算和內(nèi)存需求。首先是替換權重矩陣,通過將模型中的每個權重矩陣替換為一個更小的(密集的)矩陣來減少網(wǎng)絡的嵌入維度,有效地縮減了模型的大小。
其次是維持計算不變性,SLICE GPT引入了變換器網(wǎng)絡中的“計算不變性”概念,通過特定的變換操作,改變權重矩陣的形狀,而不改變其在模型中的功能和影響,從而達到減少模型參數(shù)的目的,同時保持模型的性能。這種方法的核心優(yōu)勢在于,它允許模型在去除一定比例的參數(shù)后,仍然能夠保持接近原始模型的性能,適用于資源受限的設備上部署大型模型,比如普通的個人電腦或者移動設備。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。