智源研究院提出了首個用于自然語言理解任務(wù)的1bit 輕量化預(yù)訓(xùn)練模型 BiPFT。與傳統(tǒng)的 FP32模型相比,BiPFT 模型在推理階段顯著減少了操作數(shù)量和內(nèi)存使用。該模型在 GLUE 標(biāo)準(zhǔn)測試集上的平均性能超過了15.4%。
與以往的1bit 量化方法不同,BiPFT 直接在預(yù)訓(xùn)練階段使用大量的文本數(shù)據(jù)對模型進(jìn)行1bit 預(yù)訓(xùn)練,而不是在下游任務(wù)上進(jìn)行量化。這種方法使得模型具備了更好的獨立學(xué)習(xí)能力和超參數(shù)魯棒性。

另外,智源團(tuán)隊還創(chuàng)新地采用了一種數(shù)據(jù)驅(qū)動的1bit 量化方法,通過對自注意力操作中的1bit 量化誤差進(jìn)行參數(shù)化,減少了量化損失。
實驗結(jié)果表明,BiPFT 模型在1bit activation 下的計算量和內(nèi)存消耗相比于全精度32位模型分別降低了56倍和28倍。同時,該模型在不同超參數(shù)設(shè)定下都能取得更好的效果,具有較好的獨立學(xué)習(xí)能力和超參數(shù)魯棒性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。