加州大學伯克利分校天空計算實驗室的研究團隊NovaSky于周五發布了Sky-T1-32B-Preview推理模型,這一模型在多個關鍵基準測試中表現優異,與OpenAI的o1早期版本相媲美,更令人矚目的是其極低的訓練成本。
Sky-T1-32B-Preview是首個真正的開源推理模型,NovaSky團隊不僅發布了模型,還公開了用于訓練它的數據集及必要的訓練代碼,這意味著該模型可從頭開始復制。據團隊在博客文章中所述,“Sky-T1-32B-Preview的訓練成本不到450美元,這表明可以經濟高效地復制高級推理能力。”在不久前,訓練同等性能的模型價格往往高達數百萬美元,而如今成本的大幅降低,主要得益于合成訓練數據或由其他模型生成的訓練數據的應用。例如,人工智能公司Writer最近發布的模型Palmyra X004幾乎完全基于合成數據進行訓練,開發成本僅為70萬美元。
推理模型與普通人工智能模型不同,能夠有效進行自我事實核查,從而避免一些常見陷阱。不過,推理模型得出解決方案通常需要更長時間,從幾秒到幾分鐘不等。但其在物理、科學和數學等領域的可靠性更高,這是其顯著優勢。
NovaSky團隊透露,他們借助阿里巴巴的QwQ-32B-Preview推理模型生成Sky-T1的初始訓練數據,之后對數據進行“整理”,并利用OpenAI的GPT-4o-mini將數據重構為更易用的格式。使用8個Nvidia ***GPU機架訓練320億參數的Sky-T1大約需要19個小時,參數數量大致對應模型解決問題的能力。
在性能測試方面,Sky-T1在MATH500(一組“競賽級”數學挑戰)上的表現優于o1的早期預覽版本,還在一組來自LiveCodeBench(一種編碼評估)的難題上擊敗了o1的預覽版本。然而,Sky-T1在GPQA-Diamond上的表現不如o1預覽版,后者包含博士畢業生應掌握的物理、生物和化學相關問題。此外,OpenAI的o1GA版本比預覽版更強大,且OpenAI預計在未來幾周發布性能更佳的推理模型o3。
盡管如此,NovaSky團隊表示,Sky-T1僅是他們開發具有高級推理能力的開源模型的起點。“展望未來,我們將專注于開發更高效的模型,保持強大的推理性能,并探索先進技術,進一步提高模型在測試時的效率和準確性,”團隊在帖子中寫道,“請繼續關注我們在這些激動人心的計劃上取得的進展。”這一開源推理模型的出現,無疑為人工智能領域帶來了新的機遇和挑戰,其未來發展值得持續關注。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。