谷歌、卡內基梅隆大學和MultiOn的聯合研究團隊近日發表了一項關于合成數據在大型模型訓練中的創新研究。隨著ChatGPT等大模型的快速發展,高質量訓練數據的需求激增。
Epoch AI報告指出,全球現有約300萬億個高質量文本訓練標記,但預計到2026年將被耗盡,合成數據因此成為關鍵替代方案。
研究團隊探索了正向和負向兩類合成數據。正向數據由高性能模型生成,提供正確的問題解決方案,而負向數據則包含已驗證的錯誤步驟,幫助模型避免邏輯陷阱。通過直接偏好優化(DPO)方法,模型能夠動態調整學習策略,顯著提升推理能力。
實驗顯示,經過合成數據訓練的模型在數學推理任務上性能提升高達八倍,展現了合成數據在大模型優化中的巨大潛力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。