2025年7月4日,昆侖萬維乘勢而上,繼續開源第二代獎勵模型Skywork-Reward-V2系列。此系列共包含8個基于不同基座模型、參數規模從6億到80億不等的獎勵模型,一經推出便在七大主流獎勵模型評測榜單中全面奪魁,成為開源獎勵模型領域的焦點。
獎勵模型在從人類反饋中強化學習(RLHF)過程中起著關鍵作用。為打造新一代獎勵模型,昆侖萬維構建了包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理上,團隊采用人機協同的兩階段流程,將人工標注的高質量與模型的規;幚砟芰ο嘟Y合。第一階段,先構建未經驗證的初始偏好池,借助大語言模型生成輔助屬性,人工標注者再依照嚴格協議和外部工具、大語言模型對部分數據精細審核,構建出小規模高質量“金標準”數據集。隨后以金標準數據偏好標簽為引導,結合大語言模型大規模生成高質量“銀標準”數據,并多輪迭代優化。第二階段則轉向自動化大規模數據擴展,用訓練完成的獎勵模型執行一致性過濾,減少人工標注負擔的同時,實現偏好數據規模與質量的平衡。
基于優質混合偏好數據開發的Skywork-Reward-V2系列,展現出廣泛適用性和出色能力。它涵蓋對人類偏好的通用對齊、客觀正確性、安全性、風格偏差抵抗能力以及best-of-N擴展能力等多個維度。在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七個主流獎勵模型評估基準上全面達到當前最優(SOTA)水平。即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,整體性能也幾乎達到上一代最強模型的平均水平,Skywork-Reward-V2-Qwen3-1.7B更是超越當前開源獎勵模型的SOTA。最大規模的Skywork-Reward-V2-Llama-3.1-8B在所有主流基準測試中全面超越,成為當前整體表現最優的開源獎勵模型。
該系列模型還具備廣泛覆蓋多維人類偏好能力。在通用偏好評估基準上優于多個參數更大的模型及最新生成型獎勵模型;在客觀正確性評估方面,知識密集型任務表現突出;在多項高級能力評估中,包括Best-of-N任務、偏見抵抗能力測試、復雜指令理解及真實性判斷等均取得領先成績,展現出出色的泛化能力與實用性。
此外,數據篩選流程的高度擴展性顯著提升了獎勵模型性能。經過精細篩選和過濾的偏好數據,在多輪迭代訓練中能持續有效提升模型整體性能,尤其在第二階段全自動數據擴展中表現顯著。早期版本實驗顯示,僅用1.8%的高質量數據訓練8B規模模型,性能就超過當前70B級SOTA獎勵模型,印證了Skywork-SynPref數據集在規模和質量上的優勢。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。