科技媒體 marktechpost 昨日(6 月 4 日)發(fā)布博文,報道稱英偉達(dá)推出 ProRL 強化學(xué)習(xí)方法,并開發(fā)出全球最佳的 1.5B 參數(shù)推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。
強化學(xué)習(xí)(Reinforcement Learning,RL)在訓(xùn)練中扮演非常重要的角色,DeepSeek 和 Kimi 等團隊采用可驗證獎勵的強化學(xué)習(xí)(RLVR)方法,推廣了 GRPO、Mirror Descent 和 RLOO 等算法。
然而,研究者仍在爭論強化學(xué)習(xí)是否真正提升大型語言模型(LLM)的推理能力。現(xiàn)有數(shù)據(jù)表明,RLVR 在 pass@k 指標(biāo)上未能顯著優(yōu)于基礎(chǔ)模型,顯示推理能力擴展受限。
此外,當(dāng)前研究多集中于數(shù)學(xué)等特定領(lǐng)域,模型常被過度訓(xùn)練,限制了探索潛力;同時,訓(xùn)練步數(shù)通常僅數(shù)百步,未能讓模型充分發(fā)展新能力。
ProRL 方法的突破與應(yīng)用
英偉達(dá)研究團隊為解決上述問題,推出 ProRL 方法,延長強化學(xué)習(xí)訓(xùn)練時間至超過 2000 步,并將訓(xùn)練數(shù)據(jù)擴展至數(shù)學(xué)、編程、STEM、邏輯謎題和指令遵循等多個領(lǐng)域,涵蓋 13.6 萬個樣本。
他們采用 verl 框架和改進的 GRPO 方法,開發(fā)出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。
這是全球最佳的 1.5B 參數(shù)推理模型,在多項基準(zhǔn)測試中超越基礎(chǔ)模型 DeepSeek-R1-1.5B,甚至優(yōu)于更大的 DeepSeek-R1-7B。
測試結(jié)果顯示,該模型在數(shù)學(xué)領(lǐng)域平均提升 15.7%,編程任務(wù) pass@1 準(zhǔn)確率提升 14.4%,STEM 推理和指令遵循分別提升 25.9% 和 22.0%,邏輯謎題獎勵值提升 54.8%,展現(xiàn)出強大的泛化能力。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。