首個AI Kaggle特級大師誕生，OpenAI的o1-preview奪7金封王

2024年10月12日 17:29:33 來源：IT之家

　　科技媒體 The Decoder 昨日(10 月 11 日)發布博文，報道稱 OpenAI 公司推出 MLE-bench 新基準，旨在評估 AI 智能體在開發機器學習解決方案方面的能力。

　　該基準包括 75 個 Kaggle 競賽，旨在衡量自主 AI 系統在機器學習工程中的進展。這些競賽涵蓋了多個領域，包括自然語言處理、計算機視覺和信號處理等等。

　　注：Kaggle 是一個非常受歡迎的平臺，專注于數據科學和機器學習的在線比賽。Kaggle 提供各種類型的比賽，包括數據預測、圖像分類、自然語言處理等，適合不同技能水平的參與者。

　　在 Kaggle 的進階系統中，“Novice”(新手)、“Contributor”(貢獻者)、“Expert”(專家)、“Master”(大師)和 "Grandmaster"(特級大師)是不同的績效層級，用于衡量和識別數據科學家在 Kaggle 平臺上的技能水平和成就。

　　許多任務具有現實世界的應用，例如預測 COVID-19 mRNA 疫苗降解或解碼古代卷軸等。

　　MLE-bench 專注于兩個關鍵領域：

　　選擇具有挑戰性的任務：這些任務代表了當前機器學習的發展水平。

　　比較 AI 與人類的表現：通過對比，評估 AI 在特定任務中的能力。

　　OpenAI 在 MLE-bench 上測試了多個 AI 模型和智能體框架，使用 AIDE 框架的 o1-preview 模型表現最佳，在 16.9% 的比賽中至少獲得了一枚銅牌，該結果超越了 Anthropic 的 Claude 3.5 Sonnet。

　　獲得 5 金即可評上 "Grandmaster" 特級大師，而 o1-preview 模型在 MLE-bench 測試中獲得了 7 枚金牌。

　　OpenAI 承認 MLE-bench 也有局限性，并未涵蓋 AI 研究與開發的所有方面，主要集中在具有明確問題和簡單評估指標的任務上。

　　MLE-bench 基準現已在 GitHub 上發布，OpenAI 希望通過這一工具，推動 AI 在機器學習領域的進一步發展。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

首個AI Kaggle特級大師誕生，OpenAI的o1-preview奪7金封王

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

首個AI Kaggle特級大師誕生，OpenAI的o1-preview奪7金封王

擴展閱讀

最新新聞

熱門新聞