今天凌晨,OpenAI開(kāi)源了最新基準(zhǔn)測(cè)試集SimpleQA,可以幫助開(kāi)發(fā)者輕松檢測(cè)、校準(zhǔn)大模型的真實(shí)性能力。
目前,很多大模型會(huì)出現(xiàn)一本正經(jīng)胡說(shuō)八道的問(wèn)題,例如,你提問(wèn)NBA歷史上得分最多的是誰(shuí),它回答是邁克爾喬丹,實(shí)際上是勒布朗詹姆斯。包括OpenAI自己發(fā)布的GPT-4o、o1-preview、o1mini等前沿模型都有這些“幻覺(jué)”難題。
所以,SimpleQA對(duì)于開(kāi)發(fā)者來(lái)說(shuō),可以精準(zhǔn)測(cè)試大模型能否輸出正確的答案,并對(duì)模型的說(shuō)謊能力進(jìn)行校準(zhǔn)然后進(jìn)行大幅度優(yōu)化完善模型能力。

有網(wǎng)友表示,看了SimpleQA的測(cè)試數(shù)據(jù)才發(fā)現(xiàn),o1-mini和o1-preview的性能差距這么大,o1-mini連GPT-4o都打不過(guò)。

令人驚訝的是,SimpleQA 被有意設(shè)計(jì)用來(lái)挑戰(zhàn)像 GPT-4這樣的高級(jí)模型,其中只包括至少有一次模型嘗試失敗的問(wèn)題。這種對(duì)抗性的基準(zhǔn)測(cè)試方法感覺(jué)像是一種大膽的轉(zhuǎn)變,旨在揭示模型的局限性并推動(dòng)模型的發(fā)展。

多整開(kāi)源這是好事。別忘了你名字的初衷啊~

這很有趣,會(huì)看到更多的模型被測(cè)試,以及它們與我在提供的文本上進(jìn)行的虛構(gòu)/幻覺(jué)基準(zhǔn)測(cè)試結(jié)果的比較。

很想看看o1模型的完整版測(cè)試。

完全同意事實(shí)性在人工智能中的重要性。SimpleQA 的引入可以顯著提升我們對(duì)語(yǔ)言模型在這一領(lǐng)域表現(xiàn)的理解。這是一項(xiàng)及時(shí)的舉措,準(zhǔn)確的數(shù)據(jù)對(duì)于信任人工智能系統(tǒng)至關(guān)重要。期待看到這個(gè)基準(zhǔn)測(cè)試的影響。

這很重要,因?yàn)榇_保大模型的事實(shí)性對(duì)于防止錯(cuò)誤信息的傳播至關(guān)重要,而 SimpleQA 提供了一種標(biāo)準(zhǔn)化的方法來(lái)評(píng)估和改進(jìn)模型可靠性的這一關(guān)鍵方面。

很棒,重要的更新!

SimpleQA簡(jiǎn)單介紹
在數(shù)據(jù)收集階段,SimpleQA的問(wèn)題參考答案由兩名獨(dú)立的 AI 訓(xùn)練員確定,并且訓(xùn)練員在創(chuàng)建問(wèn)題時(shí)被要求提供支持答案的網(wǎng)頁(yè)鏈接,以確保答案有可靠的依據(jù)。
例如,對(duì)于 “誰(shuí)是蘋(píng)果公司的創(chuàng)始人之一” 這樣常識(shí)性問(wèn)題,訓(xùn)練員會(huì)根據(jù)歷史資料和官方信息確定答案為 史蒂夫喬布斯等,并附上如蘋(píng)果公司官方網(wǎng)站等相關(guān)鏈接作為證據(jù)。
同時(shí),問(wèn)題的設(shè)計(jì)使得預(yù)測(cè)答案易于評(píng)估,只允許有一個(gè)明確且無(wú)可爭(zhēng)議的答案,避免了模糊性和歧義性。比如 “哪一年 iPhone 首次發(fā)布”,答案明確為“2007年”,而不是一個(gè)范圍或模糊的表述。
SimpleQA的評(píng)估問(wèn)題和答案都非常簡(jiǎn)短,這使得運(yùn)行速度快且操作簡(jiǎn)單。在評(píng)估模型回答時(shí),通過(guò) OpenAI API進(jìn)行評(píng)分也十分迅速。數(shù)據(jù)集中包含4326個(gè)問(wèn)題,能夠在一定程度上降低不同次運(yùn)行之間的方差,使評(píng)估結(jié)果更加穩(wěn)定可靠。

例如,在對(duì)多個(gè)模型進(jìn)行測(cè)試時(shí),不會(huì)因?yàn)閿?shù)據(jù)集本身的不穩(wěn)定性而導(dǎo)致結(jié)果出現(xiàn)較大波動(dòng),從而能夠更準(zhǔn)確地比較模型之間的性能差異。
SimpleQA的評(píng)估集非常多元化。涵蓋歷史、科學(xué)技術(shù)、藝術(shù)、地理、電視節(jié)目等多個(gè)領(lǐng)域。這種多樣性使得評(píng)估結(jié)果更具普遍性和代表性,能夠全面地檢驗(yàn)?zāi)P驮诓煌R(shí)領(lǐng)域的事實(shí)性回答能力。
另一個(gè)好處是它的校準(zhǔn)測(cè)量功能。通過(guò)詢(xún)問(wèn)模型對(duì)其答案的信心,研究者可以了解模型是否知道它們知道什么,這是一個(gè)很重要的校準(zhǔn)現(xiàn)象。如果一個(gè)模型能夠準(zhǔn)確地評(píng)估自己的信心水平,那么它就是一個(gè)校準(zhǔn)良好的模型。
OpenAI通過(guò)SimpleQA對(duì)GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型進(jìn)行了綜合測(cè)試。結(jié)果顯示,較大模型通常具有更高的性能,但即使是前沿模型在SimpleQA 上的表現(xiàn)也并非完美。

例如,GPT -4o 在回答一些問(wèn)題時(shí)能夠給出較高比例的正確答案,但仍有部分錯(cuò)誤回答和未嘗試回答的情況。同時(shí),通過(guò)測(cè)量模型的校準(zhǔn)情況,發(fā)現(xiàn)模型雖然有一定的信心概念,但普遍存在高估自己信心的問(wèn)題,模型的信心水平與實(shí)際回答的準(zhǔn)確性之間存在差距。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過(guò)80萬(wàn)個(gè),涵蓋寫(xiě)實(shí)、二次元、插畫(huà)、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類(lèi)型應(yīng)用場(chǎng)景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng),1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。
9月24日,華為坤靈召開(kāi)“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬(wàn)臺(tái),同比增長(zhǎng)33%,顯示出品類(lèi)強(qiáng)勁的市場(chǎng)需求。