OpenAI開(kāi)源SimpleQA！輕松檢測(cè)、校準(zhǔn)大模型能力

2024年10月31日 09:15:24 來(lái)源：AIGC開(kāi)放社區(qū)公眾號(hào)

　　今天凌晨，OpenAI開(kāi)源了最新基準(zhǔn)測(cè)試集SimpleQA，可以幫助開(kāi)發(fā)者輕松檢測(cè)、校準(zhǔn)大模型的真實(shí)性能力。

　　目前，很多大模型會(huì)出現(xiàn)一本正經(jīng)胡說(shuō)八道的問(wèn)題，例如，你提問(wèn)NBA歷史上得分最多的是誰(shuí)，它回答是邁克爾喬丹，實(shí)際上是勒布朗詹姆斯。包括OpenAI自己發(fā)布的GPT-4o、o1-preview、o1mini等前沿模型都有這些“幻覺(jué)”難題。

　　所以，SimpleQA對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，可以精準(zhǔn)測(cè)試大模型能否輸出正確的答案，并對(duì)模型的說(shuō)謊能力進(jìn)行校準(zhǔn)然后進(jìn)行大幅度優(yōu)化完善模型能力。

　　有網(wǎng)友表示，看了SimpleQA的測(cè)試數(shù)據(jù)才發(fā)現(xiàn)，o1-mini和o1-preview的性能差距這么大，o1-mini連GPT-4o都打不過(guò)。

　　令人驚訝的是，SimpleQA 被有意設(shè)計(jì)用來(lái)挑戰(zhàn)像 GPT-4這樣的高級(jí)模型，其中只包括至少有一次模型嘗試失敗的問(wèn)題。這種對(duì)抗性的基準(zhǔn)測(cè)試方法感覺(jué)像是一種大膽的轉(zhuǎn)變，旨在揭示模型的局限性并推動(dòng)模型的發(fā)展。

　　多整開(kāi)源這是好事。別忘了你名字的初衷啊~

　　這很有趣，會(huì)看到更多的模型被測(cè)試，以及它們與我在提供的文本上進(jìn)行的虛構(gòu)/幻覺(jué)基準(zhǔn)測(cè)試結(jié)果的比較。

　　很想看看o1模型的完整版測(cè)試。

　　完全同意事實(shí)性在人工智能中的重要性。SimpleQA 的引入可以顯著提升我們對(duì)語(yǔ)言模型在這一領(lǐng)域表現(xiàn)的理解。這是一項(xiàng)及時(shí)的舉措，準(zhǔn)確的數(shù)據(jù)對(duì)于信任人工智能系統(tǒng)至關(guān)重要。期待看到這個(gè)基準(zhǔn)測(cè)試的影響。

　　這很重要，因?yàn)榇_保大模型的事實(shí)性對(duì)于防止錯(cuò)誤信息的傳播至關(guān)重要，而 SimpleQA 提供了一種標(biāo)準(zhǔn)化的方法來(lái)評(píng)估和改進(jìn)模型可靠性的這一關(guān)鍵方面。

　　很棒，重要的更新!

　　SimpleQA簡(jiǎn)單介紹

　　在數(shù)據(jù)收集階段，SimpleQA的問(wèn)題參考答案由兩名獨(dú)立的 AI 訓(xùn)練員確定，并且訓(xùn)練員在創(chuàng)建問(wèn)題時(shí)被要求提供支持答案的網(wǎng)頁(yè)鏈接，以確保答案有可靠的依據(jù)。

　　例如，對(duì)于 “誰(shuí)是蘋(píng)果公司的創(chuàng)始人之一” 這樣常識(shí)性問(wèn)題，訓(xùn)練員會(huì)根據(jù)歷史資料和官方信息確定答案為史蒂夫喬布斯等，并附上如蘋(píng)果公司官方網(wǎng)站等相關(guān)鏈接作為證據(jù)。

　　同時(shí)，問(wèn)題的設(shè)計(jì)使得預(yù)測(cè)答案易于評(píng)估，只允許有一個(gè)明確且無(wú)可爭(zhēng)議的答案，避免了模糊性和歧義性。比如 “哪一年 iPhone 首次發(fā)布”，答案明確為“2007年”，而不是一個(gè)范圍或模糊的表述。

　　SimpleQA的評(píng)估問(wèn)題和答案都非常簡(jiǎn)短，這使得運(yùn)行速度快且操作簡(jiǎn)單。在評(píng)估模型回答時(shí)，通過(guò) OpenAI API進(jìn)行評(píng)分也十分迅速。數(shù)據(jù)集中包含4326個(gè)問(wèn)題，能夠在一定程度上降低不同次運(yùn)行之間的方差，使評(píng)估結(jié)果更加穩(wěn)定可靠。

　　例如，在對(duì)多個(gè)模型進(jìn)行測(cè)試時(shí)，不會(huì)因?yàn)閿?shù)據(jù)集本身的不穩(wěn)定性而導(dǎo)致結(jié)果出現(xiàn)較大波動(dòng)，從而能夠更準(zhǔn)確地比較模型之間的性能差異。

　　SimpleQA的評(píng)估集非常多元化。涵蓋歷史、科學(xué)技術(shù)、藝術(shù)、地理、電視節(jié)目等多個(gè)領(lǐng)域。這種多樣性使得評(píng)估結(jié)果更具普遍性和代表性，能夠全面地檢驗(yàn)?zāi)Ｐ驮诓煌R(shí)領(lǐng)域的事實(shí)性回答能力。

　　另一個(gè)好處是它的校準(zhǔn)測(cè)量功能。通過(guò)詢(xún)問(wèn)模型對(duì)其答案的信心，研究者可以了解模型是否知道它們知道什么，這是一個(gè)很重要的校準(zhǔn)現(xiàn)象。如果一個(gè)模型能夠準(zhǔn)確地評(píng)估自己的信心水平，那么它就是一個(gè)校準(zhǔn)良好的模型。

　　OpenAI通過(guò)SimpleQA對(duì)GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型進(jìn)行了綜合測(cè)試。結(jié)果顯示，較大模型通常具有更高的性能，但即使是前沿模型在SimpleQA 上的表現(xiàn)也并非完美。

　　例如，GPT -4o 在回答一些問(wèn)題時(shí)能夠給出較高比例的正確答案，但仍有部分錯(cuò)誤回答和未嘗試回答的情況。同時(shí)，通過(guò)測(cè)量模型的校準(zhǔn)情況，發(fā)現(xiàn)模型雖然有一定的信心概念，但普遍存在高估自己信心的問(wèn)題，模型的信心水平與實(shí)際回答的準(zhǔn)確性之間存在差距。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

海報(bào)生成中...

即時(shí)

全球頂級(jí)AI創(chuàng)作社區(qū)回歸！海藝AI國(guó)內(nèi)首發(fā)“全民娛樂(lè)化創(chuàng)作

海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng)，目前站內(nèi)累計(jì)模型數(shù)超過(guò)80萬(wàn)個(gè)，涵蓋寫(xiě)實(shí)、二次元、插畫(huà)、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類(lèi)型應(yīng)用場(chǎng)景，基本覆蓋所有主流創(chuàng)作風(fēng)格。

OPPO A6l發(fā)布：售價(jià)1799元搭載六年長(zhǎng)壽大電池

華為Mate X7今日開(kāi)售：售價(jià)12999元起

新聞

市場(chǎng)占比高達(dá)35.8%，阿里云引領(lǐng)中國(guó)AI云增長(zhǎng)

9月9日，國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng)，1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。

企業(yè)IT

華為坤靈發(fā)布IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃，助力中小企

9月24日，華為坤靈召開(kāi)“智能體驗(yàn)，一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。

3C消費(fèi)

雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機(jī)，分別是平板振膜的YH-4000和動(dòng)圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告，2025年第二季度》顯示，上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬(wàn)臺(tái)，同比增長(zhǎng)33%，顯示出品類(lèi)強(qiáng)勁的市場(chǎng)需求。