近期,北京大學(xué)的宋國杰教授團(tuán)隊(duì)發(fā)布了一篇全面的綜述論文,系統(tǒng)梳理了大語言模型心理測量學(xué)的研究進(jìn)展,為 AI 的評估提供了新視角。
這篇論文名為《大語言模型心理測量學(xué):評估、驗(yàn)證與增強(qiáng)的系統(tǒng)綜述》,長達(dá)63頁,引用了500篇相關(guān)文獻(xiàn)。隨著 LLM 能力的快速迭代,傳統(tǒng)的評估方法已顯不足。論文指出,當(dāng)前評估面臨多重挑戰(zhàn),包括 LLM 的心智特征超出傳統(tǒng)評測范圍、模型迭代快使靜態(tài)基準(zhǔn)失效、評估結(jié)果容易受微小變化影響等。為此,團(tuán)隊(duì)提出了將心理測量學(xué)引入 AI 評估的新思路。
心理測量學(xué)長期致力于量化復(fù)雜心理特質(zhì),通過科學(xué)設(shè)計(jì)的測試為教育、醫(yī)療和商業(yè)決策提供支持。研究者們發(fā)現(xiàn),將其方法論應(yīng)用于 LLM 的評估,將有助于深入理解和提升 AI 的心智能力。這一方法革新為 AI 評估開啟了全新的視角,從而推動(dòng)了 “LLM 心理測量學(xué)” 的交叉領(lǐng)域發(fā)展。
論文中提出了三大創(chuàng)新方向:一是采用 “構(gòu)念導(dǎo)向” 的評估方法,深入挖掘影響模型表現(xiàn)的潛在變量;二是引入心理測量學(xué)的嚴(yán)謹(jǐn)方法,提升測試的科學(xué)性與可解釋性;三是利用項(xiàng)目反應(yīng)理論,動(dòng)態(tài)校準(zhǔn)測試項(xiàng)目難度,使得不同 AI 系統(tǒng)之間的比較更加科學(xué)和公平。
此外,研究還探討了 LLM 表現(xiàn)出的類人心理構(gòu)念,包括人格特質(zhì)、能力構(gòu)念等,強(qiáng)調(diào)了這些特質(zhì)對模型行為的深遠(yuǎn)影響。通過結(jié)構(gòu)化和非結(jié)構(gòu)化的測試形式,團(tuán)隊(duì)為 LLM 的 “心智” 能力評估奠定了方法論基礎(chǔ),為未來 AI 的發(fā)展提供了有力的理論支持。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。