日前,Meta發(fā)布最新開源模型Llama 3并號稱是性能最好開源大語言模型,極有可能超過當前的閉源王者GPT-4 Turbo。那么,Llama 3能力究竟如何?
4月24日,由清華大學基礎模型研究中心聯(lián)合中關村實驗室研制的SuperBench大模型綜合能力評測平臺,基于語義、對齊、代碼、安全和智能體5項大模型原生評測基準,展開開放性、動態(tài)性、科學性和權威性的大模型綜合能力評測,率先剖析Llama 3模型能力。
《SuperBench大模型綜合能力評測報告》對Llama 3-8B、Llama 3-70B等16個海內外具有代表性的模型進行了評測。結果顯示,Llama 3與GPT-4系列模型仍有一定差距,而國內大模型智譜AI的GLM-4與百度文心一言4.0在多項評測中進入榜單前五名,超過Llama 3。
在語義理解能力評測中,國內大模型GLM-4、文心一言4.0分別位列第二名、第三名,僅次于Claude-3,但超過GPT-4網頁版與GPT-4 Turbo,穩(wěn)占第一梯隊。Llama 3-70B、Llama 3-8B則分別位列第六名、第十六名。

而在智能體能力評測中,Llama 3-70B躋身榜單前五名,這也是該模型五項評測排名最高的一次。在代碼編寫能力、人類對齊能力、安全和價值觀三項評測中,Llama 3-70B均排在第七名,超過大部分國內大模型,只落敗于GLM-4和文心一言4.0,Llama 3-8B排名相對靠后,考慮到模型參數量的差異,Llama 3-70B整體表現較好。


相較之下,表現出色的國內大模型GLM-4全面對標OpenAI,在五項能力評測中均緊追GPT-4系列模型與Claude-3,堪稱“全能選手”。同時,在代碼、智能體兩項大模型關鍵能力評測中,GLM-4排名僅次于GPT-4系列模型和Claude-3,位列國內第一。

在安全價值觀能力評測中,文心一言4.0拿下最高分,超越GPT-4系列模型和Claude-3。在智能體能力評測中,文心一言4.0表現較差。

總體而言,雖然國內大模型與國際頂尖模型之間還存在差距,但正逐步縮小這一差距。相信在政策支持和技術創(chuàng)新的推動下,國內大模型將取得顯著成就,推動我國人工智能產業(yè)高質量發(fā)展。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。