国产无遮挡免费视频_热久久99这里有精品_无码内射中文字幕岛国片_4hu四虎永久在线影院成人_国产精品麻豆一区_欧美成人亚洲成人_亚洲黄色在线免费观看_精品久久久久久中文字幕动漫_中文字幕久久午夜不卡_日韩中文字幕在线视频播放_五月激情五月婷婷_日本美女视频一区二区

  • 首頁 > 云計算頻道 > 大模型

    誰在給大模型打分?

    2023年07月26日 12:28:36 來源:科技新知

      當新賽道擠滿了摩拳擦掌的選手,場邊的裁判員也應運而生。

      5月,國家科技部下屬的中國科學技術信息研究所,發布了《中國人工智能大模型地圖研究報告》。內容顯示,截至5月28日,國內10億級參數規模以上基礎大模型至少已發布79個。

      每一個亮相時,都少不了“行業領先”“技術革新”諸如此類的標簽。不免引來質疑:如何直觀地評判哪一款大模型在技術和性能上更為卓越?那些宣稱“第一”的評估標準與數據來源又是怎樣的?

      一把衡量不同模型效能基準的“尺子”亟待打造。

      前不久,國際咨詢公司IDC發布《AI大模型技術能力評估報告2023》,調研了9家中國市場主流大模型技術廠商。其他不少研究機構和團隊也投入資源,發布了對應的評價標準和深度報告。這背后所顯露的現象和趨勢,更值得深層次的探討。

      評測基準百家爭鳴

      ChatGPT 帶火了大模型應用的相關研究,評測基準亦成為關注焦點所在。

      日前,微軟亞洲研究院公開了介紹大模型評測領域的綜述文章《A Survey on Evaluation of Large Language Models》。根據不完全統計(見下圖),大模型評測方面文章的發表呈上升趨勢,越來越多的研究著眼于設計更科學、更好度量、更準確的評測方式來對大模型的能力進行更深入的了解。

      文中一共列出了19個受歡迎的基準測試,每個都側重于不同的方面和評估標準,為其各自的領域提供了寶貴的貢獻。為了更好地總結,研究員將這些基準測試分為兩類:通用基準(General benchmarks)和具體基準(Specific benchmarks),其中不乏一些深具盛名的大模型基準。

      Chatbot Arena,就被行業人士普遍認為是最具公平性與廣泛接受度的平臺。其背后的推手——LMSYS Org,是一個開放的研究組織,由加州大學伯克利分校、加州大學圣地亞哥分校和卡內基梅隆大學合作創立。

      這個創新性的評估標準,為各大AI研究機構與技術愛好者,提供了一個既獨特又具有激烈競爭力的場所,專門用于評價和比對不同聊天機器人模型的實際應用效果。用戶能夠與其中的匿名模型進行實時互動,而后通過在線投票系統表達他們對于某一模型的滿意度或喜好。

      值得一提的是,該評測方式的設計靈感來源于國際象棋等競技游戲中盛行的ElO評分系統。通過積累大量的用戶投票,它能夠更為貼近實際場景地評估各模型的綜合表現。

      微軟亞洲研究院還在文中提到了通用基準C-Eval,這是一個全面的中文基礎模型評估套件。它包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別,該項目由上海交通大學、清華大學、愛丁堡大學共同完成。

      除了通用任務的基準測試外,還存在一些專為某些下游任務設計的具體基準測試。

      譬如,MultiMedQA是一個醫學問答基準測試,重點關注醫學檢查、醫學研究和消費者健康問題。該基準由谷歌和DeepMind的科研人員提出,它包括七個與醫學問答相關的數據集,其中包括六個現有的數據集和一個新的數據集。測試目標是評估大語言模型在臨床知識和問答能力方面的性能。

      還有一些中文評測基準被微軟研究院所遺漏。例如SuperCLUE,作為針對中文可用的通用大模型的一個測評基準,由來自中文語言理解測評基準開源社區CLUE的成員發起。

      為了著眼于綜合評價大模型的能力,使其能全面地測試大模型的效果,又能考察模型在中文上特有任務的理解和積累,SuperCLUE從三個不同的維度評價模型的能力:基礎能力、專業能力和中文特性能力。

      實際上,這些維度只是冰山一角。在評測 LLMs 的性能時,選擇合適的任務和領域對于展示大型語言模型的表現、優勢和劣勢至關重要。微軟亞洲研究院將現有的任務劃分為了7個不同的類別:

      自然語言處理:包括自然語言理解、推理、自然語言生成和多語言任務;

      魯棒性、倫理、偏見和真實性;

      醫學應用:包括醫學問答、醫學考試、醫學教育和醫學助手;

      社會科學;

      自然科學與工程:包括數學、通用科學和工程;

      代理應用:將 LLMs 作為代理使用;

      其他應用。

      縱觀當前AI領域的發展趨勢,大模型的評測基準測試不再僅僅是一個單一的技術環節,而是已經逐步成為整個上下游產業鏈中的重要配套。

      正確地使用“尺子”

      存在即合理。

      大模型評測基準的誕生和持續優化,之所以呈現出愈演愈烈的勢頭,無疑與其所能帶來的巨大價值和業界的廣泛認同是密不可分的。

      可以看到,通過深入的大模型評測基準分析,能夠更為明確和系統地揭示大模型在各種應用場景中的優勢與局限性。這種專業的評估不僅為AI領域的研發者提供了清晰的指導,同時也助力用戶最終作出更為明智的技術選擇。

      在復雜的研發過程中,判斷技術方案或特定模型的優越性往往是一個挑戰。C-Eval數據集和其相關榜單,意義不僅僅是一系列的數字或排名,而是為大模型的研發者提供了一套客觀、系統的評估工具。

      用C-Eval項目團隊的話來說,“我們的最重要目標是輔助模型開發”。

      具體來看,研發團隊可以與企業緊密合作,將大模型評測基準整合到他們的開發和測試工作流程中。這不僅可以在實際應用環境中驗證模型的性能,還能通過雙方的深度溝通,找到在測試過程中可能遇到的技術難題和挑戰,從而實現更為高效和準確的模型優化。

      正是基于這一點,多家頭部大模型廠商不僅在模型研發上持續投入,同時也在評測基準的制定與優化上下足了功夫。

      譬如科大訊飛通過認知智能全國重點實驗室牽頭設計了通用認知大模型評測體系,覆蓋7大類481個細分任務類型;阿里巴巴達摩院多語言NLP團隊發布了首個多語言多模態測試基準M3Exam,共涵蓋12317道題目,等等。

      不過也正如C-Eval項目團隊所強調的:對于大模型廠商,單純地追求榜單的高位排名,并不應成為其主要追求。

      當廠商將榜單成績作為首要目標時,可能會為了追求高分而采用過度擬合榜單的策略,這樣就很容易損失模型的廣泛適用性。更為關鍵的是,若僅僅著眼于排名,廠商可能為了短期的成績而試圖尋找捷徑,從而違背了真正踏實的科研精神與價值觀。

      再看終端用戶的視角中,大模型測評基準提供了一個全面的、結構化的參考框架,從而充分地輔助用戶在眾多技術選項中做出更為理性和明智的決策。這種評測不僅降低了技術采納的風險,也確保了用戶能夠從所選模型中獲得最佳的投資回報率。

      尤其對于那些還未擁有深厚大模型研發實力的企業來說,深入了解大模型的技術邊界,并能夠針對自身需求高效地進行技術選型,是至關重要的。

      綜上,不論是對于背后的研發團隊還是產品側的終端用戶,大模型評測基準都承載著不可估量的價值和意義。

      劣幣來襲

      吊詭的是,由于在原理核心上并不涉及復雜的技術門檻,導致目前市場上的大模型評測基準的數量,甚至已經超過了大模型本身。這其中自然有許多機構見到了可乘之機,進行各種市場操作,包括混淆視聽、誤導消費者的行為。

      此前就有觀點認為,隨著AI技術的發展,大模型評測可能會被某些公司或機構用作營銷工具,通過發布其模型的高分評測結果來吸引公眾的注意力,以期提高產品的市場份額。

      目前也有一些突出的現象佐證:在某些特定評測榜單中領先的廠商,放到其他不同的榜單評測中,卻未能夠維持其優勢地位。

      不能排除存在著客觀原因。當前階段,對于大模型的評估機制和具體評測指標,并沒有達到一個行業共識,更遑論出現統一的的評測標準。不同的應用環境和任務標準,就會產生截然不同的評價框架和需求。

      此外,大模型評測通常依賴于兩大主要方法:自動評測和人工評測。自動評測是基于精確的計算機算法和一系列預定義的指標進行,而人工評測更多強調人類專家的主觀見解、經驗和質量判定。

      遇到大模型生成詩歌或短文這類任務時,人工評測的主觀性變得尤為顯著。自古“文無第一,武無第二”,不同的評審者可能會對同一作品給出不同的評價。

      然而,從相關搜索結果中不難發現,大模型評測早已被某些廠商視為一個營銷的競技場。畢竟在一個競爭激烈的市場中,每一個廠商都希望自己的產品能夠脫穎而出。

      因此有充分的動機去選擇那些能夠突顯自己產品優勢的評測指標,而忽略那些可能暴露弱項的指標。這種選擇性的展示,即使有機會帶來短期的市場優勢,但是對于消費者和整個行業來說,必然是有害的。

      一時的誤導一旦扭曲了市場的競爭格局,可能使得真正有價值的創新被埋沒。劣幣驅逐良幣之下,那些只是為了宣傳而進行的“創新”反而會趨之若鶩。

      從這個角度出發,大模型評測基準還是應該回歸其本質,即為了更好地理解和比較不同模型的性能,為研發者和終端用戶提供反饋,而不是為了產品廠商的短期利益。

      既然要當裁判員,還是要盡量做到獨立、客觀、第三方。

      參考資料:

      微軟研究院《A Survey on Evaluation of Large Language Models》

      機器之心《13948道題目,涵蓋微積分、線代等52個學科,上交清華給中文大模型做了個測試集》

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产免费观看久久| 亚洲综合在线小说| 超碰97在线人人| 国产ts在线观看| 国产精品视频a| 午夜视频一区二区三区| 久久久久久有精品国产| 一级二级三级欧美| 精品无码黑人又粗又大又长| 精久久久久久久久久久| 精品国产乱码久久久久久浪潮| 国产传媒一区二区| 国产1区2区在线观看| 久久99国产精品久久99| 亚洲精品一区中文字幕乱码| 日韩一级免费看| 一级淫片免费看| 欧美在线不卡视频| 成人午夜电影免费在线观看| 亚洲综合视频网站| 国产欧美一区二区精品性色| 欧美乱大交做爰xxxⅹ性3| 99热这里只有精品在线播放| 久久久久.com| 色噜噜亚洲精品中文字幕| 无码熟妇人妻av在线电影| 一级黄色大片免费| 一级精品视频在线观看宜春院| 成人女保姆的销魂服务| 亚洲国产无码精品| 中文字幕一区二| 国产免费观看久久黄| 看免费黄色录像| 一区二区三区毛片| 亚洲精品日韩在线观看| 亚洲va久久久噜噜噜无码久久| 精品福利一二区| 午夜视频在线网站| 久久久噜噜噜久久中文字幕色伊伊| 国产精品丝袜一区二区三区| 亚洲欧洲久久久| 国产精品国产三级国产专播品爱网 | 国产免费一区二区| www.xxx国产| 亚洲第一区在线| 97免费公开视频| 尤物视频一区二区| 正在播放91九色| 精品在线你懂的| 国产日韩在线一区| 日本熟妇毛茸茸丰满| 日韩欧美a级成人黄色| 苍井空浴缸大战猛男120分钟| 久久午夜色播影院免费高清| 国产精品99免视看9| 国产美女www爽爽爽| 丝袜亚洲另类欧美重口| 国产真人真事毛片| 亚洲精品小视频| 欧美无人区码suv| 精品视频免费在线| 国产精品1000部啪视频| 亚洲av综合色区无码另类小说| 国产色产综合色产在线视频| 伊人久久大香线蕉成人综合网 | 久久午夜精品视频| 亚洲精品aⅴ中文字幕乱码| 天堂在线中文在线| 中文字幕综合网| 激情五月开心婷婷| 亚洲国产精品影院| 欧美日韩国产精品激情在线播放| 亚洲欧洲www| 好男人www社区| 色欧美乱欧美15图片| 中文字幕第66页| 欧美一区二区三区公司| 黄色录像a级片| 亚洲女成人图区| 国产精品老女人| 国产精品1区2区在线观看| 欧美特级特黄aaaaaa在线看| 18性欧美xxxⅹ性满足| 久久久人成影片一区二区三区| 精品人妻无码一区二区性色| 亚洲天天在线日亚洲洲精| 色婷婷在线观看视频| 91超碰caoporn97人人| 日本中文字幕在线观看视频| 国产成人精品免费久久久久| 国产自产视频一区二区三区| 国产在线视频在线| 在线免费亚洲电影| 国产一区二区播放| 久久精品99久久久久久久久| www.中文字幕| 99影视tv| 亚洲欧洲精品一区二区精品久久久| 中文字幕55页| 俺去了亚洲欧美日韩| 97人妻精品视频一区| 国产尤物91| 一区二区三区丝袜| 在线观看日本中文字幕| 久久99热精品这里久久精品| 国产在线一区二区| 国产成年人视频网站| 亚洲国产精品99久久| 做爰无遮挡三级| 一区二区三区四区不卡| 色天天综合久久久久综合片| 日韩欧美a级片| 国产色视频一区| 一区二区三区在线高清| 国产黄色小视频网站| 日本高清不卡在线| 亚洲欧洲精品一区二区精品久久久| 日韩欧美中文视频| 国产精品黄页免费高清在线观看| 丁香婷婷综合激情五月色| 特级特黄刘亦菲aaa级| 久久久精品日本| 日韩精品视频网| 亚洲色图久久久| 久久久视频精品| 国产日本一区二区| 尤物网站在线观看| 成人免费在线一区二区三区| 在线免费观看成人短视频| 亚洲毛片在线播放| 中文字幕第一页在线视频| 不卡av日日日| 中文字幕日韩欧美一区二区三区| 四虎国产成人精品免费一女五男| 精品乱码一区二区三区| 精品久久久久久久久久久久包黑料| 日韩电影在线一区二区| 中文在线永久免费观看| 国产精品日本一区二区| 欧美xingq一区二区| 国产成人在线视频网址| 成人免费视频国产免费观看| 久久久久九九九| 亚洲色图第一页| 国产婷婷色一区二区三区四区 | 亚洲性69xxxbbb| 亚洲欧美国产77777| 国产免费久久久| 人妻丰满熟妇aⅴ无码| 久久久99爱| 亚洲国产精品人人爽夜夜爽| 国产午夜精品美女毛片视频| 中文字幕日产av| 女人被狂躁c到高潮| 日韩wuma| 欧美怡春院一区二区三区| 在线国产电影不卡| 99精品桃花视频在线观看| 黄色录像二级片| 在线不卡一区二区三区| 欧美日韩一区二区视频在线| 日韩国产在线播放| 欧美日韩色婷婷| www.欧美.com| 刘亦菲久久免费一区二区| 来吧亚洲综合网| 成人免费毛片在线观看| 激情伦成人综合小说| 欧美激情在线一区| 精品动漫一区二区三区在线观看| 国产精品久久久久久久岛一牛影视 | 亚洲小视频在线播放| 国产91在线播放| 亚洲老头同性xxxxx| 午夜av电影一区| 国产偷国产偷精品高清尤物| 污视频软件在线观看| 久久无码精品丰满人妻| 天天影视色综合| 男人日女人的bb| 日韩黄色影视| 国产91色在线|亚洲| 精品国产一区二区三区四区在线观看 | 亚洲精品日韩成人| 国产成人激情小视频| 欧美成人午夜激情视频| 欧美精品自拍偷拍| 大伊人狠狠躁夜夜躁av一区| 国产成人亚洲综合a∨婷婷| 香港三日本三级少妇66| 在线观看 中文字幕| 精品无码一区二区三区蜜臀 | 久久精品一级爱片| 波多野结衣中文字幕一区二区三区| 久久精品男女| 一本一道人人妻人人妻αv| 在线免费观看国产精品| 日韩三级小视频| 亚洲不卡视频在线观看| 五月婷婷激情网| 粉嫩av性色av蜜臀av网站| 亚洲av无码一区二区三区网址| 亚洲精品一二三四五区| 亚洲男人天堂色| 成人免费性视频| 不要播放器的av网站| 超碰在线97免费| 爱情岛论坛亚洲自拍| 男男做爰猛烈叫床爽爽小说| 亚洲一区二区自偷自拍| 亚洲天堂av中文字幕| 欧美成人国产精品高潮| 欧美亚洲精品天堂| 国产片在线播放| 日韩精品电影在线| 成人h动漫精品一区二区| 久久先锋影音av鲁色资源| 国产精品嫩草99a| 日韩欧中文字幕| 日韩一区二区三区在线观看 | 国产精品视频永久免费播放| 91在线免费看片| 91网站在线看| 中文字幕在线中文字幕日亚韩一区| 国模精品娜娜一二三区| 99国产精品白浆在线观看免费| 亚欧精品在线| 午夜免费福利视频在线观看| 一级黄色性视频| 青娱乐免费在线视频| 91成年人视频| 国产成人av一区| 五月婷婷综合网| 国产午夜精品视频免费不卡69堂| 色偷偷噜噜噜亚洲男人的天堂| 国产97色在线|日韩| 亚洲国产一区二区精品视频| 狠狠躁狠狠躁视频专区| 99热精品免费| 久久精品国语| 一区二区三区免费观看| 中文字幕av一区中文字幕天堂| 国产91色在线播放| 日本在线观看一区二区三区| 波多野结衣天堂| 丰腴饱满的极品熟妇| 国产免费a视频| 26uuu欧美| 精品av综合导航| www 成人av com| 青青草成人免费在线视频| 美国精品一区二区| a级片免费观看| 一片黄亚洲嫩模| 亚洲精品福利在线观看| 操人视频欧美| 久久aaaa片一区二区| 中文字幕一区二区在线视频| 国产欧美va欧美不卡在线| 亚洲人成77777在线观看网| 国产区一区二区三区| 国产精品秘入口18禁麻豆免会员| 激情综合网五月天| 国产69精品久久久久毛片| 亚洲国产成人在线播放| 久久爱av电影| 超碰97av在线| 国产精品主播直播| 欧美人成免费网站| 国产一区二区三区四区五区在线| 国产麻豆剧传媒精品国产av| 天堂av在线一区| 在线播放视频一区| 国产精品第二页| 国产精品一区二区三区久久| 亚洲成人福利视频| 亚洲精品久久久久久久久久| 91福利在线观看| 国产精品日韩av| 好吊色视频一区二区三区| 国产一区二区三区高清播放| 在线电影欧美成精品| 欧美日韩亚洲在线| 黄色香蕉视频在线观看| 久久久久88色偷偷免费| 亚洲 日韩 国产第一| 国产网站免费在线观看| 亚洲国产精品国自产拍久久| 3751色影院一区二区三区| 91嫩草在线视频| 中文字幕人妻一区二| 亚洲欧美激情小说另类| 91久久精品视频| 黄色一级视频免费观看| 亚洲欧美在线观看| 96sao精品视频在线观看| 99成人在线观看| 亚洲综合色成人| 国产伦精品一区二区三区高清版| 久久精品一区二区三| 有码一区二区三区| 久久久久网址| 国产区精品在线| 欧美一级夜夜爽| 玩弄japan白嫩少妇hd| 成人久久久精品乱码一区二区三区| 欧美资源在线观看| 中文字幕在线有码| 在线视频一区二区免费| 无码免费一区二区三区免费播放 | 95精品视频在线| 成人www视频在线观看| 后入内射无码人妻一区| 在线区一区二视频| 日日碰狠狠添天天爽超碰97| 国产尤物一区二区在线| 国产成人亚洲综合青青| 日本伦理一区二区三区| 欧美高清激情brazzers| 国产黄色激情视频| 高清在线不卡av| 91久久爱成人| 丰满人妻一区二区三区免费| 国产亚洲欧美另类中文| 超碰人人干人人| 精品久久久久久久久久久久久久久久久 | 国产精品国产三级国产aⅴ9色| 日韩免费不卡视频| 国产一区二区三区网站| 国产欧美亚洲视频| 天堂网在线观看视频| 欧美成人在线网站| 日本免费一二三区| 中文字幕一精品亚洲无线一区| 手机av在线看| 日韩视频免费观看高清完整版在线观看| 国产三级三级看三级| 国产精品网曝门| 鲁一鲁一鲁一鲁一色| 国产精品久久久久久久久久久免费看| 国产一区二区在线观看免费播放| 美女网站一区二区| 欧美1o一11sex性hdhd| 国产不卡高清在线观看视频| 日韩一本精品| 成人在线视频首页| 日本高清视频一区二区三区| 成人国产视频在线观看| 国产av第一区| 亚洲黄色性网站| 国产精品国产三级国产专区51| 久久天天做天天爱综合色| 久无码久无码av无码| 久久伊人中文字幕| 国产免费人做人爱午夜视频| 一本色道久久综合亚洲91| 手机看片福利视频| 中文字幕亚洲天堂| 国产91免费在线观看| 欧美极品色图| 亚洲精品视频免费观看| 99久久国产宗和精品1上映 | 韩日欧美一区二区三区| 欧美日韩成人一区二区三区 | 亚洲 国产 欧美一区| 亚洲欧洲日本在线| 九九热免费在线观看| 亚洲乱码av中文一区二区| 在线观看免费观看在线| 狠狠色综合色区| 日本一区二区三区国色天香| 熟妇人妻va精品中文字幕 | 99sesese| 亚洲无线码在线一区观看| 啪啪小视频网站| 欧美一区国产一区| 狠狠躁18三区二区一区| 久久综合综合久久| 国产成人自拍视频在线观看| 久久亚洲捆绑美女| 永久免费看mv网站入口78| 91av在线精品| 日本欧美加勒比视频| av网站在线观看不卡| 欧美日本一道本在线视频| 日本一区二区免费在线观看| 99久久99久久| 欧美特级www| 日本五十路女优| 日韩一区二区电影在线观看| 欧美日韩你懂得| 国产精品一区二区av白丝下载| 蜜桃av久久久亚洲精品| 亚洲一区中文日韩| 无码人妻精品一区二区三区不卡 | 国产精品人成在线观看免费| 精品人妻伦九区久久aaa片| 免费成人av网站| 欧美精品久久一区| 亚洲av毛片成人精品| 天天色天天综合网| 青草青草久热精品视频在线观看| 成人欧美一区二区三区视频网页| 亚洲精品成人无码熟妇在线| www日韩av| 亚洲成人精品久久| 91一区二区在线观看| 四虎精品永久在线| 免费在线观看毛片网站| 97视频在线看|