機器之心報道
機器之心編輯部
已上微軟 Azure,即將要上 AWS、Hugging Face。
一夜之間,大模型格局再次發(fā)生巨變。

一直以來 Llama 可以說是 AI 社區(qū)內(nèi)最強大的開源大模型。但因為開源協(xié)議問題,一直不可免費商用。
今日,Meta 終于發(fā)布了大家期待已久的免費可商用版本 Llama 2。

此次 Meta 發(fā)布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體。此外還訓練了 340 億參數(shù)變體,但并沒有發(fā)布,只在技術報告中提到了。
據(jù)介紹,相比于 Llama 1,Llama 2 的訓練數(shù)據(jù)多了 40%,上下文長度也翻倍,并采用了分組查詢注意力機制。具體來說,Llama 2 預訓練模型是在 2 萬億的 token 上訓練的,精調(diào) Chat 模型是在 100 萬人類標記數(shù)據(jù)上訓練的。

公布的測評結(jié)果顯示,Llama 2 在包括推理、編碼、精通性和知識測試等許多外部基準測試中都優(yōu)于其他開源語言模型。

接下來,我們就從 Meta 公布的技術報告中,詳細了解下 Llama 2。

論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
項目地址:https://github.com/facebookresearch/llama
總的來說,作為一組經(jīng)過預訓練和微調(diào)的大語言模型(LLM),Llama 2 模型系列的參數(shù)規(guī)模從 70 億到 700 億不等。其中的 Llama 2-Chat 針對對話用例進行了專門優(yōu)化。

Llama 2-Chat 的訓練 pipeline。
Llama 2 模型系列除了在大多數(shù)基準測試中優(yōu)于開源模型之外,根據(jù) Meta 對有用性和安全性的人工評估,它或許也是閉源模型的合適替代品。

Llama 2-Chat 與其他開源和閉源模型在安全性人類評估上的結(jié)果。
Meta 詳細介紹了 Llama 2-Chat 的微調(diào)和安全改進方法,使社區(qū)可以在其工作基礎上繼續(xù)發(fā)展,為大語言模型的負責任發(fā)展做出貢獻。
預訓練
為了創(chuàng)建全新的 Llama 2 模型系列,Meta 以 Llama 1 論文中描述的預訓練方法為基礎,使用了優(yōu)化的自回歸 transformer,并做了一些改變以提升性能。
具體而言,Meta 執(zhí)行了更穩(wěn)健的數(shù)據(jù)清理,更新了混合數(shù)據(jù),訓練 token 總數(shù)增加了 40%,上下文長度翻倍。下表 1 比較了 Llama 2 與 Llama 1 的詳細數(shù)據(jù)。

Llama 2 的訓練語料庫包含了來自公開可用資源的混合數(shù)據(jù),并且不包括 Meta 產(chǎn)品或服務相關的數(shù)據(jù)。Llama 2 采用了 Llama 1 中的大部分預訓練設置和模型架構(gòu),包括標準 Transformer 架構(gòu)、使用 RMSNorm 的預歸一化、SwiGLU 激活函數(shù)和旋轉(zhuǎn)位置嵌入。
在超參數(shù)方面,Meta 使用 AdamW 優(yōu)化器進行訓練,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^−5。同時使用余弦學習率計劃(預熱 2000 步),并將最終學習率衰減到了峰值學習率的 10%。
下圖 5 為這些超參數(shù)設置下 Llama 2 的訓練損失曲線。

在訓練硬件方面,Meta 在其研究超級集群(Research Super Cluster, RSC)以及內(nèi)部生產(chǎn)集群上對模型進行了預訓練。兩個集群均使用了 NVIDIA A100。
在預訓練的碳足跡方面,Meta 根據(jù)以往的研究方法,利用 GPU 設備的功耗估算和碳效率,計算了 Llama 2 模型預訓練所產(chǎn)生的碳排放量。

預訓練期間 Llama 2 各個模型的碳排放量。
Llama 2 預訓練模型評估
Meta 報告了 Llama 1、Llama 2 基礎模型、MPT(MosaicML)和 Falcon 等開源模型在標準學術基準上的結(jié)果。
下表 3 總結(jié)了這些模型在一系列流行基準上的整體性能,結(jié)果表明,Llama 2 優(yōu)于 Llama 1 。

除了開源模型之外,Meta 還將 Llama 2 70B 的結(jié)果與閉源模型進行了比較,結(jié)果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在編碼基準上存在顯著差距。
此外,在幾乎所有基準上,Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好,不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。

微調(diào)
Llama 2-Chat 是數(shù)個月研究和迭代應用對齊技術(包括指令調(diào)整和 RLHF)的成果,需要大量的計算和注釋資源。
監(jiān)督微調(diào) (SFT)
第三方監(jiān)督微調(diào)數(shù)據(jù)可從許多不同來源獲得,但 Meta 發(fā)現(xiàn)其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠高,尤其是在使 LLM 與對話式指令保持一致方面。因此,他們首先重點收集了幾千個高質(zhì)量 SFT 數(shù)據(jù)示例,如下表 5 所示。

在微調(diào)過程中,每個樣本都包括一個提示和一個回答。為確保模型序列長度得到正確填充,Meta 將訓練集中的所有提示和答案連接起來。他們使用一個特殊的 token 來分隔提示和答案片段,利用自回歸目標,將來自用戶提示的 token 損失歸零,因此只對答案 token 進行反向傳播。最后對模型進行了 2 次微調(diào)。
RLHF
RLHF 是一種模型訓練程序,適用于經(jīng)過微調(diào)的語言模型,以進一步使模型行為與人類偏好和指令遵循相一致。Meta 收集了代表了人類偏好經(jīng)驗采樣的數(shù)據(jù),人類注釋者可據(jù)此選擇他們更喜歡的兩種模型輸出。這種人類反饋隨后被用于訓練獎勵模型,該模型可學習人類注釋者的偏好模式,然后自動做出偏好決定。
下表 6 報告了 Meta 長期以來收集到的獎勵建模數(shù)據(jù)的統(tǒng)計結(jié)果,并將其與多個開源偏好數(shù)據(jù)集進行了對比。他們收集了超過 100 萬個基于人類應用指定準則的二元比較的大型數(shù)據(jù)集,也就是元獎賞建模數(shù)據(jù)。
請注意,提示和答案中的標記數(shù)因文本領域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長,而對話式的提示通常較短。與現(xiàn)有的開源數(shù)據(jù)集相比,本文的偏好數(shù)據(jù)具有更多的對話回合,平均長度也更長。

獎勵模型將模型響應及其相應的提示(包括前一輪的上下文)作為輸入,并輸出一個標量分數(shù)來表示模型生成的質(zhì)量(例如有用性和安全性)。利用這種作為獎勵的響應得分,Meta 在 RLHF 期間優(yōu)化了 Llama 2-Chat,以更好地與人類偏好保持一致,并提高有用性和安全性。
在每一批用于獎勵建模的人類偏好注釋中,Meta 都拿出 1000 個樣本作為測試集來評估模型,并將相應測試集的所有提示的集合分別稱為「元有用性」和「元安全性」。
下表 7 中報告了準確率結(jié)果。不出所料,Meta 自己的獎勵模型在基于 Llama 2-Chat 收集的內(nèi)部測試集上表現(xiàn)最佳,其中「有用性」獎勵模型在「元有用性」測試集上表現(xiàn)最佳,同樣,「安全性」獎勵模型在「元安全性」測試集上表現(xiàn)最佳。
總體而言,Meta 的獎勵模型優(yōu)于包括 GPT-4 在內(nèi)的所有基線模型。有趣的是,盡管 GPT-4 沒有經(jīng)過直接訓練,也沒有專門針對這一獎勵建模任務,但它的表現(xiàn)卻優(yōu)于其他非元獎勵模型。

縮放趨勢。Meta 研究了獎勵模型在數(shù)據(jù)和模型大小方面的縮放趨勢,在每周收集的獎勵模型數(shù)據(jù)量不斷增加的情況下,對不同的模型大小進行了微調(diào)。下圖 6 報告了這些趨勢,顯示了預期的結(jié)果,即在類似的數(shù)據(jù)量下,更大的模型能獲得更高的性能。

隨著收到更多批次的人類偏好數(shù)據(jù)注釋,能夠訓練出更好的獎勵模型并收集更多的提示。因此,Meta 訓練了連續(xù)版本的 RLHF 模型,在此稱為 RLHF-V1、...... , RLHF-V5。
此處使用兩種主要算法對 RLHF 進行了微調(diào):
近端策略優(yōu)化 (PPO);
Rejection 采樣微調(diào)。
RLHF 結(jié)果
首先是基于模型的評估結(jié)果。下圖 11 報告了不同 SFT 和 RLHF 版本在安全性和有用性方面的進展,其中通過 Meta 內(nèi)部的安全性和有用性獎勵模型進行評估。

再來看人類評估結(jié)果。如下圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均顯著優(yōu)于開源模型。特別地,Llama 2-Chat 7B 在 60% 的提示上優(yōu)于 MPT-7B-chat,Llama 2-Chat 34B 相對于同等大小的 Vicuna-33B 和 Falcon 40B,表現(xiàn)出了 75% 以上的整體勝率。

在這里,Meta 也指出了人工評估的一些局限性。
雖然結(jié)果表明 Llama 2-Chat 在人工評估方面與 ChatGPT 不相上下,但必須指出的是,人工評估存在一些局限性。
按照學術和研究標準,本文擁有一個 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實世界中的使用情況,而現(xiàn)實世界中的使用情況可能要多得多。
提示語的多樣性可能是影響結(jié)果的另一個因素,例如本文提示集不包括任何編碼或推理相關的提示。
本文只評估了多輪對話的最終生成。更有趣的評估方法可能是要求模型完成一項任務,并對模型在多輪對話中的整體體驗進行評分。
人類對生成模型的評估本身就具有主觀性和噪聲性。因此,使用不同的提示集或不同的指令進行評估可能會產(chǎn)生不同的結(jié)果。
安全性
該研究使用三個常用基準評估了 Llama 2 的安全性,針對三個關鍵維度:
真實性,指語言模型是否會產(chǎn)生錯誤信息,采用 TruthfulQA 基準;
毒性,指語言模型是否會產(chǎn)生「有毒」、粗魯、有害的內(nèi)容,采用 ToxiGen 基準;
偏見,指語言模型是否會產(chǎn)生存在偏見的內(nèi)容,采用 BOLD 基準。
預訓練的安全性
首先,預訓練數(shù)據(jù)對模型來說非常重要。Meta 進行實驗評估了預訓練數(shù)據(jù)的安全性。
該研究使用在 ToxiGen 數(shù)據(jù)集上微調(diào)的 HateBERT 分類器來測量預訓練語料庫英文數(shù)據(jù)的「毒性」,具體結(jié)果如下圖 13 所示:

為了分析偏見方面的問題,該研究統(tǒng)計分析了預訓練語料庫中的代詞和身份相關術語及其占比,如下表 9 所示:

此外,在語言分布方面,Llama 2 語料庫涵蓋的語種及其占比如下表 10 所示:

安全微調(diào)
具體來說,Meta 在安全微調(diào)中使用了以下技術:1、監(jiān)督安全微調(diào);2、安全 RLHF;3、安全上下文蒸餾。
Meta 在 Llama 2-Chat 的開發(fā)初期就觀察到,它能夠在有監(jiān)督的微調(diào)過程中從安全演示中有所總結(jié)。模型很快就學會了撰寫詳細的安全回復、解決安全問題、解釋話題可能敏感的原因并提供更多有用信息。特別是,當模型輸出安全回復時,它們往往比普通注釋者寫得更詳細。因此,在只收集了幾千個有監(jiān)督的示范后,Meta 就完全改用 RLHF 來教模型如何寫出更細致入微的回復。使用 RLHF 進行全面調(diào)整的另一個好處是,它可以使模型對越獄嘗試更加魯棒。

Meta 首先通過收集人類對安全性的偏好數(shù)據(jù)來進行 RLHF,其中注釋者編寫他們認為會引發(fā)不安全行為的 prompt,然后將多個模型響應與 prompt 進行比較,并根據(jù)一系列指南選擇最安全的響應。接著使用人類偏好數(shù)據(jù)來訓練安全獎勵模型,并在 RLHF 階段重用對抗性 prompt 以從模型中進行采樣。
如下圖 15 所示,Meta 使用平均獎勵模型得分作為模型在安全性和有用性方面的表現(xiàn)結(jié)果。Meta 觀察到,當他們增加安全數(shù)據(jù)的比例時,模型處理風險和對抗性 prompt 的性能顯著提高。

最后,Meta 通過上下文蒸餾完善了 RLHF 流程。這涉及到通過在 prompt 前加上安全前置 prompt 來生成更安全的模型響應,例如「你是一個安全且負責任的助手」,然后在沒有前置 prompt 的情況下根據(jù)更安全的響應微調(diào)模型,這本質(zhì)上是提取了安全前置 prompt(上下文)進入模型。
Meta 使用了有針對性的方法,允許安全獎勵模型選擇是否對每個樣本使用上下文蒸餾。

下圖 17 展示了各種 LLM 的總體違規(guī)百分比和安全評級。

下圖 18 展示了單輪和多輪對話的違規(guī)百分比。跨模型的一個趨勢是,多輪對話更容易引發(fā)不安全的響應。也就是說,與基線相比,Llama 2-Chat 仍然表現(xiàn)良好,尤其是在多輪對話中。

下圖 19 顯示了不同 LLM 在不同類別中安全違規(guī)百分比。


參考鏈接:https://ai.meta.com/llama/
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。