本文將為大家介紹最新發布的 GPT 模型 LLaMA 2 的新功能和更新內容。LLaMA 2 在原始模型基礎上進行了改進,包括使用 40% 更大的數據集、經過強化學習和人類反饋調優的聊天變體以及可擴展到 700 億參數的模型。文章還會為大家展示如何在 Paperspace Gradient 筆記本中運行 LLaMA 2 模型的演示。
型號概覽
讓我們首先概述 LLaMA 2 中可用的新技術。我們將首先回顧原始的 LLaMA 架構,該架構在新版本中沒有變化,然后檢查更新的訓練數據、新的聊天變體及其 RHLF 調整方法,以及與其他開源和閉源模型相比,完全擴展的 70B 參數模型的功能。
LLaMA 2 模型架構
LLaMA 和 LLaMA 2 模型是基于原始 Transformers 架構的生成式預訓練 Transformer 模型。我們在最初的 LLaMA 文章中詳細概述了 LLaMA 模型與之前的 GPT 架構迭代的區別,但總結如下:
LLaMA 模型具有類似于預歸一化的 GPT-3 功能。這有效地提高了訓練的穩定性。在實踐中,他們使用 RMS Norm 歸一化函數來歸一化每個變壓器子層的輸入而不是輸出。這重新調整了不變性屬性和隱式學習率適應能力
LLaMA 使用 SwiGLU 激活函數而不是 ReLU 非線性激活函數,顯著提高了訓練性能
借鑒 GPT-Neo-X 項目,LLaMA 在網絡的每一層都具有旋轉位置嵌入 (RoPE)。
正如 LLaMA 2 論文附錄中所報告的,與原始模型的主要架構差異是增加了上下文長度和分組查詢注意力 (GQA)。上下文窗口的大小增加了一倍,從 2048 個標記增加到 4096 個標記。更長的處理窗口使模型能夠產生和處理更多的信息。值得注意的是,這有助于理解長文檔、聊天歷史和摘要任務。此外,他們還更新了注意力機制來處理上下文數據的規模。他們比較了原始的多頭注意力基線、具有單個鍵值投影的多查詢格式以及具有 8 個鍵值投影的分組查詢注意力格式,以處理原始 MHA 格式的成本,其復雜性顯著增加增加上下文窗口或批量大小。
總之,這些更新使 LLaMA 在各種不同任務中的表現明顯優于許多競爭模型。從 LLaMA 2 項目頁面提供的上圖可以看出,與 Falcon 和 MPT 等專用和替代 GPT 模型相比,LLaMA 的性能非常好或幾乎一樣好。我們期待在未來幾個月內進行研究,展示它與 GPT-4 和 Bard 等大型閉源模型的比較。
更新的訓練集
LLaMA 2 具有更新和擴展的訓練集。據稱,該數據集比用于訓練原始 LLaMA 模型的數據大 40%。即使對于最小的 LLaMA 2 模型,這也具有良好的意義。此外,這些數據經過明確篩選,不包括來自顯然包含大量私人和個人信息的網站的數據。
他們總共訓練了 2 萬億個代幣的數據。他們發現這個數量在成本效益權衡方面效果最好,并對最真實的來源進行了上采樣,以減少錯誤信息和幻覺的影響。
聊天變體
Chat 變體 LLaMA 2-Chat 是經過數月的對齊技術研究而創建的。通過監督微調、RHLF 和迭代微調的融合,與原始模型相比,Chat 變體在 LLaMA 模型的人類交互性方面向前邁出了實質性一步。
使用與原始 LLaMA 模型相同的數據和方法進行監督微調 。這是使用“有用”和“安全”響應注釋來完成的,當模型意識到或不知道正確的響應時,它們會引導模型做出正確的響應類型。
LLaMA 2 使用的 RHLF 方法涉及收集大量人類偏好數據,以供研究人員使用注釋器團隊收集獎勵方法。這些注釋者將評估兩個輸出的質量,并對這兩個輸出進行相互比較的定性評估。這使得模型能夠獎勵首選的答案,并對其賦予更大的權重,并對收到的不良答案進行相反的操作。
最后,隨著他們收集更多數據,他們通過使用改進的數據訓練模型的連續版本,迭代改進了之前的 RHLF 結果。
有關這些模型的聊天變體的更多詳細信息,請務必查看論文。
可擴展至 700 億個參數
最大的 LLaMA 2 模型有 700 億個參數。參數計數是指權重的數量,如 float32 變量中的權重數量,它被調整以對應于整個語料庫中使用的文本變量的數量。因此,相應的參數計數與模型的能力和大小直接相關。新的 70B 模型比 LLaMA 1 發布的最大 65B 模型更大。從上表中我們可以看到,即使與 ChatGPT (GPT3.5) 等閉源模型相比,放大的 70B 模型也表現良好。它還有很長的路要走,以匹配 GPT-4,但來自開源社區的額外指令調整和 RHLF 項目可能會進一步縮小差距。
考慮到 ChatGPT 的訓練規模為 1750 億個參數,這使得 LLaMA 的成就更加令人印象深刻。
演示
現在讓我們跳進漸變筆記本來看看如何在我們自己的項目中開始使用 LLaMA 2。運行此程序所需的只是一個 Gradient 帳戶,這樣我們就可以訪問免費 GPU 產品。這樣,如果需要,我們甚至可以擴展到在 A100 GPU 上使用 70B 模型。
我們將使用在基于 Gradio 的 Oogabooga 文本生成 Web UI 上運行的 GPTQ 版本來運行模型。該演示將展示如何設置筆記本、下載模型以及運行推理。
(點此可在免費 GPU 驅動的 Gradient Notebook 中打開此項目)
設置
我們將從設置環境開始。我們已經啟動了我們的筆記本,并以 WebUI 存儲庫作為根目錄。首先,讓我們打開llama.ipynb筆記本文件。這包含我們在 Web UI 中運行模型所需的一切。
我們首先使用提供的文件安裝需求requirements.txt。我們還需要更新一些額外的軟件包。運行下面的單元格將為我們完成設置:
!pipinstall-rrequirements.txt!pipinstall-Udatasetstransformerstokenizerspydanticauto_gptqgradio
現在它已經運行了,我們已經準備好運行 Web UI 了。接下來,讓我們下載模型。
下載模型
Oogabooga 文本生成 Web UI 旨在使 GPT 模型的運行推理和訓練變得極其簡單,并且它特別適用于 HuggingFace 格式的模型。為了方便訪問這些大文件,他們提供了一個模型下載腳本,可以輕松下載任何 HuggingFace 模型。
運行第二個代碼單元中的代碼以下載 LLaMA 2 的 7B 版本以運行 Web UI。我們將下載模型的GPTQ優化版本,這可以顯著降低使用量化運行模型的成本。
!pythondownload-model.pyTheBloke/Llama-2-7B-GPTQ
幾分鐘后模型下載完成后,我們就可以開始了。
啟動應用程序
我們現在準備加載應用程序!只需運行 Notebook 末尾的代碼單元即可啟動 Web UI。檢查單元格的輸出,找到公共 URL,然后打開 Web UI 以開始。這將以 8 位格式自動加載模型。
!pythonserver.py--share--modelTheBloke_Llama-2-7B-chat-GPTQ--load-in-8bit--bf16--auto-devices
可以通過任何可訪問互聯網的瀏覽器從任何地方訪問此公共鏈接。
Web UI 文本生成選項卡
我們將看到的第一個選項卡是文本生成選項卡。我們可以在此處使用文本輸入查詢模型。在上面,我們可以看到 LLaMA 2 的聊天變體被詢問一系列與 LLaMA 架構相關的問題的示例。
頁面左下角有很多提示模板可供我們選擇。這些有助于調整聊天模型給出的響應。然后我們可以輸入我們喜歡的任何問題或說明。該模型將使用右側的輸出讀取器將結果流式傳輸回給我們。
我們還想指出參數、模型和訓練選項卡。在參數選項卡中,我們可以調整各種超參數以對模型進行推理。模型選項卡允許我們加載任何具有或不具有適當 LoRA(低階適應)模型的模型。最后,訓練選項卡讓我們可以根據我們可能提供的任何數據訓練新的 LoRA。這可用于在 Web UI 中重新創建 Alpaca 或 Vicuna 等項目。
結束語
LLaMA 2 是開源大型語言建模向前邁出的重要一步。從論文和他們研究團隊提出的結果,以及我們自己使用模型后的定性猜想來看,LLaMA2 將繼續推動LLM的擴散和發展越來越遠。我們期待未來基于該項目并對其進行擴展的項目,就像 Alpaca 之前所做的那樣。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。