艾倫人工智能研究所(AI2)發布了名為Dolma的開放式文本數據集,旨在促進AI語言模型的透明度和創新。Dolma作為AI2開放式語言模型(OLMo)計劃的核心,將為研究人員和開發者提供免費的數據資源,以支持更廣泛的AI研究。
在GPT-4和Claude等語言模型的崛起中,人們對這些模型的強大能力感到驚嘆,但模型背后的數據集卻籠罩在神秘的面紗之下,引發了對透明度的擔憂。為了改變這種現狀,AI2決定采取一項突破性舉措,向全球發布了Dolma數據集,以推動AI語言模型領域的透明度和協作。
Dolma作為AI2開放式語言模型(OLMo)計劃的基石,其名稱縮寫代表“Data to feed OLMo's Appetite”(供養OLMo食欲的數據)。AI2旨在通過向研究社區提供免費、開放的數據資源,鼓勵更多的創新和研究。該數據集的發布不僅是AI2首次共享關于OLMo的“數據成果”,還是AI2在透明度方面邁出的重要一步。
根據AI2的Luca Soldaini在詳細的博文中所述,Dolma數據集的來源和處理過程得到了透明記錄。AI2團隊詳細解釋了將文本還原為原始英語內容等決策的方法。AI2強調,他們計劃發布更全面的論文,以深入探討數據集的細節。
與此同時,Dolma不僅僅是一個規模龐大的開放數據集,擁有驚人的30億標記(AI中內容量的本地度量),而且使用和許可方面也非常簡便。AI2采用了“中風險成果的ImpACT許可證”,并鼓勵用戶:
- 提供聯系信息和使用情況
- 披露基于Dolma的衍生創作
- 在相同許可下分發這些衍生創作
- 同意不將Dolma應用于禁止領域,如監視或虛假信息
AI2還為擔心個人數據隱私的用戶提供了專門的數據刪除請求表單,以確保個人數據的保護。
Dolma的發布標志著AI2在透明度和協作方面邁出的重要一步,為AI語言模型的開放和共享知識設立了有力的先例。該數據集的開放為研究人員和開發者提供了更多的資源,將推動AI領域走向更加透明和合作的未來。用戶可通過Hugging Face平臺訪問Dolma,這是一個對AI領域的積極而重要的發展。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。