DeepSeek可能使用了Google Gemini數(shù)據(jù)訓(xùn)練新AI模型

2025年06月04日 10:52:48 來源：CITNews中文科技資訊

　　近日， DeepSeek 發(fā)布了其最新的 R1推理 AI 模型更新版，該模型在多個(gè)數(shù)學(xué)和編程基準(zhǔn)測試中展現(xiàn)出色性能。然而，DeepSeek 并未透露其模型的訓(xùn)練數(shù)據(jù)來源，令一些 AI 研究人員產(chǎn)生了疑問，并推測該模型可能部分基于 Google 的 Gemini AI 系列進(jìn)行訓(xùn)練。

　　墨爾本的開發(fā)者 Sam Paeach 聲稱，他發(fā)現(xiàn) DeepSeek 的 R1-0528模型在用詞和表達(dá)方式上與 Google Gemini2.5Pro 有許多相似之處。雖然這并不能作為直接證據(jù)，但另一位開發(fā)者 —— 匿名的 SpeechMap 項(xiàng)目創(chuàng)始人 —— 也提到，DeepSeek 模型在推理過程中產(chǎn)生的 “思維軌跡” 與 Gemini 的表現(xiàn)如出一轍。這一發(fā)現(xiàn)再次引發(fā)了關(guān)于 DeepSeek 是否在訓(xùn)練中使用了競爭對(duì)手?jǐn)?shù)據(jù)的討論。

　　早在去年12月，DeepSeek 就曾因其 V3模型頻繁將自己標(biāo)識(shí)為 OpenAI 的 ChatGPT 而受到指責(zé)，這一行為暗示該模型可能是通過 ChatGPT 的聊天記錄進(jìn)行訓(xùn)練的。今年早些時(shí)候，OpenAI 向媒體透露，發(fā)現(xiàn)了 DeepSeek 與 “數(shù)據(jù)蒸餾” 技術(shù)相關(guān)的證據(jù)。“數(shù)據(jù)蒸餾” 是一種通過從大型模型中提取信息來訓(xùn)練新模型的方法。彭博社報(bào)道稱，OpenAI 的合作伙伴微軟在2024年底發(fā)現(xiàn)，很多數(shù)據(jù)是通過 OpenAI 開發(fā)者賬戶泄露的，這些賬戶可能與 DeepSeek 有關(guān)。

　　盡管 “提煉” 技術(shù)在 AI 界并不罕見，但 OpenAI 明確規(guī)定禁止用戶使用其模型輸出構(gòu)建競爭產(chǎn)品。需要注意的是，由于開放網(wǎng)絡(luò)中充斥著大量低質(zhì)量內(nèi)容，許多 AI 模型在訓(xùn)練中往往會(huì)錯(cuò)誤地模仿彼此的用詞和措辭。這使得深度剖析訓(xùn)練數(shù)據(jù)源變得更加復(fù)雜。

　　人工智能專家 Nathan Lambert 認(rèn)為，DeepSeek 使用 Google Gemini 的數(shù)據(jù)進(jìn)行訓(xùn)練并非不可能。他提到，DeepSeek 擁有充足的資金，能夠利用市面上最佳的 API 模型生成合成數(shù)據(jù)。為了防止數(shù)據(jù)被提煉，AI 公司們也在不斷加強(qiáng)安全措施。例如，OpenAI 已開始要求各組織完成身份驗(yàn)證才能訪問某些高級(jí)模型，而 Google 也在努力提高其 AI Studio 平臺(tái)的安全性，限制對(duì)模型生成軌跡的訪問。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

海報(bào)生成中...

即時(shí)

全球頂級(jí)AI創(chuàng)作社區(qū)回歸！海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

海藝AI的模型系統(tǒng)在國際市場上廣受好評(píng)，目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè)，涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景，基本覆蓋所有主流創(chuàng)作風(fēng)格。

OPPO A6l發(fā)布：售價(jià)1799元搭載六年長壽大電池

華為Mate X7今日開售：售價(jià)12999元起