首頁 > 云計算頻道 > 大模型

谷歌發布開源視覺語言模型PaliGemma 支持多視覺語言任務

2024年05月17日 11:55:09 來源：站長之家

　　谷歌推出了一款名為PaliGemma的開源視覺語言模型，該模型結合了圖像處理和語言理解的能力，旨在支持多種視覺語言任務，如圖像和短視頻字幕生成、視覺問答、圖像文本理解、物體檢測、文件圖表解讀以及圖像分割等。

　　PaliGemma的關鍵特點:

　　多任務支持:PaliGemma能夠處理多種視覺語言相關的任務，提供廣泛的應用場景。

　　參數規模:該模型包含30億(3B)個參數，是一個大型的多模態模型。

　　模型架構:PaliGemma結合了SigLiP視覺編碼器和Gemma語言模型，分別負責處理圖像和文本輸入。

　　SigLiP視覺編碼器:

　　負責處理圖像輸入，將視覺信息編碼為模型能夠理解的格式。

　　Gemma語言模型:

　　負責處理文本輸入，并生成輸出，將圖像內容與語言任務結合起來。

　　PaliGemma的發布是谷歌在AI領域的又一項重要貢獻，它不僅推動了視覺語言理解技術的發展，也為研究人員和開發者提供了強大的工具，以探索和創造新的應用。開源的特性意味著PaliGemma可以被社區廣泛地使用、改進和集成到各種產品和服務中。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

OPPO A6l發布：售價1799元搭載六年長壽大電池

華為Mate X7今日開售：售價12999元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

谷歌發布開源視覺語言模型PaliGemma 支持多視覺語言任務

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

谷歌發布開源視覺語言模型PaliGemma 支持多視覺語言任務

擴展閱讀

最新新聞

熱門新聞