模型架構
根據官方介紹,LongCat-Image采用文生圖與圖像編輯同源的混合骨干架構(MM-DiT+Single-DiT),并整合了視覺語言模型(VLM)條件編碼器。其主要技術特點包括:
1. 集成生成與編輯:模型支持通過文本提示生成圖像,并可通過自然語言指令對圖像進行多輪編輯。官方列舉了包括對象添加/移除、風格遷移、背景替換、文本修改等在內的15類編輯任務,并宣稱在多輪編輯中能保持圖像風格、光照的一致性。
2. 中文文本渲染能力:模型強調對中文文本生成的支持,聲稱能夠處理標準漢字、生僻字及部分書法字體,并可根據場景自動調整字體、大小和排版。技術實現上,模型通過預訓練階段學習字形,并在后續訓練中引入真實世界文本圖像數據以提升泛化能力。
3. 輸出效率與質量:通過模型結構輕量化與訓練策略優化,宣稱可在消費級GPU上實現高效推理,并生成具有“攝影棚級”細節的圖像。
在性能評估方面,官方提供了部分基準測試數據:
1. 在圖像編輯基準測試GEdit-Bench和ImgEdit-Bench中,LongCat-Image得分分別為7.60/7.64(中英文)和4.50,均達到開源模型中的領先(SOTA)水平。
2. 在中文文本渲染專項評測ChineseWord中,得分為90.7分。
3. 在文生圖基礎能力測試GenEval和DPG-Bench中,得分分別為0.87和86.8。
目前,該模型已在GitHub平臺開源,其功能可通過LongCat APP或網頁端(longcat.ai)進行體驗。官方表示,此次開源旨在支持從研究到商業應用的全流程,并邀請開發者參與共建。
此次開源動作顯示出美團在AIGC領域,特別是針對中文市場及復雜圖像編輯需求的技術布局。開源策略有助于其吸引開發者生態,并在快速發展的圖像生成領域建立影響力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。