浙江大學的研究人員最近提出了一種名為UrbanGIRAFFE的創新方法,用于解決具有挑戰性的城市場景的可控3D感知圖像合成問題。該方法通過引入可控的相機姿勢和場景內容,以實現逼真的圖像合成,特別是在處理具有挑戰性的城市環境時。
UrbanGIRAFFE采用了一種組合和可控的策略,利用了粗糙的3D全景先驗,包括無法計數的物體和可計數的對象的布局分布。該方法將場景分解為物體、物體和天空,從而實現對場景的多樣控制,如大范圍相機移動、物體編輯和物體操作。
在過去的條件圖像合成方法中,以生成逼真圖像為目標的方法已取得了顯著進展,特別是那些利用生成對抗網絡(GANs)的方法。然而,現有方法主要限于以對象為中心的場景,并且在處理復雜且不對齊的城市場景時存在局限性。UrbanGIRAFFE則專注于城市場景,通過引入3D感知的生成模型,克服了這些限制,為大范圍相機移動、物體編輯和物體操作提供了多樣的可控性。
UrbanGIRAFFE的創新之處在于將城市場景巧妙地分解為無法計數的物體、可計數的對象和天空,利用先驗分布來理清復雜的城市環境。該模型包括一個條件物體生成器,利用語義體素網格作為物體先驗,以集成粗糙的語義和幾何信息。通過在混亂的場景中學習對象生成器的對象布局先驗,模型在對抗性和重構損失的端到端訓練中得以優化,利用射線-體素和射線-盒交叉策略來優化采樣位置,減少所需采樣點的數量。
在全面的評估中,UrbanGIRAFFE方法在合成和真實數據集上超越了各種2D和3D基線,展示了出色的可控性和保真度。在KITTI-360數據集上進行的定性評估顯示,UrbanGIRAFFE在背景建模方面優于GIRAFFE,實現了增強的物體編輯和相機視角控制。在KITTI-360上進行的剖析研究證實了UrbanGIRAFFE的架構組件的有效性,包括重構損失、對象判別器和創新的對象建模。在推斷期間采用移動平均模型進一步提高了生成圖像的質量。
UrbanGIRAFFE的未來工作包括引入語義體素生成器,以進行新穎場景采樣,并通過光-環境顏色解纏來探索光照控制。文章強調了重構損失的重要性,以保持保真度并產生多樣的結果,尤其是對于不經常遇到的語義類別。
該研究展示了UrbanGIRAFFE在處理具有挑戰性的城市場景的可控3D感知圖像合成問題方面的卓越成就,實現了在相機視角操作、語義布局和物體交互方面的卓越多功能性。通過利用3D全景先驗,該模型有效地將場景分解為物體、物體和天空,促進了組合生成建模。未來的研究方向包括整合語義體素生成器以進行新穎場景采樣,并通過光-環境顏色解纏來探索光照控制。 UrbanGIRAFFE通過在合成和實際數據集上進行全面評估,展示了在可控性和保真度方面超越各種2D和3D基線的出色性能。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。