" />
Sora是一款獨(dú)特的視頻生成工具,其工作原理深入淺出,值得我們深入了解。something new/old創(chuàng)始人brett goldstein在X上給大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理結(jié)合了擴(kuò)散模型和Transformer架構(gòu)。擴(kuò)散模型從噪聲開始,逐漸精細(xì)化到所需的視頻。而Transformer架構(gòu)則負(fù)責(zé)處理連續(xù)的視頻幀,確保視頻中的動作流暢自然。
Sora的獨(dú)特之處在于其處理視頻生成的方法。它不是直接將文本轉(zhuǎn)換為視頻幀,而是依賴于所謂的“空間時(shí)間補(bǔ)丁”。這種方法不直接將文本轉(zhuǎn)換為視頻幀,而是處理空間(發(fā)生的事情)和時(shí)間(何時(shí)發(fā)生)的快照。這可以看作是微觀視頻拼圖的每一小塊。
時(shí)空立方體:
通過這種方式,Sora將視頻視為一個(gè)包含空間和時(shí)間維度的巨大立方體,然后再將其切割成更小的立方體,每個(gè)立方體代表空間和時(shí)間的片段。
剖析描述并確定了核心要素:
• 物體(盛開的花朵、陽光普照的窗臺)
• 行動(隨著時(shí)間的推移而增長)
• 位置(郊區(qū)環(huán)境)
• 甚至藝術(shù)風(fēng)格(定格動畫美學(xué))
為了能夠?qū)⑦@些補(bǔ)丁有意義地組合成一個(gè)連貫的視頻,Sora利用了其內(nèi)部的知識圖譜。這些知識圖譜包含了關(guān)于物理世界、對象如何相互作用,甚至包括不同藝術(shù)風(fēng)格的信息。借助這些知識,Sora能夠理解例如一朵花如何逐漸開放、如何與陽光互動以及如何保持停動畫風(fēng)格等復(fù)雜過程。
在視頻生成的下一階段,擴(kuò)散模型開始對每個(gè)嘈雜、抽象的補(bǔ)丁進(jìn)行處理,逐漸精細(xì)化,直至最終呈現(xiàn)出清晰的圖像。而Transformer架構(gòu)則負(fù)責(zé)分析時(shí)間跨度上補(bǔ)丁之間的關(guān)系,確保視頻中的動作流暢自然,停動畫風(fēng)格在整個(gè)視頻序列中保持一致。
盡管Sora能夠執(zhí)行各種與視頻相關(guān)的任務(wù),并展現(xiàn)出驚人的視頻生成能力,但仍有一些挑戰(zhàn)需要克服。例如,它在模擬一些基礎(chǔ)物理互動的精確性方面還有待提高,有時(shí)會產(chǎn)生不自然的效果,如人物的手勢看起來不夠真實(shí)。盡管如此,Sora在視頻生成技術(shù)方面展示了巨大的潛力,為未來的人工智能應(yīng)用開辟了新的可能性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。