大佬拆解Sora工作原理看完你就知道Sora為什么這么牛了

2024年02月21日 12:14:56 來源：站長之家

　　Sora是一款獨(dú)特的視頻生成工具，其工作原理深入淺出，值得我們深入了解。something new/old創(chuàng)始人brett goldstein在X上給大家拆解了Sora工作原理，通俗易懂。

　　Sora的工作原理結(jié)合了擴(kuò)散模型和Transformer架構(gòu)。擴(kuò)散模型從噪聲開始，逐漸精細(xì)化到所需的視頻。而Transformer架構(gòu)則負(fù)責(zé)處理連續(xù)的視頻幀，確保視頻中的動作流暢自然。

　　Sora的獨(dú)特之處在于其處理視頻生成的方法。它不是直接將文本轉(zhuǎn)換為視頻幀，而是依賴于所謂的“空間時(shí)間補(bǔ)丁”。這種方法不直接將文本轉(zhuǎn)換為視頻幀，而是處理空間(發(fā)生的事情)和時(shí)間(何時(shí)發(fā)生)的快照。這可以看作是微觀視頻拼圖的每一小塊。

　　時(shí)空立方體:

　　通過這種方式，Sora將視頻視為一個(gè)包含空間和時(shí)間維度的巨大立方體，然后再將其切割成更小的立方體，每個(gè)立方體代表空間和時(shí)間的片段。

　　剖析描述并確定了核心要素:

　　• 物體(盛開的花朵、陽光普照的窗臺)

　　• 行動(隨著時(shí)間的推移而增長)

　　• 位置(郊區(qū)環(huán)境)

　　• 甚至藝術(shù)風(fēng)格(定格動畫美學(xué))

　　為了能夠?qū)⑦@些補(bǔ)丁有意義地組合成一個(gè)連貫的視頻，Sora利用了其內(nèi)部的知識圖譜。這些知識圖譜包含了關(guān)于物理世界、對象如何相互作用，甚至包括不同藝術(shù)風(fēng)格的信息。借助這些知識，Sora能夠理解例如一朵花如何逐漸開放、如何與陽光互動以及如何保持停動畫風(fēng)格等復(fù)雜過程。

　　在視頻生成的下一階段，擴(kuò)散模型開始對每個(gè)嘈雜、抽象的補(bǔ)丁進(jìn)行處理，逐漸精細(xì)化，直至最終呈現(xiàn)出清晰的圖像。而Transformer架構(gòu)則負(fù)責(zé)分析時(shí)間跨度上補(bǔ)丁之間的關(guān)系，確保視頻中的動作流暢自然，停動畫風(fēng)格在整個(gè)視頻序列中保持一致。

　　盡管Sora能夠執(zhí)行各種與視頻相關(guān)的任務(wù)，并展現(xiàn)出驚人的視頻生成能力，但仍有一些挑戰(zhàn)需要克服。例如，它在模擬一些基礎(chǔ)物理互動的精確性方面還有待提高，有時(shí)會產(chǎn)生不自然的效果，如人物的手勢看起來不夠真實(shí)。盡管如此，Sora在視頻生成技術(shù)方面展示了巨大的潛力，為未來的人工智能應(yīng)用開辟了新的可能性。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

海報(bào)生成中...