近期上海AI實(shí)驗(yàn)室與Meta合作推出的開(kāi)源模型標(biāo)志著在3D空間音頻領(lǐng)域邁出的一大步。該模型通過(guò)處理頭戴式麥克風(fēng)的輸入音頻信號(hào)和分析人體姿態(tài)關(guān)鍵點(diǎn),成功地實(shí)現(xiàn)了為人體生成3D空間音頻的目標(biāo)。這一技術(shù)突破為虛擬環(huán)境的沉浸感和臨場(chǎng)感提供了關(guān)鍵支持,彌補(bǔ)了目前學(xué)術(shù)界和企業(yè)在聽(tīng)覺(jué)方面的疏漏。

然而,從技術(shù)層面看,開(kāi)發(fā)這樣的3D空間音頻模型并非易事。文章指出,面臨著三大技術(shù)難題,其中包括音源位置未知、麥克風(fēng)距離音源較遠(yuǎn)等挑戰(zhàn)。為了解決這些問(wèn)題,研究人員創(chuàng)新性地構(gòu)建了多模態(tài)融合模式,并引入了身體姿態(tài)信息,從而成功消除了聲源位置的歧義,實(shí)現(xiàn)了正確的空間音頻生成。
具體而言,模型包括音頻編碼器、人體姿態(tài)編碼器和音頻解碼器等模塊。音頻編碼器處理頭戴式麥克風(fēng)的輸入音頻信號(hào),通過(guò)時(shí)間平移對(duì)齊不同身體部位的音源位置,最終得到包含各個(gè)可能音源位置信息的音頻特征表達(dá)。人體姿態(tài)編碼器則分析人體姿態(tài)關(guān)鍵點(diǎn),生成姿態(tài)特征表達(dá),為正確生成三維空間音頻提供了重要的提示。
盡管該模型在技術(shù)上取得了顯著進(jìn)展,成功實(shí)現(xiàn)了身臨其境的3D音場(chǎng)效果,但研究人員也指出了其局限性。目前,該模型僅適用于渲染人體音,難以處理非自由音場(chǎng)傳播環(huán)境,且計(jì)算量較大,難以在資源受限的消費(fèi)類(lèi)設(shè)備上部署。這一點(diǎn)對(duì)于模型的實(shí)際應(yīng)用和推廣提出了一定挑戰(zhàn)。
綜合而言,上海AI實(shí)驗(yàn)室和Meta聯(lián)合開(kāi)發(fā)的這一開(kāi)源模型為人體生成3D空間音頻開(kāi)辟了新的可能性,為虛擬現(xiàn)實(shí)領(lǐng)域的發(fā)展貢獻(xiàn)了有力的技術(shù)支持。然而,未來(lái)仍需進(jìn)一步優(yōu)化和拓展,以滿(mǎn)足更廣泛的應(yīng)用場(chǎng)景和設(shè)備要求。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過(guò)80萬(wàn)個(gè),涵蓋寫(xiě)實(shí)、二次元、插畫(huà)、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類(lèi)型應(yīng)用場(chǎng)景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng),1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。
9月24日,華為坤靈召開(kāi)“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬(wàn)臺(tái),同比增長(zhǎng)33%,顯示出品類(lèi)強(qiáng)勁的市場(chǎng)需求。