虛擬歌手越來越出圈的今天,自己開發(fā)一個(gè) APP 合成歌聲已經(jīng)不是什么難事了。
對(duì)于虛擬歌手洛天依的粉絲來說,2022 年 7 月 12 日是一個(gè)大日子。這一天,他們聚集在世界各地的屏幕前,陪自己的偶像度過了誕生十周年紀(jì)念日。這場(chǎng)歷時(shí) 3 個(gè)多小時(shí)的直播演唱會(huì)人氣直破千萬。
歷時(shí)十年經(jīng)久不衰,這是很多人類歌手都很難做到的事情,但虛擬偶像洛天依做到了。與此同時(shí),很多新生代虛擬歌手也在陸續(xù)出道,征服著越來越多二次元以外的人。
很多粉絲留言說,無論從外形還是聲音來看,洛天依都越來越精致了,尤其是聲音越來越接近真人。這些粉絲的感覺沒有錯(cuò)。虛擬歌手的經(jīng)久不衰,背后的支撐其實(shí)是技術(shù)的迭代,尤其是歌聲合成技術(shù)。
虛擬歌手與歌聲合成
從技術(shù)上來說,歌聲合成是語(yǔ)音合成的子領(lǐng)域。但與常規(guī)的語(yǔ)音合成任務(wù)相比,歌聲合成存在一些獨(dú)特之處 [1],比如:
輸入特征比較多(除了音素、聲調(diào)、韻律邊界等文本特征,還有音符、節(jié)拍、連音符等樂譜信息),而且這些額外的特征稀疏性很大;
對(duì)時(shí)長(zhǎng)的對(duì)齊要求特別嚴(yán)格,節(jié)拍要唱準(zhǔn),比如不能將四分音符唱成二分音符;
對(duì)音高要求特別嚴(yán)格,旋律要唱準(zhǔn),比如不能把中央 C 唱成中央 D;
要有一定的自然度和情感,涉及倚音、滑音等技巧,音符之間的跳變要有一定的緩沖感;
對(duì)采樣率等一些語(yǔ)音編碼屬性有一定的要求;
近幾十年來,人們一直在努力解決這些問題,其間經(jīng)歷了基于單元拼接的合成、統(tǒng)計(jì)參數(shù)合成、基于深度學(xué)習(xí)的合成等技術(shù)路線的迭代和融合。
拼接合成指的是在事先錄制好的采樣聲庫(kù)中尋找對(duì)應(yīng)的采樣并最終拼接成完整歌曲的方法。統(tǒng)計(jì)參數(shù)合成則是先產(chǎn)生一些合成音頻必要的聲學(xué)參數(shù),然后再利用這些參數(shù)合成音頻,中間要用到聲碼器 [2]。
利用這些傳統(tǒng)方法,人們很早就做出了一些比較受歡迎的軟件,比如雅馬哈開發(fā)的 VOCALOID。它的早期合成結(jié)果可以在一些大火的虛擬歌手中聽到,比如初音未來。
然而,僅靠這些傳統(tǒng)的方法通常難以細(xì)粒度地刻畫聲音的變化(比如沒有換氣聲、吐字不連貫),與真實(shí)的人聲仍有差距。隨著深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)或融合了深度學(xué)習(xí)的合成技術(shù)漸漸成熟,生成的歌聲往往更真實(shí)、更細(xì)膩 [3]。有人甚至在 AI 合成的歌曲下評(píng)論:「AI 比我更像人」。

圖源:https://b23.tv/hDiGxuK
可以用于歌聲合成的深度學(xué)習(xí)模型有許多種,包括卷積神經(jīng)網(wǎng)絡(luò)、具有長(zhǎng)短期記憶(LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)等。此外,也有研究者利用歌聲合成與語(yǔ)音合成(TTS)的相似性,提出了一些自回歸 Seq2Seq 模型。
當(dāng)然,當(dāng)前效果更好的一些深度學(xué)習(xí)架構(gòu)(如 Transformer)也被用到了歌聲合成領(lǐng)域,誕生了 XiaoiceSing、HifiSinger 和擴(kuò)散去噪概率模型 DiffSinger 等。然而,這些效果較好的深度學(xué)習(xí)大模型通常需要消耗海量的數(shù)據(jù)和算力,不是普通開發(fā)者或小型創(chuàng)業(yè)公司能玩得轉(zhuǎn)的。
不過,普通開發(fā)者和小型創(chuàng)業(yè)公司可以不用自己動(dòng)手開發(fā),因?yàn)閲?guó)內(nèi)已經(jīng)有一些平臺(tái)開始提供相應(yīng)的能力,比如能提供端、云開放能力的華為 HMS Core。開發(fā)者只需要簡(jiǎn)單的幾步,就能將這項(xiàng)能力運(yùn)用到自己的 APP 上(詳情見參考鏈接 [5])。
華為Audio Editor Kit歌聲合成樣音00:0000:54未加入合集
可以觀察到,最近幾年,AI 歌聲合成這一賽道正變得越來越出圈,也有越來越多的投資人開始看到這一領(lǐng)域的價(jià)值。比如去年,結(jié)合 AI 進(jìn)行歌聲合成的移動(dòng)端軟件 ACE 虛擬歌姬就獲得了數(shù)百萬美元 Pre-A 輪融資。
為什么大家愿意花這么大精力去投資、打磨歌聲合成?在投資人看來,和有深度學(xué)習(xí)加持的視頻剪輯軟件一樣,這是一種用算力來解放創(chuàng)造力的方式。音樂作為最普世的娛樂內(nèi)容,但創(chuàng)作還集中在極少數(shù)人手上,創(chuàng)作的門檻亟待降低 [6]。
另外,在代表著未來的「元宇宙」中,如果我們想讓虛擬人、虛擬演唱會(huì)給人更真實(shí)、更沉浸的體驗(yàn),歌聲合成也是必須要過的一關(guān)。
當(dāng)然,如果我們想在元宇宙中打造更加沉浸的虛擬演唱會(huì),僅發(fā)力打磨歌聲合成是不夠的,其他技術(shù),比如音源分離、空間音頻渲染等也很重要。
如何辦一場(chǎng)富有「空間感」的虛擬演唱會(huì)?
人類的兩只耳朵可以分辨聲源的位置,因?yàn)閺穆曉磦鬟f到兩只耳朵的聲音存在細(xì)微的差異,包括到達(dá)時(shí)間、接收到的能量以及相位差等信息,這就給人帶來了空間感。為了還原這種感覺,空間音頻技術(shù)使用信號(hào)處理的方法對(duì)到達(dá)兩耳的聲音信號(hào)進(jìn)行模擬,將聲場(chǎng)還原為三維空間,更接近真實(shí)世界。
理想的空間音頻效果對(duì)虛擬演唱會(huì)的沉浸感非常重要。我們可以想象一下戴著 VR 頭顯欣賞鄧麗君虛擬演唱會(huì)的情景,現(xiàn)場(chǎng)不止有鄧麗君的歌聲,還有鋼琴等樂器的聲音,這些聲音給我們的感覺不應(yīng)該是從我們的耳機(jī)中發(fā)出的,而是我們周圍的一片區(qū)域,樂器們也各有其位置。
一些傳統(tǒng)的 3D 音頻制作技術(shù)可以達(dá)到或接近這種效果,但制作過程比較繁瑣,需要獲取原始的分軌素材(如錄制的人聲、鋼琴聲等),并使用專業(yè)的數(shù)字音頻工作站(DAW)和 3D 混音插件手工制作,因此制作周期長(zhǎng)、生產(chǎn)效率低、成本高、門檻高。此外,開發(fā)者由于沒有歌曲的原始分軌,因此通過傳統(tǒng)方法將 2D 音頻轉(zhuǎn)成 3D 難度也很大。
深度學(xué)習(xí)同樣可以在這一問題中發(fā)揮作用。
通過對(duì)大量的音樂進(jìn)行深度學(xué)習(xí)建模,并結(jié)合傳統(tǒng)信號(hào)處理能力,我們可以實(shí)現(xiàn)音源分離。不過,為了確保每一個(gè)樂器都能盡可能地分離完整且干凈,我們可能還需要針對(duì)不同的樂器音色特點(diǎn)專門設(shè)計(jì)過程中要用到的變換矩陣和網(wǎng)絡(luò)結(jié)構(gòu),這就有一定的技術(shù)門檻了。
分離之后的空間音頻渲染也存在一些難題,比如要解決因頭型、肩寬等人體體征的差異帶來的 HRTF(頭相關(guān)傳遞函數(shù))因人而異的難題,還要營(yíng)造空間中聲音的反射、散射、干涉等物理現(xiàn)象。
不過,這些問題也已經(jīng)有了現(xiàn)成的解決方案,而且在上面提到的華為 HMS Core 音頻編輯服務(wù)(Audio Editor Kit)中都能找到,其獨(dú)有的變換矩陣、網(wǎng)絡(luò)結(jié)構(gòu)和一系列的聲源濾波技術(shù)都已經(jīng)向開發(fā)者開放。開發(fā)者僅需輸入立體聲,就能快速生成 3D 音頻內(nèi)容(詳情見參考鏈接 [7])。

HMS Core音頻編輯服務(wù)3D音頻生成示意圖
普通開發(fā)者如何入局?
在 AI 所支持的各種產(chǎn)業(yè)中,音頻編輯是被低估的一個(gè),尤其是在當(dāng)前虛擬人產(chǎn)品井噴、元宇宙被寄予厚望的背景下。
iMedia Research(艾媒咨詢)調(diào)研數(shù)據(jù)顯示,接近七成用戶喜歡虛擬人形象的外形 / 聲音,其次喜歡虛擬人的作品 [8]。他們的數(shù)據(jù)還顯示,2020 年中國(guó)虛擬偶像核心市場(chǎng)規(guī)模為 34.6 億元,預(yù)計(jì) 2022 年將達(dá)到 120.8 億元;2020 年虛擬偶像帶動(dòng)周邊市場(chǎng)規(guī)模為 645.6 億元,預(yù)計(jì) 2022 年為 1866.1 億元,破圈效應(yīng)漸顯 [9]。這樣的市場(chǎng)規(guī)模對(duì)于產(chǎn)品開發(fā)的需求不言而喻。
如果你也想自己構(gòu)建一個(gè)「AI + 音頻編輯」APP,或者在自己的 APP 中加入歌聲合成、3D 音頻等功能,接入華為 HMS Core 等開放能力平臺(tái)不失為一個(gè)便捷的選擇,因?yàn)檫@個(gè)平臺(tái)不僅提供了現(xiàn)成的技術(shù)能力,還有相應(yīng)的技術(shù)文檔、解決方案示例、技術(shù)解讀課程、互動(dòng)社區(qū)等作為輔助。
官方最近的一次技術(shù)解讀(HMS Core Discovery 直播第 17 期)便是聚焦 HMS Core 音頻編輯服務(wù),展示歌聲合成、空間音頻渲染、音源分離等能力的新玩法,更有知名的彈唱音樂社區(qū)唱鴨 App 加盟,一起探討影音娛樂應(yīng)用如何構(gòu)筑差異化競(jìng)爭(zhēng)力、打造「聲」臨其境的聽覺盛宴。感興趣的開發(fā)者可以掃碼,關(guān)注明晚 7 點(diǎn)的直播間。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國(guó)際市場(chǎng)上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場(chǎng)景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國(guó)際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國(guó)AI云市場(chǎng),1H25》報(bào)告。中國(guó)AI云市場(chǎng)阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬臺(tái),同比增長(zhǎng)33%,顯示出品類強(qiáng)勁的市場(chǎng)需求。