作者孟秋
這是個信息爆炸的年代,人類無時無刻不在制造著各種數據,留下自己的數字化足跡。海量照片、網絡游戲、4G時代成熟的短視頻、5G時代的物聯網和工業互聯網,讓數據出現了指數級的增長。市場研究機構IDC預計,到2025年,全球一年產生的數據將高達175ZB。如果用直觀一點的表述,這個數據量將會存滿1879億個1TB的硬盤,全球每人平均持有二十多個這樣的硬盤。

圖1:過去十五年全球數據增長速度,非結構類數據增速遠超結構類數據
這就帶來了問題:既要讓這些數據存儲在安全可靠的地方,方便隨時調取,同時還要照顧到數據不要泄露,還要做好備份,防止數據損壞丟失,究竟應該怎樣才能做到?
分布式存儲和云服務
分布式存儲的故事并不復雜。谷歌最早提出來云計算概念,這是一種分布式算法,用來處理大量搜索數據。但電商平臺起家的亞馬遜對于數據存儲開發的獨特需求讓它走在了前面。2006年亞馬遜推出最早的云服務,利用自己研發的分布式算法打通各個數據端接口,既提供數據存儲,也為企業的數據分析提供平臺支持。分布式存儲同時以基礎設施即服務(IaaS)和平臺即服務(PaaS)兩種商業形態,形成數字化時代的最早的云服務業務。
分布式存儲的特征并不難以理解:既然把數據集中起來存儲會因為服務器問題引發“一損俱損”,那就把服務器分布到不同地理位置的數據中心就可以了。分散獨立的存儲設備通過網絡互聯進行系統關聯,分布式存儲對外作為一個整體提供存儲服務。在這一點上,它跟集中式存儲并沒有太多區別:都是中心化管理,有一個至高無上的管理者。
與集中式存儲對硬件有較高要求不同,分布式存儲由數量眾多且成本相對較低的普通PC服務器聯網而成,節點擴展性很強且門檻比較低,擴展的邊界幾乎不受限制,數據容量大,副本可以多處備份,這就解決了集中式存儲擴展成本較高的問題。同時,因為節點較多而且做到了空間上的廣泛分布,一個節點的損壞不會讓整個系統宕機。螞蟻金服旗下的支付寶就利用了這種分布式存儲的特點,采用“三地五中心”存儲的方式,在三座城市部署五個數據中心。如果某個中心發生故障,支付寶就將故障區域的流量切換到正常的機房。
在信息整合上,分布式存儲得以設立多個節點,打通數據之間的關聯。但是中心化的處理方式對云服務商的計算能力和軟件集成要求很高,因為需要不斷通過軟件迭代提高數據的容錯率,還需要對各種數據進行分析,從而提供數據衍生服務。云計算就是在大數據存儲的基礎上誕生的衍生業務。在這一存儲基礎上衍生的增值業務,成為云服務大廠的重要收入來源。
分布式存儲也有自己在商業上的缺陷。由于數據分散在各個節點,導致它的延時性不如集中式存儲出色,數據容錯性較弱,數據安全不易保證,為此行業內通過軟件設計提升分布式存儲的標準化程度,同時嘗試解決痛點問題,軟件定義存儲(SDS)被認為是分布式存儲的主要形態,通過軟件設計來提高分布式存儲的自動化程度,同時提供接口的標準化管理,支持多種標準協議,實現數據的寫入,讓分布式存儲效率大為提升。
與集中式存儲所面對的結構性數據——即能夠用數據或統一結構加以表示的信息,如財富報表、地址和電話號碼等——不同,分布式存儲的內容主要是非結構性數據,包括圖片、視頻、音頻和文檔等,類型更加豐富。為了防止數據損壞或者丟失,一般在不同節點采取備份的做法,但其安全性取決于企業為數據安全建立的防火墻的技術能力。事實上,很難哪一家企業能夠確保自身萬無一失,從微軟到谷歌,都有過數據庫被侵入導致數據泄露的記錄。

圖2:從集中式到分布式,中心化存儲的演進
當前公有云市場已經出現壟斷傾向,這對數據安全、用戶需求都造成了一定的影響。需要一種新的存儲技術對這些現狀加以改變。區塊鏈技術提供了一個新的答案。
區塊鏈加持的“分散式存儲”
從集中式存儲到分布式存儲,數據存儲單元本身沒有發生變化,但是存儲技術逐漸向軟件進化,通過軟件技術的提升,實現對數據更加便捷的存取和調用。區塊鏈作為一種并不讓人陌生的軟件技術,應用在存儲方面,并不奇怪。但是從存儲管理的角度來說,集中式存儲本身是中心化管理的,分布式存儲看似服務器分布在不同區域,但它對外依舊通過單一的云服務商提供服務。中心化是集中式存儲和傳統分布式存儲的共同特點。
區塊鏈作為一種并不讓人陌生的軟件技術,應用在存儲方面,并不奇怪。區塊鏈技術應用下的存儲,與傳統分布式存儲有類似之處,其數據均存于不同地理位置的存儲器當中。但區塊鏈的去中心化特征,讓這種新型存儲模式與中心式式存儲有著截然不同的特征。在這一領域研究者MemoLabs將用一個新名詞定義了這一存儲技術:分散式存儲。
分散式存儲是一個存在著無數節點的存儲網絡。如果將這些節點想象成數據存儲器,它既包括數據中心的服務器、存儲陣列這些“主流”存儲設備,也包括“邊緣設備”,閑置的手機、電腦、硬盤、寫字樓的電腦機房……任何能夠寫入數據并存儲的硬件,都有可能成為一個節點。數據在各個節點之間進行點對點的傳輸。區塊鏈的分布式記賬確保每一次信息寫入寫出都能夠進行記錄,體現出可溯源和不可篡改的特點。數據通過采用密碼學相關技術,通常指哈希算法和加密、簽名技術,進行加密。在共識機制監管下,使保密性不高的邊緣存儲設備也能確保數據安全。而相比較投資高昂的數據中心和相對廉價的服務器,邊緣設備的存儲成本更低,但擴展性更強,從而讓分散式存儲成為未來數據存儲技術的重要發展方向。
在商業模式上,分散式存儲與中心化的存儲方式也極為不同。中心化存儲延續了傳統商業模式中服務提供者-消費者之間的買賣關系。但分散式存儲并沒有一個中心化的服務提供者。當前部分分散式存儲服務商引入了“礦工”機制,由其通過智能合約,對整個系統的交易服務進行維護。它們負責將交易內容生成區塊,并獲得代幣獎勵。用戶則以代幣的方式支付服務費給存儲提供者和礦工。
跟集中式和分布式存儲相比,分散式存儲背后運行的邏輯也非常不同。
普通的C端用戶而言可能對這一點感受不深。從使用方式上看,分散式存儲與此前的云存儲看上去差異并不算大。用戶從客戶端發出存儲要求后,分散式存儲機制會根據共識機制對存儲參數進行計算,自動生成智能合約。這份智能合約隨機匹配給用戶相關的存儲節點和維護節點。隨后存儲的文件,經過客戶端加密,切片后存入存儲節點中。用戶如果需要調閱相關的存儲文檔,需要將自己的私鑰與客戶端加密的公鑰進行匹配,確保安全后才能下載。
分散式存儲用戶上傳和下載理論上都需要付費。在具體應用中如何付費,有賴于分散式存儲應用開發商根據自己的實際運營模式收取。例如,部分已經運行的分散式存儲系統一樣采用包年制或者包月制的付費方式,另外也有某些系統采用一次性付費的方式。這些付費方式都是實驗性質的,目前其可持續性未能獲得充分證明。不過,由于存儲節點通常是閑置的邊緣存儲資源,而不是一次性投資的大型數據中心,分散式存儲服務提供者和維護者無需重金投入,其存儲資源的建設和開發成本較低,存儲用戶所支付的費用也相對較低。一般而言,現有收費一般是中心化存儲費用的一半左右。

表1:中心化存儲和分散式(去中心化存儲)的結構差異
Memoriae:痛點和解決方案
分散式存儲在具有極高不確定性的邊緣設備中快速進行數據讀寫,如何確保其具備高度的可用性呢?Memo Labs從2018年就嘗試開發的一個基于區塊鏈的分散式數據存儲系統,讓我們有了管窺這種存儲技術的機會。
分散式存儲出現,當下存儲技術成本高、延時高、壟斷性和安全與效率之間難以平衡等痛點似乎有了解決的可能,且去中心化特點又改變了中心化存儲的壟斷問題。但新的痛點又產生了:這些邊緣設備具有安全性、可靠性較弱的問題。區塊鏈本身的分布式記賬的特點,又容易讓分散式存儲平臺面臨處理大量冗余,效率過低的問題。
Memo Labs對于這些問題,開發了一套區塊鏈存儲技術Memoriae(以下簡稱MEMO)予以解決。
在架構上,MEMO由區塊鏈、管理設備、邊緣存儲設備以及用戶設備組成,總體技術架構分為區塊鏈層、管理層、存儲層和用戶設備四部分。
數據存儲也以此進行了分層存儲,以便有效降低冗余。MEMO在每一層提供不同的數據管理方案:區塊鏈層用來存儲智能合約、賬戶和交易等信息,僅存儲核心數據來保障更高的可拓展性;在管理層基于副本技術對元數據進行容錯,大幅提升系統的訪問處理能力;在存儲層則采用副本、糾刪碼與其他數據冗余技術來保障邊緣存儲設備上的數據的可靠性,同時獨創的數據恢復方法RAFI能夠有效縮短數據修復總時間,確保一個節點損壞后,在其他節點能夠迅速提供數據存儲修復。最后的用戶層則是實際數據存儲終端。數據進行加密,切片后寫入存儲終端。

圖3:MEMO的分層,從內到外從小到大分別是區塊鏈層、管理層、存儲層和用戶設備
MEMO僅使用區塊鏈記錄最為關鍵與穩定的信息,如用戶、存儲者與維護者的角色信息及其關聯信息,即智能合約信息;這類數據容量相對于用戶存儲數據而言很小。而邊緣存儲設備僅用于存儲用戶實際存儲數據。
相對于傳統的區塊鏈而言,MEMO的分區和劃層,讓整個存儲構架更加簡潔與高效,重要數據與一般存儲數據進行了區分。同時,由于采用了完全的去中心化措施,數據流動的出口帶寬限制不復存在,有利于提升響應速度。
更多的痛點解決方案
在安全、效率和可靠性方面,MEMO主要在通過技術實現了維護者、存儲者和用戶三者之間的耦合,以確保安全、高效和可靠。這種耦合主要表現在以下方面:
第三,首先,MEMO在整個分散式存儲中引入了用戶(User)、提供者(Provider)和維護者(Keeper)三個角色,采用鏈下共識,使整個分散式存儲的架構變得相對穩定。相對于中心化的存儲機制,分散式存儲的維護者是一個新的角色。集中式和傳統分布式存儲通常存在用戶和提供者兩個角色,提供者自身也承擔維護者的角色。但是在MEMO體系中,維護者的角色與提供者分離,將大大減輕提供者的工作壓力。維護者通常負責保護MEMO的運行和安全維護,存儲智能合約,通過挑戰提供者達成管理共識,形成交易記錄,即所謂“時空用量證明”,并以此獲得酬勞。

圖4:去中心化的MEMO體系中的三類參與者
其次,應用了密碼學技術,如對稱式加解密、防碰撞哈希和數字簽名等技術對產品在用戶端進行加密,將暴力破解加密的成功幾率降至最低。即使是存儲提供者自身也無法讀取用戶數據,這一點相對中心化存儲對用戶更為友好。MEMO同時提供了副本和糾刪碼兩套冗余機制,以應對分散式存儲節點不穩定的特征,有效防止節點損壞后數據丟失的問題。
再次,為了確保在去中心化的生態下提供者和維護者本身的信用,MEMO特地設定了一套信用機制。這套機制的主要支柱是通過積分增減的方式,對提供者和維護者進行獎懲。提供者和維護者本身還需要以代幣方式進行資金質押,防止欺詐行為發生,這也是信用體系的另外一條支柱。
最后,MEMO是個開源式的系統,可以通過跨鏈服務節點(MCS)支持外部公鏈接入,甚至可以使用外部公鏈的代幣進行支付。這樣可以實現與公鏈兼容,擴大節點和應用。
從上述技術應用來看,MEMO的技術邏輯在于,在維持去中心化存儲的基本原則之下,致力于針對各種現實問題提供有效解決方案。不過,MEMO并不是這一方向的唯一探索者。
分散式存儲的入局者
在MEMO之前,分散式存儲已有入場者。部分加密數字貨幣將分散式存儲作為代幣的應用場景,通過代幣激勵礦工們加入自己的區塊鏈,實現節點的擴張,最終構建分散式存儲市場。2015年啟動的Sia是最早嘗試利用全球未充分利用的硬盤容量來創建存儲市場的區塊鏈系統。它的出現塑造了分散式存儲的一些基本特征,例如采用了智能合約并將其存在區塊鏈中;在用戶端對數據進行加密,文件切片并分別存儲于不同節點當中,避免節點故障導致數據丟失等等。
在2017年跟進的Filecoin采用了IPFS協議作為基礎設施。IPFS是一種點對點分布式網絡協議,有望成為新一代互聯網架構協議。Filecoin是IPFS的激勵層,礦工可以通過提供檢索、存儲和區塊打包等方式獲得代幣報酬,以此發掘海量邊緣存儲設施。Filecoin提出了復制證明和時空證明,允許提供者證明數據已經存入相應設備中,強化了網絡安全和數據安全保護。但Filecoin在數據修復和延時問題上表現較弱。
和Filecoin同期出現的Storj沒有前者那樣的完全去中心化,維持了部分中心化的節點,稱之為“衛星”(Satellite),以此對系統進行維護管理。這是一個相對簡單有效的技術,對提升網絡體驗和降低技術成本均有幫助。但中心化的衛星節點則可能使數據流量受到一定限制。
入場者中Arweave是比較有特色的分散式存儲玩家。它提出了數據永存的概念,理論來源于區塊鏈可以不斷添加新的數據,并一直持續下去,但這理論有待驗證。而且,如果長期持續,單鏈可能因為過大而無法維護和存儲原有數據。Arweave引入了RadomX算法,激勵存儲提供者(礦工)來保存更多的區塊。
MEMO的出現在某種程度上集成了上述系統的優勢。它的核心思路是將關鍵信息(智能合約)存入區塊鏈,確保了它的安全和可靠。通過數據切片,在客戶端以密鑰加密后分散存儲,保證了各個節點的數據的安全和私密性。在修復數據損失上,采用了自己獨創的RAFI,RAFI以實時查詢的方式,快速發現具有較高丟失風險的數據,有效縮短數據修復總時間。
多個MEMO設備可形成集群效應,實現云存儲平臺的數據全局共享、統一存儲空間管理、自動負載均衡。在文件實現跨區域跨網絡存儲的情況下,能夠實現數據的高效存儲和調用。在面臨海量數據浪潮時,MEMO可以提供充分激勵,鼓勵存儲提供者加入,實現迅速的擴容。
各路神仙在分散式存儲問題上大顯身手的時候已到來,2020年各個分散式存儲系統先后推出了自己的產品,意味著分散式存儲將正式進入市場運作和競爭階段。
分散式存儲的商業探索
中國信通院的數據顯示,2019 年,以 IaaS、PaaS 和SaaS 為代表的全球云計算市場規模達到 1883 億美元,到2023年將會達到3500億美元。

圖5:市場研究機構Gartner在2020年對2018-2023年云計算市場的統計和預測
但是,云計算以重資產和高技術作為準入門檻。這個起點相當高,不是誰都能輕易玩得起。云計算市場呈現出高度的寡頭化。在公有云存儲市場,亞馬遜、微軟、谷歌、阿里巴巴和騰訊控制了全球近八成的市場,形成了中心化存儲在當前不可撼動的市場優勢。分散式存儲盡管在技術上和理論上有著相對優勢,但短期內還難以跟大廠們在市場份額上競爭,也不可能在應用上迅速取代中心化存儲。它需要探索出一條新的商業路線,才能在這個不斷增長的市場里找到自己發展的藍海。
分散式存儲要開拓市場,最根本要素的是實現節點的擴張。只有通過越來越多的節點加入,才能夠產生足夠的交易,提升數據的安全性,推動滾動式發展。這就是互聯網平臺發展理論中常說的“引爆網絡效應”。吸引節點的加入,則需要有有效的激勵機制。以區塊鏈為底層技術的的分散式存儲并不缺乏這一機制。通過代幣的發行和流通,即鼓勵礦工通過挖礦不斷生成區塊,可以維持區塊鏈的運轉和擴張。但是,鑒于分散式存儲所需要的存儲資源分布在廣泛的邊緣存儲設備,例如PC、智能手機、閑置的服務器甚至小區物業機房硬盤空余的分區當中,每個存儲設備的所有者對于獲取存儲收入和礦工利潤的期望不一。算力在存儲和挖礦之間如何進行分配是個問題。如果需要實現節點的快速擴張,如何實現激勵機制與合適的礦工人選進行匹配,現在還在探索中。
當前,分散式存儲的主要玩家是Filecoin和Storj。另外一個入局的Arweave更加強調“永久存儲”和一次付費,其模式與Filecoin以及Storj不同。Filecoin獲得資本關注,主網于2020年10月啟動,截至當年底節點發展到近千個。但Filecoin對于硬件配置要求過高,普通的PC難以承受,其節點主要來自礦機商。Filecoin的另外一個問題,則是響應速度太慢,影響到了數據存儲和應用體驗。
在節點的迅速擴散上,Storj的去中心化云存儲平臺Tardigrade進展更加迅速。商用的Tardigrade到目前數量超過6200個,節點遍布全球85個不同國家或地區。已公布的網絡總存儲量為2PB(2048TB)。實際存儲總量根據其節點擴張速度來看,可能遠超。Storj 主要對標亞馬遜 S3 存儲平臺,整合利用閑置資源輸出為標準統一的產品,用普通PC即可挖礦,對于C端存儲提供者相對友好,因而其節點和存儲數量上升較快。Storj的存儲價格比較有競爭力,是其對標平臺的一半左右。整體來看Storj是分散式存儲商業開發的一種可行方式。
Storj有一個小小缺陷,來自它使用的衛星節點,使得整個平臺的去中心化程度不夠。盡管Storj解釋稱,衛星節點其實是服務器集群,但是仍舊引發市場對節點損壞可能帶來數據損失的擔憂,且相對中心化的存儲平臺對流量產生一定限制,可能帶來數據上傳的瓶頸。

圖6: Storj白皮書上關于衛星節點描述的圖
MEMO的商業價值
Memo從帶寬流量、數據安全與使用成本三個角度進行技術研發,主要是設計了數據完整性驗證方案,通過數據分片,生成驗證標簽,在讀取時進行對照驗證,可以實現快速驗證,迅速在存儲節點轉發流量,提升了響應速度,無需像Storj那樣經過可信節點轉發。這樣可以降低成本,同時維持Memoriae的去中心化特征。另一方面,Memoriae獨有的數據恢復技術RAFI則保證了數據的快速修復,這對于提升用戶體驗,達成交易也有著重要的商業價值。
在未來的存儲市場中,企業數據將會占據存儲數據的絕大部分。除了結構化數據因其重要性和數據體量較小,使用集中式存儲經濟上和技術上比較合理,其余數據理論上均可以使用分散式進行存儲。MemoLab本身也在致力于與多方開展合作,構建并完善MEMO生態,例如構建金融專屬分散式云存儲平臺、醫療大數據底層服務平臺、能源勘探數據的備份與歸檔和工業物聯網等。其余企業級的賽道也包括短視頻、網游和社交媒體數據等。分散式存儲如能在響應速度上獲取對中心化的分布式存儲的優勢,那么它在大量熱數據(如工業物聯網、網游和社交媒體等賽道產生的實時高頻數據)的存儲市場上必然有迅速成長的空間。
不過,在推進B2B的合作伙伴構建時,分散式云存儲的倡議者也需要注意到,合作伙伴中應該包括基于分散式的存儲技術上的數據分析及應用開發方。MEMO在構建生態時,除了要選擇好應用場景和賽道,還需要提升開源式分布系統與應用開發者之間的合作。但是,在缺少一個中心化運營者推動的情況下,開發者、系統本身以及存儲企業三者之間的關系,還需要在市場競爭中繼續摸索。
最后需要關注的問題是監管。除了分散式存儲帶來數據大范圍流動這個敏感問題之外,發行代幣帶來的金融風險問題,也是區塊鏈監管的問題之一。目前這兩個問題已有初步的解決方案,即建立“主權區塊鏈”,增加了國家主權、政府監督、技術干預、非完全去中心化等注入有主權意志的特性。具體的做法是依據上述特性所制定的規則,嵌入區塊鏈的共識機制當中。需要注意的是這一個市場和監管博弈的過程,要達到監管穩定需要一段漫長的時間。
存儲市場未來的發展空間將會極其廣闊。以區塊鏈為底層技術的分散式存儲開辟了一條新的存儲路徑,它在這個市場中必然會獲得屬于自己的市場份額。盡管現在各種分散式存儲技術粉墨登場,但還沒有能夠獲得市場的檢驗。理論上看,MEMO能夠克服當前分散式存儲技術的一些痛點,但它能否繼續迭代和在市場上立腳,有賴于它能否推動有效的市場實踐。在這種情況下,它的技術是否更加符合商業邏輯,它的合作伙伴是否能夠開發出更加符合市場需求的應用,將決定它最終是否成為分散式存儲市場的先驅和中堅力量。
不論如何,市場大門在緩緩打開,新的風口來臨,最早的布局者將面臨著讓人激動不已的世界。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。