Data Fabric 支持統一的數據管理架構,使企業可以從可擴展和融合的數據能力中獲益。
Data Fabric被定義為一種新興的方法,使用基于網絡的架構而不是點對點連接來處理數據。這實現了從數據源層面到分析、洞察力生成、協調和應用的一體化數據層(結構)。本文詳細解釋了Data Fabric、其關鍵組件和最佳實踐。
01 什么是Data Fabric?
Data Fabric 是一種使用基于網絡的架構而不是點對點連接來處理數據的新興方法。這支持從數據源級別到分析、洞察力生成、編排和應用程序的集成數據層(結構)。 它在底層數據組件上放置了一層抽象,以使業務用戶可以使用信息和洞察力,而無需重復或強制性的數據科學工作。
隨著企業數據需求的發展,公司正在努力接受其復雜性、異構性以及它存在于分散在企業環境中的多個應用程序和環境中的事實。據 Statista 稱,到 2024 年,全球數據生成和消費量將超過 149 澤字節,其中非結構化數據將占其中的 80% 左右。
Data Fabric 被視為這個問題的答案。它改進了數據倉庫和數據湖的舊概念,引入了一種架構,可以在整個企業中實現統一的數據利用。出于這個原因,Gartner 將 Data Fabric 確定為 2019 年十大最具影響力的數據和分析技術之一,并指出到 2022 年,公司將被迫重新設計其基礎架構以支持定制的 Data Fabric 設計。
02 Data Fabric 的應用
讓我們探索 Data Fabric 的關鍵功能和企業應用程序,以了解它是如何工作的。
Data Fabric支持非結構化數據,包括物聯網:企業正在迅速將其邊界擴展到本地服務器和固定工作站之外。從自帶設備 (BYOD) 和 WFH 到現場加固型手持設備和物聯網 (IoT),聯網設備的范圍正在不斷擴大。數據結構連接所有這些端點,處理通過傳感器收集的非結構化數據,并以最低的后端復雜性提供洞察力。
Data Fabric 大規模處理信息:企業數據量不斷增長,能夠有效移動數據的組織將獲得競爭優勢。數據驅動的洞察力和決策可以推動新的商機、改善客戶體驗并實現更高效的工作方式。Data Fabric 使自動攝取和利用原本閑置的數據成為可能。
Data Fabric 與混合托管環境兼容:Data Fabric 的關鍵特征之一是它與環境、平臺和工具無關。它可以實現與技術堆棧中幾乎每個組件的雙向集成,以創建交織或類似織物的架構。這非常適合多云或混合云企業,其中數據計劃需要在所有云中統一且一致地運行。該解決方案從分布在環境中的多個來源攝取數據,以創建一個整合的“結構”以生成洞察力。
Data Fabric 以更快的速度產生洞察力:這些解決方案甚至可以輕松處理最復雜的數據集,從而加快洞察力。由于其架構,有預先構建的分析模型和認知算法來大規模和快速地處理數據。例如,NASA 能夠與名為 Stardog 的數據結構供應商合作,將獲得洞察的時間縮短 90%。
與傳統倉儲模型相比,Data Fabric 需要更少的 IT 干預:Data Fabric 的一個重要特征是它依賴于一組預構建和預配置的組件來從原始數據到經過處理和可操作的信息。這些系統通常托管在云上,并由經驗豐富的服務提供商管理。這意味著在實施和維護數據生產計劃時不需要 IT 參與。
技術用戶和非技術用戶都使用Data Fabric:Data Fabric的體系結構使其適用于廣泛的用戶界面。您可以構建可以被業務主管快速理解和利用的時尚儀表板。Data Fabric還帶有復雜的工具,可以讓數據科學家深入挖掘和深入數據探索。它適用于各種數據素養水平。
實施Data Fabric的主要目的是鞏固數據治理和數據安全,無論它位于企業的哪個位置。您還可以將解決方案與新的數據源、分析模型、用戶界面和自動化腳本集成以改進數據使用。Data Fabric 技術的最新進展意味著您甚至可以使用圖形模型處理元數據,以與業務用戶相關,而不僅僅是被動資產。其架構允許企業通過擴展添加新功能、疊加安全覆蓋以及執行其他關鍵功能,而無需縮減核心數據庫。
03 Data Fabric 的關鍵架構組件
Data Fabric 是一個打包的解決方案,它利用七個關鍵組件從數據中提取見解并在整個企業中一致地交付它們。這些關鍵架構組件包括:

Data Fabric 的關鍵架構組件
1、采集的數據源
數據源是系統生成的信息,將由Data Fabric 處理、存儲和使用。這些資源可能存在于企業內部,例如您的企業資源規劃 (ERP) 軟件、客戶關系管理 (CRM) 軟件或人力資源信息系統 (HRIS)。您可以連接到非結構化數據源,例如支持 PDF 和屏幕截圖的文檔提交系統,以及物聯網傳感器。Data Fabric 還可以從提供公共可用數據(如社交媒體)的外部系統中提取數據。最后,企業可以購買第三方數據庫來豐富內部已有的信息。
2、用于處理的分析和知識圖譜
Data Fabric 采集的許多數據都是半結構化或非結構化形式,包括來自各種來源的元數據。分析和知識圖譜系統會將所有數據類型一致地轉換為連貫的格式,以便可以在沒有任何瓶頸的情況下對其進行處理。具體來說,用戶需要能夠查看和理解企業中各種數據源之間的關系。這就是為什么在您繼續生成洞察之前,處理分析是數據結構的關鍵架構組件。
3、洞察生成的高級算法
對于此組件,您可以利用 AI/ML 算法進行持續數據監控和實時洞察生成。AI/ML 的使用顯著縮短了處理時間,并幫助您更快地產生洞察力。數據必須與勞動力優化或特定位置的業務決策等運營用例保持一致,以顯示最相關的洞察力。此外,出于安全和合規目的,必須記錄所有活動。
4、用于與交付接口連接的 API 和 SDK
這可能是Data Fabric 中最重要的組成部分,這使它有別于傳統的數據湖或倉庫。Data Fabric 在其架構主干中內置了集成就緒功能,并且可以與任何前端用戶 UI 連接,以便在最需要的地方提供洞察力。為此,它使用應用程序編程接口 (API) 和軟件開發工具包 (SDK) 以及預構建的連接器。理想情況下,它應該有兩個集成模塊 - IT 專業人員可以用來設置復雜集成的自己動手 (DIY) 功能,以及讓業務用戶開始從 Data Fabric 中獲益的開箱即用功能。自助式商業智能 (BI) 工具。
5、數據消費層
數據消費層是指在前端實現數據消費的面向用戶的界面。您可以通過多種方式調整這一層,以從您的 Data Fabric 投資中獲得最大回報。例如,業務應用程序中的嵌入式分析可以幫助用戶在其工作流程的上下文中訪問信息。虛擬助手和聊天機器人可以幫助進行自然數據探索。而且,實時儀表板可以讓運營經理實時了解關鍵企業事件。Data Fabric 的優勢在于它同樣輕松地支持所有這些要求。
6、數據傳輸層
傳輸層幫助數據在結構中移動。強大的數據傳輸層不僅能夠在系統之間無中斷地移動數據,而且還能夠通過端到端加密實施嚴格的安全性。該層還可以設計為保留重復數據刪除,以便在移動過程中不會創建新副本。它還應該保持由Data Fabric 的不同組件強制執行的壓縮效率,以便數據再水化不會在運動中發生,從而導致無意的低效率或安全風險。
7、托管環境
雖然該組件在技術上是數據結構架構的外部,但它會影響其核心組件。您可以選擇在本地或云端托管 Data Fabric。在后者的情況下,它可能能夠從基于云的數據管理工具(如 Snowflake 和容器)中獲益。本地數據結構應該與您的非云 IT 工具集成,無論是 Oracle 本地、SAP 還是其他任何工具。如果您與合適的供應商合作,Data Fabric 也非常適合多云和混合云環境。
雖然我們生活在一個數據驅動的時代,但組織在日常任務上花費了不成比例的時間,而在增值上卻沒有足夠的時間。Gartner 2020 年一項題為“平衡創新與控制的數據管理斗爭”的調查發現,數據團隊只能將 22% 的時間用于創新。剩余的精力用于維護生產計劃、培訓用戶和其他非增值任務。Data Fabric 使用上述七個組件來糾正這種平衡,并通過消除數據管理中的后端瓶頸來釋放您的頂尖人才。
04 Data Fabric 8 大最佳應用實踐
全球數據結構市場將從 2020 年的 11 億美元增長 3 倍以上,到 2026 年達到 37 億美元(根據全球行業分析師的說法)——這表明該領域的需求強勁。如果您希望實施數據結構架構以優化企業數據的使用方式,請記住以下最佳實踐。

數據編織的最佳實踐
1、采用 DataOps 流程模型
雖然數據結構和數據操作不是相同的概念,但數據操作可以證明是一個重要的推動者。根據 DataOps 流程模型,數據流程、工具和應用洞察的用戶之間存在密切的聯系。
用戶可以持續依賴數據,有意義地利用可用工具,并應用洞察力來優化運營。該模型與數據結構的架構具有共生關系。如果沒有 DataOps 流程模型和 DataOps 思維模式,用戶將難以充分利用數據結構。
2、主動避免建立另一個數據湖
構建數據結構時的一個常見缺陷是它可能最終變成另一個數據湖。如果您擁有所有架構組件——數據源、分析、BI 算法、數據傳輸和數據消費——但沒有 API 和 SDK,那么結果就不是真正的數據結構。
數據結構是指架構設計,而不是單一技術。組件之間的互操作性和集成準備是該設計的定義特征。這就是為什么企業需要特別關注集成層、無縫數據傳輸以及自動洞察交付到新連接的前端接口的原因。
3、了解您的合規性和監管要求
數據結構架構可以幫助改善安全性、治理和法規遵從性,因為數據在其中運行的整體環境。由于數據不會分散在不同的系統中,因此威脅向量更小,敏感數據暴露的風險也更小。
但是,在實施數據結構之前,請務必仔細了解圍繞您的數據的合規性和法規要求。這是因為不同的數據類型可能屬于不同的監管管轄區,并有不同的法律管轄。您可以通過強制執行數據轉換以在必要時遵守法律的自動化合規策略來解決這個問題。
4、部署基于圖形的分析以查找相關性
圖分析是關系數據庫的一種更智能的替代方案,它有助于使用知識圖來可視化元數據和數據關系。它使用語義上下文豐富數據,以了解信息的含義,而不僅僅是文本字符串。
由圖分析提供支持的知識圖是數據結構的理想選擇——數據結構架構的主要目的是實現對不同數據源的整體使用而不會重復。知識圖可以通過調查數據源之間的關系來提供業務和運營洞察力。與關系數據庫方法相比,它更擅長集成不同的數據,并且挖掘出的見解也與業務用戶更相關。
5、為公民開發者建立數據市場
通常,Data Fabric 架構將生成見解并將其直接傳遞給業務應用程序,或創建分段數據存儲庫以供 IT 或您的數據團隊進行分析。還有另一種方法可以利用數據結構的潛力——通過一個使公民開發人員訪問民主化的數據市場。
對數據分析有一定了解并具有多年業務分析專業知識的業務用戶可以從這個市場編織數據,為新興用例創建新模型。除了實施特定于用例的 BI 之外,企業還可以授權公民開發人員以新的靈活方式利用數據結構。
6、利用開源技術
在構建數據結構時,開源可以改變游戲規則。根據其定義,數據結構意味著可擴展和集成就緒,這意味著開源工具最適合其架構。
開源組件還可以減少您對單一供應商的依賴,因為數據結構可能涉及巨額投資,即使您稍后選擇更換供應商,您也希望保留投資。請務必查看一個新推出的 Open Data Fabric 項目,該項目使用大數據和區塊鏈來啟用分散的流數據處理管道。
7、啟用本機代碼生成
本機代碼生成是一項重要功能,可讓您的 Data Fabric 解決方案自動生成可用于集成的代碼。即使數據結構處理傳入的信息,它也可能能夠以各種語言(如 Spark、SQL 和 Java)本地生成優化代碼。
然后,IT 專業人員可以利用此代碼集成可能尚不存在 API 和 SDK 的新系統。這種做法將幫助您加快數字化轉型并輕松添加新的數據系統,而無需擔心過度的集成工作或投資。請記住,本機代碼生成必須與預構建的連接器協同工作,以使數據結構易于使用。
8、使數據結構適應邊緣計算
邊緣數據結構(也稱為邊緣到云數據結構)專為支持物聯網實施而構建。它將與數據相關的關鍵任務從集中式應用程序轉移到一個單獨的邊緣層,該邊緣層是分布式的,但與數據結構緊密相連。通過使數據結構適應邊緣計算,企業可以從其物聯網設備中獲得更多價值。
例如,智能工廠可以使用邊緣數據結構(無需通信)與集中式云自動計算貨物集裝箱的重量,并自動啟動揀貨流程。它以傳統的集中式數據湖模型無法實現的方式加速決策并實現自動化操作。
05 關鍵點總結
隨著我們數據使用量的增長,數據孤島必須越來越多地被打破,以便為互聯企業讓路。數據結構的實施是這一旅程的重大飛躍——事實上,這是自 1970 年代關系數據庫發明以來最具革命性的突破之一。這是因為 Data Fabric 不僅僅是一種技術或產品。它指的是數據和業務行為緊密交織的架構設計、結構化流程和思維方式轉變。以下是企業必須記住的三個關鍵要點:
Data Fabric 可以顯著減少花費在日常、非增值數據管理任務上的時間——但它可能需要大量的初始投資。
一個數據結構有七個關鍵的架構組件,API 和 SDK 層最需要注意,以避免被限制在數據湖的范圍內。
根據定義,數據結構是無限可擴展的,這意味著您需要隨著企業的發展更新和升級架構。
數據結構可以成為使每個流程、應用程序和業務決策都由數據驅動的秘密成分。記住我們討論的十個最佳實踐并選擇合適的供應商以確保在前進的道路上取得成功。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。