What is DataHub?
DataHub 是現代資料目錄與中繼資料平台,旨在駕馭您資料生態系統的複雜性。它賦能團隊、資料專業人員及開發人員,輕鬆探索、理解並治理其資料資產,實現明智的決策,並釋放資料的全部價值。
主要功能
DataHub 提供基本功能,以有效掌握及管理您的資料版圖:
🔍 Data Discovery (資料探索): 輕鬆搜尋您的整個資料生態系統,包括資料集、儀表板、ML models 和原始檔案。此功能確保您能快速找到所需的資料資產,節省寶貴時間,並減少工作流程中的阻礙。
🛡️ Data Governance (資料治理): 定義明確的擁有權、追蹤如 PII 等敏感資訊,並管理存取策略。Data Governance 功能可建立您對資料的信任,協助您符合法規要求,並確保整個組織的資料使用負責任。
✅ Data Quality Control (資料品質控制): 透過中繼資料測試、斷言、資料即時性檢查和資料契約,提升資料的可靠性。透過在中繼資料層級整合品質檢查,DataHub 協助您主動識別並解決資料問題,確保下游流程依賴值得信任的資料。
🔌 UI-based Ingestion (基於使用者介面的擷取): 使用其直觀的使用者介面,輕鬆設定整合並將來自不同來源的中繼資料導入 DataHub。這簡化了初始設定過程,讓您在幾分鐘內快速連接您的資料工具並開始編目您的資產。
🛠️ APIs and SDKs: 對於需要自動化和深度整合的開發人員和團隊,DataHub 提供一套全面的 APIs 和 SDKs。這提供了程式化控制的靈活性,實現客製化工作流程,並無縫整合到現有的資料管道和應用程式中。
使用案例
探索 DataHub 如何在實際情境中協助您的團隊:
加速資料分析: 資料分析師需要為新報告找到特定的客戶資料集。透過 DataHub 的 Data Discovery,他們能快速搜尋、找到相關資料表、查看其描述、檢查其資料沿襲(以了解其來源)並驗證其品質分數,確保他們為分析使用正確且可靠的資料。
確保資料合規性: 資料管理員需要識別所有包含 PII 的資料集,以符合法規。DataHub 的 Data Governance 功能讓他們能夠在其資料來源中標記和追蹤 PII、指定擁有者並監控存取,簡化合規性稽核並降低風險。
建立值得信任的 ML Models: 資料科學家正在為關鍵的機器學習模型準備資料。他們使用 DataHub 尋找潛在資料集、審查資料擁有者定義的資料品質檢查和斷言,並檢查資料即時性,獲得所選資料準確且即時的信心,從而帶來更可靠的模型效能。
為何選擇 DataHub?
作為領先的開源中繼資料平台,DataHub 獨特地融合了社群驅動的創新和強大的企業級功能。它在設計時充分考慮了開發人員的需求,同時也為資料專業人員提供了基本工具。其在 AI & Data Context Management 方面的能力特別值得一提,為 AI 系統安全有效地與您的資料互動提供了必要的背景資訊。擁有超過 13,000 名成員的活躍社群支持,並已被超過 3,000 家公司採用,DataHub 代表了一種經過驗證的、協作的現代資料管理方法。
結論
DataHub 為組織提供了基本框架,以掌握並理解其日益複雜的資料環境。透過集中管理中繼資料並提供強大的探索、治理和品質工具,它賦能您的團隊,充分利用資料資產的全部潛力。
深入了解 DataHub,探索它如何轉變您的資料營運。





