現代資料湖和資料湖倉建構於現代物件儲存之上。
這意味著它們建構於 MinIO 之上。
MinIO 為現代資料湖/湖倉提供統一的儲存解決方案,該解決方案可以在任何地方運行:私有雲、公有雲、
主機代管、裸機 - 甚至在邊緣。它速度快、可擴展、雲端原生且隨時可用 - 所有功能都已包含在內。
現代資料湖是多引擎的,這些引擎(Spark、Flink、Trino、Arrow、Dask 等)都需要以某種方式連接到一個有凝聚力的架構中。現代資料湖必須提供中央表格儲存、可攜式運算、存取控制和持久結構。這就是 Iceberg、Hudi 和 Delta Lake 等格式發揮作用的地方。它們是為現代資料湖設計的,並且 MinIO 中均支援它們。我們可能對哪一個勝出有意見(您可以隨時詢問我們...),但我們致力於支援它們,直到它沒有意義為止(請參閱 Docker Swarm 和 Mesosphere)。
MinIO 誕生於雲端,並遵循雲端作業模式的原則 - 容器化、協調、微服務、API、基礎架構即程式碼和自動化。因此,雲端原生生態系統與 MinIO「開箱即用」 - 從 Spark 到 Presto/Trino、從 Snowflake 到 Dremio、從 Nifi 到 Kafka、從 Prometheus 到 OpenObserve、Istio 到 Linkerd 以及從 Hashicorp Vault 到 Keycloak。
不要只聽我們說 - 輸入您最喜歡的雲端原生技術,讓 Google 為您提供證據。
MinIO 支援每個與 S3 相容的查詢引擎,也就是說,全部都支援。如果沒有看到您使用的引擎,請給我們留言,我們會進行研究。
現代資料湖需要一個效能級別,更重要的是,大規模的效能,這是 Hadoop 只能夢想的,而舊式物件儲存只能幻想的。MinIO 在多個基準測試中證明,它比 Hadoop 快得多,並且遷移路徑有明確的文件記錄。這意味著您的查詢引擎(Spark、Presto、Trino、Snowflake、Microsoft SQL Server、Teradata 等)具有更好的效能。這也包括您的 AI/ML 平台 - 從 MLflow 到 Kubeflow。
我們發布我們的基準測試,供全世界查看並使其可重複。請參閱我們如何在 此文章 中,僅使用 32 個節點的現成 NVMe SSD,在 GET 上達到 325 GiB/s (349 GB/s) 的速度,在 PUT 上達到 165 GiB/s (177 GB/s) 的速度。
MinIO 的伺服器二進制檔案全部 <100 MB。儘管它體積小,但它功能強大到足以在資料中心中運行,但仍然小到足以舒適地存在於邊緣。在 Hadoop 世界中沒有這樣的替代方案。對企業來說,這意味著您的 S3 應用程式可以隨時隨地以相同的 API 存取資料。透過實作 MinIO 邊緣位置並具有複寫能力,我們可以在邊緣捕獲和篩選資料,並將其傳送到母叢集,以進行聚合和進一步的分析實作。
現代資料湖擴展了 Hadoop 分解中看到的分離。現代資料湖具有高速查詢處理引擎和高吞吐量儲存。現代資料湖太大而無法放入資料庫中,因此資料駐留在物件儲存上。這樣,資料庫可以專注於查詢最佳化功能,並將儲存功能外包給高速物件儲存。透過將資料的子集保留在記憶體中並利用諸如述詞下推 (S3 Select) 和外部表格等功能,查詢引擎具有更大的彈性。
採用 Hadoop 的企業是出於對開放原始碼技術的偏好。作為邏輯繼承者,企業也希望他們的資料湖是開放原始碼的。這就是為什麼 Iceberg 蓬勃發展以及 Databricks 開源 Deltalake 的原因。
檢查能力、免於鎖定的自由以及來自數萬名使用者的舒適感具有真正的價值。MinIO 也是 100% 開放原始碼,確保組織可以在投資現代資料湖時忠於其目標。
資料不斷地產生,這表示必須不斷地攝取資料,而不會造成消化不良。MinIO 就是為此而生,並且能與 Kafka、Flink、RabbitMQ 和許多其他解決方案開箱即用。最終成果是一個資料湖/資料湖倉,成為單一的事實來源,並可無縫擴展至 EB 級以上。
MinIO 有多個客戶的每日資料攝取量超過 250PB。
簡單很難。它需要努力、紀律,以及最重要的,承諾。MinIO 的簡潔性是出了名的,它源於一種哲學上的承諾,即讓我們的軟體易於部署、使用、升級和擴展。現代資料湖不必複雜。只有少數幾個部分,而我們致力於確保 MinIO 是最容易採用和部署的。
不只是 MinIO 能與每個資料串流協定和每個資料管道協同運作,而是每個資料串流協定和每個資料管道都能與 MinIO 協同運作。每個供應商都會進行廣泛且頻繁的測試,以確保資料管道具有彈性且效能良好。
MinIO 使用每個物件的內嵌式 Erasure Coding 來保護資料,這比 HDFS 的替代方案效率高得多,後者是在複製之後才出現,而且從未被採用。此外,MinIO 的位元衰減偵測功能可確保它永遠不會讀取損毀的資料,並能即時擷取和修復損毀的物件。MinIO 也支援跨區域、主動-主動式複製。最後,MinIO 支援完整的物件鎖定框架,提供「法律保留」和「保留」(具備治理和合規模式)。
Hadoop HDFS 的繼任者不是硬體設備,而是在商用硬體上執行的軟體。這就是 MinIO 的本質 — 軟體。與 Hadoop HDFS 一樣,MinIO 的設計宗旨是充分利用商用伺服器。MinIO 能夠利用 NVMe 驅動器和 100 GbE 網路,可縮小資料中心的規模,同時提高營運效率和可管理性。事實上,建立替代資料湖的公司可以減少 60% 或更多的硬體佔用空間,同時提高效能並減少管理所需的全職人員。
MinIO 支援多種複雜的伺服器端加密方案,以保護資料 — 無論資料在哪裡 — 傳輸中或靜止時。MinIO 的方法以可忽略的效能開銷確保機密性、完整性和真實性。伺服器端和用戶端加密都支援使用 AES-256-GCM、ChaCha20-Poly1305 和 AES-CBC,確保應用程式的相容性。此外,MinIO 支援業界領先的金鑰管理系統 (KMS)。
立即與 MinIO 的工程師討論您的資料湖問題
我們將在一小時內與您聯繫。