文件

可用性和彈性

此頁面從生產角度概述 MinIO 的可用性和彈性設計與功能。

注意

本頁內容旨在盡力協助您了解 MinIO 的預期設計以及可用性和彈性背後的理念。它無法取代 MinIO SUBNET 的功能,MinIO SUBNET 可讓您在規劃 MinIO 部署時與 MinIO 工程部門協調。

社群使用者可以在 MinIO 社群 Slack 上尋求支援。社群支援僅限於盡力而為,不提供回應的服務等級協議 (SLA)。

分散式 MinIO 部署

MinIO 實作 Erasure Coding 作為在磁碟機或節點層級故障事件期間提供可用性和彈性的核心元件。

MinIO 將每個物件分割為資料和 同位 分片,並將這些分片分散在單一 Erasure Set 中。

Diagram of erasure coded object partitioned into twelve data shards and four parity shards

這個小型單節點部署在一個 Erasure Set 中有 16 個磁碟機。假設預設 同位EC:4,MinIO 會將物件分割為 4 (四) 個同位分片和 12 (十二) 個資料分片。MinIO 會將這些分片平均分散在 Erasure Set 中的每個磁碟機上。

MinIO 使用確定性演算法來選擇給定物件的 Erasure Set。

對於每個唯一的物件命名空間 BUCKET/PREFIX/[PREFIX/...]/OBJECT.EXTENSION,MinIO 始終選擇相同的 Erasure Set 來進行讀取/寫入操作。這包括同一物件的所有版本

Diagram of erasure set selection based on object namespace

MinIO 使用完整的物件命名空間計算目標 Erasure Set。

MinIO 需要 讀取和寫入仲裁才能對 Erasure Set 執行讀取和寫入操作。

仲裁取決於部署的已設定同位。讀取仲裁始終等於已設定的同位,這樣 MinIO 就可以對沒有丟失超過同位數量的磁碟機的任何 Erasure Set 執行讀取操作。

Diagram of degraded erasure set, where two parity shards replace two data shards

此節點有兩個故障磁碟機。MinIO 會自動使用同位分片來取代遺失的資料分片,並將重建的物件提供給請求的用戶端。

使用預設的 EC:4 同位,部署可以容忍每個 Erasure Set 丟失 4 (四) 個磁碟機,並且仍然可以提供讀取操作。

寫入仲裁取決於已設定的同位和 Erasure Set 的大小。

如果同位小於 Erasure Set 磁碟機數量的一半 (1/2),則寫入仲裁等於同位,並且功能與讀取仲裁類似。

MinIO 會自動增加寫入到降級 Erasure Set 的物件同位,以確保物件可以達到與健全 Erasure Set 中物件相同的 SLA。同位升級行為提供了額外的風險緩解層級,但無法取代修復或更換損壞磁碟機以將 Erasure Set 恢復到完全健全狀態的長期解決方案。

Diagram of degraded erasure set, where two drives have failed

此節點有兩個故障磁碟機。MinIO 使用升級的 EC:6 同位寫入物件,以確保此物件達到與其他物件相同的 SLA。

使用預設的 EC:4 同位,部署可以容忍每個 Erasure Set 丟失 4 個磁碟機,並且仍然可以提供寫入操作。

如果同位等於 Erasure Set 磁碟機數量的一半 (1/2),則寫入仲裁等於同位 + 1 (一),以避免因「腦裂」情況導致資料不一致。

例如,如果 Erasure Set 中正好一半的磁碟機因網路故障而隔離,則 MinIO 會認為仲裁丟失,因為它無法為寫入操作建立 N+1 個磁碟機群組。

Diagram of erasure set where half the drives have failed

此節點有 50% 的磁碟機故障。如果同位為 EC:8,則此 Erasure Set 無法滿足寫入仲裁,並且 MinIO 會拒絕寫入到該設定的操作。由於 Erasure Set 仍然保持讀取仲裁,因此對現有物件的讀取操作仍然可以成功。

當一個 Erasure Set 中永久遺失的硬碟數量超過設定的同位檢查(parity)數量時,就會發生資料遺失。

對於最大同位檢查設定,如果硬碟遺失數量等於同位檢查數量,則 Erasure Set 會進入「唯讀」模式。對於最大的 Erasure Set 大小為 16 和最大同位檢查數量為 8 的情況,需要遺失 9 個硬碟才會發生資料遺失。

Diagram of completely degraded erasure set

此 Erasure Set 遺失的硬碟數量已超過設定的同位檢查數量 EC:4,因此失去了讀取和寫入的仲裁。MinIO 無法復原儲存在此 Erasure Set 上的任何資料。

暫時性的硬碟故障,例如由於儲存控制器或連接硬體故障,可能會在 Erasure Set 中恢復正常運作狀態。

MinIO 進一步降低 Erasure Set 故障的風險,方法是將 Erasure Set 的硬碟以對稱的方式「條帶化」分佈在集區中的每個節點上。

MinIO 會根據節點和硬碟的數量自動計算最佳的 Erasure Set 大小,其中最大集合大小為 16 (十六)。然後,它會為每個 Erasure Set 選擇每個節點上的其中一個硬碟,遍歷整個集區,如果 Erasure Set 的條帶大小大於節點數量,則會循環遍歷。此拓撲結構提供了對單一節點甚至該節點上的儲存控制器遺失的彈性。

Diagram of a sixteen node by eight drive per node cluster, consisting of eight sixteen drive erasure sets striped evenly across each node.

在這個 16 x 8 的部署中,MinIO 會計算出 8 個大小為 16 個硬碟的 Erasure Set。它會在可用的節點中為每個 Erasure Set 分配每個節點一個硬碟。如果總共有 8 個節點,MinIO 將需要為每個 Erasure Set 選擇每個節點 2 個硬碟。

在上述拓撲結構中,集區有 8 個 Erasure Set,每個 Erasure Set 由 16 個硬碟組成,條帶化分佈在 16 個節點上。每個節點將為每個 Erasure Set 分配一個硬碟。雖然遺失一個節點在技術上會導致遺失 8 個硬碟,但每個 Erasure Set 只會遺失一個硬碟。這在節點停機的情況下仍可維持仲裁。

每個 Erasure Set 都獨立於同一集區中的其他所有 Erasure Set。

如果一個 Erasure Set 完全損壞,MinIO 仍然可以在其他 Erasure Set 上執行讀/寫操作。

Diagram of a MinIO multi-pool deployment with one failed erasure set in a pool

一個集區有一個損壞的 Erasure Set。雖然 MinIO 無法再對該 Erasure Set 執行讀/寫操作,但它仍可繼續對該集區中健康的 Erasure Set 執行操作。

然而,遺失的資料仍可能會影響依賴 100% 資料可用性假設的工作負載。此外,每個 Erasure Set 完全獨立於其他 Erasure Set,因此您無法使用其他 Erasure Set 將資料復原到完全損壞的 Erasure Set。您必須使用站點儲存桶複寫,以建立可供復原遺失資料的BC/DR就緒的遠端部署。

對於多集區 MinIO 部署,每個集區都需要至少一個維持讀/寫仲裁的 Erasure Set,才能繼續執行操作。

如果一個集區遺失所有 Erasure Set,MinIO 將無法再判斷指定的讀/寫操作是否會路由到該集區。因此,即使其他集區保持運作,MinIO 也會停止對部署的所有 I/O。

Diagram of a MinIO multi-pool deployment with one failed pool.

此部署中的一個集區已完全故障。MinIO 無法再判斷要將 I/O 路由到哪個集區或 Erasure Set。繼續操作可能會產生不一致的狀態,導致物件和/或其版本位於不同的 Erasure Set 中。因此,MinIO 會暫停部署中的所有I/O,直到集區恢復為止。

若要恢復對部署的存取權,管理員必須將集區恢復到正常運作狀態。根據故障的嚴重程度,可能需要格式化磁碟、更換硬體或更換節點。請參閱硬體故障後復原以取得更完整的文件。

使用複寫的遠端站點將遺失的資料復原到部署中。儲存在健康集區上的所有資料在磁碟上仍然安全。

硬碟的獨佔存取權

MinIO 要求對為物件儲存提供的硬碟或磁碟區具有獨佔存取權。其他任何程序、軟體、指令碼或人員都不應直接對提供給 MinIO 的硬碟或磁碟區,或 MinIO 放置在它們上面的物件或檔案執行任何動作。

除非 MinIO 工程部門指示,否則請勿使用指令碼或工具直接修改、刪除或移動所提供硬碟上的任何資料分片、同位檢查分片或中繼資料檔案,包括從一個硬碟或節點移動到另一個硬碟或節點。此類操作很可能導致廣泛的損壞和資料遺失,超出 MinIO 的修復能力範圍。

複寫的 MinIO 部署

MinIO 實施站點複寫,作為確保 MinIO 部署中發生大小規模資料遺失時業務持續性和災難復原 (BC/DR) 的主要措施。
Diagram of a multi-site deployment during initial setup

每個對等站點都部署到獨立的資料中心,以提供保護,防止大規模故障或災難。如果一個資料中心完全離線,用戶端可以容錯移轉到另一個站點。

由於暫時性或持續性停機,MinIO 複寫可以自動修復具有部分或全部資料遺失的站點。
Diagram of a multi-site deployment while healing

資料中心 2 已關閉,站點 B 需要重新同步。負載平衡器處理將操作路由到資料中心 1 中的站點 A。站點 A 持續將資料複寫到站點 B。

一旦所有資料同步,您就可以恢復該站點的正常連線能力。根據複寫延遲、站點之間的延遲以及整體工作負載I/O,您可能需要暫時停止寫入操作,以讓站點完全趕上進度。

如果對等站點完全故障,您可以從組態中完全移除該站點。負載平衡器組態也應移除該站點,以避免將用戶端請求路由到離線站點。

然後,您可以透過將其新增回站點複寫組態,在修復原始硬體或完全更換硬體後,還原對等站點。MinIO 會在持續複寫新資料的同時,自動開始重新同步現有資料。

站點可以在重新同步期間繼續處理操作,方法是將 GET/HEAD 請求代理到健康的對等站點
Diagram of a multi-site deployment while healing

站點 B 沒有請求的物件,可能是由於複寫延遲所致。它將 GET 請求代理到站點 A。站點 A 會傳回物件,然後站點 B 會將物件傳回給請求的用戶端。

用戶端會收到第一個傳回所請求物件任何版本的對等站點的結果。

PUTDELETE 操作使用常規複寫程序同步。LIST 操作不進行代理,並且要求用戶端僅針對健康的對等點發出這些操作。