可用性與彈性

本頁概述 MinIO 從生產角度來看的可用性和彈性設計與功能。

注意

本頁內容旨在作為盡力而為的指南，以理解 MinIO 的預期設計和可用性與彈性背後的理念。它不能取代 MinIO SUBNET 的功能，該功能允許在規劃 MinIO 部署時與 MinIO 工程團隊協調。

社群用戶可以在 MinIO 社群 Slack 上尋求支援。社群支援僅盡力而為，沒有關於回應速度的 SLA。

分散式 MinIO 部署

MinIO 實作刪除碼作為在磁碟機或節點級別故障事件期間提供可用性和彈性的核心元件。

MinIO 將每個物件分割為資料和同位分片，並將這些分片分配到單個刪除集中。

MinIO 使用確定性演算法來選擇給定物件的刪除集。

對於每個唯一的物件命名空間 BUCKET/PREFIX/[PREFIX/...]/OBJECT.EXTENSION，MinIO 始終為讀/寫操作選擇相同的刪除集。這包括該相同物件的所有版本。

MinIO 需要讀取和寫入仲裁才能對刪除集執行讀寫操作。

仲裁取決於部署的已配置同位。讀取仲裁始終等於已配置的同位，這樣 MinIO 就可以對任何沒有損失超過同位數的磁碟機的刪除集執行讀取操作。

在預設的同位檢查碼 EC:4 的情況下，部署可以容忍每個抹除集遺失 4 (四) 個磁碟機，並且仍然可以提供讀取操作。

寫入仲裁取決於設定的同位檢查碼和抹除集的大小。

如果同位檢查碼小於抹除集磁碟機數量的一半 (1/2)，則寫入仲裁等於同位檢查碼，並且功能與讀取仲裁類似。

MinIO 會自動增加寫入降級抹除集之物件的同位檢查碼，以確保物件可以達到與健康抹除集中物件相同的 SLA。同位檢查碼升級行為提供額外的風險緩解層級，但無法取代修復或更換損壞磁碟機以使抹除集恢復完全健康狀態的長期解決方案。

在預設的同位檢查碼 EC:4 的情況下，部署可以容忍每個抹除集遺失 4 個磁碟機，並且仍然可以提供寫入操作。

如果同位檢查碼等於抹除集磁碟機數量的一半 (1/2)，則寫入仲裁等於同位檢查碼 + 1，以避免因「分裂大腦」情境而導致的資料不一致。

例如，如果抹除集中正好一半的磁碟機由於網路故障而隔離，MinIO 會認為仲裁遺失，因為它無法建立 N+1 個磁碟機的群組來進行寫入操作。

永久遺失超過設定同位檢查碼之磁碟機數量的抹除集會遭受資料遺失。

對於最大的同位檢查碼設定，如果磁碟機遺失等於同位檢查碼，則抹除集會進入「唯讀」模式。對於最大抹除集大小 16 和最大同位檢查碼 8，這需要遺失 9 個磁碟機才會發生資料遺失。

暫時或臨時的磁碟機故障，例如由於儲存控制器或連接硬體故障，可能會在抹除集中恢復到正常運作狀態。

MinIO 進一步透過在集區中每個節點上「條帶化」抹除集磁碟機來降低抹除集故障的風險。

MinIO 會根據節點和磁碟機的數量自動計算最佳抹除集大小，其中最大集大小為 16 (十六)。然後，它會為每個抹除集選擇每個節點一個磁碟機，橫跨集區，如果抹除集條帶大小大於節點數量，則會繞回。此拓撲為單一節點，甚至是該節點上的儲存控制器遺失提供復原能力。

在上述拓撲中，集區有 8 個抹除集，每個抹除集包含 16 個磁碟機，並條帶化在 16 個節點上。每個節點將為每個抹除集分配一個磁碟機。雖然遺失一個節點在技術上會導致遺失 8 個磁碟機，但每個抹除集只會遺失一個磁碟機。這會在節點停機的情況下維持仲裁。

每個抹除集都獨立於同一個集區中的所有其他抹除集。

如果一個抹除集完全降級，MinIO 仍然可以在其他抹除集上執行讀/寫操作。

然而，遺失的資料可能仍然會影響依賴 100% 資料可用性假設的工作負載。此外，每個抹除集都完全獨立於其他抹除集，因此您無法使用其他抹除集將資料還原到完全降級的抹除集。您必須使用站點或儲存貯體複寫來建立可供復原遺失資料的 BC/DR 就緒遠端部署。

對於多集區 MinIO 部署，每個集區都需要至少一個抹除集來維持讀/寫仲裁，才能繼續執行操作。

如果一個集區遺失所有抹除集，MinIO 將無法再判斷給定的讀/寫操作是否會路由至該集區。因此，MinIO 會停止部署的所有 I/O，即使其他集區仍然在運作中。

若要還原對部署的存取權，管理員必須將集區還原為正常操作。這可能需要格式化磁碟、更換硬體或更換節點，具體取決於故障的嚴重程度。請參閱硬體故障後復原以取得更完整的說明文件。

使用複寫的遠端來將遺失的資料還原到部署中。儲存在健康集區中的所有資料都安全地保留在磁碟上。

對磁碟機的獨佔存取權

MinIO **需要**對為物件儲存提供的磁碟機或磁碟區進行 *獨佔* 存取。其他程序、軟體、腳本或人員都不應直接對提供給 MinIO 的磁碟機或磁碟區，或 MinIO 放置在其上的物件或檔案執行 *任何* 操作。

除非 MinIO 工程師指示，否則請勿使用腳本或工具直接修改、刪除或移動所提供磁碟機上的任何資料分片、同位檢查碼分片或中繼資料檔案，包括從一個磁碟機或節點移動到另一個磁碟機或節點。此類操作非常有可能導致廣泛的損壞和資料遺失，超出 MinIO 的修復能力。

MinIO 實作站點複寫作為確保 MinIO 部署中發生小型和大型資料遺失時，業務持續性和災難復原 (BC/DR) 的主要措施。

MinIO 複寫可以自動修復因暫時或持續停機而導致部分或全部資料遺失的站點。

一旦所有資料同步完成，您就可以將正常連線還原到該站點。根據複寫延遲量、站點之間的延遲和整體工作負載 I/O，您可能需要暫時停止寫入操作，以允許站點完全趕上進度。

如果對等站點完全失敗，您可以從組態中完全移除該站點。負載平衡器組態也應移除該站點，以避免將用戶端要求路由至離線站點。

然後，您可以透過將其新增回站點複寫組態，在修復原始硬體或完全更換硬體後，還原對等站點。MinIO 會在持續複寫新資料的同時，自動開始重新同步現有資料。

站點可以在重新同步期間繼續處理操作，方法是將 GET/HEAD 要求代理到健康的對等站點。

用戶端會從第一個傳回所要求物件 *任何* 版本的對等站點接收結果。

PUT 和 DELETE 操作會使用一般的複寫程序進行同步。LIST 操作不會進行代理，且需要用戶端專門針對健康的對等站點發出這些操作。