硬體故障後的復原
分散式 MinIO 部署依賴消除碼來提供內建的容錯能力,以應對多個硬碟或節點故障。根據部署拓撲和選定的消除碼同位,MinIO 可以容忍部署中多達一半的硬碟或節點損失,同時保持對物件的讀取存取權限(「讀取仲裁」)。
下表列出了 MinIO 部署中典型的故障類型,並連結到每個故障的復原程序
故障類型 |
描述 |
---|---|
MinIO 支援使用新的健康硬碟熱插拔故障硬碟。 |
|
MinIO 會偵測到節點何時重新加入部署,並在節點重新加入叢集後不久開始主動修復先前儲存在該節點上的資料。 |
|
MinIO 站點複寫支援在站點完全損失後完全重新同步儲存桶、物件和符合複寫條件的配置設定。 |
由於 MinIO 可以在效能沒有顯著損失的情況下以降級狀態運作,因此管理員可以根據硬體故障率安排硬體更換。「正常」故障率(單個硬碟或節點故障)可能允許更合理的更換時間範圍,而「嚴重」故障率(多個硬碟或節點)可能需要更快的響應。
對於具有一個或多個硬碟部分故障或以降級狀態運作的節點(增加硬碟錯誤、SMART 警告、MinIO 日誌中的逾時等),如果叢集有足夠剩餘的健康硬碟來維持讀取和寫入仲裁,您可以安全地卸載硬碟。缺少硬碟對部署的干擾小於持續產生讀取和寫入錯誤的硬碟。
對硬碟的獨佔存取
MinIO **需要**對為物件儲存提供的硬碟或磁碟區進行*獨佔*存取。其他程序、軟體、腳本或人員不應直接對提供給 MinIO 的硬碟或磁碟區,或 MinIO 放置在其上的物件或檔案執行*任何*操作。
除非 MinIO 工程部門指示,否則請勿使用腳本或工具來直接修改、刪除或移動所提供硬碟上的任何資料分片、同位分片或中繼資料檔案,包括從一個硬碟或節點移動到另一個硬碟或節點。此類操作很可能導致超出 MinIO 修復能力的大規模損壞和資料遺失。
MinIO 專業支援
MinIO SUBNET 使用者可以登入並建立與硬碟、節點或站點故障相關的新問題。透過 SUBNET 與 MinIO 工程團隊協調,可以確保生產環境 MinIO 部署的成功復原操作,包括根本原因分析和健康診斷。
社群使用者可以在 MinIO 社群 Slack 上尋求支援。社群支援僅盡力而為,不保證回應時間服務水準協議 (SLA)。