文件

硬體故障後復原

分散式 MinIO 部署依賴 Erasure Coding(糾刪碼) 來提供內建的容錯能力,以應對多個磁碟機或節點故障。根據部署拓撲和所選的糾刪碼同位,MinIO 可以容忍部署中最多一半的磁碟機或節點損失,同時保持對物件的讀取存取權(「讀取仲裁」)。

下表列出了 MinIO 部署中的典型故障類型,並連結到每個故障的復原程序

故障類型

描述

磁碟機故障

MinIO 支援使用新的健康磁碟機熱插拔故障的磁碟機。

節點故障

當節點重新加入部署時,MinIO 會偵測到,並在節點重新加入叢集後不久,主動開始修復先前儲存在該節點上的資料。

站點故障

MinIO 站點複寫支援在整個站點遺失後,完全重新同步儲存桶、物件和符合複寫資格的設定。

由於 MinIO 可以在效能沒有明顯損失的情況下以降級狀態運行,因此管理員可以根據硬體故障率安排硬體更換。「正常」故障率(單個磁碟機或節點故障)可能允許更合理的更換時間範圍,而「嚴重」故障率(多個磁碟機或節點)可能需要更快的響應。

對於具有一個或多個部分故障或以降級狀態運行的磁碟機(磁碟機錯誤增加、SMART 警告、MinIO 日誌中的逾時等)的節點,如果叢集有足夠的剩餘健康磁碟機來維持讀取和寫入仲裁,您可以安全地卸載該磁碟機。與持續產生讀寫錯誤的磁碟機相比,遺失磁碟機對部署的破壞性較小。

對磁碟機的獨佔存取權

MinIO **需要**對提供的物件儲存磁碟機或磁碟區擁有*獨佔*存取權。沒有其他程序、軟體、腳本或人員應在提供給 MinIO 的磁碟機或磁碟區上直接執行任何動作,或對 MinIO 放置在其上的物件或檔案執行任何動作。

除非 MinIO 工程部門指示,否則請勿使用腳本或工具直接修改、刪除或移動所提供磁碟機上的任何資料分片、同位分片或中繼資料檔案,包括從一個磁碟機或節點移動到另一個。此類操作很可能會導致廣泛的損壞和資料遺失,超出 MinIO 的修復能力。

MinIO 專業支援

MinIO SUBNET 用戶可以登入並建立與磁碟機、節點或站點故障相關的新問題。透過 SUBNET 與 MinIO 工程團隊協調,可以確保生產環境 MinIO 部署的成功復原操作,包括根本原因分析和健康診斷。

社群用戶可以在MinIO 社群 Slack 上尋求支援。社群支援僅為盡力而為,且不保證回應時間。