硬體故障後復原
分散式 MinIO 部署依靠抹除碼來提供內建的容錯能力,以應對多個磁碟機或節點故障。根據部署拓撲和選定的抹除碼同位,MinIO 可以容忍部署中最多一半的磁碟機或節點丟失,同時保持對物件的讀取權限(「讀取仲裁」)。
下表列出了 MinIO 部署中典型的故障類型,並連結到從每個故障中復原的程序
故障類型 |
說明 |
---|---|
MinIO 支援將故障的磁碟機熱插拔為新的健康磁碟機。 |
|
當節點重新加入部署時,MinIO 會偵測到,並在節點重新加入叢集後不久,主動開始修復先前儲存在該節點上的資料。 |
|
MinIO 站點複寫支援在站點完全丟失後,完全重新同步儲存桶、物件和符合複寫條件的設定。 |
由於 MinIO 可以在效能損失不大的情況下在降級狀態下運行,因此管理員可以根據硬體故障的頻率來安排硬體更換。「正常」的故障率(單個磁碟機或節點故障)可能允許更合理的更換時間範圍,而「嚴重」的故障率(多個磁碟機或節點)可能需要更快的響應。
對於具有一個或多個部分故障或以降級狀態運行的磁碟機的節點(增加的磁碟機錯誤、SMART 警告、MinIO 日誌中的超時等),如果叢集具有足夠的剩餘健康磁碟機以維持讀取和寫入仲裁,則可以安全地卸載該磁碟機。與持續產生讀取和寫入錯誤的磁碟機相比,遺失的磁碟機對部署的破壞性較小。
磁碟機的獨佔存取權
MinIO 要求對為物件儲存提供的磁碟機或磁碟區具有獨佔存取權。沒有其他程序、軟體、腳本或人員應直接對提供給 MinIO 的磁碟機或磁碟區,或 MinIO 放置在其上的物件或檔案執行任何操作。
除非 MinIO 工程部門指示,否則不要使用腳本或工具直接修改、刪除或移動所提供的磁碟機上的任何資料分片、同位分片或中繼資料檔案,包括從一個磁碟機或節點到另一個磁碟機或節點。此類操作很可能會導致超出 MinIO 修復能力範圍的廣泛損毀和資料遺失。
MinIO 專業支援
MinIO SUBNET 用戶可以登入並建立與磁碟機、節點或站點故障相關的新問題。透過 SUBNET 與 MinIO 工程部門協調,可以確保生產 MinIO 部署的成功復原操作,包括根本原因分析和健康狀況診斷。
社群使用者可以在MinIO 社群 Slack上尋求支援。社群支援僅盡力而為,並且不提供回應時間的 SLA。