節點故障恢復
如果 MinIO 節點遭受完全的硬體故障(例如,所有磁碟機、資料等遺失),則節點在重新加入部署後會開始修復操作。MinIO 修復僅在更換的硬體上發生,通常不會影響部署效能。
MinIO 修復可確保還原到磁碟機的所有資料的一致性和正確性。
對磁碟機的獨佔存取權
MinIO 要求 獨佔 存取為物件儲存提供的磁碟機或磁碟區。其他任何程序、軟體、腳本或人員都不應直接對提供給 MinIO 的磁碟機或磁碟區,或 MinIO 放置在上面的物件或檔案執行任何動作。
除非 MinIO 工程部指示,否則請勿使用腳本或工具直接修改、刪除或移動提供的磁碟機上的任何資料分片、同位分片或中繼資料檔案,包括從一個磁碟機或節點移動到另一個磁碟機或節點。此類操作很可能導致超出 MinIO 修復能力的廣泛損壞和資料遺失。
替換節點硬體應與故障節點基本相似。使用改良的硬體不會有負面的效能影響。
替換磁碟機硬體應與故障磁碟機基本相似。例如,將故障的 SSD 更換為另一個容量相同的 SSD 磁碟機。雖然您可以使用容量更大的磁碟機,但 MinIO 會使用 最小 磁碟機的容量作為伺服器集區中所有磁碟機的上限。
以下步驟提供了更詳細的節點更換演練。這些步驟假設 MinIO 部署中的每個節點都有一個 DNS 主機名稱,如文件中說明的前提條件所示。
1) 啟動替換節點
確保新節點已接收所有必要的安全性、韌體和作業系統更新,符合產業、法規或組織標準和要求。
新節點軟體組態必須與部署中其他節點的組態相符,包括但不限於作業系統和核心版本及組態。異質軟體組態可能會導致部署中出現意外或不良的行為。
2) 更新新節點的主機名稱
可選 只有在替換節點與故障主機的 IP 位址不同時才需要此步驟。
確保與故障節點關聯的主機名稱現在解析為新節點。
例如,如果 https://minio-1.example.net
先前解析為故障主機,則現在應解析為新主機。
3) 下載並準備 MinIO 伺服器
依照部署程序下載並執行 MinIO 伺服器,使用與部署中所有其他節點相符的組態。
所有節點的 MinIO 伺服器版本必須相符
所有節點的 MinIO 服務和環境檔案組態必須相符。
4) 將節點重新加入部署
在新節點上啟動 MinIO 伺服器程序,並使用mc admin logs
或使用 journalctl -u minio
監控 MinIO 服務記錄,以用於 systemd
管理的安裝,來監控程序輸出。
伺服器輸出應指示它已偵測到部署中的其他節點,並已開始進行修復操作。
使用mc admin heal
來監控部署的整體修復狀態。MinIO 會積極修復節點,以確保從降級狀態快速恢復。
5) 後續步驟
持續監控部署,直到修復完成。具有持續且重複節點故障的部署應安排專門的維護,以找出根本原因。考慮使用MinIO SUBNET與 MinIO 工程團隊協調,以獲得有關任何此類操作的指導。