硬碟故障復原
MinIO 支援使用新的健全硬碟熱插拔故障的硬碟。MinIO 會偵測並修復這些硬碟,而無需任何節點或部署層級的重新啟動。MinIO 修復僅在更換的硬碟上發生,並且在大多數情況下,對部署效能的影響極小或可忽略不計。
MinIO 修復可確保還原到硬碟上的所有資料的一致性和正確性。
獨佔硬碟存取權
MinIO 要求 獨佔 存取為物件儲存提供的硬碟或磁碟區。其他任何處理程序、軟體、指令碼或人員都不應直接對提供給 MinIO 的硬碟或磁碟區,或 MinIO 放置在其上的物件或檔案執行任何操作。
除非 MinIO 工程部門指示,否則請勿使用指令碼或工具直接修改、刪除或移動所提供硬碟上的任何資料分片、同位分片或中繼資料檔案,包括從一個硬碟或節點移動到另一個。此類操作很可能會導致廣泛的損毀和資料遺失,超出 MinIO 的修復能力。
以下步驟提供了更詳細的硬碟更換演練。這些步驟假設 MinIO 部署中,每個節點都使用 /etc/fstab
和每個硬碟標籤來管理硬碟,如記錄的先決條件所述。
1) 卸載故障的硬碟
使用 umount
卸載每個故障的硬碟。例如,以下命令會卸載位於 /dev/sdb
的硬碟
umount /dev/sdb
2) 更換故障的硬碟
從節點硬體中移除故障的硬碟,並將其更換為已知的健全硬碟。更換的硬碟必須滿足以下要求
已格式化為 XFS且為空的。
相同的硬碟類型 (例如,HDD、SSD、NVMe)。
相等或更高的效能。
相等或更大的容量。
使用更大容量的更換硬碟並不會增加叢集的總儲存空間。MinIO 使用最小硬碟的容量作為伺服器池中所有硬碟的上限。
以下命令會將硬碟格式化為 XFS,並為其指定一個標籤以符合故障的硬碟。
mkfs.xfs /dev/sdb -L DRIVE1
MinIO 強烈建議使用基於標籤的掛載,以確保在系統重新啟動時保持一致的硬碟順序。
3) 檢閱和更新 fstab
檢閱 /etc/fstab
檔案,並根據需要更新,使故障磁碟的條目指向新格式化的替換磁碟。
如果使用基於標籤的磁碟分配,請確保每個標籤都指向正確的新格式化磁碟。
如果使用基於 UUID 的磁碟分配,請根據新格式化的磁碟更新每個掛載點的 UUID。您可以使用
lsblk
來檢視磁碟 UUID。
例如,考慮
$ cat /etc/fstab
# <file system> <mount point> <type> <options> <dump> <pass>
LABEL=DRIVE1 /mnt/drive1 xfs defaults,noatime 0 2
LABEL=DRIVE2 /mnt/drive2 xfs defaults,noatime 0 2
LABEL=DRIVE3 /mnt/drive3 xfs defaults,noatime 0 2
LABEL=DRIVE4 /mnt/drive4 xfs defaults,noatime 0 2
注意
如果一個或多個遠端檔案掛載返回錯誤或失敗,依賴掛載外部儲存的雲端環境實例可能會遇到啟動失敗。例如,如果一個或多個 EBS 磁碟區掛載失敗,具有掛載持久 EBS 磁碟區的 AWS ECS 實例可能會因標準的 /etc/fstab
配置而啟動失敗。
您可以設定 nofail
選項以在啟動時關閉錯誤報告,並允許實例在一個或多個掛載問題的情況下啟動。
您不應在具有本地連接磁碟的系統上使用此選項,因為關閉磁碟錯誤會阻止 MinIO 和作業系統以正常方式回應這些錯誤。
鑑於先前的範例命令,由於 /mnt/drive1
的替換磁碟使用與故障磁碟相同的標籤 DRIVE1
,因此不需要對 fstab
進行任何變更。
4) 重新掛載替換的磁碟
使用 mount -a
來重新掛載在此過程開始時卸載的磁碟
mount -a
該命令應導致重新掛載所有替換的磁碟。
5) 監控 MinIO 的磁碟偵測和修復狀態
在重新掛載磁碟後,使用 mc admin logs
命令或使用 journalctl -u minio
(對於 systemd
管理的安裝)來監控伺服器日誌輸出。輸出應包含識別每個格式化和空磁碟的消息。
使用 mc admin heal
來監控部署的整體修復狀態。MinIO 會積極修復替換的磁碟,以確保從降級狀態快速復原。
6) 後續步驟
監控叢集是否有任何進一步的磁碟故障。某些磁碟批次可能會在彼此非常接近的時間內發生故障。發現磁碟故障率高於預期的部署應安排專門的維護來更換已知的壞批次。考慮使用 MinIO SUBNET 與 MinIO 工程團隊協調,以獲取任何此類操作的指導。