分散式編碼
MinIO 實作分散式編碼作為提供資料冗餘和可用性的核心元件。此頁面提供 MinIO 分散式編碼的簡介。
請參閱可用性和彈性和部署架構,以取得有關 MinIO 如何在生產部署中使用分散式編碼的更多資訊。
分散式編碼基礎
注意
本節中的圖表和內容呈現了 MinIO 分散式編碼操作的簡化視圖,並非旨在表示 MinIO 完整分散式編碼實作的複雜性。
- MinIO 將每個伺服器池中的磁碟機分組為一個或多個相同大小的 分散式集合。
上述範例部署由 4 個節點組成,每個節點有 4 個磁碟機。MinIO 使用由跨所有四個節點的所有 16 個磁碟機組成的單個分散式集合初始化。
MinIO 在初始化伺服器池時,會決定分散式集合的最佳數量和大小。在初始設定完成後,您無法修改這些設定。
- 對於每個寫入操作,MinIO 會將物件分割成 資料 和 同位 分片。
分散式集合條帶大小決定了部署的最大可能同位。用於判斷要產生資料和同位分片數量的公式為
N (ERASURE SET SIZE) = K (DATA) + M (PARITY)
上述範例部署的分散式集合有 16 個磁碟機。這可以支援
EC:0
和 1/2 分散式集合磁碟機之間的同位,或EC:8
。- 您可以將同位值設定為 0 到 1/2 的分散式集合大小之間。
MinIO 使用 Reed-Solomon 分散式編碼實作,並將物件分割以在分散式集合中分發。上述範例部署的分散式集合大小為 16,同位為
EC:4
如果稍後變更同位值,以給定同位設定寫入的物件不會自動更新。
- MinIO 至少需要
K
個任何類型的分片才能讀取物件。 此處的值
K
構成部署的讀取仲裁。因此,分散式集合必須至少有K
個運作正常的磁碟機,才能支援讀取操作。此部署有一個離線節點,導致僅剩 12 個運作正常的磁碟機。該物件以
EC:4
寫入,讀取仲裁為K=12
。因此,此物件維持讀取仲裁,並且 MinIO 可以重新建構它以進行讀取操作。MinIO 無法重新建構已失去讀取仲裁的物件。此類物件可以透過其他方式復原,例如複寫重新同步。
- MinIO 至少需要
K
個 erasure set 磁碟才能寫入物件。 此處的數值
K
構成部署的寫入仲裁。因此,erasure set 必須至少有K
個可用的線上磁碟,才能支援寫入操作。此部署有一個離線節點,導致僅剩 12 個健康的磁碟。客戶端以
EC:4
同位設定寫入物件,其中 erasure set 的寫入仲裁為K=12
。此 erasure set 維持寫入仲裁,MinIO 可以使用它進行寫入操作。- 如果同位
EC:M
恰好是 erasure set 大小的 1/2,則寫入仲裁為K+1
。 這可防止腦裂類型的狀況,例如網路問題將 erasure set 磁碟的一半與另一半隔離。
由於暫時性的網路故障,此部署有兩個節點離線。客戶端以
EC:8
同位設定寫入物件,其中 erasure set 的寫入仲裁為K=9
。此 erasure set 已失去寫入仲裁,MinIO 無法使用它進行寫入操作。K+1
的邏輯可確保客戶端不會潛在地將同一個物件寫入兩次 - 一次寫入 erasure set 的每個「一半」。- 對於維持讀取仲裁的物件,MinIO 可以使用任何資料或同位分片來 修復 受損的分片。
由於磁碟故障,具有
EC:4
的物件在 12 個資料分片中失去了 4 個。由於物件已維持讀取仲裁,MinIO 可以使用可用的同位分片修復那些遺失的資料分片。
使用 MinIO Erasure Coding Calculator 來探索您計劃的拓撲中可能的 erasure set 大小和分佈。在可能的情況下,每個節點使用偶數個節點和磁碟,以簡化拓撲規劃和磁碟/erasure-set 分佈的概念化。
獨佔磁碟存取權
MinIO 要求對物件儲存提供的磁碟或磁區具有獨佔存取權。沒有其他程序、軟體、腳本或人員應直接對提供給 MinIO 的磁碟或磁區,或 MinIO 放置在其上的物件或檔案執行任何操作。
除非 MinIO 工程部門指示,否則請勿使用腳本或工具直接修改、刪除或移動所提供磁碟上的任何資料分片、同位分片或元數據檔案,包括從一個磁碟或節點移動到另一個。此類操作很可能會導致廣泛的損壞和超出 MinIO 修復能力的資料遺失。
Erasure 同位和儲存效率
為部署設定同位是在可用性和總可用儲存空間之間取得平衡。較高的同位值會增加磁碟或節點故障的復原能力,但會犧牲可用儲存空間,而較低的同位值則提供最大的儲存空間,但對磁碟/節點故障的容忍度較低。使用 MinIO Erasure Code Calculator 來探索同位對您計劃的叢集部署的影響。
下表列出在由 1 個節點和 16 個 1TB 磁碟組成的 MinIO 部署中,不同 erasure 編碼同位等級的結果
同位 |
總儲存空間 |
儲存比例 |
讀取操作的最小磁碟數量 |
寫入操作的最小磁碟數量 |
---|---|---|---|---|
|
12 Tebibytes |
0.750 |
12 |
12 |
|
10 Tebibytes |
0.625 |
10 |
10 |
|
8 Tebibytes |
0.500 |
8 |
9 |
位元衰減保護
位元衰減是指儲存媒體層級上隨機變化所導致的無聲資料損壞。對於資料磁碟,通常是代表資料的電荷或磁性方向衰減的結果。這些來源包括停電期間的小電流尖峰,以及導致位元翻轉的隨機宇宙射線。由此產生的「位元衰減」可能會在資料媒體上造成細微的錯誤或損壞,而不會觸發監控工具或硬體。
MinIO 最佳化的 HighwayHash 演算法實作,可確保其即時擷取並修復損壞的物件。從端到端確保完整性,方法是計算 READ 的雜湊,並在 WRITE 時從應用程式、跨網路到記憶體或磁碟進行驗證。此實作專為速度而設計,可以在 Intel CPU 的單個核心上實現超過 10 GB/秒的雜湊速度。