指標與警報
已棄用的指標版本 2
從 MinIO 伺服器 RELEASE.2024-07-15T19-02-30Z 和 MinIO 用戶端 RELEASE.2024-07-11T18-01-28Z 開始,指標版本 3 取代了已棄用的 指標版本 2。
MinIO 使用 Prometheus 資料模型 發佈叢集和節點指標。您可以使用任何抓取工具從 MinIO 中提取指標資料,以進行進一步分析和警報。
對於指標版本 3,所有指標都可以在基礎 /minio/metrics/v3
端點下使用,方法是為每個類別附加額外的路徑。
例如,以下端點會傳回稽核指標
http://HOSTNAME:PORT/minio/metrics/v3/audit
將 HOSTNAME:PORT
替換為 MinIO 部署的 FQDN 和連接埠。對於使用負載平衡器管理 MinIO 節點之間連線的部署,請指定負載平衡器的位址。
預設情況下,MinIO 需要身份驗證才能抓取指標端點。若要產生所需的持有人令牌,請使用 mc admin prometheus generate
。您也可以透過將 MINIO_PROMETHEUS_AUTH_TYPE
設定為 public
,來停用指標端點驗證。
MinIO 提供以下相對於基礎 URL 的抓取端點
類別 |
路徑 |
---|---|
API |
|
稽核 |
|
叢集 |
|
除錯 |
|
ILM |
|
記錄器 Webhook |
|
通知 |
|
複寫 |
|
掃描器 |
|
系統 |
|
如需每個端點的完整指標清單,請參閱可用的指標。
MinIO Operator 支援部署每個租戶的 Prometheus 實例,該實例已設定為支援指標和視覺化。
如果您在停用此功能的情況下部署租戶,但仍然想要歷史指標檢視,您可以改為設定外部 Prometheus 服務來抓取租戶指標。設定完成後,您可以更新租戶以查詢該 Prometheus 服務來擷取指標資料。
將
MINIO_PROMETHEUS_URL
設定為 Prometheus 服務的 URL。將
MINIO_PROMETHEUS_JOB_ID
設定為指派給收集指標的唯一作業 ID。
MinIO Grafana 儀表板
MinIO 也發布兩個 Grafana 儀表板,用於視覺化收集的指標。如需關於為 Grafana 設定 Prometheus 相容資料來源的更完整文件,請參閱關於 Grafana 支援的 Prometheus 文件。
可用的指標
MinIO 在叢集、節點或儲存貯體層級發布多個指標。每個指標都包含產生該指標的 MinIO 伺服器的標籤。
API 指標
關於目前節點服務的要求的指標。
路徑 |
描述 |
---|---|
|
關於所有要求的指標。 |
|
關於特定儲存貯體的所有要求的指標。 |
/api/requests
名稱 |
描述 |
標籤 |
---|---|---|
|
因驗證失敗而遭拒的請求總數。 |
|
|
因標頭無效而遭拒的請求總數。 |
|
|
因時間戳記無效而遭拒的請求總數。 |
|
|
無效請求總數。 |
|
|
等待佇列中的請求總數。 |
|
|
傳入請求總數。 |
|
|
目前正在處理的請求總數。 |
|
|
請求總數。 |
|
|
具有 4xx 或 5xx 錯誤的請求總數。 |
|
|
具有 5xx 錯誤的請求總數。 |
|
|
具有 4xx 錯誤的請求總數。 |
|
|
由用戶端取消的請求總數。 |
|
|
跨 API 呼叫的「首位元組時間」分佈。 |
|
|
傳送的位元組總數。 |
|
|
收到的位元組總數。 |
|
/bucket/api
名稱 |
描述 |
標籤 |
---|---|---|
|
為儲存貯體傳送的位元組總數。 |
|
|
為儲存貯體收到的位元組總數。 |
|
|
目前正在處理的儲存貯體請求總數。 |
|
|
儲存貯體的請求總數。 |
|
|
由用戶端取消的儲存貯體請求總數。 |
|
|
具有儲存貯體 4xx 錯誤的請求總數。 |
|
|
具有儲存貯體 5xx 錯誤的請求總數。 |
|
|
跨儲存貯體 API 呼叫的「首位元組時間」分佈。 |
|
稽核指標
關於 MinIO 稽核功能的指標。
路徑 |
描述 |
---|---|
|
與稽核功能相關的指標。 |
/audit
名稱 |
描述 |
標籤 |
---|---|---|
|
自啟動以來傳送失敗的訊息總數。 |
|
|
目標佇列中未傳送訊息的數量。 |
|
|
自啟動以來傳送的訊息總數。 |
|
叢集指標
關於整個 MinIO 叢集的指標。
路徑 |
描述 |
---|---|
|
叢集組態指標。 |
|
Erasure set 指標。 |
|
叢集健全狀況指標。 |
|
叢集 iam 指標。 |
|
依儲存貯體區分的物件統計資料。 |
|
物件統計資料。 |
/cluster/config
名稱 |
描述 |
標籤 |
---|---|---|
|
降低冗餘儲存類別同位檢查。 |
|
|
標準儲存類別同位檢查。 |
/cluster/erasure-set
名稱 |
描述 |
標籤 |
---|---|---|
|
跨集區和集合的整體寫入仲裁。 |
|
|
跨集區和集合的整體健全狀況 (1=健全,0=不健全)。 |
|
|
集區中 erasure set 的讀取仲裁。 |
|
|
集區中 erasure set 的寫入仲裁。 |
|
|
集區中 erasure set 內上線磁碟機的計數。 |
|
|
集區中 erasure set 內修復磁碟機的計數。 |
|
|
集區中 erasure set 的健全狀況 (1=健全,0=不健全)。 |
|
|
在不中斷讀取作業的情況下可以容忍的磁碟機故障次數。 |
|
|
在不中斷寫入作業的情況下可以容忍的磁碟機故障次數。 |
|
|
集區中 erasure set 用於讀取作業的健全狀況 (1=健全,0=不健全)。 |
|
|
集區中 erasure set 用於寫入作業的健全狀況 (1=健全,0=不健全)。 |
|
/cluster/health
名稱 |
描述 |
標籤 |
---|---|---|
|
叢集中離線磁碟的數量。 |
|
|
叢集中在線磁碟的數量。 |
|
|
叢集中所有磁碟的數量。 |
|
|
叢集中離線節點的數量。 |
|
|
叢集中在線節點的數量。 |
|
|
叢集原始儲存總容量(以位元組為單位)。 |
|
|
叢集原始儲存可用空間總量(以位元組為單位)。 |
|
|
叢集可用儲存總容量(以位元組為單位)。 |
|
|
叢集可用儲存可用空間總量(以位元組為單位)。 |
/cluster/iam
名稱 |
描述 |
標籤 |
---|---|---|
|
上次成功同步 IAM 資料所花費的時間(以毫秒為單位)。 |
|
|
當設定外掛程式驗證時,會傳回最近完整一分鐘內的失敗請求計數。 |
|
|
當設定外掛程式驗證時,會傳回自上次對服務發出失敗請求以來經過的時間(以秒為單位)。 |
|
|
當設定外掛程式驗證時,會傳回自上次對服務發出成功請求以來經過的時間(以秒為單位)。 |
|
|
當設定外掛程式驗證時,會傳回最近完整一分鐘內成功請求的平均往返時間。 |
|
|
當設定外掛程式驗證時,會傳回最近完整一分鐘內成功請求的最大往返時間。 |
|
|
當設定外掛程式驗證時,會傳回最近完整一分鐘內的請求總數。 |
|
|
自上次成功同步 IAM 資料以來經過的時間(以毫秒為單位)。 |
|
|
自伺服器啟動以來,IAM 資料同步失敗的次數。 |
|
|
自伺服器啟動以來,IAM 資料同步成功的次數。 |
/cluster/usage/buckets
名稱 |
描述 |
標籤 |
---|---|---|
|
自上次更新使用量指標以來經過的時間(以秒為單位)。 |
|
|
儲存桶總大小(以位元組為單位)。 |
|
|
儲存桶中的物件總數。 |
|
|
儲存桶中的物件版本總數,包括刪除標記。 |
|
|
儲存桶中的刪除標記總數。 |
|
|
儲存桶配額總量(以位元組為單位)。 |
|
|
儲存桶物件大小分佈。 |
|
|
儲存桶物件版本計數分佈。 |
|
/cluster/usage/objects
名稱 |
描述 |
標籤 |
---|---|---|
|
自上次更新使用量指標以來經過的時間(以秒為單位)。 |
|
|
叢集使用量總計(以位元組為單位)。 |
|
|
叢集物件總數。 |
|
|
叢集物件版本總數,包括刪除標記。 |
|
|
叢集刪除標記總數。 |
|
|
叢集儲存桶總數。 |
|
|
叢集物件大小分佈。 |
|
|
叢集物件版本計數分佈。 |
|
除錯指標
來自 Prometheus Go Client 基礎收集器 的標準 Go 執行階段指標。
路徑 |
描述 |
---|---|
|
Go 執行階段指標。 |
ILM 指標
關於 MinIO ILM 功能的指標。
路徑 |
描述 |
---|---|
|
與 ILM 功能相關的指標。 |
/ilm
名稱 |
描述 |
標籤 |
---|---|---|
|
佇列中待處理 ILM 到期任務的數量。 |
|
|
作用中 ILM 轉換任務的數量。 |
|
|
佇列中待處理 ILM 轉換任務的數量。 |
|
|
遺漏的立即 ILM 轉換任務的數量。 |
|
|
自伺服器啟動以來,檢查 ILM 動作的物件版本總數。 |
|
記錄器 Webhook 指標
關於 MinIO 記錄器 Webhook 的指標。
路徑 |
描述 |
---|---|
|
與記錄器 Webhook 相關的指標。 |
/logger/webhook
名稱 |
描述 |
標籤 |
---|---|---|
|
無法傳送的訊息數量。 |
|
|
Webhook 佇列長度。 |
|
|
傳送到此目標的訊息總數。 |
|
通知指標
關於 MinIO 通知功能的指標。
路徑 |
描述 |
---|---|
|
與通知功能相關的指標。 |
/notification
名稱 |
描述 |
標籤 |
---|---|---|
|
作用中並同時發送到所有目標的異步傳送呼叫數量。 |
|
|
未能傳送到目標的事件總數。 |
|
|
傳送到目標的事件總數。 |
|
|
由於記憶體內佇列已滿,因此未傳送到目標的事件數量。 |
|
複寫指標
關於 MinIO 站點和儲存桶複寫的指標。
路徑 |
描述 |
---|---|
|
與儲存桶複寫相關的指標。 |
|
與站點複寫相關的指標。 |
/replication
名稱 |
描述 |
標籤 |
---|---|---|
|
作用中複寫工作者的平均數量。 |
|
|
自伺服器啟動以來,已排隊等待複寫的平均位元組數。 |
|
|
自伺服器啟動以來,已排隊等待複寫的平均物件數。 |
|
|
平均複寫資料傳輸速率(以位元組/秒為單位)。 |
|
|
作用中複寫工作者的總數。 |
|
|
目前複寫資料傳輸速率(以位元組/秒為單位)。 |
|
|
最近完整一分鐘內,已排隊等待複寫的位元組數。 |
|
|
最近完整一分鐘內,已排隊等待複寫的物件數。 |
|
|
自伺服器啟動以來,看到的作用中複寫工作者最大數量。 |
|
|
自伺服器啟動以來,已排隊等待複寫的最大位元組數。 |
|
|
自伺服器啟動以來,已排隊等待複寫的最大物件數。 |
|
|
自伺服器啟動以來,最大複寫資料傳輸速率(以位元組/秒為單位)。 |
|
|
在過去 5 分鐘內,複寫待辦項目中看到的物件總數 |
|
/bucket/replication
名稱 |
描述 |
標籤 |
---|---|---|
|
在過去一小時內,至少一次複寫失敗的儲存桶上的位元組總數。 |
|
|
在過去一小時內,複寫失敗的儲存桶上的物件總數。 |
|
|
在最近完整一分鐘內,至少一次失敗的儲存桶上的位元組總數。 |
|
|
在最近完整一分鐘內,複寫失敗的儲存桶上的物件總數。 |
|
|
儲存桶上的複寫延遲(以毫秒為單位)。 |
|
|
代理到複寫目標的 DELETE 標籤請求數量。 |
|
|
代理到複寫目標的 GET 請求失敗次數。 |
|
|
代理到複寫目標的 GET 請求數量。 |
|
|
代理到複寫目標的 GET 標籤請求失敗次數。 |
|
|
代理到複寫目標的 GET 標籤請求數量。 |
|
|
代理到複寫目標的 HEAD 請求失敗次數。 |
|
|
代理到複寫目標的 HEAD 請求數量。 |
|
|
代理到複寫目標的 PUT 標籤請求失敗次數。 |
|
|
代理到複寫目標的 PUT 標籤請求數量。 |
|
|
複寫到目標的位元組總數。 |
|
|
複寫到目標的物件總數。 |
|
|
自伺服器啟動以來,至少一次複寫失敗的位元組總數。 |
|
|
伺服器啟動以來,複製失敗的物件總數。 |
|
|
代理到複製目標的 DELETE 標籤請求失敗次數。 |
|
掃描器指標
關於 MinIO 掃描器的指標。
路徑 |
描述 |
---|---|
|
與 MinIO 掃描器相關的指標。 |
/scanner
名稱 |
描述 |
標籤 |
---|---|---|
|
伺服器啟動以來,已完成的儲存桶掃描總數。 |
|
|
伺服器啟動以來,已開始的儲存桶掃描總數。 |
|
|
伺服器啟動以來,已掃描的目錄總數。 |
|
|
自上次掃描活動以來經過的時間(以秒為單位)。 |
|
|
伺服器啟動以來,已掃描的唯一物件總數。 |
|
|
伺服器啟動以來,已掃描的物件版本總數。 |
|
系統指標
關於 MinIO 程序和節點的指標。
路徑 |
描述 |
---|---|
|
關於系統上 CPU 的指標。 |
|
關於系統上磁碟機的指標。 |
|
關於節點發出的節點間請求的指標。 |
|
關於系統上記憶體的指標。 |
|
標準程序指標。 |
/system/drive
名稱 |
描述 |
標籤 |
---|---|---|
|
磁碟機上已使用的總儲存空間,以位元組為單位。 |
|
|
磁碟機上可用的總儲存空間,以位元組為單位。 |
|
|
磁碟機上可用的總儲存空間,以位元組為單位。 |
|
|
磁碟機上已使用的 inode 總數。 |
|
|
磁碟機上可用的 inode 總數。 |
|
|
磁碟機上可用的 inode 總數。 |
|
|
磁碟機上的逾時錯誤總數。 |
|
|
磁碟機上的 I/O 錯誤總數。 |
|
|
磁碟機上的可用性錯誤(I/O 錯誤、逾時)總數。 |
|
|
磁碟機上等待中的 I/O 操作總數。 |
|
|
磁碟機 API 儲存操作的平均最近一分鐘延遲時間(以微秒為單位)。 |
|
|
離線磁碟機的計數。 |
|
|
線上磁碟機的計數。 |
|
|
所有磁碟機的計數。 |
|
|
磁碟機健康狀態(0 = 離線,1 = 健康,2 = 修復中)。 |
|
|
磁碟機上的每秒讀取次數。 |
|
|
磁碟機上的每秒讀取千位元組數。 |
|
|
磁碟機上處理的讀取請求的平均時間。 |
|
|
磁碟機上的每秒寫入次數。 |
|
|
磁碟機上的每秒寫入千位元組數。 |
|
|
磁碟機上處理的寫入請求的平均時間。 |
|
|
磁碟機忙碌的時間百分比。 |
|
/system/memory
名稱 |
描述 |
標籤 |
---|---|---|
|
節點上已使用的記憶體。 |
|
|
節點上已使用的記憶體百分比。 |
|
|
節點上可用的記憶體。 |
|
|
節點上的總記憶體。 |
|
|
節點上的緩衝區記憶體。 |
|
|
節點上的快取記憶體。 |
|
|
節點上的共享記憶體。 |
|
|
節點上可用的記憶體。 |
|
/system/cpu
名稱 |
描述 |
標籤 |
---|---|---|
|
平均 CPU 閒置時間。 |
|
|
平均 CPU IOWait 時間。 |
|
|
CPU 負載平均值 1 分鐘。 |
|
|
CPU 負載平均值 1 分鐘(百分比)。 |
|
|
CPU nice 時間。 |
|
|
CPU 竊取時間。 |
|
|
CPU 系統時間。 |
|
|
CPU 使用者時間。 |
|
/system/network/internode
名稱 |
描述 |
標籤 |
---|---|---|
|
失敗的節點間呼叫總數。 |
|
|
節點間 TCP 連線逾時和錯誤總數。 |
|
|
節點間 TCP 呼叫的平均連線時間(以奈秒為單位)。 |
|
|
傳送至其他對等節點的位元組總數。 |
|
|
從其他對等節點接收的位元組總數。 |
|
/system/process
名稱 |
描述 |
標籤 |
---|---|---|
|
此對等節點上的目前 READ 鎖定數。 |
|
|
此對等節點上的目前 WRITE 鎖定數。 |
|
|
使用者和系統 CPU 花費的總時間(以秒為單位)。 |
|
|
正在執行的 go 常式總數。 |
|
|
進程從基礎儲存系統讀取的總位元組數,包括快取,/proc/[pid]/io rchar。 |
|
|
進程從基礎儲存系統讀取的總位元組數,/proc/[pid]/io read_bytes。 |
|
|
進程寫入基礎儲存系統的總位元組數,包括頁面快取,/proc/[pid]/io wchar。 |
|
|
進程寫入基礎儲存系統的總位元組數,/proc/[pid]/io write_bytes。 |
|
|
MinIO 進程的啟動時間(自 Unix 紀元以來的秒數)。 |
|
|
MinIO 進程的執行時間(以秒為單位)。 |
|
|
MinIO 伺服器進程的開啟檔案描述符總數限制。 |
|
|
MinIO 伺服器進程開啟的檔案描述符總數。 |
|
|
對核心的讀取系統呼叫總數。/proc/[pid]/io syscr。 |
|
|
對核心的寫入系統呼叫總數。/proc/[pid]/io syscw。 |
|
|
常駐記憶體大小(以位元組為單位)。 |
|
|
虛擬記憶體大小(以位元組為單位)。 |
|
|
最大虛擬記憶體大小(以位元組為單位)。 |
|