使用 Prometheus 監控和警報

MinIO 使用 Prometheus 資料模型發佈叢集、節點、儲存貯體和資源指標。此頁面上的程序記錄了以下內容

設定 Prometheus 服務以從 MinIO 部署中抓取和顯示指標
在 MinIO 指標上設定警報規則以觸發 AlertManager 動作

先決條件

此程序需要以下內容

具有備份 Alert Manager 的現有 Prometheus 部署
現有的 MinIO 部署，且具有對 Prometheus 部署的網路存取權
在本機主機上安裝 mc，並將其設定為存取 MinIO 部署

設定 Prometheus 以使用 MinIO 指標收集和警報

1) 產生抓取組態

使用 mc admin prometheus generate 命令產生抓取組態，供 Prometheus 用於提出抓取請求

MinIO 伺服器

以下命令會抓取 MinIO 叢集的指標。

mc admin prometheus generate ALIAS

將 ALIAS 替換為 MinIO 部署的 別名。

此命令傳回的輸出與以下類似

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/cluster
     scheme: https
     static_configs:
     - targets: [minio.example.net]

節點

以下命令會抓取 MinIO 伺服器上節點的指標。

mc admin prometheus generate ALIAS node

將 ALIAS 替換為 MinIO 部署的 別名。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-node
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/node
     scheme: https
     static_configs:
     - targets: [minio-1.example.net, minio-2.example.net, minio-N.example.net]

儲存貯體

以下命令會抓取 MinIO 伺服器上儲存貯體的指標。

mc admin prometheus generate ALIAS bucket

將 ALIAS 替換為 MinIO 部署的 別名。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-bucket
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/bucket
     scheme: https
     static_configs:
     - targets: [minio.example.net]

資源

在版本 RELEASE.2023-10-07T15-07-38Z 中新增。

以下命令會抓取 MinIO 伺服器上資源的指標。

mc admin prometheus generate ALIAS resource

將 ALIAS 替換為 MinIO 部署的 別名。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-resource
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/resource
     scheme: https
     static_configs:
     - targets: [minio.example.net]

設定適當的 scrape_interval 值，以確保每次抓取作業在下一次開始之前完成。建議值為 60 秒。

由於要抓取的指標數量，某些部署需要較長的抓取間隔。為了減少 MinIO 和 Prometheus 伺服器上的負載，請選擇滿足監控要求的最長間隔。
將 job_name 設定為與 MinIO 部署相關聯的值。

使用唯一值，以確保將部署指標與該 Prometheus 服務收集的任何其他指標隔離。
使用設定為 "public" 的 MINIO_PROMETHEUS_AUTH_TYPE 啟動的 MinIO 部署可以省略 bearer_token 欄位。
對於未使用 TLS 的 MinIO 部署，請將 scheme 設定為 http。
使用解析為 MinIO 部署的主機名稱設定 targets 陣列。

這可以是任何單一節點，或處理與 MinIO 節點連線的負載平衡器/Proxy。

2) 使用更新的組態重新啟動 Prometheus

將上一步產生的所需 scrape_configs 作業附加到組態檔

叢集

叢集指標會彙總節點層級的指標，並在適當情況下將標籤附加到來源節點的指標。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/cluster
     scheme: https
     static_configs:
     - targets: [minio.example.net]

節點

節點指標是特定於節點層級監控的。您需要列出此組態的所有 MinIO 節點。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-node
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/node
     scheme: https
     static_configs:
     - targets: [minio-1.example.net, minio-2.example.net, minio-N.example.net]

儲存貯體

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-bucket
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/bucket
     scheme: https
     static_configs:
     - targets: [minio.example.net]

資源

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-resource
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/resource
     scheme: https
     static_configs:
     - targets: [minio.example.net]

使用組態檔啟動 Prometheus 叢集

prometheus --config.file=prometheus.yaml

3) 分析收集到的指標

Prometheus 包含一個表達式瀏覽器。您可以在此執行查詢來分析收集到的指標。

範例

以下查詢範例會傳回 Prometheus 每五分鐘針對名為 minio-job 的抓取作業所收集的指標

minio_node_drive_free_bytes{job-"minio-job"}[5m]
minio_node_drive_free_inodes{job-"minio-job"}[5m]

minio_node_drive_latency_us{job-"minio-job"}[5m]

minio_node_drive_offline_total{job-"minio-job"}[5m]
minio_node_drive_online_total{job-"minio-job"}[5m]

minio_node_drive_total{job-"minio-job"}[5m]

minio_node_drive_total_bytes{job-"minio-job"}[5m]
minio_node_drive_used_bytes{job-"minio-job"}[5m]

minio_node_drive_errors_timeout{job-"minio-job"}[5m]
minio_node_drive_errors_availability{job-"minio-job"}[5m]

minio_node_drive_io_waiting{job-"minio-job"}[5m]

建議指標

MinIO 建議以下作為要監控的基本指標集。

有關所有可用指標的資訊，請參閱指標和警報。

指標	描述
`minio_node_drive_free_bytes`	磁碟機上的可用總儲存空間。
`minio_node_drive_free_inodes`	總可用 inode 數。
`minio_node_drive_latency_us`	磁碟機 API 儲存操作的平均最後一分鐘延遲時間（以微秒為單位）。
`minio_node_drive_offline_total`	此節點中離線磁碟機的總數。
`minio_node_drive_online_total`	此節點中在線磁碟機的總數。
`minio_node_drive_total`	此節點中的磁碟機總數。
`minio_node_drive_total_bytes`	磁碟機上的總儲存空間。
`minio_node_drive_used_bytes`	磁碟機上使用的總儲存空間。
`minio_node_drive_errors_timeout`	自伺服器啟動以來磁碟機逾時錯誤的總數。
`minio_node_drive_errors_availability`	自伺服器啟動以來磁碟機 I/O 錯誤、權限拒絕和逾時的總數。
`minio_node_drive_io_waiting`	等待磁碟機的 I/O 操作總數。

4) 使用 MinIO 指標設定警報規則

您必須在 Prometheus 部署上設定警報規則，以根據收集到的 MinIO 指標觸發警報。

以下範例警報規則檔案為 MinIO 部署提供了警報基準。您可以修改這些範例或將它們用作建立您自己警報的指南。

groups:
- name: minio-alerts
  rules:
  - alert: NodesOffline
    expr: avg_over_time(minio_cluster_nodes_offline_total{job="minio-job"}[5m]) > 0
    for: 10m
    labels:
      severity: warn
    annotations:
      summary: "Node down in MinIO deployment"
      description: "Node(s) in cluster {{ $labels.instance }} offline for more than 5 minutes"

  - alert: DisksOffline
    expr: avg_over_time(minio_cluster_drive_offline_total{job="minio-job"}[5m]) > 0
    for: 10m
    labels:
      severity: warn
    annotations:
      summary: "Disks down in MinIO deployment"
      description: "Disks(s) in cluster {{ $labels.instance }} offline for more than 5 minutes"

在 Prometheus 設定中，於 rule_files 鍵中指定警報檔案的路徑

rule_files:
- minio-alerting.yml

觸發後，Prometheus 會將警報傳送到設定的 AlertManager 服務。

儀表板

MinIO 提供 Grafana 儀表板來顯示 Prometheus 收集的指標。如需更多資訊，請參閱使用 Grafana 監控 MinIO 伺服器