使用 Prometheus 進行監控與警報

MinIO 使用 Prometheus 資料模型發佈叢集、節點、儲存桶和資源指標。此頁面上的程序記錄了以下內容

設定 Prometheus 服務以從 MinIO 部署中抓取和顯示指標
設定 MinIO 指標上的警報規則，以觸發 AlertManager 動作

先決條件

此程序需要以下條件

現有的 Prometheus 部署，具有後備的 Alert Manager
現有的 MinIO 部署，可透過網路存取 Prometheus 部署
在您的本機主機上安裝 mc，並設定為存取 MinIO 部署

設定 Prometheus 以使用 MinIO 指標進行收集和警報

1) 產生抓取設定

使用 mc admin prometheus generate 命令產生抓取設定，供 Prometheus 在發出抓取請求時使用

MinIO 伺服器

以下命令會抓取 MinIO 叢集的指標。

mc admin prometheus generate ALIAS

將 ALIAS 取代為 MinIO 部署的 別名。

此命令會傳回類似以下的輸出

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/cluster
     scheme: https
     static_configs:
     - targets: [minio.example.net]

節點

以下命令會抓取 MinIO 伺服器上節點的指標。

mc admin prometheus generate ALIAS node

將 ALIAS 取代為 MinIO 部署的 別名。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-node
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/node
     scheme: https
     static_configs:
     - targets: [minio-1.example.net, minio-2.example.net, minio-N.example.net]

儲存桶

以下命令會抓取 MinIO 伺服器上儲存桶的指標。

mc admin prometheus generate ALIAS bucket

將 ALIAS 取代為 MinIO 部署的 別名。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-bucket
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/bucket
     scheme: https
     static_configs:
     - targets: [minio.example.net]

資源

此版本的新增功能：RELEASE.2023-10-07T15-07-38Z。

以下命令會抓取 MinIO 伺服器上資源的指標。

mc admin prometheus generate ALIAS resource

將 ALIAS 取代為 MinIO 部署的 別名。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-resource
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/resource
     scheme: https
     static_configs:
     - targets: [minio.example.net]

設定適當的 scrape_interval 值，以確保每次抓取作業在下一次開始之前完成。建議值為 60 秒。

某些部署由於要抓取的指標數量較多，因此需要較長的抓取間隔。若要減少 MinIO 和 Prometheus 伺服器上的負載，請選擇符合您監控要求的最長間隔。
將 job_name 設定為與 MinIO 部署相關聯的值。

使用唯一值以確保部署指標與該 Prometheus 服務收集的任何其他指標隔離。
若 MinIO 部署時將 MINIO_PROMETHEUS_AUTH_TYPE 設定為 "public"，則可以省略 bearer_token 欄位。
若 MinIO 部署未使用 TLS，請將 scheme 設定為 http。
使用可解析為 MinIO 部署的主機名稱來設定 targets 陣列。

這可以是任何單一節點，或是處理連線到 MinIO 節點的負載平衡器/Proxy。

對於與 MinIO Tenant 位於同一叢集中的 Prometheus 部署，您可以為 minio 服務指定服務 DNS 名稱。

對於叢集外部的 Prometheus 部署，您必須指定配置為路由往返 MinIO Tenant 連線的入口或負載平衡器端點。

2) 使用更新的設定重新啟動 Prometheus

將上一步驟產生的所需 scrape_configs 工作附加到設定檔中。

叢集

叢集指標會彙總節點級別的指標，並在適當情況下，為來源節點的指標附加標籤。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/cluster
     scheme: https
     static_configs:
     - targets: [minio.example.net]

節點

節點指標是特定於節點級別監控的。您需要列出此設定的所有 MinIO 節點。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-node
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/node
     scheme: https
     static_configs:
     - targets: [minio-1.example.net, minio-2.example.net, minio-N.example.net]

儲存桶

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-bucket
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/bucket
     scheme: https
     static_configs:
     - targets: [minio.example.net]

資源

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-resource
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/resource
     scheme: https
     static_configs:
     - targets: [minio.example.net]

使用設定檔啟動 Prometheus 叢集。

prometheus --config.file=prometheus.yaml

3) 分析收集到的指標

Prometheus 包含一個運算式瀏覽器。您可以在此處執行查詢以分析收集到的指標。

範例

以下查詢範例會傳回 Prometheus 每五分鐘為名為 minio-job 的抓取工作所收集的指標。

minio_node_drive_free_bytes{job-"minio-job"}[5m]
minio_node_drive_free_inodes{job-"minio-job"}[5m]

minio_node_drive_latency_us{job-"minio-job"}[5m]

minio_node_drive_offline_total{job-"minio-job"}[5m]
minio_node_drive_online_total{job-"minio-job"}[5m]

minio_node_drive_total{job-"minio-job"}[5m]

minio_node_drive_total_bytes{job-"minio-job"}[5m]
minio_node_drive_used_bytes{job-"minio-job"}[5m]

minio_node_drive_errors_timeout{job-"minio-job"}[5m]
minio_node_drive_errors_availability{job-"minio-job"}[5m]

minio_node_drive_io_waiting{job-"minio-job"}[5m]

建議指標

MinIO 建議以下作為監控的基本指標集。

如需所有可用指標的相關資訊，請參閱指標和警示。

指標	說明
`minio_node_drive_free_bytes`	硬碟上的可用總儲存空間。
`minio_node_drive_free_inodes`	可用 inode 總數。
`minio_node_drive_latency_us`	硬碟 API 儲存操作的平均最後一分鐘延遲（以微秒為單位）。
`minio_node_drive_offline_total`	此節點中離線的硬碟總數。
`minio_node_drive_online_total`	此節點中上線的硬碟總數。
`minio_node_drive_total`	此節點中的硬碟總數。
`minio_node_drive_total_bytes`	硬碟上的總儲存空間。
`minio_node_drive_used_bytes`	硬碟上已使用的總儲存空間。
`minio_node_drive_errors_timeout`	自伺服器啟動以來，硬碟逾時錯誤的總數。
`minio_node_drive_errors_availability`	自伺服器啟動以來，硬碟 I/O 錯誤、權限遭拒和逾時的總數。
`minio_node_drive_io_waiting`	等待硬碟 I/O 操作的總數。

4) 使用 MinIO 指標設定警示規則

您必須在 Prometheus 部署上設定警示規則，以根據收集到的 MinIO 指標觸發警示。

以下範例警示規則檔案提供了 MinIO 部署的警示基準。您可以修改或以其他方式使用這些範例作為建置您自己警示的指導。

groups:
- name: minio-alerts
  rules:
  - alert: NodesOffline
    expr: avg_over_time(minio_cluster_nodes_offline_total{job="minio-job"}[5m]) > 0
    for: 10m
    labels:
      severity: warn
    annotations:
      summary: "Node down in MinIO deployment"
      description: "Node(s) in cluster {{ $labels.instance }} offline for more than 5 minutes"

  - alert: DisksOffline
    expr: avg_over_time(minio_cluster_drive_offline_total{job="minio-job"}[5m]) > 0
    for: 10m
    labels:
      severity: warn
    annotations:
      summary: "Disks down in MinIO deployment"
      description: "Disks(s) in cluster {{ $labels.instance }} offline for more than 5 minutes"

在 Prometheus 設定中，於 rule_files 金鑰中指定警示檔案的路徑。

rule_files:
- minio-alerting.yml

觸發後，Prometheus 會將警示傳送到已設定的 AlertManager 服務。

儀表板

MinIO 提供 Grafana 儀表板來顯示 Prometheus 收集的指標。如需詳細資訊，請參閱使用 Grafana 監控 MinIO 伺服器。