k8s-gpu-mcp-server - 基於MCP協議的Kubernetes集群NVIDIA GPU即時診斷與排障工具

探索

K8s Gpu MCP Server

用於Kubernetes集群中NVIDIA GPU硬件診斷的即時SRE診斷代理，通過MCP協議提供即時GPU硬件檢測和故障排查功能。

監控開發者工具 #GPU診斷 #Kubernetes #SRE工具 #硬件監控 .Go

評分 : 2.5分

下載量 : 7.2K

更新時間 : 2026-03-12

打開站點

什麼是k8s-gpu-mcp-server?

這是一個專門為Kubernetes集群中的NVIDIA GPU設計的診斷工具。它通過Model Context Protocol (MCP)與AI助手（如Claude、Cursor）集成，讓您可以直接詢問AI助手關於GPU的健康狀態、溫度、錯誤等問題，而無需手動運行復雜的命令行工具。

如何使用k8s-gpu-mcp-server?

只需在您的AI助手（Claude Desktop或Cursor IDE）中安裝配置一次，之後就可以像與助手對話一樣詢問GPU相關問題。例如：'檢查節點gpu-worker-5的GPU溫度'或'分析最近的GPU錯誤'。

適用場景

當您的Kubernetes集群中運行AI訓練、推理等GPU密集型任務時，如果遇到性能下降、任務失敗或GPU資源異常，可以使用此工具快速診斷問題。特別適合運維團隊、AI工程師和研究人員。

主要功能

即時GPU監控

即時獲取GPU溫度、功耗、內存使用率、利用率等關鍵指標，無需安裝額外監控系統。

硬件健康檢查

全面檢查GPU硬件健康狀態，包括ECC錯誤、XID錯誤代碼分析、熱節流狀態等。

Kubernetes集成

自動關聯GPU硬件與Kubernetes Pod，查看哪個Pod正在使用哪塊GPU，以及資源分配情況。

AI助手友好

專為Claude、Cursor等AI助手設計，通過自然語言即可進行復雜的GPU診斷。

歷史數據記錄

內置飛行記錄器，持續記錄GPU指標，可查詢歷史時間點的GPU狀態。

安全只讀模式

默認以只讀模式運行，不會對GPU或系統進行任何修改，確保生產環境安全。

優勢

無需學習複雜命令：通過AI助手自然語言交互

快速部署：一鍵安裝，幾分鐘內即可使用

低資源佔用：空閒時僅需15-20MB內存

生產就緒：經過真實Tesla T4 GPU測試

開源免費：基於Apache 2.0許可證

多平臺支持：支持Claude Desktop、Cursor IDE等

侷限性

僅支持NVIDIA GPU：不支持AMD或其他品牌GPU

需要NVIDIA驅動：依賴NVML庫和正確安裝的驅動

Kubernetes環境：主要設計用於K8s集群，單機使用有限制

只讀診斷：當前版本主要為診斷工具，修復操作有限

如何使用

安裝配置

根據您使用的AI助手（Claude Desktop或Cursor），在配置文件中添加MCP服務器設置。

啟動AI助手

重啟您的AI助手（Claude Desktop或Cursor IDE），使配置生效。

開始對話

在AI助手中直接詢問GPU相關問題，助手會自動調用相應的診斷工具。

查看結果

AI助手會以清晰易懂的格式展示診斷結果，包括問題分析和建議。

使用案例

案例1：診斷訓練任務失敗

AI訓練任務在特定節點反覆失敗，需要快速定位GPU硬件問題。

案例2：監控GPU溫度

夏季機房溫度升高，需要監控GPU是否過熱導致性能下降。

案例3：排查資源爭用

多個團隊報告GPU資源不足，需要查看實際使用情況。

案例4：分析歷史問題

昨晚GPU出現短暫故障，需要查看故障時間點的GPU狀態。

常見問題

我需要有NVIDIA GPU才能使用這個工具嗎？

這個工具安全嗎？會影響生產環境嗎？

支持哪些AI助手？

需要在每個Kubernetes節點上都安裝嗎？

診斷數據會被髮送到雲端嗎？

如何更新到新版本？

🚀 k8s-gpu-mcp-server

k8s-gpu-mcp-server 是一個即時的SRE診斷代理，用於Kubernetes上的NVIDIA GPU集群。它藉助模型上下文協議 (MCP)，為Kubernetes集群提供精準、即時的NVIDIA GPU硬件檢查功能。與傳統監控系統不同，該代理專為SRE進行AI輔助故障排除而設計，可用於調試標準Kubernetes API無法檢測到的複雜硬件故障。

🚀 快速開始

一鍵安裝

點擊上面的按鈕，可在Cursor中自動安裝。

單行命令安裝

# 使用npx（推薦）
npx k8s-gpu-mcp-server@latest

# 或者全局安裝
npm install -g k8s-gpu-mcp-server

📋 手動配置：Cursor / VS Code

添加到 ~/.cursor/mcp.json（Cursor）或VS Code的MCP配置中：

{
  "mcpServers": {
    "k8s-gpu-mcp": {
      "command": "npx",
      "args": ["-y", "k8s-gpu-mcp-server@latest"]
    }
  }
}

📋 手動配置：Claude Desktop

macOS：~/Library/Application Support/Claude/claude_desktop_config.json
Windows：%APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "k8s-gpu-mcp": {
      "command": "npx",
      "args": ["-y", "k8s-gpu-mcp-server@latest"]
    }
  }
}

從源代碼安裝

# 克隆並構建
git clone https://github.com/ArangoGutierrez/k8s-gpu-mcp-server.git
cd k8s-gpu-mcp-server
make agent

# 使用模擬GPU進行測試（無需硬件）
cat examples/gpu_inventory.json | ./bin/agent --nvml-mode=mock

# 使用真實GPU進行測試（需要NVIDIA驅動）
cat examples/gpu_inventory.json | ./bin/agent --nvml-mode=real

部署到Kubernetes

# 使用Helm OCI進行部署（推薦）
helm install k8s-gpu-mcp-server \
  oci://ghcr.io/arangogutierrez/charts/k8s-gpu-mcp-server \
  --namespace gpu-diagnostics --create-namespace

# 或者從本地圖表部署
helm install k8s-gpu-mcp-server ./deployment/helm/k8s-gpu-mcp-server \
  --namespace gpu-diagnostics --create-namespace

# 在目標節點上查找代理Pod
NODE_NAME=<node-name>
POD=$(kubectl get pods -n gpu-diagnostics \
  -l app.kubernetes.io/name=k8s-gpu-mcp-server \
  --field-selector spec.nodeName=$NODE_NAME \
  -o jsonpath='{.items[0].metadata.name}')

# 啟動診斷會話
kubectl exec -it -n gpu-diagnostics $POD -- /agent --mode=read-only

⚠️ 重要提示

GPU訪問需要通過GPU Operator或nvidia-ctk配置 runtimeClassName: nvidia。對於沒有RuntimeClass的集群，可使用回退配置：--set gpu.runtimeClass.enabled=false --set gpu.resourceRequest.enabled=true

使用kubectl配置Claude Desktop（高級）

對於已部署的代理，將以下內容添加到Claude Desktop配置中：

{
  "mcpServers": {
    "k8s-gpu-agent": {
      "command": "kubectl",
      "args": ["exec", "-i", "deploy/k8s-gpu-mcp-server", "-n", "gpu-diagnostics", "--", "/agent"]
    }
  }
}

然後向Claude提問：“GPU的溫度是多少？”

📖 完整快速開始指南 → | Kubernetes部署 →

✨ 主要特性

🎯 低佔用、隨時可用：持久的HTTP服務器（空閒時約15 - 20MB）僅在調用工具時執行GPU工作。
🔌 HTTP傳輸：通過HTTP/SSE使用JSON-RPC 2.0（生產默認）。
🔍 深度硬件訪問：直接集成NVML進行GPU診斷。
🤖 原生支持AI：為Claude Desktop、Cursor和MCP兼容主機構建。
📋 MCP提示：預構建的GPU診斷工作流，用於指導故障排除。
🔒 默認安全：只讀操作，具有顯式的操作員模式。
⚡ 生產就緒：在真實的Tesla T4上進行測試，通過550多個測試。

📦 安裝指南

使用npm（推薦）

# 直接使用npx運行
npx k8s-gpu-mcp-server@latest

# 或者全局安裝
npm install -g k8s-gpu-mcp-server

從源代碼安裝

git clone https://github.com/ArangoGutierrez/k8s-gpu-mcp-server.git
cd k8s-gpu-mcp-server
make agent
sudo mv bin/agent /usr/local/bin/k8s-gpu-mcp-server

使用Go安裝

go install github.com/ArangoGutierrez/k8s-gpu-mcp-server/cmd/agent@latest

容器鏡像安裝

docker pull ghcr.io/arangogutierrez/k8s-gpu-mcp-server:latest

Helm Chart（OCI）安裝

# 從GHCR OCI註冊表安裝
helm install k8s-gpu-mcp-server \
  oci://ghcr.io/arangogutierrez/charts/k8s-gpu-mcp-server \
  --namespace gpu-diagnostics --create-namespace

💻 使用示例

基礎用法

# 使用npx運行
npx k8s-gpu-mcp-server@latest

高級用法

# 從源代碼克隆並構建
git clone https://github.com/ArangoGutierrez/k8s-gpu-mcp-server.git
cd k8s-gpu-mcp-server
make agent
# 使用模擬GPU進行測試
cat examples/gpu_inventory.json | ./bin/agent --nvml-mode=mock

📚 詳細文檔

快速開始指南 - 5分鐘內啟動並運行。
Kubernetes部署 - K8s部署和配置。
架構 - 系統設計和組件。
安全模型 - RBAC和安全配置。
MCP使用 - 如何使用MCP服務器。
開發指南 - 貢獻指南。
示例 - 示例JSON-RPC請求。

🔧 技術細節

架構

┌─────────────────────────────────────────────────────────────────────┐
│                    MCP客戶端 (Claude/Cursor)                        │
└────────────────────────────┬────────────────────────────────────────┘
                             │ stdio / HTTP
                             ▼
┌─────────────────────────────────────────────────────────────────────┐
│                    網關Pod (:8080)                               │
│       路由器 → 斷路器 → HTTP客戶端                         │
└────────────────────────────┬────────────────────────────────────────┘
                             │ HTTP (Pod到Pod)
         ┌───────────────────┼───────────────────┐
         ▼                   ▼                   ▼
┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐
│  代理 (節點1) │  │  代理 (節點2) │  │  代理 (節點N) │
│  9個MCP工具    │  │  9個MCP工具    │  │  9個MCP工具    │
│  NVML → GPU     │  │  NVML → GPU     │  │  NVML → GPU     │
└─────────────────┘  └─────────────────┘  └─────────────────┘

設計原則：

以HTTP為先：網關通過HTTP將請求路由到代理Pod（約50ms延遲）。
低佔用：持久的HTTP服務器，約15 - 20MB內存。
可觀測性：斷路器、Prometheus指標、分佈式跟蹤。
接口抽象：可測試、靈活、可移植（538個測試）。

📖 架構文檔 →

可用工具

工具	描述	類別	狀態
`get_gpu_inventory`	硬件清單 + 遙測數據	NVML	✅ 可用
`get_gpu_health`	帶評分的GPU健康監控	NVML	✅ 可用
`analyze_xid_errors`	從內核日誌解析GPU XID錯誤代碼	NVML	✅ 可用
`get_nvlink_topology`	NVLink互連拓撲和健康狀況	NVML	✅ 可用
`get_gpu_timeline`	從飛行記錄儀獲取歷史GPU指標	NVML + 黑盒	✅ 可用
`describe_gpu_node`	結合K8s元數據的節點級GPU診斷	K8s + NVML	✅ 可用
`get_pod_gpu_allocation`	通過資源請求關聯GPU和Pod	K8s	✅ 可用
`explain_failure`	對失敗的GPU工作負載進行根本原因分析	K8s + 事件	✅ 可用
`get_incident_report`	帶有時間線和快照的詳細事件報告	K8s + 事件	✅ 可用
`kill_gpu_process`	終止GPU進程	操作員	🚧 M4（操作員）
`reset_gpu`	GPU重置	操作員	🚧 M4（操作員）

可用提示

MCP提示提供了指導診斷工作流，可編排多個工具。提示定義見。

提示	描述
`gpu-health-check`	全面的GPU健康評估及建議
`diagnose-xid-errors`	分析NVIDIA XID錯誤並提供修復指導
`gpu-triage`	標準SRE分類工作流：清單 → 健康 → XID分析

使用Claude的示例用法：

你："對節點gpu-worker-5運行GPU分類工作流"

Claude：[執行gpu-triage提示]
        → 調用get_gpu_inventory、get_gpu_health、analyze_xid_errors
        → 返回帶有建議的結構化分類報告

操作模式

模式	標誌	描述
只讀（默認）	`--mode=read-only`	所有診斷工具，無修改操作
操作員	`--mode=operator`	啟用未來的修改操作（終止進程、重置GPU）

只讀模式是默認模式，適用於大多數用例。操作員模式啟用未來的M4工具，可對GPU執行寫操作。

飛行記錄儀

代理包含一個內置的飛行記錄儀 (pkg/blackbox)，可將GPU遙測數據（溫度、功率、利用率、內存）持續捕獲到每個GPU的環形緩衝區中。這使得 get_gpu_timeline 和 get_incident_report 等工具能夠查詢故障發生時的歷史GPU指標。

飛行記錄儀隨代理自動啟動，無需額外配置。數據在內存中保留配置的時間窗口（默認：30分鐘）。

📖 MCP使用指南 →

📈 項目狀態

當前里程碑：M3: Kubernetes集成

進度：約90%完成（HTTP傳輸 ✅，網關 ✅，K8s工具 ✅）

已完成里程碑

✅ M1: 基礎與API - 2026年1月3日完成
✅ M2: 硬件檢查 - 2026年1月10日完成
- 真實NVML集成，在Tesla T4上測試
- GPU健康監控，XID錯誤分析
- npm/Helm分發

近期更新（2026年1月）

1月17日：支持MCP提示 - 3個內置GPU診斷工作流
1月16日：為外部貢獻者進行文檔360度審查
1月15日：K8s工具完成 (describe_gpu_node, get_pod_gpu_allocation)
1月14日：HTTP傳輸史詩完成 - 延遲改善150倍
1月14日：跨節點網絡修復（Calico VXLAN）
1月13日：支持斷路器和Prometheus指標的網關模式

📊 查看所有里程碑 →

🧪 測試

單元測試（無需GPU）

make test                   # 運行所有單元測試（538個測試通過）
make coverage               # 生成覆蓋率報告
make coverage-html          # 在瀏覽器中查看覆蓋率

集成測試（需要GPU）

make test-integration       # 在GPU硬件上運行
# 或者手動運行
go test -tags=integration -v ./pkg/nvml/

最新測試結果：

✓ 共538個測試通過
✓ 啟用競態檢測器 (-race)
✓ 覆蓋率：按包計算為58 - 80%

在Tesla T4上進行集成測試：
  - GPU：Tesla T4（15GB）
  - 溫度：29°C
  - 功率：13.9W
  - 所有NVML操作已驗證

🏗️ 構建

# 為本地平臺構建
make agent

# 為Linux構建（使用真實NVML）
CGO_ENABLED=1 GOOS=linux GOARCH=amd64 make agent

# 構建容器鏡像
make image

# 多架構發佈構建
make dist

二進制文件大小：

模擬模式：4.3MB（禁用CGO）
真實模式：7.9MB（啟用CGO）

📄 許可證

本項目採用Apache License 2.0許可協議，詳情請參閱 LICENSE。

🤝 貢獻

我們歡迎貢獻！請參閱我們的開發指南瞭解詳細信息。

快速貢獻指南

查看開放問題
分叉並創建功能分支：git checkout -b feat/my-feature
進行更改，添加測試
運行檢查：make all
使用DCO提交：git commit -s -S -m "feat(scope): description"
打開帶有標籤和里程碑的PR

📖 完整開發指南 →

🎯 使用案例

1. 調試卡住的訓練作業

SRE：“節點-5上的訓練作業為什麼卡住了？”
Claude → k8s-gpu-mcp-server → 檢測到XID 48（ECC錯誤）
Claude：“節點-5存在不可糾正的內存錯誤。立即排水。”

2. 熱管理

SRE：“是否有GPU正在進行熱節流？”
Claude → k8s-gpu-mcp-server → 檢查溫度和節流狀態
Claude：“GPU 3溫度為86°C，正在進行熱節流。檢查散熱情況。”

3. 拓撲驗證

SRE：“NVLink是否為多GPU訓練正確配置？”
Claude → k8s-gpu-mcp-server → 檢查NVLink拓撲
Claude：“所有8個GPU通過NVLink連接，帶寬為600GB/s。”

4. 殭屍進程查找

SRE：“GPU內存已滿，但沒有運行的Pod”
Claude → k8s-gpu-mcp-server → 列出GPU進程
Claude：“發現殭屍進程PID 12345佔用8GB內存。是否終止它？”

🏆 成就

✅ Go 1.25 - 最新的Go版本
✅ 真實NVML - 在Tesla T4上測試
✅ 550多個測試通過 - 啟用競態檢測器，覆蓋率58 - 80%
✅ 以HTTP為先的架構 - 比執行路由快150倍
✅ 網關 + 斷路器 - 生產級可靠性
✅ MCP提示 - 用於SRE故障排除的指導診斷工作流
✅ Prometheus指標 - 按節點跟蹤延遲
✅ 約8MB二進制文件 - 比50MB目標低84%
✅ MCP 2025-06-18 - 最新協議版本

🙏 致謝

NVIDIA NVML - GPU管理庫
模型上下文協議 - MCP規範
mcp-go - MCP Go實現
Anthropic Claude - AI助手
Cursor - 人工智能驅動的IDE

📞 聯繫

維護者：@ArangoGutierrez
問題反饋：GitHub問題
討論區：GitHub討論

⭐ 在GitHub上給我們加星 — 這很有幫助！

報告Bug · 請求功能 · 查看路線圖

Baidu Map

已認證

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

152.3K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

JavaScript

23.2K

5分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

智啟未來，您的人工智慧解決方案智庫

K8s Gpu MCP Server

概述

安裝

內容詳情

替代品

什麼是k8s-gpu-mcp-server?

如何使用k8s-gpu-mcp-server?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 k8s-gpu-mcp-server

🚀 快速開始

一鍵安裝

單行命令安裝

從源代碼安裝

部署到Kubernetes

使用kubectl配置Claude Desktop（高級）

✨ 主要特性

📦 安裝指南

使用npm（推薦）

從源代碼安裝

使用Go安裝

容器鏡像安裝

Helm Chart（OCI）安裝

💻 使用示例

基礎用法

高級用法

📚 詳細文檔

🔧 技術細節

架構

可用工具

可用提示

操作模式

飛行記錄儀

📈 項目狀態

當前里程碑：M3: Kubernetes集成

已完成里程碑

近期更新（2026年1月）

🧪 測試

單元測試（無需GPU）

集成測試（需要GPU）

🏗️ 構建

📄 許可證

🤝 貢獻

快速貢獻指南

🎯 使用案例

1. 調試卡住的訓練作業

2. 熱管理

3. 拓撲驗證

4. 殭屍進程查找

🏆 成就

🙏 致謝

📞 聯繫

替代品