MCP Evals

MCP Evals是一個用於評估MCP工具實現的Node.js包和GitHub Action，通過基於LLM的評分來確保MCP服務器的工具正常工作並表現良好。

開發者工具人工智能聊天機器人 #工具評估 #LLM評分 #自動化測試 #GitHub集成本地 .TypeScript

評分 : 2.5分

下載量 : 5.4K

更新時間 : 2025-04-29

打開站點

什麼是MCP Evals?

MCP Evals是一個評估工具，幫助開發者測試和驗證他們的Model Context Protocol (MCP)服務器工具的功能和性能。它使用大型語言模型(LLM)來自動評分，確保工具按預期工作。

如何使用MCP Evals?

您可以通過Node.js包或GitHub Action兩種方式使用MCP Evals。只需創建評估配置文件，運行評估，即可獲得詳細的評分報告。

適用場景

適用於開發MCP工具的團隊需要持續驗證工具質量，或在CI/CD流程中自動檢查工具性能的場景。

主要功能

LLM自動評分

使用GPT-4等大型語言模型自動評估工具響應質量

多維度評估

提供準確性、完整性、相關性、清晰度和推理能力五個維度的評分

GitHub集成

作為GitHub Action自動運行，並將結果反饋到Pull Request

優勢

自動化評估流程，節省人工測試時間

提供詳細的評分和反饋，幫助改進工具

與CI/CD流程無縫集成

開源項目可享受OpenAI的免費額度

侷限性

依賴OpenAI API，需要網絡連接

評估結果可能受LLM主觀性影響

需要一定的配置工作

如何使用

安裝

作為Node.js包或GitHub Action安裝

創建評估文件

創建一個TypeScript文件定義您的評估配置

運行評估

通過CLI或GitHub Action運行評估

使用案例

天氣工具評估

評估天氣查詢工具返回信息的準確性和完整性

知識檢索評估

評估知識檢索工具返回信息的準確性和相關性

常見問題

我需要OpenAI API密鑰嗎?

評估使用什麼模型?

如何解讀評分結果?

🚀 MCP 評測工具

MCP 評測工具是一個 Node.js 包和 GitHub Action，可藉助基於大語言模型（LLM）的評分來評估 MCP（模型上下文協議）工具的實現情況，確保您的 MCP 服務器工具能正確且高效地運行。

🚀 快速開始

MCP 評測工具提供了便捷的使用方式，您既可以將其作為 Node.js 包使用，也能通過 GitHub Action 集成到工作流中。

✨ 主要特性

多方式集成：支持作為 Node.js 包和 GitHub Action 使用，滿足不同場景需求。
基於 LLM 評分：利用大語言模型的評分機制，對 MCP 工具實現進行評估。
詳細評測結果：每個評測返回包含準確性、完整性等多維度評分及綜合評價的結果。

📦 安裝指南

作為 Node.js 包

在項目中執行以下命令進行安裝：

npm install mcp-evals

作為 GitHub Action

在工作流文件中添加以下內容：

name: 運行 MCP 評測
on:
  pull_request:
    types: [opened, synchronize, reopened]
jobs:
  evaluate:
    runs-on: ubuntu-latest
    permissions:
      contents: read
      pull-requests: write
    steps:
      - uses: actions/checkout@v4
      
      - name: 設置 Node.js
        uses: actions/setup-node@v4
        with:
          node-version: '20'
          
      - name: 安裝依賴項
        run: npm install
        
      - name: 運行 MCP 評測
        uses: mclenhard/mcp-evals@v1.0.9
        with:
          evals_path: 'src/evals/evals.ts'
          server_path: 'src/index.ts'
          openai_api_key: ${{ secrets.OPENAI_API_KEY }}
          model: 'gpt-4'  # 可選，默認為 gpt-4

💻 使用示例

基礎用法

1. 創建您的評測文件

創建一個文件（例如 evals.ts），導出您的評測配置：

import { EvalConfig } from 'mcp-evals';
import { openai } from "@ai-sdk/openai";
import { grade, EvalFunction} from "mcp-evals";

const weatherEval: EvalFunction = {
    name: 'Weather Tool Evaluation',
    description: 'Evaluates the accuracy and completeness of weather information retrieval',
    run: async () => {
      const result = await grade(openai("gpt-4"), "What is the weather in New York?");
      return JSON.parse(result);
    }
};
const config: EvalConfig = {
    model: openai("gpt-4"),
    evals: [weatherEval]
  };
  
  export default config;
  
  export const evals = [
    weatherEval,
    // 在這裡添加其他評測
];

2. 運行評測

作為 Node.js 包

您可以使用 CLI 運行評測：

npx mcp-eval path/to/your/evals.ts path/to/your/server.ts

作為 GitHub Action

該操作將自動執行以下步驟：

運行您的評測
在 PR 上發佈結果評論
如果 PR 被更新，則更新評論

📚 詳細文檔

評測結果

每個評測返回一個具有以下結構的對象：

interface EvalResult {
  accuracy: number;        // 評分範圍為 1-5
  completeness: number;    // 評分範圍為 1-5
  relevance: number;       // 評分範圍為 1-5
  clarity: number;         // 評分範圍為 1-5
  reasoning: number;       // 評分範圍為 1-5
  overall_comments: string; // 強項和弱點的摘要
}