MCP Evals

MCP Evalsは、MCPツールの実装を評価するためのNode.jsパッケージとGitHub Actionです。LLMに基づく評点付けを通じて、MCPサーバーのツールが正常に動作し、良好な性能を発揮することを保証します。

開発者ツール人工知能チャットボット #ツール評価 #LLM評点付け #自動化テスト #GitHub統合ローカル .TypeScript

スコア : 2.5ポイント

ダウンロード数 : 10.8K

更新時間 : 2025-04-29

サイトを開く

MCP Evalsとは？

MCP Evalsは、開発者がModel Context Protocol (MCP)サーバーツールの機能と性能をテストおよび検証するための評価ツールです。大型言語モデル(LLM)を使用して自動的に評点付けを行い、ツールが期待通りに動作することを確認します。

MCP Evalsの使い方は？

あなたはNode.jsパッケージまたはGitHub Actionのいずれかの方法でMCP Evalsを使用できます。評価設定ファイルを作成し、評価を実行するだけで、詳細な評点レポートを取得できます。

適用シナリオ

MCPツールを開発するチームがツールの品質を継続的に検証する必要がある場合、またはCI/CDフローで自動的にツールの性能をチェックするシナリオに適しています。

主要機能

LLMによる自動評点付け

GPT - 4などの大型言語モデルを使用して、ツールの応答品質を自動的に評価します。

多面的な評価

精度、完全性、関連性、明瞭性、推論能力の5つの側面で評点付けを行います。

GitHubとの統合

GitHub Actionとして自動的に実行され、結果をPull Requestにフィードバックします。

利点

評価プロセスを自動化し、人手によるテスト時間を節約します。

詳細な評点とフィードバックを提供し、ツールの改善に役立ちます。

CI/CDフローとシームレスに統合されます。

オープンソースプロジェクトではOpenAIの無料枠を利用できます。

制限

OpenAI APIに依存しているため、ネットワーク接続が必要です。

評価結果はLLMの主観性の影響を受ける可能性があります。

一定の設定作業が必要です。

使い方

インストール

Node.jsパッケージまたはGitHub Actionとしてインストールします。

評価ファイルを作成する

TypeScriptファイルを作成して、あなたの評価設定を定義します。

評価を実行する

CLIまたはGitHub Actionを通じて評価を実行します。

使用例

天気ツールの評価

天気検索ツールが返す情報の精度と完全性を評価します。

知識検索の評価

知識検索ツールが返す情報の精度と関連性を評価します。

よくある質問

OpenAI APIキーが必要ですか？

評価にはどのモデルが使用されますか？

評点結果をどのように解釈すればいいですか？

🚀 MCP 評価ツール

Node.js パッケージと GitHub Action で、LLM ベースの評点を使用して MCP（モデルコンテキストプロトコル）ツールの実装を評価します。これにより、MCP サーバーツールが正しく効率的に動作することを保証できます。

🚀 クイックスタート

このツールは、Node.js パッケージまたは GitHub Action として使用できます。以下のセクションでは、それぞれのインストール方法と使用方法を説明します。

📦 インストール

Node.js パッケージとしてのインストール

npm install mcp-evals

GitHub Action としてのインストール

ワークフローファイルに以下の内容を追加します。

name: 運行 MCP 評価
on:
  pull_request:
    types: [opened, synchronize, reopened]
jobs:
  evaluate:
    runs-on: ubuntu-latest
    permissions:
      contents: read
      pull-requests: write
    steps:
      - uses: actions/checkout@v4
      
      - name: Node.js のセットアップ
        uses: actions/setup-node@v4
        with:
          node-version: '20'
          
      - name: 依存関係のインストール
        run: npm install
        
      - name: MCP 評価の実行
        uses: mclenhard/mcp-evals@v1.0.9
        with:
          evals_path: 'src/evals/evals.ts'
          server_path: 'src/index.ts'
          openai_api_key: ${{ secrets.OPENAI_API_KEY }}
          model: 'gpt-4'  # オプション、デフォルトは gpt-4

💻 使用例

基本的な使用法

1. 評価ファイルの作成

ファイル（例：evals.ts）を作成し、評価設定をエクスポートします。

import { EvalConfig } from 'mcp-evals';
import { openai } from "@ai-sdk/openai";
import { grade, EvalFunction} from "mcp-evals";

const weatherEval: EvalFunction = {
    name: 'Weather Tool Evaluation',
    description: 'Evaluates the accuracy and completeness of weather information retrieval',
    run: async () => {
      const result = await grade(openai("gpt-4"), "What is the weather in New York?");
      return JSON.parse(result);
    }
};
const config: EvalConfig = {
    model: openai("gpt-4"),
    evals: [weatherEval]
  };
  
  export default config;
  
  export const evals = [
    weatherEval,
    // ここに他の評価を追加
];

2. 評価の実行

Node.js パッケージとしての実行

CLI を使用して評価を実行できます。

npx mcp-eval path/to/your/evals.ts path/to/your/server.ts

GitHub Action としての実行

このアクションは自動的に以下の手順を実行します。

評価を実行する
PR 上に結果のコメントを投稿する
PR が更新された場合、コメントを更新する

📚 ドキュメント

評価結果

各評価は、以下の構造を持つオブジェクトを返します。

interface EvalResult {
  accuracy: number;        // 評点範囲は 1 - 5
  completeness: number;    // 評点範囲は 1 - 5
  relevance: number;       // 評点範囲は 1 - 5
  clarity: number;         // 評点範囲は 1 - 5
  reasoning: number;       // 評点範囲は 1 - 5
  overall_comments: string; // 強みと弱みの要約
}