Mcpbench

MCPBenchは、MCPサーバーのパフォーマンスを評価するためのフレームワークで、Web検索とデータベースクエリの2種類のタスクの評価をサポートし、ローカルおよびリモートのサーバーと互換性があり、主に精度、遅延、トークン消費を評価します。

開発者ツール検索ツール #性能評価 #検索サービス #データベースクエリ .Python

スコア : 3ポイント

ダウンロード数 : 12.1K

更新時間 : 2025-04-29

サイトを開く

MCPBenchとは？

MCPBenchは、MCPサーバーのパフォーマンスを評価するためのフレームワークです。Brave SearchやDuckDuckGoなどのさまざまなMCPサーバーのタスク完了精度、遅延、トークン消費などの面での性能をテストすることができます。

MCPBenchの使い方は？

MCPBenchは、Web検索タスクとデータベースクエリタスクの2つの主要な評価シナリオをサポートしています。ユーザーは簡単なコマンドで評価プロセスを開始することができます。

適用シーン

MCPBenchは、異なるMCPサーバーの性能を比較する必要がある研究者や開発者に適しており、彼らが自分たちのニーズに最適なMCPサーバーを選択するのに役立ちます。

主要機能

複数サーバー評価

Web検索とデータベースクエリタイプを含む複数のMCPサーバーの評価をサポートします。

標準化テスト

同じLLMとエージェントの設定で公平な比較を行います。

複数の評価指標

精度、遅延、トークン消費の3つの重要な指標を評価します。

利点

標準化された評価フレームワークを提供し、テストの公平性を確保します。

ローカルおよびリモートのMCPサーバーをサポートします。

事前に用意されたデータセットが含まれており、すぐに使えます。

制限

現在は2種類のタスクタイプのみをサポートしています。

Python 3.11以上が必要です。

一部の機能は外部サービスに依存しています。

使い方

依存関係のインストール

システムにPython 3.11、nodejs、jqがインストールされていることを確認してください。

LLMの設定

APIキーとエンドポイントを設定します。

MCPサーバーの起動

サーバータイプに応じて起動方法を選択します。

評価の実行

評価するタスクタイプを選択します。

使用例

DuckDuckGoの検索性能の評価

事前に用意されたWeb検索データセットを使用して、DuckDuckGoのMCPサーバーを評価します。

異なるデータベースクエリサーバーの比較

自動車データベースデータセットを使用して、異なるMCPサーバーのクエリ性能を評価します。

よくある質問

MCPBenchはどのようなMCPサーバーをサポートしていますか？

カスタムデータセットを追加するにはどうすればいいですか？

評価結果はどのように確認できますか？

🚀 🦊 MCPBench：MCPサーバー評価用ベンチマーク

MCPBenchは、MCPサーバーを評価するためのフレームワークです。このフレームワークは、ネットワーク検索とデータベースクエリの2種類のサーバーをサポートし、ローカルおよびリモートのMCPサーバーと互換性があります。主に同じLLMとエージェントの設定の下で、タスク完了の正解率、遅延、トークン消費などの側面から、Brave SearchやDuckDuckGoなどの異なるMCPサーバーを評価します。評価レポートはこちらです。

English | 中文

この実装は LangProBe：言語プログラムベンチマークに基づいています。

📋 目次

🔥 ニュース
🛠️ インストール
🚀 クイックスタート
- LLM 設定
- MCPサーバーの起動
- 評価の起動
🧬 データ形式
📜 引用

🚀 クイックスタート

📋 ニュース

私たちはMCPBenchフレームワークを公開し、詳細なドキュメントと実験レポートを添付しています。詳細については、GitHubリポジトリをご覧ください。

🛠️ インストール

MCPBenchをインストールするには、以下の手順に従ってください：

このリポジトリをクローンします：

git clone https://github.com/modelscope/MCPBench.git

プロジェクトディレクトリに移動します：

cd MCPBench

依存関係をインストールします：

pip install -r requirements.txt

🚀 クイックスタート

MCPBenchを使用する基本的な手順は以下の通りです：

事前学習済みのLLMモデルをダウンロードします。
MCPサーバーを設定します。
評価スクリプトを実行します。

サンプルコード：

from mcpbench import *

# MCPサーバーを初期化します
mcp_server = init_mcp_server()

# LLMモデルをロードします
llm_model = load_llm_model()

# 評価を実行します
results = evaluate(mcp_server, llm_model)

# 結果を出力します
print(results)

📋 データ形式

以下のデータ形式をサポートしています：

JSON形式：

{
  "unique_id": "",
  "Prompt": "",
  "Answer": ""
}

CSV形式：

unique_id,Prompt,Answer
,...(他の行)

📜 引用

私たちの作業があなたに役立つことがわかった場合は、私たちのプロジェクトを引用することを検討してください：

@misc{mcpbench,
  title={MCPBench: A Benchmark for Evaluating MCP Servers},
  author={Zhiling Luo, Xiaorong Shi, Xuanrui Lin, Jinyang Gao},
  howpublished = {\url{https://github.com/modelscope/MCPBench}},
  year={2025}
}

または、私たちのレポートを参照してください：

@article{mcpbench_report,
      title={Evaluation Report on MCP Servers}, 
      author={Zhiling Luo, Xiaorong Shi, Xuanrui Lin, Jinyang Gao},
      year={2025},
      journal={arXiv preprint arXiv:2504.11094},
      url={https://arxiv.org/abs/2504.11094},
      primaryClass={cs.AI}
}