Forge MCPサーバー：32の並列AIエージェントでPyTorchモデル最適化、多AIアシスタント対応MCPツール

Forge MCP Server

Forge MCPサーバーは、32の並列AIエージェントを通じて、PyTorchモデルを高性能なCUDA/Tritonカーネルに自動的に最適化するツールです。推論速度を最大14倍に向上させることができ、さまざまなMCP互換のAIプログラミングアシスタントをサポートしています。

開発者ツール人工知能チャットボット #GPU最適化 #AIエージェント #パフォーマンス加速 #PyTorch .TypeScript

スコア : 2.5ポイント

ダウンロード数 : 7.6K

更新時間 : 2026-03-13

サイトを開く

Forge MCP Serverとは？

Forge MCP Serverは、AIプログラミングアシスタントとGPU最適化サービスをつなぐ架け橋です。Claude、Cursor、VS CodeなどのAIアシスタントを通じて、PyTorchコードを自動的に最適化された高性能GPUカーネルに変換することができます。サービスは、32の並列AIエージェントを使用して、実際のデータセンターのGPU上でコードをテストおよび最適化し、最高のパフォーマンスを保証します。

Forge MCP Serverの使い方は？

Forgeの使用は非常に簡単です。1) AIアシスタントにForge MCP Serverをインストールします。2) ブラウザでワンクリックでログイン認証を行います。3) PyTorchコードを送信するか、必要な操作を説明します。4) Forgeが最適化を行い、高性能カーネルコードを返すのを待ちます。全プロセスは完全自動化されており、CUDAコードを手動で記述する必要はありません。

適用シーン

Forgeは、以下のシーンに最適です。カスタムPyTorch操作の高速化、既存のGPUカーネルのパフォーマンス最適化、新しい高性能カーネルのゼロからの生成、研究コードの本番レベルのパフォーマンスへの変換、さまざまなGPUアーキテクチャでの最高のパフォーマンスの取得。特に、深層学習研究者、AIエンジニア、高性能推論が必要な開発者に適しています。

主要機能

自動コード最適化

PyTorchコードを送信すると、自動的に最適化されたTritonまたはCUDAカーネルに変換されます。torch.compile(max-autotune)のベンチマークと比較して、パフォーマンスの向上を保証します。

スマートなカーネル生成

自然言語で操作要件を説明することで、高性能GPUカーネルコードを自動生成します。さまざまなデータ形式とGPUアーキテクチャをサポートしています。

32並列AIエージェント最適化

32のCoder+Judgeエージェントを使用して、テンソルコアの利用、メモリの結合、共有メモリのタイリング、カーネルの融合など、さまざまな最適化戦略を並列で探索します。

実際のGPUでのベンチマークテスト

すべてのカーネルは、実際のデータセンターのGPU上でコンパイル、正しさのテスト、およびパフォーマンスの分析が行われます。B200、H200、H100、A100などのさまざまなGPUをサポートしています。

スマートな検出と提案

コード内の最適化の機会（カスタム操作、アテンションメカニズム、融合操作など）を自動的に識別し、最適化の提案を提供します。

ブラウザでのワンクリック認証

APIキーを管理する必要はありません。OAuth 2.0 PKCEフローを通じて、ブラウザで安全にログインでき、トークンは自動的に更新されます。

利点

torch.compile(max-autotune)を超える、最大14倍のパフォーマンス向上

Claude、Cursor、VS Codeなど、さまざまな主流のAIプログラミングアシスタントをサポート

実際のデータセンターのGPU上でテストされるため、結果が信頼できる

100%の数値的正確性が保証される

迅速な結果の返却（数分で完了、数時間ではない）

CUDAプログラミングの経験がなくても、高性能カーネルを取得できる

使用量に応じて課金されるため、コストが透明である

1つのカーネル最適化を無料で試用できる

制限

最適化サービスにアクセスするには、ネットワーク接続が必要です。

各最適化には1つのポイントが消費されます（最適化が成功した場合のみ課金されます）。

最大コード入力制限は500KBです。

PyTorchコードの最適化のみをサポートしています。

最新のGPU（T4以上）が必要です。

使い方

Forge MCP Serverをインストールする

使用しているAIアシスタントに応じて、設定ファイルにForge MCP Serverを追加します。たとえば、Claude Desktopではclaude_desktop_config.jsonファイルを編集します。

認証ログイン

AIアシスタントでforge_authツールを呼び出すと、システムが自動的にブラウザを開いてログインを完了します。一度ログインすれば、トークンは自動的に更新されます。

コード最適化を送信する

AIアシスタントが最適化可能なPyTorchコードを検出すると、自動的にforge_optimizeツールを呼び出します。また、手動で最適化する操作を説明することもできます。

最適化結果を取得する

最適化が完了するのを待ちます（通常は数分）。システムは最適化されたカーネルコード、パフォーマンス向上データ、および統合提案を返します。

最適化コードを統合する

返された最適化カーネルコードをプロジェクトに統合し、元のPyTorch実装を置き換えて、パフォーマンスの向上を享受します。

使用例

カスタムアテンションメカニズムを最適化する

研究者が新しいアテンションバリエーションを開発しましたが、PyTorchの実装は速度が遅いです。Forgeを使用して、自動的に高性能Tritonカーネルに最適化します。

融合正規化層を生成する

LayerNorm、GELU活性化、およびDropoutを単一の効率的なカーネルに融合して、メモリアクセスを削減する必要があります。

既存のモデル推論を高速化する

本番環境でのモデル推論速度が不十分で、重要な計算ボトルネックを最適化する必要があります。

よくある質問

Forgeの最適化にはどれくらいの時間がかかりますか？

最適化に失敗した場合、料金はかかりますか？

どのようなGPUをサポートしていますか？

最適化後のコードの正確性はどのように保証されますか？

どれくらいの大きさのコードを最適化できますか？

ポイントをどのように購入できますか？

ローカルデプロイはサポートされていますか？

最適化後のコードにはライセンス制限がありますか？

🚀 Forge MCP Server

Forge MCP Serverは、任意のAIコーディングエージェントから、低速なPyTorchを高速なCUDA/Tritonカーネルに変換するスワームエージェントです。

インストール · ツール · リソース · プロンプト · セキュリティ · 開発

🚀 クイックスタート

Forgeは、自動化されたマルチエージェント最適化により、PyTorchモデルを本番環境向けのCUDA/Tritonカーネルに変換します。推論時のスケーリングを備えた32の並列AIエージェントを使用し、torch.compile(mode='max-autotune-no-cudagraphs')より最大14倍高速な推論を実現し、同時に100%の数値的正確性を維持します。

このMCPサーバーは、任意のMCP互換AIコーディングエージェントをForgeに接続します。エージェントがPyTorchコードを送信すると、Forgeは実際のデータセンターのGPU上でスワームエージェントを使用してコードを最適化し、最速のカーネルをそのまま置き換え可能な形で返します。

機能の概要

既存のカーネルを最適化 - PyTorchコードを送信すると、torch.compile(max-autotune)と比較した最適化されたTriton/CUDAカーネルが返されます。
新しいカーネルを生成 - 操作を記述すると（例：「fused LayerNorm + GELU + Dropout」）、本番環境で使用可能な最適化されたカーネルが生成されます。
32の並列スワームエージェント - コーダー+ジャッジのエージェントペアが競争して最適なカーネルを探索し、テンソルコアの利用、メモリの結合、共有メモリのタイリング、カーネルの融合を同時に調査します。
実際のデータセンターGPUでのベンチマーク - すべてのカーネルはコンパイルされ、正確性がテストされ、実際のデータセンターのハードウェア上でプロファイリングされます。
250kトークン/秒の推論 - 数分で結果が得られ、数時間ではありません。
スマート検出 - エージェントは、コードがGPU最適化の恩恵を受ける場合を自動的に認識します。
ワンクリック認証 - ブラウザベースのOAuthサインイン。APIキーの管理は不要です。

サポートされているGPU

すべての最適化とベンチマークは、データセンターグレードのハードウェア上で実行されます。

GPU	アーキテクチャ
B200	Blackwell
H200	Hopper
H100	Hopper
L40S	Ada Lovelace
A100	Ampere
L4	Ada Lovelace
A10	Ampere
T4	Turing

サポートされているクライアント

クライアント	ステータス
Claude Code	完全サポート
Claude Desktop	完全サポート
OpenCode	完全サポート
Cursor	完全サポート
Windsurf	完全サポート
VS Code + Copilot	完全サポート
任意のMCPクライアント	stdio経由で完全サポート

📦 インストール

Claude Code

macOS / Linux:

claude mcp add forge-mcp -- npx -y @rightnow/forge-mcp-server

Windows:

claude mcp add forge-mcp -- cmd /c npx -y @rightnow/forge-mcp-server

Claude Desktop

claude_desktop_config.jsonに追加します。

macOS: ~/Library/Application Support/Claude/claude_desktop_config.json

{
  "mcpServers": {
    "forge": {
      "command": "npx",
      "args": ["-y", "@rightnow/forge-mcp-server"]
    }
  }
}

Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "forge": {
      "command": "cmd",
      "args": ["/c", "npx", "-y", "@rightnow/forge-mcp-server"]
    }
  }
}

VS Code / Copilot

.vscode/mcp.json（ワークスペース）またはユーザー設定に追加します。

{
  "servers": {
    "forge": {
      "command": "npx",
      "args": ["-y", "@rightnow/forge-mcp-server"]
    }
  }
}

Windows: "command": "cmd" と "args": ["/c", "npx", "-y", "@rightnow/forge-mcp-server"] を使用します。

Cursor

Cursor MCP設定（~/.cursor/mcp.json）に追加します。

{
  "mcpServers": {
    "forge": {
      "command": "npx",
      "args": ["-y", "@rightnow/forge-mcp-server"]
    }
  }
}

Windows: "command": "cmd" と "args": ["/c", "npx", "-y", "@rightnow/forge-mcp-server"] を使用します。

Windsurf

Windsurf MCP構成に追加します。

{
  "mcpServers": {
    "forge": {
      "command": "npx",
      "args": ["-y", "@rightnow/forge-mcp-server"]
    }
  }
}

Windows: "command": "cmd" と "args": ["/c", "npx", "-y", "@rightnow/forge-mcp-server"] を使用します。

OpenCode

opencode.jsonに追加します。

{
  "mcp": {
    "forge": {
      "command": "npx",
      "args": ["-y", "@rightnow/forge-mcp-server"]
    }
  }
}

✨ 主な機能

`forge_auth`

Forgeサービスで認証します。ブラウザが開き、RightNowダッシュボードを介してサインインします。他のツールを使用する前に必要です。

入力:
- force (ブール値, オプション): 有効なトークンが存在する場合でも、再認証を強制します。
返り値: 認証ステータス、メールアドレス、プランタイプ、クレジット残高

`forge_optimize`

GPUカーネル最適化のためにPyTorchコードを送信します。32のスワームエージェントが最適化されたTritonまたはCUDAカーネルを生成し、実際のデータセンターのGPU上で評価し、最良の結果とスピードアップメトリクスを返します。

エージェントは以下の場合に自動的にこのツールを使用します。

PyTorchのカスタム操作 (torch.autograd.Function, カスタム forward/backward)
より高速になりうる手動のCUDAカーネル
パフォーマンスに重要なテンソル操作（アテンション、畳み込み、正規化、ソフトマックス）
"slow", "bottleneck", "optimize" などのコメントがあるコード
torch.compile() の対象または triton.jit カーネル
forward() で大量の計算を行う nn.Module
行列乗算、縮約、またはスキャン操作
縮約操作を含むカスタム損失関数
融合操作の機会（例：LayerNorm + 活性化関数）
入力:
- pytorch_code (文字列, 必須): 最適化する完全なPyTorchコード。最大500 KB。
- kernel_name (文字列, 必須): カーネルの短い名前（例："flash_attention"）
- output_format (列挙型, オプション): "triton"（デフォルト）または "native_cuda"
- target_speedup (数値, オプション): 目標スピードアップ倍率。デフォルト 2.0
- max_iterations (数値, オプション): 最大最適化反復回数（1-100）。デフォルト 10
- gpu (列挙型, オプション): ターゲットGPU。デフォルト "H100"。オプション: B200, H200, H100, L40S, A100, L4, A10, T4
- user_prompt (文字列, オプション): 最適化に関するガイダンス（例："focus on memory bandwidth"）
返り値: 最適化されたカーネルコード、スピードアップメトリクス、レイテンシ比較、反復履歴

`forge_generate`

自然言語の仕様に基づいて、最初から最適化されたGPUカーネルを生成します。ForgeはPyTorchのベースラインを作成し、それをTritonまたはCUDAに最適化します。

入力:
- operation (文字列, 必須): 操作名（例："fused_attention", "softmax"）
- description (文字列, 必須): カーネルが行うべきことの詳細な説明
- input_shapes (数値配列の配列, 必須): 入力テンソルの形状（例：[[8, 512, 768]]）
- output_shape (数値配列, オプション): 期待される出力形状
- dtype (文字列, オプション): データ型。デフォルト "float16"
- output_format (列挙型, オプション): "triton"（デフォルト）または "native_cuda"
- target_speedup (数値, オプション): 目標スピードアップ。デフォルト 2.0
- max_iterations (数値, オプション): 最大反復回数（1-100）。デフォルト 10
- gpu (列挙型, オプション): ターゲットGPU。デフォルト "H100"
- user_prompt (文字列, オプション): 追加のガイダンス
返り値: 生成されたカーネルコード、スピードアップメトリクス、反復履歴

`forge_credits`

現在のForgeクレジット残高を確認します。

入力: なし
返り値: クレジット残高、総購入量、総使用量、プランタイプ

`forge_status`

実行中または完了した最適化ジョブのステータスを確認します。

入力:
- session_id (文字列, 必須): forge_optimize または forge_generate からのセッションID
返り値: ジョブステータス、現在の反復回数、最良のスピードアップ

`forge_cancel`

実行中の最適化ジョブをキャンセルします。

入力:
- session_id (文字列, 必須): キャンセルするジョブのセッションID
返り値: キャンセル確認

`forge_sessions`

過去の最適化セッションと結果を一覧表示します。

入力:
- limit (数値, オプション): 返すセッションの数（1-100）。デフォルト 10
- status (列挙型, オプション): ステータスでフィルタリング: "all", "completed", "failed", "running"。デフォルト "all"
返り値: タスク名、GPU、スピードアップ、ステータス、日付を含むセッションの表

ツールの注釈

ツール	読み取り専用	冪等性	破壊的
`forge_auth`	いいえ	はい	いいえ
`forge_optimize`	いいえ	いいえ	いいえ
`forge_generate`	いいえ	いいえ	いいえ
`forge_credits`	はい	はい	いいえ
`forge_status`	はい	はい	いいえ
`forge_cancel`	いいえ	いいえ	はい
`forge_sessions`	はい	はい	いいえ

📚 ドキュメント

リソース

URI	説明
`forge://auth/status`	現在の認証状態（認証済み、トークンの有効期限、リフレッシュトークンの有無）
`forge://credits`	クレジット残高、使用状況、およびプラン情報

プロンプト

`forge-optimize`

GPUカーネルを最適化するためのガイド付きワークフローです。エージェントに以下のことを指示します。

クレジット残高を確認する
最適化対象のコードを分析する
適切なパラメータで forge_optimize を呼び出す
結果を説明し、統合方法を提案する

`forge-analyze`

エージェントに、コードベースをGPU最適化の機会についてスキャンさせ、予想される影響度でランク付けします。

優先度	パターン
高	カスタムオートグラッド関数、アテンションメカニズム、融合操作
中	標準の `nn.Module` 構成、正規化 + 活性化関数の融合
低	要素ごとの操作、単純な縮約

動作原理

┌──────────────┐     stdio      ┌──────────────────┐     HTTPS      ┌──────────────────┐
│  AI Agent    │ ──────────────>│  Forge MCP       │ ──────────────>│  Forge API       │
│  (Claude,    │                │  Server          │                │  (RightNow AI)   │
│   Cursor,    │<──────────────│                  │<──────────────│                  │
│   etc.)      │   MCP result   │  - OAuth + PKCE  │   SSE stream   │  - 32 swarm      │
└──────────────┘                │  - SSE streaming │                │    agents        │
                                │  - Token mgmt    │                │  - Real GPU      │
                                └──────────────────┘                │    benchmarking  │
                                                                    └──────────────────┘

認証: エージェントが forge_auth を呼び出し、ブラウザが開きます。一度サインインすると、トークンは ~/.forge/tokens.json にローカルに保存され、自動的に更新されます。
最適化: エージェントが forge_optimize を介してPyTorchコードを送信します。MCPサーバーはForge APIにPOSTし、SSEイベントをリアルタイムでストリーミングします。
ベンチマーク: 32の並列コーダー+ジャッジエージェントがカーネルを生成し、コンパイルし、PyTorchの参照と比較して正確性をテストし、実際のデータセンターのGPU上でパフォーマンスをプロファイリングします。
返却: MCPサーバーはすべての結果を収集し、最適化されたコード、スピードアップメトリクス、および反復履歴を返します。出力は元のコードのそのまま置き換え可能なものです。

各最適化には1クレジットが必要です。クレジットは成功した実行（スピードアップ >= 1.1x）のみに課金されます。失敗した実行やキャンセルされたジョブには課金されません。

設定

認証

APIキーは必要ありません。サーバーはOAuth 2.0 with PKCEを使用して、セキュアなブラウザベースの認証を行います。

エージェントが forge_auth を呼び出す
デフォルトのブラウザが dashboard.rightnowai.co を開く
サインインまたはアカウントを作成する
認証が自動的に完了する
トークンは ~/.forge/tokens.json（モード 0600）にローカルに保存される
アクセストークンは自動的に更新され、一度だけサインインすればよい

クレジット

Forgeは従量制のクレジットシステムを使用しています。各最適化または生成実行には1クレジットが必要です。

クレジット	価格	1クレジットあたり
1-9	1クレジットあたり $15.00	$15.00
10以上	25%割引	$11.25
50	$562.50	$11.25
エンタープライズ	カスタムボリューム価格	お問い合わせ

無料トライアル: 1つのカーネルを最適化でき、クレジットカードは不要です。

100%返金保証: Forgeが torch.compile を上回らない場合、クレジットを返金します。

クレジットはdashboard.rightnowai.coで購入できます。

ベンチマーク

NVIDIA B200でのエンドツーエンドのレイテンシ。Forgeと torch.compile(mode='max-autotune-no-cudagraphs') の比較。

モデル	torch.compile	Forge	スピードアップ
Llama-3.1-8B	42.3ms	8.2ms	5.16x
Qwen2.5-7B	38.5ms	9.1ms	4.23x
Mistral-7B	35.2ms	10.4ms	3.38x
Phi-3-mini	18.7ms	6.8ms	2.75x
SDXL UNet	89.4ms	31.2ms	2.87x
Whisper-large	52.1ms	19.8ms	2.63x
BERT-large	12.4ms	5.1ms	2.43x

完全なベンチマークはrightnowai.co/forgeで確認できます。

🔧 技術詳細

トークン保護

エラーにトークンを含めない: すべてのエラーメッセージは、JWT、ベアラートークン、16進数トークン、および資格情報パラメータを取り除く正規表現フィルターを通してサニタイズされます。
ローカルストレージのみ: トークンは ~/.forge/tokens.json にファイルモード 0600（所有者の読み取り/書き込みのみ）で保存されます。
自動更新: アクセストークンは1時間で有効期限が切れ、保存されたリフレッシュトークンを使用して自動的に更新されます。
PKCEフロー: OAuthはProof Key for Code Exchange (SHA-256) を使用し、承認コードの傍受を防ぎます。
設定にシークレットを含めない: MCPサーバーは環境変数やAPIキーを必要としません。

入力検証

PyTorchコードの入力は500 KBに制限され、メモリの枯渇を防ぎます。
ユーザープロンプトは10 KBに制限されます。
すべての文字列入力はZodスキーマを介して最大長が検証されます。
数値入力は最小/最大の境界があります（例：max_iterations: 1-100）。

ネットワークセキュリティ

すべてのAPI通信はHTTPSを使用します。
SSEではないリクエストには30秒のタイムアウトがあり、ハングを防ぎます。
SSEストリームには10分のタイムアウトがあり、自動的にクリーンアップされます。
トークンの更新にはミューテックスが使用され、同時リクエストによる競合状態を防ぎます。

サーバーがアクセスできるもの

ネットワーク: dashboard.rightnowai.co と forge-api.rightnowai.co のみ
ファイルシステム: ~/.forge/tokens.json の読み取り/書き込みのみ
コードベースにアクセスしない: MCPサーバーはファイルを読み取ることはありません。エージェントがツールのパラメータを介して明示的にコードを渡します。

開発

ソースからビルド

git clone https://github.com/RightNow-AI/forge-mcp-server.git
cd forge-mcp-server
npm install
npm run build

ローカルで実行

npm run dev

型チェック

npm run typecheck

MCPインスペクターでデバッグ

npx @modelcontextprotocol/inspector node dist/index.js

これにより、各ツールを呼び出し、入力/出力を検査し、サーバーを対話的にデバッグできるWeb UIが開きます。

プロジェクト構造

forge-mcp-server/
├── src/
│   ├── index.ts              # エントリポイント (McpServer + StdioServerTransport)
│   ├── server.ts             # すべてのツール、リソース、プロンプトを登録
│   ├── constants.ts          # URL、クライアントID、タイムアウト、制限
│   ├── types.ts              # TypeScriptインターフェース + 型ガード + サニタイズ
│   ├── auth/
│   │   ├── oauth-client.ts   # PKCEフロー、トークンの更新、アクセストークンの管理
│   │   └── token-store.ts    # ~/.forge/tokens.json の読み取り/書き込み/クリア
│   ├── api/
│   │   ├── forge-client.ts   # すべてのForge APIエンドポイント用のHTTPクライアント
│   │   └── sse-consumer.ts   # ネイティブのfetch + ReadableStreamを介したSSEストリームパーサー
│   ├── tools/                # 7つのMCPツール
│   ├── resources/            # 2つのMCPリソース
│   └── prompts/              # 2つのMCPプロンプト
├── .github/workflows/
│   ├── ci.yml                # プッシュ/PR時の型チェック + ビルド
│   └── release.yml           # バージョンタグでのnpm公開
├── package.json
├── tsconfig.json
└── tsup.config.ts