Ai Vision MCP

Google GeminiとVertex AIに基づくAIビジョン分析MCPサーバーです。画像とビデオのマルチモーダル分析をサポートし、オブジェクト検出、画像比較などの機能を提供し、複数のMCPクライアントに統合できます。

画像とビデオ処理人工知能チャットボット #AIビジョン #画像分析 #ビデオ分析 #MCPサービス .TypeScript

スコア : 2.5ポイント

ダウンロード数 : 8.5K

更新時間 : 2025-12-12

サイトを開く

什么是AI Vision MCP Server?

AI Vision MCP Serverは、Model Context Protocolに基づくAIビジョン分析ツールです。これにより、AIモデルを通じて画像やビデオの内容を分析することができます。画像の内容を説明したり、複数の画像を比較したり、画像内の物体を検出したり、ビデオの内容を分析したりする場合、このサーバーは詳細なAI分析結果を提供します。

如何使用AI Vision MCP Server?

このサーバーを使用するには、MCPクライアント（Claude Desktop、Cursorなど）を設定します。まず、AIプロバイダー（Google AI StudioまたはVertex AI）を選択し、次に対応するAPIキーまたは資格情報を設定し、最後にMCPツールを使用してさまざまなビジョン分析機能を呼び出します。

适用场景

コンテンツ分析、画像認識、ビデオ理解、物体検出、複数画像比較などのシナリオに適しています。例えば、製品画像の分析、ビデオ内容の理解、画像内の特定物体の検出、デザイン案の違いの比較などです。

主要功能

双提供商支持

Google AI StudioとVertex AIの2種類のAIサービスプロバイダーをサポートしています。必要に応じて最適なソリューションを選択できます。

多模态分析

画像とビデオの内容分析を同時にサポートし、さまざまなビジュアルコンテンツの処理ニーズを満たします。

灵活的文件处理

複数のファイルアップロード方法をサポートしています。URLリンク、ローカルファイルパス、Base64エンコードデータなどで、さまざまなソースのコンテンツ分析が容易になります。

存储集成

Google Cloud Storageのサポートが組み込まれており、大規模なファイル処理とストレージ管理が容易になります。

全面的数据验证

Zodを使用してデータ検証を行い、入力データの完全性と正確性を保証します。

强大的错误处理

リトライロジックとブレーカーメカニズムを備えた堅牢なエラー処理システムです。

TypeScript支持

完全なTypeScriptサポートがあり、厳密な型チェックとより良い開発体験を提供します。

优势

複数のAIプロバイダーをサポートし、柔軟な選択が可能

複数のファイル形式とソースを処理でき、使いやすい

強力なエラー処理メカニズムで、システムの安定性を向上させる

詳細な設定オプションで、機能レベルの最適化をサポート

完全なTypeScriptサポートで、開発体験が良い

局限性

APIキーまたはサービスアカウントの資格情報が必要

ビデオ分析はYouTubeとローカルファイルのみサポート

大きなファイルの処理には時間がかかる場合がある

基本的なコマンドライン操作の知識が必要

一部の高度な機能にはGoogle Cloudの設定が必要

如何使用

选择AI提供商

必要に応じて、Google AI Studio（推奨）またはVertex AIをAIサービスプロバイダーとして選択します。

获取API凭证

選択したプロバイダーに応じて、対応するAPIキーまたはサービスアカウントの資格情報を取得します。

配置MCP客户端

使用するMCPクライアント（Claude Desktop、Cursorなど）にサーバー設定を追加します。

设置超时配置

ネットワーク状況と処理ニーズに応じて、MCPクライアントのタイムアウト設定を適切に調整します。

开始使用

MCPクライアントを再起動し、これでさまざまなビジョン分析ツールを使用できます。

使用案例

产品图片分析

電子商取引プラットフォームの製品画像を分析し、詳細な製品説明を自動生成します。

设计方案比较

複数のUIデザイン案の視覚的な効果とレイアウトの違いを比較します。

场景物体检测

屋内シーンの家具や物品を検出し、スマートホームアプリケーションに使用します。

教学视频理解

教育ビデオの内容を分析し、重要な知識ポイントと教学ステップを抽出します。

常见问题

我应该选择Google AI Studio还是Vertex AI？

支持哪些图像格式？

视频分析支持哪些来源？

处理大文件时超时怎么办？

如何优化分析结果的质量？

是否需要编程知识才能使用？

是否有使用限制或费用？

如何处理隐私和敏感数据？

🚀 AI Vision MCP Server

強力なModel Context Protocol (MCP)サーバーです。Google GeminiとVertex AIモデルを使用して、AIによる画像およびビデオ分析を提供します。

🚀 クイックスタート

前提条件

googleプロバイダーまたはvertex_aiプロバイダーのいずれかを選択できます。簡単に始めるには、googleプロバイダーをおすすめします。

選択したプロバイダーに基づいて設定する必要がある環境変数を以下に示します。（注: MCPクライアントのタイムアウト設定を5分以上に設定することをおすすめします。）

(i) Google AI Studioプロバイダーを使用する場合

export IMAGE_PROVIDER="google" # or vertex_ai
export VIDEO_PROVIDER="google" # or vertex_ai
export GEMINI_API_KEY="your-gemini-api-key"

Google AI StudioのAPIキーはこちらから取得できます。

(ii) Vertex AIプロバイダーを使用する場合

export IMAGE_PROVIDER="vertex_ai"
export VIDEO_PROVIDER="vertex_ai"
export VERTEX_CREDENTIALS="/path/to/service-account.json"
export GCS_BUCKET_NAME="your-gcs-bucket"

設定方法については、こちらのガイドを参照してください。

インストール

以下は、Claude Desktop、Claude Code、Cursor、Clineなど、さまざまなMCPクライアントでこのMCPをインストールするガイドです。

Claude Desktop

Claude Desktopの設定に追加します。

(i) Google AI Studioプロバイダーを使用する場合

{
  "mcpServers": {
    "ai-vision-mcp": {
      "command": "npx",
      "args": ["ai-vision-mcp"],
      "env": {
        "IMAGE_PROVIDER": "google",
        "VIDEO_PROVIDER": "google",
        "GEMINI_API_KEY": "your-gemini-api-key"
      }
    }
  }
}

(ii) Vertex AIプロバイダーを使用する場合

{
  "mcpServers": {
    "ai-vision-mcp": {
      "command": "npx",
      "args": ["ai-vision-mcp"],
      "env": {
        "IMAGE_PROVIDER": "vertex_ai",
        "VIDEO_PROVIDER": "vertex_ai",
        "VERTEX_CREDENTIALS": "/path/to/service-account.json",
        "GCS_BUCKET_NAME": "ai-vision-mcp-{VERTEX_PROJECT_ID}"
      }
    }
  }
}

Claude Code

(i) Google AI Studioプロバイダーを使用する場合

claude mcp add ai-vision-mcp \
  -e IMAGE_PROVIDER=google \
  -e VIDEO_PROVIDER=google \
  -e GEMINI_API_KEY=your-gemini-api-key \
  -- npx ai-vision-mcp

(ii) Vertex AIプロバイダーを使用する場合

claude mcp add ai-vision-mcp \
  -e IMAGE_PROVIDER=vertex_ai \
  -e VIDEO_PROVIDER=vertex_ai \
  -e VERTEX_CREDENTIALS=/path/to/service-account.json \
  -e GCS_BUCKET_NAME=ai-vision-mcp-{VERTEX_PROJECT_ID} \
  -- npx ai-vision-mcp

注: ~\.claude\settings.jsonを以下のように更新して、MCPの起動タイムアウトを1分、MCPツールの実行タイムアウトを約5分に増やしてください。

{
  "env": {
    "MCP_TIMEOUT": "60000",
    "MCP_TOOL_TIMEOUT": "300000"
  }
}

Cursor

以下の手順で追加します。

Settings -> Cursor Settings -> MCP -> Add new global MCP serverに移動します。
推奨される方法は、以下の設定をCursorの~/.cursor/mcp.jsonファイルに貼り付けることです。また、プロジェクトフォルダに.cursor/mcp.jsonを作成することで、特定のプロジェクトにインストールすることもできます。詳細はCursor MCP docsを参照してください。

(i) Google AI Studioプロバイダーを使用する場合

{
  "mcpServers": {
    "ai-vision-mcp": {
      "command": "npx",
      "args": ["ai-vision-mcp"],
      "env": {
        "IMAGE_PROVIDER": "google",
        "VIDEO_PROVIDER": "google",
        "GEMINI_API_KEY": "your-gemini-api-key"
      }
    }
  }
}

(ii) Vertex AIプロバイダーを使用する場合

{
  "mcpServers": {
    "ai-vision-mcp": {
      "command": "npx",
      "args": ["ai-vision-mcp"],
      "env": {
        "IMAGE_PROVIDER": "vertex_ai",
        "VIDEO_PROVIDER": "vertex_ai",
        "VERTEX_CREDENTIALS": "/path/to/service-account.json",
        "GCS_BUCKET_NAME": "ai-vision-mcp-{VERTEX_PROJECT_ID}"
      }
    }
  }
}

Cline

ClineはJSON設定ファイルを使用してMCPサーバーを管理します。提供されたMCPサーバー設定を統合するには、以下の手順を実行します。

Clineを開き、上部ナビゲーションバーのMCP Serversアイコンをクリックします。
Installedタブを選択し、Advanced MCP Settingsをクリックします。
cline_mcp_settings.jsonファイルに以下の設定を追加します。

(i) Google AI Studioプロバイダーを使用する場合

{
  "mcpServers": {
    "timeout": 300, 
    "type": "stdio",
    "ai-vision-mcp": {
      "command": "npx",
      "args": ["ai-vision-mcp"],
      "env": {
        "IMAGE_PROVIDER": "google",
        "VIDEO_PROVIDER": "google",
        "GEMINI_API_KEY": "your-gemini-api-key"
      }
    }
  }
}

(ii) Vertex AIプロバイダーを使用する場合

{
  "mcpServers": {
    "ai-vision-mcp": {
      "timeout": 300,
      "type": "stdio",
      "command": "npx",
      "args": ["ai-vision-mcp"],
      "env": {
        "IMAGE_PROVIDER": "vertex_ai",
        "VIDEO_PROVIDER": "vertex_ai",
        "VERTEX_CREDENTIALS": "/path/to/service-account.json",
        "GCS_BUCKET_NAME": "ai-vision-mcp-{VERTEX_PROJECT_ID}"
      }
    }
  }
}

その他のMCPクライアント

このサーバーはstdioトランスポートを使用し、標準のMCPプロトコルに従っています。以下のコマンドを実行することで、任意のMCP互換クライアントと統合できます。

npx ai-vision-mcp

✨ 主な機能

2つのプロバイダーサポート: Google Gemini APIとVertex AIのどちらかを選択できます。
マルチモーダル分析: 画像とビデオの両方のコンテンツ分析をサポートします。
柔軟なファイル処理: 複数の方法（URL、ローカルファイル、base64）でのアップロードをサポートします。
ストレージ統合: 組み込みのGoogle Cloud Storageサポートがあります。
包括的な検証: Zodベースのデータ検証が全体に適用されます。
エラーハンドリング: リトライロジックとサーキットブレーカーを備えた堅牢なエラーハンドリングがあります。
TypeScript: 厳密な型チェックを備えた完全なTypeScriptサポートがあります。

💻 使用例

基本的な使用法

このサーバーは4つの主要なMCPツールを提供します。

1) `analyze_image`

AIを使用して画像を分析し、詳細な説明を返します。

パラメーター:

imageSource (string): 画像のURL、base64データ、またはファイルパス
prompt (string): AIに対する質問または指示
options (object, optional): 分析オプション（温度と最大トークン数を含む）

例:

URLから画像を分析する場合

{
  "imageSource": "https://plus.unsplash.com/premium_photo-1710965560034-778eedc929ff",
  "prompt": "What is this image about? Describe what you see in detail."
}

ローカル画像ファイルを分析する場合

{
  "imageSource": "C:\\Users\\username\\Downloads\\image.jpg",
  "prompt": "What is this image about? Describe what you see in detail."
}

2) `compare_images`

AIを使用して複数の画像を比較し、詳細な比較分析を返します。

パラメーター:

imageSources (array): 画像ソースの配列（URL、base64データ、またはファイルパス） - 最小2つ、最大4つの画像
prompt (string): 画像を比較するための質問または指示
options (object, optional): 分析オプション（温度と最大トークン数を含む）

例:

URLから画像を比較する場合

{
  "imageSources": [
    "https://example.com/image1.jpg",
    "https://example.com/image2.jpg"
  ],
  "prompt": "Compare these two images and tell me the differences"
}

混合ソースを比較する場合

{
  "imageSources": [
    "https://example.com/image1.jpg",
    "C:\\\\Users\\\\username\\\\Downloads\\\\image2.jpg",
    "data:image/jpeg;base64,/9j/4AAQSkZJRgAB..."
  ],
  "prompt": "Which image has the best lighting quality?"
}

3) `detect_objects_in_image`

AIビジョンモデルを使用して画像内のオブジェクトを検出し、バウンディングボックス付きの注釈付き画像を生成します。検出されたオブジェクトと座標を返し、注釈付き画像をファイルまたは一時ディレクトリに保存します。

パラメーター:

imageSource (string): 画像のURL、base64データ、またはファイルパス
prompt (string): 画像内で検出または認識するものを説明するカスタム検出プロンプト
outputFilePath (string, optional): 注釈付き画像の明示的な出力パス

設定: この関数はオブジェクト検出に最適化されたデフォルトパラメーターを使用し、ランタイムのoptionsパラメーターを受け付けません。AIパラメーター（温度、topP、topK、maxTokens）をカスタマイズするには、環境変数を使用してください。

# Recommended environment variable settings for object detection (these are now the defaults)
TEMPERATURE_FOR_DETECT_OBJECTS_IN_IMAGE=0.0     # Deterministic responses
TOP_P_FOR_DETECT_OBJECTS_IN_IMAGE=0.95          # Nucleus sampling
TOP_K_FOR_DETECT_OBJECTS_IN_IMAGE=30            # Vocabulary selection
MAX_TOKENS_FOR_DETECT_OBJECTS_IN_IMAGE=8192     # High token limit for JSON

ファイル処理ロジック:

明示的なoutputFilePathが指定された場合 → 指定された正確なパスに保存します。
明示的なoutputFilePathが指定されない場合 → 自動的に一時ディレクトリに保存します。

レスポンスタイプ:

明示的なoutputFilePathが指定された場合、fileオブジェクトを返します。
明示的なoutputFilePathが指定されない場合、tempFileオブジェクトを返し、画像ファイル出力は自動的に一時フォルダに保存されます。
常に検出されたオブジェクトと座標を含むdetections配列を含みます。
ブラウザ自動化用のパーセンテージベースの座標を含むsummaryを含みます。

例:

基本的なオブジェクト検出

{
  "imageSource": "https://example.com/image.jpg",
  "prompt": "Detect all objects in this image"
}

注釈付き画像を特定のパスに保存する場合

{
  "imageSource": "C:\\Users\\username\\Downloads\\image.jpg",
  "outputFilePath": "C:\\Users\\username\\Documents\\annotated_image.png"
}

カスタム検出プロンプト

{
  "imageSource": "data:image/jpeg;base64,/9j/4AAQSkZJRgAB...",
  "prompt": "Detect and label all electronic devices in this image"
}

4) `analyze_video`

AIを使用してビデオを分析し、詳細な説明を返します。

パラメーター:

videoSource (string): YouTube URL、GCS URI、またはビデオのローカルファイルパス
prompt (string): AIに対する質問または指示
options (object, optional): 分析オプション（温度と最大トークン数を含む）

サポートされるビデオソース:

YouTube URLs (e.g., https://www.youtube.com/watch?v=...)
ローカルファイルパス (e.g., C:\Users\username\Downloads\video.mp4)

例:

YouTube URLからビデオを分析する場合

{
  "videoSource": "https://www.youtube.com/watch?v=9hE5-98ZeCg",
  "prompt": "What is this video about? Describe what you see in detail."
}

ローカルビデオファイルを分析する場合

{
  "videoSource": "C:\\Users\\username\\Downloads\\video.mp4",
  "prompt": "What is this video about? Describe what you see in detail."
}

注: パブリックビデオURLとしてはYouTube URLのみがサポートされています。他のパブリックビデオURLは現在サポートされていません。

📚 ドキュメント

環境構成

基本的なセットアップでは、プロバイダーの選択と必要な資格情報の構成のみが必要です。

Google AI Studioプロバイダー（推奨）

export IMAGE_PROVIDER="google"
export VIDEO_PROVIDER="google"
export GEMINI_API_KEY="your-gemini-api-key"

Vertex AIプロバイダー（本番環境）

export IMAGE_PROVIDER="vertex_ai"
export VIDEO_PROVIDER="vertex_ai"
export VERTEX_CREDENTIALS="/path/to/service-account.json"
export GCS_BUCKET_NAME="your-gcs-bucket"

📖 詳細な構成ガイド

包括的な環境変数のドキュメントには、以下が含まれます。

完全な構成リファレンス（60以上の環境変数）
関数固有の最適化例
高度な構成パターン
トラブルシューティングガイダンス

👉 環境変数ガイドを参照

構成の優先順位の概要

このサーバーは階層的な構成システムを使用しており、より具体的な設定が一般的な設定を上書きします。

LLMによって割り当てられた値（ツール呼び出しのランタイムパラメーター）
関数固有の変数 (TEMPERATURE_FOR_ANALYZE_IMAGEなど)
タスク固有の変数 (TEMPERATURE_FOR_IMAGEなど)
汎用変数 (TEMPERATUREなど)
システムデフォルト

クイック構成例

基本的な最適化

# General settings
export TEMPERATURE=0.7
export MAX_TOKENS=1500

# Task-specific optimization
export TEMPERATURE_FOR_IMAGE=0.2     # More precise for images
export TEMPERATURE_FOR_VIDEO=0.5     # More creative for videos

関数固有の最適化

# Optimize individual functions
export TEMPERATURE_FOR_ANALYZE_IMAGE=0.1
export TEMPERATURE_FOR_COMPARE_IMAGES=0.3
export TEMPERATURE_FOR_DETECT_OBJECTS_IN_IMAGE=0.0  # Deterministic
export MAX_TOKENS_FOR_DETECT_OBJECTS_IN_IMAGE=8192   # High token limit

モデル選択

# Choose models per function
export ANALYZE_IMAGE_MODEL="gemini-2.5-flash-lite"
export COMPARE_IMAGES_MODEL="gemini-2.5-flash"
export ANALYZE_VIDEO_MODEL="gemini-2.5-flash-pro"

開発

前提条件

Node.js 18+
npmまたはyarn

セットアップ

# Clone the repository
git clone https://github.com/tan-yong-sheng/ai-vision-mcp.git
cd ai-vision-mcp

# Install dependencies
npm install

# Build the project
npm run build

# Start development server
npm run dev

スクリプト

npm run build - TypeScriptプロジェクトをビルドします。
npm run dev - ウォッチモードで開発サーバーを起動します。
npm run lint - ESLintを実行します。
npm run format - Prettierでコードをフォーマットします。
npm start - ビルドされたサーバーを起動します。

アーキテクチャ

このプロジェクトはモジュール型のアーキテクチャに従っています。

src/
├── providers/          # AI provider implementations
│   ├── gemini/        # Google Gemini provider
│   ├── vertexai/      # Vertex AI provider
│   └── factory/       # Provider factory
├── services/          # Core services
│   ├── ConfigService.ts
│   └── FileService.ts
├── storage/           # Storage implementations
├── file-upload/       # File upload strategies
├── types/            # TypeScript type definitions
├── utils/            # Utility functions
└── server.ts         # Main MCP server

エラーハンドリング

このサーバーには包括的なエラーハンドリングが含まれています。

検証エラー: Zodスキーマを使用した入力検証
ネットワークエラー: 指数バックオフを伴う自動リトライ
認証エラー: APIキーの問題に対する明確なエラーメッセージ
ファイルエラー: ファイルサイズ制限と形式制限のハンドリング

🔧 技術詳細

このプロジェクトは、Google GeminiとVertex AIを使用して画像およびビデオ分析を行う強力なModel Context Protocol (MCP)サーバーです。モジュール型のアーキテクチャを採用しており、各機能は独立したモジュールとして実装されています。また、Zodを使用したデータ検証、指数バックオフを伴う自動リトライ、サーキットブレーカーを備えた堅牢なエラーハンドリングが実装されています。