MCP Image Recognition

一個提供圖像識別功能的MCP服務器，支持Anthropic和OpenAI的視覺API，具備圖像描述、多格式支持、可配置主備服務商及OCR文本提取功能。

圖像與視頻處理開發者工具 #圖像識別 #多模態 #OCR #API服務 .Python

評分 : 2.5分

下載量 : 17.9K

更新時間 : 2025-04-29

打開站點

什麼是MCP圖像識別服務器?

MCP圖像識別服務器是一個基於AI技術的服務，能夠分析上傳的圖片並生成詳細的文字描述。它整合了Anthropic Claude和OpenAI GPT-4等先進的視覺AI模型，可以理解圖片中的內容、場景和對象。

如何使用MCP圖像識別服務器?

使用非常簡單：1) 安裝必要的軟件環境 2) 配置API密鑰 3) 通過簡單的命令啟動服務器 4) 上傳圖片或提供圖片路徑即可獲取描述。

適用場景

適用於需要自動分析圖像內容的場景，如： - 為視障人士提供圖像描述 - 社交媒體內容自動標記 - 電子商務產品圖片分析 - 文檔中的圖像內容提取

主要功能

多AI提供商支持

同時支持Anthropic Claude和OpenAI GPT-4 Vision API，可配置主備方案

多格式支持

兼容JPEG、PNG、GIF、WebP等多種常見圖片格式

文字識別(OCR)

可選集成Tesseract OCR引擎，提取圖片中的文字內容

靈活的輸入方式

支持直接上傳圖片文件或提供Base64編碼的圖片數據

優勢

一鍵式部署，簡單易用

支持多種AI模型和備用方案，提高可靠性

開源免費，可自由定製

詳細的圖像描述能力，超越簡單標籤識別

侷限性

需要API密鑰，部分服務可能收費

OCR功能需要額外安裝Tesseract

對極高分辨率圖片處理可能較慢

如何使用

安裝準備

確保系統已安裝Python 3.8或更高版本，如需OCR功能請安裝Tesseract

獲取代碼

克隆項目倉庫到本地

配置環境

複製示例環境文件並填寫您的API密鑰

啟動服務器

使用簡單命令啟動圖像識別服務

使用案例

社交媒體圖片分析

自動生成社交媒體上傳圖片的替代文本(alt text)

文檔圖片文字提取

從掃描的文檔圖片中提取文字內容

常見問題

需要付費嗎？

支持哪些語言的文字識別？

處理一張圖片通常需要多長時間？

如何切換AI提供商？

🚀 MCP 圖像識別服務器

MCP 圖像識別服務器藉助 Anthropic 和 OpenAI 視覺 API，為用戶提供強大的圖像識別功能。當前版本為 0.1.2，能有效解決圖像描述、文本提取等需求，為開發者和使用者帶來便利。

🚀 快速開始

MCP 圖像識別服務器可快速搭建並投入使用。以下是詳細的啟動步驟：

運行服務器

使用 Python 啟動：

python -m image_recognition_server.server

通過批處理腳本啟動：

run.bat server

以開發模式運行（附帶 MCP inspector）：

run.bat debug

✨ 主要特性

多 API 支持：可使用 Anthropic Claude Vision 或 OpenAI GPT - 4 Vision 進行圖像描述。
多格式兼容：支持 JPEG、PNG、GIF、WebP 等多種圖像格式。
可配置性強：具備可配置的主要和備用提供程序。
靈活輸入方式：支持 Base64 和文件格式的圖像輸入。
可選 OCR 功能：提供可選的 Tesseract OCR 文本提取功能。

📦 安裝指南

依賴項

Python：需 Python 3.8 或更高版本。
Tesseract OCR（可選）：用於文本提取功能。
- Windows：從 UB - Mannheim/tesseract 下載並安裝。
- Linux：使用命令 sudo apt-get install tesseract-ocr 進行安裝。
- macOS：使用命令 brew install tesseract 進行安裝。

安裝步驟

克隆倉庫：

git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition

創建並配置環境文件：

cp .env.example .env
# 編輯 .env 文件以設置 API 密鑰和偏好設置

構建項目：

build.bat

💻 使用示例

可用工具

`describe_image`

輸入：Base64 編碼的圖像數據和 MIME 類型。
輸出：圖像的詳細描述。

`describe_image_from_file`

輸入：圖像文件路徑。
輸出：圖像的詳細描述。

📚 詳細文檔

環境配置

屬性	詳情
`ANTHROPIC_API_KEY`	Anthropic API 密鑰
`OPENAI_API_KEY`	OpenAI API 密鑰
`IMAGE_SIZE`	處理圖像的大小（默認為 "256x256"）
`MAX_ITERATIONS`	最大迭代次數（默認為 100）