MCP Vision Relay
什麼是MCP Vision Relay?
MCP Vision Relay是一個橋樑工具,它允許不支持原生圖像分析的AI助手(如Claude、Codex等)通過調用您本地已安裝的多模態AI工具來分析圖像。它將這些工具封裝成標準化的MCP服務器,讓您的AI助手能夠像使用內置功能一樣使用圖像分析能力。如何使用MCP Vision Relay?
使用分為三步:1) 在您的電腦上安裝並配置好Gemini CLI或Qwen CLI;2) 安裝並運行MCP Vision Relay服務器;3) 在您的AI助手(如Claude Desktop)中註冊這個服務器。完成後,您就可以在對話中直接讓AI助手分析圖片了。適用場景
當您使用的AI助手(例如通過某些服務商接入的Claude或Codex)本身沒有圖像分析功能時,這個工具就非常有用。它為您提供了一個低成本、不更換服務商就能恢復多模態能力的解決方案。例如,分析截圖中的代碼、解釋圖表內容、描述照片中的場景等。主要功能
統一的圖像分析工具
提供 `gemini_analyze_image` 和 `qwen_analyze_image` 兩個工具,支持通過本地文件路徑、網絡圖片鏈接或Base64編碼字符串三種方式輸入圖片進行分析。
多提供商中繼架構
通過抽象的“提供商”層,可以輕鬆切換或擴展不同的命令行工具(CLI)。保留了對模型選擇、輸出格式等核心配置的控制能力。
健壯的輸入處理
自動檢查圖片大小和文件格式,必要時會自動下載網絡圖片或解碼Base64數據到臨時文件,並在使用後清理,確保安全性和資源管理。
高度可配置的執行
支持沙盒模式、超時設置、附加命令行參數、覆蓋默認模型等。可以通過環境變量或`.env`文件進行靈活配置。
結構化的可操作輸出
對底層CLI的輸出進行整理,並附加元數據(如使用的模型、分析耗時、圖片來源等),方便AI助手在界面中展示或進行後續處理。
優勢
低成本擴展能力:無需升級到更昂貴的支持視覺的AI服務套餐,利用本地免費或低成本的CLI工具即可。
無縫集成:在支持的AI助手(如Claude Desktop)中註冊後,圖像分析工具就像原生功能一樣出現在工具列表中。
靈活選擇:支持多個後端(Gemini, Qwen),您可以根據需求、模型性能或成本選擇最合適的一個。
隱私可控:圖片分析過程發生在您本地調用的CLI上,您可以瞭解數據是如何被髮送到對應服務商的。
侷限性
依賴本地環境:需要在您的電腦上預先安裝並正確配置好對應的CLI工具,並完成登錄認證。
額外步驟:相比AI助手內置的視覺功能,需要額外的安裝和配置步驟。
性能依賴:分析速度和效果取決於您選擇的CLI工具及其背後的AI模型。
間接調用:並非AI助手原生理解圖像,而是將任務“轉交”給另一個工具,可能在某些複雜交互場景下不如原生集成流暢。
如何使用
環境準備
確保您的電腦已安裝 Node.js (版本18或更高)。然後,根據您的選擇,安裝並配置好 Google Gemini CLI 或 Qwen CLI。請確保在命令行中直接運行 `gemini -p "hi"` 或 `qwen -p "hi"` 能正常返回結果,這表示CLI已正確安裝和授權。
安裝與構建 MCP Vision Relay
下載或克隆MCP Vision Relay項目,進入項目目錄,安裝依賴並構建項目。
配置(可選)
複製項目中的 `.env.example` 文件為 `.env`,並根據您的需要修改配置,例如設置默認模型、超時時間等。如果您保持CLI的默認安裝和配置,此步驟可以跳過。
在AI助手中註冊服務器
在您使用的AI助手(如Claude Desktop或Codex CLI)中,將MCP Vision Relay添加為一個MCP服務器。注意:註冊命令需要直接調用入口文件,而不是通過npm腳本,以避免額外輸出干擾通信。
開始使用
註冊成功後,在AI助手的對話界面中,您應該能看到新添加的圖像分析工具(如 `gemini_analyze_image`)。您就可以在對話中要求AI助手使用這些工具來分析圖片了。
使用案例
分析技術圖表
您截取了一張系統架構圖,想讓AI助手解釋其中的組件和工作流程。
解釋錯誤截圖
程序運行時彈出了一個錯誤對話框,您截圖後想了解這個錯誤的具體含義和可能的原因。
描述照片內容
您有一張旅行時拍攝的風景照,想讓AI助手生成一段優美的描述文字。
常見問題
我已經有能分析圖像的AI了,為什麼還需要這個工具?
安裝時遇到“命令未找到”錯誤怎麼辦?
在Claude Desktop中添加服務器失敗,提示握手錯誤?
工具調用成功了,但返回“圖片太大”或“格式不支持”的錯誤?
支持除了Gemini和Qwen之外的其他模型嗎?
相關資源
Model Context Protocol 官方文檔
瞭解MCP協議的標準和規範。
Google Gemini CLI 項目主頁
獲取Gemini CLI的安裝、配置和使用說明。
Qwen Code (CLI) NPM 頁面
獲取Qwen CLI的安裝和使用信息。
MCP Vision Relay 項目代碼庫
獲取本項目的最新源代碼、報告問題或參與貢獻。

Baidu Map
已認證
百度地圖MCP Server是國內首個兼容MCP協議的地圖服務,提供地理編碼、路線規劃等10個標準化API接口,支持Python和Typescript快速接入,賦能智能體實現地圖相關功能。
Python
30.1K
4.5分

Markdownify MCP
Markdownify是一個多功能文件轉換服務,支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。
TypeScript
23.3K
5分

Firecrawl MCP Server
Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器,提供豐富的網頁抓取、搜索和內容提取功能。
TypeScript
81.7K
5分

Sequential Thinking MCP Server
一個基於MCP協議的結構化思維服務器,通過定義思考階段幫助分解複雜問題並生成總結
Python
25.5K
4.5分

Notion Api MCP
已認證
一個基於Python的MCP服務器,通過Notion API提供高級待辦事項管理和內容組織功能,實現AI模型與Notion的無縫集成。
Python
13.0K
4.5分

Magic MCP
Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具,通過自然語言描述幫助開發者快速創建現代化UI組件,支持多種IDE集成。
JavaScript
16.9K
5分

Context7
Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務,通過Model Context Protocol直接集成到提示中,解決LLM使用過時信息的問題。
TypeScript
56.1K
4.7分

Edgeone Pages MCP Server
EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務
TypeScript
18.5K
4.8分
