MCP Vision Relay
M

MCP Vision Relay

MCP Vision Relay 是一个 MCP 服务器,通过封装本地安装的 Gemini 和 Qwen 命令行工具,为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力,使其能够处理本地路径、URL 或 base64 编码的图片。
2.5分
0

什么是MCP Vision Relay?

MCP Vision Relay是一个桥梁工具,它允许不支持原生图像分析的AI助手(如Claude、Codex等)通过调用您本地已安装的多模态AI工具来分析图像。它将这些工具封装成标准化的MCP服务器,让您的AI助手能够像使用内置功能一样使用图像分析能力。

如何使用MCP Vision Relay?

使用分为三步:1) 在您的电脑上安装并配置好Gemini CLI或Qwen CLI;2) 安装并运行MCP Vision Relay服务器;3) 在您的AI助手(如Claude Desktop)中注册这个服务器。完成后,您就可以在对话中直接让AI助手分析图片了。

适用场景

当您使用的AI助手(例如通过某些服务商接入的Claude或Codex)本身没有图像分析功能时,这个工具就非常有用。它为您提供了一个低成本、不更换服务商就能恢复多模态能力的解决方案。例如,分析截图中的代码、解释图表内容、描述照片中的场景等。

主要功能

统一的图像分析工具
提供 `gemini_analyze_image` 和 `qwen_analyze_image` 两个工具,支持通过本地文件路径、网络图片链接或Base64编码字符串三种方式输入图片进行分析。
多提供商中继架构
通过抽象的“提供商”层,可以轻松切换或扩展不同的命令行工具(CLI)。保留了对模型选择、输出格式等核心配置的控制能力。
健壮的输入处理
自动检查图片大小和文件格式,必要时会自动下载网络图片或解码Base64数据到临时文件,并在使用后清理,确保安全性和资源管理。
高度可配置的执行
支持沙盒模式、超时设置、附加命令行参数、覆盖默认模型等。可以通过环境变量或`.env`文件进行灵活配置。
结构化的可操作输出
对底层CLI的输出进行整理,并附加元数据(如使用的模型、分析耗时、图片来源等),方便AI助手在界面中展示或进行后续处理。
优势
低成本扩展能力:无需升级到更昂贵的支持视觉的AI服务套餐,利用本地免费或低成本的CLI工具即可。
无缝集成:在支持的AI助手(如Claude Desktop)中注册后,图像分析工具就像原生功能一样出现在工具列表中。
灵活选择:支持多个后端(Gemini, Qwen),您可以根据需求、模型性能或成本选择最合适的一个。
隐私可控:图片分析过程发生在您本地调用的CLI上,您可以了解数据是如何被发送到对应服务商的。
局限性
依赖本地环境:需要在您的电脑上预先安装并正确配置好对应的CLI工具,并完成登录认证。
额外步骤:相比AI助手内置的视觉功能,需要额外的安装和配置步骤。
性能依赖:分析速度和效果取决于您选择的CLI工具及其背后的AI模型。
间接调用:并非AI助手原生理解图像,而是将任务“转交”给另一个工具,可能在某些复杂交互场景下不如原生集成流畅。

如何使用

环境准备
确保您的电脑已安装 Node.js (版本18或更高)。然后,根据您的选择,安装并配置好 Google Gemini CLI 或 Qwen CLI。请确保在命令行中直接运行 `gemini -p "hi"` 或 `qwen -p "hi"` 能正常返回结果,这表示CLI已正确安装和授权。
安装与构建 MCP Vision Relay
下载或克隆MCP Vision Relay项目,进入项目目录,安装依赖并构建项目。
配置(可选)
复制项目中的 `.env.example` 文件为 `.env`,并根据您的需要修改配置,例如设置默认模型、超时时间等。如果您保持CLI的默认安装和配置,此步骤可以跳过。
在AI助手中注册服务器
在您使用的AI助手(如Claude Desktop或Codex CLI)中,将MCP Vision Relay添加为一个MCP服务器。注意:注册命令需要直接调用入口文件,而不是通过npm脚本,以避免额外输出干扰通信。
开始使用
注册成功后,在AI助手的对话界面中,您应该能看到新添加的图像分析工具(如 `gemini_analyze_image`)。您就可以在对话中要求AI助手使用这些工具来分析图片了。

使用案例

分析技术图表
您截取了一张系统架构图,想让AI助手解释其中的组件和工作流程。
解释错误截图
程序运行时弹出了一个错误对话框,您截图后想了解这个错误的具体含义和可能的原因。
描述照片内容
您有一张旅行时拍摄的风景照,想让AI助手生成一段优美的描述文字。

常见问题

我已经有能分析图像的AI了,为什么还需要这个工具?
安装时遇到“命令未找到”错误怎么办?
在Claude Desktop中添加服务器失败,提示握手错误?
工具调用成功了,但返回“图片太大”或“格式不支持”的错误?
支持除了Gemini和Qwen之外的其他模型吗?

相关资源

Model Context Protocol 官方文档
了解MCP协议的标准和规范。
Google Gemini CLI 项目主页
获取Gemini CLI的安装、配置和使用说明。
Qwen Code (CLI) NPM 页面
获取Qwen CLI的安装和使用信息。
MCP Vision Relay 项目代码库
获取本项目的最新源代码、报告问题或参与贡献。

安装

复制以下命令到你的Client进行配置
注意:您的密钥属于敏感信息,请勿与任何人分享。

替代品

A
Acemcp
Acemcp是一个代码库索引和语义搜索的MCP服务器,支持自动增量索引、多编码文件处理、.gitignore集成和Web管理界面,帮助开发者快速搜索和理解代码上下文。
Python
7.2K
5分
B
Blueprint MCP
Blueprint MCP是一个基于Arcade生态的图表生成工具,利用Nano Banana Pro等技术,通过分析代码库和系统架构自动生成架构图、流程图等可视化图表,帮助开发者理解复杂系统。
Python
7.0K
4分
M
MCP Agent Mail
MCP Agent Mail是一个为AI编程代理设计的邮件式协调层,提供身份管理、消息收发、文件预留和搜索功能,支持多代理异步协作和冲突避免。
Python
7.7K
5分
K
Klavis
Klavis AI是一个开源项目,提供在Slack、Discord和Web平台上简单易用的MCP(模型上下文协议)服务,包括报告生成、YouTube工具、文档转换等多种功能,支持非技术用户和开发者使用AI工作流。
TypeScript
12.9K
5分
M
MCP
微软官方MCP服务器,为AI助手提供最新微软技术文档的搜索和获取功能
12.6K
5分
A
Aderyn
Aderyn是一个开源的Solidity智能合约静态分析工具,由Rust编写,帮助开发者和安全研究人员发现Solidity代码中的漏洞。它支持Foundry和Hardhat项目,可生成多种格式报告,并提供VSCode扩展。
Rust
9.5K
5分
D
Devtools Debugger MCP
Node.js调试器MCP服务器,提供基于Chrome DevTools协议的完整调试功能,包括断点设置、单步执行、变量检查和表达式评估等
TypeScript
9.9K
4分
S
Scrapling
Scrapling是一个自适应网页抓取库,能自动学习网站变化并重新定位元素,支持多种抓取方式和AI集成,提供高性能解析和开发者友好体验。
Python
11.3K
5分
F
Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
62.1K
4.5分
F
Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
113.5K
5分
D
Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
66.0K
4.3分
B
Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
41.5K
4.5分
M
Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
51.1K
4.8分
E
Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
45.2K
5分
C
Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
83.3K
4.7分
E
Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
26.6K
4.8分
AIBase
智启未来,您的人工智能解决方案智库
© 2025AIBase