Gemini Media Analysis

一個基於Google Gemini AI的MCP服務器，提供圖像、音頻和視頻識別功能，支持多種傳輸方式和客戶端集成。

圖像與視頻處理語音處理 #視頻識別 #AI分析 #多模態 #Gemini .TypeScript

評分 : 2.5分

下載量 : 10.1K

更新時間 : 2025-04-28

打開站點

什麼是MCP視頻識別服務器?

這是一個基於Model Context Protocol (MCP)的智能服務器，利用Google Gemini AI的強大能力來分析圖像、音頻和視頻內容。它可以幫助您自動識別和描述多媒體文件中的內容。

如何使用MCP視頻識別服務器?

您可以通過簡單的API調用或集成到FLUJO等開發環境中使用本服務。只需提供多媒體文件路徑和可選的分析提示，服務器就會返回詳細的內容描述。

適用場景

適用於內容審核、多媒體索引、輔助功能(為視障人士描述圖像/視頻)、媒體內容分析等場景。

主要功能

圖像識別

使用Google Gemini AI分析圖像內容，提供詳細的文字描述

音頻識別

轉錄和分析音頻文件內容，支持自定義提示指導分析

視頻識別

分析視頻內容，描述場景變化和關鍵事件

優勢

基於Google Gemini AI，提供高質量的識別結果

支持多種媒體類型(圖像/音頻/視頻)

易於集成到現有開發環境(如FLUJO)

支持自定義分析提示，靈活控制輸出

侷限性

需要Google API密鑰

依賴外部API服務，可能有使用限制

處理大文件可能需要較長時間

如何使用

安裝服務器

可以通過手動安裝或使用FLUJO集成環境安裝

配置API密鑰

設置GOOGLE_API_KEY環境變量

啟動服務器

使用npm命令啟動服務器

發送分析請求

通過MCP協議發送包含文件路徑和分析提示的請求

使用案例

圖像內容描述

分析一張風景照片並生成詳細描述

會議錄音轉錄

將會議錄音轉換為文字並提取關鍵點

視頻內容分析

分析教學視頻並提取主要內容

常見問題

如何獲取Google Gemini API密鑰?

支持哪些文件格式?

處理大文件有限制嗎?

如何集成到我的應用中?

🚀 MCP 視頻識別服務器

MCP 視頻識別服務器是一個基於 Model Context Protocol (MCP) 的服務器，它藉助 Google 的 Gemini AI，提供了圖像、音頻和視頻識別工具，為用戶帶來便捷的多媒體內容分析體驗。

🚀 快速開始

MCP 視頻識別服務器可幫助你利用 Google Gemini AI 進行圖像、音頻和視頻的識別分析。下面為你介紹詳細的使用步驟。

✨ 主要特性

圖像識別：使用 Google Gemini AI 分析和描述圖像。
音頻識別：使用 Google Gemini AI 分析和轉錄音頻。
視頻識別：使用 Google Gemini AI 分析和描述視頻。

📦 安裝指南

手動安裝

克隆倉庫：

git clone https://github.com/yourusername/mcp-video-recognition.git
cd mcp-video-recognition

安裝依賴項：
```
npm install
```
構建項目：
```
npm run build
```

在 FLUJO 中安裝

點擊“添加服務器”。
將 Github URL 複製並粘貼到 FLUJO 中。
點擊“解析”、“克隆”、“安裝”、“構建”和“保存”。

通過配置文件安裝

要通過配置文件與 Cline 或其他 MCP 客戶端集成：

打開你的 Cline 設置：
- 在 VS Code 中，前往 File -> Preferences -> Settings。
- 搜索“Cline MCP 設置”。
- 點擊“在 settings.json 中編輯”。

將服務器配置添加到 mcpServers 對象中：

{
  "mcpServers": {
    "video-recognition": {
      "command": "node",
      "args": [
        "/path/to/mcp-video-recognition/dist/index.js"
      ],
      "disabled": false,
      "autoApprove": []
    }
  }
}

將 /path/to/mcp-video-recognition/dist/index.js 替換為項目目錄中 index.js 文件的實際路徑。使用正斜槓 (/) 或雙反斜槓 (\) 在 Windows 上。
保存設置文件。Cline 應該會自動連接到服務器。

🔧 配置

使用以下環境變量配置服務器：

GOOGLE_API_KEY：Google Gemini API 密鑰。
TRANSPORT_TYPE：傳輸類型（例如：http、grpc）。
PORT：服務器端口。

💻 使用示例

啟動服務器

npm start

基礎用法

圖像識別

{
  "tool": "image_recognition",
  "params": {
    "input_path": "path/to/image.jpg"
  }
}

音頻識別

{
  "tool": "audio_recognition",
  // 原文檔此處未完整，保持原樣
}

Markdownify MCP

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

155.0K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Python

22.8K

4.5分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

智啟未來，您的人工智慧解決方案智庫

Gemini Media Analysis

概述

安裝

內容詳情

替代品

什麼是MCP視頻識別服務器?

如何使用MCP視頻識別服務器?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 MCP 視頻識別服務器

🚀 快速開始

✨ 主要特性

📦 安裝指南

手動安裝

在 FLUJO 中安裝

通過配置文件安裝

🔧 配置

💻 使用示例

啟動服務器

基礎用法

圖像識別

音頻識別

替代品