mcp-video-extraction - 基於MCP協議，支持多平臺視頻下載與Whisper語音轉文字的提取服務器

探索

MCP Video Extraction

一個基於MCP協議的視頻音頻文本提取服務器，支持從多平臺下載視頻並利用Whisper模型進行語音轉文字處理

語音處理教育與學習工具 #視頻轉文字 #音頻轉錄 #多平臺支持 #MCP服務 .Python

評分 : 2.5分

下載量 : 10.1K

更新時間 : 2025-07-31

打開站點

安裝

複製以下命令到你的Client進行配置

"mcpServers": {
  "video-extraction": {
    "command": "uvx",
    "args": ["mcp-video-extraction"]
  }
}

注意：您的密鑰屬於敏感信息，請勿與任何人分享。

🚀 MCP視頻與音頻文本提取服務器

這是一個MCP服務器，可從各種視頻平臺和音頻文件中提取文本。該服務器實現了模型上下文協議（MCP），為音頻轉錄服務提供標準化訪問。

🚀 快速開始

本服務支持從多個平臺下載視頻並提取音頻，使用前請確保滿足系統要求，首次運行會自動下載約1GB的Whisper模型文件。

✨ 主要特性

基於Whisper的高質量語音識別
多語言文本識別
支持多種音頻格式（mp3、wav、m4a等）
符合MCP的工具接口
大文件異步處理

📦 安裝指南

使用uv（推薦）

使用uv時無需進行特定安裝，我們將使用uvx直接運行視頻提取服務器：

curl -LsSf https://astral.sh/uv/install.sh | sh

安裝FFmpeg

FFmpeg是音頻處理所必需的，你可以通過以下多種方式安裝：

# Ubuntu或Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

# MacOS
brew install ffmpeg

# Windows（使用Chocolatey）
choco install ffmpeg

# Windows（使用Scoop）
scoop install ffmpeg

💻 使用示例

為Claude/Cursor進行配置

在Claude/Cursor設置中添加以下內容：

"mcpServers": {
  "video-extraction": {
    "command": "uvx",
    "args": ["mcp-video-extraction"]
  }
}

可用的MCP工具

視頻下載：從支持的平臺下載視頻
音頻下載：從支持平臺的視頻中提取音頻
視頻文本提取：從視頻中提取文本（下載並轉錄）
音頻文件文本提取：從音頻文件中提取文本

📚 詳細文檔

支持的平臺

本服務支持從各種平臺下載視頻並提取音頻，包括但不限於：

YouTube
Bilibili
TikTok
Instagram
Twitter/X
Facebook
Vimeo
Dailymotion
SoundCloud

完整的支持平臺列表，請訪問 yt-dlp支持的站點。

核心技術

本項目通過MCP工具利用OpenAI的Whisper模型進行音頻轉文本處理。服務器公開了四個主要工具：

視頻下載：從支持的平臺下載視頻
音頻下載：從支持平臺的視頻中提取音頻
視頻文本提取：從視頻中提取文本（下載並轉錄）
音頻文件文本提取：從音頻文件中提取文本

MCP集成

本服務器使用模型上下文協議構建，它提供：

向大語言模型公開工具的標準化方式
對視頻內容和音頻文件的安全訪問
與Claude Desktop等MCP客戶端集成

技術棧

Python 3.10+
模型上下文協議（MCP）Python SDK
yt-dlp（YouTube視頻下載）
openai-whisper（核心音頻轉文本引擎）
pydantic

系統要求

FFmpeg（音頻處理必需）
至少8GB內存
推薦GPU加速（NVIDIA GPU + CUDA）
足夠的磁盤空間（用於模型下載和臨時文件）

配置

該服務可以通過環境變量進行配置：

Whisper配置

WHISPER_MODEL：Whisper模型大小（tiny/base/small/medium/large），默認值：'base'
WHISPER_LANGUAGE：轉錄的語言設置，默認值：'auto'

YouTube下載配置

YOUTUBE_FORMAT：下載的視頻格式，默認值：'bestaudio'
AUDIO_FORMAT：提取的音頻格式，默認值：'mp3'
AUDIO_QUALITY：音頻質量設置，默認值：'192'

存儲配置

TEMP_DIR：臨時文件存儲位置，默認值：'/tmp/mcp-video'

下載設置

DOWNLOAD_RETRIES：下載重試次數，默認值：10
FRAGMENT_RETRIES：片段下載重試次數，默認值：10
SOCKET_TIMEOUT：套接字超時時間（秒），默認值：30

性能優化提示

GPU加速：
- 安裝CUDA和cuDNN
- 確保安裝了PyTorch的GPU版本
調整模型大小：
- tiny：速度最快，但準確率較低
- base：速度和準確率平衡
- large：準確率最高，但需要更多資源
使用SSD存儲臨時文件以提高I/O性能

注意事項

首次運行時需要下載Whisper模型（約1GB）
確保有足夠的磁盤空間用於臨時音頻文件
YouTube視頻下載需要穩定的網絡連接
建議使用GPU以加快音頻處理速度
處理長視頻可能需要較長時間

MCP集成指南

本服務器可與任何兼容MCP的客戶端配合使用，例如：

Claude Desktop
自定義MCP客戶端
其他支持MCP的應用程序

有關MCP的更多信息，請訪問模型上下文協議。

文檔

中文文檔請參考 README_zh.md

🔧 技術細節

本項目利用OpenAI的Whisper模型進行音頻轉文本處理，這是核心的音頻處理技術。服務器基於模型上下文協議（MCP）構建，通過標準化的方式向大語言模型公開工具，同時保障對視頻內容和音頻文件的安全訪問。技術棧採用Python 3.10+，結合了MCP Python SDK、yt-dlp、openai-whisper和pydantic等工具和庫。