🚀 MCP視頻與音頻文本提取服務器
這是一個MCP服務器,可從各種視頻平臺和音頻文件中提取文本。該服務器實現了模型上下文協議(MCP),為音頻轉錄服務提供標準化訪問。
🚀 快速開始
本服務支持從多個平臺下載視頻並提取音頻,使用前請確保滿足系統要求,首次運行會自動下載約1GB的Whisper模型文件。
✨ 主要特性
- 基於Whisper的高質量語音識別
- 多語言文本識別
- 支持多種音頻格式(mp3、wav、m4a等)
- 符合MCP的工具接口
- 大文件異步處理
📦 安裝指南
使用uv(推薦)
使用uv時無需進行特定安裝,我們將使用uvx直接運行視頻提取服務器:
curl -LsSf https://astral.sh/uv/install.sh | sh
安裝FFmpeg
FFmpeg是音頻處理所必需的,你可以通過以下多種方式安裝:
sudo apt update && sudo apt install ffmpeg
sudo pacman -S ffmpeg
brew install ffmpeg
choco install ffmpeg
scoop install ffmpeg
💻 使用示例
為Claude/Cursor進行配置
在Claude/Cursor設置中添加以下內容:
"mcpServers": {
"video-extraction": {
"command": "uvx",
"args": ["mcp-video-extraction"]
}
}
可用的MCP工具
- 視頻下載:從支持的平臺下載視頻
- 音頻下載:從支持平臺的視頻中提取音頻
- 視頻文本提取:從視頻中提取文本(下載並轉錄)
- 音頻文件文本提取:從音頻文件中提取文本
📚 詳細文檔
支持的平臺
本服務支持從各種平臺下載視頻並提取音頻,包括但不限於:
- YouTube
- Bilibili
- TikTok
- Instagram
- Twitter/X
- Facebook
- Vimeo
- Dailymotion
- SoundCloud
完整的支持平臺列表,請訪問 yt-dlp支持的站點。
核心技術
本項目通過MCP工具利用OpenAI的Whisper模型進行音頻轉文本處理。服務器公開了四個主要工具:
- 視頻下載:從支持的平臺下載視頻
- 音頻下載:從支持平臺的視頻中提取音頻
- 視頻文本提取:從視頻中提取文本(下載並轉錄)
- 音頻文件文本提取:從音頻文件中提取文本
MCP集成
本服務器使用模型上下文協議構建,它提供:
- 向大語言模型公開工具的標準化方式
- 對視頻內容和音頻文件的安全訪問
- 與Claude Desktop等MCP客戶端集成
技術棧
- Python 3.10+
- 模型上下文協議(MCP)Python SDK
- yt-dlp(YouTube視頻下載)
- openai-whisper(核心音頻轉文本引擎)
- pydantic
系統要求
- FFmpeg(音頻處理必需)
- 至少8GB內存
- 推薦GPU加速(NVIDIA GPU + CUDA)
- 足夠的磁盤空間(用於模型下載和臨時文件)
配置
該服務可以通過環境變量進行配置:
Whisper配置
WHISPER_MODEL
:Whisper模型大小(tiny/base/small/medium/large),默認值:'base'
WHISPER_LANGUAGE
:轉錄的語言設置,默認值:'auto'
YouTube下載配置
YOUTUBE_FORMAT
:下載的視頻格式,默認值:'bestaudio'
AUDIO_FORMAT
:提取的音頻格式,默認值:'mp3'
AUDIO_QUALITY
:音頻質量設置,默認值:'192'
存儲配置
TEMP_DIR
:臨時文件存儲位置,默認值:'/tmp/mcp-video'
下載設置
DOWNLOAD_RETRIES
:下載重試次數,默認值:10
FRAGMENT_RETRIES
:片段下載重試次數,默認值:10
SOCKET_TIMEOUT
:套接字超時時間(秒),默認值:30
性能優化提示
- GPU加速:
- 安裝CUDA和cuDNN
- 確保安裝了PyTorch的GPU版本
- 調整模型大小:
- tiny:速度最快,但準確率較低
- base:速度和準確率平衡
- large:準確率最高,但需要更多資源
- 使用SSD存儲臨時文件以提高I/O性能
注意事項
- 首次運行時需要下載Whisper模型(約1GB)
- 確保有足夠的磁盤空間用於臨時音頻文件
- YouTube視頻下載需要穩定的網絡連接
- 建議使用GPU以加快音頻處理速度
- 處理長視頻可能需要較長時間
MCP集成指南
本服務器可與任何兼容MCP的客戶端配合使用,例如:
- Claude Desktop
- 自定義MCP客戶端
- 其他支持MCP的應用程序
有關MCP的更多信息,請訪問 模型上下文協議。
文檔
中文文檔請參考 README_zh.md
🔧 技術細節
本項目利用OpenAI的Whisper模型進行音頻轉文本處理,這是核心的音頻處理技術。服務器基於模型上下文協議(MCP)構建,通過標準化的方式向大語言模型公開工具,同時保障對視頻內容和音頻文件的安全訪問。技術棧採用Python 3.10+,結合了MCP Python SDK、yt-dlp、openai-whisper和pydantic等工具和庫。
📄 許可證
本項目採用MIT許可證。
⚠️ 重要提示
首次運行時,系統會自動下載Whisper模型文件(約1GB),此過程可能需要幾分鐘到幾十分鐘,具體取決於網絡狀況。模型文件將在本地緩存,後續運行無需再次下載。
💡 使用建議
- 確保有足夠的磁盤空間用於臨時音頻文件
- 建議使用GPU以加快音頻處理速度
- 處理長視頻可能需要較長時間,請耐心等待