MCP Server Whisper

MCP Server Whisper是一個基於OpenAI Whisper和GPT-4o模型的音頻處理服務器，提供高級音頻轉錄、格式轉換、批量處理和文本轉語音等功能，通過Model Context Protocol標準實現與AI助手的無縫交互。

語音處理教育與學習工具 #音頻轉錄 #AI處理 #批量處理 #語音合成 .Python

評分 : 2分

下載量 : 12.7K

更新時間 : 2025-04-29

打開站點

什麼是MCP Server Whisper?

MCP Server Whisper是一個智能音頻處理工具，它能將您的錄音轉換為文字，分析音頻內容，甚至生成自然語音。它使用OpenAI最先進的AI模型，特別適合處理會議記錄、訪談內容、播客等音頻材料。

如何使用MCP Server Whisper?

您可以通過簡單的自然語言指令(如'請轉錄我最近的錄音')來使用它。系統會自動找到音頻文件，選擇最適合的AI模型進行處理，並返回結果。無需複雜的技術操作。

適用場景

適用於記者採訪轉錄、會議記錄整理、播客內容分析、語音備忘錄轉換、外語學習材料處理等多種場景。特別適合需要快速從音頻中提取信息的專業人士。

主要功能

智能音頻轉錄

支持多種AI模型將語音轉換為文字，可選擇詳細程度和格式(普通/專業/故事化等)

音頻內容分析

可以直接與音頻內容'對話'，獲取AI對錄音的分析和見解

文本轉語音

將文字轉換為自然語音，支持多種聲音風格和語速調節

批量處理

可同時處理多個音頻文件，自動優化處理順序提高效率

智能文件管理

按名稱、大小、時長等條件搜索和篩選音頻文件

優勢

使用最先進的GPT-4o模型，轉錄準確率高

支持中文等多種語言的音頻處理

操作簡單，只需用自然語言描述需求

自動處理大文件壓縮和格式轉換

提供多種增強型轉錄模板滿足不同需求

侷限性

依賴OpenAI API，需要網絡連接

單次處理文件大小不超過25MB

某些專業術語可能需要人工校對

極快語速或嘈雜環境錄音可能影響準確率

如何使用

安裝準備

確保已安裝Python 3.10+和必要的依賴項

配置環境

創建.env文件並設置OpenAI API密鑰和音頻文件路徑

啟動服務

運行服務器以便Claude等AI助手可以調用

開始使用

通過自然語言指令使用各項功能，例如請求轉錄或分析音頻

使用案例

會議記錄整理

將長達1小時的會議錄音自動轉換為結構化文字記錄

外語學習輔助

分析外語聽力材料並解釋難點

播客內容摘要

自動生成播客的核心內容摘要

常見問題

支持哪些音頻格式?

轉錄準確率如何?

處理速度如何?

如何保護我的音頻隱私?

🚀 MCP 服務器耳語

MCP 服務器耳語 是一款強大的工具，藉助標準化協議與先進技術，能高效完成音頻處理和轉錄任務。它支持並行處理，可提升性能，還內置緩存機制加速重複操作，能為用戶提供高質量的音頻轉錄服務。

🚀 快速開始

想要快速使用 MCP 服務器耳語，你可以按照下面的步驟進行操作。

📦 安裝指南

使用 pip 安裝

pip install mcp-server-whisper

⚙️ 配置說明

系統要求

Python 3.10 或更高版本
Node.js (推薦 v16.24.0 或更高)
Omi 屏幕錄製器（僅限 Mac）

安裝依賴項

npm install --save-exact \
  asyncio \
  fast-mcp \
  mcp-server-whisper \
  openai \
  pydub \
  ruff \
  mypy

💻 使用示例

基礎用法

from mcp_server_whisper import start

# 啟動 MCP 服務器耳語，默認配置
start()

# 或指定自定義音頻文件路徑
AUDIO_FILES_PATH = "/path/to/your/audio/files"
start(audio_files_path=AUDIO_FILES_PATH)

⚙️ 配置選項

MCP 服務器配置

通過創建 mcp_server_whisper_config.json 文件進行配置：

{
  "servers": {
    "whisper": {
      "host": "localhost",
      "port": 3001,
      "workers": 4,
      "max_body_size": "5mb"
    }
  },
  "openai": {
    "api_key": "your_openai_api_key",
    "model": "gpt-4o-transcribe",
    "temperature": 0.7
  }
}

🛠️ 開發工具

工具鏈

項目使用現代 Python 開發工具：

# 運行測試
pytest

# 帶覆蓋率的測試
pytest --cov=src

# 格式化代碼
ruff format src

# 檢查代碼風格
ruff check src

# 運行類型檢查（嚴格模式）
mypy --strict src

🏗️ 項目架構

關鍵組件

MCP 協議：通過標準化的 MCP 工具接口暴露音頻處理功能。
並行處理：使用 asyncio 和批處理提升性能。
文件管理：實現音頻文件的檢測、驗證、轉換和壓縮。
豐富轉錄：藉助 OpenAI 的不同模型（包括 gpt-4o-transcribe）提供高質量轉錄。
優化性能：內置緩存機制以加速重複操作。

🤝 貢獻指南

如何貢獻

在 GitHub 上 fork 倉庫
創建功能分支 (git checkout -b feature/amazing-feature)
提交代碼更改
運行測試和檢查 (pytest && ruff check src && mypy --strict src)
提交變更 (git commit -m 'Add some amazing feature')
推送到分支 (git push origin feature/amazing-feature)
創建 Pull Request

📄 許可證

本項目遵循 MIT 許可證，具體內容詳見 LICENSE 文件。

🙏 致謝

感謝以下項目和技術：

Model Context Protocol (MCP)：提供協議規範
pydub：用於音頻處理
OpenAI Whisper：用於音頻轉錄
asyncio：異步編程支持
fast-mcp：快速 MCP 實現

Markdownify MCP

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

154.9K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

TypeScript

98.5K

4.7分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

智啟未來，您的人工智慧解決方案智庫

MCP Server Whisper

概述

安裝

內容詳情

替代品

什麼是MCP Server Whisper?

如何使用MCP Server Whisper?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 MCP 服務器耳語

🚀 快速開始

📦 安裝指南

使用 pip 安裝

⚙️ 配置說明

系統要求

安裝依賴項

💻 使用示例

基礎用法

⚙️ 配置選項

MCP 服務器配置

🛠️ 開發工具

工具鏈

🏗️ 項目架構

關鍵組件

🤝 貢獻指南

如何貢獻

📄 許可證

🙏 致謝

替代品