MCP Speaker Diarization
M

MCP Speaker Diarization

MCP說話人分離與識別系統是一個集成了GPU加速的說話人分離、語音識別、情感檢測和Web界面的完整解決方案。它結合了pyannote.audio的說話人分離與faster-whisper轉錄技術,支持持久化說話人識別(一次註冊,永久識別)、雙檢測器情感分析(結合通用AI與個性化聲紋)、即時流處理、REST API和MCP服務器,專為AI智能體集成和愛好項目設計。
2分
0

什麼是MCP Speaker Diarization?

這是一個先進的語音處理系統,能夠自動完成以下任務: 1. **說話者分離**:識別音頻中有幾個不同的人在說話 2. **說話者識別**:記住每個人的聲音特徵,下次聽到時能自動認出 3. **情緒檢測**:分析說話時的情緒狀態(開心、生氣、中性等) 4. **語音轉文字**:將對話內容轉換為文字記錄 系統特別適合會議記錄、客服分析、多輪對話等場景,能夠為AI助手提供完整的對話上下文記憶。

如何使用MCP Speaker Diarization?

使用非常簡單: 1. **上傳音頻文件**:支持MP3、WAV等常見格式 2. **即時錄音**:通過網頁直接錄音並即時處理 3. **查看結果**:系統自動分析出誰說了什麼、情緒如何 4. **AI集成**:通過MCP協議讓AI助手也能訪問對話歷史 無需專業知識,系統會自動學習並改進識別準確度。

適用場景

這個系統特別適合以下場景: • **團隊會議記錄**:自動區分不同發言者,記錄會議內容 • **客服質量分析**:分析客服與客戶的對話情緒和內容 • **AI助手增強**:讓AI能記住不同用戶的對話歷史和身份 • **訪談轉錄**:快速將訪談錄音轉為帶說話者標籤的文字稿 • **語言學習**:分析對話中的語音模式和情緒表達

主要功能

智能說話者識別
系統能記住每個人的聲音特徵。一旦識別過某人的聲音,以後在所有錄音中都能自動認出他們,不再顯示為'未知說話者'。
雙模式情緒檢測
結合通用情緒AI和個人聲音特徵,提供更準確的情緒識別。能識別9種情緒:開心、生氣、悲傷、中性、恐懼、驚訝、厭惡等。
即時語音處理
支持網頁即時錄音,邊錄音邊分析。語音活動檢測自動分割對話片段,響應迅速。
AI助手集成
通過MCP協議,讓Claude、Flowise等AI助手能直接訪問對話歷史,記住不同說話者的身份和對話內容。
多語言支持
支持99種語言的語音轉文字,包括中文、英文、日文、韓文等主流語言。
智能糾錯學習
當您糾正系統的識別錯誤時,系統會學習並改進,下次遇到類似情況會更準確。
批量處理
支持同時上傳多個音頻文件批量處理,適合處理大量歷史錄音。
數據備份恢復
所有說話者聲音特徵和設置都可以備份,方便遷移或恢復數據。
優勢
🎯 高準確率:結合多種AI模型,識別準確度遠超單一系統
🧠 持續學習:系統會從您的糾正中學習,越用越準確
⚡ 快速處理:GPU加速,處理1小時錄音僅需幾分鐘
🔄 自動更新:識別一個說話者後,所有歷史錄音都會自動更新
🔌 易於集成:提供標準API和MCP協議,方便與其他系統集成
📱 多端支持:網頁界面、API接口、AI助手集成全覆蓋
侷限性
💻 需要GPU:最佳性能需要NVIDIA顯卡,CPU模式較慢
🎙️ 音頻質量依賴:嘈雜環境或低質量錄音會影響識別準確度
👥 需要初始學習:新說話者需要一定量的語音樣本才能準確識別
🌐 網絡要求:即時錄音需要穩定網絡連接
🔊 同時說話處理:多人同時說話時可能無法完美分離

如何使用

環境準備
確保您的電腦有NVIDIA顯卡(推薦)或足夠的CPU性能。安裝Docker或Python環境。
獲取API密鑰
訪問HuggingFace網站註冊賬號,獲取訪問令牌(Token),用於下載AI模型。
配置系統
複製配置文件模板,填入您的HuggingFace Token和其他設置。
啟動系統
啟動服務,系統會自動下載所需AI模型(首次啟動可能需要幾分鐘)。
訪問界面
打開瀏覽器訪問系統界面,開始上傳音頻或即時錄音。
訓練系統
首次使用時,通過'說話者管理'功能錄入已知說話者的聲音樣本。

使用案例

團隊會議記錄
每週團隊會議錄音,自動生成帶發言者標籤的會議紀要,統計每人發言時長和情緒變化。
客服質量監控
分析客服通話錄音,自動識別客服和客戶,檢測客戶情緒變化,找出需要改進的環節。
AI助手記憶增強
讓AI助手能記住家庭成員的對話歷史和偏好,提供個性化響應。
訪談轉錄分析
將專家訪談錄音轉為文字,自動區分採訪者和受訪者,分析受訪者的情緒和重點內容。

常見問題

需要什麼樣的電腦配置?
首次使用需要做什麼準備?
系統識別準確度如何?
如何提高識別準確度?
支持哪些語言?
數據安全如何保障?
能處理多長時間的錄音?
如何與AI助手集成?

相關資源

官方GitHub倉庫
項目源代碼、最新版本和問題反饋
網頁前端項目
美觀的網頁界面,提供完整用戶操作功能
HuggingFace模型
說話者分離模型,需要接受使用條款
API交互文檔
完整的REST API文檔和測試界面
MCP協議文檔
Model Context Protocol官方規範
問題討論區
提交問題、功能建議和技術討論
Docker安裝指南
Docker和Docker Compose安裝教程
CUDA安裝指南
NVIDIA CUDA工具包下載和安裝

安裝

複製以下命令到你的Client進行配置
{
  "mcpServers": {
    "speaker-diarization": {
      "url": "http://localhost:8000/mcp",
      "transport": "http"
    }
  }
}

{
  "mcpServers": {
    "speaker-diarization": {
      "command": "node",
      "args": ["/path/to/mcp-proxy.js", "http://localhost:8000/mcp"]
    }
  }
}
注意:您的密鑰屬於敏感信息,請勿與任何人分享。
M
Markdownify MCP
Markdownify是一個多功能文件轉換服務,支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。
TypeScript
23.6K
5分
B
Baidu Map
已認證
百度地圖MCP Server是國內首個兼容MCP協議的地圖服務,提供地理編碼、路線規劃等10個標準化API接口,支持Python和Typescript快速接入,賦能智能體實現地圖相關功能。
Python
31.2K
4.5分
F
Firecrawl MCP Server
Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器,提供豐富的網頁抓取、搜索和內容提取功能。
TypeScript
85.2K
5分
S
Sequential Thinking MCP Server
一個基於MCP協議的結構化思維服務器,通過定義思考階段幫助分解複雜問題並生成總結
Python
25.1K
4.5分
N
Notion Api MCP
已認證
一個基於Python的MCP服務器,通過Notion API提供高級待辦事項管理和內容組織功能,實現AI模型與Notion的無縫集成。
Python
14.1K
4.5分
M
Magic MCP
Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具,通過自然語言描述幫助開發者快速創建現代化UI組件,支持多種IDE集成。
JavaScript
16.2K
5分
E
Edgeone Pages MCP Server
EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務
TypeScript
18.9K
4.8分
C
Context7
Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務,通過Model Context Protocol直接集成到提示中,解決LLM使用過時信息的問題。
TypeScript
58.2K
4.7分
AIBase
智啟未來,您的人工智慧解決方案智庫
© 2025AIBase