MCP Speaker Diarization
M

MCP Speaker Diarization

MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术,支持持久化说话人识别(一次注册,永久识别)、双检测器情感分析(结合通用AI与个性化声纹)、实时流处理、REST API和MCP服务器,专为AI智能体集成和爱好项目设计。
2分
0

什么是MCP Speaker Diarization?

这是一个先进的语音处理系统,能够自动完成以下任务: 1. **说话者分离**:识别音频中有几个不同的人在说话 2. **说话者识别**:记住每个人的声音特征,下次听到时能自动认出 3. **情绪检测**:分析说话时的情绪状态(开心、生气、中性等) 4. **语音转文字**:将对话内容转换为文字记录 系统特别适合会议记录、客服分析、多轮对话等场景,能够为AI助手提供完整的对话上下文记忆。

如何使用MCP Speaker Diarization?

使用非常简单: 1. **上传音频文件**:支持MP3、WAV等常见格式 2. **实时录音**:通过网页直接录音并实时处理 3. **查看结果**:系统自动分析出谁说了什么、情绪如何 4. **AI集成**:通过MCP协议让AI助手也能访问对话历史 无需专业知识,系统会自动学习并改进识别准确度。

适用场景

这个系统特别适合以下场景: • **团队会议记录**:自动区分不同发言者,记录会议内容 • **客服质量分析**:分析客服与客户的对话情绪和内容 • **AI助手增强**:让AI能记住不同用户的对话历史和身份 • **访谈转录**:快速将访谈录音转为带说话者标签的文字稿 • **语言学习**:分析对话中的语音模式和情绪表达

主要功能

智能说话者识别
系统能记住每个人的声音特征。一旦识别过某人的声音,以后在所有录音中都能自动认出他们,不再显示为'未知说话者'。
双模式情绪检测
结合通用情绪AI和个人声音特征,提供更准确的情绪识别。能识别9种情绪:开心、生气、悲伤、中性、恐惧、惊讶、厌恶等。
实时语音处理
支持网页实时录音,边录音边分析。语音活动检测自动分割对话片段,响应迅速。
AI助手集成
通过MCP协议,让Claude、Flowise等AI助手能直接访问对话历史,记住不同说话者的身份和对话内容。
多语言支持
支持99种语言的语音转文字,包括中文、英文、日文、韩文等主流语言。
智能纠错学习
当您纠正系统的识别错误时,系统会学习并改进,下次遇到类似情况会更准确。
批量处理
支持同时上传多个音频文件批量处理,适合处理大量历史录音。
数据备份恢复
所有说话者声音特征和设置都可以备份,方便迁移或恢复数据。
优势
🎯 高准确率:结合多种AI模型,识别准确度远超单一系统
🧠 持续学习:系统会从您的纠正中学习,越用越准确
⚡ 快速处理:GPU加速,处理1小时录音仅需几分钟
🔄 自动更新:识别一个说话者后,所有历史录音都会自动更新
🔌 易于集成:提供标准API和MCP协议,方便与其他系统集成
📱 多端支持:网页界面、API接口、AI助手集成全覆盖
局限性
💻 需要GPU:最佳性能需要NVIDIA显卡,CPU模式较慢
🎙️ 音频质量依赖:嘈杂环境或低质量录音会影响识别准确度
👥 需要初始学习:新说话者需要一定量的语音样本才能准确识别
🌐 网络要求:实时录音需要稳定网络连接
🔊 同时说话处理:多人同时说话时可能无法完美分离

如何使用

环境准备
确保您的电脑有NVIDIA显卡(推荐)或足够的CPU性能。安装Docker或Python环境。
获取API密钥
访问HuggingFace网站注册账号,获取访问令牌(Token),用于下载AI模型。
配置系统
复制配置文件模板,填入您的HuggingFace Token和其他设置。
启动系统
启动服务,系统会自动下载所需AI模型(首次启动可能需要几分钟)。
访问界面
打开浏览器访问系统界面,开始上传音频或实时录音。
训练系统
首次使用时,通过'说话者管理'功能录入已知说话者的声音样本。

使用案例

团队会议记录
每周团队会议录音,自动生成带发言者标签的会议纪要,统计每人发言时长和情绪变化。
客服质量监控
分析客服通话录音,自动识别客服和客户,检测客户情绪变化,找出需要改进的环节。
AI助手记忆增强
让AI助手能记住家庭成员的对话历史和偏好,提供个性化响应。
访谈转录分析
将专家访谈录音转为文字,自动区分采访者和受访者,分析受访者的情绪和重点内容。

常见问题

需要什么样的电脑配置?
首次使用需要做什么准备?
系统识别准确度如何?
如何提高识别准确度?
支持哪些语言?
数据安全如何保障?
能处理多长时间的录音?
如何与AI助手集成?

相关资源

官方GitHub仓库
项目源代码、最新版本和问题反馈
网页前端项目
美观的网页界面,提供完整用户操作功能
HuggingFace模型
说话者分离模型,需要接受使用条款
API交互文档
完整的REST API文档和测试界面
MCP协议文档
Model Context Protocol官方规范
问题讨论区
提交问题、功能建议和技术讨论
Docker安装指南
Docker和Docker Compose安装教程
CUDA安装指南
NVIDIA CUDA工具包下载和安装

安装

复制以下命令到你的Client进行配置
{
  "mcpServers": {
    "speaker-diarization": {
      "url": "http://localhost:8000/mcp",
      "transport": "http"
    }
  }
}

{
  "mcpServers": {
    "speaker-diarization": {
      "command": "node",
      "args": ["/path/to/mcp-proxy.js", "http://localhost:8000/mcp"]
    }
  }
}
注意:您的密钥属于敏感信息,请勿与任何人分享。
F
Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
61.6K
4.5分
D
Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
68.0K
4.3分
F
Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
116.9K
5分
E
Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
27.0K
4.8分
B
Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
42.7K
4.5分
C
Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
85.7K
4.7分
M
Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
52.8K
4.8分
E
Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
45.2K
5分
AIBase
智启未来,您的人工智能解决方案智库
© 2025AIBase