Voicemode MCP服务器 - 支持Claude、ChatGPT，实现AI助手自然语音对话交互工具

探索

Voicemode

Voice Mode是一个为AI助手提供自然语音对话功能的工具，支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。

语音处理人工智能聊天机器人 #语音交互 #AI助手 #MCP协议 #实时通信 .Python

评分 : 2.5分

下载量 : 8.4K

更新时间 : 2025-07-24

打开站点

什么是 Model Context Protocol (MCP) 服务器？

MCP 服务器是用于实现 AI 助手自然语音交互的系统，它允许用户通过语音与 AI 进行对话，适用于 Claude、ChatGPT 等多种大模型。

如何使用 MCP 服务器？

MCP 服务器通常通过命令行或集成到开发工具中使用。用户可以通过配置环境变量和运行相关命令来启动服务。

适用场景

MCP 服务器适合需要语音交互的 AI 助手，如编程辅助、日常任务处理、语音控制等场景。

主要功能

自然语音交互

支持用户通过语音与 AI 助手进行自然对话。

多平台兼容

支持 Linux、macOS、Windows（WSL）和 NixOS 等多种操作系统。

实时交互

提供低延迟的语音交互体验，支持自动传输选择。

静音检测

自动停止录音当用户停止说话，无需等待。

优势

支持多种 AI 模型，包括 Claude 和 ChatGPT。

提供自然语音交互体验，提升用户体验。

支持本地和云服务，灵活部署。

易于集成到现有开发工具中。

局限性

需要一定的技术基础进行配置。

对硬件要求较高，尤其是音频设备。

部分功能可能需要额外依赖库或服务。

如何使用

安装 MCP 服务器

使用 pip 或 UV 安装 MCP 服务器。

配置环境变量

设置 OpenAI API 密钥和其他必要的环境变量。

启动 MCP 服务器

运行 MCP 服务器以开始语音交互。

使用案例

调试代码

用户可以与 AI 助手讨论代码问题并共同调试。

设计系统架构

用户可以与 AI 助手讨论系统设计和架构。

准备面试

用户可以与 AI 助手进行模拟面试练习。

常见问题

MCP 服务器需要哪些硬件要求？

如何解决麦克风访问问题？

MCP 服务器支持哪些 AI 模型？

如何配置 MCP 服务器？

🚀 语音模式

语音模式为AI助手带来自然的语音对话体验。它通过模型上下文协议（MCP），为Claude、ChatGPT等大语言模型（LLMs）赋予类似人类的语音交互能力。

🚀 快速开始

📖 使用其他工具？ 查看我们针对Cursor、VS Code、Gemini CLI等工具的集成指南！

npm install -g @anthropic-ai/claude-code
curl -LsSf https://astral.sh/uv/install.sh | sh
claude mcp add --scope user voice-mode uvx voice-mode
export OPENAI_API_KEY=your-openai-key
claude converse

✨ 主要特性

🎙️ 语音对话：与Claude进行语音交流，提问并听取回复。
🔄 多种传输方式：支持使用本地麦克风或基于LiveKit房间的通信方式。
🗣️ 兼容OpenAI：可与任何语音识别（STT）/文本转语音（TTS）服务（本地或云端）配合使用。
⚡ 实时交互：低延迟语音交互，自动选择传输方式。
🔧 MCP集成：与Claude Desktop等MCP客户端无缝集成。
🎯 静音检测：当你停止说话时自动停止录音（无需再等待！）

📦 安装指南

前提条件

Python >= 3.10
Astral UV：包管理器（使用 curl -LsSf https://astral.sh/uv/install.sh | sh 进行安装）
OpenAI API密钥（或兼容服务）

系统依赖

Ubuntu/Debian

sudo apt update
sudo apt install -y python3-dev libasound2-dev libasound2-plugins libportaudio2 portaudio19-dev ffmpeg pulseaudio pulseaudio-utils

WSL2用户注意：WSL2需要额外的音频包（pulseaudio、libasound2-plugins）才能访问麦克风。如果遇到问题，请查看我们的 WSL2麦克风访问指南。

Fedora/RHEL

sudo dnf install python3-devel alsa-lib-devel portaudio-devel ffmpeg

macOS

# 如果尚未安装Homebrew，请先安装
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# 安装依赖
brew install portaudio ffmpeg

Windows (WSL)

在WSL中遵循上述Ubuntu/Debian的安装说明。

NixOS

语音模式包含一个flake.nix文件，其中包含所有必需的依赖项。你可以选择以下方式之一：

使用开发环境（临时）：

nix develop github:mbailey/voicemode

系统级安装（见下文安装部分）

快速安装

# 使用Claude Code（推荐）
claude mcp add --scope user voice-mode uvx voice-mode

# 在NixOS上使用Claude Code
claude mcp add voice-mode nix run github:mbailey/voicemode

# 使用UV
uvx voice-mode

# 使用pip
pip install voice-mode

# 在NixOS上使用Nix
nix run github:mbailey/voicemode

AI编码助手的配置

📖 寻找详细的设置说明？ 查看我们全面的集成指南，获取每个工具的分步说明！

以下是快速配置片段。完整的安装和设置说明，请参考上述集成指南。

Claude Code (CLI)

claude mcp add voice-mode -- uvx voice-mode

或者使用环境变量：

claude mcp add voice-mode --env OPENAI_API_KEY=your-openai-key -- uvx voice-mode

Claude Desktop

macOS：~/Library/Application Support/Claude/claude_desktop_config.json
Windows：%APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voice-mode": {
      "command": "uvx",
      "args": ["voice-mode"],
      "env": {
        "OPENAI_API_KEY": "your-openai-key"
      }
    }
  }
}

Cline

添加到你的Cline MCP设置中：

Windows：

{
  "mcpServers": {
    "voice-mode": {
      "command": "cmd",
      "args": ["/c", "uvx", "voice-mode"],
      "env": {
        "OPENAI_API_KEY": "your-openai-key"
      }
    }
  }
}

macOS/Linux：

{
  "mcpServers": {
    "voice-mode": {
      "command": "uvx",
      "args": ["voice-mode"],
      "env": {
        "OPENAI_API_KEY": "your-openai-key"
      }
    }
  }
}

Continue

添加到你的 .continue/config.json 文件中：

{
  "experimental": {
    "modelContextProtocolServers": [
      {
        "transport": {
          "type": "stdio",
          "command": "uvx",
          "args": ["voice-mode"],
          "env": {
            "OPENAI_API_KEY": "your-openai-key"
          }
        }
      }
    ]
  }
}

Cursor

添加到 ~/.cursor/mcp.json 文件中：

{
  "mcpServers": {
    "voice-mode": {
      "command": "uvx",
      "args": ["voice-mode"],
      "env": {
        "OPENAI_API_KEY": "your-openai-key"
      }
    }
  }
}

VS Code

添加到你的VS Code MCP配置中：

{
  "mcpServers": {
    "voice-mode": {
      "command": "uvx",
      "args": ["voice-mode"],
      "env": {
        "OPENAI_API_KEY": "your-openai-key"
      }
    }
  }
}

Windsurf

{
  "mcpServers": {
    "voice-mode": {
      "command": "uvx",
      "args": ["voice-mode"],
      "env": {
        "OPENAI_API_KEY": "your-openai-key"
      }
    }
  }
}

Zed

添加到你的Zed settings.json 文件中：

{
  "context_servers": {
    "voice-mode": {
      "command": {
        "path": "uvx",
        "args": ["voice-mode"],
        "env": {
          "OPENAI_API_KEY": "your-openai-key"
        }
      }
    }
  }
}

Roo Code

打开VS Code设置 (Ctrl/Cmd + ,)
在设置搜索栏中搜索 "roo"
找到 "Roo-veterinaryinc.roo-cline → settings → Mcp_settings.json"
点击 "在settings.json中编辑"
添加语音模式配置：

{
  "mcpServers": {
    "voice-mode": {
      "command": "uvx",
      "args": ["voice-mode"],
      "env": {
        "OPENAI_API_KEY": "your-openai-key"
      }
    }
  }
}

其他安装选项

使用Docker

docker run -it --rm \
  -e OPENAI_API_KEY=your-openai-key \
  --device /dev/snd \
  -v /tmp/.X11-unix:/tmp/.X11-unix \
  -e DISPLAY=$DISPLAY \
  ghcr.io/mbailey/voicemode:latest

使用pipx

pipx install voice-mode

从源代码安装

git clone https://github.com/mbailey/voicemode.git
cd voicemode
pip install -e .

NixOS安装选项

1. 使用nix profile安装（用户级）：

nix profile install github:mbailey/voicemode

2. 添加到NixOS配置（系统级）：

# 在 /etc/nixos/configuration.nix 中
environment.systemPackages = [
  (builtins.getFlake "github:mbailey/voicemode").packages.${pkgs.system}.default
];

3. 添加到home-manager：

# 在home-manager配置中
home.packages = [
  (builtins.getFlake "github:mbailey/voicemode").packages.${pkgs.system}.default
];

4. 不安装直接运行：

nix run github:mbailey/voicemode

💻 使用示例

配置完成后，可尝试向Claude发送以下提示：

👨‍💻 编程与开发

"让我们一起调试这个错误" - 口头解释问题，粘贴代码，并讨论解决方案。
"帮我讲解这段代码" - 让Claude解释复杂代码，同时你可以提问。
"让我们一起构思架构" - 通过自然对话设计系统。
"帮我为这个函数编写测试" - 描述需求并进行口头迭代。

💡 通用生产力

"让我们进行每日站会" - 练习演讲或整理思路。
"就[主题]对我进行面试" - 通过问答为面试做准备。
"做我的橡皮鸭调试伙伴" - 口头解释问题以找到解决方案。

🎯 语音控制功能

"朗读这条错误信息"（Claude朗读后等待你的回复）
"给我一个快速总结"（Claude直接朗读，无需等待）
使用 converse("message", wait_for_response=False) 进行单向播报。

converse 函数使语音交互自然流畅，默认情况下会自动等待你的回复，营造真实的对话流程。

📚 详细文档

支持的工具

语音模式可与你喜爱的AI编码助手配合使用：

🤖 Claude Code - Anthropic官方CLI工具
🖥️ Claude Desktop - 桌面应用程序
🌟 Gemini CLI - 谷歌的CLI工具
⚡ Cursor - 以AI为核心的代码编辑器
💻 VS Code - 支持MCP预览
🦘 Roo Code - VS Code中的AI开发团队
🔧 Cline - 自主编码代理
⚡ Zed - 高性能编辑器
🏄 Windsurf - Codeium的智能IDE
🔄 Continue - 开源AI助手

工具说明

工具	描述	关键参数
`converse`	进行语音对话 - 说话并可选择听取回复	`message`，`wait_for_response`（默认：true），`listen_duration`（默认：30s），`transport`（自动/本地/LiveKit）
`listen_for_speech`	监听语音并转换为文本	`duration`（默认：5s）
`check_room_status`	检查LiveKit房间状态和参与者	无
`check_audio_devices`	列出可用的音频输入/输出设备	无
`start_kokoro`	启动Kokoro TTS服务	`models_dir`（可选，默认为 `~/Models/kokoro`）
`stop_kokoro`	停止Kokoro TTS服务	无
`kokoro_status`	检查Kokoro TTS服务的状态	无
`install_whisper_cpp`	安装whisper.cpp以实现本地语音识别	`install_dir`，`model`（默认：base.en），`use_gpu`（自动检测）
`install_kokoro_fastapi`	安装kokoro-fastapi以实现本地文本转语音	`install_dir`，`port`（默认：8880），`auto_start`（默认：true）

注意：converse 工具是语音交互的主要接口，它将说话和倾听自然地结合在一起。

新增：install_whisper_cpp 和 install_kokoro_fastapi 工具可帮助你在本地设置免费、私密的开源语音服务。详细用法请参阅安装工具文档。

配置

📖 集成指南 - 每个工具的分步设置说明。
🔧 配置参考 - 所有环境变量说明。
📁 配置示例 - 现成的配置文件。

快速设置

唯一需要配置的是你的OpenAI API密钥：

export OPENAI_API_KEY="your-key"

可选设置

# 自定义STT/TTS服务（兼容OpenAI）
export STT_BASE_URL="http://127.0.0.1:2022/v1"  # 本地Whisper
export TTS_BASE_URL="http://127.0.0.1:8880/v1"  # 本地TTS
export TTS_VOICE="alloy"                        # 语音选择

# 或者使用语音偏好文件（请参阅配置文档）
# 项目级：/your-project/voices.txt 或 /your-project/.voicemode/voices.txt
# 用户级：~/voices.txt 或 ~/.voicemode/voices.txt

# LiveKit（用于基于房间的通信）
# 有关设置指南，请参阅 docs/livekit/
export LIVEKIT_URL="wss://your-app.livekit.cloud"
export LIVEKIT_API_KEY="your-api-key"
export LIVEKIT_API_SECRET="your-api-secret"

# 调试模式
export VOICEMODE_DEBUG="true"

# 保存所有音频（TTS输出和STT输入）
export VOICEMODE_SAVE_AUDIO="true"

# 音频格式配置（默认：pcm）
export VOICEMODE_AUDIO_FORMAT="pcm"         # 选项：pcm, mp3, wav, flac, aac, opus
export VOICEMODE_TTS_AUDIO_FORMAT="pcm"     # 仅覆盖TTS的格式（默认：pcm）
export VOICEMODE_STT_AUDIO_FORMAT="mp3"     # 覆盖STT上传的格式

# 特定格式的质量设置
export VOICEMODE_OPUS_BITRATE="32000"       # Opus比特率（默认：32kbps）
export VOICEMODE_MP3_BITRATE="64k"          # MP3比特率（默认：64k）

音频格式配置

语音模式默认使用 PCM 音频格式进行TTS流式传输，以实现最佳实时性能：

PCM（TTS默认）：零延迟，最佳流式传输性能，未压缩。
MP3：广泛兼容，适合上传的良好压缩格式。
WAV：未压缩，适合本地处理。
FLAC：无损压缩，适合存档。
AAC：良好的压缩格式，适用于苹果生态系统。
Opus：文件小，但不建议用于流式传输（存在质量问题）。

音频格式会根据提供商的能力自动验证，如果需要，会回退到支持的格式。

本地STT/TTS服务

为了保护隐私或实现离线使用，语音模式支持本地语音服务：

Whisper.cpp - 具有兼容OpenAI API的本地语音识别服务。
Kokoro - 具有多种语音选项的本地文本转语音服务。

这些服务提供与OpenAI相同的API接口，允许在云端和本地处理之间无缝切换。

OpenAI API兼容性优势

通过严格遵循OpenAI的API标准，语音模式实现了强大的部署灵活性：

🔀 透明路由：用户可以在语音模式之外实现自己的API代理或网关，根据自定义逻辑（成本、延迟、可用性等）将请求路由到不同的提供商。
🎯 模型选择：部署路由层，为每个请求选择最佳模型，而无需修改语音模式的配置。
💰 成本优化：构建智能路由器，在昂贵的云API和免费的本地模型之间进行平衡。
🔧 无锁定：只需更改 BASE_URL 即可切换提供商，无需更改代码。

示例：只需将 OPENAI_BASE_URL 设置为指向你的自定义路由器：

export OPENAI_BASE_URL="https://router.example.com/v1"
export OPENAI_API_KEY="your-key"
# 语音模式现在将所有OpenAI API调用发送到你的路由器

OpenAI SDK会自动处理这些操作，无需对语音模式进行配置！

🔧 技术细节

架构

┌─────────────────────┐     ┌──────────────────┐     ┌─────────────────────┐
│   Claude/LLM        │     │  LiveKit Server  │     │  Voice Frontend     │
│   (MCP Client)      │◄────►│  (Optional)     │◄───►│  (Optional)         │
└─────────────────────┘     └──────────────────┘     └─────────────────────┘
         │                            │
         │                            │
         ▼                            ▼
┌─────────────────────┐     ┌──────────────────┐
│  Voice MCP Server   │     │   Audio Services │
│  • converse         │     │  • OpenAI APIs   │
│  • listen_for_speech│◄───►│  • Local Whisper │
│  • check_room_status│     │  • Local TTS     │
│  • check_audio_devices    └──────────────────┘
└─────────────────────┘