Kokoro Tts MCP

Kokoro文本轉語音(TTS)MCP服務器，支持生成MP3文件並可選上傳至S3存儲

語音處理開發者工具 #文本轉語音 #語音合成 #雲存儲 #音頻處理 .Python

評分 : 2.5分

下載量 : 10.7K

更新時間 : 2025-04-29

打開站點

什麼是Kokoro TTS MCP服務?

Kokoro TTS MCP服務是一個文本轉語音(TTS)解決方案，它接收文本輸入並生成對應的語音MP3文件。服務基於Model Context Protocol(MCP)構建，支持多種語音風格和語速調整，並能將生成的音頻文件自動上傳至AWS S3雲存儲。

如何使用Kokoro TTS服務?

您可以通過簡單的命令行客戶端或直接調用MCP協議來使用本服務。服務支持即時文本轉換或從文件讀取內容，生成的音頻文件可保存在本地或雲端。

適用場景

本服務適用於需要語音合成的各種場景，如：有聲讀物生成、語音助手回覆、教育內容製作、無障礙訪問等。特別適合需要批量處理文本或自動化語音生成的工作流程。

主要功能

多語音支持

提供多種預設語音風格(如af_heart, en_female等)，滿足不同場景需求

語速調節

可調整語音播放速度(0.5-2.0倍速)，獲得最佳聽覺體驗

S3雲存儲集成

支持自動將生成的MP3文件上傳至AWS S3存儲，便於分享和管理

智能文件管理

自動清理舊文件功能，可設置保留天數或上傳後立即刪除本地副本

優勢

簡單易用的命令行接口，便於集成到自動化流程

支持多種語言和語音風格選擇

靈活的雲存儲選項，減輕本地存儲壓力

開源模型支持，無需支付額外授權費用

侷限性

需要安裝ffmpeg等依賴工具

首次使用需下載較大的語音模型文件

高級語音定製功能有限

如何使用

環境準備

安裝必要的依賴項，包括Python環境和ffmpeg工具

下載語音模型

從GitHub獲取Kokoro Onnx權重文件並放入項目目錄

配置服務

創建.env文件或設置環境變量，配置AWS憑證和語音參數

啟動服務

使用uvicorn運行MCP服務器

使用客戶端

通過命令行客戶端發送文本進行語音合成

使用案例

生成歡迎語音

為網站創建多語言歡迎語音

批量處理文檔

將長篇文檔轉換為有聲讀物

自動化語音提醒

集成到通知系統中生成語音提醒

常見問題

如何更改默認語音?

生成的音頻文件保存在哪裡?

服務支持哪些語言?

如何禁用S3上傳功能?

🚀 Kokoro 文本轉語音（TTS）MCP 服務器

Kokoro 文本轉語音（TTS）MCP 服務器可用於生成 .mp3 文件，並且提供了上傳至 S3 的選項，為文本轉語音需求提供了便捷的解決方案。

使用鏈接：https://huggingface.co/spaces/hexgrad/Kokoro-TTS

🚀 快速開始

✨ 主要特性

能夠生成 .mp3 文件。
支持將生成的文件上傳到 S3。

📦 安裝指南

克隆倉庫

將項目克隆到本地倉庫。

下載權重文件

下載 Kokoro Onnx 權重的 kokoro-v1.0.onnx 和 voices-v1.0.bin，並存儲在相同的倉庫中。

配置 MCP

將以下內容添加到您的 MCP 配置中，並使用您自己的值進行更新：

{
    "kokoro-tts-mcp": {
        "command": "uv",
        "args": [
            "--directory",
            "/path/toyourlocal/kokoro-tts-mcp",
            "run",
            "mcp-tts.py"
        ],
        "env": {
            "TTS_VOICE": "af_heart",
            "TTS_SPEED": "1.0",
            "TTS_LANGUAGE": "en-us",
            "AWS_ACCESS_KEY_ID": "",
            "AWS_SECRET_ACCESS_KEY": "",
            "AWS_REGION": "us-east-1",
            "AWS_S3_FOLDER": "mp3",
            "S3_ENABLED": "true",
            "MP3_FOLDER": "/path/to/mp3"
        }
    }
}

安裝 ffmpeg

這是將 .wav 轉換為 .mp3 文件所需的。對於 Mac 系統，可使用以下命令進行安裝：

brew install ffmpeg

配置環境變量

要在本地運行，請將相關內容添加到您的 .env 文件中。可參考 env.example 文件，複製到 .env 並根據自己的值進行修改。

支持的環境變量

屬性	詳情
`AWS_ACCESS_KEY_ID`	您的 AWS 訪問密鑰 ID
`AWS_SECRET_ACCESS_KEY`	您的 AWS 秘密訪問密鑰
`AWS_S3_BUCKET_NAME`	S3 存儲桶名稱
`AWS_S3_REGION`	S3 區域（例如，us-east-1）
`AWS_S3_FOLDER`	S3 桶中的文件夾路徑
`AWS_S3_ENDPOINT_URL`	可選的自定義 S3 兼容存儲端點 URL
`MCP_HOST`	服務器綁定到的主機（默認：0.0.0.0）
`MCP_PORT`	偵聽的端口（默認：9876）
`MCP_CLIENT_HOST`	客戶端連接到服務器的主機名（默認：localhost）
`DEBUG`	啟用調試模式（設為 "true" 或 "1"）
`S3_ENABLED`	啟用 S3 上傳（設為 "true" 或 "1"）
`MP3_FOLDER`	存儲 MP3 文件的路徑（默認是腳本目錄中的 'mp3' 文件夾）
`MP3_RETENTION_DAYS`	在自動刪除之前保留 MP3 文件的天數
`DELETE_LOCAL_AFTER_S3_UPLOAD`	成功上傳到 S3 後是否刪除本地 MP3 文件（設為 "true" 或 "1"）
`TTS_VOICE`	TTS 客戶端的默認語音（默認：af_heart）
`TTS_SPEED`	TTS 客戶端的默認速度（默認：1.0）
`TTS_LANGUAGE`	TTS 客戶端的默認語言（默認：en-us）

💻 使用示例

在本地運行服務器

推薦使用 UV 來運行服務器，命令如下：

uv run mcp-tts.py

文本轉語音客戶端

要使用文本轉語音功能，請在終端中運行以下命令：

uv run mcp-client.py --tts text-to-speech <your-text>

請將 <your-text> 替換為實際的文本內容。

示例：配置並運行 MCP 服務器和客戶端

啟動 MCP 服務器：

uv run mcp-tts.py

在另一個終端窗口中，啟動 TTS 客戶端：

uv run mcp-client.py --tts text-to-speech "你好，Kokoro！"

這將使用 Kokoro 模型將中文文本轉換為語音，並生成一個 .mp3 文件。

📚 詳細文檔

定製和擴展

要自定義 MCP 服務器的行為，請編輯 mcp-tts.py 中的配置參數。例如，您可以調整音頻輸出格式、採樣率或位深度。

要添加更多功能或集成其他服務，請擴展 MCP 服務器的代碼，添加新的處理程序和服務。

文本轉語音示例

import uvicorn
from fastapi import FastAPI
from fastapi.responses import FileResponse
from pydub import AudioSegment
import os

app = FastAPI()

@app.get("/text-to-speech/{text}")
async def text_to_speech(text: str):
    # 這裡假設您有生成語音的邏輯，例如使用科大訊飛或阿里雲的 API
    # 以下是一個示例，實際實現需要根據具體情況進行調整
    audio = AudioSegment.from_text(text, language="zh-CN")
    file_path = os.path.join("audio_files", f"output_{len(audio)}_bytes.mp3")
    audio.export(file_path, format="mp3")
    return FileResponse(file_path)

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)