百度智能雲曦靈MCP服務器 - 13個API支持數字人功能，兼容多代理助手快速集成

探索

MCP

百度智能雲曦靈數字人開放平臺提供基於MCP協議的13個API接口，支持數字人視頻生成、音色克隆等功能，兼容多種MCP代理助手快速接入。

語音處理人工智能聊天機器人 #數字人 #視頻生成 #音色克隆 #MCP協議 .Python

評分 : 2.5分

下載量 : 12.3K

更新時間 : 2025-07-28

打開站點

安裝

複製以下命令到你的Client進行配置

{
  "mcpServers": {
    "DH-STDIO": {
      "timeout": 60,
      "type": "stdio",
      "command": "uvx",
      "args": [
        "mcp-server-baidu-digitalhuman"
      ],
      "env": {
        "DH_API_AK": "${API Key}",
        "DH_API_SK": "${Secret Key}"
      }
    }
  }
}

注意：您的密鑰屬於敏感信息，請勿與任何人分享。

🚀 百度數字人MCP服務器

百度智能雲曦靈數字人開放平臺現已全面適配MCP協議，歡迎創作者加入體驗。曦靈數字人提供的MCP服務器包含13個符合MCP協議標準的API接口，涵蓋基礎視頻生成、高級視頻生成、音色克隆等功能。依託MCP Python SDK開發，任何支持MCP協議的代理助手（如Claude、Cursor、Cline和千帆AppBuilder）都能快速接入。

中文 | English

🚀 快速開始

1. 領取試用額度

登錄百度智能雲曦靈數字人開放平臺，點擊左下角。
前往組件管理查看已獲取的組件額度。

2. 獲取API密鑰和密鑰

前往應用管理配置需要使用的組件。
創建完成後，即可獲取API Key (AppID) 和密鑰 (AppKey)。

3. MCP配置

前提條件

Python 3.12 或更高版本
曦靈開放平臺的API密鑰和密鑰

你可以使用Python接入百度曦靈數字人MCP服務器，建議使用uv。 源碼接入 如果你想自定義曦靈數字人的功能，可以使用源碼接入：

安裝UV 參考uv安裝指南，確保命令行可以執行 uvx 命令，或者通過路徑找到已安裝的 uvx 工具。
將代碼檢出到本地計算機
使用支持MCP的代理助手添加MCP配置

{
  "mcpServers": {
    "DH-STDIO": {
      "timeout": 60,
      "type": "stdio",
      "command": "uvx",
      "args": [
        "${path/to/dh-mcp-server}"
      ],
      "env": {
        "DH_API_AK": "${API Key}",
        "DH_API_SK": "${Secret Key}"
      }
    }
}

將 ${path/to/dh-mcp-server} 替換為你實際的本地路徑。
將 ${API Key} 和 ${Secret Key} 替換為你實際的“API密鑰”和“密鑰”。

Python包插件 我們已在pypi上發佈了百度曦靈MCP服務器：“mcp-server-baidu-digitalhuman”，你可以使用任何Python包管理工具獲取它。

使用UV掛載
使用pip安裝 pip install mcp-server-baidu-digitalhuman
使用支持MCP的代理助手添加MCP配置

{
  "mcpServers": {
    "DH-STDIO": {
      "timeout": 60,
      "type": "stdio",
      "command": "uvx",
      "args": [
        "mcp-server-baidu-digitalhuman"
      ],
      "env": {
        "DH_API_AK": "${API Key}",
        "DH_API_SK": "${Secret Key}"
      }
    }
  }
}

4. 使用聲明

在使用上述工具之前，請閱讀曦靈數字人自定義組件克隆協議。使用上述工具即表示你同意該協議。

✨ 主要特性

我們提供了多種工具，以滿足不同場景的需求。它允許你在大模型中快速集成數字人服務，輕鬆構建數字人應用。

如果你對數字人有更多期望，想更深入地集成數字人服務，請訪問百度智能雲曦靈數字人開放平臺與我們聯繫。MCP還將逐步開放更多功能，敬請期待。

功能	功能描述	包含工具
2D少樣本數字人	根據上傳的真人錄製視頻生成數字肖像，僅可用於基礎視頻製作，數字人使用通用唇形驅動。	• generateLite2dGeneralVideo • getLite2dGeneralStatus
數字人視頻合成	根據選定的數字肖像和音色生成數字人視頻。	• generateDhVideo • getDhVideoStatus
123數字人視頻	提供一段10秒至4分鐘說“123”的直播視頻，無需生成肖像即可直接製作相應的數字人視頻。	• generateDh123Video • getDh123VideoStatus
語音合成	根據提供的文本內容和選定的音色，無需生成視頻，即可生成相應的音頻。	• generateText2Audio • getText2AudioStatus
文件上傳	平臺支持上傳音頻和視頻文件，用於後續的聲音克隆、數字人制作、123數字人視頻製作等。	• uploadFiles
語音查詢	查詢可用的系統語音。	• getVoices
形象查詢	查詢可用的形象。	• getFigures
聲音克隆	根據上傳的音頻生成音色，可用於語音合成和視頻製作。	• generateVoiceClone • getVoiceCloneStatus

💻 使用示例

2D少樣本數字人

功能描述：根據上傳的真人錄製視頻生成數字肖像，僅可用於基礎視頻製作，數字人使用通用唇形驅動（透明背景的webm視頻）。
示例提示詞：

使用文件ID為xxx的視頻文件生成一個數字人，名為“張三”，是一個男孩的形象。查看ID為xxx的數字人是否生成成功。我可以使用哪些肖像？
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | generateLite2dGeneralVideo | 根據上傳的真人錄製視頻生成數字肖像，僅可用於基礎視頻製作，數字人使用通用唇形驅動。 | • name：生成的數字肖像名稱，長度不超過50
• gender：數字人的性別
• keepBackground：是否保留視頻背景，true為保留，false為移除，默認值為false
• templateVideoId：用於生成數字肖像的視頻文件ID | • figureId：根據上傳的真人錄製視頻生成的數字肖像ID | | getLite2dGeneralStatus | • 查詢數字肖像的生成進度
• 也可用於查詢系統可用的2D肖像。 | • figureId：指定肖像ID查詢，若為空，則查詢賬戶下的所有肖像
• systemFigure：查詢平臺的公共肖像，空：查詢所有，true：返回平臺的公共肖像，false：返回自定義肖像
• trainSuccess：是否查詢訓練完成且可用的肖像狀態（空：不篩選，true：僅返回可用肖像（平臺公共肖像和訓練成功狀態的自定義肖像），false：僅返回排隊中、訓練中或訓練失敗的自定義肖像）
• pageNo：頁碼，默認值為1
• pageSize：每頁大小，默認值為10 | • figureId：根據上傳的真人錄製視頻生成的數字肖像ID
• name：生成的數字肖像名稱，長度不超過50
• gender：數字人的性別
• keepBackground：是否保留視頻背景，true為保留，false為移除，默認值為false
• status：狀態（LINE_UP（排隊中）、GENERATING（生成中）、SUCCESS（成功）、FAILED（失敗））
• failedCode：失敗錯誤碼
• failedMessage：製作失敗的原因 |

數字人視頻合成

功能描述：根據選定的數字肖像和音色生成數字人視頻。
示例提示詞：

使用數字肖像ID為xxx的形象和音色ID為yyy的聲音，視頻內容為“大家好，我是數字人播報的內容”，使用橫屏全身的相機位置，使用“https://digital-human-material.bj.bcebos.com/-%5BLjava.lang.String%3B%4046f6cc1e.png”的視頻背景，開啟自動添加動作，開啟字幕，生成一個1080P的數字人視頻。查看任務ID為xxx的數字人視頻的生成進度。
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | generateDhVideo | 根據選定的數字肖像和音色生成數字人視頻。 | • figureId：數字肖像ID
• driveType：驅動數字人的數據類型，支持文本驅動或音頻驅動
• text：如果驅動類型為文本驅動，所需的視頻內容長度不超過20000
• person：當驅動類型為文本驅動時，所需的音色ID
• inputAudioUrl：當驅動類型為音頻驅動時，所需的音頻鏈接URL
• width：輸出視頻分辨率的寬度
• hight：輸出視頻分辨率的高度
• cameraId：系統肖像的相機設置，0：橫屏半身，1：豎屏半身，2：橫屏全身，3：豎屏全身
• enabled：是否啟用字幕，true為啟用字幕，默認false為不啟用。
• backgroundImageUrl：背景圖像的URL
• autoAnimoji：系統肖像自動添加動作，true為自動添加，默認值為false | • taskId：當前視頻合成任務的ID | | getDhVideoStatus | 查詢數字人視頻合成的進度。 | • taskId：當前視頻合成任務的ID | • taskId：當前視頻合成任務的ID
• status：SUBMIT（提交合成）、GENERATING（合成中）、SUCCESS（合成成功）、FAILED（合成失敗）
• failedCode：錯誤碼
• failedMessage：製作失敗的原因
• videoUrl：任務ID對應的合成成功的視頻文件地址，將保存7天 |

123數字人視頻合成

功能描述：提供一段10秒至4分鐘說“123”的直播視頻，無需生成肖像即可直接製作相應的數字人視頻。
示例提示詞：

使用文件ID為xxx的視頻文件和音色ID為yyy的聲音，視頻內容為“大家好，我是數字人播報的內容”，生成一個數字人視頻。視頻地址為https://open-api-test.bj.bcebos.com/ae870923-2a3b-4d5e-b6a2-e44b4025647220250417_163529_trim.mp4，音色為yyy，視頻內容為“大家好，我是數字人播報的內容”，生成一個數字人視頻。查看任務ID為xxx的123數字人視頻的生成進度。你可以查看網站上的指南。
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | generateDh123Video | 根據真人錄製的視頻和選定的音色，無需生成肖像即可直接生成數字人視頻。 | • templateVideoId：用於生成數字人視頻的視頻文件ID
• driveType：驅動數字人的數據類型，支持文本驅動或音頻驅動
• text：如果驅動類型為文本驅動，所需的視頻內容必須填寫，長度不能超過20000
• person：如果驅動類型為文本驅動，所需的音色ID
• inputAudioUrl：如果驅動類型為音頻驅動，所需的音頻鏈接URL | • taskId：當前視頻合成任務的ID | | getDh123VideoStatus | 查詢123數字人視頻合成的進度。 | • taskId：當前視頻合成任務的ID | • taskId：當前視頻合成任務的ID
• status：狀態：SUBMIT（提交合成）、RATING（合成中）、SUCCESS（合成成功）、FAILED
• failedCode：錯誤碼
• failedMessage：製作失敗的原因
• videoUrl：任務ID對應的合成成功的視頻文件地址，將保存7天 |

語音合成

功能描述：根據提供的文本內容和選定的音色，無需生成視頻，即可生成相應的音頻。
示例提示詞：

使用音色ID為xxx的聲音生成音頻，內容為“大家好，我是數字人播報的內容”。查看任務ID為xxx的語音合成是否完成。
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | generateText2Audio | 根據提供的文本內容和選定的音色，無需生成視頻，即可生成相應的音頻。 | • text：所需的文本內容，長度不超過2000
• person：所需的音色ID | • taskId：當前音頻合成的任務ID | | getText2AudioStatus | 查詢音頻合成的進度。 | • taskId：當前視頻合成任務的ID | • status：SUBMIT、GENERATING、SUCCESS、FAILED
• failedCode：失敗代碼
• failedMessage：製作失敗的原因
• audioUrl：任務ID對應的合成成功的音頻文件地址，將保存7天 |

文件上傳

功能描述：平臺支持上傳音頻和視頻文件，用於後續的聲音克隆、數字人制作、123數字人視頻製作等。
示例提示詞：

上傳C:/Users/username/Desktop/test.mp3文件用於聲音克隆。
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | uploadFiles | 根據服務類型上傳所需的文件。 | • file：要上傳的文件
• providerType：使用此文件的服務類型，目前僅限於三種服務類型：“2D少樣本數字人制作”、“聲音克隆”和“123數字人視頻製作”。
• sourceFileName：上傳的文件名，必須填寫正確的文件名和後綴，例如：test.mp3。 | • fileId：文件ID
• fileName：上傳的文件名 |

語音查詢

功能描述：查詢可用的系統語音。
示例提示詞：

我之前克隆過哪些聲音？我想使用一位二十多歲溫柔女士的聲音。
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | getVoices | 查詢可用的語音ID。 | • isSystem：“true”查詢系統音色ID，“false”查詢克隆音色ID，不傳遞任何值，則查詢可用的音色ID | • perId：音色ID
• name：音色名稱
• describe：克隆音色的描述，不超過100
• gender：性別
• systemProvided：是否為系統音色 |

形象查詢

功能描述：查詢可用的2D數字肖像ID。
示例提示詞：

我之前生成過哪些肖像？有哪些可用的肖像？
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | getFigures | 查詢可用的形象。 | • isSystem：“true”查詢系統形象，“false”查詢生成的形象，不傳遞任何值，則查詢所有可用的形象 | • figureId：2D形象ID
• name：2D形象名稱
• gender：性別
• systemProvided：是否為系統形象 |

聲音克隆

功能描述：根據上傳的音頻生成音色，可用於語音合成和視頻製作。
示例提示詞：

使用文件ID為xxx的音頻文件克隆聲音。名為“張三”，是一位三十多歲中年男性的音色，我將使用文本“這是我克隆的聲音”進行試聽。查看ID為xxx的聲音是否克隆成功。
工具詳情： | 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 | | --- | --- | --- | --- | | generateVoiceClone | 根據上傳的音頻生成聲音，可用於語音合成和視頻製作。 | • name：克隆聲音的名稱，長度不超過50
• gender：音色的性別
• describe：克隆聲音的描述，不超過100
• uploadAudioId：用於克隆聲音的音頻文件ID
• example：用於試聽的文本，長度不能超過100 | • perId：克隆聲音的音色ID | | getVoiceCloneStatus | 根據任務的語音說話者ID查詢語音克隆任務的當前狀態。 | • isSuccess：是否僅查詢克隆成功的任務（true：僅查詢成功的任務，false：查詢所有克隆任務）
• perId：查詢指定音色ID的任務 | • perId：克隆聲音的音色ID
• name：音色名稱
• describe：克隆聲音的描述
• exampleText：用於試聽的文本
• examplAudioUrl：使用試聽文本合成的音頻文件鏈接
• status：當前任務的狀態，PREPARING、CLONING、SUCCESS、FAIL
• reason：如果克隆失敗，此處描述失敗的原因
• gender：被克隆聲音的音色性別 |