安裝
工具列表
內容詳情
替代品
安裝
{
"mcpServers": {
"DH-STDIO": {
"timeout": 60,
"type": "stdio",
"command": "uvx",
"args": [
"mcp-server-baidu-digitalhuman"
],
"env": {
"DH_API_AK": "${API Key}",
"DH_API_SK": "${Secret Key}"
}
}
}
}
🚀 百度數字人MCP服務器
百度智能雲曦靈數字人開放平臺現已全面適配MCP協議,歡迎創作者加入體驗。曦靈數字人提供的MCP服務器包含13個符合MCP協議標準的API接口,涵蓋基礎視頻生成、高級視頻生成、音色克隆等功能。依託MCP Python SDK開發,任何支持MCP協議的代理助手(如Claude、Cursor、Cline和千帆AppBuilder)都能快速接入。
中文 | English
🚀 快速開始
1. 領取試用額度
- 登錄百度智能雲曦靈數字人開放平臺,點擊左下角。
- 前往組件管理查看已獲取的組件額度。
2. 獲取API密鑰和密鑰
- 前往應用管理配置需要使用的組件。
- 創建完成後,即可獲取API Key (AppID) 和密鑰 (AppKey)。
3. MCP配置
前提條件
- Python 3.12 或更高版本
- 曦靈開放平臺的API密鑰和密鑰
你可以使用Python接入百度曦靈數字人MCP服務器,建議使用uv。 源碼接入 如果你想自定義曦靈數字人的功能,可以使用源碼接入:
- 安裝UV
參考uv安裝指南,確保命令行可以執行
uvx
命令,或者通過路徑找到已安裝的uvx
工具。 - 將代碼檢出到本地計算機
- 使用支持MCP的代理助手添加MCP配置
{
"mcpServers": {
"DH-STDIO": {
"timeout": 60,
"type": "stdio",
"command": "uvx",
"args": [
"${path/to/dh-mcp-server}"
],
"env": {
"DH_API_AK": "${API Key}",
"DH_API_SK": "${Secret Key}"
}
}
}
- 將
${path/to/dh-mcp-server}
替換為你實際的本地路徑。 - 將
${API Key}
和${Secret Key}
替換為你實際的“API密鑰”和“密鑰”。
Python包插件 我們已在pypi上發佈了百度曦靈MCP服務器:“mcp-server-baidu-digitalhuman”,你可以使用任何Python包管理工具獲取它。
- 使用UV掛載
- 使用pip安裝
pip install mcp-server-baidu-digitalhuman
- 使用支持MCP的代理助手添加MCP配置
{
"mcpServers": {
"DH-STDIO": {
"timeout": 60,
"type": "stdio",
"command": "uvx",
"args": [
"mcp-server-baidu-digitalhuman"
],
"env": {
"DH_API_AK": "${API Key}",
"DH_API_SK": "${Secret Key}"
}
}
}
}
4. 使用聲明
在使用上述工具之前,請閱讀曦靈數字人自定義組件克隆協議。使用上述工具即表示你同意該協議。
✨ 主要特性
我們提供了多種工具,以滿足不同場景的需求。它允許你在大模型中快速集成數字人服務,輕鬆構建數字人應用。
如果你對數字人有更多期望,想更深入地集成數字人服務,請訪問百度智能雲曦靈數字人開放平臺與我們聯繫。MCP還將逐步開放更多功能,敬請期待。
功能 | 功能描述 | 包含工具 |
---|---|---|
2D少樣本數字人 | 根據上傳的真人錄製視頻生成數字肖像,僅可用於基礎視頻製作,數字人使用通用唇形驅動。 | • generateLite2dGeneralVideo • getLite2dGeneralStatus |
數字人視頻合成 | 根據選定的數字肖像和音色生成數字人視頻。 | • generateDhVideo • getDhVideoStatus |
123數字人視頻 | 提供一段10秒至4分鐘說“123”的直播視頻,無需生成肖像即可直接製作相應的數字人視頻。 | • generateDh123Video • getDh123VideoStatus |
語音合成 | 根據提供的文本內容和選定的音色,無需生成視頻,即可生成相應的音頻。 | • generateText2Audio • getText2AudioStatus |
文件上傳 | 平臺支持上傳音頻和視頻文件,用於後續的聲音克隆、數字人制作、123數字人視頻製作等。 | • uploadFiles |
語音查詢 | 查詢可用的系統語音。 | • getVoices |
形象查詢 | 查詢可用的形象。 | • getFigures |
聲音克隆 | 根據上傳的音頻生成音色,可用於語音合成和視頻製作。 | • generateVoiceClone • getVoiceCloneStatus |
💻 使用示例
2D少樣本數字人
- 功能描述:根據上傳的真人錄製視頻生成數字肖像,僅可用於基礎視頻製作,數字人使用通用唇形驅動(透明背景的webm視頻)。
- 示例提示詞:
使用文件ID為xxx的視頻文件生成一個數字人,名為“張三”,是一個男孩的形象。 查看ID為xxx的數字人是否生成成功。 我可以使用哪些肖像?
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| generateLite2dGeneralVideo | 根據上傳的真人錄製視頻生成數字肖像,僅可用於基礎視頻製作,數字人使用通用唇形驅動。 | • name:生成的數字肖像名稱,長度不超過50
• gender:數字人的性別
• keepBackground:是否保留視頻背景,true為保留,false為移除,默認值為false
• templateVideoId:用於生成數字肖像的視頻文件ID | • figureId:根據上傳的真人錄製視頻生成的數字肖像ID | | getLite2dGeneralStatus | • 查詢數字肖像的生成進度
• 也可用於查詢系統可用的2D肖像。 | • figureId:指定肖像ID查詢,若為空,則查詢賬戶下的所有肖像
• systemFigure:查詢平臺的公共肖像,空:查詢所有,true:返回平臺的公共肖像,false:返回自定義肖像
• trainSuccess:是否查詢訓練完成且可用的肖像狀態(空:不篩選,true:僅返回可用肖像(平臺公共肖像和訓練成功狀態的自定義肖像),false:僅返回排隊中、訓練中或訓練失敗的自定義肖像)
• pageNo:頁碼,默認值為1
• pageSize:每頁大小,默認值為10 | • figureId:根據上傳的真人錄製視頻生成的數字肖像ID
• name:生成的數字肖像名稱,長度不超過50
• gender:數字人的性別
• keepBackground:是否保留視頻背景,true為保留,false為移除,默認值為false
• status:狀態(LINE_UP(排隊中)、GENERATING(生成中)、SUCCESS(成功)、FAILED(失敗))
• failedCode:失敗錯誤碼
• failedMessage:製作失敗的原因 |
數字人視頻合成
- 功能描述:根據選定的數字肖像和音色生成數字人視頻。
- 示例提示詞:
使用數字肖像ID為xxx的形象和音色ID為yyy的聲音,視頻內容為“大家好,我是數字人播報的內容”,使用橫屏全身的相機位置,使用“https://digital-human-material.bj.bcebos.com/-%5BLjava.lang.String%3B%4046f6cc1e.png”的視頻背景,開啟自動添加動作,開啟字幕,生成一個1080P的數字人視頻。 查看任務ID為xxx的數字人視頻的生成進度。
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| generateDhVideo | 根據選定的數字肖像和音色生成數字人視頻。 | • figureId:數字肖像ID
• driveType:驅動數字人的數據類型,支持文本驅動或音頻驅動
• text:如果驅動類型為文本驅動,所需的視頻內容長度不超過20000
• person:當驅動類型為文本驅動時,所需的音色ID
• inputAudioUrl:當驅動類型為音頻驅動時,所需的音頻鏈接URL
• width:輸出視頻分辨率的寬度
• hight:輸出視頻分辨率的高度
• cameraId:系統肖像的相機設置,0:橫屏半身,1:豎屏半身,2:橫屏全身,3:豎屏全身
• enabled:是否啟用字幕,true為啟用字幕,默認false為不啟用。
• backgroundImageUrl:背景圖像的URL
• autoAnimoji:系統肖像自動添加動作,true為自動添加,默認值為false | • taskId:當前視頻合成任務的ID | | getDhVideoStatus | 查詢數字人視頻合成的進度。 | • taskId:當前視頻合成任務的ID | • taskId:當前視頻合成任務的ID
• status:SUBMIT(提交合成)、GENERATING(合成中)、SUCCESS(合成成功)、FAILED(合成失敗)
• failedCode:錯誤碼
• failedMessage:製作失敗的原因
• videoUrl:任務ID對應的合成成功的視頻文件地址,將保存7天 |
123數字人視頻合成
- 功能描述:提供一段10秒至4分鐘說“123”的直播視頻,無需生成肖像即可直接製作相應的數字人視頻。
- 示例提示詞:
使用文件ID為xxx的視頻文件和音色ID為yyy的聲音,視頻內容為“大家好,我是數字人播報的內容”,生成一個數字人視頻。 視頻地址為https://open-api-test.bj.bcebos.com/ae870923-2a3b-4d5e-b6a2-e44b4025647220250417_163529_trim.mp4,音色為yyy,視頻內容為“大家好,我是數字人播報的內容”,生成一個數字人視頻。 查看任務ID為xxx的123數字人視頻的生成進度。 你可以查看網站上的指南。
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| generateDh123Video | 根據真人錄製的視頻和選定的音色,無需生成肖像即可直接生成數字人視頻。 | • templateVideoId:用於生成數字人視頻的視頻文件ID
• driveType:驅動數字人的數據類型,支持文本驅動或音頻驅動
• text:如果驅動類型為文本驅動,所需的視頻內容必須填寫,長度不能超過20000
• person:如果驅動類型為文本驅動,所需的音色ID
• inputAudioUrl:如果驅動類型為音頻驅動,所需的音頻鏈接URL | • taskId:當前視頻合成任務的ID | | getDh123VideoStatus | 查詢123數字人視頻合成的進度。 | • taskId:當前視頻合成任務的ID | • taskId:當前視頻合成任務的ID
• status:狀態:SUBMIT(提交合成)、RATING(合成中)、SUCCESS(合成成功)、FAILED
• failedCode:錯誤碼
• failedMessage:製作失敗的原因
• videoUrl:任務ID對應的合成成功的視頻文件地址,將保存7天 |
語音合成
- 功能描述:根據提供的文本內容和選定的音色,無需生成視頻,即可生成相應的音頻。
- 示例提示詞:
使用音色ID為xxx的聲音生成音頻,內容為“大家好,我是數字人播報的內容”。 查看任務ID為xxx的語音合成是否完成。
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| generateText2Audio | 根據提供的文本內容和選定的音色,無需生成視頻,即可生成相應的音頻。 | • text:所需的文本內容,長度不超過2000
• person:所需的音色ID | • taskId:當前音頻合成的任務ID | | getText2AudioStatus | 查詢音頻合成的進度。 | • taskId:當前視頻合成任務的ID | • status:SUBMIT、GENERATING、SUCCESS、FAILED
• failedCode:失敗代碼
• failedMessage:製作失敗的原因
• audioUrl:任務ID對應的合成成功的音頻文件地址,將保存7天 |
文件上傳
- 功能描述:平臺支持上傳音頻和視頻文件,用於後續的聲音克隆、數字人制作、123數字人視頻製作等。
- 示例提示詞:
上傳C:/Users/username/Desktop/test.mp3文件用於聲音克隆。
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| uploadFiles | 根據服務類型上傳所需的文件。 | • file:要上傳的文件
• providerType:使用此文件的服務類型,目前僅限於三種服務類型:“2D少樣本數字人制作”、“聲音克隆”和“123數字人視頻製作”。
• sourceFileName:上傳的文件名,必須填寫正確的文件名和後綴,例如:test.mp3。 | • fileId:文件ID
• fileName:上傳的文件名 |
語音查詢
- 功能描述:查詢可用的系統語音。
- 示例提示詞:
我之前克隆過哪些聲音? 我想使用一位二十多歲溫柔女士的聲音。
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| getVoices | 查詢可用的語音ID。 | • isSystem:“true”查詢系統音色ID,“false”查詢克隆音色ID,不傳遞任何值,則查詢可用的音色ID | • perId:音色ID
• name:音色名稱
• describe:克隆音色的描述,不超過100
• gender:性別
• systemProvided:是否為系統音色 |
形象查詢
- 功能描述:查詢可用的2D數字肖像ID。
- 示例提示詞:
我之前生成過哪些肖像? 有哪些可用的肖像?
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| getFigures | 查詢可用的形象。 | • isSystem:“true”查詢系統形象,“false”查詢生成的形象,不傳遞任何值,則查詢所有可用的形象 | • figureId:2D形象ID
• name:2D形象名稱
• gender:性別
• systemProvided:是否為系統形象 |
聲音克隆
- 功能描述:根據上傳的音頻生成音色,可用於語音合成和視頻製作。
- 示例提示詞:
使用文件ID為xxx的音頻文件克隆聲音。名為“張三”,是一位三十多歲中年男性的音色,我將使用文本“這是我克隆的聲音”進行試聽。 查看ID為xxx的聲音是否克隆成功。
- 工具詳情:
| 工具名稱 | 工具描述 | 輸入參數 | 輸出內容 |
| --- | --- | --- | --- |
| generateVoiceClone | 根據上傳的音頻生成聲音,可用於語音合成和視頻製作。 | • name:克隆聲音的名稱,長度不超過50
• gender:音色的性別
• describe:克隆聲音的描述,不超過100
• uploadAudioId:用於克隆聲音的音頻文件ID
• example:用於試聽的文本,長度不能超過100 | • perId:克隆聲音的音色ID | | getVoiceCloneStatus | 根據任務的語音說話者ID查詢語音克隆任務的當前狀態。 | • isSuccess:是否僅查詢克隆成功的任務(true:僅查詢成功的任務,false:查詢所有克隆任務)
• perId:查詢指定音色ID的任務 | • perId:克隆聲音的音色ID
• name:音色名稱
• describe:克隆聲音的描述
• exampleText:用於試聽的文本
• examplAudioUrl:使用試聽文本合成的音頻文件鏈接
• status:當前任務的狀態,PREPARING、CLONING、SUCCESS、FAIL
• reason:如果克隆失敗,此處描述失敗的原因
• gender:被克隆聲音的音色性別 |
🔧 技術細節
開發
要在本地使用MCP Inspector運行服務器進行測試和調試:
npx @modelcontextprotocol/inspector uvx ${path/to/dh-mcp-server}
這將以開發模式啟動服務器,並允許你使用MCP Inspector測試可用的工具和功能。
測試
- 環境配置完成後,MCP代理將自動獲取所有可用工具的列表。
- 在對話框中輸入提示:“查詢所有可用的數字人語音列表”。
📄 許可證
本項目採用MIT許可證 - 詳情請參閱LICENSE文件。
💬 討論與反饋
如果您有任何問題或建議,請隨時與我們聯繫。 您可以通過以下方式與我們聯繫:
- 客服電話:400 - 920 - 8999
- 合作諮詢:百度智能雲曦靈數字人開放平臺諮詢
- 問題工單:創建工單
- 官方助手:






精選MCP服務推薦







