MCP Document Converter

MCP文檔轉換器是一個基於MCP協議的多格式文檔轉換工具，支持Markdown、HTML、DOCX、PDF和文本五種格式之間的雙向轉換，為AI助手提供強大的文檔處理能力。

開發者工具文件系統 #文檔轉換 #多格式支持 #MCP工具 #AI助手 .Python

評分 : 2.5分

下載量 : 9.1K

更新時間 : 2026-03-13

打開站點

什麼是MCP Document Converter?

MCP Document Converter是一個基於Model Context Protocol (MCP)的文檔格式轉換服務器。它允許AI助手（如Claude Desktop、Trae IDE等）將文檔從一種格式轉換為另一種格式，支持5種主流文檔格式之間的25種轉換組合。

如何使用MCP Document Converter?

使用非常簡單：首先在您的AI客戶端中配置MCP服務器，然後AI助手就可以直接調用轉換工具。您只需要告訴AI助手要轉換哪個文件，以及想要轉換成什麼格式，剩下的工作會自動完成。

適用場景

適用於需要處理多種文檔格式的場景，如：將技術文檔從Markdown轉換為PDF用於打印、將Word文檔轉換為HTML用於網頁發佈、從PDF中提取文本內容、將HTML報告轉換為Word格式等。

主要功能

多格式支持

支持5種主流文檔格式：Markdown、HTML、DOCX、PDF和純文本，覆蓋大多數日常文檔處理需求。

雙向轉換

任何格式都可以轉換為任何其他格式，提供完整的5×5=25種轉換組合，滿足各種轉換需求。

MCP協議集成

完全符合MCP標準，可以無縫集成到支持MCP的AI客戶端中，如Claude Desktop、Trae IDE、Cherry Studio等。

元數據保留

在轉換過程中保留文檔的標題、作者、創建時間等元數據，確保文檔信息的完整性。

語法高亮

HTML和PDF輸出支持代碼語法高亮，特別適合技術文檔和編程教程的轉換。

樣式自定義

支持自定義CSS樣式，可以調整輸出文檔的外觀和排版，滿足個性化需求。

優勢

一站式解決方案：一個工具解決多種文檔格式轉換需求

易於使用：通過AI助手自然語言交互，無需學習複雜命令

高質量轉換：保持文檔結構和格式的完整性

可擴展架構：支持添加新的文檔格式解析器和渲染器

開源免費：基於MIT許可證，完全免費使用和修改

侷限性

需要Python環境：必須在支持Python的環境中運行

大型PDF處理可能較慢：複雜PDF文檔的解析需要更多時間

某些高級格式特性可能無法完全保留：如Word中的複雜表格格式

需要配置MCP客戶端：初次使用需要簡單的配置步驟

如何使用

安裝MCP Document Converter

使用pip安裝工具包，這是最簡單的方法。

配置您的AI客戶端

在您的AI客戶端（如Claude Desktop）的MCP配置文件中添加服務器配置。

重啟AI客戶端

重啟您的AI客戶端以加載新的MCP服務器配置。

開始使用

現在您可以直接通過自然語言告訴AI助手轉換文檔了。

使用案例

技術文檔轉換

將Markdown編寫的技術文檔轉換為美觀的PDF格式，用於打印或分享。

報告格式轉換

將Word格式的業務報告轉換為HTML，便於在網頁上發佈和查看。

內容提取

從PDF文檔中提取純文本內容，用於進一步分析或處理。

格式標準化

將各種來源的文檔統一轉換為Markdown格式，便於版本控制和協作。

常見問題

MCP Document Converter是免費的嗎？

支持哪些AI客戶端？

轉換過程中會丟失格式嗎？

支持批量轉換嗎？

轉換大型文件會慢嗎？

需要聯網使用嗎？

如何添加新的文檔格式支持？

轉換後的文檔質量如何？

🚀 MCP文檔轉換器

MCP（模型上下文協議）文檔轉換器是一款強大的MCP工具，可實現多種格式文檔間的轉換，助力AI智能體輕鬆完成文檔格式轉換。

🚀 快速開始

你可以通過以下方式安裝MCP文檔轉換器：

📦 使用pip（推薦）

pip install mcp-document-converter

📦 從源代碼安裝

git clone https://github.com/xt765/mcp-document-converter.git
cd mcp-document-converter
pip install -e .

✨ 主要特性

多格式支持：支持5種主流文檔格式，包括Markdown、HTML、DOCX、PDF和純文本。
雙向轉換：任意格式均可轉換為其他格式，共有5×5 = 25種轉換組合。
MCP協議兼容：符合MCP標準，可作為Trae IDE等AI助手的工具使用。
插件架構：便於擴展新的解析器和渲染器。
語法高亮：HTML和PDF輸出支持代碼語法高亮。
樣式自定義：支持自定義CSS樣式。
元數據保留：轉換過程中保留文檔標題、作者、創建時間等元數據。

📚 詳細文檔

用戶指南 · API參考 · 貢獻指南 · 更新日誌 · 許可證

🔧 技術細節

架構

flowchart TB
    subgraph Parsers["解析器"]
        MD[Markdown]
        DOCX1[DOCX]
        HTML1[HTML]
        PDF1[PDF]
        TXT1[文本]
    end

    subgraph IR["中間表示 (IR)"]
        DT[文檔樹]
        META[元數據]
        ASSETS[資源]
    end

    subgraph Renderers["渲染器"]
        HTML2[HTML]
        PDF2[PDF]
        MD2[Markdown]
        DOCX2[DOCX]
        TXT2[文本]
    end

    MD --> IR
    DOCX1 --> IR
    HTML1 --> IR
    PDF1 --> IR
    TXT1 --> IR
    
    IR --> HTML2
    IR --> PDF2
    IR --> MD2
    IR --> DOCX2
    IR --> TXT2

核心組件

DocumentIR（中間表示）：所有文檔的統一抽象，包含文檔樹、元數據、資源等。
BaseParser（解析器基類）：定義解析器接口，將各種格式解析為DocumentIR。
BaseRenderer（渲染器基類）：定義渲染器接口，將DocumentIR渲染為各種格式。
ConverterRegistry（註冊表）：管理所有解析器和渲染器，提供格式查找和自動匹配功能。
DocumentConverter（轉換引擎）：協調解析器和渲染器完成文檔轉換。

支持的格式

輸入格式（解析器）

格式	擴展名	MIME類型	特性
Markdown	.md, .markdown, .mdown, .mkd	text/markdown	YAML前置元數據，GFM擴展
HTML	.html, .htm	text/html	語義標籤解析
DOCX	.docx	application/vnd.openxmlformats-officedocument.wordprocessingml.document	樣式、表格、圖像
PDF	.pdf	application/pdf	文本提取和結構識別
文本	.txt, .text	text/plain	自動編碼檢測和結構識別

輸出格式（渲染器）

格式	擴展名	MIME類型	特性
HTML	.html	text/html	美觀的樣式，代碼高亮，響應式設計
Markdown	.md	text/markdown	標準Markdown格式，YAML前置元數據
DOCX	.docx	application/vnd.openxmlformats-officedocument.wordprocessingml.document	Word文檔格式，樣式保留
PDF	.pdf	application/pdf	使用WeasyPrint生成，支持分頁
文本	.txt	text/plain	純文本，保留基本格式

轉換矩陣

flowchart LR
    subgraph Sources["源格式"]
        MD_S[Markdown]
        HTML_S[HTML]
        DOCX_S[DOCX]
        PDF_S[PDF]
        TXT_S[文本]
    end

    subgraph Targets["目標格式"]
        MD_T[Markdown]
        HTML_T[HTML]
        DOCX_T[DOCX]
        PDF_T[PDF]
        TXT_T[文本]
    end

    MD_S --> Targets
    HTML_S --> Targets
    DOCX_S --> Targets
    PDF_S --> Targets
    TXT_S --> Targets

💻 使用示例

作為MCP工具

配置完成後，AI助手可直接調用以下工具：

1. convert_document（推薦）

使用統一接口轉換任何支持的文檔類型。

# Markdown轉HTML
convert_document(
    source_path="document.md",
    target_format="html"
)

# HTML轉PDF
convert_document(
    source_path="document.html",
    target_format="pdf"
)

# DOCX轉Markdown
convert_document(
    source_path="document.docx",
    target_format="markdown"
)

# 帶選項的轉換
convert_document(
    source_path="document.md",
    target_format="html",
    output_path="output.html",
    options={
        "css": "custom.css",
        "preserve_metadata": True
    }
)

2. list_supported_formats

列出所有支持的文檔格式。

list_supported_formats()

3. get_conversion_matrix

獲取完整的格式轉換矩陣。

get_conversion_matrix()

4. can_convert

檢查從源格式到目標格式的轉換是否支持。

can_convert(source_format="markdown", target_format="pdf")

5. get_format_info

獲取特定格式的詳細信息。

get_format_info(format="markdown")

作為Python庫

from mcp_document_converter import DocumentConverter
from mcp_document_converter.registry import get_registry
from mcp_document_converter.parsers import MarkdownParser, HTMLParser
from mcp_document_converter.renderers import HTMLRenderer, PDFRenderer

# 註冊解析器和渲染器
registry = get_registry()
registry.register_parser(MarkdownParser())
registry.register_parser(HTMLParser())
registry.register_renderer(HTMLRenderer())
registry.register_renderer(PDFRenderer())

# 創建轉換器
converter = DocumentConverter(registry)

# 轉換文檔
result = converter.convert(
    source="input.md",
    target_format="html",
    output_path="output.html"
)

if result.success:
    print(f"✅ 轉換成功: {result.output_path}")
else:
    print(f"❌ 轉換失敗: {result.error_message}")

📄 工具接口詳情

convert_document

將文檔從一種格式轉換為另一種格式。

參數

參數	類型	是否必需	描述
`source_path`	字符串	✅	源文件路徑，支持絕對或相對路徑
`target_format`	字符串	✅	目標格式：`html`, `pdf`, `markdown`, `docx`, `text`
`output_path`	字符串	❌	輸出文件路徑（可選，默認為源文件名）
`source_format`	字符串	❌	源文件格式（可選，從文件擴展名自動檢測）
`options`	對象	❌	轉換選項

選項

選項	類型	默認值	描述
`template`	字符串	-	模板名稱
`css`	字符串	-	自定義CSS樣式
`preserve_metadata`	布爾值	true	是否保留元數據
`extract_images`	布爾值	true	是否提取圖像

示例

{
  "source_path": "/path/to/document.md",
  "target_format": "html",
  "output_path": "/path/to/output.html",
  "options": {
    "css": "body { font-family: Arial; }",
    "preserve_metadata": true
  }
}

🔌 擴展開發

添加新的解析器

from typing import List, Union
from pathlib import Path
from mcp_document_converter.core.parser import BaseParser
from mcp_document_converter.core.ir import DocumentIR, Node, NodeType

class MyParser(BaseParser):
    @property
    def supported_extensions(self) -> List[str]:
        return [".myext"]
    
    @property
    def format_name(self) -> str:
        return "myformat"
    
    @property
    def mime_types(self) -> List[str]:
        return ["application/x-myformat"]
    
    def parse(self, source: Union[str, Path, bytes], **options) -> DocumentIR:
        # 讀取源文件
        content = self._read_source(source)
        
        # 解析為DocumentIR
        document = DocumentIR()
        document.title = "My Document"
        
        # 添加內容節點
        document.add_node(Node(
            type=NodeType.PARAGRAPH,
            content=[Node(type=NodeType.TEXT, content="Hello World")]
        ))
        
        return document

添加新的渲染器

from typing import Any
from mcp_document_converter.core.renderer import BaseRenderer
from mcp_document_converter.core.ir import DocumentIR

class MyRenderer(BaseRenderer):
    @property
    def output_extension(self) -> str:
        return ".myext"
    
    @property
    def format_name(self) -> str:
        return "myformat"
    
    @property
    def mime_type(self) -> str:
        return "application/x-myformat"
    
    def render(self, document: DocumentIR, **options: Any) -> str:
        # 將DocumentIR渲染為目標格式
        parts = []
        
        if document.title:
            parts.append(f"# {document.title}")
        
        for node in document.content:
            # 渲染每個節點
            pass
        
        return "\n".join(parts)

註冊擴展

from mcp_document_converter.registry import get_registry

# 註冊新的解析器和渲染器
registry = get_registry()
registry.register_parser(MyParser())
registry.register_renderer(MyRenderer())

🧪 測試

# 運行所有測試
python tests/test_conversion.py

# 運行特定測試
python tests/test_conversion.py::test_markdown_to_html

⚙️ 環境變量

變量	描述	默認值
`MCP_CONVERTER_LOG_LEVEL`	日誌級別	`INFO`
`MCP_CONVERTER_TEMP_DIR`	臨時文件目錄	系統臨時目錄

📦 依賴項

核心依賴項

mcp >= 1.26.0 - MCP協議實現
pydantic >= 2.12.5 - 數據驗證

解析器依賴項

markdown >= 3.5.0 - Markdown解析
beautifulsoup4 >= 4.12.0 - HTML解析
python-docx >= 1.1.0 - DOCX解析
pypdf >= 6.7.4 - PDF解析
chardet >= 5.0.0 - 編碼檢測
pyyaml >= 6.0.0 - YAML解析

渲染器依賴項

weasyprint >= 60.0 - PDF渲染
pygments >= 2.17.0 - 代碼高亮
jinja2 >= 3.1.6 - 模板引擎
reportlab >= 4.0.0 - PDF生成

開發依賴項

pytest >= 7.0.0 - 測試框架
pytest-asyncio >= 0.21.0 - 異步測試支持
pytest-cov >= 4.0.0 - 覆蓋率報告
basedpyright >= 1.0.0 - 類型檢查
ruff >= 0.1.0 - 代碼檢查和格式化

📄 許可證

本項目採用MIT許可證。

👥 貢獻

歡迎提交問題和拉取請求！

🔗 相關項目

MCP Document Reader - 支持多種文檔格式的MCP文檔閱讀器
Model Context Protocol - 官方模型上下文協議文檔

Baidu Map

已認證

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

152.7K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Python

22.8K

4.5分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

智啟未來，您的人工智慧解決方案智庫

MCP Document Converter

概述

安裝

內容詳情

替代品

什麼是MCP Document Converter?

如何使用MCP Document Converter?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 MCP文檔轉換器

🚀 快速開始

📦 使用pip（推薦）

📦 從源代碼安裝

✨ 主要特性

📚 詳細文檔

🔧 技術細節

架構

核心組件

支持的格式

輸入格式（解析器）

輸出格式（渲染器）

轉換矩陣

💻 使用示例

作為MCP工具

1. convert_document（推薦）

2. list_supported_formats

3. get_conversion_matrix

4. can_convert

5. get_format_info

作為Python庫

📄 工具接口詳情

convert_document

參數

選項

示例

🔌 擴展開發

添加新的解析器

添加新的渲染器

註冊擴展

🧪 測試

⚙️ 環境變量

📦 依賴項

核心依賴項

解析器依賴項

渲染器依賴項

開發依賴項

📄 許可證

👥 貢獻

🔗 相關項目

替代品