MCP Document Converter

MCPドキュメントコンバーターは、MCPプロトコルに基づく多形式ドキュメント変換ツールで、Markdown、HTML、DOCX、PDF、テキストの5つの形式間の双方向変換をサポートし、AIアシスタントに強力なドキュメント処理能力を提供します。

開発者ツールファイルシステム #ドキュメント変換 #多形式サポート #MCPツール #AIアシスタント .Python

スコア : 2.5ポイント

ダウンロード数 : 9.0K

更新時間 : 2026-03-13

サイトを開く

什么是MCP Document Converter?

MCP Document Converterは、Model Context Protocol (MCP)に基づくドキュメント形式変換サーバーです。これにより、AIアシスタント（Claude Desktop、Trae IDEなど）がドキュメントをある形式から別の形式に変換でき、5つの主流ドキュメント形式間の25種類の変換組み合わせをサポートします。

如何使用MCP Document Converter?

使用方法は非常に簡単です。まず、AIクライアントでMCPサーバーを設定し、その後AIアシスタントが直接変換ツールを呼び出せます。AIアシスタントに変換するファイルと変換先の形式を指定するだけで、残りの作業は自動的に行われます。

适用场景

複数のドキュメント形式を処理する必要があるシチュエーションに適しています。例えば、技術ドキュメントをMarkdownからPDFに変換して印刷する、WordドキュメントをHTMLに変換してウェブページに公開する、PDFからテキスト内容を抽出する、HTMLレポートをWord形式に変換するなどです。

主要機能

多格式支持

5つの主流ドキュメント形式（Markdown、HTML、DOCX、PDF、純粋なテキスト）をサポートし、ほとんどの日常のドキュメント処理ニーズをカバーします。

双向转换

どの形式も他の任意の形式に変換でき、完全な5×5 = 25種類の変換組み合わせを提供し、さまざまな変換ニーズを満たします。

MCP协议集成

完全にMCP標準に準拠しており、Claude Desktop、Trae IDE、Cherry StudioなどのMCPをサポートするAIクライアントにシームレスに統合できます。

元数据保留

変換過程でドキュメントのタイトル、作者、作成日時などのメタデータを保持し、ドキュメント情報の完全性を確保します。

语法高亮

HTMLとPDF出力でコードの構文ハイライトをサポートし、技術ドキュメントやプログラミングチュートリアルの変換に特に適しています。

样式自定义

カスタムCSSスタイルをサポートし、出力ドキュメントの外観とレイアウトを調整し、個人的なニーズを満たすことができます。

優位性

ワンストップソリューション：1つのツールで複数のドキュメント形式の変換ニーズを解決する

使いやすい：AIアシスタントを通じた自然言語対話で、複雑なコマンドを学習する必要がない

高品質の変換：ドキュメントの構造と形式の完全性を維持する

拡張可能なアーキテクチャ：新しいドキュメント形式の解析器とレンダラーを追加できる

オープンソースで無料：MITライセンスに基づいて、完全に無料で使用および修正できる

制限事項

Python環境が必要：Pythonをサポートする環境で実行する必要がある

大型PDFの処理が遅い場合がある：複雑なPDFドキュメントの解析にはより多くの時間がかかる

一部の高度な形式の特性が完全に保持できない場合がある：Wordの複雑なテーブル形式など

MCPクライアントの設定が必要：初回使用時に簡単な設定手順が必要

使用方法

安装MCP Document Converter

pipを使用してツールパッケージをインストールするのが最も簡単な方法です。

配置您的AI客户端

AIクライアント（Claude Desktopなど）のMCP設定ファイルにサーバー設定を追加します。

重启AI客户端

新しいMCPサーバー設定を読み込むためにAIクライアントを再起動します。

开始使用

これで、自然言語でAIアシスタントにドキュメントを変換するように指示できます。

使用例

技术文档转换

Markdownで作成された技術ドキュメントを美しいPDF形式に変換し、印刷または共有するために使用します。

报告格式转换

Word形式の業務レポートをHTMLに変換し、ウェブページで公開および閲覧しやすくします。

内容提取

PDFドキュメントから純粋なテキスト内容を抽出し、さらなる分析または処理に使用します。

格式标准化

さまざまなソースのドキュメントをMarkdown形式に統一変換し、バージョン管理と協力を容易にします。

よくある質問

MCP Document Converterは無料ですか？

どのAIクライアントをサポートしていますか？

変換過程で形式が失われますか？

バッチ変換をサポートしていますか？

大型ファイルの変換は遅いですか？

インターネットに接続して使用する必要がありますか？

新しいドキュメント形式のサポートを追加するにはどうすればいいですか？

変換後のドキュメントの品質はどうですか？

🚀 MCP Document Converter

MCP (Model Context Protocol) Document Converter は、複数の形式間でドキュメントを変換する強力なMCPツールです。これにより、AIエージェントが簡単にドキュメントを変換できるようになります。

🌐 言語: English | 中文

🚀 クイックスタート

MCP Document Converterを使用することで、様々な形式のドキュメントを簡単に変換できます。以下に、基本的な使い方を紹介します。

✨ 主な機能

多形式対応：Markdown、HTML、DOCX、PDF、Textの5つの主流ドキュメント形式をサポートします。
双方向変換：任意の形式から任意の形式への変換が可能です（5×5 = 25の変換組み合わせ）。
MCPプロトコル：MCP標準に準拠しており、Trae IDEなどのAIアシスタント用のツールとして使用できます。
プラグインアーキテクチャ：新しいパーサーとレンダラーを簡単に拡張できます。
構文ハイライト：HTMLとPDFの出力ではコードの構文ハイライトがサポートされています。
スタイルカスタマイズ：カスタムCSSスタイルのサポートがあります。
メタデータ保存：変換中にドキュメントのタイトル、作成者、作成時間などのメタデータを保存します。

📚 ドキュメント

ユーザーガイド · APIリファレンス · コントリビュートガイド · 変更履歴 · ライセンス

🔧 技術詳細

アーキテクチャ

flowchart TB
    subgraph Parsers["Parsers"]
        MD[Markdown]
        DOCX1[DOCX]
        HTML1[HTML]
        PDF1[PDF]
        TXT1[Text]
    end

    subgraph IR["Intermediate Representation (IR)"]
        DT[Document Tree]
        META[Metadata]
        ASSETS[Assets]
    end

    subgraph Renderers["Renderers"]
        HTML2[HTML]
        PDF2[PDF]
        MD2[Markdown]
        DOCX2[DOCX]
        TXT2[Text]
    end

    MD --> IR
    DOCX1 --> IR
    HTML1 --> IR
    PDF1 --> IR
    TXT1 --> IR
    
    IR --> HTML2
    IR --> PDF2
    IR --> MD2
    IR --> DOCX2
    IR --> TXT2

コアコンポーネント

DocumentIR (Intermediate Representation)：すべてのドキュメントの統一された抽象化で、ドキュメントツリー、メタデータ、アセットなどを含みます。
BaseParser (Parser Base Class)：パーサーのインターフェースを定義し、さまざまな形式をDocumentIRに解析します。
BaseRenderer (Renderer Base Class)：レンダラーのインターフェースを定義し、DocumentIRをさまざまな形式にレンダリングします。
ConverterRegistry (Registry)：すべてのパーサーとレンダラーを管理し、形式の検索と自動マッチングを提供します。
DocumentConverter (Conversion Engine)：パーサーとレンダラーを調整してドキュメントの変換を完了します。

サポートされる形式

入力形式 (パーサー)

形式	拡張子	MIMEタイプ	特徴
Markdown	.md, .markdown, .mdown, .mkd	text/markdown	YAML Front Matter、GFM拡張
HTML	.html, .htm	text/html	セマンティックタグの解析
DOCX	.docx	application/vnd.openxmlformats-officedocument.wordprocessingml.document	スタイル、テーブル、画像
PDF	.pdf	application/pdf	テキスト抽出と構造認識
Text	.txt, .text	text/plain	自動エンコーディング検出と構造認識

出力形式 (レンダラー)

形式	拡張子	MIMEタイプ	特徴
HTML	.html	text/html	美しいスタイリング、コードハイライト、レスポンシブデザイン
Markdown	.md	text/markdown	標準Markdown形式、YAML Front Matter
DOCX	.docx	application/vnd.openxmlformats-officedocument.wordprocessingml.document	Wordドキュメント形式、スタイル保存
PDF	.pdf	application/pdf	WeasyPrintで生成、ページ分割サポート
Text	.txt	text/plain	プレーンテキスト、基本的なフォーマット保存

変換マトリックス

flowchart LR
    subgraph Sources["Source Formats"]
        MD_S[Markdown]
        HTML_S[HTML]
        DOCX_S[DOCX]
        PDF_S[PDF]
        TXT_S[Text]
    end

    subgraph Targets["Target Formats"]
        MD_T[Markdown]
        HTML_T[HTML]
        DOCX_T[DOCX]
        PDF_T[PDF]
        TXT_T[Text]
    end

    MD_S --> Targets
    HTML_S --> Targets
    DOCX_S --> Targets
    PDF_S --> Targets
    TXT_S --> Targets

📦 インストール

pipを使用する (推奨)

pip install mcp-document-converter

ソースからインストール

git clone https://github.com/xt765/mcp-document-converter.git
cd mcp-document-converter
pip install -e .

MCPツール

このサーバーは以下のツールを提供します。

`convert_document`

ドキュメントをある形式から別の形式に変換します。

引数:

source_path (文字列、必須): ソースドキュメントのパス。
target_format (文字列、必須): ターゲット形式 (html, pdf, markdown, docx, text)。
output_path (文字列、オプション): 出力ファイルのパス。
source_format (文字列、オプション): ソースファイルの形式（指定されない場合は自動検出）。
options (オブジェクト、オプション): template、css、preserve_metadata などの追加オプション。

設定

Trae IDE / Claude Desktopでの使用

MCP設定ファイルに以下を追加します。

オプション1: PyPIを使用する (推奨)

{
  "mcpServers": {
    "mcp-document-converter": {
      "command": "uvx",
      "args": [
        "mcp-document-converter"
      ]
    }
  }
}

オプション2: GitHubリポジトリを使用する

{
  "mcpServers": {
    "mcp-document-converter": {
      "command": "uvx",
      "args": [
        "--from",
        "git+https://github.com/xt765/mcp-document-converter",
        "mcp-document-converter"
      ]
    }
  }
}

オプション3: Giteeリポジトリを使用する (中国でのアクセスが速い)

{
  "mcpServers": {
    "mcp-document-converter": {
      "command": "uvx",
      "args": [
        "--from",
        "git+https://gitee.com/xt765/mcp-document-converter",
        "mcp-document-converter"
      ]
    }
  }
}

オプション4: pipを使用する (手動インストール) まずパッケージをインストールします。

pip install mcp-document-converter

次に設定に追加します。

{
  "mcpServers": {
    "mcp-document-converter": {
      "command": "mcp-document-converter",
      "args": []
    }
  }
}

Cherry Studioでの使用

Cherry Studioは、MCPプロトコルを通じてさまざまなツールを統合できる強力なオープンソースのデスクトップAIクライアントアシスタントです

設定例:

使用例:

💻 使用例

MCPツールとして

設定後、AIアシスタントは以下のツールを直接呼び出すことができます。

1. convert_document (推奨)

統一されたインターフェースを使用して、サポートされている任意のドキュメントタイプを変換します。

# MarkdownからHTMLへ
convert_document(
    source_path="document.md",
    target_format="html"
)

# HTMLからPDFへ
convert_document(
    source_path="document.html",
    target_format="pdf"
)

# DOCXからMarkdownへ
convert_document(
    source_path="document.docx",
    target_format="markdown"
)

# オプション付きの変換
convert_document(
    source_path="document.md",
    target_format="html",
    output_path="output.html",
    options={
        "css": "custom.css",
        "preserve_metadata": True
    }
)

2. list_supported_formats

サポートされているすべてのドキュメント形式をリストします。

list_supported_formats()

3. get_conversion_matrix

完全な形式変換マトリックスを取得します。

get_conversion_matrix()

4. can_convert

ソース形式からターゲット形式への変換がサポートされているかどうかを確認します。

can_convert(source_format="markdown", target_format="pdf")

5. get_format_info

特定の形式に関する詳細情報を取得します。

get_format_info(format="markdown")

Pythonライブラリとして

from mcp_document_converter import DocumentConverter
from mcp_document_converter.registry import get_registry
from mcp_document_converter.parsers import MarkdownParser, HTMLParser
from mcp_document_converter.renderers import HTMLRenderer, PDFRenderer

# パーサーとレンダラーを登録
registry = get_registry()
registry.register_parser(MarkdownParser())
registry.register_parser(HTMLParser())
registry.register_renderer(HTMLRenderer())
registry.register_renderer(PDFRenderer())

# コンバーターを作成
converter = DocumentConverter(registry)

# ドキュメントを変換
result = converter.convert(
    source="input.md",
    target_format="html",
    output_path="output.html"
)

if result.success:
    print(f"✅ 変換成功: {result.output_path}")
else:
    print(f"❌ 変換失敗: {result.error_message}")

ツールインターフェースの詳細

convert_document

ドキュメントをある形式から別の形式に変換します。

パラメータ:

パラメータ	タイプ	必須	説明
`source_path`	文字列	✅	ソースファイルのパス、絶対パスまたは相対パスをサポート
`target_format`	文字列	✅	ターゲット形式: `html`, `pdf`, `markdown`, `docx`, `text`
`output_path`	文字列	❌	出力ファイルのパス（オプション、デフォルトはソースファイル名）
`source_format`	文字列	❌	ソース形式（オプション、ファイル拡張子から自動検出）
`options`	オブジェクト	❌	変換オプション

オプション:

オプション	タイプ	デフォルト	説明
`template`	文字列	-	テンプレート名
`css`	文字列	-	カスタムCSSスタイル
`preserve_metadata`	ブール値	true	メタデータを保存するかどうか
`extract_images`	ブール値	true	画像を抽出するかどうか

例:

{
  "source_path": "/path/to/document.md",
  "target_format": "html",
  "output_path": "/path/to/output.html",
  "options": {
    "css": "body { font-family: Arial; }",
    "preserve_metadata": true
  }
}

拡張開発

新しいパーサーの追加

from typing import List, Union
from pathlib import Path
from mcp_document_converter.core.parser import BaseParser
from mcp_document_converter.core.ir import DocumentIR, Node, NodeType

class MyParser(BaseParser):
    @property
    def supported_extensions(self) -> List[str]:
        return [".myext"]
    
    @property
    def format_name(self) -> str:
        return "myformat"
    
    @property
    def mime_types(self) -> List[str]:
        return ["application/x-myformat"]
    
    def parse(self, source: Union[str, Path, bytes], **options) -> DocumentIR:
        # ソースファイルを読み込む
        content = self._read_source(source)
        
        # DocumentIRに解析する
        document = DocumentIR()
        document.title = "My Document"
        
        # コンテンツノードを追加
        document.add_node(Node(
            type=NodeType.PARAGRAPH,
            content=[Node(type=NodeType.TEXT, content="Hello World")]
        ))
        
        return document

新しいレンダラーの追加

from typing import Any
from mcp_document_converter.core.renderer import BaseRenderer
from mcp_document_converter.core.ir import DocumentIR

class MyRenderer(BaseRenderer):
    @property
    def output_extension(self) -> str:
        return ".myext"
    
    @property
    def format_name(self) -> str:
        return "myformat"
    
    @property
    def mime_type(self) -> str:
        return "application/x-myformat"
    
    def render(self, document: DocumentIR, **options: Any) -> str:
        # DocumentIRをターゲット形式にレンダリングする
        parts = []
        
        if document.title:
            parts.append(f"# {document.title}")
        
        for node in document.content:
            # 各ノードをレンダリングする
            pass
        
        return "\n".join(parts)

拡張の登録

from mcp_document_converter.registry import get_registry

# 新しいパーサーとレンダラーを登録
registry = get_registry()
registry.register_parser(MyParser())
registry.register_renderer(MyRenderer())

テスト

# すべてのテストを実行
python tests/test_conversion.py

# 特定のテストを実行
python tests/test_conversion.py::test_markdown_to_html

環境変数

変数	説明	デフォルト
`MCP_CONVERTER_LOG_LEVEL`	ログレベル	`INFO`
`MCP_CONVERTER_TEMP_DIR`	一時ファイルのディレクトリ	システムの一時ディレクトリ

依存関係

コア依存関係

mcp >= 1.26.0 - MCPプロトコルの実装
pydantic >= 2.12.5 - データ検証

パーサー依存関係

markdown >= 3.5.0 - Markdownの解析
beautifulsoup4 >= 4.12.0 - HTMLの解析
python-docx >= 1.1.0 - DOCXの解析
pypdf >= 6.7.4 - PDFの解析
chardet >= 5.0.0 - エンコーディング検出
pyyaml >= 6.0.0 - YAMLの解析

レンダラー依存関係

weasyprint >= 60.0 - PDFのレンダリング
pygments >= 2.17.0 - コードハイライト
jinja2 >= 3.1.6 - テンプレートエンジン
reportlab >= 4.0.0 - PDFの生成

開発依存関係

pytest >= 7.0.0 - テストフレームワーク
pytest-asyncio >= 0.21.0 - 非同期テストのサポート
pytest-cov >= 4.0.0 - カバレッジレポート
basedpyright >= 1.0.0 - 型チェック
ruff >= 0.1.0 - リンティングとフォーマット

📄 ライセンス

MIT License

コントリビュート

イシューとプルリクエストを歓迎します！

MCP Document Converter

概要

インストール

コンテンツ詳細

代替品

什么是MCP Document Converter?

如何使用MCP Document Converter?

适用场景

主要機能

使用方法

使用例

よくある質問

関連リソース

インストール

🚀 MCP Document Converter

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

🔧 技術詳細

アーキテクチャ

コアコンポーネント

サポートされる形式

入力形式 (パーサー)

出力形式 (レンダラー)

変換マトリックス

📦 インストール

pipを使用する (推奨)

ソースからインストール

MCPツール

convert_document

設定

Trae IDE / Claude Desktopでの使用

Cherry Studioでの使用

💻 使用例

MCPツールとして

1. convert_document (推奨)

2. list_supported_formats

3. get_conversion_matrix

4. can_convert

5. get_format_info

Pythonライブラリとして

ツールインターフェースの詳細

convert_document

拡張開発

新しいパーサーの追加

新しいレンダラーの追加

拡張の登録

テスト

環境変数

依存関係

コア依存関係

パーサー依存関係

レンダラー依存関係

開発依存関係

📄 ライセンス

コントリビュート

関連プロジェクト

代替品

`convert_document`