Doc2md
doc2md是一个MCP服务器,可将PDF、DOCX和PPTX文件转换为干净的Markdown文件,便于在LLM工具链、RAG管道和其他MCP服务器中作为资源使用。
2分
0

什么是 doc2md?

doc2md 是一个文档转换工具,专门为 AI 工作流设计。它能自动识别并转换常见的办公文档格式(PDF、Word、PowerPoint)为纯文本的 Markdown 格式。转换后的文件保留了原始文档的结构(如标题、列表、表格),并直接保存在您的文件系统中,方便其他 MCP 服务器或 AI 工具直接读取和使用。

如何使用 doc2md?

您可以通过多种方式使用 doc2md:作为独立的命令行工具、集成到 Claude Desktop 或 Cursor 等 AI 助手中,或者通过 Docker 容器运行。基本流程是:1) 配置 MCP 客户端连接 doc2md 服务器;2) 通过 AI 助手发送转换指令或直接调用工具;3) 在指定输出目录获取转换好的 Markdown 文件。

适用场景

doc2md 非常适合需要处理大量历史文档的团队和个人。例如:将公司历年积累的 PDF 报告、Word 方案书、PowerPoint 演示稿批量转换为文本,然后构建企业知识库或接入 RAG(检索增强生成)系统,让 AI 能够基于这些文档内容进行问答和分析。

主要功能

多格式支持
支持 PDF、DOCX (Microsoft Word) 和 PPTX (Microsoft PowerPoint) 三种主流文档格式的转换。
结构保留
智能识别并保留文档的原始结构,如标题层级、段落、列表、表格、超链接等,生成组织良好的 Markdown。
MCP 原生集成
作为标准的 MCP 服务器,可以无缝集成到 Claude Desktop、Cursor、Claude Code 等支持 MCP 的 AI 开发环境中。
批量转换
提供批量转换工具,可以一次性处理多个文件,并汇总转换结果,适合处理大量文档。
灵活的输入方式
既支持直接提供文件路径,也支持通过 Base64 编码传递文件内容,适应沙盒环境或网络传输场景。
Docker 支持
提供官方 Docker 镜像,方便在容器化环境中部署和运行,保证环境一致性。
优势
开箱即用:安装配置简单,与主流 AI 助手集成方便。
标准化输出:生成统一的 Markdown 格式,极大简化了后续文档处理和分析的流程。
解放生产力:自动化处理枯燥的文档格式转换工作,让团队更专注于内容本身。
技术栈友好:纯文本的 Markdown 文件易于被版本控制系统(如 Git)管理,也便于各种文本处理工具操作。
局限性
格式损失:复杂排版、特定字体、精确位置等富格式信息在转换过程中会丢失,专注于内容和基础结构。
图像处理有限:虽然能检测到图像的存在,但不会提取或转换图像中的文字(OCR)。
环境依赖:在 Docker 或沙盒环境中运行时,需要注意文件路径的映射和访问权限问题。

如何使用

安装 doc2md
选择适合您的方式安装 doc2md。最推荐使用 pip 或 uv 进行安装。
配置 MCP 客户端
在您使用的 AI 助手(如 Claude Desktop)配置文件中,添加 doc2md 作为 MCP 服务器。以下是 Claude Desktop 的配置示例。
启动并使用
重启您的 AI 助手。之后,您就可以直接通过自然语言指令(如“转换这个PDF文件”)来调用 doc2md 的功能,转换后的文件将保存在指定位置。

使用案例

案例一:构建项目知识库
项目经理拥有大量历史项目文档(PDF报告、Word方案、PPT复盘)。他使用 doc2md 批量转换所有这些文档为 Markdown,然后将输出文件夹作为资源提供给另一个“文件检索”MCP服务器。现在,他可以直接向 AI 助手提问关于任何历史项目的问题。
案例二:在 Claude Desktop 中即时查阅文档
一位分析师收到一份新的 PDF 格式的市场研究报告。她不想打开 PDF 阅读器,而是直接在 Claude Desktop 中让 AI 总结报告。她先指令 Claude 调用 doc2md 转换该 PDF,然后基于生成的 Markdown 文件进行提问。
案例三:处理来自网络的文档
开发者在沙盒环境中工作,无法直接访问主机文件系统。他下载了一个 DOCX 文件并获得了其 Base64 编码。他使用 doc2md 的 Base64 输入功能,直接传递编码内容进行转换。

常见问题

转换后的 Markdown 文件保存在哪里?
Docker 运行时找不到我的文件怎么办?
支持转换图片中的文字吗?
能转换 Excel (.xlsx) 文件吗?
转换时出现错误会影响其他文件吗?

相关资源

GitHub 仓库
访问 doc2md 的源代码,报告问题或参与贡献。
PyPI 项目页
在 Python 包索引查看项目详情和发布历史。
Docker Hub 镜像
获取官方 Docker 镜像并查看使用说明。
Model Context Protocol (MCP) 官网
了解 MCP 协议的官方文档和规范,理解 doc2md 的运行基础。

安装

复制以下命令到你的Client进行配置
{
  "mcpServers": {
    "doc2md": {
      "command": "python",
      "args": ["-m", "doc2md"],
      "env": {
        "TRANSPORT": "stdio"
      }
    }
  }
}

{
  "mcpServers": {
    "doc2md": {
      "command": "docker",
      "args": [
        "run", "--rm", "-i",
        "-v", "/path/to/your/files:/data",
        "benguy1000/doc2md"
      ]
    }
  }
}

{
  "mcpServers": {
    "doc2md": {
      "command": "python",
      "args": ["-m", "doc2md"]
    }
  }
}

{
  "mcpServers": {
    "doc2md": {
      "command": "python",
      "args": ["-m", "doc2md"],
      "transport": "stdio"
    }
  }
}

{
  "mcpServers": {
    "doc2md": {
      "url": "http://localhost:3000/sse",
      "transport": "sse"
    }
  }
}
注意:您的密钥属于敏感信息,请勿与任何人分享。

替代品

A
Airweave
Airweave是一个开源的人工智能代理和RAG系统的上下文检索层,它连接并同步各种应用程序、工具和数据库的数据,通过统一的搜索接口为AI代理提供相关、实时、多源的上下文信息。
Python
5.9K
5分
V
Vestige
Vestige是一个基于认知科学的AI记忆引擎,通过实现预测误差门控、FSRS-6间隔重复、记忆梦境等29个神经科学模块,为AI提供长期记忆能力。包含3D可视化仪表板和21个MCP工具,完全本地运行,无需云端。
Rust
4.5K
4.5分
M
Moltbrain
MoltBrain是一个为OpenClaw、MoltBook和Claude Code设计的长期记忆层插件,能够自动学习和回忆项目上下文,提供智能搜索、观察记录、分析统计和持久化存储功能。
TypeScript
4.0K
4.5分
B
Bm.md
一个功能丰富的Markdown排版工具,支持多种样式主题和平台适配,提供实时编辑预览、图片导出和API集成能力
TypeScript
3.4K
5分
S
Security Detections MCP
Security Detections MCP 是一个基于Model Context Protocol的服务器,允许LLM查询统一的安全检测规则数据库,涵盖Sigma、Splunk ESCU、Elastic和KQL格式。最新3.0版本升级为自主检测工程平台,可自动从威胁情报中提取TTPs、分析覆盖差距、生成SIEM原生格式检测规则、运行测试并验证。项目包含71+工具、11个预构建工作流提示和知识图谱系统,支持多SIEM平台。
TypeScript
6.0K
4分
P
Paperbanana
PaperBanana是一个自动化生成学术图表和统计图的智能框架,支持从文本描述生成高质量的论文插图,采用多智能体管道和迭代优化,提供CLI、Python API和MCP服务器等多种使用方式。
Python
7.5K
5分
B
Better Icons
一个提供超过20万图标搜索和检索的MCP服务器和CLI工具,支持150多个图标库,帮助AI助手和开发者快速获取和使用图标。
TypeScript
6.7K
4.5分
A
Assistant Ui
assistant-ui是一个开源TypeScript/React库,用于快速构建生产级AI聊天界面,提供可组合的UI组件、流式响应、无障碍访问等功能,支持多种AI后端和模型。
TypeScript
6.2K
5分
F
Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
74.4K
4.5分
F
Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
151.3K
5分
D
Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
84.3K
4.3分
E
Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
33.0K
4.8分
B
Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
50.1K
4.5分
E
Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
57.2K
5分
M
Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
64.6K
4.8分
C
Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
106.7K
4.7分
AIBase
智启未来,您的人工智能解决方案智库
© 2026AIBase