Markdown MCP

一个基于Playwright的MCP服务器，能够从网页中智能提取纯净的Markdown内容，自动过滤导航栏、页脚等非核心元素，支持图片和链接保留，适用于文档、博客和技术文章等内容抓取。

开发者工具研究与数据 #网页内容提取 #Markdown转换 #智能抓取 #文档处理 .JavaScript

评分 : 2分

下载量 : 10.3K

更新时间 : 2025-12-12

打开站点

什么是Markdown MCP服务器？

Markdown MCP服务器是一个智能工具，专门用于从网页中提取核心内容并转换为易于阅读的Markdown格式。它能够智能识别网页的主要文章区域，自动移除导航菜单、侧边栏、页脚、广告等干扰元素，只保留您真正关心的内容。

如何使用Markdown MCP服务器？

您可以通过Claude Desktop或Gemini CLI等AI助手使用这个工具。只需告诉AI助手您想要提取的网页链接，工具就会自动获取网页内容并转换为干净的Markdown格式。您还可以选择是否包含图片和链接，以适应不同的使用需求。

适用场景

这个工具特别适合需要收集和整理网页信息的场景，比如：研究资料收集、技术文档整理、新闻文章保存、学习笔记制作、内容分析等。无论是技术文档、博客文章、新闻报导还是产品页面，都能获得干净的内容提取。

主要功能

智能内容提取

自动识别网页的主要内容区域，智能过滤导航栏、页脚、侧边栏、广告等非核心内容

干净的Markdown输出

生成结构清晰的Markdown文档，保留标题、段落、列表、代码块、表格等格式

图片和链接支持

可选择是否包含图片引用和超链接，适应不同的使用场景

动态内容处理

能够处理JavaScript生成的动态内容，支持现代网页框架

多客户端支持

支持Claude Desktop和Gemini CLI等多种AI助手，提供优化的配置文件

强大的错误处理

内置多种容错机制，当主要提取方法失败时自动尝试备用方案

优势

🎯 智能识别核心内容，自动过滤干扰元素

⚡ 处理速度快，通常5-15秒完成提取

🔄 支持动态内容和JavaScript网站

🎨 输出格式美观，保留原文结构

🔧 配置灵活，可定制图片和链接包含选项

🛡️ 安全可靠，每次请求使用独立浏览器环境

局限性

需要Node.js环境支持

首次使用需要安装浏览器组件

某些特殊网站可能需要手动配置选择器

无法处理需要登录的私有内容

内存占用相对较高（约50-100MB）

如何使用

环境准备

确保您的计算机已安装Node.js（版本18或更高）。如果没有安装，请先访问Node.js官网下载安装。

下载和安装

获取Markdown MCP服务器文件，安装必要的依赖包和浏览器组件。

配置AI助手

根据您使用的AI助手（Claude Desktop或Gemini CLI），添加MCP服务器配置。

开始使用

重启AI助手，现在您可以通过自然语言指令让助手提取网页内容了。

使用案例

技术文档整理

将Confluent Flink技术文档转换为干净的Markdown格式，便于离线阅读和学习。

新闻文章收集

从新闻网站提取文章内容，保存为干净的文本格式用于研究分析。

博客内容备份

将喜欢的博客文章转换为Markdown格式，建立个人知识库。

产品页面分析

提取竞品网站的产品特性描述，用于市场分析。

常见问题

这个工具是免费的吗？

需要编程知识才能使用吗？

支持哪些网站？

提取的内容准确吗？

会保存我的浏览历史或数据吗？

遇到网站无法提取怎么办？

可以批量提取多个网页吗？

支持中文网站吗？

🚀 Markdown MCP 服务器

Markdown MCP 服务器是一个基于模型上下文协议（MCP）的工具，它借助 Playwright 从网页中提取简洁的 Markdown 内容。该服务器提供了 get_page_markdown 工具，可从任意 URL 提取网页的主要内容，同时过滤掉导航栏、页眉、页脚等非内容元素。

✨ 主要特性

🎯 智能内容提取：自动识别并提取网页的主要内容。
🧹 简洁输出：过滤掉导航栏、页眉、页脚、侧边栏和广告等内容。
🎨 丰富的 Markdown 格式：保留包括标题、粗体、斜体、代码块、列表和表格等格式。
🖼️ 图片支持：可选择在 Markdown 中包含图片引用。
🔗 链接支持：可选择在 Markdown 中包含超链接。
⚡ 快速可靠：使用 Playwright 进行强大的网页抓取。
🔄 动态内容处理：能够处理 JavaScript 丰富的网站和动态内容加载。
🛡️ 错误处理：具备强大的错误处理机制，包含备用提取方法。

📦 安装指南

克隆或下载本仓库：

git clone <repository-url>
cd markdown-mcp

安装依赖项：
```
npm install
```
安装 Playwright 浏览器：
```
npx playwright install chromium
```
使脚本可执行（可选）：
```
chmod +x markdown-mcp.js
```

💻 使用示例

作为 MCP 服务器启动

启动服务器：

node markdown-mcp.js

服务器提供了一个工具：get_page_markdown

工具参数

url（必需）：要提取 Markdown 内容的 URL。
includeImages（可选，默认值：true）：是否在 Markdown 中包含图片引用。
includeLinks（可选，默认值：true）：是否在 Markdown 中包含超链接。
waitForSelector（可选）：在提取内容前等待的 CSS 选择器（适用于动态内容）。
timeout（可选，默认值：30000）：导航超时时间（以毫秒为单位）。

基础用法

{
  "name": "get_page_markdown",
  "arguments": {
    "url": "https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html",
    "includeImages": true,
    "includeLinks": true,
    "timeout": 30000
  }
}

高级用法

从特定部分提取内容：

{
  "name": "get_page_markdown",
  "arguments": {
    "url": "https://example.com/article",
    "waitForSelector": ".main-content",
    "includeImages": false,
    "includeLinks": true
  }
}

使用自定义超时时间提取内容：

{
  "name": "get_page_markdown",
  "arguments": {
    "url": "https://slow-loading-site.com",
    "timeout": 60000
  }
}

📚 详细文档

文件结构

本项目包含两个针对不同客户端优化的 MCP 服务器文件：

markdown-mcp.js - 针对 Claude Desktop 进行了优化。
markdown-mcp-gemini.js - 针对 Gemini CLI 进行了优化。

两个文件都提供了相同的 get_page_markdown 工具，但针对每个客户端进行了不同的配置，以实现最佳性能。

添加到 AI 客户端

此 MCP 服务器可与多个支持模型上下文协议的 AI 客户端一起使用。以下是针对最流行客户端的使用说明。

Claude Desktop 集成

要在 Claude Desktop 中使用此 MCP 服务器，需要将其添加到 Claude Desktop 的配置文件中。

步骤 1：定位 Claude Desktop 配置文件

macOS：配置文件路径为 ~/Library/Application Support/Claude/claude_desktop_config.json。
Windows：配置文件路径为 %APPDATA%\Claude\claude_desktop_config.json。
Linux：配置文件路径为 ~/.config/claude/claude_desktop_config.json。

步骤 2：编辑配置文件

使用文本编辑器打开配置文件。
将 markdown-mcp 服务器添加到 mcpServers 部分。
更新路径，指向你的 markdown-mcp.js 文件。

步骤 3：配置示例

macOS 配置

{
  "mcpServers": {
    "markdown-mcp": {
      "command": "node",
      "args": ["/Users/yourusername/path/to/markdown-mcp/markdown-mcp.js"],
      "env": {}
    }
  }
}

Windows 配置

{
  "mcpServers": {
    "markdown-mcp": {
      "command": "node",
      "args": ["C:\\Users\\YourUsername\\path\\to\\markdown-mcp\\markdown-mcp.js"],
      "env": {}
    }
  }
}

Linux 配置

{
  "mcpServers": {
    "markdown-mcp": {
      "command": "node",
      "args": ["/home/yourusername/path/to/markdown-mcp/markdown-mcp.js"],
      "env": {}
    }
  }
}

步骤 4：重启 Claude Desktop

更新配置文件后，重启 Claude Desktop 以使更改生效。

步骤 5：验证安装

打开 Claude Desktop。
开始一个新的对话。
尝试让 Claude 使用 markdown-mcp 工具从网页中提取内容。
示例：“使用 markdown-mcp 从 https://example.com 提取内容”。

故障排除

如果 MCP 服务器无法正常工作：

检查文件路径：确保 markdown-mcp.js 的路径正确，且文件存在。
验证 Node.js：确保 Node.js 已安装，并且可以从命令行访问。
检查权限：确保脚本具有执行权限。
手动测试：尝试在终端中运行 node markdown-mcp.js，查看是否有错误。
检查 Claude Desktop 日志：在 Claude Desktop 的开发者控制台中查找错误消息。

常见问题：

路径未找到：仔细检查配置文件中的文件路径。
未找到 Node.js：确保 Node.js 已安装，并已添加到系统路径中。
权限被拒绝：运行 chmod +x markdown-mcp.js 使脚本可执行。
缺少依赖项：在 markdown-mcp 目录中运行 npm install。

Gemini CLI 集成

要在 Gemini CLI 中使用此 MCP 服务器，请按照以下步骤操作：

步骤 1：安装 Gemini CLI

如果你尚未安装 Gemini CLI，请运行以下命令：

npm install -g @google/gemini-cli

验证安装：

gemini --version

步骤 2：将 MCP 服务器添加到 Gemini CLI

将你的 markdown-mcp 服务器添加到 Gemini CLI：

gemini mcp add markdown-mcp /Users/yourusername/path/to/markdown-mcp/markdown-mcp-gemini.js

重要提示：请将 /Users/yourusername/path/to/markdown-mcp/markdown-mcp-gemini.js 替换为你实际的 markdown-mcp-gemini.js 文件路径。

步骤 3：验证集成

列出所有配置的 MCP 服务器，以验证集成是否成功：

gemini mcp list

你应该会在服务器列表中看到 markdown-mcp。

步骤 4：测试集成

使用 Gemini CLI 测试 markdown-mcp 服务器：

# 示例：从网页中提取内容
gemini "使用 markdown-mcp 工具从 https://example.com 提取内容"

或者你可以直接使用该工具：

# 如果该工具作为命令公开
gemini get_page_markdown "https://example.com"

步骤 5：完整示例 - 提取并保存 Markdown

以下是一个完整的示例，它从网页中提取 Markdown 内容并保存到文件中：

# 从网页中提取内容并保存到 result.md
gemini "使用 get_page_markdown 从 https://www.confluent.io/blog/event-driven-flink-agents-enterprise-ai/ 提取内容，并将响应保存为 result.md"

此命令将：

使用 get_page_markdown 工具从 Confluent 博客文章中提取简洁的 Markdown 内容。
将提取的 Markdown 内容保存到当前目录下名为 result.md 的文件中。
为你提供网页内容的简洁、易读的 Markdown 版本。

其他示例：

# 从文档中提取内容并使用自定义文件名保存
gemini "使用 get_page_markdown 从 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取内容，并保存为 flink-docs.md"

# 从 GitHub 仓库的 README 中提取内容
gemini "使用 get_page_markdown 从 https://github.com/microsoft/vscode 提取内容，并保存为 vscode-readme.md"

# 使用特定选项提取内容
gemini "使用 get_page_markdown，设置 includeImages=false，从 https://example.com 提取内容，并保存为 clean-content.md"

Gemini CLI 故障排除

如果 MCP 服务器在 Gemini CLI 中无法正常工作：

检查文件路径：确保 markdown-mcp-gemini.js 的路径正确且为绝对路径。
验证 Node.js：确保可以从命令行访问 Node.js。
检查权限：确保脚本具有执行权限（chmod +x markdown-mcp-gemini.js）。
手动测试服务器：运行 node markdown-mcp-gemini.js 检查是否有错误。
检查 Gemini CLI 日志：在 Gemini CLI 输出中查找错误消息。

常见的 Gemini CLI 问题：

路径未找到：添加 MCP 服务器时使用绝对路径。
权限被拒绝：运行 chmod +x markdown-mcp-gemini.js 使脚本可执行。
未找到 Node.js：确保 Node.js 已安装，并已添加到系统路径中。
服务器无响应：使用 node markdown-mcp-gemini.js 检查服务器是否正常启动。

与多个 AI 客户端一起使用

你可以同时将同一个 markdown-mcp 服务器与多个 AI 客户端一起使用。该 MCP 服务器设计为能够高效处理多个并发请求。

多客户端设置的优势

灵活性：在不同的 AI 模型中使用相同的工具。
效率：在多个客户端之间共享同一个服务器实例。
一致性：无论使用哪个 AI 客户端，都能获得相同的提取质量。
资源优化：无需运行多个服务器实例。

多客户端设置步骤

使用 markdown-mcp.js 设置 Claude Desktop（如上述说明）。
使用 markdown-mcp-gemini.js 设置 Gemini CLI（如上述说明）。
两个客户端可以使用各自的服务器文件 - 针对每个客户端进行了优化。

使用示例

与 Claude Desktop 一起使用：

使用 markdown-mcp 从 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取内容

与 Gemini CLI 一起使用：

# 提取并保存到文件
gemini "使用 get_page_markdown 从 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取内容，并保存为 result.md"

# 或者仅提取不保存
gemini "使用 get_page_markdown 从 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取内容"

性能考虑

服务器能够高效处理多个并发请求。
每个请求使用一个全新的浏览器上下文以确保安全性。
内存使用量随并发请求数量的增加而增加。
典型响应时间：每个请求 5 - 15 秒。

🔧 技术细节

测试

服务器已经过测试，并验证了在各种网站上的正常工作，包括：

✅ 文档网站（Confluent、GitHub 等）
✅ 新闻文章和博客文章
✅ 包含代码示例的技术文档
✅ 电子商务页面和产品描述
✅ JavaScript 丰富的网站和动态内容

测试功能

✅ 提取标题、段落和文本内容。
✅ 保留粗体和斜体格式。
✅ 处理代码块和内联代码。
✅ 处理列表（有序和无序列表）。
✅ 提取格式正确的表格。
✅ 过滤掉导航栏和页脚内容。
✅ 处理图片和链接（启用时）。
✅ 响应 MCP 协议请求。
✅ 处理动态内容和 JavaScript 丰富的网站。

手动测试

你可以通过运行以下命令手动测试服务器：

# 使用简单的 URL 进行测试
node -e "
const { spawn } = require('child_process');
const server = spawn('node', ['markdown-mcp.js'], { stdio: ['pipe', 'pipe', 'pipe'] });
const request = {
  jsonrpc: '2.0',
  id: 1,
  method: 'tools/call',
  params: {
    name: 'get_page_markdown',
    arguments: { url: 'https://example.com' }
  }
};
server.stdin.write(JSON.stringify(request) + '\n');
setTimeout(() => {
  server.kill();
  console.log('测试完成');
}, 10000);
"