Markdown MCP

一個基於Playwright的MCP服務器，能夠從網頁中智能提取純淨的Markdown內容，自動過濾導航欄、頁腳等非核心元素，支持圖片和鏈接保留，適用於文檔、博客和技術文章等內容抓取。

開發者工具研究與數據 #網頁內容提取 #Markdown轉換 #智能抓取 #文檔處理 .JavaScript

評分 : 2分

下載量 : 10.0K

更新時間 : 2025-12-12

打開站點

什麼是Markdown MCP服務器？

Markdown MCP服務器是一個智能工具，專門用於從網頁中提取核心內容並轉換為易於閱讀的Markdown格式。它能夠智能識別網頁的主要文章區域，自動移除導航菜單、側邊欄、頁腳、廣告等干擾元素，只保留您真正關心的內容。

如何使用Markdown MCP服務器？

您可以通過Claude Desktop或Gemini CLI等AI助手使用這個工具。只需告訴AI助手您想要提取的網頁鏈接，工具就會自動獲取網頁內容並轉換為乾淨的Markdown格式。您還可以選擇是否包含圖片和鏈接，以適應不同的使用需求。

適用場景

這個工具特別適合需要收集和整理網頁信息的場景，比如：研究資料收集、技術文檔整理、新聞文章保存、學習筆記製作、內容分析等。無論是技術文檔、博客文章、新聞報導還是產品頁面，都能獲得乾淨的內容提取。

主要功能

智能內容提取

自動識別網頁的主要內容區域，智能過濾導航欄、頁腳、側邊欄、廣告等非核心內容

乾淨的Markdown輸出

生成結構清晰的Markdown文檔，保留標題、段落、列表、代碼塊、表格等格式

圖片和鏈接支持

可選擇是否包含圖片引用和超鏈接，適應不同的使用場景

動態內容處理

能夠處理JavaScript生成的動態內容，支持現代網頁框架

多客戶端支持

支持Claude Desktop和Gemini CLI等多種AI助手，提供優化的配置文件

強大的錯誤處理

內置多種容錯機制，當主要提取方法失敗時自動嘗試備用方案

優勢

🎯 智能識別核心內容，自動過濾干擾元素

⚡ 處理速度快，通常5-15秒完成提取

🔄 支持動態內容和JavaScript網站

🎨 輸出格式美觀，保留原文結構

🔧 配置靈活，可定製圖片和鏈接包含選項

🛡️ 安全可靠，每次請求使用獨立瀏覽器環境

侷限性

需要Node.js環境支持

首次使用需要安裝瀏覽器組件

某些特殊網站可能需要手動配置選擇器

無法處理需要登錄的私有內容

內存佔用相對較高（約50-100MB）

如何使用

環境準備

確保您的計算機已安裝Node.js（版本18或更高）。如果沒有安裝，請先訪問Node.js官網下載安裝。

下載和安裝

獲取Markdown MCP服務器文件，安裝必要的依賴包和瀏覽器組件。

配置AI助手

根據您使用的AI助手（Claude Desktop或Gemini CLI），添加MCP服務器配置。

開始使用

重啟AI助手，現在您可以通過自然語言指令讓助手提取網頁內容了。

使用案例

技術文檔整理

將Confluent Flink技術文檔轉換為乾淨的Markdown格式，便於離線閱讀和學習。

新聞文章收集

從新聞網站提取文章內容，保存為乾淨的文本格式用於研究分析。

博客內容備份

將喜歡的博客文章轉換為Markdown格式，建立個人知識庫。

產品頁面分析

提取競品網站的產品特性描述，用於市場分析。

常見問題

這個工具是免費的嗎？

需要編程知識才能使用嗎？

支持哪些網站？

提取的內容準確嗎？

會保存我的瀏覽歷史或數據嗎？

遇到網站無法提取怎麼辦？

可以批量提取多個網頁嗎？

支持中文網站嗎？

🚀 Markdown MCP 服務器

Markdown MCP 服務器是一個基於模型上下文協議（MCP）的工具，它藉助 Playwright 從網頁中提取簡潔的 Markdown 內容。該服務器提供了 get_page_markdown 工具，可從任意 URL 提取網頁的主要內容，同時過濾掉導航欄、頁眉、頁腳等非內容元素。

✨ 主要特性

🎯 智能內容提取：自動識別並提取網頁的主要內容。
🧹 簡潔輸出：過濾掉導航欄、頁眉、頁腳、側邊欄和廣告等內容。
🎨 豐富的 Markdown 格式：保留包括標題、粗體、斜體、代碼塊、列表和表格等格式。
🖼️ 圖片支持：可選擇在 Markdown 中包含圖片引用。
🔗 鏈接支持：可選擇在 Markdown 中包含超鏈接。
⚡ 快速可靠：使用 Playwright 進行強大的網頁抓取。
🔄 動態內容處理：能夠處理 JavaScript 豐富的網站和動態內容加載。
🛡️ 錯誤處理：具備強大的錯誤處理機制，包含備用提取方法。

📦 安裝指南

克隆或下載本倉庫：

git clone <repository-url>
cd markdown-mcp

安裝依賴項：
```
npm install
```
安裝 Playwright 瀏覽器：
```
npx playwright install chromium
```
使腳本可執行（可選）：
```
chmod +x markdown-mcp.js
```

💻 使用示例

作為 MCP 服務器啟動

啟動服務器：

node markdown-mcp.js

服務器提供了一個工具：get_page_markdown

工具參數

url（必需）：要提取 Markdown 內容的 URL。
includeImages（可選，默認值：true）：是否在 Markdown 中包含圖片引用。
includeLinks（可選，默認值：true）：是否在 Markdown 中包含超鏈接。
waitForSelector（可選）：在提取內容前等待的 CSS 選擇器（適用於動態內容）。
timeout（可選，默認值：30000）：導航超時時間（以毫秒為單位）。

基礎用法

{
  "name": "get_page_markdown",
  "arguments": {
    "url": "https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html",
    "includeImages": true,
    "includeLinks": true,
    "timeout": 30000
  }
}

高級用法

從特定部分提取內容：

{
  "name": "get_page_markdown",
  "arguments": {
    "url": "https://example.com/article",
    "waitForSelector": ".main-content",
    "includeImages": false,
    "includeLinks": true
  }
}

使用自定義超時時間提取內容：

{
  "name": "get_page_markdown",
  "arguments": {
    "url": "https://slow-loading-site.com",
    "timeout": 60000
  }
}

📚 詳細文檔

文件結構

本項目包含兩個針對不同客戶端優化的 MCP 服務器文件：

markdown-mcp.js - 針對 Claude Desktop 進行了優化。
markdown-mcp-gemini.js - 針對 Gemini CLI 進行了優化。

兩個文件都提供了相同的 get_page_markdown 工具，但針對每個客戶端進行了不同的配置，以實現最佳性能。

添加到 AI 客戶端

此 MCP 服務器可與多個支持模型上下文協議的 AI 客戶端一起使用。以下是針對最流行客戶端的使用說明。

Claude Desktop 集成

要在 Claude Desktop 中使用此 MCP 服務器，需要將其添加到 Claude Desktop 的配置文件中。

步驟 1：定位 Claude Desktop 配置文件

macOS：配置文件路徑為 ~/Library/Application Support/Claude/claude_desktop_config.json。
Windows：配置文件路徑為 %APPDATA%\Claude\claude_desktop_config.json。
Linux：配置文件路徑為 ~/.config/claude/claude_desktop_config.json。

步驟 2：編輯配置文件

使用文本編輯器打開配置文件。
將 markdown-mcp 服務器添加到 mcpServers 部分。
更新路徑，指向你的 markdown-mcp.js 文件。

步驟 3：配置示例

macOS 配置

{
  "mcpServers": {
    "markdown-mcp": {
      "command": "node",
      "args": ["/Users/yourusername/path/to/markdown-mcp/markdown-mcp.js"],
      "env": {}
    }
  }
}

Windows 配置

{
  "mcpServers": {
    "markdown-mcp": {
      "command": "node",
      "args": ["C:\\Users\\YourUsername\\path\\to\\markdown-mcp\\markdown-mcp.js"],
      "env": {}
    }
  }
}

Linux 配置

{
  "mcpServers": {
    "markdown-mcp": {
      "command": "node",
      "args": ["/home/yourusername/path/to/markdown-mcp/markdown-mcp.js"],
      "env": {}
    }
  }
}

步驟 4：重啟 Claude Desktop

更新配置文件後，重啟 Claude Desktop 以使更改生效。

步驟 5：驗證安裝

打開 Claude Desktop。
開始一個新的對話。
嘗試讓 Claude 使用 markdown-mcp 工具從網頁中提取內容。
示例：“使用 markdown-mcp 從 https://example.com 提取內容”。

故障排除

如果 MCP 服務器無法正常工作：

檢查文件路徑：確保 markdown-mcp.js 的路徑正確，且文件存在。
驗證 Node.js：確保 Node.js 已安裝，並且可以從命令行訪問。
檢查權限：確保腳本具有執行權限。
手動測試：嘗試在終端中運行 node markdown-mcp.js，查看是否有錯誤。
檢查 Claude Desktop 日誌：在 Claude Desktop 的開發者控制檯中查找錯誤消息。

常見問題：

路徑未找到：仔細檢查配置文件中的文件路徑。
未找到 Node.js：確保 Node.js 已安裝，並已添加到系統路徑中。
權限被拒絕：運行 chmod +x markdown-mcp.js 使腳本可執行。
缺少依賴項：在 markdown-mcp 目錄中運行 npm install。

Gemini CLI 集成

要在 Gemini CLI 中使用此 MCP 服務器，請按照以下步驟操作：

步驟 1：安裝 Gemini CLI

如果你尚未安裝 Gemini CLI，請運行以下命令：

npm install -g @google/gemini-cli

驗證安裝：

gemini --version

步驟 2：將 MCP 服務器添加到 Gemini CLI

將你的 markdown-mcp 服務器添加到 Gemini CLI：

gemini mcp add markdown-mcp /Users/yourusername/path/to/markdown-mcp/markdown-mcp-gemini.js

重要提示：請將 /Users/yourusername/path/to/markdown-mcp/markdown-mcp-gemini.js 替換為你實際的 markdown-mcp-gemini.js 文件路徑。

步驟 3：驗證集成

列出所有配置的 MCP 服務器，以驗證集成是否成功：

gemini mcp list

你應該會在服務器列表中看到 markdown-mcp。

步驟 4：測試集成

使用 Gemini CLI 測試 markdown-mcp 服務器：

# 示例：從網頁中提取內容
gemini "使用 markdown-mcp 工具從 https://example.com 提取內容"

或者你可以直接使用該工具：

# 如果該工具作為命令公開
gemini get_page_markdown "https://example.com"

步驟 5：完整示例 - 提取並保存 Markdown

以下是一個完整的示例，它從網頁中提取 Markdown 內容並保存到文件中：

# 從網頁中提取內容並保存到 result.md
gemini "使用 get_page_markdown 從 https://www.confluent.io/blog/event-driven-flink-agents-enterprise-ai/ 提取內容，並將響應保存為 result.md"

此命令將：

使用 get_page_markdown 工具從 Confluent 博客文章中提取簡潔的 Markdown 內容。
將提取的 Markdown 內容保存到當前目錄下名為 result.md 的文件中。
為你提供網頁內容的簡潔、易讀的 Markdown 版本。

其他示例：

# 從文檔中提取內容並使用自定義文件名保存
gemini "使用 get_page_markdown 從 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取內容，並保存為 flink-docs.md"

# 從 GitHub 倉庫的 README 中提取內容
gemini "使用 get_page_markdown 從 https://github.com/microsoft/vscode 提取內容，並保存為 vscode-readme.md"

# 使用特定選項提取內容
gemini "使用 get_page_markdown，設置 includeImages=false，從 https://example.com 提取內容，並保存為 clean-content.md"

Gemini CLI 故障排除

如果 MCP 服務器在 Gemini CLI 中無法正常工作：

檢查文件路徑：確保 markdown-mcp-gemini.js 的路徑正確且為絕對路徑。
驗證 Node.js：確保可以從命令行訪問 Node.js。
檢查權限：確保腳本具有執行權限（chmod +x markdown-mcp-gemini.js）。
手動測試服務器：運行 node markdown-mcp-gemini.js 檢查是否有錯誤。
檢查 Gemini CLI 日誌：在 Gemini CLI 輸出中查找錯誤消息。

常見的 Gemini CLI 問題：

路徑未找到：添加 MCP 服務器時使用絕對路徑。
權限被拒絕：運行 chmod +x markdown-mcp-gemini.js 使腳本可執行。
未找到 Node.js：確保 Node.js 已安裝，並已添加到系統路徑中。
服務器無響應：使用 node markdown-mcp-gemini.js 檢查服務器是否正常啟動。

與多個 AI 客戶端一起使用

你可以同時將同一個 markdown-mcp 服務器與多個 AI 客戶端一起使用。該 MCP 服務器設計為能夠高效處理多個併發請求。

多客戶端設置的優勢

靈活性：在不同的 AI 模型中使用相同的工具。
效率：在多個客戶端之間共享同一個服務器實例。
一致性：無論使用哪個 AI 客戶端，都能獲得相同的提取質量。
資源優化：無需運行多個服務器實例。

多客戶端設置步驟

使用 markdown-mcp.js 設置 Claude Desktop（如上述說明）。
使用 markdown-mcp-gemini.js 設置 Gemini CLI（如上述說明）。
兩個客戶端可以使用各自的服務器文件 - 針對每個客戶端進行了優化。

使用示例

與 Claude Desktop 一起使用：

使用 markdown-mcp 從 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取內容

與 Gemini CLI 一起使用：

# 提取並保存到文件
gemini "使用 get_page_markdown 從 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取內容，並保存為 result.md"

# 或者僅提取不保存
gemini "使用 get_page_markdown 從 https://docs.confluent.io/cloud/current/flink/operate-and-deploy/monitor-statements.html 提取內容"

性能考慮

服務器能夠高效處理多個併發請求。
每個請求使用一個全新的瀏覽器上下文以確保安全性。
內存使用量隨併發請求數量的增加而增加。
典型響應時間：每個請求 5 - 15 秒。

🔧 技術細節

測試

服務器已經過測試，並驗證了在各種網站上的正常工作，包括：

✅ 文檔網站（Confluent、GitHub 等）
✅ 新聞文章和博客文章
✅ 包含代碼示例的技術文檔
✅ 電子商務頁面和產品描述
✅ JavaScript 豐富的網站和動態內容

測試功能

✅ 提取標題、段落和文本內容。
✅ 保留粗體和斜體格式。
✅ 處理代碼塊和內聯代碼。
✅ 處理列表（有序和無序列表）。
✅ 提取格式正確的表格。
✅ 過濾掉導航欄和頁腳內容。
✅ 處理圖片和鏈接（啟用時）。
✅ 響應 MCP 協議請求。
✅ 處理動態內容和 JavaScript 豐富的網站。

手動測試

你可以通過運行以下命令手動測試服務器：

# 使用簡單的 URL 進行測試
node -e "
const { spawn } = require('child_process');
const server = spawn('node', ['markdown-mcp.js'], { stdio: ['pipe', 'pipe', 'pipe'] });
const request = {
  jsonrpc: '2.0',
  id: 1,
  method: 'tools/call',
  params: {
    name: 'get_page_markdown',
    arguments: { url: 'https://example.com' }
  }
};
server.stdin.write(JSON.stringify(request) + '\n');
setTimeout(() => {
  server.kill();
  console.log('測試完成');
}, 10000);
"