Mcpserver

基於MCP協議的TypeScript網頁爬取服務器，支持多種導出格式、無頭瀏覽器和自定義規則集，適用於各類網頁內容抓取需求。

研究與數據開發者工具 #網頁爬取 #內容提取 #批量處理 #規則引擎 .TypeScript

評分 : 2分

下載量 : 9.2K

更新時間 : 2025-08-15

打開站點

什麼是Web Scraper MCP Server?

這是一個基於Model Context Protocol (MCP)的網頁內容抓取服務器，可以幫助用戶從各種網站提取結構化內容。它特別適合需要批量獲取網頁信息的非技術人員使用。

如何使用Web Scraper MCP Server?

您只需要提供目標網址和簡單的配置參數，服務器就會自動抓取並返回格式化後的內容。無需編寫代碼即可完成複雜的網頁抓取任務。

適用場景

適用於內容採集、市場調研、競品分析、新聞聚合、數據存檔等多種業務場景。特別適合需要定期獲取特定網站更新的用戶。

主要功能

多格式導出

支持將抓取內容導出為Markdown、純文本、HTML和JSON格式，滿足不同使用需求

無頭瀏覽器支持

可處理JavaScript渲染的動態頁面，解決單頁應用(SPA)內容抓取問題

智能規則引擎

內置多種預定義規則集，可智能識別和提取網頁主要內容區域

批量抓取

支持同時抓取多個URL，提高數據採集效率

自定義請求頭

可設置特定域名的請求頭，繞過網站登錄和反爬限制

優勢

簡單易用，無需編程知識即可完成複雜抓取任務

內置智能內容識別，自動過濾廣告和無關內容

支持處理現代Web應用(SPA)的動態內容

靈活的導出格式選擇，滿足不同場景需求

可擴展的規則系統，支持自定義內容提取規則

侷限性

對高度動態或需要複雜交互的頁面支持有限

大規模抓取時可能需要配置代理IP

部分網站可能有反爬機制導致抓取失敗

無頭瀏覽器模式會消耗較多系統資源

如何使用

安裝服務器

克隆項目並安裝所需依賴

啟動服務

運行啟動命令啟動MCP服務器

發送請求

通過HTTP請求調用服務器提供的各種工具

使用案例

抓取新聞文章

從新聞網站獲取文章正文並保存為Markdown格式

批量獲取產品信息

從電商網站抓取多個產品頁面的關鍵信息

抓取需要登錄的內容

設置認證信息抓取需要登錄才能訪問的頁面

常見問題

為什麼有些網站抓取不到內容？

如何處理動態加載的內容？

可以抓取需要登錄的網站嗎？

如何提高抓取速度？

抓取的內容不準確怎麼辦？

🚀 Web Scraper MCP Server

基於 Model Context Protocol (MCP) 的 TypeScript 網頁爬取服務器，內置多種常用爬取與命令工具，能高效完成各類網頁內容的爬取任務。

🚀 快速開始

本項目是基於 Model Context Protocol (MCP) 的 TypeScript 網頁爬取服務器。它內置了多種常用的爬取與命令工具，助您輕鬆完成網頁內容的爬取與處理。

安裝

# 克隆項目
git clone <repository-url>
cd web-scraper-mcp

# 安裝依賴
npm install

# 構建項目
npm run build

啟動服務器

npm start

✨ 主要特性

🚀 多種導出格式：支持將爬取內容導出為 Markdown、Text、HTML 和 JSON 格式，滿足多樣化的使用需求。
🎭 Puppeteer 無頭瀏覽器：有效解決未實現靜態化的 SPA 單頁應用渲染問題。
📋 規則集支持：支持設置規則集，精準抓取網頁的特定部分內容。
🔧 自定義域名 Headers：支持設置自定義域名 Headers，輕鬆繞過網站登錄限制。
📦 批量爬取：支持同時爬取多個 URL，提升爬取效率。
🎯 智能內容提取：自動識別和提取網頁主要內容。

📦 安裝指南

# 克隆項目
git clone <repository-url>
cd web-scraper-mcp

# 安裝依賴
npm install

# 構建項目
npm run build

💻 使用示例

啟動服務器

npm start

可用工具

1. scrape_url - 爬取單個網頁

{
  "name": "scrape_url",
  "arguments": {
    "url": "https://example.com",
    "format": "markdown",
    "usePuppeteer": false,
    "ruleSet": "blog",
    "customHeaders": {
      "Authorization": "Bearer token"
    }
  }
}

參數說明：

url（必需）：要爬取的網頁 URL。
format（可選）：導出格式，支持 markdown、text、html、json，默認為 markdown。
usePuppeteer（可選）：是否使用 Puppeteer 無頭瀏覽器，默認為 false。
ruleSet（可選）：規則集名稱，用於提取特定內容。
customHeaders（可選）：自定義請求頭。

2. create_rule_set - 創建內容提取規則集

{
  "name": "create_rule_set",
  "arguments": {
    "name": "my_blog_rule",
    "rules": {
      "title": "h1, .post-title",
      "content": ".post-content, article",
      "links": ".post-content a",
      "images": ".post-content img",
      "exclude": ["nav", "footer", ".sidebar"]
    }
  }
}

參數說明：

name（必需）：規則集名稱。
rules（必需）：提取規則配置。
- title：標題選擇器。
- content：內容選擇器。
- links：鏈接選擇器。
- images：圖片選擇器。
- exclude：要排除的選擇器列表。

3. set_domain_headers - 設置域名請求頭

{
  "name": "set_domain_headers",
  "arguments": {
    "domain": "example.com",
    "headers": {
      "Authorization": "Bearer your-token",
      "X-Custom-Header": "custom-value"
    }
  }
}

4. batch_scrape - 批量爬取

{
  "name": "batch_scrape",
  "arguments": {
    "urls": [
      "https://example1.com",
      "https://example2.com",
      "https://example3.com"
    ],
    "format": "markdown",
    "usePuppeteer": false,
    "ruleSet": "blog"
  }
}

預定義規則集

系統內置了以下規則集：

blog：適用於大多數博客文章頁面。
news：適用於新聞網站文章。
product：適用於電商產品頁面。
documentation：適用於技術文檔頁面。
forum：適用於論壇帖子頁面。

導出格式

Markdown

將網頁內容轉換為 Markdown 格式，包含標題、內容、鏈接和圖片。

Text

純文本格式，去除所有 HTML 標籤。

HTML

清理後的 HTML 格式，移除腳本和樣式。

JSON

完整的結構化數據，包含所有提取的信息。

📚 詳細文檔

項目結構

src/
├── index.ts              # 主服務器文件
├── scraper/
│   └── webScraper.ts     # 網頁爬取器
├── export/
│   └── exportManager.ts  # 導出管理器
├── rules/
│   └── ruleEngine.ts     # 規則引擎
├── headers/
│   └── headerManager.ts  # 請求頭管理器
└── utils/
    └── logger.ts         # 日誌工具

開發模式

# 監聽文件變化並自動重新構建
npm run dev

測試

npm test

配置

環境變量

LOG_LEVEL：日誌級別 (debug, info, warn, error)。
PUPPETEER_TIMEOUT：Puppeteer 超時時間（毫秒）。
REQUEST_TIMEOUT：HTTP 請求超時時間（毫秒）。

自定義配置

可以通過修改源代碼來自定義：

默認請求頭：編輯 src/headers/headerManager.ts。
預定義規則集：編輯 src/rules/ruleEngine.ts。
導出格式：編輯 src/export/exportManager.ts。

常見問題

Q：為什麼某些網站爬取失敗？

A：可能是因為網站有反爬蟲機制。嘗試：

使用 usePuppeteer: true 啟用無頭瀏覽器。
設置合適的自定義請求頭。
使用預定義的反檢測請求頭。

Q：如何處理需要登錄的網站？

A：使用 set_domain_headers 工具設置包含認證信息的請求頭，如 Cookie 或 Authorization。

Q：SPA 應用內容為空怎麼辦？

A：設置 usePuppeteer: true 使用 Puppeteer 渲染動態內容。

📄 許可證

MIT License

貢獻

歡迎提交 Issue 和 Pull Request！

Baidu Map

已認證

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

156.5K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Python

24.6K

4.5分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

智啟未來，您的人工智慧解決方案智庫

Mcpserver

概述

工具列表

內容詳情

替代品

什麼是Web Scraper MCP Server?

如何使用Web Scraper MCP Server?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 Web Scraper MCP Server

🚀 快速開始

安裝

啟動服務器

✨ 主要特性

📦 安裝指南

💻 使用示例

啟動服務器

可用工具

1. scrape_url - 爬取單個網頁

2. create_rule_set - 創建內容提取規則集

3. set_domain_headers - 設置域名請求頭

4. batch_scrape - 批量爬取

預定義規則集

導出格式

Markdown

Text

HTML

JSON

📚 詳細文檔

項目結構

開發模式

測試

配置

環境變量

自定義配置

常見問題

Q：為什麼某些網站爬取失敗？

Q：如何處理需要登錄的網站？

Q：SPA 應用內容為空怎麼辦？

📄 許可證

貢獻

替代品