Scraper MCP

一個優化的MCP協議網頁抓取服務器，通過服務器端HTML轉Markdown和CSS選擇器過濾，大幅減少AI處理的令牌使用量，提供高效的內容提取功能

研究與數據開發者工具 #網頁抓取 #內容優化 #令牌節省 .Python

評分 : 2.5分

下載量 : 4.5K

更新時間 : 2025-11-12

打開站點

什麼是Scraper MCP?

Scraper MCP是一個專門為AI應用設計的網頁內容提取服務器。它能夠智能地抓取網頁內容，過濾掉無關的HTML標記、廣告和導航元素，只保留您真正需要的內容，然後以Markdown或純文本格式提供給AI使用。

如何使用Scraper MCP?

使用非常簡單：通過Docker一鍵部署服務器，然後在您的AI應用（如Claude Desktop）中配置MCP連接。之後，AI就可以直接調用各種內容提取工具來獲取網頁信息。

適用場景

適合需要從網頁提取信息的各種AI應用場景，包括：內容摘要、信息收集、數據提取、鏈接分析、文檔處理等。特別適合需要處理大量網頁內容的AI助手。

主要功能

Token優化

通過服務器端內容過濾，將原始HTML轉換為乾淨文本，減少70-90%的token消耗

CSS選擇器過濾

使用CSS選擇器精確提取特定內容區域，如文章主體、產品信息等

多格式輸出

支持HTML、Markdown、純文本和鏈接提取四種輸出格式，滿足不同需求

批量處理

支持同時處理多個URL，自動重試機制確保成功率

智能緩存

三層緩存系統避免重複請求，提高效率

即時監控

內置Web儀表板，即時查看服務器狀態、請求統計和緩存情況

優勢

大幅減少AI處理成本：相比原始HTML，可節省70-90%的token使用量

提高處理效率：服務器端預處理，AI只需處理乾淨的內容

易於集成：支持標準MCP協議，與Claude Desktop等AI應用無縫集成

靈活配置：支持代理、緩存、重試等多種配置選項

即時監控：內置Web界面，方便監控和管理

侷限性

需要額外部署：相比直接調用API，需要部署和維護服務器

依賴網絡：需要穩定的網絡連接來抓取網頁內容

動態內容限制：對於JavaScript渲染的複雜動態頁面支持有限

配置複雜度：高級功能需要一定的技術知識進行配置

如何使用

部署服務器

使用Docker快速部署Scraper MCP服務器

配置AI客戶端

在Claude Desktop等AI應用中添加MCP服務器連接

開始使用

在AI對話中直接使用各種內容提取工具

監控狀態

通過Web界面監控服務器運行狀態

使用案例

博客文章摘要

提取博客文章的主要內容，忽略導航、廣告等無關信息

網站鏈接分析

分析網站的所有內部和外部鏈接

產品信息收集

從電商網站提取產品信息

多頁面批量處理

同時處理多個相關頁面

常見問題

Scraper MCP與直接使用網頁API有什麼區別？

如何配置代理服務器？

支持JavaScript渲染的頁面嗎？

如何處理反爬蟲機制？

緩存數據存儲在哪裡？

如何監控服務器狀態？

🚀 Scraper MCP

Scraper MCP 是一個針對上下文進行優化的模型上下文協議（MCP）服務器，專為高效網絡數據抓取而設計。該服務器能夠為人工智能工具提供經過預處理和篩選的網頁內容，通過將原始 HTML 轉換為 Markdown 或純文本，並在服務器端應用 CSS 選擇器，大幅減少了大語言模型（LLM）所需處理的令牌數量，確保其僅接收真正需要的數據。

🚀 快速開始

選項 1：使用 Docker Run（最簡單方式）

從 Docker Hub 或 GitHub Container Registry 拉取並運行預構建的鏡像：

# 使用 Docker Hub
docker run -d -p 8000:8000 --name scraper-mcp cotdp/scraper-mcp:latest

# 或者使用 GitHub Container Registry
docker run -d -p 8000:8000 --name scraper-mcp ghcr.io/cotdp/scraper-mcp:latest

# 查看日誌
docker logs -f scraper-mcp

# 停止服務器
docker stop scraper-mcp && docker rm scraper-mcp

服務器將在以下地址可用：

MCP 端點：http://localhost:8000/mcp（供 AI 客戶端使用）
儀表盤：http://localhost:8000/（Web 界面）

選項 2：使用 Docker Compose（推薦用於生產環境）

為了實現持久存儲、自定義配置和更便捷的管理，可以採用以下步驟： 1. 創建一個 docker-compose.yml 文件：

services:
  scraper-mcp:
    image: cotdp/scraper-mcp:latest  # 或者 ghcr.io/cotdp/scraper-mcp:latest
    container_name: scraper-mcp
    ports:
      - "8000:8000"
    environment:
      - TRANSPORT=streamable-http
      - HOST=0.0.0.0
      - PORT=8000
    volumes:
      - cache:/app/cache
    restart: unless-stopped

volumes:
  cache:

2. （可選）創建一個 .env 文件用於代理或 ScrapeOps 配置：

cp .env.example .env
# 編輯 .env 文件，添加你的代理或 ScrapeOps 設置

3. 啟動服務器：

# 以分離模式啟動
docker-compose up -d

# 查看日誌
docker-compose logs -f scraper-mcp

# 檢查狀態
docker-compose ps

4. 停止服務器：

# 停止並移除容器
docker-compose down

# 停止、移除容器並清除緩存卷
docker-compose down -v

服務器將在以下地址可用：

MCP 端點：http://localhost:8000/mcp（供 AI 客戶端使用）
儀表盤：http://localhost:8000/（Web 界面）

✨ 主要特性

上下文優化

CSS 選擇器過濾：在將內容發送給大語言模型之前，在服務器端提取相關內容（例如 .article-content, #main）。
智能轉換：將 HTML 轉換為 Markdown 或純文本，消除標記噪聲。
鏈接提取：返回結構化的鏈接對象，而非原始的 HTML 錨標籤。
精準抓取：結合 CSS 選擇器和 strip_tags 進行精確過濾。
令牌高效：與原始 HTML 相比，可減少 70 - 90% 的上下文窗口使用量。

抓取工具與基礎設施

多種抓取模式：支持原始 HTML、Markdown 轉換、純文本提取和鏈接提取。
批量操作：通過自動重試邏輯併發處理多個 URL。
智能緩存：採用三層緩存系統（即時/默認/靜態），減少冗餘請求。
重試與恢復：使用指數退避算法，可配置重試次數以處理臨時故障。
可擴展架構：支持多種抓取後端，設計具有擴展性。

監控與管理

即時儀表盤：監控服務器健康狀況、請求統計信息、緩存指標和最近的錯誤。
交互式測試平臺：可直接在瀏覽器中測試抓取工具，並即時查看 JSON 響應。
運行時配置：無需重啟服務器，即可調整併發數、超時時間、重試次數、緩存 TTL 和代理設置。
Docker 支持：使用 Docker Compose 一鍵部署。
HTTP/SSE 傳輸：支持可流式 HTTP 和 SSE MCP 傳輸。

📦 安裝指南

環境設置

在項目根目錄下創建一個 .env 文件來配置服務器。可以從 .env.example 複製：

cp .env.example .env

關鍵配置選項

標準代理（適用於企業防火牆）：

HTTP_PROXY=http://proxy.example.com:8080
HTTPS_PROXY=http://proxy.example.com:8080
NO_PROXY=localhost,127.0.0.1,.local

詳細的設置說明請參考代理配置部分。

ScrapeOps 代理（用於 JavaScript 渲染、住宅 IP 和反爬蟲）：

SCRAPEOPS_API_KEY=your_api_key_here
SCRAPEOPS_RENDER_JS=true           # 為單頁應用啟用（默認：false）
SCRAPEOPS_RESIDENTIAL=true         # 使用住宅代理（默認：false）
SCRAPEOPS_COUNTRY=us               # 目標特定國家（可選）
SCRAPEOPS_DEVICE=desktop           # 設備類型：desktop|mobile|tablet

詳細的設置、用例和成本優化請參考 ScrapeOps 代理集成部分。

服務器設置（可選，大多數情況下默認設置即可）：

TRANSPORT=streamable-http          # 或者 'sse'
HOST=0.0.0.0                       # 綁定到所有接口
PORT=8000                          # 默認端口
CACHE_DIR=/app/cache               # 緩存目錄路徑
ENABLE_CACHE_TOOLS=false           # 暴露緩存管理工具

完整的配置參考和詳細註釋請查看 .env.example 文件。

💻 使用示例

基礎用法

在 Claude Code 中嘗試以下操作：

> scrape https://cutler.sg/
~ 抓取主頁，可能默認進行 Markdown 轉換

> scrape and filter <url> elements from https://cutler.sg/sitemap.xml
~ 返回約 100 個 URL

> scrape and filter all <title> elements from those urls
~ 從所有約 100 個 URL 中僅提取標題

高級用法

# ❌ 傳統方法：將原始 HTML 發送給大語言模型
import requests
html = requests.get("https://blog.example.com/article").text
# 結果：45KB 的 HTML → 約 45,000 個令牌

# ✅ Scraper MCP：服務器端過濾 + 轉換
from scraper_mcp import scrape_url_markdown
scrape_url_markdown(
    "https://blog.example.com/article",
    css_selector="article.main-content"  # 僅提取文章內容
)
# 結果：2.5KB 的 Markdown → 約 2,500 個令牌

📚 詳細文檔

可用工具

1. `scrape_url`

從 URL 抓取原始 HTML 內容。參數：

urls（字符串或列表，必需）：要抓取的單個 URL 或 URL 列表（以 http:// 或 https:// 開頭）
timeout（整數，可選）：請求超時時間（秒），默認值為 30
max_retries（整數，可選）：失敗時的最大重試次數，默認值為 3
css_selector（字符串，可選）：用於過濾 HTML 元素的 CSS 選擇器（例如 "meta", "img, video", ".article-content"）

返回值：

url：重定向後的最終 URL
content：原始 HTML 內容（如果提供了 css_selector，則為過濾後的內容）
status_code：HTTP 狀態碼
content_type：Content-Type 頭部值
metadata：附加元數據，包括：
- headers：響應頭部
- encoding：內容編碼
- elapsed_ms：請求持續時間（毫秒）
- attempts：總嘗試次數
- retries：重試次數
- css_selector_applied：使用的 CSS 選擇器（如果提供）
- elements_matched：匹配的元素數量（如果提供了 css_selector）

2. `scrape_url_markdown`

抓取 URL 並將內容轉換為 Markdown 格式。參數：

urls（字符串或列表，必需）：要抓取的單個 URL 或 URL 列表（以 http:// 或 https:// 開頭）
timeout（整數，可選）：請求超時時間（秒），默認值為 30
max_retries（整數，可選）：失敗時的最大重試次數，默認值為 3
strip_tags（數組，可選）：要去除的 HTML 標籤列表（例如 ['script', 'style']）
css_selector（字符串，可選）：在轉換前過濾 HTML 的 CSS 選擇器（例如 ".article-content", "article p"）

返回值：與 scrape_url 相同，但內容為 Markdown 格式

metadata.page_metadata：提取的頁面元數據（標題、描述等）
metadata.attempts：總嘗試次數
metadata.retries：重試次數
metadata.css_selector_applied 和 metadata.elements_matched（如果提供了 css_selector）

3. `scrape_url_text`

抓取 URL 並提取純文本內容。參數：

urls（字符串或列表，必需）：要抓取的單個 URL 或 URL 列表（以 http:// 或 https:// 開頭）
timeout（整數，可選）：請求超時時間（秒），默認值為 30
max_retries（整數，可選）：失敗時的最大重試次數，默認值為 3
strip_tags（數組，可選）：要去除的 HTML 標籤（默認值為 script, style, meta, link, noscript）
css_selector（字符串，可選）：在提取文本前過濾 HTML 的 CSS 選擇器（例如 "#main-content", "article.post"）

返回值：與 scrape_url 相同，但內容為純文本

metadata.page_metadata：提取的頁面元數據
metadata.attempts：總嘗試次數
metadata.retries：重試次數
metadata.css_selector_applied 和 metadata.elements_matched（如果提供了 css_selector）

4. `scrape_extract_links`

抓取 URL 並提取所有鏈接。參數：

urls（字符串或列表，必需）：要抓取的單個 URL 或 URL 列表（以 http:// 或 https:// 開頭）
timeout（整數，可選）：請求超時時間（秒），默認值為 30
max_retries（整數，可選）：失敗時的最大重試次數，默認值為 3
css_selector（字符串，可選）：將鏈接提取範圍限定到特定部分的 CSS 選擇器（例如 "nav", "article.main-content"）

返回值：

url：被抓取的 URL
links：包含 url, text, 和 title 的鏈接對象數組
count：找到的鏈接總數

從 Claude Desktop 連接

要在 Claude Desktop 中使用此服務器，需要將其添加到 MCP 設置中：

{
  "mcpServers": {
    "scraper": {
      "url": "http://localhost:8000/mcp"
    }
  }
}

連接成功後，Claude 可以使用所有四種抓取工具。你可以通過在瀏覽器中打開 http://localhost:8000/ 訪問儀表盤，即時監控請求。

儀表盤特性

訪問監控儀表盤 http://localhost:8000/，可以即時監控和管理你的抓取器。

即時監控儀表盤

一眼就能跟蹤服務器健康狀況、請求統計信息、重試指標和緩存性能：

服務器狀態：健康指標、正常運行時間和啟動時間
請求統計：總請求數、成功率和失敗次數
重試分析：總重試次數和每次請求的平均重試次數
緩存指標：條目數量、大小、命中率，可一鍵清除緩存
最近請求：最後 10 個請求，包含時間戳、狀態碼和響應時間
最近錯誤：最後 10 個失敗，包含詳細錯誤消息和嘗試次數
每 9 秒自動刷新，實現即時監控

交互式 API 測試平臺

無需編寫代碼即可測試所有抓取工具：

測試所有四種工具：scrape_url, scrape_url_markdown, scrape_url_text, scrape_extract_links
配置參數：URL、超時時間、最大重試次數、CSS 選擇器
查看格式化的 JSON 響應，帶有語法高亮顯示
一鍵複製到剪貼板
查看執行時間，用於性能測試

運行時配置

無需重啟服務器即可即時調整設置：

性能調優：併發數（1 - 50）、超時時間、最大重試次數
緩存控制：默認、即時和靜態緩存的 TTL 設置
代理設置：啟用/禁用，支持 HTTP/HTTPS/NO_PROXY 配置
即時生效：更改立即應用，無需重啟服務器
非持久化：設置在重啟時重置（使用 .env 文件進行永久更改）

為什麼選擇上下文友好的抓取方式？

傳統的網絡抓取方式將原始 HTML 發送給大語言模型，會在標記、腳本和無關內容上浪費 70 - 90% 的上下文窗口。Scraper MCP 通過在服務器端進行繁重的處理工作，解決了這個問題。

令牌效率對比

未過濾（原始 HTML）：

❌ 一篇典型博客文章需要 45,000 個令牌
   - 40,000 個令牌：HTML 標記、CSS、JavaScript、廣告、導航欄
   - 5,000 個令牌：實際文章內容

使用 Scraper MCP（CSS 選擇器 + Markdown）：

✅ 相同內容僅需 2,500 個令牌
   - 0 個令牌：通過 Markdown 轉換消除的標記
   - 0 個令牌：通過 CSS 選擇器過濾的廣告/導航欄
   - 2,500 個令牌：乾淨的文章文本

結果：減少 95% 的令牌使用，在相同的上下文窗口中可以處理 18 倍的內容。

實際示例

# ❌ 傳統方法：將原始 HTML 發送給大語言模型
import requests
html = requests.get("https://blog.example.com/article").text
# 結果：45KB 的 HTML → 約 45,000 個令牌

# ✅ Scraper MCP：服務器端過濾 + 轉換
from scraper_mcp import scrape_url_markdown
scrape_url_markdown(
    "https://blog.example.com/article",
    css_selector="article.main-content"  # 僅提取文章內容
)
# 結果：2.5KB 的 Markdown → 約 2,500 個令牌

主要優勢

大量節省令牌：每次請求可降低 10 - 20 倍的成本。
更大的上下文窗口：在相同的上下文中可以容納 18 倍的內容。
更快的處理速度：減少數據傳輸和處理量。
更乾淨的數據：預過濾、結構化的內容，便於分析。
更高的準確性：大語言模型專注於相關內容，而不是標記噪聲。

何時使用每個工具

scrape_url_markdown：文章、文檔、博客文章（最適合大語言模型使用）
scrape_url_text：純文本內容，無需太多格式
scrape_extract_links：導航、鏈接分析、站點地圖生成
scrape_url（原始 HTML）：需要保留精確結構或提取元標籤時使用

🔧 技術細節

本地開發

前提條件

Python 3.12+
uv 包管理器

設置

# 安裝依賴
uv pip install -e ".[dev]"

# 在本地運行服務器
python -m scraper_mcp

# 使用特定的傳輸方式和端口運行
python -m scraper_mcp streamable-http 0.0.0.0 8000

開發命令

# 運行測試
pytest

# 類型檢查
mypy src/

# 代碼檢查和格式化
ruff check .
ruff format .

Docker 鏡像

預構建鏡像（推薦）

每次發佈時都會自動構建併發布多平臺鏡像： Docker Hub：

docker pull cotdp/scraper-mcp:latest

GitHub Container Registry：

docker pull ghcr.io/cotdp/scraper-mcp:latest

可用標籤：

latest - 最新穩定版本
0.1.0, 0.1, 0 - 語義化版本標籤
main-<sha> - 最新主分支構建版本 支持的平臺：linux/amd64 和 linux/arm64 使用說明請參考快速開始部分。

從源代碼構建

如果需要自定義鏡像或在本地構建：

# 克隆倉庫
git clone https://github.com/cotdp/scraper-mcp.git
cd scraper-mcp

# 構建鏡像
docker build -t scraper-mcp:custom .

# 使用默認設置運行
docker run -p 8000:8000 scraper-mcp:custom

# 或者使用 docker-compose.yml（修改 image 行以使用 scraper-mcp:custom）
docker-compose up -d

項目結構

scraper-mcp/
├── src/scraper_mcp/
│   ├── __init__.py
│   ├── __main__.py
│   ├── server.py                  # 主 MCP 服務器入口點
│   ├── admin/                     # 管理 API（配置、統計、緩存）
│   │   ├── router.py              # HTTP 端點處理程序
│   │   └── service.py             # 業務邏輯
│   ├── dashboard/                 # Web 儀表盤
│   │   ├── router.py              # 儀表盤路由
│   │   └── templates/
│   │       └── dashboard.html     # 監控 UI
│   ├── tools/                     # MCP 抓取工具
│   │   ├── router.py              # 工具註冊
│   │   └── service.py             # 抓取實現
│   ├── models/                    # Pydantic 數據模型
│   │   ├── scrape.py              # 抓取請求/響應模型
│   │   └── links.py               # 鏈接提取模型
│   ├── providers/                 # 抓取後端提供者
│   │   ├── base.py                # 抽象提供者接口
│   │   └── requests_provider.py  # HTTP 提供者（requests 庫）
│   ├── core/
│   │   └── providers.py           # 提供者註冊表和選擇
│   ├── cache.py                   # 請求緩存（基於磁盤）
│   ├── cache_manager.py           # 緩存生命週期管理
│   ├── metrics.py                 # 請求/重試指標跟蹤
│   └── utils.py                   # HTML 處理實用工具
├── tests/                         # Pytest 測試套件
│   ├── test_server.py
│   ├── test_tools.py
│   └── test_utils.py
├── .github/workflows/
│   ├── ci.yml                     # CI/CD：測試、代碼檢查
│   └── docker-publish.yml         # Docker 鏡像發佈
├── Dockerfile                     # 多階段生產構建
├── docker-compose.yml             # 本地開發設置
├── pyproject.toml                 # Python 依賴（uv）
├── .env.example                   # 環境配置模板
└── README.md

架構

服務器採用提供者架構，支持多種抓取後端：

ScraperProvider：抓取實現的抽象接口
RequestsProvider：使用 requests 庫的基本 HTTP 抓取器
未來提供者：可以添加對 Playwright、Selenium、Scrapy 等的支持提供者的選擇基於 URL 模式自動進行，便於為不同類型的網站添加專門的提供者。

重試行為與錯誤處理

抓取器包含智能重試邏輯，採用指數退避算法處理臨時故障：

重試配置

默認最大重試次數：3 次嘗試
默認超時時間：30 秒
重試延遲：從 1 秒開始的指數退避

重試計劃

對於默認配置（max_retries=3）：

第一次嘗試：立即執行
第一次重試：等待 1 秒
第二次重試：等待 2 秒
第三次重試：等待 4 秒最終失敗前的最大總等待時間約為 7 秒。

觸發重試的情況

抓取器在以下情況下會自動重試：

網絡超時（requests.Timeout）
連接失敗（requests.ConnectionError）
HTTP 錯誤（4xx、5xx 狀態碼）

重試元數據

所有成功響應的元數據中都包含重試信息：

{
  "attempts": 2,      // 總嘗試次數（1 表示無重試）
  "retries": 1,       // 重試次數
  "elapsed_ms": 234.5 // 請求總時間（毫秒）
}

自定義重試行為

# 禁用重試
from scraper_mcp import scrape_url
import asyncio
result = asyncio.run(scrape_url("https://example.com", max_retries=0))

# 對於不穩定的網站進行更積極的重試
result = asyncio.run(scrape_url("https://example.com", max_retries=5, timeout=60))

# 對於對時間敏感的操作進行快速失敗
result = asyncio.run(scrape_url("https://example.com", max_retries=1, timeout=10))

CSS 選擇器過濾

所有抓取工具都支持可選的 CSS 選擇器過濾，在處理之前從 HTML 中提取特定元素，讓你能夠專注於所需的內容。

支持的選擇器

服務器使用 BeautifulSoup4 的 .select() 方法（由 Soup Sieve 提供支持），支持以下選擇器：

標籤選擇器：meta, img, a, div
多個選擇器：img, video（用逗號分隔）
類選擇器：.article-content, .main-text
ID 選擇器：#header, #main-content
屬性選擇器：a[href], meta[property="og:image"], img[src^="https://"]
後代組合器：article p, div.content a
偽類：p:nth-of-type(3), a:not([rel])

使用示例

# 僅提取元標籤用於 SEO 分析
from scraper_mcp import scrape_url
scrape_url("https://example.com", css_selector="meta")

# 獲取文章內容的 Markdown 格式，排除廣告
from scraper_mcp import scrape_url_markdown
scrape_url_markdown("https://blog.com/article", css_selector="article.main-content")

# 從特定部分提取文本
from scraper_mcp import scrape_url_text
scrape_url_text("https://example.com", css_selector="#main-content")

# 僅獲取產品圖片
scrape_url("https://shop.com/product", css_selector="img.product-image, img[data-product]")

# 僅提取導航鏈接
from scraper_mcp import scrape_extract_links
scrape_extract_links("https://example.com", css_selector="nav.primary")

# 獲取 Open Graph 元標籤
scrape_url("https://example.com", css_selector='meta[property^="og:"]')

# 結合 strip_tags 進行精細控制
scrape_url_markdown(
    "https://example.com",
    css_selector="article",  # 首先過濾到文章部分
    strip_tags=["script", "style"]  # 然後移除腳本和樣式
)

工作原理

抓取：從 URL 獲取 HTML
過濾（如果提供了 css_selector）：應用 CSS 選擇器，僅保留匹配的元素
處理：轉換為 Markdown/純文本或提取鏈接
返回：在元數據中包含 elements_matched 計數

CSS 選擇器的好處

減少噪聲：僅提取相關內容，忽略廣告、導航欄和頁腳
範圍提取：僅從特定部分獲取鏈接（例如，主內容部分，而非側邊欄）
高效：處理更少的 HTML，獲得更乾淨的結果
可組合：可與 strip_tags 一起使用，實現最大程度的控制

環境變量

使用 Docker 運行時，可以使用環境變量配置服務器：

TRANSPORT：傳輸類型（streamable-http 或 sse，默認值為 streamable-http）
HOST：綁定的主機，默認值為 0.0.0.0
PORT：綁定的端口，默認值為 8000
ENABLE_CACHE_TOOLS：啟用緩存管理工具（true, 1, 或 yes 啟用，默認值為 false）
- 啟用後，將暴露 cache_stats, cache_clear_expired, 和 cache_clear_all 工具
- 默認情況下為安全和簡單起見禁用

代理配置

抓取器通過標準環境變量支持 HTTP/HTTPS 代理。當在企業防火牆後運行或需要通過特定代理路由流量時，這非常有用。

使用 Docker Compose 配置代理

在項目根目錄下創建一個 .env 文件（參考 .env.example）：

# 非 SSL 請求的 HTTP 代理
HTTP_PROXY=http://proxy.example.com:8080
http_proxy=http://proxy.example.com:8080

# SSL 請求的 HTTPS 代理
HTTPS_PROXY=http://proxy.example.com:8080
https_proxy=http://proxy.example.com:8080

# 繞過特定主機的代理（用逗號分隔）
NO_PROXY=localhost,127.0.0.1,.local
no_proxy=localhost,127.0.0.1,.local

然後啟動服務：

docker-compose up -d

Docker Compose 會自動讀取 .env 文件，並在構建時（用於包安裝）和運行時（用於 HTTP 請求）將變量傳遞給容器。

使用 Docker Run 配置代理

docker run -p 8000:8000 \
  -e HTTP_PROXY=http://proxy.example.com:8080 \
  -e HTTPS_PROXY=http://proxy.example.com:8080 \
  -e NO_PROXY=localhost,127.0.0.1,.local \
  scraper-mcp:latest

帶認證的代理

如果你的代理需要認證，請在 URL 中包含憑證：

HTTP_PROXY=http://username:password@proxy.example.com:8080
HTTPS_PROXY=http://username:password@proxy.example.com:8080

構建時與運行時代理

代理配置在兩個階段起作用：

構建時：用於 Docker 安裝包（apt、uv、pip）
運行時：用於抓取器進行 HTTP 請求同時支持大寫和小寫變量名（例如 HTTP_PROXY 和 http_proxy）。

驗證代理配置

檢查容器日誌以驗證是否正在使用代理設置：

docker-compose logs scraper-mcp

requests 庫會自動遵循這些環境變量，並將所有 HTTP/HTTPS 流量通過配置的代理路由。

ScrapeOps 代理集成

抓取器可選集成 ScrapeOps，這是一個高級代理服務，可幫助繞過反爬蟲措施、渲染 JavaScript 並訪問地理限制的內容。當提供 API 密鑰時，ScrapeOps 會自動啟用。

什麼是 ScrapeOps？

ScrapeOps 提供以下功能：

JavaScript 渲染：抓取單頁應用和動態內容
住宅代理：降低被阻止的可能性
地理定位：訪問特定國家的內容
反爬蟲繞過：自動輪換頭部和指紋識別
高成功率：智能重試和優化

啟用 ScrapeOps

只需將你的 API 密鑰添加到 .env 文件中：

# 從 https://scrapeops.io/ 獲取你的 API 密鑰
SCRAPEOPS_API_KEY=your_api_key_here

就這麼簡單！所有抓取請求將自動通過 ScrapeOps 路由。無需對你的 MCP 工具或代碼進行任何更改。

配置選項

使用環境變量自定義 ScrapeOps 的行為（完整參考請查看 .env.example）：

# 為單頁應用啟用 JavaScript 渲染（默認：false）
SCRAPEOPS_RENDER_JS=true

# 使用住宅代理而非數據中心代理（默認：false）
SCRAPEOPS_RESIDENTIAL=true

# 目標特定國家（可選）
SCRAPEOPS_COUNTRY=us

# 保留原始頭部而非進行優化（默認：false）
SCRAPEOPS_KEEP_HEADERS=true

# 用戶代理輪換的設備類型（默認：desktop）
SCRAPEOPS_DEVICE=mobile

完整示例配置

# .env 文件
SCRAPEOPS_API_KEY=your_api_key_here
SCRAPEOPS_RENDER_JS=true
SCRAPEOPS_RESIDENTIAL=true
SCRAPEOPS_COUNTRY=us
SCRAPEOPS_DEVICE=desktop

📄 許可證

本項目採用 MIT 許可證授權。

最後更新時間：2025 年 10 月 31 日

Baidu Map

已認證

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

76.8K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

TypeScript

50.7K

4.7分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

智啟未來，您的人工智慧解決方案智庫

Scraper MCP

概述

安裝

工具列表

內容詳情

替代品

什麼是Scraper MCP?

如何使用Scraper MCP?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 Scraper MCP

🚀 快速開始

選項 1：使用 Docker Run（最簡單方式）

選項 2：使用 Docker Compose（推薦用於生產環境）

✨ 主要特性

上下文優化

抓取工具與基礎設施

監控與管理

📦 安裝指南

環境設置

關鍵配置選項

💻 使用示例

基礎用法

高級用法

📚 詳細文檔

可用工具

1. scrape_url

2. scrape_url_markdown

3. scrape_url_text

4. scrape_extract_links

從 Claude Desktop 連接

儀表盤特性

即時監控儀表盤

交互式 API 測試平臺

運行時配置

為什麼選擇上下文友好的抓取方式？

令牌效率對比

實際示例

主要優勢

何時使用每個工具

🔧 技術細節

本地開發

前提條件

設置

開發命令

Docker 鏡像

預構建鏡像（推薦）

從源代碼構建

項目結構

架構

重試行為與錯誤處理

重試配置

重試計劃

觸發重試的情況

重試元數據

自定義重試行為

CSS 選擇器過濾

支持的選擇器

使用示例

工作原理

CSS 選擇器的好處

環境變量

代理配置

使用 Docker Compose 配置代理

使用 Docker Run 配置代理

帶認證的代理

構建時與運行時代理

驗證代理配置

ScrapeOps 代理集成

什麼是 ScrapeOps？

啟用 ScrapeOps

配置選項

完整示例配置

📄 許可證

替代品

1. `scrape_url`

2. `scrape_url_markdown`

3. `scrape_url_text`

4. `scrape_extract_links`