概述
安裝
工具列表
內容詳情
替代品
什麼是Scraper MCP?
Scraper MCP是一個專門為AI應用設計的網頁內容提取服務器。它能夠智能地抓取網頁內容,過濾掉無關的HTML標記、廣告和導航元素,只保留您真正需要的內容,然後以Markdown或純文本格式提供給AI使用。如何使用Scraper MCP?
使用非常簡單:通過Docker一鍵部署服務器,然後在您的AI應用(如Claude Desktop)中配置MCP連接。之後,AI就可以直接調用各種內容提取工具來獲取網頁信息。適用場景
適合需要從網頁提取信息的各種AI應用場景,包括:內容摘要、信息收集、數據提取、鏈接分析、文檔處理等。特別適合需要處理大量網頁內容的AI助手。主要功能
如何使用
使用案例
常見問題
相關資源
安裝
{
"mcpServers": {
"scraper": {
"url": "http://localhost:8000/mcp"
}
}
}🚀 Scraper MCP
Scraper MCP 是一個針對上下文進行優化的模型上下文協議(MCP)服務器,專為高效網絡數據抓取而設計。該服務器能夠為人工智能工具提供經過預處理和篩選的網頁內容,通過將原始 HTML 轉換為 Markdown 或純文本,並在服務器端應用 CSS 選擇器,大幅減少了大語言模型(LLM)所需處理的令牌數量,確保其僅接收真正需要的數據。
🚀 快速開始
選項 1:使用 Docker Run(最簡單方式)
從 Docker Hub 或 GitHub Container Registry 拉取並運行預構建的鏡像:
# 使用 Docker Hub
docker run -d -p 8000:8000 --name scraper-mcp cotdp/scraper-mcp:latest
# 或者使用 GitHub Container Registry
docker run -d -p 8000:8000 --name scraper-mcp ghcr.io/cotdp/scraper-mcp:latest
# 查看日誌
docker logs -f scraper-mcp
# 停止服務器
docker stop scraper-mcp && docker rm scraper-mcp
服務器將在以下地址可用:
- MCP 端點:
http://localhost:8000/mcp(供 AI 客戶端使用) - 儀表盤:
http://localhost:8000/(Web 界面)
選項 2:使用 Docker Compose(推薦用於生產環境)
為了實現持久存儲、自定義配置和更便捷的管理,可以採用以下步驟:
1. 創建一個 docker-compose.yml 文件:
services:
scraper-mcp:
image: cotdp/scraper-mcp:latest # 或者 ghcr.io/cotdp/scraper-mcp:latest
container_name: scraper-mcp
ports:
- "8000:8000"
environment:
- TRANSPORT=streamable-http
- HOST=0.0.0.0
- PORT=8000
volumes:
- cache:/app/cache
restart: unless-stopped
volumes:
cache:
2. (可選)創建一個 .env 文件用於代理或 ScrapeOps 配置:
cp .env.example .env
# 編輯 .env 文件,添加你的代理或 ScrapeOps 設置
3. 啟動服務器:
# 以分離模式啟動
docker-compose up -d
# 查看日誌
docker-compose logs -f scraper-mcp
# 檢查狀態
docker-compose ps
4. 停止服務器:
# 停止並移除容器
docker-compose down
# 停止、移除容器並清除緩存卷
docker-compose down -v
服務器將在以下地址可用:
- MCP 端點:
http://localhost:8000/mcp(供 AI 客戶端使用) - 儀表盤:
http://localhost:8000/(Web 界面)
✨ 主要特性
上下文優化
- CSS 選擇器過濾:在將內容發送給大語言模型之前,在服務器端提取相關內容(例如
.article-content,#main)。 - 智能轉換:將 HTML 轉換為 Markdown 或純文本,消除標記噪聲。
- 鏈接提取:返回結構化的鏈接對象,而非原始的 HTML 錨標籤。
- 精準抓取:結合 CSS 選擇器和
strip_tags進行精確過濾。 - 令牌高效:與原始 HTML 相比,可減少 70 - 90% 的上下文窗口使用量。
抓取工具與基礎設施
- 多種抓取模式:支持原始 HTML、Markdown 轉換、純文本提取和鏈接提取。
- 批量操作:通過自動重試邏輯併發處理多個 URL。
- 智能緩存:採用三層緩存系統(即時/默認/靜態),減少冗餘請求。
- 重試與恢復:使用指數退避算法,可配置重試次數以處理臨時故障。
- 可擴展架構:支持多種抓取後端,設計具有擴展性。
監控與管理
- 即時儀表盤:監控服務器健康狀況、請求統計信息、緩存指標和最近的錯誤。
- 交互式測試平臺:可直接在瀏覽器中測試抓取工具,並即時查看 JSON 響應。
- 運行時配置:無需重啟服務器,即可調整併發數、超時時間、重試次數、緩存 TTL 和代理設置。
- Docker 支持:使用 Docker Compose 一鍵部署。
- HTTP/SSE 傳輸:支持可流式 HTTP 和 SSE MCP 傳輸。
📦 安裝指南
環境設置
在項目根目錄下創建一個 .env 文件來配置服務器。可以從 .env.example 複製:
cp .env.example .env
關鍵配置選項
標準代理(適用於企業防火牆):
HTTP_PROXY=http://proxy.example.com:8080
HTTPS_PROXY=http://proxy.example.com:8080
NO_PROXY=localhost,127.0.0.1,.local
詳細的設置說明請參考 代理配置 部分。
ScrapeOps 代理(用於 JavaScript 渲染、住宅 IP 和反爬蟲):
SCRAPEOPS_API_KEY=your_api_key_here
SCRAPEOPS_RENDER_JS=true # 為單頁應用啟用(默認:false)
SCRAPEOPS_RESIDENTIAL=true # 使用住宅代理(默認:false)
SCRAPEOPS_COUNTRY=us # 目標特定國家(可選)
SCRAPEOPS_DEVICE=desktop # 設備類型:desktop|mobile|tablet
詳細的設置、用例和成本優化請參考 ScrapeOps 代理集成 部分。
服務器設置(可選,大多數情況下默認設置即可):
TRANSPORT=streamable-http # 或者 'sse'
HOST=0.0.0.0 # 綁定到所有接口
PORT=8000 # 默認端口
CACHE_DIR=/app/cache # 緩存目錄路徑
ENABLE_CACHE_TOOLS=false # 暴露緩存管理工具
完整的配置參考和詳細註釋請查看 .env.example 文件。
💻 使用示例
基礎用法
在 Claude Code 中嘗試以下操作:
> scrape https://cutler.sg/
~ 抓取主頁,可能默認進行 Markdown 轉換
> scrape and filter <url> elements from https://cutler.sg/sitemap.xml
~ 返回約 100 個 URL
> scrape and filter all <title> elements from those urls
~ 從所有約 100 個 URL 中僅提取標題
高級用法
# ❌ 傳統方法:將原始 HTML 發送給大語言模型
import requests
html = requests.get("https://blog.example.com/article").text
# 結果:45KB 的 HTML → 約 45,000 個令牌
# ✅ Scraper MCP:服務器端過濾 + 轉換
from scraper_mcp import scrape_url_markdown
scrape_url_markdown(
"https://blog.example.com/article",
css_selector="article.main-content" # 僅提取文章內容
)
# 結果:2.5KB 的 Markdown → 約 2,500 個令牌
📚 詳細文檔
可用工具
1. scrape_url
從 URL 抓取原始 HTML 內容。 參數:
urls(字符串或列表,必需):要抓取的單個 URL 或 URL 列表(以http://或https://開頭)timeout(整數,可選):請求超時時間(秒),默認值為 30max_retries(整數,可選):失敗時的最大重試次數,默認值為 3css_selector(字符串,可選):用於過濾 HTML 元素的 CSS 選擇器(例如 "meta", "img, video", ".article-content")
返回值:
url:重定向後的最終 URLcontent:原始 HTML 內容(如果提供了css_selector,則為過濾後的內容)status_code:HTTP 狀態碼content_type:Content-Type 頭部值metadata:附加元數據,包括:headers:響應頭部encoding:內容編碼elapsed_ms:請求持續時間(毫秒)attempts:總嘗試次數retries:重試次數css_selector_applied:使用的 CSS 選擇器(如果提供)elements_matched:匹配的元素數量(如果提供了css_selector)
2. scrape_url_markdown
抓取 URL 並將內容轉換為 Markdown 格式。 參數:
urls(字符串或列表,必需):要抓取的單個 URL 或 URL 列表(以http://或https://開頭)timeout(整數,可選):請求超時時間(秒),默認值為 30max_retries(整數,可選):失敗時的最大重試次數,默認值為 3strip_tags(數組,可選):要去除的 HTML 標籤列表(例如['script', 'style'])css_selector(字符串,可選):在轉換前過濾 HTML 的 CSS 選擇器(例如 ".article-content", "article p")
返回值:
與 scrape_url 相同,但內容為 Markdown 格式
metadata.page_metadata:提取的頁面元數據(標題、描述等)metadata.attempts:總嘗試次數metadata.retries:重試次數metadata.css_selector_applied和metadata.elements_matched(如果提供了css_selector)
3. scrape_url_text
抓取 URL 並提取純文本內容。 參數:
urls(字符串或列表,必需):要抓取的單個 URL 或 URL 列表(以http://或https://開頭)timeout(整數,可選):請求超時時間(秒),默認值為 30max_retries(整數,可選):失敗時的最大重試次數,默認值為 3strip_tags(數組,可選):要去除的 HTML 標籤(默認值為script,style,meta,link,noscript)css_selector(字符串,可選):在提取文本前過濾 HTML 的 CSS 選擇器(例如 "#main-content", "article.post")
返回值:
與 scrape_url 相同,但內容為純文本
metadata.page_metadata:提取的頁面元數據metadata.attempts:總嘗試次數metadata.retries:重試次數metadata.css_selector_applied和metadata.elements_matched(如果提供了css_selector)
4. scrape_extract_links
抓取 URL 並提取所有鏈接。 參數:
urls(字符串或列表,必需):要抓取的單個 URL 或 URL 列表(以http://或https://開頭)timeout(整數,可選):請求超時時間(秒),默認值為 30max_retries(整數,可選):失敗時的最大重試次數,默認值為 3css_selector(字符串,可選):將鏈接提取範圍限定到特定部分的 CSS 選擇器(例如 "nav", "article.main-content")
返回值:
url:被抓取的 URLlinks:包含url,text, 和title的鏈接對象數組count:找到的鏈接總數
從 Claude Desktop 連接
要在 Claude Desktop 中使用此服務器,需要將其添加到 MCP 設置中:
{
"mcpServers": {
"scraper": {
"url": "http://localhost:8000/mcp"
}
}
}
連接成功後,Claude 可以使用所有四種抓取工具。你可以通過在瀏覽器中打開 http://localhost:8000/ 訪問儀表盤,即時監控請求。
儀表盤特性
訪問監控儀表盤 http://localhost:8000/,可以即時監控和管理你的抓取器。
即時監控儀表盤
一眼就能跟蹤服務器健康狀況、請求統計信息、重試指標和緩存性能:
- 服務器狀態:健康指標、正常運行時間和啟動時間
- 請求統計:總請求數、成功率和失敗次數
- 重試分析:總重試次數和每次請求的平均重試次數
- 緩存指標:條目數量、大小、命中率,可一鍵清除緩存
- 最近請求:最後 10 個請求,包含時間戳、狀態碼和響應時間
- 最近錯誤:最後 10 個失敗,包含詳細錯誤消息和嘗試次數
- 每 9 秒自動刷新,實現即時監控
交互式 API 測試平臺
無需編寫代碼即可測試所有抓取工具:
- 測試所有四種工具:
scrape_url,scrape_url_markdown,scrape_url_text,scrape_extract_links - 配置參數:URL、超時時間、最大重試次數、CSS 選擇器
- 查看格式化的 JSON 響應,帶有語法高亮顯示
- 一鍵複製到剪貼板
- 查看執行時間,用於性能測試
運行時配置
無需重啟服務器即可即時調整設置:
- 性能調優:併發數(1 - 50)、超時時間、最大重試次數
- 緩存控制:默認、即時和靜態緩存的 TTL 設置
- 代理設置:啟用/禁用,支持 HTTP/HTTPS/NO_PROXY 配置
- 即時生效:更改立即應用,無需重啟服務器
- 非持久化:設置在重啟時重置(使用
.env文件進行永久更改)
為什麼選擇上下文友好的抓取方式?
傳統的網絡抓取方式將原始 HTML 發送給大語言模型,會在標記、腳本和無關內容上浪費 70 - 90% 的上下文窗口。Scraper MCP 通過在服務器端進行繁重的處理工作,解決了這個問題。
令牌效率對比
未過濾(原始 HTML):
❌ 一篇典型博客文章需要 45,000 個令牌
- 40,000 個令牌:HTML 標記、CSS、JavaScript、廣告、導航欄
- 5,000 個令牌:實際文章內容
使用 Scraper MCP(CSS 選擇器 + Markdown):
✅ 相同內容僅需 2,500 個令牌
- 0 個令牌:通過 Markdown 轉換消除的標記
- 0 個令牌:通過 CSS 選擇器過濾的廣告/導航欄
- 2,500 個令牌:乾淨的文章文本
結果:減少 95% 的令牌使用,在相同的上下文窗口中可以處理 18 倍的內容。
實際示例
# ❌ 傳統方法:將原始 HTML 發送給大語言模型
import requests
html = requests.get("https://blog.example.com/article").text
# 結果:45KB 的 HTML → 約 45,000 個令牌
# ✅ Scraper MCP:服務器端過濾 + 轉換
from scraper_mcp import scrape_url_markdown
scrape_url_markdown(
"https://blog.example.com/article",
css_selector="article.main-content" # 僅提取文章內容
)
# 結果:2.5KB 的 Markdown → 約 2,500 個令牌
主要優勢
- 大量節省令牌:每次請求可降低 10 - 20 倍的成本。
- 更大的上下文窗口:在相同的上下文中可以容納 18 倍的內容。
- 更快的處理速度:減少數據傳輸和處理量。
- 更乾淨的數據:預過濾、結構化的內容,便於分析。
- 更高的準確性:大語言模型專注於相關內容,而不是標記噪聲。
何時使用每個工具
scrape_url_markdown:文章、文檔、博客文章(最適合大語言模型使用)scrape_url_text:純文本內容,無需太多格式scrape_extract_links:導航、鏈接分析、站點地圖生成scrape_url(原始 HTML):需要保留精確結構或提取元標籤時使用
🔧 技術細節
本地開發
前提條件
- Python 3.12+
- uv 包管理器
設置
# 安裝依賴
uv pip install -e ".[dev]"
# 在本地運行服務器
python -m scraper_mcp
# 使用特定的傳輸方式和端口運行
python -m scraper_mcp streamable-http 0.0.0.0 8000
開發命令
# 運行測試
pytest
# 類型檢查
mypy src/
# 代碼檢查和格式化
ruff check .
ruff format .
Docker 鏡像
預構建鏡像(推薦)
每次發佈時都會自動構建併發布多平臺鏡像: Docker Hub:
docker pull cotdp/scraper-mcp:latest
GitHub Container Registry:
docker pull ghcr.io/cotdp/scraper-mcp:latest
可用標籤:
latest- 最新穩定版本0.1.0,0.1,0- 語義化版本標籤main-<sha>- 最新主分支構建版本 支持的平臺:linux/amd64和linux/arm64使用說明請參考 快速開始 部分。
從源代碼構建
如果需要自定義鏡像或在本地構建:
# 克隆倉庫
git clone https://github.com/cotdp/scraper-mcp.git
cd scraper-mcp
# 構建鏡像
docker build -t scraper-mcp:custom .
# 使用默認設置運行
docker run -p 8000:8000 scraper-mcp:custom
# 或者使用 docker-compose.yml(修改 image 行以使用 scraper-mcp:custom)
docker-compose up -d
項目結構
scraper-mcp/
├── src/scraper_mcp/
│ ├── __init__.py
│ ├── __main__.py
│ ├── server.py # 主 MCP 服務器入口點
│ ├── admin/ # 管理 API(配置、統計、緩存)
│ │ ├── router.py # HTTP 端點處理程序
│ │ └── service.py # 業務邏輯
│ ├── dashboard/ # Web 儀表盤
│ │ ├── router.py # 儀表盤路由
│ │ └── templates/
│ │ └── dashboard.html # 監控 UI
│ ├── tools/ # MCP 抓取工具
│ │ ├── router.py # 工具註冊
│ │ └── service.py # 抓取實現
│ ├── models/ # Pydantic 數據模型
│ │ ├── scrape.py # 抓取請求/響應模型
│ │ └── links.py # 鏈接提取模型
│ ├── providers/ # 抓取後端提供者
│ │ ├── base.py # 抽象提供者接口
│ │ └── requests_provider.py # HTTP 提供者(requests 庫)
│ ├── core/
│ │ └── providers.py # 提供者註冊表和選擇
│ ├── cache.py # 請求緩存(基於磁盤)
│ ├── cache_manager.py # 緩存生命週期管理
│ ├── metrics.py # 請求/重試指標跟蹤
│ └── utils.py # HTML 處理實用工具
├── tests/ # Pytest 測試套件
│ ├── test_server.py
│ ├── test_tools.py
│ └── test_utils.py
├── .github/workflows/
│ ├── ci.yml # CI/CD:測試、代碼檢查
│ └── docker-publish.yml # Docker 鏡像發佈
├── Dockerfile # 多階段生產構建
├── docker-compose.yml # 本地開發設置
├── pyproject.toml # Python 依賴(uv)
├── .env.example # 環境配置模板
└── README.md
架構
服務器採用提供者架構,支持多種抓取後端:
- ScraperProvider:抓取實現的抽象接口
- RequestsProvider:使用
requests庫的基本 HTTP 抓取器 - 未來提供者:可以添加對 Playwright、Selenium、Scrapy 等的支持 提供者的選擇基於 URL 模式自動進行,便於為不同類型的網站添加專門的提供者。
重試行為與錯誤處理
抓取器包含智能重試邏輯,採用指數退避算法處理臨時故障:
重試配置
- 默認最大重試次數:3 次嘗試
- 默認超時時間:30 秒
- 重試延遲:從 1 秒開始的指數退避
重試計劃
對於默認配置(max_retries=3):
- 第一次嘗試:立即執行
- 第一次重試:等待 1 秒
- 第二次重試:等待 2 秒
- 第三次重試:等待 4 秒 最終失敗前的最大總等待時間約為 7 秒。
觸發重試的情況
抓取器在以下情況下會自動重試:
- 網絡超時(
requests.Timeout) - 連接失敗(
requests.ConnectionError) - HTTP 錯誤(4xx、5xx 狀態碼)
重試元數據
所有成功響應的元數據中都包含重試信息:
{
"attempts": 2, // 總嘗試次數(1 表示無重試)
"retries": 1, // 重試次數
"elapsed_ms": 234.5 // 請求總時間(毫秒)
}
自定義重試行為
# 禁用重試
from scraper_mcp import scrape_url
import asyncio
result = asyncio.run(scrape_url("https://example.com", max_retries=0))
# 對於不穩定的網站進行更積極的重試
result = asyncio.run(scrape_url("https://example.com", max_retries=5, timeout=60))
# 對於對時間敏感的操作進行快速失敗
result = asyncio.run(scrape_url("https://example.com", max_retries=1, timeout=10))
CSS 選擇器過濾
所有抓取工具都支持可選的 CSS 選擇器過濾,在處理之前從 HTML 中提取特定元素,讓你能夠專注於所需的內容。
支持的選擇器
服務器使用 BeautifulSoup4 的 .select() 方法(由 Soup Sieve 提供支持),支持以下選擇器:
- 標籤選擇器:
meta,img,a,div - 多個選擇器:
img, video(用逗號分隔) - 類選擇器:
.article-content,.main-text - ID 選擇器:
#header,#main-content - 屬性選擇器:
a[href],meta[property="og:image"],img[src^="https://"] - 後代組合器:
article p,div.content a - 偽類:
p:nth-of-type(3),a:not([rel])
使用示例
# 僅提取元標籤用於 SEO 分析
from scraper_mcp import scrape_url
scrape_url("https://example.com", css_selector="meta")
# 獲取文章內容的 Markdown 格式,排除廣告
from scraper_mcp import scrape_url_markdown
scrape_url_markdown("https://blog.com/article", css_selector="article.main-content")
# 從特定部分提取文本
from scraper_mcp import scrape_url_text
scrape_url_text("https://example.com", css_selector="#main-content")
# 僅獲取產品圖片
scrape_url("https://shop.com/product", css_selector="img.product-image, img[data-product]")
# 僅提取導航鏈接
from scraper_mcp import scrape_extract_links
scrape_extract_links("https://example.com", css_selector="nav.primary")
# 獲取 Open Graph 元標籤
scrape_url("https://example.com", css_selector='meta[property^="og:"]')
# 結合 strip_tags 進行精細控制
scrape_url_markdown(
"https://example.com",
css_selector="article", # 首先過濾到文章部分
strip_tags=["script", "style"] # 然後移除腳本和樣式
)
工作原理
- 抓取:從 URL 獲取 HTML
- 過濾(如果提供了
css_selector):應用 CSS 選擇器,僅保留匹配的元素 - 處理:轉換為 Markdown/純文本或提取鏈接
- 返回:在元數據中包含
elements_matched計數
CSS 選擇器的好處
- 減少噪聲:僅提取相關內容,忽略廣告、導航欄和頁腳
- 範圍提取:僅從特定部分獲取鏈接(例如,主內容部分,而非側邊欄)
- 高效:處理更少的 HTML,獲得更乾淨的結果
- 可組合:可與
strip_tags一起使用,實現最大程度的控制
環境變量
使用 Docker 運行時,可以使用環境變量配置服務器:
TRANSPORT:傳輸類型(streamable-http或sse,默認值為streamable-http)HOST:綁定的主機,默認值為0.0.0.0PORT:綁定的端口,默認值為8000ENABLE_CACHE_TOOLS:啟用緩存管理工具(true,1, 或yes啟用,默認值為false)- 啟用後,將暴露
cache_stats,cache_clear_expired, 和cache_clear_all工具 - 默認情況下為安全和簡單起見禁用
- 啟用後,將暴露
代理配置
抓取器通過標準環境變量支持 HTTP/HTTPS 代理。當在企業防火牆後運行或需要通過特定代理路由流量時,這非常有用。
使用 Docker Compose 配置代理
在項目根目錄下創建一個 .env 文件(參考 .env.example):
# 非 SSL 請求的 HTTP 代理
HTTP_PROXY=http://proxy.example.com:8080
http_proxy=http://proxy.example.com:8080
# SSL 請求的 HTTPS 代理
HTTPS_PROXY=http://proxy.example.com:8080
https_proxy=http://proxy.example.com:8080
# 繞過特定主機的代理(用逗號分隔)
NO_PROXY=localhost,127.0.0.1,.local
no_proxy=localhost,127.0.0.1,.local
然後啟動服務:
docker-compose up -d
Docker Compose 會自動讀取 .env 文件,並在構建時(用於包安裝)和運行時(用於 HTTP 請求)將變量傳遞給容器。
使用 Docker Run 配置代理
docker run -p 8000:8000 \
-e HTTP_PROXY=http://proxy.example.com:8080 \
-e HTTPS_PROXY=http://proxy.example.com:8080 \
-e NO_PROXY=localhost,127.0.0.1,.local \
scraper-mcp:latest
帶認證的代理
如果你的代理需要認證,請在 URL 中包含憑證:
HTTP_PROXY=http://username:password@proxy.example.com:8080
HTTPS_PROXY=http://username:password@proxy.example.com:8080
構建時與運行時代理
代理配置在兩個階段起作用:
- 構建時:用於 Docker 安裝包(apt、uv、pip)
- 運行時:用於抓取器進行 HTTP 請求
同時支持大寫和小寫變量名(例如
HTTP_PROXY和http_proxy)。
驗證代理配置
檢查容器日誌以驗證是否正在使用代理設置:
docker-compose logs scraper-mcp
requests 庫會自動遵循這些環境變量,並將所有 HTTP/HTTPS 流量通過配置的代理路由。
ScrapeOps 代理集成
抓取器可選集成 ScrapeOps,這是一個高級代理服務,可幫助繞過反爬蟲措施、渲染 JavaScript 並訪問地理限制的內容。當提供 API 密鑰時,ScrapeOps 會自動啟用。
什麼是 ScrapeOps?
ScrapeOps 提供以下功能:
- JavaScript 渲染:抓取單頁應用和動態內容
- 住宅代理:降低被阻止的可能性
- 地理定位:訪問特定國家的內容
- 反爬蟲繞過:自動輪換頭部和指紋識別
- 高成功率:智能重試和優化
啟用 ScrapeOps
只需將你的 API 密鑰添加到 .env 文件中:
# 從 https://scrapeops.io/ 獲取你的 API 密鑰
SCRAPEOPS_API_KEY=your_api_key_here
就這麼簡單!所有抓取請求將自動通過 ScrapeOps 路由。無需對你的 MCP 工具或代碼進行任何更改。
配置選項
使用環境變量自定義 ScrapeOps 的行為(完整參考請查看 .env.example):
# 為單頁應用啟用 JavaScript 渲染(默認:false)
SCRAPEOPS_RENDER_JS=true
# 使用住宅代理而非數據中心代理(默認:false)
SCRAPEOPS_RESIDENTIAL=true
# 目標特定國家(可選)
SCRAPEOPS_COUNTRY=us
# 保留原始頭部而非進行優化(默認:false)
SCRAPEOPS_KEEP_HEADERS=true
# 用戶代理輪換的設備類型(默認:desktop)
SCRAPEOPS_DEVICE=mobile
完整示例配置
# .env 文件
SCRAPEOPS_API_KEY=your_api_key_here
SCRAPEOPS_RENDER_JS=true
SCRAPEOPS_RESIDENTIAL=true
SCRAPEOPS_COUNTRY=us
SCRAPEOPS_DEVICE=desktop
📄 許可證
本項目採用 MIT 許可證授權。
最後更新時間:2025 年 10 月 31 日
替代品









