Anycrawl MCP Server

AnyCrawl MCP Server是一個基於模型上下文協議（MCP）的網頁爬取和抓取服務器，支持單頁抓取、網站爬取和搜索引擎集成，提供多種輸出格式和引擎選擇。

研究與數據搜索工具 #網頁爬取 #數據抓取 #MCP服務 #搜索引擎 .TypeScript

評分 : 2分

下載量 : 4.7K

更新時間 : 2025-09-25

打開站點

什麼是AnyCrawl MCP Server?

AnyCrawl MCP Server是一個專業的網頁內容提取工具，專門為AI助手和聊天機器人設計。它能夠智能地從網頁中提取文本、圖片和結構化數據，讓AI能夠'看到'和理解網頁內容。

如何使用AnyCrawl MCP Server?

只需獲取API密鑰，配置到支持的AI客戶端中，即可在對話中直接使用網頁抓取功能。支持單頁抓取、整站爬取和搜索引擎集成。

適用場景

適用於內容分析、市場調研、競品分析、學術研究、新聞聚合等需要從網頁獲取信息的場景。

主要功能

網頁抓取

從單個URL提取內容，支持多種輸出格式包括Markdown、HTML、文本和截圖

整站爬取

自動爬取整個網站，可配置爬取深度和頁面數量限制

搜索引擎集成

直接通過搜索引擎查找信息並自動抓取相關網頁

多引擎支持

支持Playwright、Cheerio和Puppeteer三種抓取引擎，適應不同網頁類型

異步操作

非阻塞的爬取任務，支持狀態監控和進度查詢

多模式部署

支持STDIO、HTTP和SSE三種通信模式，適應不同客戶端需求

優勢

簡單易用：無需編程知識，直接在AI對話中使用

功能強大：支持複雜網頁和動態內容抓取

免費額度：新用戶贈送1500次抓取額度

多格式輸出：提供AI友好的Markdown格式

可靠穩定：專業的錯誤處理和重試機制

侷限性

需要網絡連接：依賴AnyCrawl雲服務

有使用限制：受API調用次數限制

技術限制：某些反爬蟲網站可能無法抓取

延遲問題：複雜爬取任務需要等待時間

如何使用

獲取API密鑰

訪問anycrawl.dev網站註冊賬號，在控制檯中獲取免費的API密鑰

配置AI客戶端

根據使用的AI客戶端（Cursor、Claude等）添加MCP服務器配置

開始使用

在AI對話中直接使用抓取命令，如"請抓取這個網頁的內容"

使用案例

新聞內容分析

快速抓取多個新聞網站的最新報道，進行內容對比和分析

產品調研

收集競品網站的產品信息、價格和用戶評價

學術研究

抓取學術論文摘要和研究報告內容

常見問題

需要付費嗎？

支持哪些AI客戶端？

抓取速度如何？

如何處理JavaScript渲染的網頁？

有抓取限制嗎？

🚀 AnyCrawl MCP Server

🚀 AnyCrawl MCP Server 是一款強大的網頁抓取和爬取工具，它通過模型上下文協議（MCP）為 Cursor、Claude 等大語言模型（LLM）客戶端提供支持。

🚀 快速開始

AnyCrawl MCP Server 可助力你高效地進行網頁抓取和爬取工作。以下是使用前的準備步驟：

獲取 API 密鑰：訪問 AnyCrawl 網站，註冊或登錄賬號。註冊後可免費獲得 1500 個積分，足以爬取近 1500 個頁面。打開儀表盤，點擊 “API Keys”，複製你的密鑰。
設置環境變量：將獲取的 API 密鑰設置為 ANYCRAWL_API_KEY 環境變量。示例：export ANYCRAWL_API_KEY="your-api-key-here"。
選擇安裝方式：你可以選擇使用 npx 運行，或者手動安裝。

✨ 主要特性

網頁抓取：從單個 URL 提取內容，支持多種輸出格式。
網站爬取：可對整個網站進行爬取，支持配置爬取深度和限制。
搜索引擎集成：支持在網絡上搜索，並可選擇對搜索結果進行抓取。
多引擎支持：支持 Playwright、Cheerio 和 Puppeteer 等多種抓取引擎。
靈活輸出：支持 Markdown、HTML、文本、截圖和結構化 JSON 等多種輸出格式。
異步操作：支持非阻塞式爬取任務，並可進行狀態監控。
錯誤處理：具備強大的錯誤處理和日誌記錄功能。
多模式支持：支持 STDIO（默認）、MCP(HTTP)、SSE 等模式，可通過 Nginx 代理實現雲端部署。

📦 安裝指南

使用 npx 運行

ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

手動安裝

npm install -g anycrawl-mcp-server

ANYCRAWL_API_KEY=YOUR-API-KEY anycrawl-mcp

配置環境變量

設置必需的環境變量：

export ANYCRAWL_API_KEY="your-api-key-here"

可選設置自定義基礎 URL：

export ANYCRAWL_BASE_URL="https://api.anycrawl.dev"  # 默認值

💻 使用示例

可用模式

AnyCrawl MCP Server 支持以下部署模式，默認模式為 STDIO（無需設置環境變量），可通過設置 ANYCRAWL_MODE 進行切換。

模式	描述	適用場景	傳輸方式
`STDIO`	通過標準輸入輸出實現標準 MCP（默認）	命令型 MCP 客戶端、本地工具	標準輸入輸出
`MCP`	可流式傳輸的 HTTP（JSON，有狀態）	Cursor（可流式傳輸的 HTTP）、API 集成	HTTP + JSON
`SSE`	服務器發送事件	網頁應用、瀏覽器集成	HTTP + SSE

快速啟動命令

# 開發環境（本地）
npm run dev            # STDIO（默認）
npm run dev:mcp          # MCP 模式（JSON /mcp）
npm run dev:sse          # SSE 模式 (/sse)

# 生產環境（構建輸出）
npm start              # STDIO（默認）
npm run start:mcp
npm run start:sse

# 環境變量示例
ANYCRAWL_MODE=MCP ANYCRAWL_API_KEY=YOUR-KEY npm run dev:mcp
ANYCRAWL_MODE=SSE ANYCRAWL_API_KEY=YOUR-KEY npm run dev:sse

Docker Compose（MCP + SSE 搭配 Nginx）

本倉庫提供了一個生產就緒的鏡像，可在同一容器中通過 Nginx 前端在端口 3000 運行 MCP（JSON），在端口 3001 運行 SSE。Nginx 還支持以 API 密鑰為前綴的路徑 /{API_KEY}/mcp 和 /{API_KEY}/sse，並通過 x-anycrawl-api-key 頭轉發密鑰。

docker compose build
docker compose up -d

Docker 鏡像中使用的環境變量：

ANYCRAWL_MODE: MCP_AND_SSE（Compose 中的默認值），或 MCP、SSE
ANYCRAWL_MCP_PORT: 默認值為 3000
ANYCRAWL_SSE_PORT: 默認值為 3001
CLOUD_SERVICE: 設置為 true 可從 /{API_KEY}/... 或頭信息中提取 API 密鑰
ANYCRAWL_BASE_URL: 默認值為 https://api.anycrawl.dev

在 Cursor 上運行

配置 Cursor（需要 Cursor v0.45.6+ 版本）。

對於 Cursor v0.48.6 及更高版本，將以下內容添加到 MCP Servers 設置中：

{
  "mcpServers": {
    "anycrawl-mcp": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

對於 Cursor v0.45.6 版本：

打開 Cursor 設置 → 功能 → MCP Servers → "+ 添加新的 MCP 服務器"
名稱："anycrawl-mcp"（或你喜歡的名稱）
類型："命令"
命令：

env ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

在 Windows 系統上遇到問題時：

cmd /c "set ANYCRAWL_API_KEY=YOUR-API-KEY && npx -y anycrawl-mcp"

在 VS Code 上運行

手動安裝時，將以下 JSON 添加到 VS Code 的用戶設置（JSON）中（命令面板 → 首選項：打開用戶設置（JSON））：

{
  "mcp": {
    "inputs": [
      {
        "type": "promptString",
        "id": "apiKey",
        "description": "AnyCrawl API 密鑰",
        "password": true
      }
    ],
    "servers": {
      "anycrawl": {
        "command": "npx",
        "args": ["-y", "anycrawl-mcp"],
        "env": {
          "ANYCRAWL_API_KEY": "${input:apiKey}"
        }
      }
    }
  }
}

可選地，將以下內容放置在工作區的 .vscode/mcp.json 中以共享配置：

{
  "inputs": [
    {
      "type": "promptString",
      "id": "apiKey",
      "description": "AnyCrawl API 密鑰",
      "password": true
    }
  ],
  "servers": {
    "anycrawl": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "${input:apiKey}"
      }
    }
  }
}

在 Windsurf 上運行

將以下內容添加到 ./codeium/windsurf/model_config.json 中：

{
  "mcpServers": {
    "mcp-server-anycrawl": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "YOUR_API_KEY"
      }
    }
  }
}

使用 SSE 服務器模式

SSE（服務器發送事件）模式為 MCP 通信提供了基於 Web 的界面，適用於網頁應用、測試以及與基於 Web 的 LLM 客戶端集成。

快速啟動

# 開發模式
ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

# 或使用 npm 腳本
ANYCRAWL_API_KEY=YOUR-API-KEY npm run dev:sse

服務器配置

可選的服務器設置（顯示默認值）：

export ANYCRAWL_PORT=3000
export ANYCRAWL_HOST=0.0.0.0

健康檢查

curl -s http://localhost:${ANYCRAWL_PORT:-3000}/health
# 響應：ok

通用 MCP/SSE 客戶端配置

對於支持 SSE 傳輸的其他 MCP/SSE 客戶端，使用以下配置：

{
  "mcpServers": {
    "anycrawl": {
      "type": "sse",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/sse",
      "name": "AnyCrawl MCP 服務器",
      "description": "網頁抓取和爬取工具"
    }
  }
}

或

{
  "mcpServers": {
    "AnyCrawl": {
      "type": "streamable_http",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/mcp"
    }
  }
}

環境設置：

# 使用 API 密鑰啟動 SSE 服務器
ANYCRAWL_API_KEY=your-api-key-here npm run dev:sse

Cursor 配置（HTTP 模式，可流式傳輸的 HTTP）

配置 Cursor 以連接到你的 HTTP MCP 服務器。

本地 HTTP 可流式傳輸服務器：

{
  "mcpServers": {
    "anycrawl-http-local": {
      "type": "streamable_http",
      "url": "http://127.0.0.1:3000/mcp"
    }
  }
}

雲端 HTTP 可流式傳輸服務器：

{
  "mcpServers": {
    "anycrawl-http-cloud": {
      "type": "streamable_http",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/mcp"
    }
  }
}

注意：對於 HTTP 模式，需在服務器進程環境或 URL 中設置 ANYCRAWL_API_KEY（以及可選的主機/端口）。使用 streamable_http 時，Cursor 不需要你的 API 密鑰。

可用工具

1. 抓取工具 (`anycrawl_scrape`)

從單個 URL 抓取內容並以多種格式提取。

適用場景：

從單個頁面提取內容
快速數據提取
測試特定 URL

參數：

url（必需）：要抓取的 URL
engine（必需）：抓取引擎（playwright、cheerio、puppeteer）
formats（可選）：輸出格式（markdown、html、text、screenshot、screenshot@fullPage、rawHtml、json）
proxy（可選）：代理 URL
timeout（可選）：超時時間（毫秒，默認值：300000）
retry（可選）：失敗時是否重試（默認值：false）
wait_for（可選）：頁面加載等待時間
include_tags（可選）：要包含的 HTML 標籤
exclude_tags（可選）：要排除的 HTML 標籤
json_options（可選）：JSON 提取選項

示例：

{
  "name": "anycrawl_scrape",
  "arguments": {
    "url": "https://example.com",
    "engine": "cheerio",
    "formats": ["markdown", "html"],
    "timeout": 30000
  }
}

2. 爬取工具 (`anycrawl_crawl`)

啟動爬取任務以從網站抓取多個頁面。默認情況下，使用 SDK 的 client.crawl 等待任務完成並返回聚合結果（默認：每 3 秒輪詢一次，60 秒後超時）。

適用場景：

從多個相關頁面提取內容
全面的網站分析
批量數據收集

參數：

url（必需）：要爬取的基礎 URL
engine（必需）：抓取引擎
max_depth（可選）：最大爬取深度（默認值：10）
limit（可選）：最大頁面數（默認值：100）
strategy（可選）：爬取策略（all、same-domain、same-hostname、same-origin）
exclude_paths（可選）：要排除的 URL 模式
include_paths（可選）：要包含的 URL 模式
scrape_options（可選）：單個頁面抓取選項
poll_seconds（可選）：等待時的輪詢間隔秒數（默認值：3）
timeout_ms（可選）：等待的總超時毫秒數（默認值：60000）

示例：

{
  "name": "anycrawl_crawl",
  "arguments": {
    "url": "https://example.com/blog",
    "engine": "playwright",
    "max_depth": 2,
    "limit": 50,
    "strategy": "same-domain",
    "poll_seconds": 3,
    "timeout_ms": 60000
  }
}

返回結果：{ "job_id": "...", "status": "completed", "total": N, "completed": N, "creditsUsed": N, "data": [...] }。

3. 爬取狀態工具 (`anycrawl_crawl_status`)

檢查爬取任務的狀態。

參數：

job_id（必需）：爬取任務 ID

示例：

{
  "name": "anycrawl_crawl_status",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396"
  }
}

4. 爬取結果工具 (`anycrawl_crawl_results`)

獲取爬取任務的結果。

參數：

job_id（必需）：爬取任務 ID
skip（可選）：要跳過的結果數（用於分頁）

示例：

{
  "name": "anycrawl_crawl_results",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396",
    "skip": 0
  }
}

5. 取消爬取工具 (`anycrawl_cancel_crawl`)

取消待處理的爬取任務。

參數：

job_id（必需）：要取消的爬取任務 ID

示例：

{
  "name": "anycrawl_cancel_crawl",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396"
  }
}

6. 搜索工具 (`anycrawl_search`)

使用 AnyCrawl 搜索引擎在網絡上搜索。

適用場景：

在多個網站上查找特定信息
研究和發現
不確定信息所在網站時使用

參數：

query（必需）：搜索查詢
engine（可選）：搜索引擎（google）
limit（可選）：最大結果數（默認值：10）
offset（可選）：要跳過的結果數（默認值：0）
pages（可選）：要搜索的頁面數
lang（可選）：語言代碼
country（可選）：國家代碼
scrape_options（必需）：搜索結果抓取選項
safeSearch（可選）：安全搜索級別（0=關閉，1=中等，2=嚴格）

示例：

{
  "name": "anycrawl_search",
  "arguments": {
    "query": "latest AI research papers 2024",
    "engine": "google",
    "limit": 5,
    "scrape_options": {
      "engine": "cheerio",
      "formats": ["markdown"]
    }
  }
}

📚 詳細文檔

輸出格式

Markdown：乾淨、結構化的 Markdown 內容，非常適合 LLM 處理。
HTML：保留所有格式的原始 HTML 內容。
文本：格式最少的純文本內容。
截圖：頁面的視覺截圖。
Screenshot@fullPage：包含摺疊下方內容的全頁截圖。
原始 HTML：未處理的 HTML 內容。
JSON：使用自定義模式進行結構化數據提取。

引擎

Cheerio

快速輕量級
適用於靜態內容
服務器端渲染

Playwright

全瀏覽器自動化
JavaScript 渲染
最適合動態內容

Puppeteer

Chrome/Chromium 自動化
功能和性能的良好平衡

🔧 技術細節

錯誤處理

服務器提供全面的錯誤處理：

驗證錯誤：無效參數或缺少必需字段
API 錯誤：AnyCrawl API 錯誤，帶有詳細消息
網絡錯誤：連接和超時問題
速率限制：自動重試並進行退避

日誌記錄

服務器包含詳細的日誌記錄：

調試：詳細的操作信息
信息：一般操作狀態
警告：非關鍵問題
錯誤：關鍵錯誤和失敗

可通過環境變量設置日誌級別：

export LOG_LEVEL=debug  # debug, info, warn, error

開發

前提條件

Node.js 18+
npm

設置

git clone <repository>
cd anycrawl-mcp
npm ci

構建

npm run build

測試

npm test

代碼檢查

npm run lint

格式化

npm run format

📄 許可證

本項目採用 MIT 許可證，詳情請參閱 LICENSE 文件。

支持

GitHub 問題：報告錯誤或請求功能
文檔：AnyCrawl API 文檔
郵箱：help@anycrawl.dev

關於 AnyCrawl

AnyCrawl 是一個強大的 Node.js/TypeScript 爬蟲，可將網站轉換為適合 LLM 的數據，並從 Google、Bing、百度等搜索引擎提取結構化的搜索結果頁面（SERP）數據。它具有原生多線程處理功能，支持多種輸出格式。

網站：https://anycrawl.dev
GitHub：https://github.com/any4ai/anycrawl
API：https://api.anycrawl.dev

Markdownify MCP

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

120.3K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

TypeScript

78.8K

4.7分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

智啟未來，您的人工智慧解決方案智庫

Anycrawl MCP Server

概述

安裝

工具列表

內容詳情

替代品

什麼是AnyCrawl MCP Server?

如何使用AnyCrawl MCP Server?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 AnyCrawl MCP Server

🚀 快速開始

✨ 主要特性

📦 安裝指南

使用 npx 運行

手動安裝

配置環境變量

💻 使用示例

可用模式

快速啟動命令

Docker Compose（MCP + SSE 搭配 Nginx）

在 Cursor 上運行

在 VS Code 上運行

在 Windsurf 上運行

使用 SSE 服務器模式

快速啟動

服務器配置

健康檢查

通用 MCP/SSE 客戶端配置

Cursor 配置（HTTP 模式，可流式傳輸的 HTTP）

可用工具

1. 抓取工具 (anycrawl_scrape)

2. 爬取工具 (anycrawl_crawl)

3. 爬取狀態工具 (anycrawl_crawl_status)

4. 爬取結果工具 (anycrawl_crawl_results)

5. 取消爬取工具 (anycrawl_cancel_crawl)

6. 搜索工具 (anycrawl_search)

📚 詳細文檔

輸出格式

引擎

Cheerio

Playwright

Puppeteer

🔧 技術細節

錯誤處理

日誌記錄

開發

前提條件

設置

構建

測試

代碼檢查

格式化

📄 許可證

支持

關於 AnyCrawl

替代品

1. 抓取工具 (`anycrawl_scrape`)

2. 爬取工具 (`anycrawl_crawl`)

3. 爬取狀態工具 (`anycrawl_crawl_status`)

4. 爬取結果工具 (`anycrawl_crawl_results`)

5. 取消爬取工具 (`anycrawl_cancel_crawl`)

6. 搜索工具 (`anycrawl_search`)