Anycrawl MCP Server

AnyCrawl MCPサーバーは、モデルコンテキストプロトコル（MCP）に基づくウェブクローリングと収集サーバーで、単一ページの収集、ウェブサイトのクローリング、検索エンジンの統合をサポートし、複数の出力形式とエンジンを選択できます。

研究とデータ検索ツール #ウェブクローリング #データ収集 #MCPサービス #検索エンジン .TypeScript

スコア : 2ポイント

ダウンロード数 : 4.7K

更新時間 : 2025-09-25

サイトを開く

AnyCrawl MCPサーバーとは？

AnyCrawl MCPサーバーは、AIアシスタントやチャットボット向けに特別に設計された、専門のウェブコンテンツ抽出ツールです。これは、ウェブページからテキスト、画像、構造化データをスマートに抽出し、AIがウェブコンテンツを「見る」ことができ、理解できるようにします。

AnyCrawl MCPサーバーの使い方は？

APIキーを取得し、サポートされているAIクライアントに設定するだけで、会話の中で直接ウェブページ収集機能を使用できます。単一ページの収集、サイト全体のクローリング、検索エンジンの統合をサポートしています。

適用シーン

コンテンツ分析、市場調査、競合分析、学術研究、ニュース集約など、ウェブから情報を取得する必要があるシーンに適しています。

主要機能

ウェブページ収集

単一のURLからコンテンツを抽出し、Markdown、HTML、テキスト、スクリーンショットなどの複数の出力形式をサポートします。

サイト全体のクローリング

サイト全体を自動的にクローリングし、クローリングの深さとページ数の制限を設定できます。

検索エンジンの統合

検索エンジンを通じて直接情報を検索し、関連するウェブページを自動的に収集します。

複数エンジンのサポート

Playwright、Cheerio、Puppeteerの3つの収集エンジンをサポートし、さまざまなウェブページタイプに対応します。

非同期操作

非ブロッキングのクローリングタスクで、状態監視と進捗照会をサポートします。

複数モードのデプロイ

STDIO、HTTP、SSEの3つの通信モードをサポートし、さまざまなクライアントのニーズに対応します。

利点

使いやすい：プログラミング知識がなくても、AI会話の中で直接使用できます。

機能が強力：複雑なウェブページや動的コンテンツの収集をサポートします。

無料枠：新規ユーザーに1500回の収集枠が贈呈されます。

多様な出力形式：AIに適したMarkdown形式を提供します。

信頼性と安定性：専用のエラー処理とリトライメカニズムがあります。

制限

ネットワーク接続が必要：AnyCrawlクラウドサービスに依存しています。

使用制限がある：API呼び出し回数の制限があります。

技術的な制限：一部の反クローラーサイトは収集できない場合があります。

遅延の問題：複雑なクローリングタスクには待ち時間が必要です。

使い方

APIキーを取得する

anycrawl.devサイトにアクセスしてアカウントを登録し、コンソールで無料のAPIキーを取得します。

AIクライアントを設定する

使用するAIクライアント（Cursor、Claudeなど）にMCPサーバーの設定を追加します。

使用を開始する

AI会話の中で直接収集コマンドを使用します。例：「このウェブページの内容を収集してください」

使用例

ニュースコンテンツ分析

複数のニュースサイトの最新報道を迅速に収集し、コンテンツの比較と分析を行います。

製品調査

競合サイトの製品情報、価格、ユーザー評価を収集します。

学術研究

学術論文の要約と研究報告の内容を収集します。

よくある質問

有料ですか？

どのAIクライアントがサポートされていますか？

収集速度はどの程度ですか？

JavaScriptでレンダリングされたウェブページはどう処理しますか？

収集制限はありますか？

🚀 AnyCrawl MCP Server

🚀 AnyCrawl MCP Server は、Model Context Protocol (MCP) を介して、Cursor、Claude、その他のLLMクライアント向けに強力なウェブスクレイピングとクローリングを提供します。

✨ 主な機能

ウェブスクレイピング：単一のURLから複数の出力形式でコンテンツを抽出します。
ウェブサイトクローリング：構成可能な深さと制限でウェブサイト全体をクロールします。
検索エンジン統合：ウェブを検索し、必要に応じて結果をスクレイピングします。
複数のエンジン：Playwright、Cheerio、Puppeteerをサポートします。
柔軟な出力：Markdown、HTML、テキスト、スクリーンショット、構造化JSONをサポートします。
非同期操作：ステータス監視付きの非ブロッキングクロールジョブを提供します。
エラーハンドリング：堅牢なエラーハンドリングとロギングを備えています。
複数のモード：STDIO（デフォルト）、MCP(HTTP)、SSE；Nginxプロキシでクラウド対応。

📦 インストール

npxで実行

ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

手動インストール

npm install -g anycrawl-mcp-server

ANYCRAWL_API_KEY=YOUR-API-KEY anycrawl-mcp

📚 ドキュメント

設定

必要な環境変数を設定します。

export ANYCRAWL_API_KEY="your-api-key-here"

任意で、カスタムベースURLを設定します。

export ANYCRAWL_BASE_URL="https://api.anycrawl.dev"  # デフォルト

APIキーの取得

AnyCrawlのウェブサイトにアクセスし、サインアップまたはログインします：AnyCrawl
🎉 無料でサインアップすると、1,500クレジットが付与され、約1,500ページをクロールできます。
ダッシュボードを開き → APIキー → キーをコピーします。
キーをコピーし、ANYCRAWL_API_KEY 環境変数として設定します（上記を参照）。

使用方法

利用可能なモード

AnyCrawl MCP Serverは、以下のデプロイモードをサポートしています。

デフォルトモードは STDIO です（環境変数は不要）。ANYCRAWL_MODE を設定して切り替えます。

モード	説明	最適なシナリオ	トランスポート
`STDIO`	標準入出力を介した標準MCP（デフォルト）	コマンド型MCPクライアント、ローカルツール	標準入出力
`MCP`	ストリーミング可能なHTTP（JSON、ステートフル）	Cursor（ストリーミング可能なHTTP）、API統合	HTTP + JSON
`SSE`	サーバー送信イベント	ウェブアプリ、ブラウザ統合	HTTP + SSE

クイックスタートコマンド

# 開発（ローカル）
npm run dev            # STDIO（デフォルト）
npm run dev:mcp          # MCPモード（JSON /mcp）
npm run dev:sse          # SSEモード（/sse）

# 本番環境（ビルド出力）
npm start              # STDIO（デフォルト）
npm run start:mcp
npm run start:sse

# 環境変数の例
ANYCRAWL_MODE=MCP ANYCRAWL_API_KEY=YOUR-KEY npm run dev:mcp
ANYCRAWL_MODE=SSE ANYCRAWL_API_KEY=YOUR-KEY npm run dev:sse

Docker Compose（MCP + SSE with Nginx）

このリポジトリには、同じコンテナ内でポート3000でMCP（JSON）、ポート3001でSSEを実行する本番環境用のイメージが含まれており、Nginxが前面に配置されています。Nginxは、APIキーをプレフィックスとしたパス /{API_KEY}/mcp と /{API_KEY}/sse もサポートし、x-anycrawl-api-key ヘッダーを介してキーを転送します。

docker compose build
docker compose up -d

Dockerイメージで使用される環境変数：

ANYCRAWL_MODE: MCP_AND_SSE（composeでのデフォルト）、または MCP、SSE
ANYCRAWL_MCP_PORT: デフォルト 3000
ANYCRAWL_SSE_PORT: デフォルト 3001
CLOUD_SERVICE: true の場合、/{API_KEY}/... またはヘッダーからAPIキーを抽出します
ANYCRAWL_BASE_URL: デフォルト https://api.anycrawl.dev

Cursorでの実行

Cursorを設定します。注意: Cursor v0.45.6+が必要です。

Cursor v0.48.6以降の場合、MCP Servers設定にこれを追加します。

{
  "mcpServers": {
    "anycrawl-mcp": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

Cursor v0.45.6の場合：

Cursor設定 → 機能 → MCPサーバー → "+ 新しいMCPサーバーを追加" を開きます。
名前: "anycrawl-mcp"（または好みの名前）
タイプ: "コマンド"
コマンド:

env ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

Windowsで問題が発生する場合：

cmd /c "set ANYCRAWL_API_KEY=YOUR-API-KEY && npx -y anycrawl-mcp"

VS Codeでの実行

手動インストールの場合、VS Codeのユーザー設定（JSON）にこのJSONを追加します（コマンドパレット → 設定: ユーザー設定（JSON）を開く）。

{
  "mcp": {
    "inputs": [
      {
        "type": "promptString",
        "id": "apiKey",
        "description": "AnyCrawl API Key",
        "password": true
      }
    ],
    "servers": {
      "anycrawl": {
        "command": "npx",
        "args": ["-y", "anycrawl-mcp"],
        "env": {
          "ANYCRAWL_API_KEY": "${input:apiKey}"
        }
      }
    }
  }
}

任意で、ワークスペースの .vscode/mcp.json に以下を配置して設定を共有できます。

{
  "inputs": [
    {
      "type": "promptString",
      "id": "apiKey",
      "description": "AnyCrawl API Key",
      "password": true
    }
  ],
  "servers": {
    "anycrawl": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "${input:apiKey}"
      }
    }
  }
}

Windsurfでの実行

./codeium/windsurf/model_config.json にこれを追加します。

{
  "mcpServers": {
    "mcp-server-anycrawl": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "YOUR_API_KEY"
      }
    }
  }
}

SSEサーバーモードでの実行

SSE（サーバー送信イベント）モードは、MCP通信のためのウェブベースのインターフェースを提供し、ウェブアプリケーション、テスト、およびウェブベースのLLMクライアントとの統合に最適です。

クイックスタート

# 開発モード
ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

# またはnpmスクリプトを使用
ANYCRAWL_API_KEY=YOUR-API-KEY npm run dev:sse

サーバー設定

任意のサーバー設定（デフォルトを示します）。

export ANYCRAWL_PORT=3000
export ANYCRAWL_HOST=0.0.0.0

ヘルスチェック

curl -s http://localhost:${ANYCRAWL_PORT:-3000}/health
# レスポンス: ok

汎用MCP/SSEクライアント設定

SSEトランスポートをサポートする他のMCP/SSEクライアントの場合、この設定を使用します。

{
  "mcpServers": {
    "anycrawl": {
      "type": "sse",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/sse",
      "name": "AnyCrawl MCP Server",
      "description": "Web scraping and crawling tools"
    }
  }
}

または

{
  "mcpServers": {
    "AnyCrawl": {
      "type": "streamable_http",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/mcp"
    }
  }
}

環境設定:

# APIキーを使用してSSEサーバーを起動
ANYCRAWL_API_KEY=your-api-key-here npm run dev:sse

CursorのHTTPモード（streamable_http）設定

CursorをHTTP MCPサーバーに接続するように設定します。

ローカルHTTPストリーミングサーバー:

{
  "mcpServers": {
    "anycrawl-http-local": {
      "type": "streamable_http",
      "url": "http://127.0.0.1:3000/mcp"
    }
  }
}

クラウドHTTPストリーミングサーバー:

{
  "mcpServers": {
    "anycrawl-http-cloud": {
      "type": "streamable_http",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/mcp"
    }
  }
}

注意: HTTPモードの場合、ANYCRAWL_API_KEY（および任意のホスト/ポート）をサーバープロセスの環境またはURLに設定します。Cursorは streamable_http を使用する場合、APIキーは必要ありません。

利用可能なツール

1. スクレイピングツール (`anycrawl_scrape`)

単一のURLをスクレイピングし、さまざまな形式でコンテンツを抽出します。

最適なシナリオ:

単一ページからのコンテンツ抽出
迅速なデータ抽出
特定のURLのテスト

パラメータ:

url (必須): スクレイピングするURL
engine (必須): スクレイピングエンジン (playwright, cheerio, puppeteer)
formats (任意): 出力形式 (markdown, html, text, screenshot, screenshot@fullPage, rawHtml, json)
proxy (任意): プロキシURL
timeout (任意): タイムアウト（ミリ秒）（デフォルト: 300000）
retry (任意): 失敗時に再試行するかどうか（デフォルト: false）
wait_for (任意): ページの読み込みを待つ時間
include_tags (任意): 含めるHTMLタグ
exclude_tags (任意): 除外するHTMLタグ
json_options (任意): JSON抽出のオプション

例:

{
  "name": "anycrawl_scrape",
  "arguments": {
    "url": "https://example.com",
    "engine": "cheerio",
    "formats": ["markdown", "html"],
    "timeout": 30000
  }
}

2. クローリングツール (`anycrawl_crawl`)

ウェブサイトから複数のページをスクレイピングするためのクロールジョブを開始します。デフォルトでは、完了を待ち、SDKの client.crawl を使用して集約された結果を返します（デフォルト: 3秒ごとにポーリング、60秒後にタイムアウト）。

最適なシナリオ:

複数の関連ページからのコンテンツ抽出
包括的なウェブサイト分析
大量のデータ収集

パラメータ:

url (必須): クロールするベースURL
engine (必須): スクレイピングエンジン
max_depth (任意): 最大クロール深度（デフォルト: 10）
limit (任意): 最大ページ数（デフォルト: 100）
strategy (任意): クローリング戦略 (all, same-domain, same-hostname, same-origin)
exclude_paths (任意): 除外するURLパターン
include_paths (任意): 含めるURLパターン
scrape_options (任意): 個々のページスクレイピングのオプション
poll_seconds (任意): 待機時のポーリング間隔（秒）（デフォルト: 3）
timeout_ms (任意): 待機時の全体的なタイムアウト（ミリ秒）（デフォルト: 60000）

例:

{
  "name": "anycrawl_crawl",
  "arguments": {
    "url": "https://example.com/blog",
    "engine": "playwright",
    "max_depth": 2,
    "limit": 50,
    "strategy": "same-domain",
    "poll_seconds": 3,
    "timeout_ms": 60000
  }
}

戻り値: { "job_id": "...", "status": "completed", "total": N, "completed": N, "creditsUsed": N, "data": [...] }。

3. クロールステータスツール (`anycrawl_crawl_status`)

クロールジョブのステータスを確認します。

パラメータ:

job_id (必須): クロールジョブID

例:

{
  "name": "anycrawl_crawl_status",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396"
  }
}

4. クロール結果ツール (`anycrawl_crawl_results`)

クロールジョブの結果を取得します。

パラメータ:

job_id (必須): クロールジョブID
skip (任意): スキップする結果の数（ページング用）

例:

{
  "name": "anycrawl_crawl_results",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396",
    "skip": 0
  }
}

5. クロールキャンセルツール (`anycrawl_cancel_crawl`)

保留中のクロールジョブをキャンセルします。

パラメータ:

job_id (必須): キャンセルするクロールジョブID

例:

{
  "name": "anycrawl_cancel_crawl",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396"
  }
}

6. 検索ツール (`anycrawl_search`)

AnyCrawl検索エンジンを使用してウェブを検索します。

最適なシナリオ:

複数のウェブサイトを横断して特定の情報を見つける
調査と発見
情報がどのウェブサイトにあるかわからない場合

パラメータ:

query (必須): 検索クエリ
engine (任意): 検索エンジン (google)
limit (任意): 最大結果数（デフォルト: 10）
offset (任意): スキップする結果の数（デフォルト: 0）
pages (任意): 検索するページ数
lang (任意): 言語コード
country (任意): 国コード
scrape_options (必須): 検索結果のスクレイピングオプション
safeSearch (任意): 安全検索レベル（0=オフ、1=中程度、2=厳格）

例:

{
  "name": "anycrawl_search",
  "arguments": {
    "query": "latest AI research papers 2024",
    "engine": "google",
    "limit": 5,
    "scrape_options": {
      "engine": "cheerio",
      "formats": ["markdown"]
    }
  }
}

出力形式

Markdown

LLMでの消費に最適な、クリーンで構造化されたMarkdownコンテンツ。

HTML

すべての形式が保持された生のHTMLコンテンツ。

テキスト

最小限の形式のプレーンテキストコンテンツ。

スクリーンショット

ページのビジュアルスクリーンショット。

スクリーンショット@全ページ

折り返し部分以下のコンテンツを含む全ページのスクリーンショット。

生のHTML

処理されていないHTMLコンテンツ。

JSON

カスタムスキーマを使用した構造化データ抽出。

エンジン

Cheerio

高速で軽量
静的コンテンツに適しています
サーバーサイドレンダリング

Playwright

完全なブラウザ自動化
JavaScriptレンダリング
動的コンテンツに最適

Puppeteer

Chrome/Chromiumの自動化
機能とパフォーマンスのバランスが良い

エラーハンドリング

サーバーは包括的なエラーハンドリングを提供します。

バリデーションエラー: 無効なパラメータまたは必須フィールドの欠落
APIエラー: 詳細なメッセージを含むAnyCrawl APIエラー
ネットワークエラー: 接続とタイムアウトの問題
レート制限: バックオフを伴う自動再試行

ロギング

サーバーには詳細なロギングが含まれています。

デバッグ: 詳細な操作情報
情報: 一般的な操作ステータス
警告: 重大ではない問題
エラー: 重大なエラーと失敗

環境変数でログレベルを設定します。

export LOG_LEVEL=debug  # debug, info, warn, error

開発

前提条件

Node.js 18+
npm

セットアップ

git clone <repository>
cd anycrawl-mcp
npm ci

ビルド

npm run build

テスト

npm test

リント

npm run lint

フォーマット

npm run format

コントリビューション

リポジトリをフォークします。
機能ブランチを作成します。
テストを実行します: npm test
プルリクエストを送信します。

📄 ライセンス

MITライセンス - 詳細はLICENSEファイルを参照してください。

サポート

GitHubの問題: バグを報告または機能を要求する
ドキュメント: AnyCrawl APIドキュメント
メール: help@anycrawl.dev

AnyCrawlについて

AnyCrawlは強力なNode.js/TypeScriptクローラーで、ウェブサイトをLLM対応のデータに変換し、Google/Bing/Baiduなどから構造化されたSERP結果を抽出します。バルク処理のためのネイティブマルチスレッディングを備え、複数の出力形式をサポートしています。

ウェブサイト: https://anycrawl.dev
GitHub: https://github.com/any4ai/anycrawl
API: https://api.anycrawl.dev

Gmail MCP Server

Claude Desktop用に設計されたGmail自動認証MCPサーバーで、自然言語でのやり取りによるGmailの管理をサポートし、メール送信、ラベル管理、一括操作などの完全な機能を備えています。

TypeScript

18.5K

4.5ポイント

Edgeone Pages MCP Server

EdgeOne Pages MCPは、MCPプロトコルを通じてHTMLコンテンツをEdgeOne Pagesに迅速にデプロイし、公開URLを取得するサービスです。

Context7 MCPは、AIプログラミングアシスタントにリアルタイムのバージョン固有のドキュメントとコード例を提供するサービスで、Model Context Protocolを通じてプロンプトに直接統合され、LLMが古い情報を使用する問題を解決します。

百度マップMCPサーバーは国内初のMCPプロトコルに対応した地図サービスで、地理コーディング、ルート計画など10個の標準化されたAPIインターフェースを提供し、PythonとTypescriptでの迅速な接続をサポートし、エージェントに地図関連の機能を実現させます。

GitLab MCPサーバーは、Model Context Protocolに基づくプロジェクトで、GitLabアカウントとのやり取りに必要な包括的なツールセットを提供します。コードレビュー、マージリクエスト管理、CI/CD設定などの機能が含まれます。

UnityMCPはUnityエディターのプラグインで、モデルコンテキストプロトコル (MCP) を実装し、UnityとAIアシスタントのシームレスな統合を提供します。リアルタイムの状態監視、リモートコマンドの実行、ログ機能が含まれます。

26.8K

5ポイント

Magic MCP

Magic Component Platform (MCP) はAI駆動のUIコンポーネント生成ツールで、自然言語での記述を通じて、開発者が迅速に現代的なUIコンポーネントを作成するのを支援し、複数のIDEとの統合をサポートします。

JavaScript

19.4K

5ポイント

Sequential Thinking MCP Server

MCPプロトコルに基づく構造化思考サーバーで、思考段階を定義することで複雑な問題を分解し要約を生成するのに役立ちます。

Python

29.6K

4.5ポイント

智啓未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

Anycrawl MCP Server

概要

インストール

ツールリスト

コンテンツ詳細

代替品

AnyCrawl MCPサーバーとは？

AnyCrawl MCPサーバーの使い方は？

適用シーン

主要機能

使い方

使用例

よくある質問

関連リソース

インストール

🚀 AnyCrawl MCP Server

✨ 主な機能

📦 インストール

npxで実行

手動インストール

📚 ドキュメント

設定

APIキーの取得

使用方法

利用可能なモード

クイックスタートコマンド

Docker Compose（MCP + SSE with Nginx）

Cursorでの実行

VS Codeでの実行

Windsurfでの実行

SSEサーバーモードでの実行

クイックスタート

サーバー設定

ヘルスチェック

汎用MCP/SSEクライアント設定

CursorのHTTPモード（streamable_http）設定

利用可能なツール

1. スクレイピングツール (anycrawl_scrape)

2. クローリングツール (anycrawl_crawl)

3. クロールステータスツール (anycrawl_crawl_status)

4. クロール結果ツール (anycrawl_crawl_results)

5. クロールキャンセルツール (anycrawl_cancel_crawl)

6. 検索ツール (anycrawl_search)

出力形式

Markdown

HTML

テキスト

スクリーンショット

スクリーンショット@全ページ

生のHTML

JSON

エンジン

Cheerio

Playwright

Puppeteer

エラーハンドリング

ロギング

開発

前提条件

セットアップ

ビルド

テスト

リント

フォーマット

コントリビューション

📄 ライセンス

サポート

AnyCrawlについて

代替品

1. スクレイピングツール (`anycrawl_scrape`)

2. クローリングツール (`anycrawl_crawl`)

3. クロールステータスツール (`anycrawl_crawl_status`)

4. クロール結果ツール (`anycrawl_crawl_results`)

5. クロールキャンセルツール (`anycrawl_cancel_crawl`)

6. 検索ツール (`anycrawl_search`)