Scrapling MCPサーバー：多方式クローリングとAI統合をサポートする開発ツール

たんさく

Scrapling

Scraplingは適応型ウェブページのスクレイピングライブラリで、ウェブサイトの変化を自動的に学習し、要素を再配置します。複数のスクレイピング方法とAI統合をサポートし、高性能な解析と開発者に優しい体験を提供します。

研究とデータ開発者ツール #ウェブページのスクレイピング #適応型学習 #AI統合 #高性能解析 .Python

スコア : 5ポイント

ダウンロード数 : 13.2K

更新時間 : 2025-09-18

サイトを開く

Scrapling MCPサーバーとは？

Scrapling MCPサーバーは、AIアシスタント向けに設計されたモデルコンテキストプロトコルサーバーです。Scraplingの強力なウェブページのスクレイピング機能を利用して、AIがウェブページのコンテンツをスマートに抽出できるようにします。サーバーは、コンテンツをAIに渡す前に正確なコンテンツの位置特定を行い、トークンの使用量を大幅に削減し、処理効率を向上させます。

Scrapling MCPサーバーの使い方は？

Claude DesktopやCursorなどのAIツールをMCPサーバーに接続するように設定することで、AIアシスタントは直接Scraplingのウェブページのスクレイピング機能を呼び出すことができます。URLと抽出するコンテンツの説明を提供するだけで、サーバーが複雑なウェブページのスクレイピングとデータ抽出タスクを自動的に処理します。

適用シーン

ウェブページから構造化データを抽出する必要がある様々なシーンに適用されます。市場調査、価格監視、コンテンツの集約、競争分析、学術研究などが含まれ、特にAIによるデータ分析と処理が必要なシーンに適しています。

主要機能

スマートなコンテンツ抽出

自然言語の説明に基づいてウェブページのコンテンツを正確に位置特定して抽出し、複雑なセレクタを記述する必要がありません。

トークン使用の最適化

コンテンツをAIに渡す前に前処理を行い、関連する部分のみを抽出し、トークンの消費を大幅に削減します。

適応型スクレイピング

ウェブサイトの構造変化に自動的に適応し、長期的に安定したデータ抽出能力を確保します。

多形式出力

JSON、テキスト、Markdownなどの複数の出力形式をサポートし、さまざまなAIモデルのニーズを満たします。

ステルスモード

組み込みの反検出技術により、Cloudflareなどの反スクレイピングシステムを回避することができます。

利点

AI処理のトークンコストを大幅に削減し、経済性を向上させます。

ウェブページのデータ抽出プロセスを簡素化し、技術的な背景がなくても使用できます。

強力な適応能力により、ウェブサイトの更新による抽出失敗を減らします。

複雑なJavaScriptレンダリングページと反スクレイピング保護をサポートします。

主流のAIツールとシームレスに統合され、すぐに使えます。

制限

MCPサーバー環境のインストールと設定が必要です。

非常に複雑な動的コンテンツについては、依然として人工的な介入が必要な場合があります。

ウェブページのスクレイピングにはネットワーク接続が必要です。

一部のウェブサイトには厳格なアクセス制限がある場合があります。

使い方

MCPサーバーのインストール

ScraplingのAI拡張機能がインストールされていることを確認します。

AIツールの設定

Claude Desktop、Cursorまたはその他のMCPをサポートするAIツールでサーバー接続を設定します。

使用開始

自然言語の命令でAIアシスタントにScraplingを使用してウェブページのスクレイピングを行わせます。

使用例

電子商取引の価格監視

競合他社のウェブサイトの製品価格の変化を監視する

ニュースコンテンツの集約

複数のニュースサイトから最新のニュースヘッドラインを収集する

学術研究のデータ収集

学術サイトから研究論文の情報を収集する

よくある質問

MCPサーバーとは何ですか？

使用するにはプログラミング知識が必要ですか？

どのようなAIツールをサポートしていますか？

スクレイピング速度はどの程度ですか？

ログインが必要なウェブサイトはどのように処理しますか？

🚀 Scrapling

簡単で楽なウェブスクレイピングを実現！

Scraplingは、ウェブサイトの変更に適応し、自動的に要素を再配置することで、スクレイピングを継続できる、初めての適応型スクレイピングライブラリです。他のライブラリがウェブサイトの構造変更で機能しなくなるのに対し、Scraplingは自動的に要素を再配置し、スクレイパーを稼働させ続けます。

選択メソッド · フェッチャーの選択 · CLI · MCPモード · Beautifulsoupからの移行

🚀 クイックスタート

>> from scrapling.fetchers import Fetcher, AsyncFetcher, StealthyFetcher, DynamicFetcher
>> StealthyFetcher.adaptive = True
# 目立たずにウェブサイトのソースを取得！
>> page = StealthyFetcher.fetch('https://example.com', headless=True, network_idle=True)
>> print(page.status)
200
>> products = page.css('.product', auto_save=True)  # ウェブサイトのデザイン変更に耐えるデータをスクレイピング！
>> # 後で、ウェブサイトの構造が変更された場合、`adaptive=True`を渡す
>> products = page.css('.product', adaptive=True)  # そしてScraplingはまだそれらを見つけます！

✨ 主な機能

セッションサポート付きの高度なウェブサイトフェッチ

HTTPリクエスト：Fetcherクラスを使用した高速で目立たないHTTPリクエスト。ブラウザのTLSフィンガープリント、ヘッダーを模倣でき、HTTP3を使用できます。
動的ローディング：DynamicFetcherクラスを介して、PlaywrightのChromium、実際のChrome、およびカスタムステルスモードをサポートする完全なブラウザ自動化で動的ウェブサイトを取得します。
アンチボット回避：修正版のFirefoxとフィンガープリントスプーフィングを使用したStealthyFetcherによる高度なステルス機能。自動化でCloudflareのTurnstileのすべてのレベルを簡単に回避できます。
セッション管理：FetcherSession、StealthySession、およびDynamicSessionクラスによる永続的なセッションサポート。リクエスト間でクッキーと状態を管理します。
非同期サポート：すべてのフェッチャーで完全な非同期サポートと専用の非同期セッションクラスが提供されます。

適応型スクレイピングとAI統合

🔄 スマート要素追跡：インテリジェントな類似性アルゴリズムを使用して、ウェブサイトの変更後に要素を再配置します。
🎯 スマート柔軟選択：CSSセレクター、XPathセレクター、フィルターベースの検索、テキスト検索、正規表現検索など。
🔍 類似要素の検索：見つかった要素に類似する要素を自動的に見つけます。
🤖 AIと共に使用するMCPサーバー：AI支援のウェブスクレイピングとデータ抽出のための組み込みMCPサーバー。MCPサーバーは、Scraplingを利用してターゲットコンテンツを抽出し、それをAI（Claude/Cursorなど）に渡す前に、カスタムで強力な機能を備えています。これにより、操作が高速化され、トークンの使用量が最小限に抑えられ、コストが削減されます。(デモビデオ)

高性能で実績のあるアーキテクチャ

🚀 超高速：ほとんどのPythonスクレイピングライブラリを上回る最適化されたパフォーマンス。
🔋 メモリ効率：最小限のメモリ使用量のための最適化されたデータ構造と遅延ローディング。
⚡ 高速JSONシリアル化：標準ライブラリよりも10倍高速。
🏗️ 実績あり：Scraplingは92％のテストカバレッジと完全な型ヒントカバレッジを持ち、過去1年間に数百人のウェブスクレイパーによって毎日使用されています。

開発者/ウェブスクレイパーに優しい体験

🎯 インタラクティブなウェブスクレイピングシェル：Scrapling統合、ショートカット、および新しいツールを備えたオプションの組み込みIPythonシェル。ウェブスクレイピングスクリプトの開発を高速化します。例えば、curlリクエストをScraplingリクエストに変換し、ブラウザでリクエスト結果を表示します。
🚀 ターミナルから直接使用：オプションで、コードを1行も書かずにScraplingを使用してURLをスクレイピングできます！
🛠️ 豊富なナビゲーションAPI：親、兄弟、子のナビゲーションメソッドを備えた高度なDOMトラバーサル。
🧬 強化されたテキスト処理：組み込みの正規表現、クリーニングメソッド、および最適化された文字列操作。
📝 自動セレクター生成：任意の要素に対して堅牢なCSS/XPathセレクターを生成します。
🔌 馴染みのあるAPI：Scrapy/BeautifulSoupと同様のAPIで、Scrapy/Parselで使用されるのと同じ疑似要素を使用します。
📘 完全な型カバレッジ：優れたIDEサポートとコード補完のための完全な型ヒント。

新しいセッションアーキテクチャ

Scrapling 0.3では、完全に見直されたセッションシステムが導入されました。

永続的なセッション：複数のリクエスト間でクッキー、ヘッダー、および認証を維持します。
自動セッション管理：適切なクリーンアップを伴うスマートなセッションライフサイクル管理。
セッション継承：すべてのフェッチャーは、ワンオフリクエストと永続的なセッションの両方の使用をサポートします。
同時セッションサポート：複数の分離されたセッションを同時に実行します。

📦 インストール

ScraplingはPython 3.10以上が必要です。

pip install scrapling

v0.3.2から、このインストールにはパーサーエンジンとその依存関係のみが含まれ、フェッチャーやコマンドライン依存関係は含まれません。

オプションの依存関係

以下の追加機能、フェッチャー、またはそれらのクラスを使用する場合は、フェッチャーの依存関係をインストールし、その後ブラウザの依存関係をインストールする必要があります。
```
pip install "scrapling[fetchers]"

scrapling install
```
これにより、すべてのブラウザとそのシステム依存関係およびフィンガープリント操作依存関係がダウンロードされます。
追加機能：
- MCPサーバー機能をインストールするには：
```
pip install "scrapling[ai]"
```
- シェル機能（ウェブスクレイピングシェルとextractコマンド）をインストールするには：
```
pip install "scrapling[shell]"
```
- すべてをインストールするには：
```
pip install "scrapling[all]"
```
これらの追加機能のいずれかをインストールした後（まだインストールしていない場合）、scrapling installでブラウザの依存関係をインストールすることを忘れないでください。

💻 使用例

基本的な使用法

from scrapling.fetchers import Fetcher, StealthyFetcher, DynamicFetcher
from scrapling.fetchers import FetcherSession, StealthySession, DynamicSession

# セッションサポート付きのHTTPリクエスト
with FetcherSession(impersonate='chrome') as session:  # 最新バージョンのChromeのTLSフィンガープリントを使用
    page = session.get('https://quotes.toscrape.com/', stealthy_headers=True)
    quotes = page.css('.quote .text::text')

# またはワンオフリクエストを使用
page = Fetcher.get('https://quotes.toscrape.com/')
quotes = page.css('.quote .text::text')

# 高度なステルスモード（作業が終了するまでブラウザを開いたままにする）
with StealthySession(headless=True, solve_cloudflare=True) as session:
    page = session.fetch('https://nopecha.com/demo/cloudflare', google_search=False)
    data = page.css('#padded_content a')

# またはワンオフリクエストスタイルを使用。このリクエストのためにブラウザを開き、終了後に閉じます
page = StealthyFetcher.fetch('https://nopecha.com/demo/cloudflare')
data = page.css('#padded_content a')
    
# 完全なブラウザ自動化（作業が終了するまでブラウザを開いたままにする）
with DynamicSession(headless=True, disable_resources=False, network_idle=True) as session:
    page = session.fetch('https://quotes.toscrape.com/', load_dom=False)
    data = page.xpath('//span[@class="text"]/text()')  # XPathセレクターを好む場合は使用

# またはワンオフリクエストスタイルを使用。このリクエストのためにブラウザを開き、終了後に閉じます
page = DynamicFetcher.fetch('https://quotes.toscrape.com/')
data = page.css('.quote .text::text')

高度なパーシングとナビゲーション

from scrapling.fetchers import Fetcher

# 豊富な要素選択とナビゲーション
page = Fetcher.get('https://quotes.toscrape.com/')

# 複数の選択メソッドで引用を取得
quotes = page.css('.quote')  # CSSセレクター
quotes = page.xpath('//div[@class="quote"]')  # XPath
quotes = page.find_all('div', {'class': 'quote'})  # BeautifulSoupスタイル
# 同じ
quotes = page.find_all('div', class_='quote')
quotes = page.find_all(['div'], class_='quote')
quotes = page.find_all(class_='quote')  # など...
# テキストコンテンツで要素を見つける
quotes = page.find_by_text('quote', tag='div')

# 高度なナビゲーション
first_quote = page.css_first('.quote')
quote_text = first_quote.css('.text::text')
quote_text = page.css('.quote').css_first('.text::text')  # チェーンドセレクター
quote_text = page.css_first('.quote .text').text  # 最初の要素が必要な場合は、`css_first`を使用する方が`css`よりも速い
author = first_quote.next_sibling.css('.author::text')
parent_container = first_quote.parent

# 要素の関係と類似性
similar_elements = first_quote.find_similar()
below_elements = first_quote.below_elements()

ウェブサイトを取得したくない場合は、以下のようにパーサーをすぐに使用できます。

from scrapling.parser import Selector

page = Selector("<html>...</html>")

そして、まったく同じように動作します！

非同期セッション管理の例

import asyncio
from scrapling.fetchers import FetcherSession, AsyncStealthySession, AsyncDynamicSession

async with FetcherSession(http3=True) as session:  # `FetcherSession`はコンテキストを認識し、同期/非同期パターンの両方で動作できます
    page1 = session.get('https://quotes.toscrape.com/')
    page2 = session.get('https://quotes.toscrape.com/', impersonate='firefox135')

# 非同期セッションの使用
async with AsyncStealthySession(max_pages=2) as session:
    tasks = []
    urls = ['https://example.com/page1', 'https://example.com/page2']
    
    for url in urls:
        task = session.fetch(url)
        tasks.append(task)
    
    print(session.get_pool_stats())  # オプション - ブラウザタブプールの状態（ビジー/フリー/エラー）
    results = await asyncio.gather(*tasks)
    print(session.get_pool_stats())

📚 ドキュメント

Scrapling v0.3には強力なコマンドラインインターフェイスが含まれています。

# インタラクティブなウェブスクレイピングシェルを起動
scrapling shell

# プログラミングなしで直接ページをファイルに抽出（デフォルトで`body`タグ内のコンテンツを抽出）
# 出力ファイルが`.txt`で終わる場合、ターゲットのテキストコンテンツが抽出されます。
# `.md`で終わる場合、HTMLコンテンツのMarkdown表現になり、`.html`の場合はそのままHTMLコンテンツになります。
scrapling extract get 'https://example.com' content.md
scrapling extract get 'https://example.com' content.txt --css-selector '#fromSkipToProducts' --impersonate 'chrome'  # CSSセレクター`#fromSkipToProducts`に一致するすべての要素
scrapling extract fetch 'https://example.com' content.md --css-selector '#fromSkipToProducts' --no-headless
scrapling extract stealthy-fetch 'https://nopecha.com/demo/cloudflare' captchas.html --css-selector '#padded_content a' --solve-cloudflare

⚠️ 重要提示

MCPサーバーやインタラクティブなウェブスクレイピングシェルなど、多くの追加機能がありますが、このページを短く保つために省略しています。詳細なドキュメントはこちらをご覧ください。

🔧 技術詳細

テキスト抽出速度テスト（5000個のネストされた要素）

#	ライブラリ	時間 (ms)	Scraplingとの比較
1	Scrapling	1.92	1.0x
2	Parsel/Scrapy	1.99	1.036x
3	Raw Lxml	2.33	1.214x
4	PyQuery	20.61	~11x
5	Selectolax	80.65	~42x
6	BS4 with Lxml	1283.21	~698x
7	MechanicalSoup	1304.57	~679x
8	BS4 with html5lib	3331.96	~1735x