Document Crawler & Search
D

Document Crawler & Search

このプロジェクトは、ウェブサイトのコンテンツをクロールしてMarkdownドキュメントを生成するツールセットを提供し、MCPサーバーを通じてドキュメントの意味検索機能を実現し、Cursorなどのツールとの統合もサポートしています。
2.5ポイント
6.6K

MCPサーバーとは?

MCPサーバーは、ウェブサイトからコンテンツをクロールし、Markdown形式のドキュメントに変換するために特別に設計されたツールです。また、意味検索による関連コンテンツの迅速な検索もサポートしています。

MCPサーバーの使い方は?

まず、クローラーツールを使ってデータを収集し、次にMCPサーバーを起動してこれらのデータを処理およびインデックス化します。最後に、クライアントツール(Cursorなど)を使ってサーバーとやり取りすることができます。

適用シーン

大量のオンラインドキュメントを整理し、迅速に検索する必要がある企業や個人ユーザーに適しています。

主な機能

ウェブページのクロール
指定されたURLからウェブページのコンテンツを取得し、カスタムフィルタリングルールを設定できます。
Markdown生成
取得したHTMLページを読みやすいMarkdownファイルに変換します。
意味検索
ベクトル埋め込み技術に基づいた効率的な意味検索機能を実現します。
利点
知識ベースを迅速に構築できる
強力な意味検索エンジン
柔軟な設定オプション
制限
初回実行時に時間がかかる場合がある
ハードウェア性能に一定の要求がある

使い方

依存関係のインストール
Python環境がインストールされていることを確認し、uvツールを使ってプロジェクトの依存関係を同期します。
クローラーの起動
クローラースクリプトを実行して、対象ウェブサイトのコンテンツを取得します。
MCPサーバーの起動
MCPサーバーを設定して起動し、データをロードしてインデックス化します。

使用例

ケース1:公式ドキュメントの取得
あるプロジェクトの公式ドキュメントを取得し、Markdownファイルとして保存します。
ケース2:特定のトピックの検索
意味検索機能を使って、特定のトピックに関する情報を検索します。

よくある質問

初回実行時に時間がかかるのはなぜですか?
他のドキュメント形式もサポートしていますか?
クローラーが一部のページを取得できない問題はどう解決しますか?

関連リソース

プロジェクトホームページ
プロジェクトのソースコードリポジトリ
公式ドキュメント
MCPプロトコルに関する詳細な説明
チュートリアルビデオ
クイックスタートガイド

インストール

以下のコマンドをクライアントにコピーして設定
注意:あなたのキーは機密情報です。誰とも共有しないでください。

代替品

A
Airweave
Airweaveは、オープンソースの人工知能エージェントとRAGシステムのコンテキスト検索層です。さまざまなアプリケーション、ツール、データベースのデータを接続して同期し、統一された検索インターフェースを通じてAIエージェントに関連する、リアルタイムの、複数のデータソースからのコンテキスト情報を提供します。
Python
6.7K
5ポイント
V
Vestige
Vestigeは認知科学に基づくAI記憶エンジンで、予測誤差ゲート、FSRS - 6間隔反復、記憶の夢など29の神経科学モジュールを実装することで、AIに長期記憶能力を提供します。3D可視化ダッシュボードと21のMCPツールを備え、完全にローカルで動作し、クラウドは必要ありません。
Rust
6.4K
4.5ポイント
M
Moltbrain
MoltBrainは、OpenClaw、MoltBook、Claude Code用に設計された長期記憶層プラグインで、自動的にプロジェクトのコンテキストを学習し、思い出すことができます。スマートな検索、観察記録、分析統計、永続的なストレージ機能を提供します。
TypeScript
6.1K
4.5ポイント
B
Better Icons
20万以上のアイコンの検索と検索を提供するMCPサーバーとCLIツールで、150以上のアイコンライブラリをサポートし、AIアシスタントと開発者が迅速にアイコンを取得して使用できるように支援します。
TypeScript
6.6K
4.5ポイント
H
Haiku.rag
Haiku RAGは、LanceDB、Pydantic AI、Doclingを基盤とした高度な検索強化生成システムです。ハイブリッド検索、再ランキング、質問応答エージェント、多エージェント研究プロセスをサポートし、ローカルファーストのドキュメント処理とMCPサーバー統合を提供します。
Python
10.5K
5ポイント
C
Claude Context
Claude ContextはMCPプラグインで、セマンティックコード検索によりAIプログラミングアシスタントにコードベース全体の深いコンテキストを提供し、複数の埋め込みモデルとベクトルデータベースをサポートし、効率的なコード検索を実現します。
TypeScript
18.2K
5ポイント
A
Acemcp
Acemcpは、コードライブラリのインデックス化と意味検索を行うMCPサーバーです。自動増分インデックス、複数エンコーディングファイルの処理、.gitignore統合、およびWeb管理インターフェイスをサポートしており、開発者がコードのコンテキストをすばやく検索し、理解するのに役立ちます。
Python
18.3K
5ポイント
M
MCP
Microsoft公式のMCPサーバーで、AIアシスタントに最新のMicrosoft技術ドキュメントの検索と取得機能を提供します。
15.0K
5ポイント
E
Edgeone Pages MCP Server
EdgeOne Pages MCPは、MCPプロトコルを通じてHTMLコンテンツをEdgeOne Pagesに迅速にデプロイし、公開URLを取得するサービスです。
TypeScript
24.0K
4.8ポイント
G
Gmail MCP Server
Claude Desktop用に設計されたGmail自動認証MCPサーバーで、自然言語でのやり取りによるGmailの管理をサポートし、メール送信、ラベル管理、一括操作などの完全な機能を備えています。
TypeScript
17.6K
4.5ポイント
C
Context7
Context7 MCPは、AIプログラミングアシスタントにリアルタイムのバージョン固有のドキュメントとコード例を提供するサービスで、Model Context Protocolを通じてプロンプトに直接統合され、LLMが古い情報を使用する問題を解決します。
TypeScript
79.7K
4.7ポイント
B
Baidu Map
認証済み
百度マップMCPサーバーは国内初のMCPプロトコルに対応した地図サービスで、地理コーディング、ルート計画など10個の標準化されたAPIインターフェースを提供し、PythonとTypescriptでの迅速な接続をサポートし、エージェントに地図関連の機能を実現させます。
Python
36.2K
4.5ポイント
G
Gitlab MCP Server
認証済み
GitLab MCPサーバーは、Model Context Protocolに基づくプロジェクトで、GitLabアカウントとのやり取りに必要な包括的なツールセットを提供します。コードレビュー、マージリクエスト管理、CI/CD設定などの機能が含まれます。
TypeScript
21.4K
4.3ポイント
U
Unity
認証済み
UnityMCPはUnityエディターのプラグインで、モデルコンテキストプロトコル (MCP) を実装し、UnityとAIアシスタントのシームレスな統合を提供します。リアルタイムの状態監視、リモートコマンドの実行、ログ機能が含まれます。
C#
26.5K
5ポイント
M
Magic MCP
Magic Component Platform (MCP) はAI駆動のUIコンポーネント生成ツールで、自然言語での記述を通じて、開発者が迅速に現代的なUIコンポーネントを作成するのを支援し、複数のIDEとの統合をサポートします。
JavaScript
19.7K
5ポイント
S
Sequential Thinking MCP Server
MCPプロトコルに基づく構造化思考サーバーで、思考段階を定義することで複雑な問題を分解し要約を生成するのに役立ちます。
Python
31.0K
4.5ポイント
AIBase
智啓未来、あなたの人工知能ソリューションシンクタンク
© 2026AIBase