Mcpserver
M

Mcpserver

基於MCP協議的TypeScript網頁爬取服務器,支持多種導出格式、無頭瀏覽器和自定義規則集,適用於各類網頁內容抓取需求。
2分
4.7K

什麼是Web Scraper MCP Server?

這是一個基於Model Context Protocol (MCP)的網頁內容抓取服務器,可以幫助用戶從各種網站提取結構化內容。它特別適合需要批量獲取網頁信息的非技術人員使用。

如何使用Web Scraper MCP Server?

您只需要提供目標網址和簡單的配置參數,服務器就會自動抓取並返回格式化後的內容。無需編寫代碼即可完成複雜的網頁抓取任務。

適用場景

適用於內容採集、市場調研、競品分析、新聞聚合、數據存檔等多種業務場景。特別適合需要定期獲取特定網站更新的用戶。

主要功能

多格式導出
支持將抓取內容導出為Markdown、純文本、HTML和JSON格式,滿足不同使用需求
無頭瀏覽器支持
可處理JavaScript渲染的動態頁面,解決單頁應用(SPA)內容抓取問題
智能規則引擎
內置多種預定義規則集,可智能識別和提取網頁主要內容區域
批量抓取
支持同時抓取多個URL,提高數據採集效率
自定義請求頭
可設置特定域名的請求頭,繞過網站登錄和反爬限制
優勢
簡單易用,無需編程知識即可完成複雜抓取任務
內置智能內容識別,自動過濾廣告和無關內容
支持處理現代Web應用(SPA)的動態內容
靈活的導出格式選擇,滿足不同場景需求
可擴展的規則系統,支持自定義內容提取規則
侷限性
對高度動態或需要複雜交互的頁面支持有限
大規模抓取時可能需要配置代理IP
部分網站可能有反爬機制導致抓取失敗
無頭瀏覽器模式會消耗較多系統資源

如何使用

安裝服務器
克隆項目並安裝所需依賴
啟動服務
運行啟動命令啟動MCP服務器
發送請求
通過HTTP請求調用服務器提供的各種工具

使用案例

抓取新聞文章
從新聞網站獲取文章正文並保存為Markdown格式
批量獲取產品信息
從電商網站抓取多個產品頁面的關鍵信息
抓取需要登錄的內容
設置認證信息抓取需要登錄才能訪問的頁面

常見問題

為什麼有些網站抓取不到內容?
如何處理動態加載的內容?
可以抓取需要登錄的網站嗎?
如何提高抓取速度?
抓取的內容不準確怎麼辦?

相關資源

MCP協議文檔
Model Context Protocol官方文檔
示例規則集配置
常用網站的內容提取規則示例
Puppeteer使用指南
無頭瀏覽器Puppeteer官方文檔
Web抓取最佳實踐
網頁抓取的倫理和法律指南

安裝

複製以下命令到你的Client進行配置
注意:您的密鑰屬於敏感信息,請勿與任何人分享。

替代品

A
Acemcp
Acemcp是一個代碼庫索引和語義搜索的MCP服務器,支持自動增量索引、多編碼文件處理、.gitignore集成和Web管理界面,幫助開發者快速搜索和理解代碼上下文。
Python
8.6K
5分
B
Blueprint MCP
Blueprint MCP是一個基於Arcade生態的圖表生成工具,利用Nano Banana Pro等技術,通過分析代碼庫和系統架構自動生成架構圖、流程圖等可視化圖表,幫助開發者理解複雜系統。
Python
8.2K
4分
M
MCP Agent Mail
MCP Agent Mail是一個為AI編程代理設計的郵件式協調層,提供身份管理、消息收發、文件預留和搜索功能,支持多代理異步協作和衝突避免。
Python
8.4K
5分
K
Klavis
Klavis AI是一個開源項目,提供在Slack、Discord和Web平臺上簡單易用的MCP(模型上下文協議)服務,包括報告生成、YouTube工具、文檔轉換等多種功能,支持非技術用戶和開發者使用AI工作流。
TypeScript
13.9K
5分
M
MCP
微軟官方MCP服務器,為AI助手提供最新微軟技術文檔的搜索和獲取功能
12.9K
5分
A
Aderyn
Aderyn是一個開源的Solidity智能合約靜態分析工具,由Rust編寫,幫助開發者和安全研究人員發現Solidity代碼中的漏洞。它支持Foundry和Hardhat項目,可生成多種格式報告,並提供VSCode擴展。
Rust
10.7K
5分
D
Devtools Debugger MCP
Node.js調試器MCP服務器,提供基於Chrome DevTools協議的完整調試功能,包括斷點設置、單步執行、變量檢查和表達式評估等
TypeScript
10.0K
4分
S
Scrapling
Scrapling是一個自適應網頁抓取庫,能自動學習網站變化並重新定位元素,支持多種抓取方式和AI集成,提供高性能解析和開發者友好體驗。
Python
11.8K
5分
B
Baidu Map
已認證
百度地圖MCP Server是國內首個兼容MCP協議的地圖服務,提供地理編碼、路線規劃等10個標準化API接口,支持Python和Typescript快速接入,賦能智能體實現地圖相關功能。
Python
31.2K
4.5分
M
Markdownify MCP
Markdownify是一個多功能文件轉換服務,支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。
TypeScript
24.6K
5分
F
Firecrawl MCP Server
Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器,提供豐富的網頁抓取、搜索和內容提取功能。
TypeScript
85.5K
5分
S
Sequential Thinking MCP Server
一個基於MCP協議的結構化思維服務器,通過定義思考階段幫助分解複雜問題並生成總結
Python
25.1K
4.5分
N
Notion Api MCP
已認證
一個基於Python的MCP服務器,通過Notion API提供高級待辦事項管理和內容組織功能,實現AI模型與Notion的無縫集成。
Python
14.1K
4.5分
C
Context7
Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務,通過Model Context Protocol直接集成到提示中,解決LLM使用過時信息的問題。
TypeScript
58.0K
4.7分
M
Magic MCP
Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具,通過自然語言描述幫助開發者快速創建現代化UI組件,支持多種IDE集成。
JavaScript
16.2K
5分
E
Edgeone Pages MCP Server
EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務
TypeScript
18.9K
4.8分
AIBase
智啟未來,您的人工智慧解決方案智庫
© 2025AIBase