Mcpserver
什麼是Web Scraper MCP Server?
這是一個基於Model Context Protocol (MCP)的網頁內容抓取服務器,可以幫助用戶從各種網站提取結構化內容。它特別適合需要批量獲取網頁信息的非技術人員使用。如何使用Web Scraper MCP Server?
您只需要提供目標網址和簡單的配置參數,服務器就會自動抓取並返回格式化後的內容。無需編寫代碼即可完成複雜的網頁抓取任務。適用場景
適用於內容採集、市場調研、競品分析、新聞聚合、數據存檔等多種業務場景。特別適合需要定期獲取特定網站更新的用戶。主要功能
多格式導出
支持將抓取內容導出為Markdown、純文本、HTML和JSON格式,滿足不同使用需求
無頭瀏覽器支持
可處理JavaScript渲染的動態頁面,解決單頁應用(SPA)內容抓取問題
智能規則引擎
內置多種預定義規則集,可智能識別和提取網頁主要內容區域
批量抓取
支持同時抓取多個URL,提高數據採集效率
自定義請求頭
可設置特定域名的請求頭,繞過網站登錄和反爬限制
優勢
簡單易用,無需編程知識即可完成複雜抓取任務
內置智能內容識別,自動過濾廣告和無關內容
支持處理現代Web應用(SPA)的動態內容
靈活的導出格式選擇,滿足不同場景需求
可擴展的規則系統,支持自定義內容提取規則
侷限性
對高度動態或需要複雜交互的頁面支持有限
大規模抓取時可能需要配置代理IP
部分網站可能有反爬機制導致抓取失敗
無頭瀏覽器模式會消耗較多系統資源
如何使用
安裝服務器
克隆項目並安裝所需依賴
啟動服務
運行啟動命令啟動MCP服務器
發送請求
通過HTTP請求調用服務器提供的各種工具
使用案例
抓取新聞文章
從新聞網站獲取文章正文並保存為Markdown格式
批量獲取產品信息
從電商網站抓取多個產品頁面的關鍵信息
抓取需要登錄的內容
設置認證信息抓取需要登錄才能訪問的頁面
常見問題
為什麼有些網站抓取不到內容?
如何處理動態加載的內容?
可以抓取需要登錄的網站嗎?
如何提高抓取速度?
抓取的內容不準確怎麼辦?
相關資源
MCP協議文檔
Model Context Protocol官方文檔
示例規則集配置
常用網站的內容提取規則示例
Puppeteer使用指南
無頭瀏覽器Puppeteer官方文檔
Web抓取最佳實踐
網頁抓取的倫理和法律指南

Baidu Map
已認證
百度地圖MCP Server是國內首個兼容MCP協議的地圖服務,提供地理編碼、路線規劃等10個標準化API接口,支持Python和Typescript快速接入,賦能智能體實現地圖相關功能。
Python
31.2K
4.5分

Markdownify MCP
Markdownify是一個多功能文件轉換服務,支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。
TypeScript
24.6K
5分

Firecrawl MCP Server
Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器,提供豐富的網頁抓取、搜索和內容提取功能。
TypeScript
85.5K
5分

Sequential Thinking MCP Server
一個基於MCP協議的結構化思維服務器,通過定義思考階段幫助分解複雜問題並生成總結
Python
25.1K
4.5分

Notion Api MCP
已認證
一個基於Python的MCP服務器,通過Notion API提供高級待辦事項管理和內容組織功能,實現AI模型與Notion的無縫集成。
Python
14.1K
4.5分

Context7
Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務,通過Model Context Protocol直接集成到提示中,解決LLM使用過時信息的問題。
TypeScript
58.0K
4.7分

Magic MCP
Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具,通過自然語言描述幫助開發者快速創建現代化UI組件,支持多種IDE集成。
JavaScript
16.2K
5分

Edgeone Pages MCP Server
EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務
TypeScript
18.9K
4.8分
