Lionscraper MCP + CLI + HTTP API Bridge
什么是 LionScraper?
LionScraper 是一个浏览器扩展配套的 MCP (Model Context Protocol) 服务器。它的核心作用是作为“桥梁”,将你的AI应用(如 Cursor)与浏览器扩展连接起来。你只需在AI应用中用自然语言下达指令,MCP服务器就会将这些指令传递给浏览器扩展,从而实现对网页数据的自动化采集,如收集列表、文章、链接、图片、邮箱和电话号码等。它就像是AI助手的“眼睛和手”,帮助AI从网页中获取你需要的具体信息。如何使用 LionScraper?
使用LionScraper主要分为三步: 1. 基础准备:在你的电脑上安装 Chrome 或 Edge 浏览器,并从官方商店安装 LionScraper 扩展。 2. 部署服务器:在电脑上安装Node.js或Python运行环境,然后通过 npm 或 pip 安装 LionScraper 包,并启动它的“守护进程 (daemon)”。 3. 配置连接:将AI应用(如Cursor)的MCP配置指向已安装的LionScraper,并在浏览器扩展的设置中确保“桥接端口”与服务器配置一致。完成这些后,你就可以在AI应用中通过自然对话来抓取网页内容了。适用场景
LionScraper 非常适合需要从网页批量提取结构化数据的场景。例如: - 市场调研时,从竞争对手网站收集产品列表和价格。 - 内容创作时,从多个资讯网站筛选并整理文章标题和链接。 - 数据研究时,从公开数据的网页中导出表格信息。 - 日常办公时,快速抓取网页上的联系人信息(如邮箱、电话)。 它通过自然语言交互,极大地降低了传统爬虫的门槛,让不熟悉编程的用户也能轻松完成网页数据采集任务。主要功能
三合一接口支持
提供MCP(用于AI应用)、CLI(命令行工具)和HTTP API三种访问方式,满足不同用户和技术栈的需求。无论你是使用AI编程助手,还是习惯在终端操作,或是想集成到自己的脚本中,都能找到合适的方式。
自然语言驱动采集
跨运行环境支持
同时支持 Node.js 和 Python 两种运行环境,用户可以根据自己的喜好或项目需求选择安装 npm 包或 PyPI 包,两者提供相同的功能和命令行接口。
多种内容采集类型
能够从网页中智能采集多种类型的数据,包括列表、文章正文、超链接、图片URL、电子邮件地址和电话号码等,基本覆盖了日常网页数据提取的绝大部分需求。
HTTP 回退模式
当无法连接Chrome或Edge浏览器及扩展时,MCP服务器仍能启动,并使用“http_fetch”模式进行基本的服务器端HTTP GET请求,确保基本功能可用,同时向用户提示更强大的浏览器扩展模式。
后台守护进程模式
CLI工具提供 `daemon` 命令,可以以后台服务(守护进程)的形式运行,持续监听端口,方便与浏览器扩展或其他HTTP客户端长期协同工作。
优势
使用自然语言交互,操作门槛低,即使不懂复杂的技术命令也能轻松进行网页数据采集。
接口类型丰富,同时具备MCP、CLI和HTTP API,能适应AI应用、终端和编程脚本等多种使用场景。
跨平台兼容性好,同时提供Node.js和Python两种安装包,可以无缝融入用户现有的技术环境。
具备HTTP回退模式,即使在浏览器不可用或扩展未连接的情况下,核心功能依然可用,保证了系统的健壮性。
抓取功能由浏览器扩展实现,能够执行JavaScript,可以处理现代动态网页,比纯服务端抓取能力更强。
局限性
完全依赖浏览器扩展实现高级抓取功能,如果浏览器未安装或未启用扩展,则无法处理复杂的单页面应用或交互式网页。
安装和初始配置相对繁琐,用户需要分别安装浏览器、浏览器扩展、Node.js或Python环境以及MCP服务器包,并确保端口配置一致。
性能受限于浏览器扩展和本地网络,抓取速度可能不如专业的、分布式的云端爬虫高,不适合大规模、高并发的数据采集任务。
如何使用
安装浏览器和扩展
确保你已安装 Chrome 或 Edge 浏览器。然后,在浏览器的扩展商店中安装 LionScraper 扩展。
安装运行环境和MCP包
安装Node.js 18+ 或 Python 3.10+,然后通过 npm 或 pip 安装 LionScraper 包。安装后,你的系统将获得 `lionscraper` 和 `lionscraper-mcp` 两个命令。
启动守护进程
在终端中运行 `lionscraper daemon` 命令启动后台服务。这个服务会监听一个端口(默认为13808),用于与浏览器扩展和AI应用通信。
配置浏览器扩展端口
打开 LionScraper 扩展的设置或选项页面,找到“桥接端口”(Bridge Port)设置,将其值修改为与MCP服务器一致的端口(例如 13808)。如果必要,点击“重新连接”或重启浏览器。
在AI应用中配置MCP
在你使用的AI应用(如 Cursor)的MCP配置文件中,添加一个名为 `lionscraper` 的新服务器,并将 `command` 设置为 `lionscraper-mcp`。
开始使用
完成以上配置后,在你的AI应用对话界面中,你就可以直接使用自然语言来指挥AI进行网页数据采集了。比如:“连接到LionScraper,然后抓取我当前浏览器页面上所有的照片网址。”
使用案例
收集竞争对手的产品信息
市场研究人员想快速了解某个竞争对手网站上的所有产品及其价格,以便进行市场分析。通过在AI应用中下达指令,可以一键抓取产品列表。
整理行业新闻摘要
内容编辑需要从几个不同的科技新闻网站上收集今天的头条新闻标题和链接,用于制作每日简报。
从联系方式页面提取信息
一位销售人员希望从一家潜在客户的“联系我们”页面找到公司电话和邮箱,以便联系。
备份博客文章内容
想将自己博客上的一篇长篇文章完整地保存到本地,包括其正文内容。
常见问题
为什么我能在AI应用中看到MCP工具,但抓取仍然失败?
我需要安装 Node.js 还是 Python?
如何更改 LionScraper 的端口?
不使用浏览器扩展,LionScraper 还能工作吗?
我可以在多台电脑上运行 LionScraper 吗?
相关资源
官方网站
LionScraper 项目的官方网站,可以获取最新信息和动态。
npm 包
Node.js 版本的 LionScraper 包,可通过 npm 安装。
PyPI 项目
Python 版本的 LionScraper 项目,可通过 pip 安装。
GitHub 仓库
GitHub上的源代码仓库,包含详细的 Node.js 和 Python 包说明文档。
Chrome 扩展商店
在 Chrome 浏览器中安装 LionScraper 扩展。
Microsoft Edge 扩展商店
在 Edge 浏览器中安装 LionScraper 扩展。

Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
94.3K
4.3分

Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
172.1K
5分

Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
80.9K
4.5分

Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
52.8K
4.5分

Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
116.1K
4.7分

Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
68.4K
5分

Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
34.9K
4.8分

Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
72.5K
4.8分



