Lionscraper MCP + CLI + HTTP API Bridge

LionScraper是一个浏览器扩展，通过MCP、CLI和HTTP API桥接工具，实现网页数据采集。

浏览器自动化研究与数据 #网页采集 #MCP服务 #浏览器扩展 .TypeScript

评分 : 2分

下载量 : 9.0K

更新时间 : 2026-04-29

打开站点

什么是 LionScraper?

LionScraper 是一个浏览器扩展配套的 MCP (Model Context Protocol) 服务器。它的核心作用是作为“桥梁”，将你的AI应用（如 Cursor）与浏览器扩展连接起来。你只需在AI应用中用自然语言下达指令，MCP服务器就会将这些指令传递给浏览器扩展，从而实现对网页数据的自动化采集，如收集列表、文章、链接、图片、邮箱和电话号码等。它就像是AI助手的“眼睛和手”，帮助AI从网页中获取你需要的具体信息。

如何使用 LionScraper?

使用LionScraper主要分为三步： 1. 基础准备：在你的电脑上安装 Chrome 或 Edge 浏览器，并从官方商店安装 LionScraper 扩展。 2. 部署服务器：在电脑上安装Node.js或Python运行环境，然后通过 npm 或 pip 安装 LionScraper 包，并启动它的“守护进程 (daemon)”。 3. 配置连接：将AI应用（如Cursor）的MCP配置指向已安装的LionScraper，并在浏览器扩展的设置中确保“桥接端口”与服务器配置一致。完成这些后，你就可以在AI应用中通过自然对话来抓取网页内容了。

适用场景

LionScraper 非常适合需要从网页批量提取结构化数据的场景。例如： - 市场调研时，从竞争对手网站收集产品列表和价格。 - 内容创作时，从多个资讯网站筛选并整理文章标题和链接。 - 数据研究时，从公开数据的网页中导出表格信息。 - 日常办公时，快速抓取网页上的联系人信息（如邮箱、电话）。它通过自然语言交互，极大地降低了传统爬虫的门槛，让不熟悉编程的用户也能轻松完成网页数据采集任务。

主要功能

三合一接口支持

提供MCP（用于AI应用）、CLI（命令行工具）和HTTP API三种访问方式，满足不同用户和技术栈的需求。无论你是使用AI编程助手，还是习惯在终端操作，或是想集成到自己的脚本中，都能找到合适的方式。

自然语言驱动采集

跨运行环境支持

同时支持 Node.js 和 Python 两种运行环境，用户可以根据自己的喜好或项目需求选择安装 npm 包或 PyPI 包，两者提供相同的功能和命令行接口。

多种内容采集类型

能够从网页中智能采集多种类型的数据，包括列表、文章正文、超链接、图片URL、电子邮件地址和电话号码等，基本覆盖了日常网页数据提取的绝大部分需求。

HTTP 回退模式

当无法连接Chrome或Edge浏览器及扩展时，MCP服务器仍能启动，并使用“http_fetch”模式进行基本的服务器端HTTP GET请求，确保基本功能可用，同时向用户提示更强大的浏览器扩展模式。

后台守护进程模式

CLI工具提供 `daemon` 命令，可以以后台服务（守护进程）的形式运行，持续监听端口，方便与浏览器扩展或其他HTTP客户端长期协同工作。

优势

使用自然语言交互，操作门槛低，即使不懂复杂的技术命令也能轻松进行网页数据采集。

接口类型丰富，同时具备MCP、CLI和HTTP API，能适应AI应用、终端和编程脚本等多种使用场景。

跨平台兼容性好，同时提供Node.js和Python两种安装包，可以无缝融入用户现有的技术环境。

具备HTTP回退模式，即使在浏览器不可用或扩展未连接的情况下，核心功能依然可用，保证了系统的健壮性。

抓取功能由浏览器扩展实现，能够执行JavaScript，可以处理现代动态网页，比纯服务端抓取能力更强。

局限性

完全依赖浏览器扩展实现高级抓取功能，如果浏览器未安装或未启用扩展，则无法处理复杂的单页面应用或交互式网页。

安装和初始配置相对繁琐，用户需要分别安装浏览器、浏览器扩展、Node.js或Python环境以及MCP服务器包，并确保端口配置一致。

性能受限于浏览器扩展和本地网络，抓取速度可能不如专业的、分布式的云端爬虫高，不适合大规模、高并发的数据采集任务。

如何使用

安装浏览器和扩展

确保你已安装 Chrome 或 Edge 浏览器。然后，在浏览器的扩展商店中安装 LionScraper 扩展。

安装运行环境和MCP包

安装Node.js 18+ 或 Python 3.10+，然后通过 npm 或 pip 安装 LionScraper 包。安装后，你的系统将获得 `lionscraper` 和 `lionscraper-mcp` 两个命令。

启动守护进程

在终端中运行 `lionscraper daemon` 命令启动后台服务。这个服务会监听一个端口（默认为13808），用于与浏览器扩展和AI应用通信。

配置浏览器扩展端口

打开 LionScraper 扩展的设置或选项页面，找到“桥接端口”（Bridge Port）设置，将其值修改为与MCP服务器一致的端口（例如 13808）。如果必要，点击“重新连接”或重启浏览器。

在AI应用中配置MCP

在你使用的AI应用（如 Cursor）的MCP配置文件中，添加一个名为 `lionscraper` 的新服务器，并将 `command` 设置为 `lionscraper-mcp`。

开始使用

完成以上配置后，在你的AI应用对话界面中，你就可以直接使用自然语言来指挥AI进行网页数据采集了。比如：“连接到LionScraper，然后抓取我当前浏览器页面上所有的照片网址。”

使用案例

收集竞争对手的产品信息

市场研究人员想快速了解某个竞争对手网站上的所有产品及其价格，以便进行市场分析。通过在AI应用中下达指令，可以一键抓取产品列表。

整理行业新闻摘要

内容编辑需要从几个不同的科技新闻网站上收集今天的头条新闻标题和链接，用于制作每日简报。

从联系方式页面提取信息

一位销售人员希望从一家潜在客户的“联系我们”页面找到公司电话和邮箱，以便联系。

备份博客文章内容

想将自己博客上的一篇长篇文章完整地保存到本地，包括其正文内容。

常见问题

为什么我能在AI应用中看到MCP工具，但抓取仍然失败？

我需要安装 Node.js 还是 Python？

如何更改 LionScraper 的端口？

不使用浏览器扩展，LionScraper 还能工作吗？

我可以在多台电脑上运行 LionScraper 吗？

🚀 LionScraper MCP + CLI + HTTP API 桥接工具

LionScraper 是一款浏览器扩展程序，可从网页中收集列表、文章、链接、图像等内容。本仓库提供了三种方式，用于在您的工具和该扩展程序之间建立连接：

MCP (lionscraper-mcp)：连接 AI 应用程序（例如 Cursor），使模型能够通过标准输入输出调用网页抓取工具。
CLI (lionscraper)：在与扩展程序相同的本地 HTTP/WebSocket 端口上，通过终端运行 守护进程、抓取、ping 测试 等操作。
HTTP API：当守护进程运行时，脚本或任何 HTTP 客户端可以通过 回环 JSON HTTP（例如 /v1/...）调用相同的功能，无需使用 MCP 或 CLI 前端。

实际的抓取逻辑在扩展程序中运行；这些包仅用于连接和转发。

🚀 快速开始

开始前的准备

浏览器：Chrome 或 Edge（需与扩展程序支持的浏览器一致）。
LionScraper 扩展程序：从应用商店安装并启用。
- Chrome：Chrome 网上应用店 — LionScraper
- Microsoft Edge：Edge 扩展 — LionScraper
运行环境（可选择其中一种或两种实现方式）：
- Node.js 18+，用于 npm 包 — Node.js
- Python 3.10+，用于 PyPI 包 — Python
对于 MCP：支持 MCP 的 AI 应用程序（例如 Cursor、Trae）。
对于 HTTP API：与 CLI 使用相同的浏览器、扩展程序和守护进程；具体路径和示例请参阅包的 README 文件。

无 Chrome/Edge 时的 HTTP 备用方案：如果在标准路径下未检测到浏览器，且扩展程序未连接，MCP 仍可启动；ping 测试在 http_fetch 模式下成功，scrape* 操作使用最小的服务器端 HTTP GET 请求（不执行 JS）。如果安装了浏览器但扩展程序未连接，仍可进行扩展程序连接流程。Node 自动启动路径可修复 Unix 系统中 lionscraper.js 解析时无前导 / 的问题（例如 Glama/Docker）。Python 包使用 aiohttp 与守护进程进行出站 HTTP/WebSocket 通信。

两种实现方式

	Node.js (npm)	Python (pip)
仓库	`io.github.dowant/lionscraper-node`	`io.github.dowant/lionscraper-python`
文档 (英文)	packages/node/README.md	packages/python/README.md
文档 (中文)	packages/node/README_cn.md	packages/python/README_cn.md

您可以选择安装其中一个或两个包；它们是独立的包，但具有相同的 CLI 命令名称。

安装方法

npm 安装

该包已在 npm 上发布，包名为 lionscraper。

npm install -g lionscraper

如果不进行全局安装，MCP 可以使用 npx；具体的 npx JSON 示例请参阅在您的 AI 应用中添加 MCP。

pip 安装

该包已在 PyPI 上发布，包名为 lionscraper。

pip install -U lionscraper

建议使用 虚拟环境，如果您不想安装到系统解释器中，也可以使用 pip install -U --user lionscraper。

通用命令

命令	作用
`lionscraper-mcp`	为 AI 应用程序提供轻量级 MCP 服务器（标准输入输出）
`lionscraper`	CLI 命令：`daemon`、`stop`、`scrape`、`ping` 等（同时在同一端口提供 HTTP API）

在执行 pip install -U lionscraper 后，如果 lionscraper-mcp 不在您的 PATH 中，可以使用 python -m lionscraper 并 不添加额外参数 来启动 MCP 标准输入输出（具体请参阅 packages/python/README.md）。

PORT（默认值为 13808）必须与扩展程序的 桥接端口 一致。

CLI 快速入门

lionscraper daemon
lionscraper ping
lionscraper scrape -u https://www.example.com

完整的标志、多 URL 支持、分页以及 HTTP API 的详细信息，请参阅 packages/node/README.md 或 packages/python/README.md。

在您的 AI 应用中添加 MCP

以下示例假设 lionscraper-mcp 已在您的 PATH 中（通过 npm 或 pip 安装）。在 MCP JSON 中，每个 env 值都是字符串。

最小配置（`PORT` 默认值为 13808；必须与扩展程序的桥接端口一致）

{
  "mcpServers": {
    "lionscraper": {
      "command": "lionscraper-mcp"
    }
  }
}

完整 `env` 示例（可省略不需要的键）

{
  "mcpServers": {
    "lionscraper": {
      "command": "lionscraper-mcp",
      "env": {
        "PORT": "13808",
        "TIMEOUT": "120000",
        "LANG": "en-US",
        "TOKEN": "",
        "DAEMON": ""
      }
    }
  }
}

npx（无需全局安装）

此方法需要 Node.js；首次运行时可能会下载该包。npm 包名为 lionscraper，可执行文件为 lionscraper-mcp。使用 command npx，并在 args 中传递 lionscraper 和 lionscraper-mcp（在 -y 之后）。

最小配置（npx）

{
  "mcpServers": {
    "lionscraper": {
      "command": "npx",
      "args": ["-y", "lionscraper", "lionscraper-mcp"]
    }
  }
}

完整 `env` 示例（npx）

{
  "mcpServers": {
    "lionscraper": {
      "command": "npx",
      "args": ["-y", "lionscraper", "lionscraper-mcp"],
      "env": {
        "PORT": "13808",
        "TIMEOUT": "120000",
        "LANG": "en-US",
        "TOKEN": "",
        "DAEMON": ""
      }
    }
  }
}

如果需要指定版本，可以在 args 中使用 "lionscraper@1.0.1" 代替 "lionscraper"。

PORT：HTTP + WebSocket 监听端口；默认值为 13808；必须与扩展程序的 桥接端口 一致。
TIMEOUT：等待前一个实例释放端口的毫秒数；默认值为 120000；0 表示强制快速接管。
LANG：工具描述和标准错误输出的语言（en-US、zh-CN 或 POSIX 格式）。
TOKEN：与守护进程共享的 Bearer 令牌；空值表示无需身份验证。
DAEMON：仅当值为 0 时，禁用从轻量级 MCP 自动启动 lionscraper daemon。

修改配置后，请重启 MCP 或宿主应用程序。

Python：通过 `python -m` 使用 MCP

{
  "mcpServers": {
    "lionscraper": {
      "command": "python",
      "args": ["-m", "lionscraper"]
    }
  }
}

请使用安装该包时使用的 python（在某些系统中可能为 python3）。

匹配浏览器扩展程序中的端口

打开 LionScraper 设置 / 选项。
将 桥接端口 设置为与 PORT 相同的值（例如 13808）。
如果需要，可以使用 重新连接、重新加载扩展程序或重启浏览器。

💻 日常使用

确保扩展程序 已启用，并根据需要打开目标页面。
使用自然语言进行操作（例如检查连接、抓取列表 / 文章 / 电子邮件 / 电话号码 / 链接 / 图像）。
如果出现 “未连接” 或超时提示，请重试连接检查，并确保 PORT 匹配。

📚 常见问题解答

扩展程序未连接或抓取失败怎么办？

扩展程序是否已启用？
AI 应用程序中的 PORT 是否与扩展程序的 桥接端口 完全一致？
通常每台机器一个桥接器就足够了；重复的 MCP 配置可能会导致冲突。

在客户端看到 MCP 工具是否意味着一切正常？

不一定。工具仅证明 AI → 桥接器 的连接正常；扩展程序还必须在同一端口上注册。

📄 MCP 注册表和目录

官方 MCP 注册表条目（均使用 server.json）：

路径	注册表名称	包
packages/node/server.json	`io.github.dowant/lionscraper-node`	npm: lionscraper（`package.json` 中的 `mcpName`）
packages/python/server.json	`io.github.dowant/lionscraper-python`	PyPI: lionscraper（英文 `README.md` 中的 `mcp-name` 注释）

发布大纲（安装官方 CLI，请参阅快速入门）：

在每个 server.json 指定的版本下发布 npm / PyPI 包。
在 packages/node 目录中：执行 mcp-publisher login github，然后执行 mcp-publisher publish。
在 packages/python 目录中：执行 mcp-publisher publish（复用登录信息）。

第三方列表（例如 Glama）有其自己的规则；Smithery 默认针对公共 HTTPS/流式设置，而非本地标准输入输出 + npm/pip。

🌐 第三方目录（Glama）

本项目已在 Glama 上列出（例如 Glama 上的 LionScraper）。如果页面显示 无法安装 或 未找到许可证，常见的解决方法包括：添加根目录下的 LICENSE 文件（本仓库包含 LICENSE），添加包含维护者 GitHub 用户名 的 glama.json 文件（glama.json — 如果认领失败，请编辑 maintainers），在 Glama 上认领服务器，并根据需要完成 Glama 的 Docker / 发布 流程；官方安装方式仍然是 npm install -g lionscraper 和 pip install -U lionscraper。另请参阅评分 / 检查清单页面。