🚀 OpenDia
OpenDia 是 Dia / Perplexity Comet 的开源替代方案,它可以将你的浏览器与 AI 模型连接起来。无需切换浏览器,它能与 Chrome、Firefox 以及任何基于 Chromium 的浏览器无缝协作。注重隐私,以本地优先,聚焦多命令处理器(MCP)。
如果你并非技术人员,或者从未使用过多命令处理器(MCP),我们建议你使用 Perplexity Comet。

🚀 快速开始
1. 安装浏览器扩展
对于 Chrome/Chromium 浏览器:
- 从 releases 下载
opendia-chrome-1.0.6.zip
文件。
- 将压缩文件解压到一个文件夹中。
- 访问
chrome://extensions/
(或你浏览器的扩展页面)。
- 启用“开发者模式”。
- 点击“加载已解压的扩展程序”,并选择解压后的文件夹。
对于 Firefox 浏览器:
- 从 releases 下载
opendia-firefox-1.0.6.zip
文件。
- 将压缩文件解压到一个文件夹中。
- 访问
about:debugging#/runtime/this-firefox
。
- 点击“加载临时附加组件...”。
- 选择解压文件夹中的
manifest.json
文件。
⚠️ 重要提示
Firefox 扩展是以临时附加组件的形式加载的,当 Firefox 重启时,扩展将会被移除。这是 Firefox 对未签名扩展的限制。
2. 连接到你的 AI
选项 1:双击安装(推荐)
- 从 releases 下载
opendia.dxt
文件。
- 双击
.dxt
文件进行自动安装。
- MCP 将被添加到你的 Claude Desktop 配置中。
选项 2:手动配置
在你的 Claude Desktop 配置中添加以下内容:
{
"mcpServers": {
"opendia": {
"command": "npx",
"args": ["opendia"]
}
}
}
对于 Cursor 或其他 AI 工具,请使用相同的配置,或遵循它们的特定设置说明。
✨ 主要特性
- 通用 AI 支持:可与 Claude、ChatGPT、Cursor 甚至本地模型协同工作。
- 反检测功能:针对 Twitter/X、LinkedIn、Facebook 等平台,有专门的绕过检测机制。
- 智能自动化:AI 能够理解网页内容,并找到合适的元素进行交互。
- 隐私优先:所有操作都在本地运行,你的数据始终掌握在自己手中。
- 零设置:只需一个命令即可开始使用。
📦 安装指南
本地模式(默认)
npx opendia
- Chrome 扩展:ws://localhost:5555(启用自动发现)
- Claude Desktop:stdio(现有配置)
- 本地 SSE:http://localhost:5556/sse
端口配置
npx opendia --port=6000
npx opendia --ws-port=5555 --http-port=5556
自动隧道模式
npx opendia --tunnel
- 自动创建 ngrok 隧道。
- 复制 URL 用于 ChatGPT/在线 AI 服务。
- 保留本地功能。
⚠️ 重要提示
要使用自动隧道功能,你需要安装 ngrok:
macOS:
brew install ngrok
Windows:
choco install ngrok
Linux:
curl -s https://ngrok-agent.s3.amazonaws.com/ngrok.asc | sudo tee /etc/apt/trusted.gpg.d/ngrok.asc >/dev/null
echo "deb https://ngrok-agent.s3.amazonaws.com buster main" | sudo tee /etc/apt/sources.list.d/ngrok.list
sudo apt update && sudo apt install ngrok
然后从 https://dashboard.ngrok.com/get-started/your-authtoken 获取你的免费认证令牌,并运行以下命令:
ngrok config add-authtoken YOUR_TOKEN_HERE
💻 使用示例
基础用法
npx opendia
高级用法
npx opendia --port=6000
npx opendia --tunnel
📚 详细文档
📺 查看实际运行效果

🚀 什么是 OpenDia?
OpenDia 可以让 AI 模型自动控制你的浏览器。其关键优势在于,它可以利用你现有的一切 —— 你已登录的账户、保存的密码、cookie、钱包以及浏览历史。无需从头开始或切换上下文。
🔑 使用你现有的数字生活:
- ✅ 已登录的账户:使用你现有的会话在 Twitter/X、LinkedIn、Facebook 上发布内容。
- ✅ 浏览器数据:访问你的书签、历史记录和保存的密码。
- ✅ 扩展程序和钱包:使用 MetaMask、密码管理器或任何已安装的扩展程序。
- ✅ Cookie 和会话:在你喜欢的所有网站上保持认证状态。
- ✅ 本地测试:非常适合使用 Cursor 进行开发 —— 使用真实用户会话进行测试。
🌐 浏览器支持
OpenDia 可与 Chrome、Firefox 以及任何基于 Chromium 的浏览器 兼容:
- ✅ Google Chrome
- ✅ Arc
- ✅ Mozilla Firefox
- ✅ Microsoft Edge
- ✅ Brave
- ✅ Opera
- ✅ 任何基于 Chromium 的浏览器
对于想要自动化本地测试和开发工作流程的 Cursor 用户 来说,它也是一个绝佳选择!
🎬 你可以做什么
你今天就可以尝试的实际工作流程:
📰 内容与社交媒体
- “总结我今天阅读的所有文章,并发布一条 Twitter 线程,分享关键见解”
- “从我的书签中找到与 AI 相关的有趣文章,并创建一个阅读列表”
- “阅读这篇文章,并在 LinkedIn 版本上发表一条有深度的评论”
- “查看我最近的 Twitter 书签,并总结主要主题”
📧 生产力与研究
- “浏览我最新的电子邮件,告诉我哪些需要紧急关注”
- “找出我本周访问过的所有 GitHub 仓库,并创建一份总结报告”
- “提取这篇研究论文的要点,并保存到我的笔记中”
- “在我的浏览历史中搜索我上个月阅读的那篇关于 AI 安全的文章”
🤖 开发与测试(非常适合 Cursor!)
- “测试我的 Web 应用的注册流程,并在每个步骤截取屏幕截图”
- “用测试数据填写此表单,并检查验证是否有效”
- “浏览我的应用,检查所有按钮是否正常工作”
- “使用我连接的钱包测试此 DeFi 界面”
🔄 高级自动化
- “为我所有的每日新闻来源打开标签页,并总结头条新闻”
- “根据上下文为我的未读消息起草回复”
- “监控此网页,当内容更改时通知我”
- “自动为我正在阅读的有趣文章添加书签”
🎨 视觉定制与乐趣
- “为这个文档网站应用赛博朋克主题,使其更具吸引力”
- “将此页面设置为夜间模式,文字为绿色,方便夜间阅读”
- “添加彩虹派对效果,庆祝完成这个项目”
- “在我填写这个无聊的表单时,为其应用复古 80 年代主题”
- “使用高对比度样式,以便我能更好地阅读”
💬 可以尝试的示例提示
一切设置完成后,你可以尝试向你的 AI 提问:
内容创作:
“阅读此页面上的文章,并创建一条 Twitter 线程,总结主要观点”
研究与分析:
“查看我本周的浏览器历史记录,找到关于机器学习的文章。总结关键趋势。”
社交媒体管理:
“检查我的 Twitter 书签,并将它们分类。为每个类别创建一个总结。”
生产力:
“为我平时早上阅读的网站打开标签页,并给我今天头条新闻的简报”
开发测试:
“用测试数据填写此联系表单,并检查提交是否正常工作”
个人助理:
“找到我昨天查看的关于 React 组件的 GitHub 仓库,并将其添加到书签以便以后查看”
页面样式与乐趣:
“为这个页面应用黑暗黑客主题,使其看起来更有趣”
“让这个无聊的文档页面感觉像一个舒适的咖啡店”
“为这个页面添加 30 秒的矩阵雨效果,以便截取酷炫的屏幕截图”
“为这个页面应用高对比度主题,以提高可读性”
🏗️ 工作原理
graph LR
A[AI 模型] --> B[OpenDia 服务器]
B --> C[浏览器扩展]
C --> D[你的浏览器]
D --> E[任何网站]
- 你向 你的 AI 提出与浏览器相关的请求。
- AI 调用 OpenDia 工具来理解和与页面进行交互。
- OpenDia 通过 扩展程序控制你的浏览器。
- 你获得结果 —— AI 可以看到发生了什么,并做出智能响应。
🛠️ 功能
OpenDia 为 AI 模型提供了 18 种强大的浏览器工具:
🎯 智能页面理解
- 分析任何网页 —— AI 自动找到按钮、表单和交互式元素。
- 智能提取内容 —— 从文章、社交媒体帖子或搜索结果中获取清晰的文本。
- 理解上下文 —— AI 知道它正在查看的页面类型以及如何与之交互。
🖱️ 自然交互
- 点击任何元素 —— 按钮、链接、菜单 —— AI 找到并点击正确的元素。
- 智能填写表单 —— 即使在 Twitter、LinkedIn、Facebook 等复杂网站上也能正常工作。
- 无缝导航 —— 前往页面、滚动、等待内容加载。
- 处理现代 Web 应用 —— 绕过社交平台的检测。
📑 标签和窗口管理
- 多标签工作流程 —— 自动打开、关闭和切换标签。
- 组织你的工作空间 —— 让 AI 高效管理你的浏览器标签。
- 协调复杂任务 —— 同时在多个网站上工作。
📊 访问你的浏览器数据
- 书签和历史记录 —— 找到你上周阅读的文章。
- 当前页面内容 —— 获取选定的文本、链接或完整页面内容。
- 实时信息 —— 处理当前屏幕上的任何内容。
🛡️ 反检测功能
- 社交媒体发布 —— 绕过 Twitter/X、LinkedIn、Facebook 等平台的自动化检测。
- 自然交互 —— 模仿人类行为,避免触发安全措施。
- 可靠的自动化 —— 即使在阻止典型自动化工具的网站上也能持续工作。
🎨 页面样式与定制
- 转换任何网站 —— 应用有趣的主题、自定义颜色和视觉效果。
- 预设主题 —— 黑暗黑客、复古 80 年代、彩虹派对、简约禅意等等。
- AI 情绪样式 —— 描述一种情绪,获得匹配的视觉设计。
- 交互式效果 —— 矩阵雨、浮动粒子、霓虹灯效果和光标轨迹。
- 无障碍主题 —— 高对比度和易读的设计,提高可见性。
🔧 技术细节
OpenDia 为 AI 模型提供了与浏览器交互的能力,它通过浏览器扩展和本地服务器实现。浏览器扩展负责与浏览器进行交互,而本地服务器则负责接收 AI 模型的请求,并将其转换为浏览器可以理解的操作。这种架构使得 AI 模型可以利用用户现有的浏览器环境,实现各种自动化任务。
📄 许可证
本项目采用 MIT 许可证,详情请参阅 LICENSE 文件。
准备好让 AI 为你的浏览器赋能了吗?使用 npx opendia
开始吧!🚀