今天下午我装了个工具,30 分钟内让 opencode 替我做了 5 件事:搜了 B 站 3 个"具身智能"视频、查了 Twitter 上 "Claude Code" 的 3 条热门推文、查了知乎热榜前 5、打开了小红书创作中心、打开了 Twitter 主页——还顺手截了图。
没写一行代码,没开浏览器,没复制粘贴。
这件事在 2025 年我得自己用 Playwright 写一晚上脚本。 现在装个 CLI 工具就完事了。
我装的是 OpenCLI(GitHub,Apache-2.0,25k Star)。装完第一件事是用我自己登录好的 Chrome跑了下面这些命令——全部真的,全部有响应:
$ opencli bilibili search "具身智能" --limit 3
返回(真实数据,原样输出):
- rank: 1
title: 【2026年最新】这绝对是B站公认最通俗易懂的具身智能入门教程...
author: 具身智能研究所
score: 1725
url: https://www.bilibili.com/video/BV1i8ju6aE8w
- rank: 2
title: 黑马程序员零基础具身智能机械臂实战项目开发全套视频课程...
author: 黑马程序员
score: 576586
url: https://www.bilibili.com/video/BV1nz6KBHEc9
- rank: 3
title: 【RT-2论文精讲】谷歌具身智能VLA模型
author: 编程八点档
score: 14767
url: ''
第二个视频播放量 576,586——黑马程序员的具身智能机械臂课,是真的火。
$ opencli twitter search "Claude Code" --limit 3
返回的 3 条推文里,Anthropic 官方的 "Fable 5 / Mythos 5 出口管制"声明 排第三,Claude 官方"New in Claude Code: Artifacts"那条 17,905 赞、3.88M 浏览。还有一条 "Claude Code source code leaked" 35.7M 浏览——这个我之前没刷到,今天搜出来才知道。
$ opencli zhihu hot --limit 5
返回的实时热榜里有广东 U16 打架事件、伊朗队感谢信、世界杯法国 vs 伊拉克、《老炮儿》六爷——都是当下热榜。这条命令不需要登录态,纯公开 API。
最让我觉得值的一步——用 OpenCLI 操控我自己登录好的 Chrome,截图:
$ opencli browser work open "https://creator.xiaohongshu.com"
{"url": "https://creator.xiaohongshu.com", "page": "BDC2F38C2FA69F0D6F2A5447C75FD64F"}
$ opencli browser work screenshot "C:/tmp/xhs_creator.png"
Screenshot saved to: C:/tmp/xhs_creator.png
截图就用 opencli browser work screenshot,CLI 命令直接调 Chrome DevTools Protocol 拍的,不是模拟器。下面这三张都是这条命令出来的真实截图:
【截图 1:小红书创作中心后台】

【截图 2:Twitter 我的主页】

【截图 3:B 站创作中心】

关键点:你看到的不是「OpenCLI 跑通了某 demo」,是 「我账号真的登录着 Chrome,OpenCLI 替我打开了我自己的创作中心并截了图」——这是验证「这工具到底能不能用你最在乎的」的最直接证据。
不要让 Agent 自己爬,让 Agent 复用你登录好的 Chrome。
OpenCLI 装两样东西:
opencli-app.exe,常驻后台)——跟 Chrome 扩展通过 WebSocket 通信执行 opencli xiaohongshu whoami 的时候,链路是:
CLI 命令
→ opencli-app.exe daemon
→ ws://localhost:19825/ext
→ Chrome 扩展(在你登录的 Chrome 里)
→ 调 Chrome DevTools Protocol
→ 拿到小红书创作中心页面的 session
→ 把当前登录态 cookie 发回
→ daemon 解析成结构化数据
→ YAML 输出到终端
底层用的是 CDP(Chrome DevTools Protocol)——Chrome 官方提供的浏览器控制协议,不是截图 OCR。这意味着 Agent 拿到的是真实的 DOM 结构 + 真实的 Cookie session,不是像素。
对比一下:
| 工具 | 拿到的东西 | 速度 | 精度 |
|---|---|---|---|
| Playwright 自己写 | DOM + session | 中 | 100% |
| Anthropic Computer Use | 截图(像素) | 慢 | 70-90% |
| OpenCLI | DOM + session + 截图按需 | 快 | 100% |
opencli list 出来一个全功能注册表,12306 / 1688 / 抖音 / 一亩三分地 / 知乎 / B 站 / 小红书 / Twitter / Reddit / HackerNews / LinkedIn / Amazon / Upwork / Slack / NotebookLM / Claude / Gemini / Spotify / Chess.com / 牛客 / arxiv——我数了,30+ 站点适配器,README 写 100+ 是含命令数的统计。
光 B 站一个站点就有 20 个子命令——opencli bilibili --help 出来的:
comment / comments / download / dynamic / favorite / feed / feed-detail /
follow / following / history / hot / login / me / ranking / search /
subtitle / summary / unfollow / user-videos / video / whoami
连 B 站视频的「AI 总结」都给你扒下来(opencli bilibili summary <bvid>,跟 B 站视频页的 AI 总结同款,含分段大纲和时间戳)。
我之前写过一篇 《agent-reach 是怎么让你 Agent 读互联网的》。agent-reach 给 Agent 装读能力,OpenCLI 给 Agent 装操作能力。
两个一起装就是完整的 Agent 互联网栈:
| 你想让 Agent 干的事 | 用哪个 |
|---|---|
| "帮我看看这个推特讲了什么" | agent-reach |
| "帮我在 Twitter 发条推" | OpenCLI |
| "帮我搜 B 站'具身智能'视频" | agent-reach(bili-cli) 或 OpenCLI(opencli bilibili search) 都行 |
| "帮我打开我的 Twitter 主页截个图" | OpenCLI |
| "帮我填这个表单" | OpenCLI(browser fill) |
安装顺序:我建议先 agent-reach,再 OpenCLI——agent-reach 是纯 CLI 工具集,OpenCLI 是浏览器工具,两个不冲突,搭着用。
OpenCLI 跟 antd v6 一样,把"AI 怎么用我"写成了 6 个 SKILL.md 放进自己的仓库——npx skills add jackwener/opencli 一行命令装到你的 Agent 里。
| Skill | 干啥 | 你对 Agent 怎么说 |
|---|---|---|
| opencli-adapter-author | 给新站点写适配器 | "帮我做一个抖音热门的适配器" |
| opencli-autofix | 内置命令挂了,修复 | "opencli zhihu hot 返回空了,修一下" |
| opencli-browser | 实时驱动 Chrome | "帮我看看小红书的通知" |
| opencli-browser-sitemap | 用站点 sitemap 减少试错 | "用 sitemap 帮我少走弯路地操作这个网站" |
| opencli-sitemap-author | 创建/更新站点 sitemap | "把刚发现的稳定流程记录到这个站点的 sitemap" |
| opencli-usage | 命令和站点参考 | "OpenCLI 有哪些 Twitter 相关的命令?" |
装 Skill 之后,Agent 自己知道该调哪个命令——你跟它说"帮我看看知乎热榜",它会自己跑 opencli zhihu hot,你都不用记命令。
我装完才发现——OpenCLI 不止能管网页,还能控制桌面端 Electron 应用:
原理跟控制 Chrome 一样:Electron 应用都暴露 CDP 端点,OpenCLI 通过 OPENCLI_CDP_ENDPOINT 接进去。意味着你可以在 opencode 里直接调 Cursor 写代码、调用 ChatGPT 回答问题。
我自己还没深度用这个能力——但这个方向是对的。AI Agent 之间的互操作不应该靠"复制粘贴输出",应该靠 CDP 这样的标准协议。
下面这段是我犹豫了 30 秒才决定写出来的。
OpenCLI 强制要求你用自己登录的 Chrome——你的 Cookie、你的会话、你的账号状态,全部暴露给 Agent 和 OpenCLI 的 daemon。
这件事我跑了 30 分钟才敢下结论。先看安全设计(这是它做对的):
opencli browser verify 之前可以先 dry-run但我没法忽视的几件事:
debugger / tabs / cookies / activeTab / alarms / storage / tabGroups / downloads 7 项权限——debugger 这一项就够强了我自己的做法:
ZhangZ4212,副号我就不透露了)opencli -v doctor 打开详细模式)OpenCLI 团队的 README 在"安全"和"封号风险"章节写得克制,但这种克制本身也说明了风险真实存在。我建议想装的人把那段安全建议完整读一遍再决定。
| 工具 | 解决什么 | 跟 OpenCLI 区别 |
|---|---|---|
| Playwright / Puppeteer | 写代码控制浏览器 | 你要写脚本,OpenCLI 给你现成命令 |
| Selenium | 老牌浏览器自动化 | 慢、配置重,OpenCLI 走 CDP 更轻量 |
| browser-use(独立项目) | AI Agent 跑浏览器 | 多半用自己虚拟浏览器,OpenCLI 复用你登录的 Chrome |
| agent-reach | 给 Agent 装"读"能力 | OpenCLI 装"操作"能力,互补 |
| Claude Computer Use | Anthropic 官方的屏幕控制 | 走截图 OCR,准确度和速度都差一个量级 |
OpenCLI 的核心优势是 CDP 协议 + 你登录的 Chrome——这不是新东西,但把它封装成 CLI + Agent Skill 组合这件事,OpenCLI 是第一个做对的开源项目。
强烈建议装。配合 agent-reach 一套完整的 Agent 互联网能力。先在副机测试 + 用小号登录,跑通了再上主力 Chrome。
不需要 OpenCLI。opencli hackernews top 这种公开 API 命令 GitHub 上一堆替代品。OpenCLI 的价值在"复用登录态",无登录态的场景你用其他工具更轻。
OpenCLI 比 Playwright 维护成本低一个量级——6 个 Skill 覆盖了 80% 的常见需求。但你需要给团队做安全培训(Chrome 扩展权限 + 平台账号风险),不要让团队成员在主账号上乱跑命令。
OpenCLI 现在(v1.8.4,2026-06)还处于"功能性够用、安全性要自己把握"的阶段。等它到 2.0 + Chrome 扩展权限粒度更细 + 官方出审计报告之后,会更值得在生产环境用。
但即便现在,它在"读 + 操作"这个垂直的能力封装已经领先所有同类开源项目至少 6 个月。装上之后 30 分钟就有真实价值——这事在 2026 年的开源项目里非常少见。
OpenCLI 让我第一次觉得 "AI Agent 真的有手了"——不是宣传话术,是它能在我登录的 Chrome 里真的去操作、真的去拿数据、真的去填表单。
代价是把 Chrome 会话交给它 + 自己想清楚封号风险。但这个 trade-off 在 2026 年的 Agent 工具链里算合理——总比写一晚上 Playwright 脚本然后被风控封 IP 强。
你用 Agent 替自己干过最离谱的一件事是什么?评论区聊聊。
💬 评论区