不写一行代码，让 AI 替你刷小红书、登 Twitter、填表单——OpenCLI 是怎么做到的

今天下午我装了个工具，30 分钟内让 opencode 替我做了 5 件事：搜了 B 站 3 个"具身智能"视频、查了 Twitter 上 "Claude Code" 的 3 条热门推文、查了知乎热榜前 5、打开了小红书创作中心、打开了 Twitter 主页——还顺手截了图。

没写一行代码，没开浏览器，没复制粘贴。

这件事在 2025 年我得自己用 Playwright 写一晚上脚本。 现在装个 CLI 工具就完事了。

1、装上能干嘛——我刚跑的 5 个真实命令

我装的是 OpenCLI（GitHub，Apache-2.0，25k Star）。装完第一件事是用我自己登录好的 Chrome跑了下面这些命令——全部真的，全部有响应：

命令 1：查 B 站"具身智能"视频

$ opencli bilibili search "具身智能" --limit 3

返回（真实数据，原样输出）：

- rank: 1
  title: 【2026年最新】这绝对是B站公认最通俗易懂的具身智能入门教程...
  author: 具身智能研究所
  score: 1725
  url: https://www.bilibili.com/video/BV1i8ju6aE8w
- rank: 2
  title: 黑马程序员零基础具身智能机械臂实战项目开发全套视频课程...
  author: 黑马程序员
  score: 576586
  url: https://www.bilibili.com/video/BV1nz6KBHEc9
- rank: 3
  title: 【RT-2论文精讲】谷歌具身智能VLA模型
  author: 编程八点档
  score: 14767
  url: ''

第二个视频播放量 576,586——黑马程序员的具身智能机械臂课，是真的火。

命令 2：搜 Twitter "Claude Code"

$ opencli twitter search "Claude Code" --limit 3

返回的 3 条推文里，Anthropic 官方的 "Fable 5 / Mythos 5 出口管制"声明 排第三，Claude 官方"New in Claude Code: Artifacts"那条 17,905 赞、3.88M 浏览。还有一条 "Claude Code source code leaked" 35.7M 浏览——这个我之前没刷到，今天搜出来才知道。

命令 3：知乎热榜前 5

$ opencli zhihu hot --limit 5

返回的实时热榜里有广东 U16 打架事件、伊朗队感谢信、世界杯法国 vs 伊拉克、《老炮儿》六爷——都是当下热榜。这条命令不需要登录态，纯公开 API。

命令 4 + 5：浏览器截图

最让我觉得值的一步——用 OpenCLI 操控我自己登录好的 Chrome，截图：

$ opencli browser work open "https://creator.xiaohongshu.com"
{"url": "https://creator.xiaohongshu.com", "page": "BDC2F38C2FA69F0D6F2A5447C75FD64F"}

$ opencli browser work screenshot "C:/tmp/xhs_creator.png"
Screenshot saved to: C:/tmp/xhs_creator.png

截图就用 opencli browser work screenshot，CLI 命令直接调 Chrome DevTools Protocol 拍的，不是模拟器。下面这三张都是这条命令出来的真实截图：

【截图 1：小红书创作中心后台】

【截图 2：Twitter 我的主页】
Twitter ZhangZ4212 主页

【截图 3：B 站创作中心】

关键点：你看到的不是「OpenCLI 跑通了某 demo」，是 「我账号真的登录着 Chrome，OpenCLI 替我打开了我自己的创作中心并截了图」——这是验证「这工具到底能不能用你最在乎的」的最直接证据。

2、它怎么做到的——一句话原理

不要让 Agent 自己爬，让 Agent 复用你登录好的 Chrome。

OpenCLI 装两样东西：

一个 Chrome 扩展（OpenCLI Browser Bridge，Web Store 装的）——挂在你已经登录所有账号的 Chrome 上
一个本地 daemon（opencli-app.exe，常驻后台）——跟 Chrome 扩展通过 WebSocket 通信

执行 opencli xiaohongshu whoami 的时候，链路是：

CLI 命令
  → opencli-app.exe daemon
    → ws://localhost:19825/ext
      → Chrome 扩展（在你登录的 Chrome 里）
        → 调 Chrome DevTools Protocol
          → 拿到小红书创作中心页面的 session
            → 把当前登录态 cookie 发回
              → daemon 解析成结构化数据
                → YAML 输出到终端

底层用的是 CDP（Chrome DevTools Protocol）——Chrome 官方提供的浏览器控制协议，不是截图 OCR。这意味着 Agent 拿到的是真实的 DOM 结构 + 真实的 Cookie session，不是像素。

对比一下：

工具	拿到的东西	速度	精度
Playwright 自己写	DOM + session	中	100%
Anthropic Computer Use	截图（像素）	慢	70-90%
OpenCLI	DOM + session + 截图按需	快	100%

3、100+ 站点 + 20 几个 B 站命令——这不是 demo，是 CLI 集大成

opencli list 出来一个全功能注册表，12306 / 1688 / 抖音 / 一亩三分地 / 知乎 / B 站 / 小红书 / Twitter / Reddit / HackerNews / LinkedIn / Amazon / Upwork / Slack / NotebookLM / Claude / Gemini / Spotify / Chess.com / 牛客 / arxiv——我数了，30+ 站点适配器，README 写 100+ 是含命令数的统计。

光 B 站一个站点就有 20 个子命令——opencli bilibili --help 出来的：

comment / comments / download / dynamic / favorite / feed / feed-detail /
follow / following / history / hot / login / me / ranking / search /
subtitle / summary / unfollow / user-videos / video / whoami

连 B 站视频的「AI 总结」都给你扒下来（opencli bilibili summary <bvid>，跟 B 站视频页的 AI 总结同款，含分段大纲和时间戳）。

4、跟 agent-reach 是同门师兄弟——怎么搭着用

我之前写过一篇《agent-reach 是怎么让你 Agent 读互联网的》。agent-reach 给 Agent 装读能力，OpenCLI 给 Agent 装操作能力。

两个一起装就是完整的 Agent 互联网栈：

你想让 Agent 干的事	用哪个
"帮我看看这个推特讲了什么"	agent-reach
"帮我在 Twitter 发条推"	OpenCLI
"帮我搜 B 站'具身智能'视频"	agent-reach（`bili-cli`）或 OpenCLI（`opencli bilibili search`）都行
"帮我打开我的 Twitter 主页截个图"	OpenCLI
"帮我填这个表单"	OpenCLI（`browser fill`）

安装顺序：我建议先 agent-reach，再 OpenCLI——agent-reach 是纯 CLI 工具集，OpenCLI 是浏览器工具，两个不冲突，搭着用。

5、6 个 Agent Skill——给 AI Agent 装的"使用手册"

OpenCLI 跟 antd v6 一样，把"AI 怎么用我"写成了 6 个 SKILL.md 放进自己的仓库——npx skills add jackwener/opencli 一行命令装到你的 Agent 里。

Skill	干啥	你对 Agent 怎么说
opencli-adapter-author	给新站点写适配器	"帮我做一个抖音热门的适配器"
opencli-autofix	内置命令挂了，修复	"`opencli zhihu hot` 返回空了，修一下"
opencli-browser	实时驱动 Chrome	"帮我看看小红书的通知"
opencli-browser-sitemap	用站点 sitemap 减少试错	"用 sitemap 帮我少走弯路地操作这个网站"
opencli-sitemap-author	创建/更新站点 sitemap	"把刚发现的稳定流程记录到这个站点的 sitemap"
opencli-usage	命令和站点参考	"OpenCLI 有哪些 Twitter 相关的命令？"

装 Skill 之后，Agent 自己知道该调哪个命令——你跟它说"帮我看看知乎热榜"，它会自己跑 opencli zhihu hot，你都不用记命令。

6、彩蛋：能控制桌面 Electron 应用

我装完才发现——OpenCLI 不止能管网页，还能控制桌面端 Electron 应用：

Cursor
Trae CN
Codex
Antigravity
ChatGPT
Trae SOLO

原理跟控制 Chrome 一样：Electron 应用都暴露 CDP 端点，OpenCLI 通过 OPENCLI_CDP_ENDPOINT 接进去。意味着你可以在 opencode 里直接调 Cursor 写代码、调用 ChatGPT 回答问题。

我自己还没深度用这个能力——但这个方向是对的。AI Agent 之间的互操作不应该靠"复制粘贴输出"，应该靠 CDP 这样的标准协议。

7、装它之前必须想清楚的一件事

下面这段是我犹豫了 30 秒才决定写出来的。

OpenCLI 强制要求你用自己登录的 Chrome——你的 Cookie、你的会话、你的账号状态，全部暴露给 Agent 和 OpenCLI 的 daemon。

这件事我跑了 30 分钟才敢下结论。先看安全设计（这是它做对的）：

✅ Apache-2.0 开源——代码可审计
✅ Cookie 不外传——daemon 是本地的，不上传任何服务器
✅ 可插拔架构——不信任某个组件？换掉对应的 channel 文件即可
✅ 支持 Dry Run——opencli browser verify 之前可以先 dry-run

但我没法忽视的几件事：

⚠️ Agent 在你登录的 Chrome 里执行任何操作——理论上 Agent 可以替你"删除一篇小红书笔记"或"修改一条 Twitter"，README 强调"读"为主
⚠️ Chrome 扩展的权限——这个扩展的 manifest 里申请了 debugger / tabs / cookies / activeTab / alarms / storage / tabGroups / downloads 7 项权限——debugger 这一项就够强了
⚠️ 平台账号风险——Twitter、小红书对"非正常浏览器 API 调用"敏感，用主账号登录有被封风险（README 自己建议"用专用小号"）

我自己的做法：

第一次装在副机上测试——不要直接装在你主力的工作 Chrome 上
需要登录态的平台用专用小号（我的 Twitter 主账号是 ZhangZ4212，副号我就不透露了）
第一次跑命令盯一下 daemon 日志（opencli -v doctor 打开详细模式）
关键操作加权限确认——比如"删除"或"发推"，Agent 应该会问你；不问你就要警觉

OpenCLI 团队的 README 在"安全"和"封号风险"章节写得克制，但这种克制本身也说明了风险真实存在。我建议想装的人把那段安全建议完整读一遍再决定。

8、跟同类工具的对比——OpenCLI 领先 6 个月

工具	解决什么	跟 OpenCLI 区别
Playwright / Puppeteer	写代码控制浏览器	你要写脚本，OpenCLI 给你现成命令
Selenium	老牌浏览器自动化	慢、配置重，OpenCLI 走 CDP 更轻量
browser-use（独立项目）	AI Agent 跑浏览器	多半用自己虚拟浏览器，OpenCLI 复用你登录的 Chrome
agent-reach	给 Agent 装"读"能力	OpenCLI 装"操作"能力，互补
Claude Computer Use	Anthropic 官方的屏幕控制	走截图 OCR，准确度和速度都差一个量级

OpenCLI 的核心优势是 CDP 协议 + 你登录的 Chrome——这不是新东西，但把它封装成 CLI + Agent Skill 组合这件事，OpenCLI 是第一个做对的开源项目。

9、我的选型建议——按 3 类读者

如果你是 AI Agent 重度用户

强烈建议装。配合 agent-reach 一套完整的 Agent 互联网能力。先在副机测试 + 用小号登录，跑通了再上主力 Chrome。

如果你只是想爬点数据

不需要 OpenCLI。opencli hackernews top 这种公开 API 命令 GitHub 上一堆替代品。OpenCLI 的价值在"复用登录态"，无登录态的场景你用其他工具更轻。

如果你是给团队搭 Agent 工具链

OpenCLI 比 Playwright 维护成本低一个量级——6 个 Skill 覆盖了 80% 的常见需求。但你需要给团队做安全培训（Chrome 扩展权限 + 平台账号风险），不要让团队成员在主账号上乱跑命令。

我自己的最终判断

OpenCLI 现在（v1.8.4，2026-06）还处于"功能性够用、安全性要自己把握"的阶段。等它到 2.0 + Chrome 扩展权限粒度更细 + 官方出审计报告之后，会更值得在生产环境用。

但即便现在，它在"读 + 操作"这个垂直的能力封装已经领先所有同类开源项目至少 6 个月。装上之后 30 分钟就有真实价值——这事在 2026 年的开源项目里非常少见。

写在最后

OpenCLI 让我第一次觉得 "AI Agent 真的有手了"——不是宣传话术，是它能在我登录的 Chrome 里真的去操作、真的去拿数据、真的去填表单。

代价是把 Chrome 会话交给它 + 自己想清楚封号风险。但这个 trade-off 在 2026 年的 Agent 工具链里算合理——总比写一晚上 Playwright 脚本然后被风控封 IP 强。

你用 Agent 替自己干过最离谱的一件事是什么？评论区聊聊。

📄 文档管理系统