📄 文档管理系统

← 返回列表

不写一行代码,让 AI 替你刷小红书、登 Twitter、填表单——OpenCLI 是怎么做到的

article #OpenCLI #AI Agent #Claude Code #browser-use #CDP #Playwright #小红书 #Twitter 📅 创建:2026-06-23 16:14:01 🔄 更新:2026-06-23 08:42:31
👁️ 预览 & 复制到公众号 ✏️ 编辑

今天下午我装了个工具,30 分钟内让 opencode 替我做了 5 件事:搜了 B 站 3 个"具身智能"视频、查了 Twitter 上 "Claude Code" 的 3 条热门推文、查了知乎热榜前 5、打开了小红书创作中心、打开了 Twitter 主页——还顺手截了图

没写一行代码,没开浏览器,没复制粘贴。

这件事在 2025 年我得自己用 Playwright 写一晚上脚本。 现在装个 CLI 工具就完事了。

1、装上能干嘛——我刚跑的 5 个真实命令

我装的是 OpenCLIGitHub,Apache-2.0,25k Star)。装完第一件事是用我自己登录好的 Chrome跑了下面这些命令——全部真的,全部有响应:

命令 1:查 B 站"具身智能"视频

$ opencli bilibili search "具身智能" --limit 3

返回(真实数据,原样输出):

- rank: 1
  title: 【2026年最新】这绝对是B站公认最通俗易懂的具身智能入门教程...
  author: 具身智能研究所
  score: 1725
  url: https://www.bilibili.com/video/BV1i8ju6aE8w
- rank: 2
  title: 黑马程序员零基础具身智能机械臂实战项目开发全套视频课程...
  author: 黑马程序员
  score: 576586
  url: https://www.bilibili.com/video/BV1nz6KBHEc9
- rank: 3
  title: 【RT-2论文精讲】谷歌具身智能VLA模型
  author: 编程八点档
  score: 14767
  url: ''

第二个视频播放量 576,586——黑马程序员的具身智能机械臂课,是真的火。

命令 2:搜 Twitter "Claude Code"

$ opencli twitter search "Claude Code" --limit 3

返回的 3 条推文里,Anthropic 官方的 "Fable 5 / Mythos 5 出口管制"声明 排第三,Claude 官方"New in Claude Code: Artifacts"那条 17,905 赞、3.88M 浏览。还有一条 "Claude Code source code leaked" 35.7M 浏览——这个我之前没刷到,今天搜出来才知道。

命令 3:知乎热榜前 5

$ opencli zhihu hot --limit 5

返回的实时热榜里有广东 U16 打架事件、伊朗队感谢信、世界杯法国 vs 伊拉克、《老炮儿》六爷——都是当下热榜。这条命令不需要登录态,纯公开 API。

命令 4 + 5:浏览器截图

最让我觉得值的一步——用 OpenCLI 操控我自己登录好的 Chrome,截图

$ opencli browser work open "https://creator.xiaohongshu.com"
{"url": "https://creator.xiaohongshu.com", "page": "BDC2F38C2FA69F0D6F2A5447C75FD64F"}

$ opencli browser work screenshot "C:/tmp/xhs_creator.png"
Screenshot saved to: C:/tmp/xhs_creator.png

截图就用 opencli browser work screenshot,CLI 命令直接调 Chrome DevTools Protocol 拍的,不是模拟器。下面这三张都是这条命令出来的真实截图:

【截图 1:小红书创作中心后台】
小红书创作中心

【截图 2:Twitter 我的主页】
Twitter ZhangZ4212 主页

【截图 3:B 站创作中心】
B 站创作中心

关键点:你看到的不是「OpenCLI 跑通了某 demo」,是 「我账号真的登录着 Chrome,OpenCLI 替我打开了我自己的创作中心并截了图」——这是验证「这工具到底能不能用你最在乎的」的最直接证据。

2、它怎么做到的——一句话原理

不要让 Agent 自己爬,让 Agent 复用你登录好的 Chrome。

OpenCLI 装两样东西:

  1. 一个 Chrome 扩展(OpenCLI Browser Bridge,Web Store 装的)——挂在你已经登录所有账号的 Chrome 上
  2. 一个本地 daemonopencli-app.exe,常驻后台)——跟 Chrome 扩展通过 WebSocket 通信

执行 opencli xiaohongshu whoami 的时候,链路是:

CLI 命令
  → opencli-app.exe daemon
    → ws://localhost:19825/ext
      → Chrome 扩展(在你登录的 Chrome 里)
        → 调 Chrome DevTools Protocol
          → 拿到小红书创作中心页面的 session
            → 把当前登录态 cookie 发回
              → daemon 解析成结构化数据
                → YAML 输出到终端

底层用的是 CDP(Chrome DevTools Protocol)——Chrome 官方提供的浏览器控制协议,不是截图 OCR。这意味着 Agent 拿到的是真实的 DOM 结构 + 真实的 Cookie session,不是像素。

对比一下

工具 拿到的东西 速度 精度
Playwright 自己写 DOM + session 100%
Anthropic Computer Use 截图(像素) 70-90%
OpenCLI DOM + session + 截图按需 100%

3、100+ 站点 + 20 几个 B 站命令——这不是 demo,是 CLI 集大成

opencli list 出来一个全功能注册表,12306 / 1688 / 抖音 / 一亩三分地 / 知乎 / B 站 / 小红书 / Twitter / Reddit / HackerNews / LinkedIn / Amazon / Upwork / Slack / NotebookLM / Claude / Gemini / Spotify / Chess.com / 牛客 / arxiv——我数了,30+ 站点适配器,README 写 100+ 是含命令数的统计。

光 B 站一个站点就有 20 个子命令——opencli bilibili --help 出来的:

comment / comments / download / dynamic / favorite / feed / feed-detail /
follow / following / history / hot / login / me / ranking / search /
subtitle / summary / unfollow / user-videos / video / whoami

连 B 站视频的「AI 总结」都给你扒下来opencli bilibili summary <bvid>,跟 B 站视频页的 AI 总结同款,含分段大纲和时间戳)。

4、跟 agent-reach 是同门师兄弟——怎么搭着用

我之前写过一篇 《agent-reach 是怎么让你 Agent 读互联网的》。agent-reach 给 Agent 装能力,OpenCLI 给 Agent 装操作能力。

两个一起装就是完整的 Agent 互联网栈

你想让 Agent 干的事 用哪个
"帮我看看这个推特讲了什么" agent-reach
"帮我在 Twitter 发条推" OpenCLI
"帮我搜 B 站'具身智能'视频" agent-reach(bili-cli) 或 OpenCLI(opencli bilibili search) 都行
"帮我打开我的 Twitter 主页截个图" OpenCLI
"帮我填这个表单" OpenCLI(browser fill

安装顺序:我建议先 agent-reach,再 OpenCLI——agent-reach 是纯 CLI 工具集,OpenCLI 是浏览器工具,两个不冲突,搭着用

5、6 个 Agent Skill——给 AI Agent 装的"使用手册"

OpenCLI 跟 antd v6 一样,把"AI 怎么用我"写成了 6 个 SKILL.md 放进自己的仓库——npx skills add jackwener/opencli 一行命令装到你的 Agent 里。

Skill 干啥 你对 Agent 怎么说
opencli-adapter-author 给新站点写适配器 "帮我做一个抖音热门的适配器"
opencli-autofix 内置命令挂了,修复 "opencli zhihu hot 返回空了,修一下"
opencli-browser 实时驱动 Chrome "帮我看看小红书的通知"
opencli-browser-sitemap 用站点 sitemap 减少试错 "用 sitemap 帮我少走弯路地操作这个网站"
opencli-sitemap-author 创建/更新站点 sitemap "把刚发现的稳定流程记录到这个站点的 sitemap"
opencli-usage 命令和站点参考 "OpenCLI 有哪些 Twitter 相关的命令?"

装 Skill 之后,Agent 自己知道该调哪个命令——你跟它说"帮我看看知乎热榜",它会自己跑 opencli zhihu hot,你都不用记命令。

6、彩蛋:能控制桌面 Electron 应用

我装完才发现——OpenCLI 不止能管网页,还能控制桌面端 Electron 应用

原理跟控制 Chrome 一样:Electron 应用都暴露 CDP 端点,OpenCLI 通过 OPENCLI_CDP_ENDPOINT 接进去。意味着你可以在 opencode 里直接调 Cursor 写代码、调用 ChatGPT 回答问题

我自己还没深度用这个能力——但这个方向是对的。AI Agent 之间的互操作不应该靠"复制粘贴输出",应该靠 CDP 这样的标准协议。

7、装它之前必须想清楚的一件事

下面这段是我犹豫了 30 秒才决定写出来的。

OpenCLI 强制要求你用自己登录的 Chrome——你的 Cookie、你的会话、你的账号状态,全部暴露给 Agent 和 OpenCLI 的 daemon。

这件事我跑了 30 分钟才敢下结论。先看安全设计(这是它做对的):

我没法忽视的几件事:

我自己的做法

  1. 第一次装在副机上测试——不要直接装在你主力的工作 Chrome 上
  2. 需要登录态的平台用专用小号(我的 Twitter 主账号是 ZhangZ4212,副号我就不透露了)
  3. 第一次跑命令盯一下 daemon 日志opencli -v doctor 打开详细模式)
  4. 关键操作加权限确认——比如"删除"或"发推",Agent 应该会问你;不问你就要警觉

OpenCLI 团队的 README 在"安全"和"封号风险"章节写得克制,但这种克制本身也说明了风险真实存在。我建议想装的人把那段安全建议完整读一遍再决定。

8、跟同类工具的对比——OpenCLI 领先 6 个月

工具 解决什么 跟 OpenCLI 区别
Playwright / Puppeteer 写代码控制浏览器 你要写脚本,OpenCLI 给你现成命令
Selenium 老牌浏览器自动化 慢、配置重,OpenCLI 走 CDP 更轻量
browser-use(独立项目) AI Agent 跑浏览器 多半用自己虚拟浏览器,OpenCLI 复用你登录的 Chrome
agent-reach 给 Agent 装"读"能力 OpenCLI 装"操作"能力,互补
Claude Computer Use Anthropic 官方的屏幕控制 走截图 OCR,准确度和速度都差一个量级

OpenCLI 的核心优势是 CDP 协议 + 你登录的 Chrome——这不是新东西,但把它封装成 CLI + Agent Skill 组合这件事,OpenCLI 是第一个做对的开源项目。

9、我的选型建议——按 3 类读者

如果你是 AI Agent 重度用户

强烈建议装。配合 agent-reach 一套完整的 Agent 互联网能力。先在副机测试 + 用小号登录,跑通了再上主力 Chrome。

如果你只是想爬点数据

不需要 OpenCLI。opencli hackernews top 这种公开 API 命令 GitHub 上一堆替代品。OpenCLI 的价值在"复用登录态",无登录态的场景你用其他工具更轻。

如果你是给团队搭 Agent 工具链

OpenCLI 比 Playwright 维护成本低一个量级——6 个 Skill 覆盖了 80% 的常见需求。但你需要给团队做安全培训(Chrome 扩展权限 + 平台账号风险),不要让团队成员在主账号上乱跑命令。

我自己的最终判断

OpenCLI 现在(v1.8.4,2026-06)还处于"功能性够用、安全性要自己把握"的阶段。等它到 2.0 + Chrome 扩展权限粒度更细 + 官方出审计报告之后,会更值得在生产环境用。

但即便现在,它在"读 + 操作"这个垂直的能力封装已经领先所有同类开源项目至少 6 个月。装上之后 30 分钟就有真实价值——这事在 2026 年的开源项目里非常少见。


写在最后

OpenCLI 让我第一次觉得 "AI Agent 真的有手了"——不是宣传话术,是它能在我登录的 Chrome 里真的去操作、真的去拿数据、真的去填表单

代价是把 Chrome 会话交给它 + 自己想清楚封号风险。但这个 trade-off 在 2026 年的 Agent 工具链里算合理——总比写一晚上 Playwright 脚本然后被风控封 IP 强。

你用 Agent 替自己干过最离谱的一件事是什么?评论区聊聊。

💬 评论区

加载中...