📄 文档列表
🎬 口播文案
✏️ 编辑文档
标题
工具栏
加粗
H2 标题
H3 标题
引用
无序列表
有序列表
代码块
📷 上传图片
点击或拖拽上传图片
支持 PNG, JPG, GIF, WebP 格式
内容 (Markdown 格式)
今天下午我装了个工具,**30 分钟内让 opencode 替我做了 5 件事**:搜了 B 站 3 个"具身智能"视频、查了 Twitter 上 "Claude Code" 的 3 条热门推文、查了知乎热榜前 5、打开了小红书创作中心、打开了 Twitter 主页——还**顺手截了图**。 没写一行代码,没开浏览器,没复制粘贴。 **这件事在 2025 年我得自己用 Playwright 写一晚上脚本。** 现在装个 CLI 工具就完事了。 ## 1、装上能干嘛——我刚跑的 5 个真实命令 我装的是 **OpenCLI**([GitHub](https://github.com/jackwener/OpenCLI),Apache-2.0,**25k Star**)。装完第一件事是**用我自己登录好的 Chrome**跑了下面这些命令——全部真的,全部有响应: ### 命令 1:查 B 站"具身智能"视频 ```bash $ opencli bilibili search "具身智能" --limit 3 ``` 返回(**真实数据,原样输出**): ```yaml - rank: 1 title: 【2026年最新】这绝对是B站公认最通俗易懂的具身智能入门教程... author: 具身智能研究所 score: 1725 url: https://www.bilibili.com/video/BV1i8ju6aE8w - rank: 2 title: 黑马程序员零基础具身智能机械臂实战项目开发全套视频课程... author: 黑马程序员 score: 576586 url: https://www.bilibili.com/video/BV1nz6KBHEc9 - rank: 3 title: 【RT-2论文精讲】谷歌具身智能VLA模型 author: 编程八点档 score: 14767 url: '' ``` 第二个视频播放量 **576,586**——黑马程序员的具身智能机械臂课,是真的火。 ### 命令 2:搜 Twitter "Claude Code" ```bash $ opencli twitter search "Claude Code" --limit 3 ``` 返回的 3 条推文里,**Anthropic 官方的 "Fable 5 / Mythos 5 出口管制"声明** 排第三,**Claude 官方"New in Claude Code: Artifacts"那条 17,905 赞、3.88M 浏览**。还有一条 "Claude Code source code leaked" 35.7M 浏览——这个我之前没刷到,今天搜出来才知道。 ### 命令 3:知乎热榜前 5 ```bash $ opencli zhihu hot --limit 5 ``` 返回的实时热榜里有广东 U16 打架事件、伊朗队感谢信、世界杯法国 vs 伊拉克、《老炮儿》六爷——**都是当下热榜**。这条命令**不需要登录态**,纯公开 API。 ### 命令 4 + 5:浏览器截图 最让我觉得值的一步——**用 OpenCLI 操控我自己登录好的 Chrome,截图**: ```bash $ opencli browser work open "https://creator.xiaohongshu.com" {"url": "https://creator.xiaohongshu.com", "page": "BDC2F38C2FA69F0D6F2A5447C75FD64F"} $ opencli browser work screenshot "C:/tmp/xhs_creator.png" Screenshot saved to: C:/tmp/xhs_creator.png ``` **截图就用 `opencli browser work screenshot`,CLI 命令直接调 Chrome DevTools Protocol 拍的,不是模拟器。**下面这三张都是这条命令出来的真实截图: 【截图 1:小红书创作中心后台】  【截图 2:Twitter 我的主页】  【截图 3:B 站创作中心】  **关键点**:你看到的不是「OpenCLI 跑通了某 demo」,是 **「我账号真的登录着 Chrome,OpenCLI 替我打开了我自己的创作中心并截了图」**——这是验证「这工具到底能不能用你最在乎的」的最直接证据。 ## 2、它怎么做到的——一句话原理 > **不要让 Agent 自己爬,让 Agent 复用你登录好的 Chrome。** OpenCLI 装两样东西: 1. **一个 Chrome 扩展**(OpenCLI Browser Bridge,Web Store 装的)——挂在你已经登录所有账号的 Chrome 上 2. **一个本地 daemon**(`opencli-app.exe`,常驻后台)——跟 Chrome 扩展通过 **WebSocket** 通信 执行 `opencli xiaohongshu whoami` 的时候,链路是: ``` CLI 命令 → opencli-app.exe daemon → ws://localhost:19825/ext → Chrome 扩展(在你登录的 Chrome 里) → 调 Chrome DevTools Protocol → 拿到小红书创作中心页面的 session → 把当前登录态 cookie 发回 → daemon 解析成结构化数据 → YAML 输出到终端 ``` **底层用的是 CDP(Chrome DevTools Protocol)**——Chrome 官方提供的浏览器控制协议,**不是截图 OCR**。这意味着 Agent 拿到的是**真实的 DOM 结构 + 真实的 Cookie session**,不是像素。 **对比一下**: | 工具 | 拿到的东西 | 速度 | 精度 | |------|----------|------|------| | **Playwright 自己写** | DOM + session | 中 | 100% | | **Anthropic Computer Use** | 截图(像素) | 慢 | 70-90% | | **OpenCLI** | DOM + session + 截图按需 | 快 | 100% | ## 3、100+ 站点 + 20 几个 B 站命令——这不是 demo,是 CLI 集大成 `opencli list` 出来一个全功能注册表,**12306 / 1688 / 抖音 / 一亩三分地 / 知乎 / B 站 / 小红书 / Twitter / Reddit / HackerNews / LinkedIn / Amazon / Upwork / Slack / NotebookLM / Claude / Gemini / Spotify / Chess.com / 牛客 / arxiv**——**我数了,30+ 站点适配器**,README 写 100+ 是含命令数的统计。 光 B 站一个站点就有 **20 个子命令**——`opencli bilibili --help` 出来的: ``` comment / comments / download / dynamic / favorite / feed / feed-detail / follow / following / history / hot / login / me / ranking / search / subtitle / summary / unfollow / user-videos / video / whoami ``` **连 B 站视频的「AI 总结」都给你扒下来**(`opencli bilibili summary <bvid>`,跟 B 站视频页的 AI 总结同款,含分段大纲和时间戳)。 ## 4、跟 agent-reach 是同门师兄弟——怎么搭着用 我之前写过一篇 [《agent-reach 是怎么让你 Agent 读互联网的》](...)。agent-reach 给 Agent 装**读**能力,OpenCLI 给 Agent 装**操作**能力。 **两个一起装就是完整的 Agent 互联网栈**: | 你想让 Agent 干的事 | 用哪个 | |------------------|-------| | "帮我看看这个推特讲了什么" | agent-reach | | "帮我在 Twitter 发条推" | OpenCLI | | "帮我搜 B 站'具身智能'视频" | agent-reach(`bili-cli`) 或 OpenCLI(`opencli bilibili search`) 都行 | | "帮我打开我的 Twitter 主页截个图" | OpenCLI | | "帮我填这个表单" | OpenCLI(`browser fill`) | **安装顺序**:我建议**先 agent-reach,再 OpenCLI**——agent-reach 是纯 CLI 工具集,OpenCLI 是浏览器工具,**两个不冲突,搭着用**。 ## 5、6 个 Agent Skill——给 AI Agent 装的"使用手册" OpenCLI 跟 antd v6 一样,把"AI 怎么用我"写成了 **6 个 SKILL.md** 放进自己的仓库——`npx skills add jackwener/opencli` 一行命令装到你的 Agent 里。 | Skill | 干啥 | 你对 Agent 怎么说 | |-------|-----|-----------------| | **opencli-adapter-author** | 给新站点写适配器 | "帮我做一个抖音热门的适配器" | | **opencli-autofix** | 内置命令挂了,修复 | "`opencli zhihu hot` 返回空了,修一下" | | **opencli-browser** | 实时驱动 Chrome | "帮我看看小红书的通知" | | **opencli-browser-sitemap** | 用站点 sitemap 减少试错 | "用 sitemap 帮我少走弯路地操作这个网站" | | **opencli-sitemap-author** | 创建/更新站点 sitemap | "把刚发现的稳定流程记录到这个站点的 sitemap" | | **opencli-usage** | 命令和站点参考 | "OpenCLI 有哪些 Twitter 相关的命令?" | **装 Skill 之后,Agent 自己知道该调哪个命令**——你跟它说"帮我看看知乎热榜",它会自己跑 `opencli zhihu hot`,你都不用记命令。 ## 6、彩蛋:能控制桌面 Electron 应用 我装完才发现——OpenCLI 不止能管网页,**还能控制桌面端 Electron 应用**: - **Cursor** - **Trae CN** - **Codex** - **Antigravity** - **ChatGPT** - **Trae SOLO** 原理跟控制 Chrome 一样:Electron 应用都暴露 CDP 端点,OpenCLI 通过 `OPENCLI_CDP_ENDPOINT` 接进去。**意味着你可以在 opencode 里直接调 Cursor 写代码、调用 ChatGPT 回答问题**。 我自己还没深度用这个能力——但**这个方向是对的**。AI Agent 之间的互操作不应该靠"复制粘贴输出",应该靠 CDP 这样的标准协议。 ## 7、装它之前必须想清楚的一件事 下面这段是我**犹豫了 30 秒**才决定写出来的。 **OpenCLI 强制要求你用自己登录的 Chrome——你的 Cookie、你的会话、你的账号状态,全部暴露给 Agent 和 OpenCLI 的 daemon。** 这件事我跑了 30 分钟才敢下结论。先看**安全设计**(这是它做对的): - ✅ **Apache-2.0 开源**——代码可审计 - ✅ **Cookie 不外传**——daemon 是本地的,不上传任何服务器 - ✅ **可插拔架构**——不信任某个组件?换掉对应的 channel 文件即可 - ✅ **支持 Dry Run**——`opencli browser verify` 之前可以先 dry-run 但**我没法忽视**的几件事: - ⚠️ **Agent 在你登录的 Chrome 里执行任何操作**——理论上 Agent 可以替你"删除一篇小红书笔记"或"修改一条 Twitter",README 强调"读"为主 - ⚠️ **Chrome 扩展的权限**——这个扩展的 manifest 里申请了 `debugger / tabs / cookies / activeTab / alarms / storage / tabGroups / downloads` 7 项权限——`debugger` 这一项就够强了 - ⚠️ **平台账号风险**——Twitter、小红书对"非正常浏览器 API 调用"敏感,**用主账号登录有被封风险**(README 自己建议"用专用小号") **我自己的做法**: 1. **第一次装在副机上测试**——不要直接装在你主力的工作 Chrome 上 2. **需要登录态的平台用专用小号**(我的 Twitter 主账号是 `ZhangZ4212`,副号我就不透露了) 3. **第一次跑命令盯一下 daemon 日志**(`opencli -v doctor` 打开详细模式) 4. **关键操作加权限确认**——比如"删除"或"发推",Agent 应该会问你;不问你就要警觉 OpenCLI 团队的 README 在"安全"和"封号风险"章节写得克制,但**这种克制本身也说明了风险真实存在**。我建议想装的人**把那段安全建议完整读一遍**再决定。 ## 8、跟同类工具的对比——OpenCLI 领先 6 个月 | 工具 | 解决什么 | 跟 OpenCLI 区别 | |------|---------|----------------| | **Playwright / Puppeteer** | 写代码控制浏览器 | 你要写脚本,OpenCLI 给你现成命令 | | **Selenium** | 老牌浏览器自动化 | 慢、配置重,OpenCLI 走 CDP 更轻量 | | **browser-use(独立项目)** | AI Agent 跑浏览器 | 多半用自己虚拟浏览器,OpenCLI 复用你登录的 Chrome | | **agent-reach** | 给 Agent 装"读"能力 | OpenCLI 装"操作"能力,互补 | | **Claude Computer Use** | Anthropic 官方的屏幕控制 | 走截图 OCR,**准确度和速度都差一个量级** | **OpenCLI 的核心优势是 CDP 协议 + 你登录的 Chrome**——这不是新东西,但**把它封装成 CLI + Agent Skill 组合**这件事,OpenCLI 是第一个做对的开源项目。 ## 9、我的选型建议——按 3 类读者 ### 如果你是 AI Agent 重度用户 **强烈建议装**。配合 agent-reach 一套完整的 Agent 互联网能力。**先在副机测试 + 用小号登录**,跑通了再上主力 Chrome。 ### 如果你只是想爬点数据 不需要 OpenCLI。`opencli hackernews top` 这种公开 API 命令 GitHub 上一堆替代品。**OpenCLI 的价值在"复用登录态"**,无登录态的场景你用其他工具更轻。 ### 如果你是给团队搭 Agent 工具链 OpenCLI 比 Playwright 维护成本低一个量级——**6 个 Skill 覆盖了 80% 的常见需求**。但你**需要给团队做安全培训**(Chrome 扩展权限 + 平台账号风险),不要让团队成员在主账号上乱跑命令。 ### 我自己的最终判断 OpenCLI 现在(v1.8.4,2026-06)**还处于"功能性够用、安全性要自己把握"的阶段**。等它到 2.0 + Chrome 扩展权限粒度更细 + 官方出审计报告之后,会更值得在生产环境用。 但即便现在,**它在"读 + 操作"这个垂直的能力封装**已经领先所有同类开源项目至少 6 个月。**装上之后 30 分钟就有真实价值**——这事在 2026 年的开源项目里非常少见。 --- ## 写在最后 OpenCLI 让我第一次觉得 **"AI Agent 真的有手了"**——不是宣传话术,是**它能在我登录的 Chrome 里真的去操作、真的去拿数据、真的去填表单**。 代价是把 Chrome 会话交给它 + 自己想清楚封号风险。但这个 trade-off 在 2026 年的 Agent 工具链里**算合理**——总比写一晚上 Playwright 脚本然后被风控封 IP 强。 **你用 Agent 替自己干过最离谱的一件事是什么?评论区聊聊。**
摘要
标签
多个标签用逗号分隔
分类
技术文章
教程指南
工具测评
项目实战
行业观察
默认
💾 保存修改
← 返回查看
返回列表