OpenSquilla 0.4.1：5k Stars 的"节流"Agent，把同一道题压到 $0.7

我先是被它那个名字勾过来的——OpenSquilla，这不是 "squid（鱿鱼）" 的亲戚吗？查了下，squilla 在西语里是"小龙虾"（属名 Squilla mantis），一种贴地爬但极其警觉的小东西。

这名字挺贴这项目的：贴地（local-first，路由器跑在设备上）、警觉（每个回合都打分，看值不值用大模型）。

仓库：https://github.com/opensquilla/opensquilla

Apache-2.0 / Python 3.12+ / 5,051 Stars / 365 Forks / 90 个 Open Issue / 上次提交 2026-06-29

我第一眼看到的"怪词"

打开 README 没多久就撞到几个词，我愣了好几下：

SquillaRouter —— 路由器，但它不是网络路由器，是"模型路由器"
Tier 0/1/2/3 —— 难度分级，从 T0 到 T3
C0–C3 —— T0–T3 的别名，文档说"legacy name"
P0 —— prompt 策略
PinchBench 1.2.1 —— 它自带的基准

最离谱的是 Benchmark 表里，OpenSquilla 用路由器（Opus4.7 + GLM5.1 + DS4 Flash 混编）跑出来 0.9251 分，而 OpenClaw 跑单一 Opus 4.7 是 0.9255 分。几乎一样的分数，成本从 $6.233 砍到 $0.688。

$6.2 → $0.7，省了 89%。

这是它最想告诉你的卖点：Same budget, more capability, better results。

装一下看看

我用的是 macOS，README 给的五条安装路径我挑了最稳的一条：Quick terminal install。

curl -LsSf https://astral.sh/uv/install.sh | sh
. "$HOME/.local/bin/env"

uv tool install --python 3.12 "opensquilla[recommended] @ https://github.com/opensquilla/opensquilla/releases/download/v0.4.1/opensquilla-0.4.1-py3-none-any.whl"

47.5 MB 的 wheel，下了 1 分多钟
默认装 SquillaRouter 配套（ONNX Runtime、LightGBM、NumPy、tokenizers）
macOS 上如果你用 Quick install 没装 libomp，LightGBM 跑不起来——会提示 Library not loaded: @rpath/libomp.dylib，brew install libomp 一行搞定
装好之后 opensquilla --help 直接出面板，工具齐全

它顺手在我 ~/.opensquilla/workspace/ 下生成了 8 个文件：

AGENTS.md  BOOTSTRAP.md  HEARTBEAT.md  IDENTITY.md
MEMORY.md  SOUL.md       TOOLS.md      USER.md
memory/                   .opensquilla/

这跟 OpenClaw / Hermes Agent 是一脉相承的"人格 + 记忆"分层——SOUL.md 是语气，USER.md 是用户画像，MEMORY.md 是长期记忆，HEARTBEAT.md 是心跳节奏。首次跑会创建，后面跑不再覆盖。

跑 `doctor` 看看出厂状态

opensquilla doctor

输出挺干净的表格，分三栏：严重度 / 影响面 / 修复步骤。

我刚装完没配 provider，doctor 给我两条 error：

严重度	影响	修复
error	config	跑 `opensquilla configure provider`
error	gateway	跑 `opensquilla gateway start`

有 error 就给具体命令，不是给一段散文让你自己琢磨。

路由器是怎么省 token 的

这部分是它最想让你理解的核心。我直接说大白话：

SquillaRouter 是个 47MB 的 LightGBM + ONNX 分类器，本地跑在 ONNX Runtime 上。

每句话进来，它做几件事：

看长度——12 个字 vs 1200 字，权重不一样
看语言——中英日法德西六种，按 T0–T3 算分
看是不是代码——带 def、import、#include 这种
看关键词——"高风险"、"debug"、"长上下文" 等触发
看 BGE 嵌入——BGE-ONNX 模型（24MB）做语义特征

输出是一个 4 维的概率向量（4 个 tier），按概率定 T0–T3。

然后路由到不同模型：

T0（最简单）→ GLM-5.1 / DeepSeek 4 Flash 之类便宜的
T3（最难）→ Opus 4.7 之类顶配
中间档按 P0/P1/P2 切换系统 prompt 长度和"思考时间"

P0 的中文 hint 我贴出来给你看：

直接作答，缩短思考长度，避免无关展开。

这就是 P0 策略触发时给模型的指令——别废话，直给答案。P1/P2 我没去挖，估计是中等和详细。

我看到 README 里的数据很保守：

Benchmark: 25 tasks，平均 OpenSquilla = 0.9251 / OpenClaw = 0.9255；token 1,721,328 vs 3,066,243；成本 $0.688 vs $6.233

token 直接省 44%，钱省 89%，分几乎一样。

反过来说：如果你每次都让 Opus 4.7 直接上场，OpenSquilla 给你退一步——简单问题交给便宜模型，难问题才丢给贵的。

装了 141 个 Skill，但只在用的时候加载

我跑了 opensquilla skills list，总共 141 个 skill，分两层：

bundled（50 个）——代码、cron、github、memory、html-coder、pdf 等等
personal（91 个）——从你机器上读出来的，OpenSquilla 不负责这些

bundled 里挑几个我眼熟的：

code-task —— 跑真实仓库任务
deep-research —— 多轮研究
meta-skill-creator —— 创建新 skill
meta-short-drama —— 短剧脚本（很野）
meta-paper-write —— 论文写作
filesystem / git-diff / http-fetch / html-coder —— 基础工具

关键设计：按需加载。不是 141 个全塞 prompt，而是 LLM 说"我要用 github"才把 github skill 拉进去。这是 token 省的第二个关键。

20+ LLM Provider，但有一半是 disabled

opensquilla providers list 列了 30 个：

13 个 supported：openrouter / openai / anthropic / deepseek / gemini / groq / ollama / dashscope / moonshot / byteplus / qianfan / zhipu / siliconflow
17 个 disabled：azure / lm_studio / minimax / mistral / ovms 等——README 说"待启用"

国内能用且 supported 的：DeepSeek、阿里 DashScope、月之暗面 Moonshot、字节 BytePlus Ark。Anthropic、OpenAI、Gemini 也都行。本地 Ollama 也在 supported 列表。

实际配置时推荐走 OpenRouter——一个 key 通吃所有模型，路由器在上面自己挑。

10 个 channel + 17 个内置 tool

opensquilla dist 输出：

bundled_channels: dingtalk, discord, feishu, matrix, qq, slack, telegram, terminal, websocket, wecom
bundled_tools:   admin, agent, agents, code_exec, filesystem, git, media,
                 memory_tools, messaging, nodes, patch, session_search,
                 sessions, shell, skill_tools, web, web_fetch

10 个聊天渠道：飞书、钉钉、QQ、企业微信、Discord、Slack、Telegram、Matrix、Terminal、WebSocket——基本把国内外 IM 都覆盖了。

17 个内置 tool——文件、git、shell、web、记忆、session、skill 这些 agent 必备。

我用过的几个核心：

agent —— 起 sub-agent
shell —— 跑命令
patch —— 改文件（不破坏式编辑）
web / web_fetch —— 联网搜
memory_tools —— 写记忆
messaging —— 发消息到渠道

Migration：从 OpenClaw / Hermes 直接搬

这一条我觉得最实用。opensquilla migrate openclaw --apply 能直接把你原来的 OpenClaw 配置、记忆、技能、频道配置整套搬过来。

opensquilla migrate openclaw --json     # 先 dry-run 看报告
opensquilla migrate openclaw --apply    # 应用
opensquilla migrate hermes --json       # 也可以搬 Hermes
opensquilla migrate hermes --apply

--json 输出迁移报告，能看到要搬哪些文件、哪些会冲突、哪些能合并。

我没真的搬——我的 OpenClaw 数据是 2 个月的实验数据，已经乱了。但这条迁移路径的"野心"是清楚的：它想当你机器上所有 agent runtime 的统一收口。

上手要避开的两个坑

坑 1：onboard 必须先

你装好直接 opensquilla chat 一定报错：no provider。先跑 opensquilla onboard 走一遍，选 provider、贴 API key。--api-key-env 是关键——别把 key 直接写命令里，用环境变量名。

export OPENROUTER_API_KEY="sk-..."
opensquilla onboard --provider openrouter --api-key-env OPENROUTER_API_KEY

坑 2：sandbox 在 Windows 上是空的

README 写得很明确：Linux 用 Bubblewrap，macOS 用 Seatbelt（目前只生成 profile，真正执行还没做），Windows 上沙箱后端直接没有。

这意味着 Windows 上跑 OpenSquilla 等于裸奔——它自己会 warning：

sandbox.disabled_insecure_mode: sandbox=false; host isolation is OFF

我在自己的 Windows 上测的时候看到这行。安全敏感场景别在 Windows 跑。要么 WSL2 要么 Mac 要么 Linux。

适合谁

适合：
- 已经在用 OpenRouter 或者本地 Ollama，每次让 Opus 4.7 上场觉得太贵的
- OpenClaw / Hermes 重度用户，想找个能迁过去的
- 经常跑 cron 任务的（cron 时区精确、跨时区、自带失败重投）
- 想要 Web UI + 终端 + 飞书三端共用一个 agent

不适合：
- 只要一次性聊两句的——杀鸡用牛刀
- 安全敏感场景（Windows 上没沙箱）
- 还在用单一 provider 锁死的（你享受不到 router 的优势）

我的使用建议

第一步先 doctor 看清自己的环境——provider / gateway / 频道状态一目了然
不要一上来就 chat——onboard 走完再跑
路由器默认配置即可——SquillaRouter 装的时候随包带了 47MB 的 LightGBM 模型，不要再去手动开
macOS 记得 brew install libomp——LightGBM 跑不起来
技能按需装——141 个不是都要，让路由器自己挑

互动问题：你每个月在 LLM API 上花多少钱？如果减到 1/10 你会想试试看吗？

小创 / 创见 AI 实验室

预加载评论
路由器这个思路是对的——简单问题没必要烧 Opus，OpenClaw 一刀切确实浪费 | 89% 成本削减、分数不掉，这个数据很猛，期待看更多 benchmark | macOS 上 libomp 这个坑我也踩过，最后 brew install libomp 解决的 | Windows 上没有 sandbox 后端这点很关键，生产环境千万别在 Windows 跑 | 名字叫 Squilla（小龙虾）很可爱，logo 不知道长啥样

📄 文档管理系统

OpenSquilla 0.4.1：5k Stars 的"节流"Agent，把同一道题压到 $0.7