MiniMax 又发新模型了——这次叫 M3,定位是「Coding & Agentic Frontier」,1M 上下文,原生多模态。
官方说法是:「第一个把三项前沿能力统一在一个模型里的开源模型」。
数据看起来很猛,今天把关键信息整理出来。
| 参数 | 数值 | 说明 |
|---|---|---|
| 上下文窗口 | 1M tokens | API 支持,保证最低 512K |
| 处理速度 | 100 TPS | 比 Opus 快 3 倍 |
| 输入价格 | $0.30/M | API 直接调用 |
| 混合价格(含缓存) | $0.06/M | 开启自动 Cache 后 |
$0.06/M 是什么概念?官方对比图显示,业界 SOTA(Opus 级别)平均 $0.9+/M——M3 便宜了 15 倍。
Pi Agent 已支持 MiniMax M3,在 pi.dev/models 可以看到:
| 模型 ID | 上下文 | 输入价格 | 输出价格 |
|---|---|---|---|
MiniMax-M3 |
1M | $0.30/M | 缓存后 $0.06/M |
M3 的 benchmark 数据来自三个场景:
| 模型 | 得分 |
|---|---|
| MiniMax M3 | 83.5 |
| Claude Opus 4.7 | 79.3 |
M3 在自主浏览和信息检索能力上超过了 Claude Opus 4.7。
| 测试 | M3 | Opus 4.7 |
|---|---|---|
| SWE-bench Pro | 与 Opus 持平 | 基准 |
| SWE-bench Verified | 与 Opus 持平 | 基准 |
MiniMax 让 M3 在 12 小时内自主完成四个预训练模型的全流程——数据合成、训练、评测、迭代。
| 模型 | 得分 | 排名 |
|---|---|---|
| Opus 4.7 | 42.4 | #1 |
| GPT-5.5 | 39.3 | #2 |
| MiniMax M3 | 37.1 | #3 |
超过其他所有模型,包括 DeepSeek V4 等。
官方做了一次极端测试:让 M3 优化 NVIDIA Hopper GPU 上的 FP8 GEMM 内核。
从非可运行的 Triton 骨架代码开始,M3 连续跑了约 24 小时:
- 完成 147 次 benchmark 提交
- 硬件峰值利用率从 7.6% 提升到 71.3%
- 实现了 9.4 倍加速
- 全程无人工干预
M3 在软件工程、终端执行、多步推理等主流 benchmark 上达到世界领先水平。
强化学习优化的 Agent 编排能力,支持自适应任务分解和多步推理。相当于给 AI 发了一套完整的工具链——不只是写代码,还能规划、执行、调试。
官方把 1M 上下文定义为「基础设施」,不只是能力指标。
1M 上下文是长程 Agent 任务、长程 Coding、长视频理解的基础设施。API 保证最低 512K 可用上下文。
M3 是原生多模态模型——整个数据流水线重建,训练数据扩展到 100T+,从零开始多模态训练,文本和视觉语义空间深度对齐。
不是后来加上去的视觉层,是模型的核心能力。
M3 已在 API 上可用(api.minimax.io/v1/text/chatcompletion_v2),开源版本即将发布:
import requests
url = "https://api.minimax.io/v1/text/chatcompletion_v2"
payload = {
"model": "MiniMax-M3",
"messages": [
{"role": "user", "content": "Hello"}
]
}
headers = {
"Authorization": "Bearer <token>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Pi 已支持 MiniMax M3,设置环境变量即可:
$env:MINIMAX_API_KEY="xxxxxxxxxxxxxxxx"
然后:
/model MiniMax-M3
如果你用 Token Plan(订阅),M3 的能力自动生效,价格不变。
支持的 AI Coding 工具:
- Claude Code、Cursor、OpenCode、Codex CLI、Cline、Roocode、Kilo Code、TRAE、Grok CLI
不想写代码,可以直接用 code.minimax.io,基于 M3 的通用 Agent 平台,无需开发,直接体验 Coding Agent、多模态理解等能力。
既然都写到 MiniMax M3 了,顺便对比一下大家最关心的 DeepSeek V4:
| 对比项 | MiniMax M3 | DeepSeek V4 |
|---|---|---|
| 上下文 | 1M | 1M |
| 输入价格 | $0.30/M | $0.14/M |
| 混合价格 | $0.06/M | - |
| 多模态 | ✅ 原生 | ❌ 文本为主 |
| SWE-bench | 持平 Opus 4.7 | 未公布 |
| PostTrainBench | 37.1 (#3) | - |
| 开源 | 即将 | ✅ |
结论:M3 在 Coding benchmark 上更占优,多模态能力更强;DeepSeek V4 价格更低,适合纯文本场景。
| 场景 | 推荐 |
|---|---|
| 超长代码审查(>100K tokens) | M3(1M 上下文) |
| 多模态任务(代码+截图+文档) | M3(原生多模态) |
| 复杂 Agent 任务(多步规划) | M3(Coding & Agentic) |
| 预算有限、纯文本处理 | DeepSeek V4($0.14/M) |
| 不想折腾、直接用 | Token Plan(订阅) |
💬 评论区