以 Claude 为 1.0× 基准。能力不编单一"综合分"——每个维度都锚定一个真实榜单(Artificial Analysis / LMArena / SuperCLUE / Vectara / AIME·HMMT / SWE-bench),再叠加 Reddit r/LocalLLaMA、30 天实测等真实口碑交叉验证。覆盖编程、推理、数学、写作、多媒体、智能体、长上下文、可靠性等十个常比维度。
每格为 0–100 的相对分(综合各维度的权威榜单 + 真实用户口碑折算而来),不是某家官方单一数字。点击任意维度列标题按该项排序。琥珀色行 = Claude 基线。没有哪家全维度领先——这正是 2026 年的特点:各有所长。
琥珀色填充 = Claude 基线轮廓。选一家挑战者叠加(青色),一眼看出它在哪些维度超过 / 不及基线。
价格是硬数字。琥珀竖线 = Claude 基线,随维度移动;青色更便宜(优势)、珊瑚更贵。API 同时给出输入价与输出价(实际账单中输出通常是大头)。¥ 按 ≈7.2 折算。
这是最不透明的一块:各家用消息条数 / 次数 / 积分 / 活跃小时计量,几乎都不直接给"每月能用多少字词"。每张卡片含三部分:官方计量方式、各档额度、以及按真实用户实测用量折算的「相当于多少钱的用量/月」。关键提醒——这个折算很看使用强度(轻度聊天 vs 重度自动写代码可差 10–50 倍),故按"典型活跃用户"给区间,且按实测用量、不是套餐标称上限(按上限折算会虚高好几倍)。带"≈""粗算""缺实测"的请谨慎,务必以官网当期为准。
一句话结论:靠订阅"省 token 钱"的,是 Claude Code(自家 API 贵、套餐额度大,重度可达 3–15× 月费)和国产 Coding Plan 里"缓存友好 + 额度给得足"的几家——Kimi Andante(缓存不计入、周 ~48M token)实测每 token 最便宜,GLM Lite 也便宜,但都受"周额度硬顶"约束、吃满才划算。MiMo 的"41 亿 Credits"是障眼法:≈ ¥41 按量价、几乎不省钱。ChatGPT / Gemini 因自家 API 偏贵,订阅折算反比按量便宜(≈$4/M);Grok 相反——API 太便宜($1.25/$2.50),$30 订阅按 token 算反而更贵,价值在实时 X 与多媒体。DeepSeek、豆包则消费端全免费、本就无订阅可省(豆包要量产走方舟 API)。前提始终是:你真的重度、且吃得满额度。
| 模型 | 旗舰 | 综合 | 编程 | 推理 | 多媒体 | 靠谱 | 会员月费 | 会员折算价 | API价·发送/回复 | API 综合价 |
|---|
「会员折算价」怎么算:= 会员月费 ÷ 这档每月实际能用的字词量。字词量尽量取自真实实测 / 官方额度:Claude Pro(Anthropic 官方 ≈$13/活跃日 + Reddit 实测)、GLM Coding Lite(论坛 ~80 次提问/5h)、Kimi Andante(Jiegec 实测 1000 万字词/5h、~4800 万/周·重复内容不计)、MiMo Token Plan Lite(官方折算 41 亿积分 = ¥41 的按量价、智能体约 900 万字词)。DeepSeek、豆包 消费端免费、无付费订阅,会员折算价列「—」(豆包规模化走方舟 API)。ChatGPT(OpenAI 官方 Codex ≈$100–200/月 + Plus 消息额度)、Gemini(AI Pro Antigravity 积分 + 消息额度)、Grok(SuperGrok 30 条/2h 消息额度)按官方额度粗估、精度低于前几家。青色 = 比自己按量调用还便宜,琥珀 = 基本持平,珊瑚 = 反而更贵(如 Grok:按量调用太便宜、会员价值在实时 X / 多媒体而非省用量)。「API 综合价」怎么算:= 发送价×0.9 + 回复价×0.1,按真实使用比例加权(据 OpenRouter 千亿字词真实统计:平均每次发送≈6000、回复≈400 字词、约 15:1;检索问答实测约 8:1,比官方常用的 3:1 更偏「发送」;本表取折中 9:1)。该列颜色相对 Claude 基线(青=更便宜 / 琥珀≈持平 / 珊瑚=更贵)。单价越低≠越好(质量差别很大);均为粗算、随使用强度波动,仅供大致参考。
每个有会员的模型挑 3 个较推荐的档位,列出价格 / 额度 / 每百万字词的折算单价(单价 = 会员月费 ÷ 每月实际能用的字词量,均为粗算、随使用强度大幅波动,以官网当期为准);DeepSeek、豆包 无消费会员,改看 API 综合价(发送×0.9 + 回复×0.1)。单价颜色:青=便宜 / 琥珀=中等 / 珊瑚=偏贵。
核心原则:不替你算单一"综合最强"。每个能力维度都用不同的独立权威榜单交叉验证,再加上真实用户口碑与实测。下面是各维度的依据来源: