能力 × 订阅对标 · 以 Claude 为基线
9 模型10 能力维度6 榜单交叉2026.06
多模型能力对标 · 多源求真

能力看 十维
价格看 基线

Claude 为 1.0× 基准。能力不编单一"综合分"——每个维度都锚定一个真实榜单(Artificial Analysis / LMArena / SuperCLUE / Vectara / AIME·HMMT / SWE-bench),再叠加 Reddit r/LocalLLaMA、30 天实测等真实口碑交叉验证。覆盖编程、推理、数学、写作、多媒体、智能体、长上下文、可靠性等十个常比维度。

95-100 顶尖 88-94 强 80-87 扎实 <80 偏弱 / 非主打
01

基线:Claude

为什么是它
● Baseline / 基线
Claude · Anthropic
  • 客观第一Artificial Analysis 智能指数 Opus 4.8 ≈56 居首;LMArena 真人投票综合 ~1510 第一、编程 ~1582 第一。
  • 事实标准Claude Code 占企业编程市场约 54%,几乎所有国产 Coding Plan 都以"能接 Claude Code"为卖点。
  • 定价锚点$18–20 标准档 + $100/$200 高端档是全行业模板:ChatGPT Plus $20 / Pro $200、Gemini Pro $19.99 / Ultra $99.99–200 均与之对齐。
标准订阅
$18 / 月 (年付约 $17)
旗舰 / 次顶级
Opus 4.8 · Sonnet 4.6
最强项
编程 · 写作 · 可靠性
相对弱项
多媒体 (无图/视频生成)
上下文
1M tokens
API(Sonnet/Opus)
$3/$15 · $5/$25
02

能力全景热力图

点列标题可排序

每格为 0–100 的相对分(综合各维度的权威榜单 + 真实用户口碑折算而来),不是某家官方单一数字。点击任意维度列标题按该项排序。琥珀色行 = Claude 基线。没有哪家全维度领先——这正是 2026 年的特点:各有所长。

顶尖 95+ 强 88-94 扎实 80-87 尚可 75-79 偏弱 <75 豆包未参与多数海外榜单,其分含较多估计成分(见来源说明)
03

基线雷达对比

Claude vs 选定挑战者

琥珀色填充 = Claude 基线轮廓。选一家挑战者叠加(青色),一眼看出它在哪些维度超过 / 不及基线。

Claude · Opus 4.8(基线) GPT
04

八家挑战者

最强 3 维 + 利基
05

价格量化对标

订阅 / API 输入 / API 输出

价格是硬数字。琥珀竖线 = Claude 基线,随维度移动;青色更便宜(优势)、珊瑚更贵。API 同时给出输入价与输出价(实际账单中输出通常是大头)。¥ 按 ≈7.2 折算。

06

套餐用量与等效额度

官方口径 + 社区实测

这是最不透明的一块:各家用消息条数 / 次数 / 积分 / 活跃小时计量,几乎都不直接给"每月能用多少字词"。每张卡片含三部分:官方计量方式、各档额度、以及按真实用户实测用量折算的「相当于多少钱的用量/月」。关键提醒——这个折算很看使用强度(轻度聊天 vs 重度自动写代码可差 10–50 倍),故按"典型活跃用户"给区间,且按实测用量、不是套餐标称上限(按上限折算会虚高好几倍)。带"≈""粗算""缺实测"的请谨慎,务必以官网当期为准。

一句话结论:靠订阅"省 token 钱"的,是 Claude Code(自家 API 贵、套餐额度大,重度可达 3–15× 月费)和国产 Coding Plan 里"缓存友好 + 额度给得足"的几家——Kimi Andante(缓存不计入、周 ~48M token)实测每 token 最便宜,GLM Lite 也便宜,但都受"周额度硬顶"约束、吃满才划算。MiMo 的"41 亿 Credits"是障眼法:≈ ¥41 按量价、几乎不省钱。ChatGPT / Gemini 因自家 API 偏贵,订阅折算反比按量便宜(≈$4/M);Grok 相反——API 太便宜($1.25/$2.50),$30 订阅按 token 算反而更贵,价值在实时 X 与多媒体。DeepSeek、豆包则消费端全免费、本就无订阅可省(豆包要量产走方舟 API)。前提始终是:你真的重度、且吃得满额度。

07

完整数据矩阵

琥珀行 = 基线 · 点击模型名跳官网 ↗
模型旗舰综合编程推理多媒体靠谱会员月费会员折算价API价·发送/回复API 综合价

「会员折算价」怎么算:= 会员月费 ÷ 这档每月实际能用的字词量。字词量尽量取自真实实测 / 官方额度Claude Pro(Anthropic 官方 ≈$13/活跃日 + Reddit 实测)、GLM Coding Lite(论坛 ~80 次提问/5h)、Kimi Andante(Jiegec 实测 1000 万字词/5h、~4800 万/周·重复内容不计)、MiMo Token Plan Lite(官方折算 41 亿积分 = ¥41 的按量价、智能体约 900 万字词)。DeepSeek、豆包 消费端免费、无付费订阅,会员折算价列「—」(豆包规模化走方舟 API)。ChatGPT(OpenAI 官方 Codex ≈$100–200/月 + Plus 消息额度)、Gemini(AI Pro Antigravity 积分 + 消息额度)、Grok(SuperGrok 30 条/2h 消息额度)按官方额度粗估、精度低于前几家。青色 = 比自己按量调用还便宜,琥珀 = 基本持平,珊瑚 = 反而更贵(如 Grok:按量调用太便宜、会员价值在实时 X / 多媒体而非省用量)。「API 综合价」怎么算:= 发送价×0.9 + 回复价×0.1,按真实使用比例加权(据 OpenRouter 千亿字词真实统计:平均每次发送≈6000、回复≈400 字词、约 15:1;检索问答实测约 8:1,比官方常用的 3:1 更偏「发送」;本表取折中 9:1)。该列颜色相对 Claude 基线(青=更便宜 / 琥珀≈持平 / 珊瑚=更贵)。单价越低≠越好(质量差别很大);均为粗算、随使用强度波动,仅供大致参考。

08

套餐总览对比

价格 · 额度 · 每百万字单价

每个有会员的模型挑 3 个较推荐的档位,列出价格 / 额度 / 每百万字词的折算单价(单价 = 会员月费 ÷ 每月实际能用的字词量,均为粗算、随使用强度大幅波动,以官网当期为准);DeepSeek、豆包 无消费会员,改看 API 综合价(发送×0.9 + 回复×0.1)。单价颜色:青=便宜 / 琥珀=中等 / 珊瑚=偏贵

ClaudeOpus 4.8
Pro$20~10–45 提问/5h≈$3.6/M
Max 5x$1005× 额度≈$3.6/M
Max 20x$20020× 额度≈$1.8/M
ChatGPTGPT-5.5
Free$0限量聊天免费
Plus$20~15–80 消息/5h≈$3.8/M
Pro$2005×/20× 多档≈$2.5/M
GeminiGemini 3.1 Pro
AI Plus$7.99200 积分/月≈$8.0/M
AI Pro$19.991000 积分/月≈$4.0/M
AI Ultra$99.99+25000 积分/月≈$0.8/M
GrokGrok 4.3
SuperGrok$30~数百消息/天≈$6.0/M
Heavy$3002–3×+视频语音≈$24/M
GLMGLM-5.2
Lite¥49~80 提问/5h≈$0.25/M
Pro¥149~400 提问/5h≈$0.15/M
Max¥469~1600 提问/5h≈$0.12/M
KimiK2.7 Code
Andante¥39~48M 字/周≈$0.1/M
Moderato¥79倍率递增≈$0.1/M
Allegretto¥159倍率递增≈$0.1/M
小米 MiMoMiMo-V2.5-Pro
Lite¥34.3241 亿积分≈$0.55/M
Standard¥87.12110 亿积分≈$0.52/M
Pro¥289.52380 亿积分≈$0.50/M
DeepSeekV4 Pro
无消费会员 · App 免费
API 综合价≈$0.09/M
豆包豆包 2.1 Pro
无消费会员 · App 免费
API 综合价≈$1.2/M
09

数据来源与方法

多源独立互证

核心原则:不替你算单一"综合最强"。每个能力维度都用不同的独立权威榜单交叉验证,再加上真实用户口碑与实测。下面是各维度的依据来源:

综合智能 · 客观
Artificial Analysis
全球权威的 AI 综合评测,汇总约 9 类专业测试打出「总体智能分」。本页「综合」一列主要参考它。
真人投票 · 盲选
LMArena (Arena)
600 万+ 真人盲选投票(看不到是哪家、只凭回答好坏投票)。注意:票高≠真的更好用——回答啰嗦、客气也可能占便宜。
中文能力
SuperCLUE
国内最资深的中文能力评测,覆盖数学、科学、是否瞎编、能否听懂指令、写代码等方面。豆包等国产的中文真实差距看它。
靠谱 / 少瞎编
Vectara HHEM + AA-Omniscience
两个「会不会瞎编」的测评:一个看总结是否忠于原文(Gemini 较强),一个看会不会老实说「我不知道」而不是硬编(Claude 较强)。越爱推理的模型通常越容易瞎编。
数学 · 编程 · 推理
AIME/HMMT · SWE-bench · GPQA/HLE
分别测:数学竞赛题、真实开源项目里改 Bug、研究生级难题推理。注意:同一模型换测试方式,分数能差 17–21 分。
真实口碑 · 用量 · 成本
Reddit r/LocalLLaMA · OpenRouter · 实测博客
真实用户口碑(如 Kimi「最自律」、DeepSeek 文档最全)、真实使用量统计、30 天实测;§06 的折算价来自网友实测用量、官方公布的人均消耗、以及中文实测。