多模型能力对标 · 多源求真

能力看十维，
价格看基线。

以 Claude 为 1.0× 基准。能力不编单一"综合分"——每个维度都锚定一个真实榜单（Artificial Analysis / LMArena / SuperCLUE / Vectara / AIME·HMMT / SWE-bench），再叠加 Reddit r/LocalLLaMA、30 天实测等真实口碑交叉验证。覆盖编程、推理、数学、写作、多媒体、智能体、长上下文、可靠性等十个常比维度。

95-100 顶尖 88-94 强 80-87 扎实 <80 偏弱 / 非主打

基线：Claude

为什么是它

● Baseline / 基线

Claude · Anthropic

客观第一Artificial Analysis 智能指数 Opus 4.8 ≈56 居首；LMArena 真人投票综合 ~1510 第一、编程 ~1582 第一。
事实标准Claude Code 占企业编程市场约 54%，几乎所有国产 Coding Plan 都以"能接 Claude Code"为卖点。
定价锚点$18–20 标准档 + $100/$200 高端档是全行业模板：ChatGPT Plus $20 / Pro $200、Gemini Pro $19.99 / Ultra $99.99–200 均与之对齐。

标准订阅

$18 / 月（年付约 $17）

旗舰 / 次顶级

Opus 4.8 · Sonnet 4.6

最强项

编程 · 写作 · 可靠性

相对弱项

多媒体（无图/视频生成）

上下文

1M tokens

API（Sonnet/Opus）

$3/$15 · $5/$25

能力全景热力图

点列标题可排序

每格为 0–100 的相对分（综合各维度的权威榜单 + 真实用户口碑折算而来），不是某家官方单一数字。点击任意维度列标题按该项排序。琥珀色行 = Claude 基线。没有哪家全维度领先——这正是 2026 年的特点：各有所长。

顶尖 95+ 强 88-94 扎实 80-87 尚可 75-79 偏弱 <75 豆包未参与多数海外榜单，其分含较多估计成分（见来源说明）

套餐用量与等效额度

官方口径 + 社区实测

这是最不透明的一块：各家用消息条数 / 次数 / 积分 / 活跃小时计量，几乎都不直接给"每月能用多少字词"。每张卡片含三部分：官方计量方式、各档额度、以及按真实用户实测用量折算的「相当于多少钱的用量/月」。关键提醒——这个折算很看使用强度（轻度聊天 vs 重度自动写代码可差 10–50 倍），故按"典型活跃用户"给区间，且按实测用量、不是套餐标称上限（按上限折算会虚高好几倍）。带"≈""粗算""缺实测"的请谨慎，务必以官网当期为准。

一句话结论：靠订阅"省 token 钱"的，是 Claude Code（自家 API 贵、套餐额度大，重度可达 3–15× 月费）和国产 Coding Plan 里"缓存友好 + 额度给得足"的几家——Kimi Andante（缓存不计入、周 ~48M token）实测每 token 最便宜，GLM Lite 也便宜，但都受"周额度硬顶"约束、吃满才划算。MiMo 的"41 亿 Credits"是障眼法：≈ ¥41 按量价、几乎不省钱。ChatGPT / Gemini 因自家 API 偏贵，订阅折算反比按量便宜（≈$4/M）；Grok 相反——API 太便宜（$1.25/$2.50），$30 订阅按 token 算反而更贵，价值在实时 X 与多媒体。DeepSeek、豆包则消费端全免费、本就无订阅可省（豆包要量产走方舟 API）。前提始终是：你真的重度、且吃得满额度。

完整数据矩阵

琥珀行 = 基线 · 点击模型名跳官网 ↗

模型	旗舰	综合	编程	推理	多媒体	靠谱	会员月费	会员折算价	API价·发送/回复	API 综合价

「会员折算价」怎么算：= 会员月费 ÷ 这档每月实际能用的字词量。字词量尽量取自真实实测 / 官方额度：Claude Pro（Anthropic 官方 ≈$13/活跃日 + Reddit 实测）、GLM Coding Lite（论坛 ~80 次提问/5h）、Kimi Andante（Jiegec 实测 1000 万字词/5h、~4800 万/周·重复内容不计）、MiMo Token Plan Lite（官方折算 41 亿积分 = ¥41 的按量价、智能体约 900 万字词）。DeepSeek、豆包 消费端免费、无付费订阅，会员折算价列「—」（豆包规模化走方舟 API）。ChatGPT（OpenAI 官方 Codex ≈$100–200/月 + Plus 消息额度）、Gemini（AI Pro Antigravity 积分 + 消息额度）、Grok（SuperGrok 30 条/2h 消息额度）按官方额度粗估、精度低于前几家。青色 = 比自己按量调用还便宜，琥珀 = 基本持平，珊瑚 = 反而更贵（如 Grok：按量调用太便宜、会员价值在实时 X / 多媒体而非省用量）。「API 综合价」怎么算：= 发送价×0.9 + 回复价×0.1，按真实使用比例加权（据 OpenRouter 千亿字词真实统计：平均每次发送≈6000、回复≈400 字词、约 15:1；检索问答实测约 8:1，比官方常用的 3:1 更偏「发送」；本表取折中 9:1）。该列颜色相对 Claude 基线（青=更便宜 / 琥珀≈持平 / 珊瑚=更贵）。单价越低≠越好（质量差别很大）；均为粗算、随使用强度波动，仅供大致参考。

套餐总览对比

价格 · 额度 · 每百万字单价

每个有会员的模型挑 3 个较推荐的档位，列出价格 / 额度 / 每百万字词的折算单价（单价 = 会员月费 ÷ 每月实际能用的字词量，均为粗算、随使用强度大幅波动，以官网当期为准）；DeepSeek、豆包无消费会员，改看 API 综合价（发送×0.9 + 回复×0.1）。单价颜色：青=便宜 / 琥珀=中等 / 珊瑚=偏贵。

ClaudeOpus 4.8

Pro$20~10–45 提问/5h≈$3.6/M

Max 5x$1005× 额度≈$3.6/M

Max 20x$20020× 额度≈$1.8/M

ChatGPTGPT-5.5

Free$0限量聊天免费

Plus$20~15–80 消息/5h≈$3.8/M

Pro$2005×/20× 多档≈$2.5/M

GeminiGemini 3.1 Pro

AI Plus$7.99200 积分/月≈$8.0/M

AI Pro$19.991000 积分/月≈$4.0/M

AI Ultra$99.99+25000 积分/月≈$0.8/M

GrokGrok 4.3

SuperGrok$30~数百消息/天≈$6.0/M

Heavy$3002–3×+视频语音≈$24/M

GLMGLM-5.2

Lite¥49~80 提问/5h≈$0.25/M

Pro¥149~400 提问/5h≈$0.15/M

Max¥469~1600 提问/5h≈$0.12/M

KimiK2.7 Code

Andante¥39~48M 字/周≈$0.1/M

Moderato¥79倍率递增≈$0.1/M

Allegretto¥159倍率递增≈$0.1/M

小米 MiMoMiMo-V2.5-Pro

Lite¥34.3241 亿积分≈$0.55/M

Standard¥87.12110 亿积分≈$0.52/M

Pro¥289.52380 亿积分≈$0.50/M

DeepSeekV4 Pro

无消费会员 · App 免费

API 综合价≈$0.09/M

豆包豆包 2.1 Pro

无消费会员 · App 免费

API 综合价≈$1.2/M

数据来源与方法

多源独立互证

核心原则：不替你算单一"综合最强"。每个能力维度都用不同的独立权威榜单交叉验证，再加上真实用户口碑与实测。下面是各维度的依据来源：

综合智能 · 客观

Artificial Analysis

全球权威的 AI 综合评测，汇总约 9 类专业测试打出「总体智能分」。本页「综合」一列主要参考它。

真人投票 · 盲选

LMArena (Arena)

600 万+ 真人盲选投票（看不到是哪家、只凭回答好坏投票）。注意：票高≠真的更好用——回答啰嗦、客气也可能占便宜。

中文能力

SuperCLUE

国内最资深的中文能力评测，覆盖数学、科学、是否瞎编、能否听懂指令、写代码等方面。豆包等国产的中文真实差距看它。

靠谱 / 少瞎编

Vectara HHEM + AA-Omniscience

两个「会不会瞎编」的测评：一个看总结是否忠于原文（Gemini 较强），一个看会不会老实说「我不知道」而不是硬编（Claude 较强）。越爱推理的模型通常越容易瞎编。

数学 · 编程 · 推理

AIME/HMMT · SWE-bench · GPQA/HLE

分别测：数学竞赛题、真实开源项目里改 Bug、研究生级难题推理。注意：同一模型换测试方式，分数能差 17–21 分。

真实口碑 · 用量 · 成本

Reddit r/LocalLLaMA · OpenRouter · 实测博客

真实用户口碑（如 Kimi「最自律」、DeepSeek 文档最全）、真实使用量统计、30 天实测；§06 的折算价来自网友实测用量、官方公布的人均消耗、以及中文实测。

能力看十维，
价格看基线。

基线：Claude

能力全景热力图

基线雷达对比

八家挑战者

价格量化对标

套餐用量与等效额度

完整数据矩阵

套餐总览对比

数据来源与方法

能力看 十维，价格看 基线。

基线：Claude

能力全景热力图

基线雷达对比

八家挑战者

价格量化对标

套餐用量与等效额度

完整数据矩阵

套餐总览对比

数据来源与方法

能力看十维，
价格看基线。