AI RING 是恩钛AI出品的中文AI评比平台。这里说清楚:我们的数据从哪来、排名怎么算、有什么局限。核心一句话——我们不要求你相信我们,我们让你能自己核对每一个数字。
一个评比可不可信,不看它自称多公正,而看它是否让你能自己验证。我们对照新闻与评测行业的公认标准,做到这八条:
① Artificial Analysis(机器基准)
全球公认的第三方 AI 评测机构。我们取用它的智能指数、输出速度、价格。这些是标准化机器测试结果,客观、可复现。
来源:artificialanalysis.ai/leaderboards/models
② LMArena(真人盲测投票)
由加州大学伯克利团队发起,让两个匿名 AI 同台对战、由数百万真实用户投票选出更好的回答,再用 Elo 算法算出分数。我们取用它的综合、编程、写作、数据分析(数学/量化推理)各分类的真人投票分,并把原始 Elo(约 1200-1600)统一换算为百分制,与智能指数同框、越高越强。这反映的是真实使用体验,不是刷题分。
来源:lmarena.ai/leaderboard
这是 AI RING 最有价值的地方。同一批模型,两个权威榜的结论并不一致:
(以下为快照采集时两大全球榜的情况,用于说明"两榜结论不同",非本站 15 款的排名):
· 机器基准(Artificial Analysis)上,国产模型追得很近——Qwen3.7 Max 在其全球智能榜位列第 5,是最高的中国模型。
· 真人投票(LMArena)上,美国旗舰明显领先——Claude/GPT/Gemini 霸榜前列;国产在其全球综合榜最高的是 GLM-5.1(约第 15)。
原因:机器基准考的是数学、编程、知识等标准化难题,国产模型刷题能力强;而真人投票考的是真实对话体验(文笔、指令遵循、好不好用),这方面 Claude、GPT、Gemini 目前更受真人认可。两个都看,才不会被单一榜单误导。
| 榜单 | 排序依据 | 数据源 |
|---|---|---|
| 🏆 综合榜 | 智能指数(50%) + 真人综合分(50%) | 两榜各半 |
| 🧠 智能榜 | 智能指数(机器基准) | AA |
| 💻 编程榜 | 编程分类真人投票分(百分制) | LMArena |
| ✍️ 写作榜 | 创意写作分类真人投票分(百分制) | LMArena |
| 📊 数据分析榜 | 数据分析/量化推理 · 以数学类真人投票为依据(百分制) | LMArena |
| ⚡ 速度榜 | 输出速度 tokens/秒 | AA |
| 💰 性价比榜 | 智能指数 ÷ 价格 | AA |
关于带 * 的估算分:个别模型在 LMArena 某个分类暂无真人投票数据(通常因为太新、对战样本不足)。对这类缺口,我们不留空、也不编造,而是用统一的公式估算:该分项估算分 = 该模型的真人综合分 + 「该分项相对综合分的全体平均偏移」。这是统计上常用的回归插补,可解释、可复现。估算分一律标注 * 并以灰色显示,与真人实测分区分,仅供参考。
智能指数不是百分制及格线,而是 Artificial Analysis 把模型在 10 项高难测试(数学/科学/编程/推理)上的表现综合成的一个分。理论满分 100 = 全部测试全做对的"完美 AGI",现实中最强的模型距此仍远,而且这个上限会随技术进步整体上移。
所以正确的看法是横向比较,而不是套用"及格线"思维:在同一时间点,分数越高代表综合能力越强;不要问"某个分数算不算高",而要看它在当前榜单里的相对位置。本站智能榜实时反映这个排序,当前榜首的具体分数请以榜单实时数值为准——它每隔一段时间就会被更强的新模型刷新。
每个 AI 详情页有一段「恩钛点评」,那是我们的主观观点(适合谁、怎么用),已明确标注,不参与任何排名计算。我们刻意把"客观数据"和"主观观点"彻底分开——排名只认数据,观点仅供参考。
⚠️ 最重要的一条——数据是快照,不是实时:
本站数据是我们在 2026-06-13 从两大权威榜手动采集的快照,目前不是自动实时同步。AI 榜单几乎每周变动,如你看到本页时已隔较久,请以源站实时数据为准(下方有直达链接)。我们宁可如实告诉你"这是某日的快照",也不假装它永远新鲜。
其他局限:
❌ 非本站自测:我们没有独立测试能力,数据全部引用第三方权威机构,做的是采集、核对、统一换算、整理。
❌ 价格会变:以各厂商官网实际报价为准。
❌ "数据分析"无独立权威榜:以 LMArena 数学/量化推理真人投票为最接近的依据,已如实标注。
❌ 中文专项暂缺权威源:目前没有纳入独立的中文能力榜,"国内直连"是客观事实标签,不是中文质量打分。
✅ 但我们守住的:每个数字都标来源、可点链接自查,绝不编造、绝不收费排名。这是一份诚实、可验证的选购参考,不是"官方权威跑分"。
· Artificial Analysis — 智能指数、速度、价格、延迟
· LMArena — 真人盲测投票分类排名
· 数据更新日期:2026-06-13
发现数据错误、建议收录新 AI、或了解恩钛AI服务,请访问 entaiai.com。