评分方法论

AI RING 是恩钛AI出品的中文AI评比平台。这里说清楚：我们的数据从哪来、排名怎么算、有什么局限。核心一句话——我们不要求你相信我们，我们让你能自己核对每一个数字。

数据可信准则（我们对你的承诺）

一个评比可不可信，不看它自称多公正，而看它是否让你能自己验证。我们对照新闻与评测行业的公认标准，做到这八条：

① 可核对每个客观分数都标来源，你能点进 Artificial Analysis / LMArena 自己核对——不用信我们。

② 有规模真人分来自 LMArena 数百万次盲测对战投票；机器分来自标准化测试。样本越大越可信。

③ 时间透明数据标注采集日期。AI 更新极快，超过周期请以源站实时数据为准（见下方"局限"）。

④ 方法公开所有换算公式全部公开，任何人按同样方法可复现、可验证。

⑤ 客观/观点分明第三方客观数据 ≠ 恩钛主观点评，页面严格分区、分别标注。

⑥ 独立无偿本站不收取任何 AI 厂商费用，排名不接受购买、不接受赞助影响。

⑦ 缺数据不掩盖没有的数据明确标"未收录、不参与排名"，绝不编造、绝不让其垫底误导。

⑧ 可纠错发现数据有误可向我们反馈，核实后更正。可信不是不犯错，而是错了能改。

一、数据来源：两大权威，全部可溯源

① Artificial Analysis（机器基准）
全球公认的第三方 AI 评测机构。我们取用它的智能指数、输出速度、价格。这些是标准化机器测试结果，客观、可复现。
来源：artificialanalysis.ai/leaderboards/models

② LMArena（真人盲测投票）
由加州大学伯克利团队发起，让两个匿名 AI 同台对战、由数百万真实用户投票选出更好的回答，再用 Elo 算法算出分数。我们取用它的综合、编程、写作、数据分析（数学/量化推理）各分类的真人投票分，并把原始 Elo（约 1200-1600）统一换算为百分制，与智能指数同框、越高越强。这反映的是真实使用体验，不是刷题分。
来源：lmarena.ai/leaderboard

二、为什么用两个来源？因为它们结论不同

这是 AI RING 最有价值的地方。同一批模型，两个权威榜的结论并不一致：

（以下为快照采集时两大全球榜的情况，用于说明"两榜结论不同"，非本站 15 款的排名）：
· 机器基准（Artificial Analysis）上，国产模型追得很近——Qwen3.7 Max 在其全球智能榜位列第 5，是最高的中国模型。
· 真人投票（LMArena）上，美国旗舰明显领先——Claude/GPT/Gemini 霸榜前列；国产在其全球综合榜最高的是 GLM-5.1（约第 15）。

原因：机器基准考的是数学、编程、知识等标准化难题，国产模型刷题能力强；而真人投票考的是真实对话体验（文笔、指令遵循、好不好用），这方面 Claude、GPT、Gemini 目前更受真人认可。两个都看，才不会被单一榜单误导。

三、七大功能榜单怎么排

榜单	排序依据	数据源
🏆 综合榜	智能指数(50%) + 真人综合分(50%)	两榜各半
🧠 智能榜	智能指数（机器基准）	AA
💻 编程榜	编程分类真人投票分（百分制）	LMArena
✍️ 写作榜	创意写作分类真人投票分（百分制）	LMArena
📊 数据分析榜	数据分析/量化推理 · 以数学类真人投票为依据（百分制）	LMArena
⚡ 速度榜	输出速度 tokens/秒	AA
💰 性价比榜	智能指数 ÷ 价格	AA

关于带 * 的估算分：个别模型在 LMArena 某个分类暂无真人投票数据（通常因为太新、对战样本不足）。对这类缺口，我们不留空、也不编造，而是用统一的公式估算：该分项估算分 = 该模型的真人综合分 + 「该分项相对综合分的全体平均偏移」。这是统计上常用的回归插补，可解释、可复现。估算分一律标注 * 并以灰色显示，与真人实测分区分，仅供参考。

四、智能指数怎么理解？

智能指数不是百分制及格线，而是 Artificial Analysis 把模型在 10 项高难测试（数学/科学/编程/推理）上的表现综合成的一个分。理论满分 100 = 全部测试全做对的"完美 AGI"，现实中最强的模型距此仍远，而且这个上限会随技术进步整体上移。

所以正确的看法是横向比较，而不是套用"及格线"思维：在同一时间点，分数越高代表综合能力越强；不要问"某个分数算不算高"，而要看它在当前榜单里的相对位置。本站智能榜实时反映这个排序，当前榜首的具体分数请以榜单实时数值为准——它每隔一段时间就会被更强的新模型刷新。

五、关于"恩钛点评"

每个 AI 详情页有一段「恩钛点评」，那是我们的主观观点（适合谁、怎么用），已明确标注，不参与任何排名计算。我们刻意把"客观数据"和"主观观点"彻底分开——排名只认数据，观点仅供参考。

六、诚实的局限（请务必了解）

⚠️ 最重要的一条——数据是快照，不是实时：
本站数据是我们在 2026-06-13 从两大权威榜手动采集的快照，目前不是自动实时同步。AI 榜单几乎每周变动，如你看到本页时已隔较久，请以源站实时数据为准（下方有直达链接）。我们宁可如实告诉你"这是某日的快照"，也不假装它永远新鲜。

其他局限：
❌ 非本站自测：我们没有独立测试能力，数据全部引用第三方权威机构，做的是采集、核对、统一换算、整理。
❌ 价格会变：以各厂商官网实际报价为准。
❌ "数据分析"无独立权威榜：以 LMArena 数学/量化推理真人投票为最接近的依据，已如实标注。
❌ 中文专项暂缺权威源：目前没有纳入独立的中文能力榜，"国内直连"是客观事实标签，不是中文质量打分。
✅ 但我们守住的：每个数字都标来源、可点链接自查，绝不编造、绝不收费排名。这是一份诚实、可验证的选购参考，不是"官方权威跑分"。

七、参考资料

· Artificial Analysis — 智能指数、速度、价格、延迟
· LMArena — 真人盲测投票分类排名
· 数据更新日期：2026-06-13

八、联系我们

发现数据错误、建议收录新 AI、或了解恩钛AI服务，请访问 entaiai.com。

← 返回擂台总榜