评分方法论

AI RING 是恩钛AI出品的中文AI评比平台。这里说清楚:我们的数据从哪来、排名怎么算、有什么局限。核心一句话——我们不要求你相信我们,我们让你能自己核对每一个数字。

数据可信准则(我们对你的承诺)

一个评比可不可信,不看它自称多公正,而看它是否让你能自己验证。我们对照新闻与评测行业的公认标准,做到这八条:

① 可核对每个客观分数都标来源,你能点进 Artificial Analysis / LMArena 自己核对——不用信我们。
② 有规模真人分来自 LMArena 数百万次盲测对战投票;机器分来自标准化测试。样本越大越可信。
③ 时间透明数据标注采集日期。AI 更新极快,超过周期请以源站实时数据为准(见下方"局限")。
④ 方法公开所有换算公式全部公开,任何人按同样方法可复现、可验证。
⑤ 客观/观点分明第三方客观数据 ≠ 恩钛主观点评,页面严格分区、分别标注。
⑥ 独立无偿本站不收取任何 AI 厂商费用,排名不接受购买、不接受赞助影响。
⑦ 缺数据不掩盖没有的数据明确标"未收录、不参与排名",绝不编造、绝不让其垫底误导。
⑧ 可纠错发现数据有误可向我们反馈,核实后更正。可信不是不犯错,而是错了能改。

一、数据来源:两大权威,全部可溯源

① Artificial Analysis(机器基准)
全球公认的第三方 AI 评测机构。我们取用它的智能指数、输出速度、价格。这些是标准化机器测试结果,客观、可复现。
来源:artificialanalysis.ai/leaderboards/models

② LMArena(真人盲测投票)
由加州大学伯克利团队发起,让两个匿名 AI 同台对战、由数百万真实用户投票选出更好的回答,再用 Elo 算法算出分数。我们取用它的综合、编程、写作、数据分析(数学/量化推理)各分类的真人投票分,并把原始 Elo(约 1200-1600)统一换算为百分制,与智能指数同框、越高越强。这反映的是真实使用体验,不是刷题分。
来源:lmarena.ai/leaderboard

二、为什么用两个来源?因为它们结论不同

这是 AI RING 最有价值的地方。同一批模型,两个权威榜的结论并不一致:

(以下为快照采集时两大全球榜的情况,用于说明"两榜结论不同",非本站 15 款的排名):
· 机器基准(Artificial Analysis)上,国产模型追得很近——Qwen3.7 Max 在其全球智能榜位列第 5,是最高的中国模型。
· 真人投票(LMArena)上,美国旗舰明显领先——Claude/GPT/Gemini 霸榜前列;国产在其全球综合榜最高的是 GLM-5.1(约第 15)。

原因:机器基准考的是数学、编程、知识等标准化难题,国产模型刷题能力强;而真人投票考的是真实对话体验(文笔、指令遵循、好不好用),这方面 Claude、GPT、Gemini 目前更受真人认可。两个都看,才不会被单一榜单误导。

三、七大功能榜单怎么排

榜单排序依据数据源
🏆 综合榜智能指数(50%) + 真人综合分(50%)两榜各半
🧠 智能榜智能指数(机器基准)AA
💻 编程榜编程分类真人投票分(百分制)LMArena
✍️ 写作榜创意写作分类真人投票分(百分制)LMArena
📊 数据分析榜数据分析/量化推理 · 以数学类真人投票为依据(百分制)LMArena
⚡ 速度榜输出速度 tokens/秒AA
💰 性价比榜智能指数 ÷ 价格AA

关于带 * 的估算分:个别模型在 LMArena 某个分类暂无真人投票数据(通常因为太新、对战样本不足)。对这类缺口,我们不留空、也不编造,而是用统一的公式估算:该分项估算分 = 该模型的真人综合分 + 「该分项相对综合分的全体平均偏移」。这是统计上常用的回归插补,可解释、可复现。估算分一律标注 * 并以灰色显示,与真人实测分区分,仅供参考。

四、智能指数怎么理解?

智能指数不是百分制及格线,而是 Artificial Analysis 把模型在 10 项高难测试(数学/科学/编程/推理)上的表现综合成的一个分。理论满分 100 = 全部测试全做对的"完美 AGI",现实中最强的模型距此仍远,而且这个上限会随技术进步整体上移。

所以正确的看法是横向比较,而不是套用"及格线"思维:在同一时间点,分数越高代表综合能力越强;不要问"某个分数算不算高",而要看它在当前榜单里的相对位置。本站智能榜实时反映这个排序,当前榜首的具体分数请以榜单实时数值为准——它每隔一段时间就会被更强的新模型刷新。

五、关于"恩钛点评"

每个 AI 详情页有一段「恩钛点评」,那是我们的主观观点(适合谁、怎么用),已明确标注,不参与任何排名计算。我们刻意把"客观数据"和"主观观点"彻底分开——排名只认数据,观点仅供参考。

六、诚实的局限(请务必了解)

⚠️ 最重要的一条——数据是快照,不是实时:
本站数据是我们在 2026-06-13 从两大权威榜手动采集的快照,目前不是自动实时同步。AI 榜单几乎每周变动,如你看到本页时已隔较久,请以源站实时数据为准(下方有直达链接)。我们宁可如实告诉你"这是某日的快照",也不假装它永远新鲜。

其他局限:
非本站自测:我们没有独立测试能力,数据全部引用第三方权威机构,做的是采集、核对、统一换算、整理。
价格会变:以各厂商官网实际报价为准。
"数据分析"无独立权威榜:以 LMArena 数学/量化推理真人投票为最接近的依据,已如实标注。
中文专项暂缺权威源:目前没有纳入独立的中文能力榜,"国内直连"是客观事实标签,不是中文质量打分。
但我们守住的:每个数字都标来源、可点链接自查,绝不编造、绝不收费排名。这是一份诚实、可验证的选购参考,不是"官方权威跑分"。

七、参考资料

· Artificial Analysis — 智能指数、速度、价格、延迟
· LMArena — 真人盲测投票分类排名
· 数据更新日期:2026-06-13

八、联系我们

发现数据错误、建议收录新 AI、或了解恩钛AI服务,请访问 entaiai.com

← 返回擂台总榜