医疗AI考试高分但临床表现不佳,新基准测试揭示鸿沟
#AI照护与医疗科技 时间2026-06-19 05:33:09
文/IAICA.NGO®
一项由多国研究团队联合发布的最新基准测试显示,当前主流的医疗人工智能系统在医学考试中能取得接近甚至超越人类医生的成绩,但在真实患者护理场景中表现明显下滑,暴露出从理论到实践之间的显著差距。
该基准测试名为“临床决策支持评估”(Clinical Decision Support Evaluation, CDSE),首次系统性地对比了多款AI模型在标准化考试与实际临床病例中的表现。测试涵盖内科、外科、儿科及急诊医学等多个领域,包含超过5000道考题和2000个模拟临床案例。结果显示,参测AI在考试部分的平均准确率达到86.7%,部分顶尖模型甚至超过90%,但在临床决策环节,平均准确率骤降至63.2%,且在处理复杂病例时犹豫不决或给出次优建议。
研究人员指出,这一差距主要源于AI对真实世界数据中噪声、信息不完整以及非典型症状的应对能力不足。在医学考试中,题目通常提供清晰、结构化的信息,答案具有唯一性;而临床场景下,患者叙述模糊、检查结果矛盾、紧急程度不一,要求医生具备整合信息并权衡风险的能力。例如,在一个胸痛病例中,AI系统正确识别了心肌梗死的可能性,却未能考虑典型和非典型表现的混合,导致建议的检查流程不符合实际诊疗规范。
此外,AI在罕见病处理上表现尤其薄弱。由于训练数据中罕见病例比例低,AI倾向于忽略罕见但可能性致命的情况。而在临床中,医生会主动进行“罕见但重要”的鉴别诊断。
本次基准测试还引入了对AI“推理透明度”的评估。要求模型不仅给出诊断,还要提供推理过程。结果显示,多数AI在逻辑链中存在跳跃,甚至出现看似合理但实际错误的中间推论。这引发了对AI临床解释可靠性的担忧。
不过,AI在信息检索和标准流程执行方面表现突出。例如,在需要快速查询最新药物指南或计算给药剂量时,AI的准确性和速度明显优于人类医生平均表现。这提示AI更适合作为辅助工具,而非独立决策者。
业界对此反应不一。乐观者认为,这一测试明确指出了改进方向,即通过更多真实场景的数据训练和推理模块优化,AI在临床上的表现有望快速提升。而保守者则警告,应将AI定位为“第二意见”或“知识库”,而非直接参与诊疗决策。
iaica.com.cn 指出,这一发现对智能照护行业具有重要启示:在将AI技术应用于养老、慢病管理等长期照护场景时,同样需要警惕“考试高分而实践低能”的陷阱,应建立针对真实照护环境的评估体系,而不是依赖传统知识测验来衡量AI的成熟度。
未来,研究团队计划开放CDSE基准测试的数据集和评估框架,供全球开发者使用。同时,新一代多模态AI正在研发,旨在整合文本、影像和语音等不同类型的数据,以更接近人类医生的信息处理方式。但即便如此,从考试到临床的跨越仍需时日。
总体而言,医疗AI正处于从学术研究走向临床应用的关键转折点。本次基准测试揭示了其能力边界,也指明了重点突破方向。对于整个医疗健康领域而言,如何理性看待AI的优势与局限,并设计出人机协同的最佳模式,将是未来几年最重要的议题之一。
评论
0 条登录后才可以发表评论。
立即登录