哈佛研究:AI在急诊诊断准确率超人类医生?专家警示标题夸大其词
#AI照护资讯 时间2026-05-05 13:26:34

2026年5月3日,TechCrunch报道,一项由哈佛医学院和贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)研究团队主导、发表于《Science》杂志的新研究显示,OpenAI的o1模型在真实急诊病例的诊断准确率上,表现优于或相当于两名内科主治医师。
研究设计与核心发现
研究聚焦76名进入贝斯以色列急诊室的患者,比较了o1和4o模型与两名内科主治医师的诊断结果。这些诊断由另外两名不知情的主治医师进行盲评。
结果显示,在每个诊断节点上,o1的表现“名义上优于或与两名医师相当”,尤其在首个诊断触点(初始急诊分诊)最为明显——此时患者信息最少,决策紧迫性最高。
在分诊阶段,o1给出“完全正确或非常接近”的诊断比例达67%,而两名医师分别为55%和50%。研究强调,AI模型使用的数据与电子病历中当时可用的信息完全一致,未经任何预处理。
哈佛医学院AI实验室负责人、研究主要作者之一Arjun Manrai表示:“我们对AI模型进行了几乎所有基准测试,它超越了先前模型和我们的医师基线。”
并非“AI取代医生”:局限与专家质疑
研究团队明确表示,这并不意味着AI已准备好在急诊室做出生死攸关的决策。他们呼吁“迫切需要前瞻性试验,在真实患者护理环境中评估这些技术”。
此外,研究仅测试了模型在文本信息上的表现。研究者指出,现有研究表明,当前基础模型在处理非文本输入(如图像、检查结果)时的推理能力仍较有限。
急诊医师Kristen Panthagani在社交媒体上指出,该研究引发了“一些非常夸大的标题”。关键在于,研究比较的对象是内科主治医师,而非急诊专科医师。她强调:“如果我们要将AI工具与医师的临床能力进行比较,就应该从比较实际从事该专科的医师开始。”
Panthagani进一步说明,急诊医生的首要目标并非猜测最终诊断,而是判断患者是否处于可能致命的状况。
AI在医疗中的定位:辅助而非替代
该研究为AI在医疗诊断中的应用提供了新证据,尤其在信息不完整、时间敏感的场景下。但专家们一致认为,AI目前更适合作为“第二意见”或辅助工具,而非独立决策者。
OpenAI模型在结构化文本分析上的优势明显,但缺乏临床经验、情境判断和对患者整体状况的综合考量。真正的落地仍需解决问责框架、监管路径和人机协作模式等问题。
行业启示与未来方向
随着生成式AI在医疗领域的渗透加速,此类研究有助于校正公众对“AI取代医生”的过度期待,同时为技术迭代指明方向:提升多模态推理能力、增强可解释性,并在真实临床环境中进行严格验证。
哈佛团队的发现提醒我们,AI在医疗中的价值不在于“打败”人类医生,而在于与人类协作,共同提升诊断效率与准确性,尤其在资源紧张的急诊环境中。未来,规范的临床试验和透明的监管将决定AI能否真正成为医生的可靠伙伴,而非争议焦点。
评论
0 条登录后才可以发表评论。
立即登录