哈佛研究：AI在急诊诊断准确率超人类医生？专家警示标题夸大其词_AI照护与医疗科技

AI照护资讯

首页 AI照护资讯 AI照护与医疗科技

哈佛研究：AI在急诊诊断准确率超人类医生？专家警示标题夸大其词

#AI照护与医疗科技时间2026-05-05 13:26:34

2026年5月3日，TechCrunch报道，一项由哈佛医学院和贝斯以色列女执事医疗中心（Beth Israel Deaconess Medical Center）研究团队主导、发表于《Science》杂志的新研究显示，OpenAI的o1模型在真实急诊病例的诊断准确率上，表现优于或相当于两名内科主治医师。

研究设计与核心发现

研究聚焦76名进入贝斯以色列急诊室的患者，比较了o1和4o模型与两名内科主治医师的诊断结果。这些诊断由另外两名不知情的主治医师进行盲评。

结果显示，在每个诊断节点上，o1的表现“名义上优于或与两名医师相当”，尤其在首个诊断触点（初始急诊分诊）最为明显——此时患者信息最少，决策紧迫性最高。

在分诊阶段，o1给出“完全正确或非常接近”的诊断比例达67%，而两名医师分别为55%和50%。研究强调，AI模型使用的数据与电子病历中当时可用的信息完全一致，未经任何预处理。

哈佛医学院AI实验室负责人、研究主要作者之一Arjun Manrai表示：“我们对AI模型进行了几乎所有基准测试，它超越了先前模型和我们的医师基线。”

并非“AI取代医生”：局限与专家质疑

研究团队明确表示，这并不意味着AI已准备好在急诊室做出生死攸关的决策。他们呼吁“迫切需要前瞻性试验，在真实患者护理环境中评估这些技术”。

此外，研究仅测试了模型在文本信息上的表现。研究者指出，现有研究表明，当前基础模型在处理非文本输入（如图像、检查结果）时的推理能力仍较有限。

急诊医师Kristen Panthagani在社交媒体上指出，该研究引发了“一些非常夸大的标题”。关键在于，研究比较的对象是内科主治医师，而非急诊专科医师。她强调：“如果我们要将AI工具与医师的临床能力进行比较，就应该从比较实际从事该专科的医师开始。”

Panthagani进一步说明，急诊医生的首要目标并非猜测最终诊断，而是判断患者是否处于可能致命的状况。

AI在医疗中的定位：辅助而非替代

该研究为AI在医疗诊断中的应用提供了新证据，尤其在信息不完整、时间敏感的场景下。但专家们一致认为，AI目前更适合作为“第二意见”或辅助工具，而非独立决策者。

OpenAI模型在结构化文本分析上的优势明显，但缺乏临床经验、情境判断和对患者整体状况的综合考量。真正的落地仍需解决问责框架、监管路径和人机协作模式等问题。

行业启示与未来方向

随着生成式AI在医疗领域的渗透加速，此类研究有助于校正公众对“AI取代医生”的过度期待，同时为技术迭代指明方向：提升多模态推理能力、增强可解释性，并在真实临床环境中进行严格验证。

哈佛团队的发现提醒我们，AI在医疗中的价值不在于“打败”人类医生，而在于与人类协作，共同提升诊断效率与准确性，尤其在资源紧张的急诊环境中。未来，规范的临床试验和透明的监管将决定AI能否真正成为医生的可靠伙伴，而非争议焦点。

AI照护资讯

哈佛研究：AI在急诊诊断准确率超人类医生？专家警示标题夸大其词

哈佛研究：AI在急诊诊断准确率超人类医生？专家警示标题夸大其词

评论