微软近日发布了一款全新的 AI 系统 MAI-DxO,旨在显著提升复杂医疗病例的诊断准确性。据悉,该系统的诊断准确率是经验丰富医生的四倍,同时能够将医疗成本降低近 70%。这一技术通过一个新的基准测试进行评估,模拟了真实的逐步诊断过程。
研究团队在其论文 《利用语言模型进行顺序诊断》 中详细介绍了该系统,认为其在面对挑战性病例时,在准确性和成本效益方面显著优于人类医生。为了提供更真实的测试结果,团队创建了顺序诊断基准 (SDBench)。与传统的医学 AI 测试不同,SDBench 并非一次性提供所有信息,而是模拟临床决策的顺序过程。
SDBench 的测试案例来源于 《新英格兰医学杂志》 的 304 个复杂病例。测试中,医生或 AI 诊断师首先获得一个简要的病例摘要,然后需主动请求更多信息,通过询问针对性的问题或要求检查来获取详细资料。该系统通过 「门控模型」 控制信息的发布,甚至可以生成某些检测的合成结果,以防止无意间泄露提示信息。
在测试中,来自美国和英国的 21 名经验丰富的医生的诊断准确率为 19.9%,每个病例的平均费用为 2963 美元。相比之下,微软的 MAI-DxO 结合 OpenAI 的 o3 模型,达到了 79.9% 的准确率,且平均成本为 2397 美元。MAI-DxO 的主要进步在于成本的显著降低。尽管 o3 模型在标准模型中达到 78.6% 的
MAI-DxO 通过模拟一个虚拟的医生团队来提升性能。团队内部分别由 「假设医生」、「测试选择医生」、「质疑医生」、「成本监控医生」 和 「检查清单医生」 组成。这样的结构旨在防止系统过早固定于某一假设。
然而,研究人员也承认了一些限制因素。SDBench 仅基于复杂的教学案例,未能反映日常诊疗中常见病症的分布。成本计算只是粗略估算,未考虑现实世界中的多种因素。此外,参与的医生为全科医生,通常在面对复杂病例时会转介给专家,他们的评估也未利用外部资源。
划重点:
🔍MAI-DxO 系统的诊断准确率是经验医生的四倍,成本降低近 70%。
💡SDBench 测试模拟真实的逐步诊断过程,通过动态请求信息提升准确性。
🩺研究指出系统性能优越,但存在针对复杂病例的限制与挑战。