
微软推出了一种新的AI系统,旨在解决一些医学最具挑战性的诊断难题,而早期结果表明,它的表现超过了人类医生的差距。
在Microsoft AI团队发布的内部研究中,该公司的新AI诊断编排者(称为Mai-Dxo)正确地诊断出了在新英格兰医学杂志(NEJM)上发表的真实医疗案例中,多达85%,在经验丰富的临床医生中仅适用于20%的精度。
该研究使用了NEJM的马萨诸塞州综合医院系列案例记录中的304个困难病例记录。这些情况通常需要多个专家的输入和广泛的测试。微软将它们变成了交互式的“逐步”挑战,这些挑战反映了医生如何实践现实世界的诊断推理:收集症状,订购测试和修改假设。
Microsoft AI研究人员写道:“我们认为,编排多种语言模型对于管理复杂的临床工作流程至关重要。”
超越多项选择基准
医疗保健中的传统AI基准在很大程度上依赖于USMLE,例如美国医疗许可测试,该考试使用多项选择格式。但是微软认为,这些测试通过强调记忆而不是临床推理来超越AI的能力。
为了解决这个问题,团队开发了一个新的顺序诊断基准(SD基准),将NEJM案例研究变成了成本吸引力的诊断模拟。人类和AI模型都可以提出问题并订购虚拟测试,每个动作都会产生模拟成本以反映实际的医疗费用。例如,当患者出现咳嗽和发烧时,临床医生可能会先进行血液检查和胸部X射线检查,然后自信地诊断肺炎。
一个简短的视频显示了AI系统如何通过这些诊断挑战之一逐步发挥作用。
微软测试了其AI系统针对各种表现最佳的语言模型,包括GPT,Llama,Claude,Gemini,Grok和DeepSeek。使用顺序诊断基准评估了每个模型,该基准通过允许逐步询问和诊断测试来模拟现实世界中的医学推理。
Mai-Dxo通过协调多种诊断策略的多个模型,充当了一款编排者(本质上是医师的虚拟面板)。该编排显着改善了所测试的每个单独模型的性能。
通过协调多个模型,像MAI-DXO这样的编排者可以比任何单个模型更有效地集成更广泛的信息源。这种方法还可以提高安全性,透明度和适应性 – 复杂,快速变化的临床环境中的键质量。由于Mai-Dxo是模型不可替代的,因此它支持可唤起的能力和弹性,这对于高风险的医疗决策至关重要。
最强的结果来自将MAI-DXO与OpenAI的O3模型配对,该模型正确诊断为304个NEJM基准案例中的85.5%。为了进行比较,微软还评估了21位来自美国和英国的医生,每位医生都有5到20年的临床经验。在同一基准下,这些临床医生的平均诊断准确性仅为20%。

成本效益的护理和更广泛的专业知识
除了准确性之外,Mai-Dxo还表现出成本效率的表现。该系统旨在在一组成本限制内运行,以避免订购每项可能的测试 – 将诊断能力与资源使用,患者舒适和及时的护理保持平衡。在测试中,MAI-DXO不仅提供了更准确的诊断,而且总体成本低于单个AI模型和人类医生。
这项研究突出了人类和人工智能诊断之间的关键区别:虽然医生通常专门从事广泛的一般护理或狭窄的专业知识领域,但没有一位医生可以涵盖NEJM系列中看到的各种复杂病例。 Mai-Dxo并不以相同的方式限制。它融合了医学知识的广度和深度,展示了临床推理技能,在许多领域,它都超过了任何个人医生。
微软更广泛的健康AI计划包括Rad-dino等工具,以加速放射学工作流和龙副狗(Dragon Copilot),这是临床医生的语音第一AI助手。现在,这些努力补充了一项新的消费者健康计划,该计划于2024年底发起,旨在为数百万的人提供每天转向微软平台寻求与健康相关的建议。

微软的发现表明,像Mai-Dxo这样的AI系统可以重塑如何提供护理。通过融合广泛的医学知识,这些工具可以帮助患者自我管理的常规问题,并为临床医生提供对复杂病例的强有力支持。潜在的影响在美国尤其重要,在美国,健康支出接近GDP的20%,其中多达25%可能会浪费在无法改善结果的服务上。
尽管如此,这项研究仍然存在明显的局限性。尽管Mai-Dxo在复杂的诊断挑战方面表现出色,但需要更多的工作来评估其处理常见的日常医疗演示。
为了将AI与人类临床医生进行比较,参与研究的医生在没有通常的支持工具(没有同事,教科书或AI系统)的情况下工作,可能会低估现实世界中医生的表现。
微软作品最新颖的方面之一是它注意成本。尽管在系统和地区的医疗保健费用差异很大,但团队在所有情况下采用了一致的方法,以更好地了解诊断准确性和资源使用之间的平衡。
微软将其视为第一步。该公司现在正在与领先的卫生组织合作,以现实世界中的临床环境测试这些系统,重点是安全,可靠性,有效性和监管监督。在任何更广泛的部署之前,该验证将是至关重要的。
微软认为,医疗保健的未来将通过增强人类的技能和对机器智能的力量的同情来塑造。
微软的MAI-DXO标志着迈向医学超级智能的重要一步 – 不仅可以复制人类的专业知识,而且可以将其扩展到更广泛的诊断挑战中。通过表现优于经验丰富的医生在准确性和成本效益方面,该系统强调了AI在重塑如何提供护理方面所扮演的不断增长的作用。
含义是全面的:AI可以减少误诊,降低医疗保健费用,并帮助患者管理依赖不堪重负的医疗系统的病情。随着美国的医疗保健支出接近GDP的20%,最多四分之一的被认为是浪费 – Mai-Dxo之类的工具可以在提高效率和成果中发挥关键作用。
但这仍然是早期研究。微软承认,在日常医疗场景中需要进行更多的测试,并且该监管监督在广泛部署之前至关重要。
尽管如此,结果表明,当高级AI推理与严格的临床基准配对时,现在可能的方法。如果负责任地开发,Mai-Dxo之类的系统可能会成为人类护理的信任伙伴,而不是替代的伙伴。
编者注: t他的文章是由Ainews.com的CMO Alicia Shapiro创作的,并由AI助手Chatgpt的写作,图像和创意支持。但是,最终的观点和社论选择仅是艾丽西亚·夏皮罗(Alicia Shapiro)的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。
评论0