编辑 | 白菜叶
医疗人工智能 (AI) 通过支持和促进循证医学实践、个性化患者治疗、降低成本以及改善医疗保健提供者和患者体验,在推动医疗保健方面具有巨大潜力。释放这一潜力需要系统地、定量地评估医疗人工智能模型在捕获不同患者群体的大规模、异构数据上的性能。
为了满足这一需求,IHU Strasbourg、丹娜法伯癌症研究所(Dana-Farber Cancer Institute)、Intel 等多个机构组成的研究团队推出了 MedPerf,一个用于在医疗领域对 AI 模型进行基准测试的开放平台。
MedPerf 专注于通过将 AI 模型安全地分发到不同的机构(例如医疗机构)来实现 AI 模型的联合评估。将模型引入数据的过程使每个设施能够在高效且人工监督的过程中评估和验证人工智能模型的性能,同时优先考虑隐私。
该团队描述了医疗保健和人工智能社区当前面临的挑战、对开放平台的需求、MedPerf 的设计理念、其当前的实施状态和实际部署、蓝图;重要的是,多个国际机构在基于云的技术和本地场景中使用 MedPerf。
该研究以「Federated benchmarking of medical artificial intelligence with MedPerf」为题,于 2023 年 7 月 17 日发布在《Nature Machine Intelligence》。
随着医疗人工智能 (AI) 开始从研究转向临床护理,世界各地的国家机构已开始起草监管框架,以支持和解释基于人工智能模型的新型干预措施。此类机构包括美国食品和药物管理局、欧洲药品管理局和印度中央药品标准控制组织。所有监管机构一致同意的一个关键点是需要对医疗人工智能模型进行大规模验证,以定量评估其普遍性。
改进人工智能模型的评估需要扩展和多样化来自多个组织和不同人口统计数据的临床数据。医学研究表明,在模型训练过程中使用大型且多样化的数据集可以产生更准确的模型,并且更适用于其他临床环境。此外,研究表明,使用来自有限和特定临床环境的数据训练的模型通常对于特定患者群体存在偏差;这种数据偏差可能会导致模型在开发过程中看起来很有前途,但在更广泛的部署中性能较低。
尽管显然需要访问更大、更多样化的数据集,但数据所有者仍受到巨大的监管、法律和公众认知风险、高昂的前期成本以及不确定的投资财务回报的限制。共享患者数据会带来三大类风险:(1) 因盗窃或误用而导致的责任风险;(2) 监管限制;(3) 公众认知风险,即使用包含可能与个人相关的受保护健康信息的患者数据,从而损害他们的隐私。
共享数据还需要前期投资,将原始数据转换为人工智能就绪的格式,这需要大量的工程和组织成本。这种转换通常涉及多个步骤,包括数据收集、转换为通用表示、去标识化、审查和批准、许可和提供。完成这些步骤既昂贵又复杂。即使数据所有者(例如医院)愿意支付这些成本并接受这些风险,由于财务、技术或感知原因,收益也可能是不确定的。
在这里,研究人员介绍了 MedPerf,这是一个专注于克服这些障碍,以更广泛地访问 AI 模型评估数据的平台。MedPerf 是一个开放的基准测试平台,它结合了:(1) 在不同数据上测试模型的风险较低的方法,而不直接共享数据;(2) 适当的基础设施、技术支持和组织协调,以促进开发和管理来自多个来源的模型基准,并增加最终临床获益的可能性。这种方法旨在促进医疗人工智能的更广泛采用,从而实现更有效、可重复和更具成本效益的临床实践,最终改善患者的治疗结果。
该团队的技术方法使用联合评估,旨在在多个数据所有者之间提供简单可靠的模型共享,以便在本地控制的设置中根据数据所有者的数据评估这些模型,并实现定量评估指标的聚合分析。重要的是,通过与数据所有者共享经过训练的人工智能模型(而不是数据),并仅聚合评估指标,与人工智能模型的联合训练相比,联合评估对患者数据造成的风险要低得多。
评估指标通常比训练中使用的模型权重更新产生的信息少几个数量级,并且评估工作流程在工作负载期间不需要活动网络连接,从而更容易确定确切的实验输出。尽管联邦评估具有前景广阔的功能,但它需要将人工智能模型提交到评估站点,这可能会带来不同类型的风险。总体而言,该团队的技术选择与医学和医疗保健领域联合方法的采用增长是一致的。
MedPerf 由广泛的专家联盟创建。目前的直接贡献者名单包括来自五大洲 13 个国家的 20 多家公司、20 家学术机构和 9 家医院的代表。MedPerf 是建立在这组专家积累的工作经验的基础上的,例如(1)标准化基准测试平台的开发;(2)联邦学习软件库的实现,例如开放联邦学习库、NVIDIA FLARE、Flower by Flower Labs/剑桥大学、Microsoft Research FLUTE;(3) 数十个临床中心和研究机构的计算竞赛(也称为挑战)的构思、协调和成功执行;(4) 跨越多个国家和医疗保健专业的其他著名医疗人工智能和机器学习工作。
MedPerf 旨在为社区带来以下好处:(1)一致且严格的方法来定量评估实际使用的人工智能模型的性能;(2) 一种能够量化跨机构模型通用性的技术方法,同时旨在保护数据隐私和模型知识产权;(3) 专家社区协作设计、运营和维护医疗人工智能基准。MedPerf 还将阐明需要更好模型的用例,增加现有可推广模型的采用,并激励进一步的模型开发、数据注释、管理和数据访问,同时保护患者隐私。
论文链接:https://www.nature.com/articles/s42256-023-00652-2