机器学习(ML)在改善医疗保健中前景广阔,其模型专为各种诊断和预后任务而设计。但确保其使用不会传播或扩大健康差距至关重要。一个重要的步骤是描述 ML 模型的(不)公平性,并理解其潜在机制。
当 ML 模型基于训练数据中不正确的相关性进行预测时,捷径学习(shortcut learning)就会成为算法不公平的潜在驱动因素之一。诊断这种现象很困难,因为敏感属性可能与疾病存在因果关系。
利用多任务学习,来自 Google DeepMind 的研究团队提出了一种直接测试临床机器学习系统中是否存在捷径学习的方法,并演示了其在放射学和皮肤病学临床任务中的应用。最后,该方法揭示了捷径与不公平无关的情况,强调了在医疗人工智能中采取整体方法来缓解公平性的必要性。
该研究以「Detecting shortcut learning for fair medical AI using shortcut testing」为题,于 2023 年 7 月 18 日发布在《Nature Communications》上。
捷径学习对医疗保健领域的机器学习提出了重大挑战,其中基于虚假相关性的预测引起了对安全性和公平性的重大担忧。然而,确定捷径学习是否导致模型不公平具有挑战性,特别是当年龄等敏感属性可能与临床任务存在因果关系时。
之前关于捷径学习的研究主要集中在可能编码虚假相关性的敏感属性上。在这种情况下,模型对敏感属性的任何依赖都可以被认为是捷径。然而,这种方法并不能推广到敏感属性可能与结果存在因果关系的情况。
在此,研究人员假设敏感属性对模型的影响是可能提高模型性能的生物学、潜在因果效应和可能有害的捷径学习的总和。在这种情况下,将快捷学习重新定义为敏感属性的影响,它不会显著提高性能(由用户定义),但会影响公平性。通过干预模型对敏感属性进行编码的程度,研究人员演示了一种方法来评估这种编码是否表明存在捷径学习、敏感属性的适当使用,还是人为的。
该研究的主要贡献是提供了一种实际适用的框架,用于研究和减轻临床 ML 模型中的捷径学习。这解决了从业者在尝试开发公平和安全的临床人工智能时未满足的需求。
为了说明所提方法,研究人员参考放射学和皮肤病学应用,并将年龄作为一个敏感属性,因为衰老与多种医疗状况的疾病风险相关,这使得可靠地确定模型是否依赖捷径变得更加困难。此外,跟进之前的研究者工作。研究了种族编码的影响,以了解这种编码如何影响模型性能和公平性。表明种族是一种类似于虚假相关性的社会结构。
在该研究中,研究人员将疾病的存在作为二元结果。疾病严重程度或亚型分布也可能与敏感属性相关,从而导致其他形式的捷径学习。需要进一步的工作来扩展该框架以考虑这些因素。同样,该研究将年龄视为单一的兴趣属性。原则上,该方法可以很容易地应用于交叉分析,尽管实际上,模型收敛可能存在挑战。
最后,算法公平性是一组数学公式,模型行为应该在健康公平、整个临床系统及其与社会的相互作用的更广泛背景下考虑,而不是仅仅关注给定定义的数据集的模型行为。在这个更广泛的背景下,比较人类与人工智能的表现和公平性将提供丰富的信息;并考虑对诊断预测中不公平的治疗或临床后果进行建模。
研究人员相信:「正如我们的方法所证明的那样,捷径学习的识别和缓解为更公平的医疗人工智能铺平了道路。」