用于训练诊断模型的胸部 X 射线数据集呈现偏向某些性别,社会经济和种族群体
来自多伦多大学、Vector Institute、和 MIT 的研究人员近日发表了一篇被 PSB2021 接收的论文「CheXclusion:深层 X 射线分类器中的公平性差距」其论文概要如下:机器学习系统由于能够在临床任务(特别是医学成像)上达到专家级性能而备受关注。在这里,我们研究了受过训练的可以从 X 射线图像生成诊断标签的最新深度学习分类器相对于受保护属性的偏倚程度。我们训练卷积神经网络来预测 3 个著名的公共胸部 X 射线数据集中的 14 个诊断标签:MIMIC-CXR,Chest-Xray8,CheXpert,以及所有这些数据集的多站点聚合。我们评估了 TPR 差异 - 真实阳性率(TPR)的差异 - 不同的受保护属性(例如患者性别,年龄,种族和保险类型)之间的差异。我们证明在所有数据集,所有临床任务和所有亚组的最新分类器中都存在 TPR 差异。随着临床模型从论文到产品的转变,我们鼓励临床决策者在部署之前仔细审核算法上的差异。