Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

CVPR 2024|FairCLIP:首个多模态医疗视觉语言大模型公平性研究

图片

作者 | 哈佛大学、纽约大学团队

编辑 | ScienceAI

公平性在深度学习中是一个关键问题,尤其是在医疗领域,这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究,但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集,医疗VL模型的公平性仍未被探索。

为了弥补这一研究空白,我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它提供了详细的人口统计属性、真实标签和临床笔记,以便深入检查VL基础模型中的公平性。

使用FairVLMed,我们对两个广泛使用的VL模型(CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然图片和医疗图片领域都有预训练,涵盖了四个不同的受保护属性信息。

我们的结果突出显示了所有VL模型中的显著偏见,亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和语言这些受保护属性中的首选组别。为了减轻这些偏见,我们提出了FairCLIP,一种基于optimal-transport的方法,通过减少整体样本分布与每个人口统计组之间的Sinkhorn距离,实现了性能和公平性之间的有利折衷。

作为首个研究公平性的VL数据集,FairVLMed对研究模型公平性实现既具有伦理意识又在临床上有效的机器学习模型的潜力。

在这里分享一篇哈佛大学和纽约大学研究团队的CVPR 2024论文: 「FairCLIP: Harnessing Fairness in Vision-and-Language Learning」。

在本次工作中, 我们提出了开创性的关于多模态视觉语言大模型的公平性的研究, 针对这项研究我们收集了第一个带有公平性族裔指标的视觉语言医疗大型数据集, 并且提出了针对视觉语言预训练的方法FairCLIP来尝试提升不同组别的公平性 (让不同组别的准确率接近)。

图片

论文地址: https://arxiv.org/pdf/2403.19949.pdf

代码地址: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP

数据集网站:https://ophai.hms.harvard.edu/datasets/harvard-fairvlmed10k/

数据集下载链接: https://drive.google.com/drive/u/1/folders/1bkeifigwOAfnsLvup9mJOSNeA3WsvA2l

Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集 更多公平性数据集。

Lab的数据集主页:https://ophai.hms.harvard.edu/datasets/

研究背景

近年来,公平性在深度学习领域受到了越来越多的关注。这一点尤其重要,特别是在医疗领域,这些深度学习模型影响着诊断和治疗决策。这些模型中与种族、性别或社会经济地位等因素相关的偏见可能导致医疗服务差距和不利的患者结果。

因此,确保这些模型无偏见不仅是道德和法律要求,也是确保患者安全和医疗公平的必要条件。这使得在医疗计算机视觉领域中的公平性成为一个关键且迫切的问题,对于提供公平的医疗服务至关重要。

图片

先前的研究已经发现了基于深度学习的医学图像模型中的偏见,主要集中在胸部X光诊断上。与这些仅限视觉的模型不同,近期视觉-语言(VL)基础模型的兴起设定了跨越广泛任务领域的新基准。然而,尽管这些VL模型表现出色,它们的公平性仍然不明确。

鉴于仅限视觉的模型存在偏见,以及临床医学报告的人工编写特性,VL模型可能会进一步加剧公平性问题。因此,随着深度学习领域向多模态基础模型的转移,审视视觉和文本的相互作用如何影响算法结果的公平性变得越来越关键。然而,进行此类调查的当前环境受限于缺乏包含全面人口统计信息的VL数据集,现有的公共VL数据集主要关注胸部X光。

先前的研究已经突出显示,使用这些数据集研究公平性面临挑战,因为它们的真实标签是从放射学报告中自动提取的,可能由于标签噪声导致不准确的公平性结论。此外,由于这些数据集主要不是为了公平性设计的,它们只提供少数人口统计特征,限制了进行跨多个维度的全面公平性研究的潜力。更进一步,放射学报告主要关注对成像数据的直接观察,很少包含额外的特定于患者的信息,不代表大多数临床文本,因此限制了它们在医学VL模型公平性研究中的实用性。

图片

为了弥补这一研究差距,我们介绍了第一个用来研究公平性的视觉-语言医疗数据集(简称FairVLMed),它提供了详细的人口统计属性、真实标签和临床医学报告,以促进对VL基础模型内公平性的深入检查。

FairVLMed包含了10,000名患者的记录,每个记录都与一张SLO视网膜图像和一份用于诊断青光眼的临床医学报告配对,同时包括如年龄、性别、种族、族裔、首选语言和婚姻状况等详细的受保护属性。

与放射学报告不同,我们数据集中的临床医学报告提供了更为详细的信息,不仅包括图像描述,还包括药物、非影像测试结果和家族史等丰富的非影像临床信息。因此,这些临床医学报告更具代表性,更适合用于研究医学VL模型的公平性。

青光眼影响着全球数百万人,它体现了公平诊断模型的需求。及时检测对于避免不可逆转的视力损失至关重要。然而,许多患者由于这种疾病的无症状性质和眼科护理的障碍而未被诊断。此外,未诊断的问题在少数族裔中尤为突出。例如,以往的研究表明,相比于白人群体,黑人社区的个体未诊断和未治疗的青光眼的可能性高4.4倍,这凸显了解决医疗差异的重要性。

深度学习系统对于改善医疗保健具有重大潜力。然而,在这些深度学习系统临床实施之前,解决潜在的公平性问题是必要的,以确保公平的医疗服务提供。

在这项工作中,我们使用两种广泛使用的VL方法(即CLIP和BLIP2)在FairVLMed上进行了广泛的公平性分析。我们的实验结果揭示了基于种族、性别、族裔和语言的各种群体之间存在显著准确性差异。

为了解决这些公平性问题,我们引入了一种基于optimal transport的方法,命名为FairCLIP。FairCLIP旨在通过优化Sinkhorn距离来增强公平性,从而使整体样本特征分布与每个人口统计组的特征分布对齐。

我们的主要贡献可以总结如下:

  • 我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它具有详细的人口统计属性、真实标签和临床医学报告,用于研究VL基础模型的公平性。
  • 使用FairVLMed,我们对两个广泛使用的VL模型(即CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然和医疗领域都进行了预训练,涉及四个不同的受保护属性。
  • 我们的结果突出显示了所有VL模型中的显著偏见,亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和语言这些受保护属性中的首选亚组。
  • 我们提出了一种名为FairCLIP的基于optimal transport的方法,它在性能和公平性方面都显著优于CLIP。

如何获得大量的配对的视觉语言医疗数据

本研究中的数据来自2015至2022年间青光眼服务的受试者来自哈佛医学院的马萨诸塞眼耳医院。本研究将包含了三类数据:(1)扫描激光眼底摄影(SLO)眼底图像;(2)人口身份群体信息;以及(3)由眼科医生撰写的去标识化临床笔记,以提供青光眼诊断的总结。

SLO眼底图像是评估青光眼等疾病引起的视网膜损伤的有价值标志。每张SLO眼底图像都与六个人口身份属性相关联,包括年龄、性别、种族、族裔、首选语言和婚姻状况。附带的临床笔记长度不一,这些笔记可能详细描述评估、治疗计划和诊断策略,并被认为与SLO眼底图像中的视觉语义相对应。

图1展示了两个SLO眼底图像及临床笔记的示例。受试者被分为非青光眼(通过视野(VF)测试测量的视觉功能正常:VF平均偏差≥-1 dB且VF青光眼半视野测试和模式标准偏差(PSD)结果正常)和青光眼类别(通过VF测试测量的视觉功能异常:VF平均偏差<-3 dB且VF青光眼半视野测试和PSD结果异常)。

受保护信息Deidentify

原始临床笔记可能包含受保护的敏感信息,如青光眼诊断日期、患者姓名、电话号码、电子邮件地址、物理位置、机构等。我们通过以下三个步骤去标识这些敏感信息。

首先,我们使用Microsoft的Presidio工具对所有临床笔记进行匿名处理,将敏感信息替换为相应的占位符(例如,PERSON NAME, PHONE NUMBER, LOCATION),以便保持原始句子结构和连贯性。

然后,我们使用规则匹配并去标识Presidio未完全识别的受保护信息(例如,物理地址)。

最后,去标识化的临床医学报告由四位医学专家进一步验证。特别是,每份临床笔记都由一位专家检查,必要时将敏感信息手动替换为相应的占位符。

数据特征

FairVLMed数据集包括来自10,000名受试者的10,000个样本。它被划分为7,000个训练样本、1,000个验证样本和2,000个测试样本。

数据集的平均年龄为60.9 ± 16.2岁。数据集包括来自三个主要群体的样本:亚洲人,819个样本;黑人,1,491个样本;白人,7,690个样本。在性别方面,女性占受试者的56.3%,其余为男性。种族分布以90.6%的非西班牙裔、4.0%的西班牙裔和5.4%的未指定为特点。

在首选语言方面,92.5%的受试者偏好英语,1.7%偏好西班牙语,0.8%偏好其他语言,5.0%未知。从婚姻状况角度看,57.4%已婚或有伴侣,26.4%单身,6.6%经历过离婚,1.0%法律分居,6.1%丧偶,2.5%未指定。去标识化后,临床笔记的词数从11到332词不等,平均词数为147词。

图片

用来提升视觉语言基础模型公平性的方法FairCLIP

如上图所示,我们提出的FairCLIP框架旨在预训练阶段提高公平性。这是通过最小化不同种族群体(或其他基于属性的群体)之间视觉和语言特征相关性M_{I,i}的概率分布之间的差异来实现的。

图片

其中 d 是一个距离函数 是计算上不可行的潜在分布。我们在方程中使用基于批次的分布,B_a表示批次中的样本来自群体 a。

为了优化目标,一种直接的方式是最小化两个分布之间的Kullback–Leibler (KL) 散度。然而,KL散度不对称且不满足三角不等式,因此不是真正的距离度量。相反,我们遵循文献引用,最小化两个分布之间的Sinkhorn距离。Sinkhorn距离是一种概率度量和Wasserstein距离的变种。两个分布之间的Sinkhorn距离定义为:

图片

Sinkhorn损失将被添加到CLIP在预训练阶段使用的损失中,以优化CLIP的公平性。

实验

我们采用两种类型的评估策略——– linear probing and zero-shot transfer。对于linear probing,我们遵循官方的MAE实现,在CLIP和BLIP2的视觉特征上分别训练一个线性分类器。类似于MAE,在线性分类器前我们使用了一个BatchNorm层,并采用了LARS优化器,基础学习率为0.1,权重衰减为0,批量大小为512。对于zero-shot transfer , 我们采用了和CLIP原文一致的做法。

图片

表2展示了linear probing的结果,检查了各种性能(AUC)和公平性(DPD、DEOdds、ES-AUC)指标,以及在每个四个受保护属性内的个别子群体中报告了群组AUC得分。我们主要关注随后分析中的ES-AUC指标,因为它捕捉到了整体性能以及公平性的概念——这两者对于安全关键的医疗应用都很重要。表2展示了各种受保护属性中VL性能的差异,以及不同VL预训练领域(自然图像 vs. 医疗图像)和VL预训练方法(CLIP vs. BLIP2)对模型性能和公平性的影响。

图片

表3比较了CLIP与FairCLIP在两种不同架构(ViTB/16和ViT-L/14)以及四种不同受保护属性上的zero-shot transfer的准确性。CLIP和FairCLIP都是通过不带监督信息(即标签)的图像和临床笔记对进行微调的。然后,得到的模型在分类任务中进行评估。CLIP在种族、性别、族裔和语言等属性的群组AUC中表现出显著差异,表明在青光眼检测中存在偏见。总体而言,FairCLIP在公平性指标(DPD、DEOdds)以及各种人口子群的ES-AUC和AUC分数方面,都显著优于CLIP。

图片

表5显示了更多的端到端微调结果,进一步验证了FairCLIP的有效性。这些实证发现表明,优化整体样本分布与特定子群分布之间的距离,有效地提高了公平性,表明了一个在解决和减轻固有偏见方面有前景的方向。

图片

为了解耦图像和文本特征的好处,我们对BLIP2预训练模型进行线性探测,使用仅限视觉或(视觉+语言)特征。表4展示了以ES-AUC为衡量标准的性能-公平性权衡。我们注意到,除了语言外,多模态特征在所有受保护属性上都一致地改善了性能-公平性权衡。这凸显了VL模型有效利用了临床文本特征,尤其是在种族属性上观察到最显著的收益。

图片

为了调查不同视觉编码器对BLIP2模型公平性的影响,我们使用了两种不同的预训练编码器——1)在自然领域训练的CLIP,而2)在医疗领域训练的PMC-CLIP。图3b中的结果显示,PMC-CLIP在所有四个受保护属性上都优于CLIP,尤其是在种族子群上的收益最为显著。我们注意到,专门针对医疗的LLM摘要器和视觉编码器一致地改善了VL模型的性能-公平性权衡,尤其是在种族属性上的改善最为显著。

Beutel等人引入了一种公平性方法,该方法使用对抗性损失来防止模型不准确地预测敏感属性。这种方法旨在确保模型在不依赖其敏感属性的情况下预测图像的标签,从而减少分类中的偏见。图3c展示了CLIP、带对抗性损失的CLIP(CLIP w/ Adv)和FairCLIP之间的性能比较。带对抗性训练的CLIP(CLIP w/ Adv)的性能并不一致地超过所有属性中标准CLIP的性能。相反,FairCLIP一致地优于CLIP。这种性能上的变化可以归因于对抗性训练在保持每个属性等同预测准确性方面的固有挑战。另一方面,FairCLIP使用Sinkhorn损失,有效地鼓励所有样本的分布相对于每个组的分布的均匀性。

下面展示了更多的结果在文章补充材料之中。

图片

图片

图片

图片

总结

鉴于医疗领域对公平性的关键需求,我们引入了第一个研究公平性的视觉-语言医疗数据集(FairVLMed),用于研究医疗VL基础模型的公平性。

我们对FairVLMed的全面公平性分析揭示了所有VL模型中存在的显著偏见。为了解决这些偏见,我们提出了FairCLIP,一种基于optimal transport的方法,有效地平衡了性能和公平性。

注:封面来自网络

产业
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

线性分类器技术

机器学习通过使用对象的特征来识别它所属的类(或组)来进行统计分类。线性分类器通过基于特征的线性组合的值进行分类决策。 对象的特征也称为特征值,通常在称为特征向量的向量中呈现给机器。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

暂无评论
暂无评论~