Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

医学人工智能的重大进展!Nature子刊:基于多模态人工智能的临床疾病诊断

图片

编辑 | ScienceAI

6 月 12 日,国际顶级学术期刊《自然-生物医学工程》(Nature Biomedical Engineering)上线了一项由香港大学、四川大学华西医学院、深睿医疗和澳门科技大学合作完成的研究,文章题为「A transformer-based representation learning model with unified processing of multimodal input for clinical diagnostics」。

该研究聚焦于医学人工智能,提出了一种针对临床疾病诊断的多模态表征学习模型。文章的通讯作者是香港大学的俞益洲教授、四川大学华西医学院的王成弟教授、澳门科技大学的张康教授和四川大学华西医学院的李为民院长;第一作者为香港大学博士研究生周洪宇。

图片

论文链接:https://www.nature.com/articles/s41551-023-01045-x (arXiv版链接: https://arxiv.org/abs/2306.00864

代码 github:https://github.com/RL4M/IRENE

研究背景

在临床诊断中,为了做出准确的决策,医生通常需要综合考虑患者的主诉、医学影像和实验室化验结果等多模态信息。然而,在基于机器学习的智能医学诊断中,如何更好地解读医学影像及相关临床信息仍有待商榷。当前的多模态临床决策支持系统主要采用非统一的方式来融合多模态数据。

根据融合阶段的不同,可以将传统的非统一的多模态融合方法划分为两个大类,即早期和晚期融合。然而,无论是早期还是晚期融合都选择将多模态诊断过程分离成两个相对独立的阶段:对每种模态单独进行特征抽取和多个模态特征的融合。这种设计有一个天然的局限性:无法发现和编码不同模态之间的内部关联。另一个潜在的问题是,传统的多模态人工智能诊断方法往往需要对文本进行结构化,而文本结构化过程存在标注流程复杂、劳动密集等诸多问题。

与此同时,基于 Transformer 架构的深度学习方法正在重塑自然语言处理和计算机视觉领域。与卷积神经网络和词嵌入算法相比,Transformer 对输入数据的形式几乎没有假设,因此有望从多模态输入数据中学习更高质量的特征表达。而且,Transformer 的基本架构组件(即自注意力模块)在不同模态上几乎保持不变,为构建统一且灵活的模型提供了更好的机会。

方法

在此背景下,该研究团队第一次使用单一、统一的深度学习架构(名为 IRENE)在多模态数据上训练医学诊断模型。IRENE 是一种为临床疾病诊断设计的基于 Transformer 的多模态表征学习架构,通过学习医学影像、非结构化主诉和结构化临床信息等多模态输入数据的整体表征来更好地进行决策。

图片

图 1:IRENE 的网络架构。(来源:论文)

IRENE 的核心是统一的多模态诊断 Transformer(即 MDT)和双向多模态注意力机制。MDT 是一种新的 Transformer 堆叠结构,直接从多模态输入数据中生成诊断结果。与之前的非统一方法不同,这种新算法通过渐进地从多模态临床信息中学习整体表征,放弃了单独学习各种模态特征的技术路线。此外,MDT 赋予 IRENE 在非结构化原始文本上进行表征学习的能力,避免了非统一方法中繁琐的文本结构化步骤。

为了更好地处理模态之间的差异,IRENE 引入了双向多模态注意力机制,通过发现和编码不同模态之间的相互关联,将模态独立的特征表达和面向诊断的整体表征联系起来。这个明确的学习和编码过程可以看作是 MDT 中整体多模态表征学习过程的补充。IRENE 具有以下三个优点:1. 使用统一架构进行多模态表征学习,避免了分离的表征学习路径;2. 无需进行繁琐的文本结构化步骤,直接在原始文本上进行表征学习;3. 通过双向多模态注意力机制发现和编码不同模态之间的相互关联。

实验结果

表 1:肺部疾病识别任务中与基线模型的比较。(来源:论文)
图片

如表 1 所示,IRENE 在识别肺部疾病方面明显优于仅依赖图像的模型、传统的非统一的诊断范式、以及两种最新的基于 Transformer 的多模态模型(即 Perceiver 和 GIT)。从实验指标上看,IRENE 取得了最高的平均 AUROC,达到 0.924(95% CI:0.921,0.927),比仅将 X 光片作为输入的单模态模型(0.805,95% CI:0.802,0.808)高出约 12%。与非统一的早期融合(0.835,95% CI:0.832,0.839)和晚期融合(0.826,95% CI:0.823,0.828)的诊断策略相比,IRENE 取得了至少 9% 的性能优势。如果将 IRENE 与 GIT(0.848,95% CI:0.844,0.850)比较,研究发现 IRENE 在 AUROC上的优势超过 7%。即使与 DeepMind 开发的基于 Transformer 的多模态模型 Perceiver 比较,IRENE 仍然取得了相当有竞争力的结果,超过了 Perceiver(0.858,95% CI:0.855,0.861)6%。当研究人员着眼于每种疾病,并将 IRENE 与之前提到的所有五种基线中的最好结果进行比较时,研究发现在所有八种肺部疾病中,IRENE 在支气管扩张(12%)、气胸(10%)、间质性肺病(ILD,10%)和肺结核(9%)上具有最大的优势。

表 2:在 COVID-19 患者不良临床结局预测任务中与基线模型的比较。(来源:论文)

图片

COVID-19 患者的不良临床结局预测大量依赖于对胸部 CT 扫描和其他非影像临床信息的联合解读。相较于在肺部疾病识别任务中的表现,IRENE 在这个任务上展示出更大的优势。如表 2 所示,IRENE 在预测 COVID-19 患者的三种不良临床结局(即入住 ICU、使用呼吸机、死亡)方面取得了令人印象深刻的性能提升。在平均 AUPRC 指标上,IRENE(0.592,95% CI:0.500, 0.682)的表现大幅度优于仅依赖影像的模型(0.307,95% CI:0.237, 0.391),早期融合模型(0.521,95% CI:0.435, 0.614)和晚期融合模型(0.503,95% CI:0.422, 0.598),分别提高了近 29%,7% 和 9%。就特定的临床结局而言,IRENE(0.712,95% CI:0.587, 0.834)在预测入住 ICU 方面,和非统一的早期融合方法(0.665,95% CI:0.548, 0.774)相比有约 5% 的 AUPRC提升。同样,在预测是否需要使用呼吸机时,IRENE 和早期融合模型相比,有超过 6% 的性能提升。和仅依赖影像的模型(0.192,95% CI:0.073, 0.333)、早期融合模型(0.346,95% CI:0.174, 0.544)和晚期融合模型(0.335,95% CI:0.168, 0.554)相比,IRENE(0.441,5% CI:0.270, 0.617)可以更准确地预测新冠病人的死亡结局。和两种基于 Transformer 的多模态模型(即 GIT 和 Perceiver)相比,IRENE 在平均性能上取得超过 6% 的优势。

 实验结论

IRENE 在多模态医学诊断中比之前非统一的诊断范式更有效。IRENE 在诊断肺部疾病方面,相比于早期融合和晚期融合方法,平均提升了 9% 和 10%。同时,IRENE 在八种疾病上实现了至少约 3% 的性能提升,并显著改善了四种疾病(支气管扩张、气胸、ILD 和结核病)的诊断效果,将其 AUROC 提高了超过 10%。除此之外,IRENE 的上述优势在 COVID-19 患者不良临床结局预测任务上得到了部分验证。相比于早期融合和晚期融合方法,IRENE 将平均性能分别提升了 7% 和 9%。

图片

图 2:纯图像模型、非统一早期融合方法、多模态 Transformer (即 Percepver)和 IRENE 在肺部疾病识别和 COVID-19 不良临床结局预测中的实验结果比较。(来源:论文)

IRENE 提供了一种更好的适用于多模态医学诊断的 Transformer 架构。与 GIT和 Perceiver 相比,IRENE 在医学诊断场景中具有明显优势。GIT 在大规模多模态预训练方面存在困难,而 IRENE 可以通过双向多模态注意力机制有效利用有限的医学数据和互补的语义信息从而减少对预训练数据的依赖。此外,Perceiver 将多模态输入简单串联,所以难以学习到 IRENE 的融合表征,这导致输入中占比较大的模态对最终诊断有较大的影响。IRENE 利用双向多模态注意力机制学习整体多模态表征,平衡了多种模态数据对特征表达的影响,从而在不同任务中展现出令人满意的性能。

IRENE 简化了传统工作流程中对文本结构化的依赖。在传统的非统一的多模态人工智能医学诊断方法中,处理非结构化文本的常规方式是进行文本结构化,其具体流程严重依赖于人工规则和现代自然语言处理工具的辅助。相比之下,IRENE 可以接受非结构化的临床文本直接作为输入,从而降低了对繁琐的文本结构化步骤的依赖。

总结和前景

结合最新的自然语言处理技术和图像识别技术,IRENE 可以在医学诊断中起到重要的作用。它通过统一的多模态诊断 Transformer 和双向多模态注意力机制,渐进学习多模态临床数据的整体表征,放弃了单独学习各种模态特征的技术路线。在现实世界中,IRENE 可以帮助简化患者护理流程,如患者分流和区分普通感冒患者与需要紧急干预的严重情况患者。此外,在诊断不确定或复杂的情况下,IRENE 还可以作为医生的辅助工具,提供诊断建议,进一步增强医生的判断能力。除此之外,IRENE 在医疗资源匮乏的地区具有重要价值。

产业
暂无评论
暂无评论~