基于3D深度学习方法,无创精准预测肺腺癌EGFR突变

2019年7月,国际期刊Cancer Medicine以封面文章的形式,刊登了点内科技、复旦大学附属华东医院、上海交通大学等多单位的最新联合研究成果,《基于3D深度学习自动预测肺腺癌EGFR突变状态》,研究显示预测精准度超过传统影像组学。

基于3D深度学习自动预测肺腺癌EGFR突变状态,预测精准度超过传统影像组学

论文标题 原链接

肺癌是肿瘤相关死亡的首因[1],肺癌患者中80%为非小细胞肺癌(NSCLC),腺癌为其最常见的病理类型[2]。近数十年来基于基因组学而发展的针对驱动基因的靶向治疗,如靶向特定表皮生长因子受体(EGFR)突变的酪氨酸激酶抑制剂(TKI)吉非替尼、靶向ALK基因的TKI 克唑替尼等,已成为肺癌精准医学不可或缺的重要组分[3]。然而,对于无EGFR突变或非ALK阳性的肺癌患者,靶向治疗却并无临床获益,有时还可能导致PFS缩短以及不必要的医疗支出[4],因此,选择靶向药物前需要提前明确驱动基因状态。此外,EGFR TKI治疗期间可能出现EGFR T790突变而导致耐药,出现病情进展,因此,也需要动态监测相关基因的突变状态以调整治疗药物[5]。

对活检或外科手术切除后的样本进行突变检测是明确EGFR突变类型的标准手段,但取样的侵入性、为监测治疗所必须的反复取样等问题,以及DNA质量不佳、肿瘤异质性、患者床位周转时间、检测费用等诸多难题限制了分子检测的推广,也一定程度上影响了肺癌精准医疗在临床实践中的推广规模[6-9]。

肿瘤的表型源于特定的基因型,因此,通过甄别特定表型来预测基因型是一种潜在可行的手段。已有研究显示,特定的影像组学特征与EGFR突变类型相关[10,11]。然而,传统影像组学面临诸多挑战,如在检测、分隔、提取特征等过程中大量依赖手工操作,费时费力;不同读片者之间的可复制性较低。

近年来以深度卷积神经网络为代表的深度学习在医学图像计算方面显示出令人难以置信的优越表现,并在很大程度上降低了人工操作的必要性。此前,点内科技联合复旦大学附属华东医院和上海交通大学SJTU-UCLA机器感知与推理联合研究中心等利用3D深度学习技术,成功证明了3D深度学习在预测肺腺癌侵袭性方面的有效性和效能,准确率高达88%[12]。受其鼓舞,点内科技再次与华东医院李铭、Hua Yanqing团队、以及上海交通大学SJTU-UCLA机器感知与推理联合研究中心、上海第十人民医院、同济大学同济医院等合作,探索了3D深度学习在基于CT影像预测EGFR突变方面的潜能。研究结果近期发表于 Cancer Medicine (IF=3.2,Toward automatic prediction of EGFR mutation status in pulmonary adenocarcinoma with 3Ddeep learning),华东医院李铭、滑炎卿教授为论文的共同通讯作者,华东医院赵伟和上海交大杨健程为共同第一作者。

图1 研究流程研究流程研究的影像数据来自华东医院CT数据库(HdH数据库579例,包括训练集348例、开发集116例和测试集115例)。为测试所建模型的通用性,从独立的肿瘤公共影像库TCIA选取37例肺结节也作为测试集。全部病例均由人工进行定位、分割和标记EGFR突变/野生型状态。通过训练集采用3D DenseNets深度学习方法训练,采用强大的数据扩增技术mixup以提升规范化/正则化(regularization),通过有监督的端到端学习模型完成拟合。与此同时,对全部影像数据进行传统的影像组学分析,与3D深度学习对照,计算成对关联系数分析二者的关联性。

结果显示,3D深度学习在预测EGFR突变状态方面明显优于传统的影像组学方法(P=0.021),3D深度学习对HdH数据库测试集和公共测试集测试的AUC分别为75.8%和75.0%(表1)。更重要的是,不同于传统影像组学要求人工对感兴趣的病灶部位进行分割,非常耗时耗力,3D深度学习的兴趣部位与肺结节病变部位有良好的一致性。

A B C D 对比

研究者对提取的401个传统影像组学特征(上图A)与从3D DenseNets提取的114个深度学习影像组学特征(上图C)进行分析发现,3D深度学习方法提取的特征较通过人工提取的特征更具代表性,因此聚类分析的结果更佳。研究首次用矩阵的方法进一步比较了深度学习特征与传统影像组学特征(上图B),分析发现,深度学习特征与传统影像学之间存在着强关联,从分类性能的ROC曲线方面,深度学习特征的敏感性和特异性更高,这说明深度学习通过增强的影像组学方式,从鲁棒性(robustness)、紧密度(compactness)和表达能力(expressiveness)方面可以发挥强大的预测效能。

表1 <mark data-type=technologies data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>系统在个<mark data-type=technologies data-id=700f9c0f-1e8b-4fde-8bae-6de39c13f022>数据库</mark>的预测表现汇总深度学习系统在各数据库的预测表现汇总

研究者发展的这一深度学习体系实现了非侵入性、自动预测肺腺癌EGFR突变型,从而通过明确EGFR靶向治疗的获益人群,辅助肺腺癌的临床治疗决策。研发过程中整合了近期关于深度监督学习的一些进展,比如深度连接、mixup技术等,从而显著降低了过度拟合等风险。由于这一方法因无需对肺结节进行精细的分隔,因此非常节省劳动力,同时,因为采用的学习算法的增强特性,可望获得更加稳定的表现。

研究者称,未来还需进一步对成果进行验证,比如本研究EGFR突变是通过ARMS-PCR检测的,未来还需对有二代测序的EGFR突变数据的样本进行验证;目前的模型仅纳入了CT影像信息,未来还需整合更多的临床信息如病理、血检验结果、蛋白组学等。

封面 1 20197月刊 Cancer Medicine 封面

【参考文献】

1.  Bray F, Ferlay J, Soerjomataram I, Siegel RL, Torre LA, Jemal A. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin. 2018;68(6):394-424.

2. Ettinger DS, Wood DE, Aisner DL, et al. Cell lung cancer, Version 5.2017, NCCN Clinical Practice Guidelines in Oncology. J Natl Compr Canc Netw. 2017;15(4):504-535.

3. NCCN临床实践指南:非小细胞肺癌(2019.V4)

4. Mok TS, Wu Y-L, Thongprasert S, et al. Gefitinib or carboplatin-paclitaxel in pulmonary adenocarcinoma. N Engl J Med.2009;361(10):947-957.

5. 中国临床肿瘤学会肿瘤生物标志物专家委员会《中国非小细胞肺癌患者EGFR T790M基因突变检测专家共识》制定专家组  中国非小细胞肺癌患者EGFR T790M基因突变检测专家共识  中华医学杂志2018,98(32:2544-51)

6. Bedard PL, Hansen AR, Ratain MJ, Siu LL. Tumour heterogeneity in the clinic. Nature. 2013;501(7467):355-364.

7. Lindeman NI, Cagle PT, Beasley MB, et al. Molecular testing guideline for selection of lung cancer patients for EGFR and ALK tyrosine kinase inhibitors: guideline from the College of American Pathologists, International Association for the Study of Lung Cancer, and Association for Molecular Pathology. J Mol Diagn. 2013;15(4):415-453.

8. Kim TO, Oh IJ, Kho BG, et al. Feasibility of re-biopsy and EGFR mutation analysis in patients with non-small cell lung cancer. Thorac Cancer. 2018;9(7):856-864.

9. Kobayashi K, Naoki K, Manabe T, et al. Comparison of detection methods of EGFR T790M mutations using plasma, serum, and tumor tissue in EGFR-TKI-resistant non-small cell lung cancer. Onco Targets Ther. 2018;11:3335-3343.

10. Yip S, Kim J, Coroller TP, et al. Associations between somatic mutations and metabolic imaging phenotypes in non‐small cell lung cancer. J Nucl Med. 2017;58(4):569-576.

11. Rios Velazquez E, Parmar C, Liu Y, et al. Somatic mutations drive distinct imaging phenotypes in lung cancer. Can Res. 2017;77(14):3922-3930.

12. Zhao W, Yang J, Sun Y, et al.3D Deep Learning from CT Scans Predicts Tumor Invasiveness of Subcentimeter Pulmonary Adenocarcinomas. Cancer Res. 2018 Dec 15;78(24):6881-6889. 

产业聚类分析数据库深度学习感知
14
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

聚类分析技术

聚类分析(CA)是一种典型的无监督学习方法,这种方法是根据对象的特点将它们分成不同的组。K-均值是应用最广泛的聚类方法,其它方法还包括 k-Medoids、分层聚类和 DBSCAN。期望最大化法(EM)也是聚类分析的一种解决方案。聚类分析在数据挖掘、市场调研、异常值检测等许多领域都有应用。另外,降维技术也是一类类似于聚类分析的无监督学习方法,其典型的代表有主成分分析(PCA)、线性判别分析和 Isomap。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

方向
方向很有意思,期待更多靶点,帮助临床病人
AI不止在筛查和辅助诊断,更有望成为靶向治疗的伴随诊疗工具
降低过拟合等风险赞了