Nature:机器学习再立功!斯坦福大牛团队实现无创早期肺癌筛查

根据 Nature 杂志发表的一项研究,斯坦福大学研究人员开发了一种机器学习方法,能够实现早期肺癌患者的鉴别筛查。这一方法基于检测血样中的肿瘤源性 DNA(即液体活检),也就意味着对肺癌高危人群的筛查,做到了早期且无创。

传统的肺癌筛查,一般推荐高危群体做 CT 扫描,这种模式已被证明能减少肺癌相关死亡。不过,由于费用高、筛查项目少以及对假阳性的担忧,这种筛查的使用度并不高。即使在美国,也仅有约 5% 符合条件的个体会通过 CT 扫描进行肺癌筛查。

而基于液体活检技术的血液检测,是一种当前颇受欢迎的癌症新型检测方法,但大部分液体活检的适用对象,往往是癌症晚期患者,毕竟这些群体的血液中比早期患者拥有更高水平的肿瘤相关 DNA 标记。

在 Nature 近日发表的最新论文中,来自斯坦福大学的 Maximilian Diehn 及其同事,优化了一种现有的评估循环肿瘤 DNA(ctDNA)的测序方法。

他们改善了 DNA 的提取,鉴定出有望作为有效疾病标记的变化。研究人员用该方法表明,尽管 ctDNA 在早期肺癌患者体内水平很低,却是一个很有力的预后指标。

研究人员随后用这些数据改进了一种机器学习方法,将其用来预测血样中存在的肺癌源性 DNA。在由 104 例早期非小细胞肺癌患者和 56 例匹配对照组成的初期样本中,这种方法可以区分早期肺癌患者与风险匹配的对照;在另一个由 46 例病例和 48 例对照组成的独立验证队列中,研究人员确认了以上结果。

备受关注的液体活检

近几年,癌症液体活检的表现格外引人关注。作为体外诊断的一个分支,液体活检可以通过非侵入性取样降低检测危害,而且高效准确,性价比高。

即使没有进行治疗,癌细胞也会在正常情况下不断分裂和死亡。当癌细胞死亡时,它们将 DNA 碎片释放到血液中,学会阅读这些信息,可以使临床医生快速、无创地监测肿瘤的存在和大小,患者对治疗的反应以及肿瘤面对治疗时随着时间的发展变化。

目前,液体活检的检测对象有循环肿瘤细胞(CTCs),循环肿瘤 DNA(ctDNA),循环 RNA(circulating RNA)和外泌体。其中,ctDNA 因研究前景广阔,受到越来越多的关注。ctDNA(circulating tumor DNA)是游离 DNA(cell-free DNA,cfDNA)中的一类,带有特征性标记,可通过高通量测序技术实现对它的定性、定量和追踪。

目前已发现的 ctDNA 特征性标记包括位点突变、核小体占有率及甲基化修饰差异,可根据这些指标的差异进行肿瘤的早期诊断、动态监测肿瘤的发生发展及疗效、耐药检测、复发风险评估和预后预测等。

美国斯坦福大学 Maximilian Diehn 教授曾表示,ctDNA 不仅可以诊断实体肿瘤,而且能够监测治疗反应以及探查微小残留病灶、靶向治疗耐药突变,可能是优选的无创肿瘤筛查方法。“这一领域令人兴奋的事件之一是,循环肿瘤 DNA 可以应用于许多不同的临床情况。”

分子技术与机器学习的结合

在这项最新研究中,研究人员介绍了一种通过深度测序 (CAPP-Seq) 来分析循环肿瘤 DNA 的方法,从而更好地实现癌症早期筛查和个性化分析。

研究人员发现,尽管早期肺癌的 ctDNA 水平很低,但在大多数患者接受治疗之前,ctDNA 就已经存在,而且它的存在具有很强的预后意义。

Maximilian Diehn 和 Ash Alizadeh 领导的团队进行了本次研究研究人员还发现,肺癌患者游离 DNA (cfDNA) 的大多数体细胞突变,反映的是克隆性造血突变(突变来自于白细胞),并且是非复发性的。与肿瘤衍生突变相比,克隆造血突变发生在较长的 cfDNA 片段上,并且缺乏与吸烟相关的突变特征。

将这些发现与其他分子特征结合起来,研究人员开发并前瞻性地验证了一种被称为 “血浆中肺癌可能性”(lung cancer likelihood in plasma, lung - clip) 的机器学习算法,可以很好地将早期肺癌患者与风险匹配对照组区分开来。

血浆中肺癌可能性 (Lung-CLiP) 的原理图研究人员表示,这种非侵入性的肺癌筛查方法,将改进的分子技术与机器学习相结合,以检测血液样本中肺癌细胞来源的 cfDNA 的存在,可以实现使用血浆检测出相当一部分早期肺癌。

而且不同于以往试图开发泛癌种筛查分析的液体活检研究,研究人员这次把重点放在了非小细胞肺癌上,利用肺癌特有的特征,来降低了未被识别的混杂因素对检测结果的影响。

此外,不像以前的研究没有进行验证或使用对照队列交叉验证,钙研究使用独立验证,避免了模型过度拟合导致结果过于乐观的可能。

研究人员认为,Lung-CLiP 的一个潜在应用是作为一种高风险人群的初步筛查,阳性的患者可以进一步检测确诊,这可能会增加每年进行肺癌筛查的人数,从而拯救更多的生命。

论文标题:

Integrating genomic features for noninvasive early lung cancer detection

论文摘要:

论文地址:

https://doi.org/10.1038/s41586-020-2140-0

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业机器学习Nature斯坦福大学
相关数据
高通机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

假阳性技术

假阳性是指模型因为种种原因把不应该分类成特定情况的人/物错误地分类到了该分类的情况。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

推荐文章
暂无评论
暂无评论~