Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

凯霞作者

机器学习改进基因组发现,谷歌健康在GitHub发布模型训练代码及详细文档

全基因组关联研究 (Genome-Wide Association Study,GWAS)是了解遗传变异和性状之间关系的一个关键方法。GWAS 结果可用于通过识别与感兴趣的疾病密切相关的基因来识别和确定潜在治疗目标的优先级,还可用于建立多基因风险评分(Polygenic Risk Score, PRS),根据个体中存在的变异的综合影响预测疾病倾向。准确测量个体的特征(称为表型)对 GWAS 至关重要,但专家标记可能成本高昂、耗时且可变。随着深度学习的发展,从高维数据中提取医学相关特征成为可能。

近日,来自谷歌健康(Google Health)的研究团队提出使用机器学习 (ML) 模型对医学成像数据进行分类用于改进 GWAS。研究发现的新关联提高了 PRS 的准确性,并以青光眼为例,解剖眼部特征的改善与人类疾病有关。并在 GitHub 发布了模型训练代码和详细的文档。将该方法扩展到大规模生物库中的其他表型和数据模式,可进一步扩展我们对疾病病因的理解并改进遗传风险建模。

该研究于6月1日以《基于大规模机器学习的表型显著改善了视神经头形态的基因组发现》「Large-scale machine learning-based phenotyping signifificantly improves genomic discovery for optic nerve head morphology」为题发表在《美国人类遗传学》(American Journal of Human Genetics)杂志上。

图片

GWAS是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。

青光眼是一种由渐进性视网膜神经节细胞变性引起的视神经病变,是全球不可逆失明的主要原因,影响着全球超过 8000 万人。此外,青光眼是最具遗传性的常见人类疾病之一,遗传性估计为 70%。

识别与眼部解剖特征相关的遗传变异

先前的研究表明,ML 模型可以识别眼部疾病、皮肤疾病和异常乳房 X 光检查结果,准确度接近或超过领域专家的最新方法。因为识别疾病是表型分析的一个子集,谷歌健康的研究人员推断 ML 模型可以广泛用于提高 GWAS 表型分析的速度和质量。

现在,研究人员提出训练 ML 模型以自动对大型队列进行表型以进行基因组发现。提出的范式有两个阶段:在模型训练阶段,使用专家标记样本数据库(不需要基因组数据)来训练和验证表型预测模型;在模型应用阶段,模型应用于生物库数据以预测感兴趣的表型,然后分析基因组关联。这种范式有四个优点:

  • 模型应用具有可扩展性和高效性。

  • 单个模型可以同时预测多个表型。

  • 该模型可以回顾性地应用于现有数据,从而产生新的表型或更准确的对现有表型的预测。

  • 可以整合多条证据来预测单个表型,如果手动执行,这将非常昂贵。

图片基于 ML 的表型概念

研究人员选择了一个模型,该模型使用眼底图像来准确预测患者是否应该转诊进行青光眼评估。该模型使用眼底图像来预测视盘(视神经连接到视网膜的区域)和视杯(视盘中心的白色区域)的直径。这两个解剖特征的直径比——垂直杯盘比(vertical cup-to-disc ratio,VCDR),是青光眼的重要内表型。

图片VCDR的定义

研究人员应用该模型来预测英国生物样本库(UK Biobank,UKB)的所有眼底图像中的 VCDR,这是世界上最大的数据集,可供全世界研究人员用于公共利益的健康相关研究,包含约 500, 000 个假名个体的广泛表型和遗传数据(UKB 的去标识化标准)。然后在这个数据集中执行了 GWAS 来识别与 VCDR 的基于模型的预测相关的遗传变异。

图片应用在临床数据上训练的 VCDR 预测模型来生成 VCDR 的预测值,从而能够发现 VCDR 性状的遗传关联

具体步骤:研究人员使用 81,830 个非UKB、眼科医生标记的眼底图像开发了一个 ML 模型,预测图像分级、VCDR 和可参考的青光眼风险。使用该模型从 175,337 张眼底图像中预测了 65,680 名欧洲血统的 UKB 参与者的 VCDR。然后,对基于 ML 的 VCDR 表型(以下称为基于 ML 的 GWAS)进行了 GWAS,并将结果与之前的 VCDR GWAS 进行了比较,包括最近的 VCDR GWAS 使用来自专家标记的 UKB 眼底图像的表型。研究表明基于 ML 的表型比专家表型 VCDR 测量更准确,且更有效地获得,识别与已知 VCDR 生物学有可能联系的新遗传关联,并产生更准确的多基因风险评分来预测独立人群中的 VCDR。

基于 ML 的 GWAS 发现了 93 个新位点

基于 ML 的 GWAS 确定了 156 个与 VCDR 相关的不同基因组区域。研究人员将这些结果与同一UKB的另一组进行的 VCDR GWAS 数据(2020年,Craig 等人将所有图像标记为VCDR)进行了比较。基于 ML 的 GWAS 复制了 Craig 等人发现的 65 个关联中的 62 个,这表明该模型准确地预测了 UKB 图像中的 VCDR。此外,基于 ML 的 GWAS 发现了 93 个新的关联。

图片三个 VCDR GWAS 的位点重叠的维恩图


图片通过详尽的专家标记方法(Craig 等人,左)和基于 ML 的方法(右)发现的具有统计意义的 GWAS 关联的数量,中间有共享关联

本研究中发现的几个VCDR相关基因位点与眼压(intraocular pressure,IOP)相关。且发现的几个 VCDR 相关基因位点包含参与神经元和突触生物学的基因,因此可能是通过对视网膜和视神经的直接影响而不是通过 IOP 来影响 VCDR。

新的 VCDR 相关基因位点上的几个基因含有导致严重孟德尔眼科疾病的突变。首次报告了这些基因的常见变异,这些变异与群体水平的 VCDR 变异相关。三个新基因位点位于 ADAMTSL3 (rs59199978)、PITX2 (rs2661764) 和 FOXC1 (rs2745572),所有这些都与综合征性眼前节发育不全有关,进而导致眼压升高和继发性青光眼。

基于 ML 的 GWAS 改进了多基因模型预测

为了验证在基于 ML 的 GWAS 中发现的新关联具有生物学相关性,研究人员使用 Craig 等人开发的独立PRS 和基于 ML 的 GWAS 结果,并测试了它们在 UKB 的一个子集以及一个完全独立的队列(EPIC-Norfolk)中预测人类专家标记的 VCDR 的能力。在两个数据集中,基于 ML 的 GWAS 开发的 PRS 比专家标记方法构建的 PRS 具有更强的预测能力,表明基于 ML 的方法发现的新关联影响 VCDR 生物学,并表明该模型表型准确性(即更准确的 VCDR 测量)的提高可转化为更强大的GWAS。

图片从基于 ML 的方法生成的 VCDR 的PRS与详尽的专家标记方法(Craig 等人)之间的相关性

然后使用来自 UKB 的基于 ML 的 VCDR 值来训练弹性网络模型。弹性网络模型分别解释了 UKB 和 EPIC-Norfolk 集合中总 VCDR 变化的 14.2% 和 10.6%。弹性网络模型有更明显的改进,但基于 ML 的模型仍然明显优于它。

图片基于 ML 的弹性网络模型进行了数值改进

作为第二个验证,「因为 VCDR 与青光眼密切相关,我们还调查了基于 ML 的 PRS 是否与自我报告患有青光眼或有医疗程序代码提示患有青光眼或青光眼治疗的个体相关。我们发现使用我们的模型预测确定的 VCDR 的 PRS 也可以预测个体有青光眼迹象的概率。在该队列中,PRS 2.5 或更多标准差高于平均值的个体患青光眼的可能性是平均水平的 3 倍以上。我们还观察到,基于 ML 的表型的 VCDR PRS 比从广泛的手动表型产生的 VCDR PRS 更能预测青光眼。」

图片使用基于 ML 的表型(与平均值的标准偏差)确定的 VCDR 的 PRS 分层青光眼(自我报告或 ICD 代码)的优势比

为了进一步评估基于 ML 的弹性网络 VCDR PRS 对青光眼预测的效用,研究人员对 EPIC-Norfolk 参与者(n=5,868)的原发性开角型青光眼 (POAG) (175 例病例和 5,693 例对照)的状态进行了分类。并将 POAG 病例细分为 HTG(98 例)和 NTG(77 例)。鉴于 VCDR PRS 丰富了与神经元发育和功能相关的变异,假设 PRS 与 NTG 特别相关。以年龄、性别和基于 ML 的弹性网络 VCDR PRS 作为预测因子来拟合逻辑回归模型来预测 POAG 状态。

图片EPIC-Norfolk 队列中的POAG预测

在 EPIC-Norfolk 中,基于 ML 的弹性网络 VCDR PRS 与 POAG,尤其是 NTG 显著相关。

模型训练代码和详细文档

研究人员在 GitHub 的 Genomics Research 存储库中发布了模型训练代码和详细文档。

此存储库中存在三个功能:

  • 模型训练

  • 模型推理

  • 数据分析和图形生成

图片Google Health网站基于ML的基因组学研究

研究人员表示:「ML 模型可用于快速对 GWAS 的大型队列进行表型分析,并且这些模型可以提高此类研究的统计功效。虽然这些例子显示的是视网膜成像预测的眼睛特征,但我们期待探索这个概念如何普遍适用于其他疾病和数据类型。」

论文链接:https://www.cell.com/ajhg/fulltext/S0002-9297(21)00188-9
参考内容:https://ai.googleblog.com/2021/06/improving-genomic-discovery-with.html
理论ML机器学习谷歌健康
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

推荐文章
暂无评论
暂无评论~