Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器学习揭示了农业和医学中的「重要基因」

编辑 | 萝卜皮

能够利用基因组数据来预测机体对营养、毒素和病原体暴露变化的反应,可以为作物改良、疾病预后、流行病学和公共卫生提供信息。

纽约大学与台北大学的研究人员合作,应用了一种基于进化的机器学习方法,根据物种内和物种间共享的转录组反应来预测表型;此外,在功能上验证了七种候选转录因子,它们对拟南芥和玉米中的 NUE 结果具有预测能力;同时,将他们的进化信息管道应用于其他物种,包括水稻和小鼠;该方法可以用于寻找一些关键基因,它们所控制的生理特征可能对生物学、农业、医学产生重大影响。

该研究以「Evolutionarily informed machine learning enhances the power of predictive gene-to-phenotype relationships」为题,于 2021 年 9 月 24 日发布在《Nature Communications》杂志。


论文链接:https://www.nature.com/articles/s41467-021-25893-w

从基因组规模的信息中准确预测复杂的表型特征是一个挑战。有几个因素导致了这些挑战。首先,与越来越多的组学数据的可用性相反,从充分代表表型多样性空间的遗传多样性人群中收集高质量的表型数据已成为主要的限制因素。

此外,表型数据通常是从与用于获取功能基因组数据的实验不同的实验中收集的。为了克服这些限制,表型分析工作应该扩大并在作为遗传/基因组信息来源的相同材料上进行。组学数据的爆炸式增长意味着从单个实验中收集的特征(例如基因数量)不可避免地超过表型空间(例如样本量),从而导致数据稀疏、多重共线性、多重测试和过度拟合等问题。这可以通过增加样本大小、降维特征选择方法来抵消,例如主成分分析(PCA)、最小绝对收缩和选择算子(LASSO)正则化、典型相关分析(CCA)等。在机器学习环境中采用了跨物种方法来提高模型到人类知识翻译的性能。


图示:进化信息机器学习方法增强了基因与表型关系的预测能力。(来源:论文)

在该研究中,研究人员通过使用基于进化的机器学习方法来解决这些挑战,该方法利用物种内和物种间的遗传多样性。在具有实际意义的原理验证研究中,利用氮响应基因的转录组数据来预测氮利用效率 (NUE),这是对全球食品安全和可持续性至关重要的农艺结果。

氮(N)——植物生长的主要限制性常量营养素——通过施氮肥在农业系统中得到补充。对于玉米等主要中耕作物,植物吸收了不到 40% 的氮,而超过 60% 的土壤氮通过反硝化、氨氮挥发、浸出等多种过程流失到大气或水体中 。平衡进一步提高作物产量的需要,同时减轻与氮肥相关的环境影响,是可持续农业的挑战。考虑到 NUE 涉及发育、生理和代谢过程的整合的多基因性质,机器学习是解决这一复杂特征背后机制的有吸引力的策略。

为此,研究人员从两个物种——玉米(一种作物)和拟南芥(一种模式生物)——中收集了转录组学和表型 NUE 数据,每个物种都包括一组具有不同遗传背景和 NUE 变异的基因型。研究人员使用基因(基因对「N 处理」或「N-DEG」 的反应,在物种内部和物种之间是保守的),作为机器学习降维方法。由于玉米和拟南芥在系统发育上高度不同,这些进化上保守的 N 反应基因应该代表有助于 NUE 的基本/核心功能。


图示:氮是解释拟南芥自然接入中 NUE 变化的主要因素。(来源:论文)

研究表明,与同等数量的排名靠前的 N-DEG 或随机选择的表达基因相比,使用这些进化上保守的 N-DEG 构建的模型显着改善了从基因表达值对 NUE 性状的预测。重要的是,将模式物种拟南芥纳入研究使研究人员能够使用突变体验证该发现。这一实验证据证实,在机器学习模型中,其表达水平对于预测 NUE 很重要的基因不仅是标记,而且在功能上是性状所必需的。

此外,进化机器学习管道可以转移到植物和动物的其他物种和特征。具体而言,将该方法应用于与田间水稻干旱或小鼠模型疾病相关的其他匹配转录组和表型数据集,可以提高学习模型的预测准确性。因此,以进化为依据的机器学习管道,有可能识别对生物学、农业或医学中感兴趣的复杂表型具有重要意义的基因。


图示:基因型是解释玉米育种系中 NUE 变异的主要因素。(来源:论文)

详细讨论

该团队的工作从全基因组表达数据中预测表型结果。利用进化保守基因表达数据集——物种内和物种间——增强了机器学习模型在预测模型(拟南芥)和作物(玉米)中的 NUE 表型方面的性能,也适用于已发表的匹配转录组/表型数据集。另一种作物(水稻)和模型动物(小鼠)。

研究人员开发的「进化告知三步机器学习管道」,整合了表型特征、转录组谱、遗传变异和环境反应,使研究人员能够:(1) 根据物种内和物种间进化上保守的转录组反应预选一个转录本子集,(2) 将此保守性用作一种生物学上的方法来降低特征维数以提高机器学习模型的性能,以及 (3) 快速 通过包含模型和作物物种,验证从 XGBoost 模型和 GENIE3 基因调控网络中识别出的「重要基因特征」的功能。

在过去几年中,机器学习在预测表型方面的实施取得了进展。然而,可用的数据集并不总是:(1) 利用生物体的遗传多样性和(2)使用捕获转录组反应的相同样本测量表型。该团队的工作在这两点上都推动了该领域的发展,他们利用了一组具有不同遗传背景的基因型,并从捕获转录组的同一批次植物中测量了表型。整合了遗传多样性、机器学习和跨物种方法来确定对农艺重要性状 NUE 具有重要意义的基因。

研究人员设计了一个足够大但可管理的 N 处理实验空间,跨越一组约 20 种基因型,涵盖模型和作物物种中的 NUE 表型。在此呈现的结果从模型和作物物种中生成了最大的匹配表型和转录组数据集。该数据集包括用于植物群落和 18 个拟南芥种质的 318 个玉米基因型的大型 NUE 表型数据集资源。

研究人员利用了 18 个拟南芥种质和 23 个玉米基因型的遗传多样性;这些基因型被选为 NUE 的广泛表型变异,并在相同样本中对它们的转录组学和生理学反应进行评分。重要的是,选定的玉米基因型代表了在适应美国玉米带的综合种质集合中观察到的 NUE 多样性范围。

研究的局限性在于所得出的预测模型不一定会显示基因与性状的因果关系。然而,预测准确性和解释力是破译潜在机制复杂性的两个维度,而不是极端。预测建模预测新的或未来的观察,而解释性建模测试因果解释。预测模型的目的不是解释潜在的机制;「最合理的方法是首先实现准确的预测,然后尝试理解原因」。通过提供准确的预测,预测模型揭示了用于进一步研究因果关系的新基因特征。

该研究结果强调了一个事实,即影响 NUE 的基因参与一系列过程,包括营养反应和吸收(DIV1 和 NLP5)、花药和花粉发育(NF-YA6 和 MYB)、幼虫到成虫的转变(MYB)、microRNA 介导的生长和反应(NF-YA、MYB 和 TCP2)、免疫反应(NF-YA6、UNE12、WRKY 和 WRKY)和光形态发生(TCP2 和 Zm00001d006835)。

这些结果不仅提供了额外的证据支持 NUE 是一种多基因性状并与多种信号通路交织在一起的观点,而且进一步揭示了这些基因在调节 NUE 中的新作用。值得注意的是,有 NF-Y、NLP 和 WRKY 三个转录因子家族,其成员被丰富为 XGBoost 模型的基因特征或基于 GENIE3 的 GRN 的调节因子:

该研究确定了 9 个拟南芥和一个玉米 NF-Y 基因作为 XGBoost 模型的特征,以及 12 个拟南芥和 14 个玉米 NF-Y 基因作为 GENIE3 NUE GRN 中的潜在调节因子。使用拟南芥 NF-YA6 (AT3G14020) 及其玉米同源物 NFYA3 中的突变体验证了 NUE(拟南芥 XGBoost 模型中的顶级基因)中 NF-YA6 的功能。

在几乎所有真核生物中发现的 NF-Y 家族编码进化上保守的三聚体转录因子复合物的成分。在人类中,NF-Y 与在乳腺癌、结肠癌、甲状腺癌和前列腺癌中过度表达的大量基因的启动子中的 CCAAT 盒结合。在植物中,NF-Y 在开花时间、早期种子发育、结瘤、激素信号传导和应激反应中的调节作用已被揭示。NF-Ys 作为一种多聚体蛋白复合物 (NF-YA/B/C(-CO/bZIP/bHLH) 结合其规范基序 CCAAT 和/或其伙伴 TFs 的基序。

人们很容易假设 灵活的顺式结合能力使 NF-Ys 多功能和上下文相关的 TFs 可以快速适应营养波动。值得注意的是,几个 NF-Y 基因被 miR169 靶向和下调,miR169 成员对 N-饥饿做出转录反应。因此 ,我们的数据支持 N 信号、NF-Y 的 N 响应中的 miRNA 变化与 NUE 的表型输出之间的新联系:氮 → miR169 → NF-Y → NUE。

研究人员确定了六个拟南芥和两个玉米 NLP 基因作为 XGBoost 模型中预测 NUE 的特征,以及五个拟南芥和 14 个 NLP 基因作为 GENIE3 NUE GRN 中的潜在调节因子。此外,使用突变体验证了 NLP5(玉米 XGBoost 模型和玉米 NUE GRN 中的顶级基因特征)作为 NUE 负调节因子的作用,特别是在低氮条件下。NLP 是植物特异性 TF,与核心共生基因 Nin 相关,后来被确定为拟南芥中硝酸盐信号传导的主要调节因子。新出现的证据表明,它们对 N 调节基因表达和发育过程的贡献在植物物种中很常见。功能验证实验结果表明,NLP5 在 N 耗尽条件下是 NUE 的负调节因子,这可以解释为 NLP5 是 N-的主调节因子 NIGT1/HRS1 的靶标。因此,拟南芥突变体中 NLP5 的缺失可以去抑制 N-饥饿反应,导致更高的 NUE。

确定了六个拟南芥和六个玉米 WRKY 基因作为 XGBoost 模型的特征,以及 24 个拟南芥和 11 个 WRKY 基因作为 GENIE3 NUE GRN 中的调节因子。其中,WRKY38 和 WRKY50 是拟南芥 NUE GRN 中排名靠前的 TF hub。使用拟南芥突变体的功能分析验证了 WRKY38 和 WRKY50 在介导 NUE 中的作用。

WRKYs 主要存在于植物中,是最大的转录因子家族之一。越来越多的证据表明,WRKYs 在植物发育过程(胚胎发生、发芽、衰老等)以及对生物和非生物胁迫(包括防御、盐、干旱、营养缺乏等)的反应中具有重要的生物学功能。除了已知它们在防御反应中的功能外,研究人员发现它们在调节 NUE 方面也发挥着作用,并使它们成为协调植物对 N 水平和生物胁迫反应的候选 TF 中心。

结语

这项研究表明,遗传多样性、跨物种转录组分析和机器学习方法的整合增强了影响 NUE 的基因的预测建模。反向遗传分析结果进一步表明,那些预测 NUE 的基因不仅是生物标志物,而且在确定植物响应环境营养的性能方面具有重要的功能。

这项工作中提出的管道可以补充目前在多基因性状中识别重要基因的方法。对遗传多样性作物和动物数据集特征减少的进化知情策略的验证,支持其为任何寻求揭示控制生物学、农业或医学中复杂表型的重要基因的系统提供信息的潜力。

相关报道:https://phys.org/news/2021-09-machine-uncovers-genes-importance-agriculture.html

产业智慧农业机器学习
相关数据
相关分析技术

相关分析就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。在一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

主成分分析技术

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

XGBoost技术

XGBoost是一个开源软件库,为C ++,Java,Python,R,和Julia提供了渐变增强框架。 它适用于Linux,Windows,MacOS。从项目描述来看,它旨在提供一个“可扩展,便携式和分布式的梯度提升(GBM,GBRT,GBDT)库”。 除了在一台机器上运行,它还支持分布式处理框架Apache Hadoop,Apache Spark和Apache Flink。 由于它是许多机器学习大赛中获胜团队的首选算法,因此它已经赢得了很多人的关注。

模式生物机构

模式生物是一家基因修饰模式生物研发商,主营业务为基因修饰模式生物的研发、生产和技术服务,主要用于生命科学基因功能研究和药物研发等。

http://www.modelorg.com/
暂无评论
暂无评论~