编辑 | 雪松
昼夜节律,如睡眠-觉醒周期,是大多数生物与生俱来的,对地球上的生命至关重要。昼夜时钟在 24 小时日夜周期中协调生物的各项生理变化,会间接影响我们人类的体能水平、健康程度、生存能力。
同样,将新陈代谢与日出落日同步等情况也存在于植物中,准确的生物钟有助于调节开花。了解昼夜节律,于植物而言,有助于提高植物的生长和产量;于人类而言,则有可能揭示出治疗疾病的新途径。
IBM欧洲研究所与厄尔汉姆研究所的合作团队,描述了一系列基于人工智能(AI)和机器学习(ML)的方法。这些方法可以进行更具成本效益的分析并深入了解昼夜节律的调节和功能。最具创新性的是,该团队仅使用DNA序列特征来进行准确的昼夜节律基因表达预测。
该研究以「Interpreting machine learning models to investigate circadian regulation and facilitate exploration of clock function」为题,于2021年8月10日发布在《PNAS》杂志。
生物钟是地球生命对环境的重要适应。在这里,研究人员使用机器学习来预测拟南芥中复杂、时间和昼夜节律的基因表达模式。最重要的是,该方法使用从公共基因组资源从头生成的 DNA 序列特征对昼夜节律基因进行分类;这意味着该方法的下游应用,无需实验工作以及先验知识。
该团队使用特定转录本的本地模型解释,对 DNA 序列特征进行排序,并得出每个转录本潜在昼夜节律调节机制的详细概况。此外,该方法还可以使用 DNA 序列特征(局部的、解释性的、排序的)来区分转录表达的时间阶段,揭示昼夜节律集中隐藏的子集。「模型解释/解释」提供了方法学进步的支柱,从而可以深入了解生物过程和实验设计。
图示:拟南芥昼夜节律/非昼夜节律比较 ML 二元分类,具有 12 个转录组时间点。(来源:论文)
当使用减少数量的转录组时间点预测昼夜节律转录时,该团队使用模型解释来优化采样策略。最后,从单个转录组时间点预测昼夜节律时间,得出对准确预测最有影响的标记转录本;这可以促进从现有数据集中识别改变的时钟功能。
图示:拟南芥昼夜节律/非昼夜节律 ML 二元分类,以减少转录组时间点的数量。(来源:论文)
该研究描述了一系列基于 ML 的方法,这些方法可以实现对拟南芥昼夜节律调节的成本效益分析和洞察。当使用少量 mRNA 测序(mRNA-seq)时间点预测昼夜节律转录本时。尽管在选择最少三个时间点时会丢失信息并导致 F1 分数下降,但与现有方法相比,该方法不仅提高了准确性,而且还使用模型解释来优化采样策略。研究人员确定的一些最准确、减少的采样策略与现有方法一致(例如,在一天中均匀分布的时间点以最有效地捕获正弦波曲线)。
图示:拟南芥昼夜节律/非昼夜节律 ML 二元分类使用 k-mer 配置文件。(来源:论文)
最重要的是,仅使用 DNA 序列特征进行准确的昼夜节律分类,不需要调节元件或转录组数据的先验知识。这提供了优于现有方法的优势,不仅可以预测表达,还可以同时破译调节途径;由于使用可解释的 AI 算法,所以在进行预测时便可即时定义调节元件。使用人工智能,从头自动定义转录本的这些特征配置文件,并确定其优先级;这项工作通过有可能支持基因组的功能注释和精准农业。这个应用程序可以重新定义「如何生成可测试的假设」,从而理解基因表达控制。
该团队利用新方法预测昼夜节律时间,同时使用模型解释来推导拟南芥标记转录本。这些选定的转录本可用于测试现有和新兴拟南芥数据集中的单个数据点,以研究基因型、处理和环境条件如何影响生物钟功能。此外,由于转录组数据集的时间成本和金钱成本很高,因此在单个时间点内减少对标记基因的分析,可以节省大量资源。
图示:在基于 ML DNA 序列的分类后研究拟南芥昼夜节律 TP 转录本。(来源:论文)
文章作者 Gardiner 博士补充道:「在作物中,昼夜节律对保持健康生长和发育至关重要;农业科学家和农民使用该模型了解植物的内在节律,可能会提高作物产量。同时,我们现在正在研究不同的物种,研究生物钟及其与人类疾病的联系,例如,生物钟失调与从抑郁症到癌症等一系列疾病有关。」
论文链接:https://www.pnas.org/content/118/32/e2103070118
相关报道:https://phys.org/news/2021-08-machine-technology-explores-circadian-rhythms.html