《Nature》来源

《Nature》:人工智能遇上进化论——探秘人类基因突变之旅

搞清楚人类基因组在何处以及如何进化的过程,就如同大海捞针一般。每个人的基因组中都包含着30亿个被称作核苷酸的构建模块,研究人员必须对成千上万人的数据进行编译,才能发现某些模式,从而表明基因是如何通过进化塑造而成的。

为了找到这些模式,越来越多的遗传学家正在转向一种名为深度学习机器学习形式。与传统的统计方法相比,深度学习算法包含的关于自然选择遗传特征的明确假设更少。 

图片来源:123RF

机器学习正在将进化推论的能力自动化,”俄勒冈大学的人口遗传学家Andrew Kern博士表示:“毫无疑问,它在推动事情向前发展。”

来自MIT和哈佛大学Broad Institute的研究人员开发了一个名为“DeepSweep”的深度学习工具,已经成功标记出2万个单核苷酸,供进一步研究。 研究人员上个月在加州圣地亚哥举行的美国人类遗传学会年会上报告说,这些简单突变中的一部分甚至全部,都可能帮助人类在疾病、干旱等极端条件下生存。

自20世纪70年代以来,遗传学家已经创建了一些数学模型,用来描述DNA中和自然选择相关的指纹。如果出现一种突变,使一个人比他周围的人能够更好地生存和延续后代,那么具有该变异基因的人口百分比将随着时间的推移而增长。 

比如说,让成年人能够喝牛奶的基因就是这样突变而来的。它能使成人的身体产生乳糖酶,这种酶可以消化牛奶中的糖分。通过用统计学方法对人类基因组进行分析,研究人员发现,这种突变在数千年前在欧洲分布非常广泛,其原因大概是牛奶中的营养物质让成年人及儿童变得更加健康。如今,近80%的欧洲人后裔都带有该变异基因。

训练深度学习算法

然而,遗传学家们一直在努力识别并确定其他特定的基因组片段,这些基因组片段的共同特点是能够提供一种适应性优势,从而在人群中广泛传播。而深度学习恰恰最擅长这样的任务,即发现隐藏在大量数据中的细微模式。 

但是这里有一个问题:深度学习算法往往需要通过接受真实数据的训练后,才能学会对信息进行有效地分类。例如,Facebook需要根据人们已经标注的图片,来使用算法进行人脸识别。由于遗传学家还不知道自然选择正在塑造基因组的哪些部分,他们就只能使用模拟数据来对深度学习算法进行训练。 

来自布朗大学的人口遗传学家Sohini Ramachandran博士表示,要想生成模拟数据,需要研究人员首先确定自然选择的特征是什么样的。“我们眼下没有实际的数据,因此会担心是否进行了正确的模拟。” 

康奈尔大学的人口遗传学家Philipp Messer博士表示,由于深度学习算法像黑匣子一样运行,很难知道算法识别数据模式的标准。“如果模拟过程发生了错误,就很难搞清楚得到的结果意味着什么。”

▲让我们能够吸收牛奶的基因是自然选择的结果(图片来源:Pixabay)

使用深度学习算法的研究人员确实找到了探索“黑匣子”的方法。DeepSweep的创建者使用模拟基因组中的自然选择特征来训练算法。 当他们在真实的人类基因组数据上对算法进行测试时,该算法成功将注意力集中在了允许成年人喝牛奶的乳糖酶突变上。Broad Institute的计算遗传学家Joseph Vitti博士表示,这增强了团队对该算法的信心。 

研究人员随后对来自1000 Genome Project的数据进行了筛选,这个数据库包含了全球2504人的DNA测序数据。同时,研究人员利用统计学方法来识别可能处于进化压力下的区域,这些区域相当于人类基因组30亿个构成模块中的约三分之一。接下来,DeepSweep对每个区域进行评估和分析。到分析结束为止,它能够提供一个包含2万个单点突变的列表,供研究人员进行后续研究。 

在接下来的几个月里,Vitti博士和他的同事们将对活细胞DNA中的突变进行编辑,从而探索这些突变的意义,并比较这些突变出现前后产生的差异。

寻找突变基因

其他几位研究人员正在训练深度学习算法,以寻找基因组中的适应性特征。Kern博士开发的深度学习模型表明,人类最初的大多数基因突变既不有益也不有害。这些基因会在人群中转移,增加了自然遗传变异性,并且只有当环境变化赋予拥有突变基因的人进化优势时,这种基因突变才会变得更加频繁。 

图片来源:123RF

今年2月,Ramachandran博士和她的同事开发了一种深度学习算法,称为SWIF(r)。当他们将其应用于来自非洲南部Khomani San族群45名成员的基因组时,它标记了与代谢相关的基因变异。研究人员推测,这些变化可能是在数千年前发生的,它们帮助该群体成员在不稳定的食物链中储存脂肪。 

突变产生的影响仍需要进行验证。但是与DeepSweep所确定的变异个体一样,SWIF(r)挑选出的变异基因为科学家进行相关研究提供了一个起点。 

“这些与机器学习相关的方法都有助于遗传学家们在基因中寻找自然选择的特征,Broad Institute的计算遗传学家Pardis Sabeti博士表示:“当我们刚开始进行研究的时候,有些人并不认为机器学习能够帮助我们确定变异基因。有些人甚至认为这是天方夜谭。”

参考资料:

[1] Machine learning spots natural selection at work in human genome. Retrieved November 6, 2018, from https://www.nature.com/articles/d41586-018-07225-z

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业基因突变人脸识别机器学习深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

推荐文章
暂无评论
暂无评论~