机器学习破解基因密码:斯坦福大学开发出鉴定致病性基因突变的新工具

azureML_thumb.jpg


2012 年,Shayla Haddock 的医生对她所患的一种罕见的遗传疾病进行了测试,但是他们没办法确诊。畸形足、身材矮小、不正常的面部特征和先天性耳聋等症状将伴随她一生——这使得她的医生怀疑这是由基因突变造成的。但是对于像 Shayla 一样的孩子来说,在 30 亿 DNA 碱基对当中找到致病基因是非常困难的。在基因测序之后,几乎每一个病例都需要一位训练有素的基因学家花 20-40 小时来分析。并且大约有 75% 的患者在第一次尝试中没办法被确诊。


斯坦福的一些计算机科学家最终解决了 Shayla 的困境,他们设计了一种自动化的方式,将患者的症状和变异基因与已有的遗传疾病数据库中的信息作对比。2016 年初,他们发现 Shalya 所患的疾病早些年在医学文献当中报道过。而在两周前,Shayla 的医生仍然不能告诉她的家人病因到底为何。


现在,这个斯坦福大学的科研团队,在计算机科学家、基因学家、哲学博士 Gill Bejerano 的带领下,在病情诊断方面的发展又进了一步。他们研制出了一种更加精细的工具,可以自动评估遗传密码中单个字母的错误。这种新工具叫做 M-CAP,他们的研究论文已发布在今天的《Nature Genetics》上,这个团队使用了一种机器学习的算法,根据是否有可能致病性基因突变进行分类。这项成果的全部细节已公布在网上,以供全世界的遗传学研究人员使用。


「纵观人类基因中的各种可怕变异,有数以万计的变化可能会导致严重的儿童早期疾病。而这些变异和与健康人基因当中的变体相比是非常不一样的。」


他解释道,最基本的问题是,每个人的基因密码中合成蛋白质的部分都有 1 万个小光点或者说是变体,这些 DNA 中的每一个碱基对都与正常的人类基因序列不同。几乎所有的这些光电都是无害的。但是在那些从出生就有一些难以解释的症状的孩子身上,我们有足够的理由相信是由于一个或者两个基因上的变化才引起了他们的疾病。


在他们的评估当中,遗传学家们试图将一个到两个最有可能导致疾病的基因变体归零。比如说,他们会忽略那些在普通人群中非常普遍的基因变体,因为我们相信这些罕见的疾病都是由一些罕见的基因突变引起的。他们已经人工将需要评估的基因变异列表减少到每位患者 300 种左右。M-CAP 让这个列表更加精简,大约每位患者 120 种基因变体,Bejerano 的团队希望随着遗传疾病研究的推进,这个列表可以更加的更精确。


非常重要的一点是,M-CAP 要比以往自动分类基因变体的方式更加精确。传统的方式会将四分之一到三分之一的致病基因变体错误的标记为无害。M-CAP 出现这种错误的几率只有 5%。


Bejerano 说:「我们挑战是要尽力将这个基因变体的列表减少到最短,并不仅仅包括哪些罕见、没有潜在功能的基因,还有所有存在危险性的基因。」「但更重要的是,我们不能告诉患者致病的基因突变是良性的。」



摘要:变体致病性分类器例如 SIFT、PolyPhen-2、CADD 和 MetaLR 通过优先确认良性突变,有助于在典型患者基因组中解释数百个罕见的错义突变(missense variants)。目前广泛使用的分类器对于已知的致病突变有 26% 至 38% 的错误率,这些方法如果在临床中应用可能会导致误诊。我们开发了 M-CAP,一种临床致病性分类器,它在所有方面优于目前的方法,同时可以在典型基因组中以 95% 灵敏度正确排除 60% 的罕见的、不确定的错义突变。

理论理论医疗健康基因编辑斯坦福大学应用论文
暂无评论
暂无评论~