Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

这个众筹网站想要集中使用我们的基因组

2010年,我曾经写过一篇有关基因测试公司23andme的文章,也因此获得了基因测试的机会。如今,这家公司已有大约100万用户,其他类似公司,比如Ancestry.com也是如此。 但是,这些公司大多彼此独立,这让来自纽约基因组中心、哥伦比亚大学的 Yaniv Erlich很沮丧。他说,不久以后,会有数以百万计的人接触到基因组。我们打算让这些数据贮存在孤岛上吗?还是说,应该与这些大公司合作,让真正的大科学成为可能?正是基于后一原因,他和 Joe Pickrell成立了DNA.LAND。 这是一家允许其他基因测试公司的用户上传包含基因数据的文件的网站。科学家能用这些数据进行研究,当然,是以每位用户同意的尺度进行研究。 Erlich介绍说,网站是一种让普通大众参与到大规模基因研究中的方式。他们并非一家公司,而是由科学家运营的非营利性网站,允许用户在已接受测试的公司之外寻找亲属。 Erlich曾有过相似的项目纪录:两年前,通过公开的家谱网站,他搜集了4300万份家谱,这可能是世界上最大的家谱集合。 不过,让人们积极参与到DNA.LAND更不容易。来自麻省总医院的 Daniel Macarthur却很乐观,他认为,至少他们具有这样的优势——能与乐于积极分享自身基因数据的团队合作。 让Erlich备受鼓舞的是,openSNP 和 GedMatch这两家网站已经成功地从成千上万的用户那里众筹到基因数据。但是,这两家网站都没有太多隐私保护措施。相反,DNA.LAND承诺,没有用户明示,不会泄露任何信息。他们设计了5分钟内可以阅读完的同意表格,尽可能少地使用科学或法律术语,并附有指向Erlich和 Pickrell自己基因组的链接。 为了鼓励用户积极上传基因数据,网站提供几项免费服务,包括祖辈报告和寻亲。其他公司也提这些服务,不过均局限于自己的数据贮存孤岛。 这些公司也分析一个人体基因组中成百上千个标记,留下大片未知;通过一个叫做归责(imputation)的过程,DNA.LAND会填补这些未知。Erlich解释说,Ba_ _ _ _ O_ _ ma i_ t_ _ Pr_ _ _ _ _ _ t,你可以快速填充成Barack Obama is the President,因为你熟悉英语,另外,空白处的字母选择也有限。基因组也是这样,DNA 成块遗传,通过学习,我们可以根据那里有什么的情况猜出那里没有什么。 接下来,他打算将网站与其他数据源结合起来。比如,用户推特或许可以揭示他们的睡眠模式,是否生病或者症状如何,情绪起落等等。Fitbit数据能够揭示更多的用户身体健康状态方面的情况。如果这些数据能够与网站连接起来,科学家就能轻而易地将基因型(genotype)与表现型(phenotype)联系起来。 网站启动后,一天之内,用户上传了1250份基因组,几乎是一秒一个基因组,网站程序员通宵未眠。当然,这一惊人速度逐渐慢了下来,但是,截至写稿时,网站已有5,485个基因组。团队希望收获数千基因组甚至更多。   来自theatlantic,机器之心编译出品。编译:微胖。
入门
暂无评论
暂无评论~