泽南 蛋酱报道

打游戏抗击新冠,说不定还能中Nature

在一款电脑游戏中,你可以和全球玩家一同参与设计对抗新冠病毒药物的最重要部分。这并不是开玩笑,准备开始「搞科研」了吗?
当新冠病毒已经在全球范围内蔓延时,宅在家就是对社会最大的贡献。

不过除了在家办(zi)公(bi),你还可以利用空余时间为对抗疫情再多做一点贡献。

有一款叫做「Foldit」的视频游戏,在 2 月底上线了新功能「The rundown on coronavirus」,吸引了不少人的关注。玩家们现在可以通过这款游戏协助研究人员发现抗击新冠病毒的药物。这款游戏是免费的,并且是非营利性质的,PC 端各版本齐全。

官方网站:https://fold.it/

目前,新冠病毒已经导致全球范围内 9 万多人感染、3000 多人死亡,除中国之外,韩国、意大利和日本也呈现了爆发趋势。面对严峻的疫情,科学家们正在紧张地寻找特效药和疫苗,不过在有些任务上,人多力量大还是最有道理的。以 Foldit 为平台,研究人员会将有价值的游戏结果收集起来,用户所得出的具有抗病毒潜力的蛋白质结构都将接受进一步的科学检验。

在最近的几周里,研究人员已经确定了 2019 新型冠状病毒突刺蛋白(即 S 蛋白)的结构,以及它们是如何与人体细胞结合的。如果我们可以设计一种蛋白与病毒的突刺蛋白结合,则它就可以用来阻止与人体细胞结合,进而对抗感染!

虽说被设计成一款游戏,但 Foldit 并不是能简单上手的。对于新玩家来说,你可以从「Beginner: Coronavirus puzzle」开始,之后可以尝试挑战更难的「advanced coronavirus puzzle (https://fold.it/portal/node/2008926)」,在高级版中,玩家需要从零开始设计抗病毒蛋白质结构。

安装、打开、登陆以后,进入初始界面,游戏会提示你启动第一个 Intro Puzzle 练练手:

在第六关里,我们已经需要同时解决冲突、蛋白空腔问题,设计复杂的蛋白质结构了。

或者你也可以直接进入 Science Puzzles,在主菜单中选择即可:

在新的关卡中,玩家可以看到新冠病毒 S 蛋白的结合点。在这里,除了结合位点上的侧链——S 蛋白通常与人类接收蛋白结合的位置,其他大部分侧链都是冻结状态。玩家可以设计一种与开放侧链结合的新蛋白质,阻止病毒与人类受体的相互作用。为了实现对新冠病毒的靶向攻击,设计者需要在这一结合处尝试大量的连接和氢键形式,以及更为复杂的二级结构(如螺旋或薄片),和一个核心,以便能够正确地结合。

这就是新冠病毒刺突糖蛋白的真实结构,你也可以在游戏里开展最尖端的科学研究了。

其实,Foldit 不是一款新游戏,作为学界向玩家寻求力量的先驱,这款游戏最初版本是 2008 年 5 月发行的,作者来自华盛顿大学计算机科学与工程系,以及生物化学系的科研人员。在推出几年后 Foldit 在全球就拥有了超过 24 万名用户,在蛋白质设计领域里,Foldit 可谓广为人知。除了固定和偶尔更新的关卡,Foldit 也开放工具允许学者上传自己正在研究的蛋白质结构进行交互探索。

2010 年,研究组的论文登上了顶级科学期刊《Nature》(论文:Predicting protein structures with a multiplayer online game),其论文作者上除了科学家们,还包括「Foldit players」:大约有 57000 名玩家对该计划做出了贡献。

2011 年,Foldit 玩家又帮助科研人员构建了 Mason-Pfizer 猴病毒(M-PMV)逆转录病毒蛋白酶的晶体结构,让人类研究艾滋病逆转录酶的晶体结构的进程前进了一大步——这种蛋白质酶是艾滋病毒在活体细胞中复制和自我增殖的重要关键。此前科学家们花费了十五年的时间寻找解答,但在 Foldit 游戏中,逆转录酶的结构在三个星期内即被并没有生物学科研背景的玩家们破解。这一研究结果也登上了 Nature 子刊。

Foldit 的成功为更多生物学家提供了灵感,在以硬核著称的太空多人在线游戏《EVE Online》中,2016 年的新版本行星建设系统里加入了一个叫作「Project Discovery(探索计划)」内置小游戏,玩家需要参考教程去鉴定并分类 1300 万个人体细胞蛋白质染色图,进而获得丰厚的虚拟货币等奖励。科研项目的负责人 Emma Lundberg 还成为了游戏中的 NPC。

EVE 把行星探索和生物科技联系起来,两者都挺科幻的。

这一小游戏,其实是开发商与瑞典皇家理工学院合作的科研项目,随着玩家们的标注数量增多,人工智能系统可以越来越准确地对人体中的蛋白质进行定位,进而帮助到对癌症相关蛋白质以及药物作用标靶的研究。

探索计划的成果不仅是一个机器学习数据集,还登上了 2018 年 10 月的《自然-生物技术》。报告表明,超过 32 万位玩家参与了这项特殊的研究,总计完成了 3300 万个图像分类,研究结果目前已经上传到了公开的「人类蛋白图谱数据库」之中,可供全世界的科学家使用。
Kaggle 上还曾经举行过使用该数据集的数据竞赛:https://www.kaggle.com/c/human-protein-atlas-image-classification

蛋白质堆叠是最困难,也最为重要的科学问题之一。通过 Foldit 等游戏把这一工作交给广大玩家来参与,或许是搞研究的最好方法了。所以下一次在你打游戏的时候,会不会变得更加理直气壮?

参考链接:https://venturebeat.com/2020/03/03/coronavirus-inspires-university-of-washington-to-create-protein-folding-puzzle-game/
入门新型冠状病毒游戏Nature
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

推荐文章
暂无评论
暂无评论~