武帅、蒋宝尚编译

MIT新研究:用AI把氨基酸序列编码成曲子,再哼哼两句还能“创造”全新蛋白质

想要创造一些具有有用特性的全新蛋白质?

没问题。只要哼上几个小调就可以了。

在科学和艺术的有机结合下,麻省理工学院(MIT)的研究者开发出了一套系统,用于将蛋白质的分子结构(所有生物体的基本构成物质)转化为一小段音乐片段。

然后,将这个过程反转过来,如果你改变几个音符,还能“创造出”一些自然界中从未见过的全新蛋白质。

此项研究已经发表在了ACS Nano上面。研究下载地址:https://pubs.acs.org/doi/pdf/10.1021/acsnano.9b02180

它提供了一种将蛋白质的氨基酸序列“翻译”成音乐序列的系统方法,并且能通过分子的物理特性来确定所属的声音。

虽然这些声音都是为了能使人耳听到而经过了一定的变换,但是这些变换是基于每个氨基酸分子的实际振动频率的,这些频率又是经过量子化学理论计算得来,因此它们和原始的声音一一对应。

让AI学习蛋白质的语言,并“翻译”成乐曲

氨基酸是蛋白质链的组成部分,因此,氨基酸所构成的蛋白质长序列被转化为一系列的音符。

虽然对于那些习惯了传统音乐的人来说,这样的音阶听起来并不熟悉,但是听众在熟悉之后就能轻松地意识到其中的联系和差异。Buehler说,在听完这些氨基酸所产生的旋律之后,他现在能够分辨出那些具有特定结构功能的蛋白质所对应的氨基酸序列。他会说:“这是一个 beta sheet”,或者“那是一个 “alpha helix”。

Buehler解释说,整个概念是为了更好地了解蛋白质及其各种变异。蛋白质是构成皮肤、骨骼和肌肉的结构材料,同时也是酶、化学信号物质,以及构成所有生物机器的大量其他功能材料。

但是它们的结构,包括它们将自身转换成通常决定其功能的形状所用到的方法,都是极其复杂的。“它们有着自己的语言,并且我们也不知道它是如何运作的,”他说。“我们不知道是什么使丝蛋白成为丝蛋白,也不知道是什么模式反映了酶中所发现的功能。我们不知道它编码方式。”

将蛋白质的语言翻译成一种人们易于理解的形式,并允许不同方面的信息能够在不同维度—音高,音量和持续时间上进行编码。

Buehler 和他的团队希望收集到关于不同的蛋白质家族之间的关系和差异以及其变异的新见解,并以此探索许多可以用来调整和修改蛋白质结构和功能的方法。和音乐一样,蛋白质的结构也是分层的,在不同的结构层次上有着不同的长度或时间。

研究团队之后采用了人工智能系统来研究由多种不同的蛋白质所生成的旋律目录。他们让人工智能系统在音乐序列中引入微小的变化,或者生成全新的序列,然后翻译回与修改后的序列或新设计的序列所对应的蛋白质。

借助这个过程,他们可以创造出现有蛋白质的变体。例如,借助于在自然界中强度最高的材料之一—蜘蛛丝中所发现的蛋白质,制造出与自然进化所产生的蛋白质不同的新品种。

虽然这些研究者可能并不了解这些潜在的规则,“但是人工智能已经学会了蛋白质的设计语言,”并且它可以对其编码,创造出现有品种的变体,或全新设计的蛋白质,Buehler如是说。鉴于存在着成千上万亿的潜在组合,当涉及到创造新的蛋白质时,“你不可能从头开始,但是AI可以。”

“虽然我们不知道模型内部发生了什么,但是它很有用”

通过使用这样一个系统,用一组特定种类的蛋白质的数据来训练人工智能系统可能需要几天的时间,但是它之后可以在几微秒的时间内设计出一种新的变体。

Buehler表示:“没有其他方法能与之媲美,缺点就是我们并不知道这个模型内部发生了什么。我们只知道它管用。”

这种将结构编码为音乐的方式确实反映了更深层次的现实。

“当你在教科书中看到一个分子时,它是静态的,”Buehler说到,“但它根本不是静止的。它正在移动和振荡。每一个物质都是一组振动。我们可以用这个概念来描述物质。”

这个方法尚不允许任何类型的定向修改—诸如机械强度,弹性,或者化学反应性等性质的任何变化基本上是随机的。“你仍然需要做实验,”他说,当一种新的蛋白质变体产生时,“没有方法去预测它会发生什么。”

该团队还创造了由氨基酸的声音开发的音乐作品,这些氨基酸定义了20个新音阶。他们创作的艺术品完全由氨基酸的声音组成。

“它没有使用任何人造的或天然的乐器,这展示了这种新的声音源是如何被用作创意平台的,”Buehler说到。从自然存在的蛋白质和人工智能生成的蛋白质中提取出来的音乐主题贯穿于整个示例,所有的声音,包括一些类似于男低音或小军鼓的声音,也都来自于氨基酸的声音。

研究人员还开发了一款名为Amino Acid Synthesizer的免费的Android智能手机应用程序,用于播放氨基酸的声音,并将蛋白质序列记录为音乐作品。

“Markus Buehler拥有最具创造力的灵魂,他对生物分子内部运作的探索正在以一种最重要的方式促进我们对生物材料的机械响应的理解。”Marc Meyers说到。他是加州大学圣地亚哥分校的一名材料科学的教授,并没有参与这项工作。

Meyers补充道,“这种将其设想为音乐的方式是一个新颖而有趣的方向。这是最好的实验音乐。生命的韵律,包括我们心脏的搏动,是重复声音的最初来源,而这些声音构成了美妙的音乐世界。Markus已经进入了纳米空间,去提取构成生命体的氨基酸的独特韵律。”

澳大利亚悉尼大学的生物化学和分子生物技术教授Anthony Weiss说到:“蛋白质序列是复杂的,正如蛋白质序列之间的比较一样。

他表示:麻省理工学院的团队“提供了一种令人印象深刻,有趣和不寻常的方法来访问并解释这种复杂性。……这种方法得益于我们与生俱来的能够听到复杂音乐的能力。通过音乐的和谐与不和谐,我们现在有了一个有趣并且有用的工具来比较和对比氨基酸序列。”

相关报道:http://news.mit.edu/2019/translating-proteins-music-0626

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论蛋白质MIT
1
暂无评论
暂无评论~