编辑 | 萝卜皮
麻省理工学院的研究人员报告了两种生成式深度学习模型,它们基于二级结构设计目标,通过整体蛋白质或单个残基结构,预测氨基酸序列和 3D 蛋白质结构。这两种模型对于不完美的输入都很稳健,并拥有从头设计能力,它们可以发现尚未从自然机制或系统中发现的新蛋白质序列。残基二级结构设计模型通常会产生更高的准确性和更多样的序列。
该团队的模型使用基于注意力的扩散模型,在从实验已知的 3D 蛋白质结构中提取的数据集上进行训练,在各种生物或工程系统的条件生成设计中提供了许多下游应用。
该研究以「Generative design of de novo proteins based on secondary-structure constraints using an attention-based diffusion model」为题,于 2023 年 4 月 20 日发布在《Chem》。
研究人员开发了机器学习算法,可以生成具有特定结构特征的蛋白质,这些蛋白质可用于制造具有某些机械性能(如刚度或弹性)的材料。这种受生物启发的材料有可能取代由石油或陶瓷制成的材料,但碳足迹要小得多。
研究人员采用了一种生成模型,该模型与 DALL-E 2 等人工智能系统中使用的机器学习模型架构类型相同。但是,他们并没有像 DALL-E 2 那样使用它根据自然语言提示生成逼真的图像,而是调整了模型架构,以便它可以预测实现特定结构目标的蛋白质的氨基酸序列。
论文通讯作者作者 Markus Buehler 说,这些模型学习控制蛋白质形成方式的生化关系,可以产生新的蛋白质,从而实现独特的应用。
「当你考虑设计大自然尚未发现的蛋白质时,它是一个巨大的设计空间,你不能仅仅用铅笔和纸来整理它。你必须弄清楚生命的语言,氨基酸由 DNA 编码然后聚集在一起形成蛋白质结构的方式。在我们进行深度学习之前,我们真的无法做到这一点。」Buehler 说。
为任务调整新工具
蛋白质由氨基酸链组成,以 3D 模式折叠在一起。氨基酸的序列决定了蛋白质的机械特性。虽然科学家已经确定了通过进化产生的数千种蛋白质,但他们估计仍有大量氨基酸序列未被发现。
为了简化蛋白质发现,研究人员开发了深度学习模型,可以预测一组氨基酸序列的蛋白质 3D 结构。但相反的问题——预测满足设计目标的氨基酸结构序列——已被证明更具挑战性。
机器学习的新出现使 Buehler 团队能够解决这个棘手的挑战:基于注意力的扩散模型。
Buehler 说,基于注意力的模型可以学习非常远距离的关系,这是开发蛋白质的关键,因为长氨基酸序列中的一个突变可以成就或破坏整个设计。扩散模型通过一个过程学习生成新数据,该过程涉及向训练数据添加噪声,然后学习通过消除噪声来恢复数据。在生成高质量、逼真的数据方面,它们通常比其他模型更有效,这些数据可以被调节以满足一组目标,从而满足设计需求。
研究人员使用这种架构构建了两个机器学习模型,可以预测各种新的氨基酸序列,这些氨基酸序列形成满足结构设计目标的蛋白质。
「在生物医学行业,你可能不想要一种完全未知的蛋白质,因为你不知道它的特性。但在某些应用中,您可能需要一种全新的蛋白质,它与自然界中发现的蛋白质相似,但功能有所不同。我们可以用这些模型生成一个频谱,我们通过调整某些旋钮来控制它。」Buehler 说。
研究人员开发了两种模型,一种在蛋白质的整体结构特性上起作用,另一种在氨基酸水平上起作用。两种模型都通过组合这些氨基酸结构来产生蛋白质。对于对整体结构特性进行操作的模型,用户输入所需百分比的不同结构(例如,40% 的 alpha 螺旋和 60% 的 beta 折叠)。然后模型生成满足这些目标的序列。对于第二个模型,科学家还指定了氨基酸结构的顺序,这提供了更细粒度的控制。
这些模型与预测蛋白质折叠的算法相关联,研究人员使用该算法来确定蛋白质的 3D 结构。然后他们计算其结果属性并根据设计规范检查这些属性。
相关报道:https://news.mit.edu/2023/ai-system-can-generate-novel-proteins-structural-design-0420
论文链接:https://doi.org/10.1016/j.chempr.2023.03.020