Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

集成「进化环境」的深度学习算法加速蛋白质工程

作者/凯霞

蛋白质是所有活细胞的分子机器,具有广泛的应用。为了克服天然存在的蛋白质的局限性,蛋白质工程用于改善蛋白质特性(例如稳定性和功能性)。

机器学习越来越多地用于蛋白质工程。然而,由于它们捕获的一般序列环境(context)对于正在设计的蛋白质并非特异的,因此现有机器学习算法的准确性相当有限。

近日,来自伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员展示了一种加速蛋白质工程过程的机器学习算法——ECNet,一种利用进化环境来预测蛋白质工程功能适应性的深度学习算法。研究表明:与现有的机器学习算法相比,ECNet 能更准确地预测序列—功能关系。

该研究以《ECNet is an evolutionary context-integrated deep learning framework for protein engineering》为题,于 9 月 30 日发表在《Nature Communications》杂志上。

图片

蛋白质工程旨在创造具有改进或新功能的蛋白质变体。一种强大的蛋白质工程策略是定向进化,它包括诱变和高通量筛选/选择的迭代循环。虽然定向进化已经很成功,但可以通过定向进化采样的蛋白质序列空间是有限的,开发有效的高通量筛选/选择可能需要大量的实验工作。

机器学习算法通过减少定向进化等方法的实验负担来协助蛋白质工程,这涉及多轮诱变和高通量筛选。其通过在蛋白质序列数据库上训练后模拟和预测目标蛋白质的所有可能序列的适合度来工作。

尽管存在许多机器学习算法,但其中很少包含目标蛋白质的进化史。

基于此,研究人员开发了 ECNet:进化环境集成神经网络(evolutionary context-integrated neural network),这是一种利用进化环境来预测蛋白质工程功能适应性的深度学习算法。

图片

图示:ECNet 概述。(来源:论文)

该算法将来自同源序列的局部进化环境(明确模拟了目标蛋白质的残基-残基上位性),与编码大型蛋白质序列的丰富语义和结构特征的全局进化背景相结合。因此,它可以实现从序列到功能的准确映射,并提供从低阶突变体到高阶突变体的泛化。

准确预测蛋白质的功能适合度

为了验证 ECNet,研究人员进行了多项基准测试,以评估 ECNet 从蛋白质序列预测功能适合度的能力。

「使用 ECNet,我们能够查看目标蛋白质及其所有同源物,以了解哪些残基耦合在一起,因此对特定蛋白质很重要,」美国国家科学基金会 (NSF) 资助的分子制造实验室研究所所长、Steven L. Miller 化学与生物分子工程讲座教授 Zhao (BSD) 说。「然后,我们结合这些信息并使用深度学习框架来确定哪种突变对目标蛋白质功能很重要。」

首先,将其进化环境表示与蛋白质序列/突变的不同表示方案进行了比较。研究人员使用 ECNet 与加州理工学院 Yang 等人的 Doc2Vec 模型进行比较。研究发现 ECNet 在所有 12 个数据集上始终优于 Yang 等人的方法,就实现的 Spearman 相关性而言,相对提高了 16% 到 60%。

此外,与代表具有 27 个生物学、结构和物理化学描述符的变体的 Envision 模型相比较,观察到 11/12 蛋白质 DMS(深度突变扫描) 数据集的 AUROC 分数有类似的改善。这些结果表明序列环境比突变氨基酸的描述符提供更多信息,这对于捕获残基之间的相互依赖性以预测功能至关重要。

图片

图示:与其他蛋白质变体表示方法的比较。(来源:论文)

实用性证明

为了通过实验验证其在蛋白质工程中的实用性,应用 ECNet 来优先考虑新的高阶 TEM-1 β-内酰胺酶变体,这些变体与野生型相比可能具有更高的适应性。

研究人员观察到,与野生型相比,ECNet 优先考虑的大多数变体表现出更好的适应度。在不同浓度的氨苄青霉素(300、1500 和 3000 μg/mL)下观察到改善,并且在不同的重复中可重现。还发现 ECNet 的集成模型实现了稳健的预测,对于 300、1500 和 3000 μg/mL 的浓度,平均命中率(具有高于野生型的预测变体的比例)分别为 0.52、0.91 和 0.94。

图片

图示:ECNet 使 TEM-1 的快速工程成为可能。(来源:论文)

此外,ECNet 在分析中优先考虑高阶和新颖的突变体。Zhao 说,拥有可以成功预测高阶相互作用的计算工具可以减少实验工作。

「我们正在将数据库中的所有蛋白质与目标蛋白质的特定进化历史相结合,以提高预测效率,」Zhao 说。「然后,我们可以使用我们从实验中产生的突变体来进一步改进和训练模型。该算法仍在进行中,但它是对文献中已知内容的全面改进。」

论文链接:https://www.nature.com/articles/s41467-021-25976-8
参考内容:https://phys.org/news/2021-10-deep-learning-algorithm-aims-protein.html
理论机器学习蛋白质
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

表示方案技术

表示世界/问题的方法/方案

推荐文章
暂无评论
暂无评论~