作者/凯霞
蛋白质是所有活细胞的分子机器,具有广泛的应用。为了克服天然存在的蛋白质的局限性,蛋白质工程用于改善蛋白质特性(例如稳定性和功能性)。
机器学习越来越多地用于蛋白质工程。然而,由于它们捕获的一般序列环境(context)对于正在设计的蛋白质并非特异的,因此现有机器学习算法的准确性相当有限。
近日,来自伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员展示了一种加速蛋白质工程过程的机器学习算法——ECNet,一种利用进化环境来预测蛋白质工程功能适应性的深度学习算法。研究表明:与现有的机器学习算法相比,ECNet 能更准确地预测序列—功能关系。
该研究以《ECNet is an evolutionary context-integrated deep learning framework for protein engineering》为题,于 9 月 30 日发表在《Nature Communications》杂志上。
蛋白质工程旨在创造具有改进或新功能的蛋白质变体。一种强大的蛋白质工程策略是定向进化,它包括诱变和高通量筛选/选择的迭代循环。虽然定向进化已经很成功,但可以通过定向进化采样的蛋白质序列空间是有限的,开发有效的高通量筛选/选择可能需要大量的实验工作。
机器学习算法通过减少定向进化等方法的实验负担来协助蛋白质工程,这涉及多轮诱变和高通量筛选。其通过在蛋白质序列数据库上训练后模拟和预测目标蛋白质的所有可能序列的适合度来工作。
尽管存在许多机器学习算法,但其中很少包含目标蛋白质的进化史。
基于此,研究人员开发了 ECNet:进化环境集成神经网络(evolutionary context-integrated neural network),这是一种利用进化环境来预测蛋白质工程功能适应性的深度学习算法。
该算法将来自同源序列的局部进化环境(明确模拟了目标蛋白质的残基-残基上位性),与编码大型蛋白质序列的丰富语义和结构特征的全局进化背景相结合。因此,它可以实现从序列到功能的准确映射,并提供从低阶突变体到高阶突变体的泛化。
准确预测蛋白质的功能适合度
为了验证 ECNet,研究人员进行了多项基准测试,以评估 ECNet 从蛋白质序列预测功能适合度的能力。
「使用 ECNet,我们能够查看目标蛋白质及其所有同源物,以了解哪些残基耦合在一起,因此对特定蛋白质很重要,」美国国家科学基金会 (NSF) 资助的分子制造实验室研究所所长、Steven L. Miller 化学与生物分子工程讲座教授 Zhao (BSD) 说。「然后,我们结合这些信息并使用深度学习框架来确定哪种突变对目标蛋白质功能很重要。」
首先,将其进化环境表示与蛋白质序列/突变的不同表示方案进行了比较。研究人员使用 ECNet 与加州理工学院 Yang 等人的 Doc2Vec 模型进行比较。研究发现 ECNet 在所有 12 个数据集上始终优于 Yang 等人的方法,就实现的 Spearman 相关性而言,相对提高了 16% 到 60%。
此外,与代表具有 27 个生物学、结构和物理化学描述符的变体的 Envision 模型相比较,观察到 11/12 蛋白质 DMS(深度突变扫描) 数据集的 AUROC 分数有类似的改善。这些结果表明序列环境比突变氨基酸的描述符提供更多信息,这对于捕获残基之间的相互依赖性以预测功能至关重要。
实用性证明
为了通过实验验证其在蛋白质工程中的实用性,应用 ECNet 来优先考虑新的高阶 TEM-1 β-内酰胺酶变体,这些变体与野生型相比可能具有更高的适应性。
研究人员观察到,与野生型相比,ECNet 优先考虑的大多数变体表现出更好的适应度。在不同浓度的氨苄青霉素(300、1500 和 3000 μg/mL)下观察到改善,并且在不同的重复中可重现。还发现 ECNet 的集成模型实现了稳健的预测,对于 300、1500 和 3000 μg/mL 的浓度,平均命中率(具有高于野生型的预测变体的比例)分别为 0.52、0.91 和 0.94。
此外,ECNet 在分析中优先考虑高阶和新颖的突变体。Zhao 说,拥有可以成功预测高阶相互作用的计算工具可以减少实验工作。
「我们正在将数据库中的所有蛋白质与目标蛋白质的特定进化历史相结合,以提高预测效率,」Zhao 说。「然后,我们可以使用我们从实验中产生的突变体来进一步改进和训练模型。该算法仍在进行中,但它是对文献中已知内容的全面改进。」