编辑 | 绿萝
纳米级相互作用的准确和快速预测在许多生物过程和材料特性中应用广泛。虽然已经开发了几种模型来预测特定生物组分的相互作用,但它们使用的是系统特定信息,这阻碍了其应用于更一般的材料。
近日,来自密歇根大学的研究人员开发了一种通用且高效的机器学习管道:NeCLAS,可预测纳米级相互作用的位置,提供人类可理解的预测。
NeCLAS 优于当前的纳米级预测模型,可用于 10-20 nm 的通用纳米颗粒,可再现生物和非生物系统的相互作用。两个方面促成了这些结果:纳米粒子和分子的低维表示(以减少数据不确定性的影响)和环境特征(以多尺度编码物理化学邻域)。该框架可用于从基础研究到纳米生物技术中的快速原型制作和设计。
AlphaFold 是一种广泛使用的工具,用于根据称为氨基酸的构建单元预测蛋白质的 3D 结构。虽然这种能力至关重要,但这仅仅是个开始:下一步是发现这些蛋白质如何组装成更大的结构并设计实用的纳米级系统。
「这就是 NeCLAS 的用武之地,」该研究的第一作者 Jacob Saldinger 说。「它超越了 AlphaFold,展示了纳米结构如何相互作用,而且它不仅限于蛋白质。这使研究人员能够了解纳米粒子的潜在应用并优化他们的设计。」
该研究以「Domain-agnostic predictions of nanoscale interactions in proteins and nanoparticles」为题,于 2023 年 5 月 1 日发布在《Nature Computational Science》上。
纳米级相互作用
许多技术、生物和自然现象都是由发生在分子和纳米尺度上的相互作用所控制的。蛋白质-蛋白质相互作用 (PPI) 对于所有生物体的细胞功能和生物过程都至关重要。同样,蛋白质-纳米粒子相互作用 (PNI) 决定了纳米粒子的生物反应性及其在纳米诊断学、纳米疗法和纳米医学中的应用。然而,调整这些相互作用需要全面了解纳米材料和生物系统之间的相互作用。
近年来,数据驱动的机器学习 (ML) 方法提供了对纳米级相互作用机制的深入了解,克服了实验和模拟的成本和复杂性,而不需要先验的物理知识和基于模板的方法。
但大多数 ML 方法都是专门为蛋白质设计的,不能立即推广。当前用于预测 PNI 的 ML 方法使用特定于应用程序的属性和小型训练数据集,这限制了生成的 ML 模型的跨域(domain)有效性。
通用且高效的 ML 方法:NeCLAS
为了扩展这种特异性,NeCLAS 用于预测 partner 特异性纳米级相互作用。NeCLAS 有两个主要特点。第一种是广义的、原子学派生的粗粒度方法,用于生成纳米粒子和大分子的旋转平移等变表示。第二个是排列不变的深度神经网络,它预测两个不同分子的粗粒度位点之间的成对相互作用。
研究展示了 NeCLAS 具有三个日益复杂的预测挑战:(1) PNI 的结合位点,(2) PNI 的动态特性,以及 (3) 纳米粒子-纳米粒子相互作用及其自组装趋势。
在预测蛋白质和有机纳米粒子之间的相互作用时,NeCLAS 优于最先进的 PNI 预测方法。此外,NeCLAS 的 PPI 预测与最好的蛋白质特异性方法相比具有竞争力,并显示出预测纳米粒子-纳米粒子相互作用的潜力。
总的来说,NeCLAS 展示了跨多个域的交互预测,同时减少了计算足迹。该概念框架在各个领域都有应用,从寻找蛋白质之间相互作用的生物学家,到可以为目标应用设计和工程纳米粒子的材料科学家,再到范围广泛的纳米生物技术。
与域无关的框架
开发 ML 模型的一种常见方法是首先创建真实世界数据的可学习表示,然后使用该表示来训练模型。
在 NeCLAS 中,第一步是在计算每个粗粒度 (Coarsegrained,CG) 位点的属性之前将原子信息转换为低维 CG 结构,同时考虑局部特征和化学邻域。其次,训练了一个排列不变的深度神经网络,它在给定一对 CG 位点的情况下输出成对交互预测。NeCLAS 使用该网络来预测两个纳米结构之间所有位点组合的相互作用。
图 1:NeCLAS 方法与数据。(来源:论文)
该研究的 CG 表示可以轻松定制以捕捉结构对称性,尤其是当可解释性是主要关注点时。
为了评估模型,研究人员专门定制了数据和工作流程,以避免人为夸大模型性能估计的常见原因。
对于 PPI,研究选择了对接基准数据集 (DBD) 第 5 版,这是一组精选的 230 个非冗余蛋白质复合物实验结构(总共约 1500 万个残基-残基相互作用),包括结合和非结合形式。然而,对于 PNI,不存在这样的数据集,因此研究使用了 Costanzo, L. D. 等人研究中(
DOI:10.3390/molecules25153555)提供的包含有机纳米颗粒的数据子集。根据这些数据,生成了绑定(bound)和非绑定结构。由于该数据集较小,结构冗余无法避免,仅将其用于测试,防止类似子结构的信息泄漏。
三个案例研究
为了进一步说明 NeCLAS 的潜力,该团队测试了三个案例研究:
- 分子镊子,一个分子与另一个分子的特定位点结合。这种方法可以阻止有害的生物过程,例如阿尔茨海默氏症等大脑疾病中蛋白质斑块的聚集。
- 石墨烯量子点如何分解葡萄球菌产生的生物膜。这些纳米粒子是碳薄片,厚度不超过几个原子层,边长为 0.0001 毫米。分解生物膜可能是对抗抗生素耐药性感染的重要工具——包括通常在医院感染的超级细菌耐甲氧西林金黄色葡萄球菌 (MRSA)。
- 石墨烯量子点是否会分散在水中,证明该模型具有预测纳米粒子-纳米粒子结合的能力,即使它只接受了蛋白质-蛋白质数据的训练。
虽然许多蛋白质-蛋白质模型将氨基酸设置为模型必须考虑的最小单位,但这不适用于纳米粒子。相反,该团队将最小特征的大小设置为大致与氨基酸的大小相同,然后让计算机模型决定这些最小特征之间的边界在哪里。结果是蛋白质和纳米粒子的表示看起来有点像相互连接的珠子的集合,为探索小规模相互作用提供了更大的灵活性。
「除了更通用之外,NeCLAS 使用的训练数据也比 AlphaFold 少得多。我们只有 21 个纳米粒子可供观察,所以我们必须以巧妙的方式使用蛋白质数据,」该研究共同作者 Matt Raymond 说。
接下来,该团队打算探索其他生物膜和微生物,包括病毒。
论文链接:https://www.nature.com/articles/s43588-023-00438-x
参考内容:https://phys.org/news/2023-06-nanobiotics-ai-nanoparticles-proteins.html