Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

预测蛋白质-DNA结合特异性,南加州大学团队开发几何深度学习新方法

编辑 | 萝卜皮

预测蛋白质-DNA 结合特异性是一项具有挑战性但又至关重要的任务,有助于理解基因调控。蛋白质-DNA 复合物通常与选定的 DNA 靶位结合,而蛋白质则以不同程度的结合特异性与广泛的 DNA 序列结合。这些信息无法在单一结构中直接获取。

为了获取这些信息,南加州大学(University of Southern California)和华盛顿大学(University of Washington)的研究人员提出了深度结合特异性预测器(DeepPBS),这是一种几何深度学习模型,旨在根据蛋白质-DNA 结构预测结合特异性。

DeepPBS 可以提取可解释的界面残基蛋白质重原子重要性得分。当在蛋白质残基水平上聚合时,这些得分通过诱变实验进行验证。应用于针对特定 DNA 序列的设计蛋白质,DeepPBS 被证明可以预测实验测量的结合特异性。

该研究以「Geometric deep learning of protein–DNA binding specificity」为题,于 2024 年 8 月 5 日发布在《Nature Methods》。

图片

转录因子通过与特定DNA序列的结合来调节生命过程,这种结合机制包括静电相互作用、脱氧核糖堆积效应,以及氢键的形成等。

蛋白质-DNA的结构信息通常通过X射线晶体学、核磁共振波谱或低温电子显微镜等实验方法获取,并存储在蛋白质数据库(PDB)中。这些结构通常展示了结合的 DNA 序列及其物理化学相互作用,但无法涵盖所有可能的结合序列。

另一方面,高通量实验如蛋白质结合微阵列、SELEX-seq 等能够捕捉潜在的结合序列范围,但缺乏结构信息。

因此,结合结构数据和高通量实验数据对于全面理解转录因子的结合特异性至关重要。

目前,预测特定蛋白质序列在蛋白质家族中的结合特异性,仍然是一个具有挑战性且尚未解决的问题。结合背景下的结构变化以及庞杂的机制多样性加剧了这一困难。

「蛋白质-DNA 复合物的结构包含通常与单个 DNA 序列结合的蛋白质。为了理解基因调控,了解蛋白质与任何 DNA 序列或基因组区域的结合特异性非常重要。」南加州大学的 Remo Rohs 教授说。

在最新的研究中,南加州大学和华盛顿大学的研究人员引入了结合特异性深度预测器 (DeepPBS)。

Rohs 解释道:「DeepPBS 是一种人工智能工具,它取代了高通量测序或结构生物学实验来揭示蛋白质-DNA 结合特异性。」

图片

图示:DeepPBS框架的示意图。(来源:论文)

深度学习模型旨在捕捉蛋白质-DNA 相互作用的物理化学和几何背景,以预测结合特异性,表示为基于给定蛋白质-DNA结构的位置权重矩阵(PWM)。DeepPBS 跨蛋白质家族发挥作用,并充当结构确定和结合特异性确定实验之间的桥梁。

图片

图示:DeepPBS 用于预测跨蛋白质家族的结合特异性的性能。(来源:论文)

DeepPBS 的输入不仅限于实验结构。蛋白质结构预测方法(包括 AlphaFold、OpenFold 和 RoseTTAFold)以及蛋白质-DNA 复合物建模器(例如 RoseTTAFoldNA (RFNA)、RoseTTAFold All-Atom、MELD-DNA 和 AlphaFold3)的快速发展,导致可供分析的结构数据数量呈指数级增长。

这一场景凸显了对用于分析蛋白质-DNA 结构的通用计算模型的需求日益增长。研究人员展示了 DeepPBS 如何与结构预测方法结合使用,以预测没有可用实验结构的蛋白质的特异性。

此外,通过使用 DeepPBS 反馈优化结合 DNA,可以改进蛋白质-DNA 复合物的设计。研究人员表明,此流程与最近的家族特定模型 rCLAMPS 相比性能相当,同时更具通用性:具体而言,DeepPBS 不受蛋白质家族限制,可以处理生物组装并可以预测 DNA 侧链偏好。

图片

图示:DeepPBS 在预测蛋白质-DNA 复合物结构中的应用。(来源:论文)

在可解释性方面,可以从 DeepPBS 中提取与 DNA 相互作用的蛋白质中不同重原子的「相对重要性」(RI)分数。

作为对癌症发展有重要意义的蛋白质的案例研究,研究人员通过这些 RI 分数分析 p53-DNA 界面,并将其与现有文献联系起来进行验证。

并且,DeepPBS 分数与现有知识非常吻合,并且可以汇总以与丙氨酸扫描诱变实验产生合理的一致性。

图片

图示:以 p53-DNA 界面中 DeepPBS 重要性分数的可视化为例进行研究,并进行实验验证。(来源:论文)

在额外的原理验证研究中,研究人员将 DeepPBS 应用于针对特定 DNA 序列的计算机设计的蛋白质-DNA 复合物,该复合物来自最近一项结合结构设计与 DNA 诱变实验的研究。DeepPBS 也可用于分析分子模拟轨迹。

「对于研究人员来说,找到一种适用于所有蛋白质、而不局限于某个研究透彻的蛋白质家族的方法非常重要。这种方法还使我们能够设计新的蛋白质。」Rohs 说道。

图片

图示:将 DeepPBS 应用于针对特定 DNA 序列的计算机设计 HTH 支架。(来源:论文)

当前版本的 DeepPBS 存在固有的局限性。它是针对双链 DNA 量身定制的,尚不适用于单链 DNA、RNA 或化学修饰碱基。

然而,该模型有可能扩展以适应这些不同的场景以及其他聚合物-聚合物相互作用,并可能适用于机械突变。DeepPBS 架构可以在应用和工程增强方面进行优化和扩展。

尽管如此,Rohs 表示,DeepPBS 的应用将会非常广泛。这种新的研究方法可能会加速设计针对癌细胞特定突变的新药和治疗方法,并带来合成生物学的新发现和 RNA 研究的应用。

DeepPBS:https://deeppbs.usc.edu

论文链接:https://www.nature.com/articles/s41592-024-02372-w
相关报道:https://phys.org/news/2024-08-ai-accuracy-proteindna.html
理论AlphaFold人工智能深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

推荐文章
暂无评论
暂无评论~