Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

上海交大&中山大学团队使用ESMFold、预训练语言模型以及Graph Transformer,进行蛋白质结合位点预测

编辑 | 萝卜皮

识别蛋白质的功能位点,例如蛋白质、肽或其他生物成分的结合位点,对于理解相关的生物过程和药物设计至关重要。然而,现有的基于序列的方法的预测准确性有限,因为它们只考虑序列相邻的上下文特征并且缺乏结构信息。

上海交通大学和中山大学的研究人员提出了 DeepProSite,用于利用蛋白质结构和序列信息来识别蛋白质结合位点。

DeepProSite 首先从 ESMFold 生成蛋白质结构,并从预训练的语言模型生成序列表示。然后,它使用 Graph Transformer 并将结合位点预测制定为图节点分类

在预测蛋白质-蛋白质/肽结合位点时,DeepProSite 在大多数指标上都优于当前基于序列和结构的方法。此外,与基于结构的预测方法相比,DeepProSite 在预测未结合结构时保持了高性能。DeepProSite 还可以扩展到核酸和其他配体结合位点的预测,验证了其泛化能力。

该研究以「DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model」为题,于 2023 年 11 月 28 日发布在《Bioinformatics》。

图片

蛋白质与各种生物分子之间的相互作用构成了大多数生物过程中蛋白质功能的基础,例如基因表达调控、信号转导和代谢途径调控。

这些相互作用调节正常细胞功能,并在各种疾病的发病机制中发挥关键作用。例如,在肿瘤生长、自身免疫性疾病和病原体入侵等疾病中,蛋白质-蛋白质相互作用的失调可能导致病理生理过程的紊乱。此外,治疗性肽因其可以与蛋白质结合并具有治疗作用而成为药物开发的焦点。

因此,了解蛋白质结合位点的位置和特征对于理解蛋白质功能和药物设计至关重要。传统的结合位点检测方法,如 X 射线晶体学、双杂交筛选、表面等离振子共振技术和亲和纯化质谱法,价格昂贵且耗时。

此外,一些技术挑战,包括肽尺寸小、结合亲和力弱、构象灵活性、高瞬时性和蛋白质-蛋白质相互作用的动力学,增加了准确识别结合残基的难度。所以,开发新的、快速的、准确的计算方法非常重要。

在最新的研究中,上海交通大学和中山大学的研究人员提出了 DeepProSite,是一种拓扑感知的 Graph Transformer 模型,它可以从蛋白质序列中生成有效的结构信息和序列信息表示,分别利用 ESMFold 和预训练的语言模型来预测蛋白质结合位点。

图片

图示:DeepProSite 方法的整体流程。(来源:论文)

仅依靠蛋白质序列,DeepProSite 就实现了出色的预测性能,甚至超越了最先进的基于结构的方法,从而克服了现有基于序列和基于结构的方法的局限性。研究还表明,在预测未结合结构时,基于结构的竞争方法的准确性大大降低,而 DeepProSite 保持了与仅基于序列的预测器相当的性能,进一步证明了仅使用序列的无偏训练过程的好处。

图片

图示:DeepProSite 与基于结构的方法对 31 种具有结合和未结合结构的蛋白质进行性能比较。(来源:论文)

与现有技术相比,DeepProSite 的卓越性能归因于三个因素:(i) ESMFold 预测的高质量结构,(ii) 预训练的蛋白质语言模型提供了增强预测质量的强大表示,(iii) 结构感知 Graph Transformer 有效识别和预测结合残基模式,从而提高该方法的整体效率。

同样 DeepProSite 方法也有某些方面还可以改进。例如,通过利用蛋白质一级序列构建异质性图,可以增强模型对不同结构预测质量的鲁棒性。此外,该方法仅限于仅根据蛋白质相关信息来识别可能的蛋白质结合残基,并且无法预测特定配体的结合模式。

总之,该方法可以为研究蛋白质-蛋白质/肽结合模式、突变的致病机制和药物开发提供有价值的见解。例如,一些疾病是由导致蛋白质-蛋白质/肽结合位点改变的突变引起的,从而导致蛋白质功能异常。了解这些位点的特征及其对突变的影响有助于揭示这些致病机制。

此外,蛋白质-蛋白质/肽结合位点的预测可以为药物开发提供有价值的信息,包括设计更精确的靶点以及提高药物选择性和亲和力。此类预测还可用于研究蛋白质相互作用网络和生物信号传导,以进一步了解蛋白质的生物学功能。

未来,研究人员打算增强 Graph Transformer 的设计,并结合多任务学习,将其应用扩展到其他各个领域。这涉及预测蛋白质与其他配体的结合位点并识别蛋白质的功能位点,例如甲基化位点、磷酸化位点和变构位点。

论文链接:https://academic.oup.com/bioinformatics/article/39/12/btad718/7453375

理论蛋白质DeepProSite预训练语言模型
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

多任务学习技术

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记(表示为节点)的任务。

推荐文章
暂无评论
暂无评论~