Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

人工智能有助于发现超紧密结合抗体

编辑 | 萝卜皮

高亲和力抗体通常通过定向进化来鉴定,这可能需要多次诱变和选择迭代才能找到最佳候选者。深度学习技术有可能加速这一过程,但现有方法无法提供评估预测可靠性所需的置信区间或不确定性。

在这里,加州大学圣地亚哥分校的研究团队提出了一个名为 RESP 的管线,用于有效识别高亲和力抗体。研究人员研发了一种在超过 300 万个人类 B 细胞受体序列上训练的学习表征来编码抗体序列。然后,他们开发了一个变分贝叶斯神经网络,对一组按解离率分箱的定向进化序列执行序数回归,并量化它们成为抗原紧密结合剂的可能性。

重要的是,该模型可以评估定向进化库中不存在的序列,从而大大扩展搜索空间以发现用于实验评估的最佳序列。该团队通过将 PD-L1 抗体 Atezolizumab 的 KD 提高 17 倍来展示这条管线的力量,这一成功说明了 RESP 在促进一般抗体开发方面的潜力。

该研究以「The RESP AI model accelerates the identification of tight-binding antibodies」为题,于 2023 年 1 月 28 日发布在《Nature Communications》。

图片

单克隆抗体是最成功的生物疗法之一。尽管它们具有令人印象深刻的多功能性和特异性,但治疗性抗体的开发仍然面临着各种复杂的挑战。通常,初始命中的亲和力不足,必须首先通过体外亲和力成熟来改进它们的结合,从而进行反复的诱变和选择具有改进的亲和力的抗体。这个过程通常是时间密集型的,可能需要几个月才能完成,并且不能同时优化其他理想的特性,如良好的溶解性和低免疫原性。可以帮助更快地识别具有理想特性的高亲和力抗体的计算技术可能会加速这一过程。

抗体结合亲和力的传统计算方法依赖于自由能的估计。这些通常受到高计算成本、低吞吐量和这些方法生成的自由能估计的有限可靠性的限制。或者,机器学习技术已应用于蛋白质工程和抗体设计中的各种任务。

图片

图示:计算和实验管线。(来源:论文)

两个挑战

基于机器学习的方法至少面临两个主要挑战。第一个是结合亲和力或其他属性的预测缺乏估计的不确定性。由于训练数据只能覆盖序列空间的一小部分,因此机器学习模型在被要求进行远远超出其训练集范围的推断时通常表现不佳。深度学习模型虽然灵活而强大,但通常(在特定架构之外)不提供置信区间或预测不确定性的估计。高斯过程模型已被建议作为一种替代方案,它确实提供了经过良好校准的置信区间,但它们在不使用近似值的情况下很难扩展到大型数据集,并且对于大于 5000 个序列的数据集通常是不可行的。

第二个关键挑战是为输入选择合适的表示。文献中描述了许多不同的蛋白质编码方案,包括最近采用语言模型的编码方案;其中一些是抗体特异性的,一些是蛋白质序列通用的。然而,对于其中哪一个最适合给定的问题,几乎没有达成共识。经典的 one-hot 编码方案实施起来很简单,但不必要的高维和无信息,因为每个氨基酸都被视为彼此完全不同。

尽管这个过程漫长而昂贵,但许多由此产生的抗体在临床试验中仍然无效。在最新的研究中,加州大学圣地亚哥分校的科学家们设计了一种最先进的机器学习算法来加速和简化这些工作。

图片

图片

图示:通过 FACS 进行的文库分类。(来源:论文)

有效开发抗体的新管线 RESP

加州大学圣地亚哥分校的研究人员在这里展示了一条有效开发抗体的新管线,RESP 管线。首先,他们开发了一种特定于抗体的简单学习编码。这里的编码不仅包含易于恢复形式的原始序列中的信息,还包含描述将人类抗体与周围序列空间区分开来的关键序列特征的附加编码信息。

图片

图示:RESP 管线概述。(来源:论文)

实验证明,当在抗原特异性实验数据上训练模型以捕捉结合亲和力的趋势时,如果使用他们的自动编码器生成的表示对输入序列进行编码,则同一模型比使用流行的最先进编码(如UniRep、ESM-1b、AntiBertY和AbLang)对输入序列编码更准确。

值得注意的是,对于这项特定任务,使用加州大学团队考虑的所有模型,UniRep、ESM-1b、AntiBertY 和 AbLang 表现出不如单热编码的性能。这与之前 Makowski 团队报告的结果一致,即,与简单的单热编码相比,UniRep 或物理化学特性并未提高抗体亲和力预测的性能。

然后,加州大学的研究人员使用旨在提供直接且易于解释的序列排名以及不确定性量化的模型来拟合训练集。他们展示了序列读取跨类别的分布可以以一种有原则和直接的方式作为数据点权重纳入模型拟合。他们的贝叶斯有序回归模型产生预测后验估计,从而提供传统深度学习分类器无法获得的额外信息,其跨类别的预测概率分布并不表明给定预测的可靠性。

最后,加州大学团队设计了一种算法来探索训练集跨越的序列空间。通过估计每个预测的可靠性,并将搜索限制在训练集所跨越的空间内,该团队最大限度地减少了评估不良候选序列所浪费的时间和费用。

「使用我们的机器学习工具,这些后续轮次的序列突变和选择可以在计算机上而不是在实验室中快速有效地进行。」加州大学圣地亚哥分校医学院细胞与分子医学教授、资深作者 Wei Wang 博士说。

图片

图示:管线结果分析。(来源:论文)

RESP 功能方面的几个优势

研究人员通过实验验证了 RESP 管线的功能。通过在单个大型文库上训练该模型,研究人员能够选择解离率/结合亲和力提高 10 倍/17 倍的突变体。这与研究人员过去对 CBX1 蛋白质工程的结果一致,这其中证明了类似的策略产生的结合亲和力改进,等同于通过更长的定向进化过程实现的改进。

另外值得注意的是,研究人员发现的突变体 4 可能作为 scFv 用于癌症治疗,就像之前报道的高亲和力抗程序性死亡配体 1 (programmed death ligand 1,PD-L1 )蛋白一样。(PD-1 的一种突变形式,它以 110 pM 的 KD 结合 PD-L1)与 PD-1 一样,突变体 4 scFv 明显小于单克隆抗体(30kDa 与 150kDa),因此在肿瘤穿透方面可能更有效。

图片

图示:突变体 4 的解离率和 KD 的测定。(来源:论文)

研究人员观察到,与纯实验方法相比,RESP 管线有几个重要的优势。噬菌体和酵母展示仅允许选择小群体,而不是单个克隆,因此需要额外的实验(如 ELISA 或酵母 KD 测量)来评估具有最紧密结合亲和力的克隆。通过这些技术只能识别原始文库中存在的强结合物,因此通常使用非常大的文库和/或多个文库来最大化序列空间的覆盖。经常发生的情况是,通过该过程确定的最佳结合剂仍然不具有足够强的亲和力,因此通常必须通过所谓的亲和力成熟来实现所需的亲和力。在这个过程中,随机突变被引入到选定的位点,由此产生的重点文库经历了进一步的筛选和实验评估。值得注意的是,通过这个过程产生的抗体不能保证具有其他理想的特性,如溶解度或稳定性。

以最初发现 Atezolizumab 抗体本身的过程为例(如美国专利 US8217149B2 中所述)。针对 PD-L1 靶标筛选的噬菌体展示文库进行了四轮淘选,首先用于检索 96 个富集克隆。然后选择两组位置来构建另外两个用于亲和力成熟的文库以改善结合。这些依次用于进行一次平板分类,然后进行五六轮溶液分类。最后,通过高通量 ELISA 筛选从上一类中获得的富集克隆以找到最佳候选者。

图片

图示:PD-L1-Atezolizumab 复合物中突变的位置。(来源:论文)

很明显,这个过程虽然可靠,但在时间和成本上都很昂贵。抗体工程需要构建多个文库和数千个克隆的高通量 ELISA 是很常见的(有关目前正在进行临床试验的其他几个涉及抗体的示例,请参见美国专利 20180086848A1 和 8313746B2 等)

在加州大学团队的方法中,研究人员能够在仅构建一个大型文库后选择紧密结合的抗体,然后进行基于 FACS 的解离率和分箱排序。这种方法不需要任何高通量 KD 测定或后续的重点库筛选。因此,研究人员消除了构建多个文库所需的时间(这是相当可观的),以及高通量 ELISA 筛选/KD 测量所需的时间和费用。将其替换为一些易于实现并在配备 GPU 的单台计算机上快速运行的计算步骤。每当根据特定于该抗原的数据选择新抗原,贝叶斯神经网络就需要重新训练。相比之下,自动编码器可以重复使用,不需要重新训练。此外,该方法确定了原始文库中不存在的紧密结合物,这与传统的噬菌体和酵母展示不同,后者只能筛选文库中存在的序列。

重要的是,该方法可以很容易地进行修改,以引入计算机屏幕以获得稳定性、溶解度和其他所需的特性,这与无法同时针对这些其他特性轻松优化的纯实验技术不同。在管线的搜索步骤中添加额外的过滤器很简单——即如果预测的溶解度或免疫原性较差,则拒绝修改后的模拟退火算法建议的候选者。相比之下,在纯实验方法中,必须以相当大的额外费用单独优化这些属性。能够实现改进的亲和力,同时根据需要轻松引入额外的过滤器是机器学习辅助方法的一个关键优势。

RESP 与其他计算机辅助抗体设计策略比较

近期的文献中描述了其他计算机辅助抗体设计策略。研究人员认为他们的方法比较有利,并描述了几个优势。例如,Mason 团队的亲和力比野生型曲妥珠单抗提高了 3 倍,他们的算法选择的大多数突变体实际上对目标的亲和力较弱,而加州大学的 RESP 方法的亲和力提高了 17 倍。Mason 团队进行了多轮诱变和文库生成,包括根据先前选择步骤的数据使用合理设计选择进一步诱变的位置的步骤。Mason 团队需要这种额外的研究来限制搜索空间,RESP 可以使用修改后的模拟退火算法在计算机上限制搜索空间。与 Mason 团队提出的 CNN 不同,加州大学团队的贝叶斯神经网络提供与预测准确性相关的不确定性估计,因此可以消除可能不可靠的预测。

之前,Warszawski 团队描述了一种理性设计方法(与基于机器学习的方法相对)。然而,他们的理性设计组件只能与 Rosetta 建模软件的预测一样准确,这导致正确预测的比率很低,也无法确定哪些预测最有可能是可靠的。例如,他们寻求使用需要大约 250 个 cpu 天的计算搜索程序来改进称为 G6 的抗体与其目标 VEGF 的结合,这比加州大学团队在此采用的计算程序要贵几个数量级。在 AbLift 程序选择的用于实验评估的突变体中,有 60% 比野生型差,其余大部分仅具有可比性。Warszawski 团队的方法所建议的设计中只有一种实际上改进了 KD,导致了五倍的改进,这比加州大学团队实现的改进要小。值得注意的是,加州大学的新模型选择的大部分或全部 21 个突变体显示出比 WT 更慢的解离率(因此可能具有更高的结合亲和力)。

此前,Khan 团队使用高斯过程将结合亲和力的趋势建模为输入序列的函数。这些 Khan 团队没有通过实验验证他们的方法,而是使用 Absolut! 软件的亲和力预测来确定序列是否是强结合剂;Absolut! 软件本身基于对接生成的结构和亲和力,因此尚不清楚它对实验数据的跟踪程度。重要的是,他们的方法受到精确高斯过程的一些众所周知的限制。这些模型在训练点数量上表现出 O(N^3) 缩放比例(或在一些更高效的现代实现中为 O(N^2)),因此对于大于 5-10,000 个序列左右的数据集是完全不可行的。加州大学团队基于变分贝叶斯网络的方法不受任何此类限制。

虽然加州大学研究人员使用 Atezolizumab 作为起点并以 PD-L1 作为目标来验证他们的方法,但这种方法没有任何特定于所选目标的东西,因此这种方法可以很容易地适应其他目标和问题。研究人员描述的管线可以很容易地修改,以仅优化单个 CDR 或可用位置的子集,并结合其他模型,这些模型为除了亲和力之外的其他所需属性对候选序列进行排名。研究人员预计这条管线及其修改版本可能因此被证明是加速抗体发现和开发的有用工具。

结语

当前,研究人员现在正在使用这种方法来鉴定针对其他抗原(例如 SARS-CoV-2)的有前途的抗体。他们还在开发额外的 AI 模型,分析氨基酸序列以获得对临床试验成功至关重要的其他抗体特性,例如稳定性、溶解度和选择性。

「通过结合这些人工智能工具,科学家们可能能够在计算机上,而不是在实验台上进行越来越多的抗体发现工作。这可能会导致发现过程更快、更不易出错。」 Wei Wang 说,「这条管线有很多应用,而这些发现实际上只是一个开始。」

论文链接:https://www.nature.com/articles/s41467-023-36028-8

相关报道:https://phys.org/news/2023-01-artificial-intelligence-aids-discovery-super.html

理论
暂无评论
暂无评论~