Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

准确率82.5%,设计多药理学化合物,加州大学开发新AI平台设计未来抗癌药物

图片

编辑 | 萝卜皮

多药理学药物(可以同时抑制多种蛋白质的化合物)在治疗癌症等重大疾病方面有着重要应用,但非常难以设计。

为了应对这一挑战,加州大学圣地亚哥分校的研究人员开发了 POLYGON,这是一种基于生成强化学习的多药理学方法,可以模拟药物发现最早阶段所涉及的耗时化学过程。

POLYGON 嵌入化学空间并对其进行迭代采样,从而生成新的分子结构;这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个,并且具有药物相似性和易于合成的特点。

在超过 100,000 种化合物的结合数据中,POLYGON 能够正确识别多药理学相互作用,准确率达 82.5%。研究人员用它生成了,针对十对具有相互依赖关系蛋白质的从头设计化合物。对接分析表明,顶部结构以低自由能结合靶标。

该团队还合成了 32 种针对 MEK1 和 mTOR 的化合物,其中大多数在剂量为 1–10μM 时,每种蛋白质活性和细胞活力降低了 50% 以上。

该研究以「De novo generation of multi-target compounds using deep generative chemistry」为题,于 2024 年 5 月 6 日发布在《Nature Communications》。

图片

经典药物发现采用「一种疾病:一种靶标:一种药物」模型。虽然这种模型已经产生了许多成功的治疗方法,但许多疾病并没有单一的分子原因,而是与各种潜在的干预点相关,每个干预点都可能对疾病病因产生部分影响。

对于癌症和精神疾病等多基因疾病来说,这种困难尤其明显,这些疾病整合了复杂生物网络中组织的许多基因的功能效应。应对这些问题,多药理学是一种重要的解决方案。

多药理学化合物的主要障碍是需要设计一种同时有效抑制多种蛋白质的单一药物。有效的多药理学设计,例如针对甲状腺癌中的 RET 和 VEGFR2 的药物,需要大量的时间和资源才能确定合适的命中支架。由于这些原因,此类化合物很大程度上是偶然发现的,而不是系统发现的。

为了实现新的多药理学化合物的编程生成,加州大学圣地亚哥分校的研究团队开发了 POLYGON(POLYpharmacology Generative Optimization Network),这是一种基于生成人工智能强化学习的深度机器学习模型。

图片

图示:使用 POLYGON 验证特定化合物双靶点活性。(来源:论文)

「几年前,人工智能在制药行业是一个肮脏的词,但现在的趋势却截然相反。生物技术初创公司发现如果不在其商业计划中提及人工智能就很难筹集资金。」论文的通讯作者,加州大学圣地亚哥分校医学系教授、生物工程和计算机科学兼职教授 Trey Ideker 说,「人工智能引导的药物发现已成为行业中非常活跃的领域,但与公司开发的方法不同,该技术将会开源,任何人都可以使用。」

POLYGON 的组成

POLYGON 的核心部分是一个变分自编码器(VAE),这是一种深度神经网络,它将分子化合物的化学结构转换为「化学嵌入」(chemical embedding)。这个过程涉及将复杂的化学结构映射到低维空间中,使得相似的化学结构在嵌入空间中接近。

图片

图示:嵌入化学空间以生成多药理药物的发现。(来源:论文)

VAE 包含两个门控循环单元递归神经网络(GRU-RNNs),分别作为编码器和解码器。编码器将分子x转换为概率分布 z,代表化学嵌入中的点;解码器则将这些嵌入坐标重新转换为有效的分子结构 x'。

训练过程中,VAE 优化两个损失函数:一个减少重构误差,确保解码后的分子接近原始输入;另一个是 Kullback-Leibler 散度,促使嵌入分布接近正态分布。

POLYGON 的第二个关键组件是基于强化学习的系统,用于生成对两个不同靶点具有活性的多靶点药物分子。该系统通过迭代方式工作,每次迭代时随机从化学嵌入空间中采样分子,并根据它们对两个特定靶标的预测抑制能力、合成可行性和药物类属性等多个奖励标准进行评分。高分分子的坐标被用来定义嵌入空间的子区域,用于模型的再训练和后续迭代中的随机采样,以此平衡利用现有知识与探索未知化学空间的需求。

POLYGON 的应用

POLYGON 在药物发现人工智能工具中是独一无二的,因为它可以识别具有多个靶点的分子,而现有的药物发现协议目前优先考虑单靶点疗法。多靶点药物可以提供与联合疗法(几种不同的药物一起使用)相同的治疗效力,但副作用更少。

「寻找和开发一种新药需要多年时间和数百万美元,特别是当我们谈论的是具有多个靶点的药物时。」Ideker说,「我们所拥有的罕见的多靶点药物很大程度上是偶然发现的,但这项新技术可以帮助摆脱偶然性并启动新一代精准医学。」

研究人员利用 POLYGON 生成了一系列针对 10 对合成致命癌症蛋白的从头分子化合物,并通过包括 3D 分子对接分析在内的多种方法对其进行评估。

图片

图示:肖像与小分子的生成模型。(来源:论文)

「就像人工智能现在非常擅长生成原始图片,例如根据年龄或性别等所需属性创建人脸图片,POLYGON 能够根据所需化学属性生成原始分子化合物。」Ideker 说,「在这种情况下,不是告诉人工智能我们希望脸看起来有多大,而是告诉它我们希望未来的药物如何与疾病蛋白质相互作用。」

图片

图示:从头设计和合成 mTOR/MEK1 抑制剂。(来源:论文)

该团队合成了 32 种 POLYGON 化合物,用于双重抑制 MEK1 和 mTOR。这两种蛋白质被科学家称为综合致死蛋白,这意味着同时抑制这两种蛋白质就足以杀死癌细胞,即使单独抑制其中一种还不足以杀死癌细胞。随后研究人员在无细胞测定和肺肿瘤细胞中对其进行了验证。

「一旦你有了候选药物,你仍然需要进行所有其他化学反应,将这些选择细化为单一、有效的治疗方法。」Ideker说,「我们不能,也不应该试图从药物发现管线中消除人类的专业知识,但我们可以做的是缩短这一过程的几个步骤。」

尽管存在这种谨慎,研究人员仍乐观地认为人工智能用于药物发现的可能性才刚刚被探索。

「看到这个概念在未来十年如何在学术界发挥作用,将是非常令人兴奋的。」Ideker说,「可能性几乎是无限的。」

论文链接:https://www.nature.com/articles/s41467-024-47120-y

相关报道:https://phys.org/news/2024-05-simulated-chemistry-ai-platform-tomorrow.html

理论药物发现强化学习
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

门控循环单元技术

门控循环单元(GRU)是循环神经网络(RNN)中的一种门控机制,与其他门控机制相似,其旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息。GRU在许多诸如语音识别的序列任务上与LSTM同样出色,不过它的参数比LSTM少,仅包含一个重置门(reset gate)和一个更新门(update gate)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~