在上一篇系列文章分享了 Mila 刘圣超博士介绍的【Geometry 相关的多模态任务】相关研究工作,在这里,将接着介绍关于【Textual description 相关的多模态任务】系列研究。
1 GraphCG 基于图的分子编辑(可控生成)
该研究以《GraphCG: Unsupervised Discovery of Steerable Factors in Graphs》为题,发表在 NeurIPS GLFrontiers Workshop 2022 (oral) 上。
GraphCG 是我们第一个使用深度学习来进行可控生成的工作。目前已有的可控生成主要是对于图片的操作,而我们认为,对于分子的可控生成,可以很好地用于 lead optimization 等药物发现的重要任务中。问题的出发点是说,现有的lead optimization 都高度依赖于专家的经验,因此比较耗费人力并且有一定的主观性。而当我们如果能够成功利用深度学习的方法,挖掘出图生成模型中的可控因子,那么就能够提供另外一种 lead optimization 方法,从而帮助药物专家进行研发。
问题的设定是给定一个已经训练完成的图生成模型,然后我们主要进行了两个步骤的操作:
在latent space中,我们有不同的semantic direction,而每一个semantic direction都有各自对应的特定的可控因子。 如果我们想学习到这些semantic direction,我们先有一个假设:不同的图,在latent space中如果能够沿着一个semantic direction移动,那么它们就会有对应的可控因子改变 (比如某一个图子结构变多)。这种假设可以通过最大化互信息来实现。这就回到了我们的公式1。具体求解的时候,我们利用了NCE的求解方案。这样我们就利用最大化互信息学到了这些semantic direction。 在inference过程中,我们只需要把每一个图对应的latent representation 沿着 semantic direction 进行移动,然后进行解码,这个解码之后的图就是我们希望的某一个因子改变的图。
具体定量结果可以参考原文,这里我们主要展示定性结果。
首先在分子图,我们利用了已经训练好的HierVAE,在它的latent space上训练得到了10个semantic direction。然后我们发现其中四个semantic direction都能对应到专门的分子官能团。这个很好地符合了我们的expectation,并且也能够帮助药物专家进行lead optimization设计:比如希望对原始分子图增加/减少更多的 halogen 基团,见图 2 (a)。
其次我们还展示了基于PointFlow的点云图的可控结果。下图中的a和b是一个方向,并且我们能看到往左往右两个不同的方向,对应的飞机引擎数目会分别减少和增加。此外在车子和椅子的外形也会随着可控因子,有对应的改变。
GraphCG的初步尝试给我们带来了非常大的信心,让我们对于分子的可控生成有了更大的把握。它也引导了我们后续的几个工作。
2 MoleculeSTM 基于文本的分子编辑
该研究以《Multi-modal Molecule Structure-text Model for Text-based Editing and Retrieval》为题,发表在 arXiv上。
最近随着大模型、多模态的应用,一个很自然的想法就是我们是否也可以将这些技术用到药物发现上?并且这些自然语言的文本描述,是否对于药物发现这个有挑战性的问题带来新的视角?答案是肯定并且乐观的。
具体到方法上。MoleculeSTM的核心思路非常简单直接:分子的描述有内部化学结构和外部功能描述两大类,而我们这里利用了multi-modal learning的思路,将两种类型的信息进行联系,并且基于此我们设计了种类丰富的下游任务来验证其有效性。这里预训练的思路还是通过求解公式1来给两个模态(对应的表征函数)进行链接。
下面我们主要强调几个insight。
2.1 自然语言和大语言模型有什么特点能够帮助scientific discovery?
这个是我们在MoleculeSTM中首先提出的问题。在MoleculeSTM这个工作里,我们是利用了自然语言的open vocabulary和compositionality特性。
Open vocabulary是说我们对于药物的描述可以非常的多样,比如一个极端例子是“开发一个药物能够治疗明年的突发的xxx疾病”这样的text prompt,只不过这种text prompt是难以验证,并且对于目标的描述过于模糊。 Compositionality是说我们有一些比较复杂的多目标任务,但是如果在自然语言中,它更容易组合。一个例子是多属性的lead optimization,也就是让一个分子优化到同时符合多个属性;传统做法会需要对每一个属性训练一个分类器,而MoleculeSTM仅仅只需要把两个属性用自然语言描述然后通过“and”连接即可。 在我们最近的工作ChatDrug中,我们又挖掘了自然语言和大语言模型的对话特性。这个会在下面展开。
2.2 自然语言和大语言模型的特点能够帮助什么类型的scientific discovery任务?
现有的language-vision task可以认为是艺术相关的任务 (比如生成图片、文字),也就是说它们的结果是可以多样和不确定。但是scientific discovery是科学问题,通常有着比较明确的结果,比如生成有某个功效的小分子。这个在任务的设计上带来了更大的挑战。
在MoleculeSTM中 (Appendix B),我们提出了两个准则:
首先我们考虑的任务是能够进行计算模拟得到结果。将来会考虑能够有wet-lab验证的结果,但这并不在目前这个工作的考量范畴内。 其次我们只考虑有着模糊性描述的问题(问题的描述是相对模糊的,但是答案是相对确定)。具体例子比如让某个分子的水溶性或者穿透性变强。而有一些问题有明确结果,比如在分子的某一个位置加入某一个官能团,我们认为这类任务对于药物、化学专家来说更加简单直接,而DL的帮助比较有限;所以它可以将来当作某一个proof-of-concept任务,但是并不会成为主要的任务目标。
2.3 定性结果展示
MoleculeSTM的文章中我们引入了三类下游任务,来验证MoleculeSTM的有效性。这里我们主要想强调一下zero-shot text-guided molecule editing的定性结果。
这个task就是同时输入一个分子和自然语言描述(比如额外的属性),然后希望能够输出复合语言文本描述的新的分子。这也是text-guided lead optimization,一种新的lead optimization范式。
具体的方法就是利用已经训练好的分子深成模型和我们预训练好的MoleculeSTM,通过学习二者的latent space的alignment,从而进行 latent space interpolation,再经过解码生成目标分子。流程示意图如下。
这里我们展示了几组分子编辑的定性结果 (其余下游任务的结果细节可以参考原论文)。主要我们考虑五类分子编辑任务:
单一属性编辑:对单一属性进行编辑,比如水溶性、穿透性、氢键施主与受主个数。 复合属性编辑:同时对多个属性进行编辑,比如水溶性和氢键施主个数。 药物相似性编辑:(Appendix D.5)是让输入分子与目标分子药物长得更加接近。 专利药物的邻居搜索:对于已经申请到专利的药物,往往会把中间过程的药物一起报道。我们这里就是那中间药物配合自然语言描述,看是否能够生成最终的目标药物。 Binding affinity编辑:我们选择几个ChEMBL assay作为target,目标是让输入分子和target有更高的binding affinity。
3 ProteinDT 基于文本的蛋白质生成和编辑
该研究以《A Text-guided Protein Design Framework》为题,发表在 arXiv上。
MoleculeSTM的初步探索让我们感受到文本描述的潜在用途是能够提供更多解决问题的视角。这个工作我们就很自然的将这个想法拓展到蛋白质领域上。
首先在预训练上,ProteinDT主要分为三步:
这里我们还想要强调的是,Transformer并不是生成模型,而仅仅是一个深度学习模块。我们的两种生成模型都考虑了用Transformer作为核心模块的情况。
3.1 Text-to-Protein Generation
3.2 Text-guided Protein Editing
这里基于ProteinCLAP,我们提出了两种protein editing思路。
Latent interpolation是直接在latent space进行控制interpolation,然后直接解码到protein sequence space。 Latent optimization则是专门训练一个token-level的解码器,然后利用ProteinCLAP直接优化得到optimal latent,再通过一个预训练的解码器,解码到protein sequence space。
整个text-guided protein editing的inference流程图如图11。更多定量实验结果可以参考原文。
4 ChatDrug 基于ChatGPT 对话增强的小分子、多肽、蛋白质编辑
该研究以《ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback》为题,发表在 arXiv 上。
在2022年的11月,ChatGPT推出。紧接着很多领域、应用都开始尝试使用这个基于大模型的工具,并且发现了它的确能够优雅地解决很多问题。
这个工作中,我们就尝试将ChatGPT用于药物发现。首先一个比较有挑战性的瓶颈还是如何设计任务。我们跟随MoleculeSTM和ProteinDT的insight,主要对标drug editing系列任务,并且我们在这里考虑了三种类型的药物:小分子、多肽、蛋白质。
根据ChatGPT的特性,我们提出了ChatDrug,它主要有三个模块:
PDDS模块是针对domain task设计的prompt。 ReDF模块是利用retrieval和domain feedback对prompt进行更新。 Conversation module是让用户和ChatDrug进行交互,从而不断更新结果。
下面我们列出主要的定性结果。关于更详细的任务设定和定量结果,感兴趣的朋友可以看文章细节。
ChatDrug 小分子编辑定性结果:
ChatDrug 多肽编辑定性结果:
ChatDrug 蛋白质编辑定性结果:
图 16:我们团队关于分子多模态表示的探索。
对于domain科学家,往往把深度学习当做一个可以直接使用解决问题的一个黑盒模块,但是这个操作往往忽略了重要的优化过程。这个可以直接通过理解优化过程(目前有一些物理统计的尝试,但还是非常困难),或者目前更加可操作的就是更严格的计算上的控制变量实验。 而人工智能领域的科研工作者往往考虑一些比较简单的评估方法和任务。这个就可以多去和domain专家沟通、理解domain上的问题。
[1] GraphMVP: Pre-training Molecular Graph Representation with 3D Geometry, ICLR 2022.
[2] GeoSSL: Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching, ICLR 2023.
[3] MoleculeSDE: A Group Symmetric Stochastic Differential Equation Model for Molecule Multi-modal Pretraining, ICML 2023.
[4] Geom3D: Symmetry-Informed Geometric Representation for Molecules, Proteins, and Crystalline Materials, arXiv 2023.
[5] GraphCG: Unsupervised Discovery of Steerable Factors in Graphs, NeurIPS Workshop 2022.
[6] MoleculeSTM: Multi-modal Molecule Structure-text Model for Text-based Editing and Retrieval, ArXiv 2022.
[7] ProteinDT: A Text-guided Protein Design Framework, arXiv 2023.
[8] ChatDrug: ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback, arXiv 2023.
[9] N-Gram Graph: Simple Unsupervised Representation for Graphs, with Applications to Molecules, NeurIPS 2019
[10] AWARE: Attentive Walk-Aggregating Graph Neural Networks, TMLR 2022
[11] SGNN-EBM: Structured Multi-task Learning for Molecular Property Prediction, AISTATS 2022
[12] GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule Zero-Shot Learning, arXiv 2023
[13] MolGraphEval: Evaluating Self-Supervised Learning for Molecular Graph Embeddings, arXiv 2022
[14] D3G: Leveraging Domain Relations for Domain Generalization, arXiv 2023
参考内容:https://zhuanlan.zhihu.com/p/639560302