论文:Advances and challenges in deep generative models for de novo molecule generation
论文链接:http://onlinelibrary.wiley.com/doi/10.1002/wcms.1395/abstract
摘要:分子的 de novo 生成需要按预期属性生成新的或修正过的分子结构。深度生成模型与传统机器学习方法中的判别模型不同,它利用深度学习模型强大的表征学习能力,提供了直接生成预期分子的可能性。尽管深度生成模型在机器学习社区中一直被广泛讨论,但与分子的 de novo 生成相关的深度生成模型的计算问题还需要具体研究。本文简洁深入地讨论了在分子的 de novo 生成问题上应用深度生成模型的最新进展,特别强调了在这一特定领域成功应用深度生成网络所要面临的重要挑战。
1 引言
在计算分子科学中,新分子的 de novo 设计和结构与属性分析是一个很重要的问题。近几年,基于人工智能的新方法,尤其是深度学习模型,在新分子的 de novo 设计与分析这一问题上展现出了光明的前景。深度学习模型通过级联非线性特征变换在训练样本上形成了抽象的表征学习(如分子表征),能够有效提取任意输入-输出关系的基本特征,从而促进分子计算科学中的定量构效关系(QSAR)分析。此外,这样的深度表征能力也促进了能够处理分子的 de novo 生成问题的生成模型的发展。
分子的 de novo 生成需要按照预期属性生成新的或修正过的分子结构。一般而言,解决这个问题离不开逆 QSAR 问题,即,要在已知 QSAR 模型的约束下生成新结构。逆 QSAR 问题的重点在于定义一个把分子活性映射到化合物描述符上的逆映射函数,然后将这个化合物描述符转化为新的化合物结构。定义一个将描述符转化为化学结构的显式逆映射函数仍极具挑战性;由于大部分正向转换函数都是非线性的,因此获得逆向映射十分困难。然而,与传统机器学习方法中的判别模型不同,深度生成模型可以基于具有强大表征学习能力的深度学习模型,在不使用显式逆映射函数的情况下直接生成预期分子。这为分子的 de novo 生成开辟了一条新的道路。
尽管机器学习社区一直在广泛讨论深度生成模型,但它们在分子计算科学中的具体应用却尚未被开发。这说明缺乏针对分子 de novo 生成的深度生成模型相关计算问题的具体研究。本文针对在分子的 de novo 生成问题上应用深度生成模型的最新进展,提供了一个简洁而又深入的探讨。我们在此也特地强调了在这一特定领域成功应用深度生成模型所面临的若干重要挑战。
2 利用深度生成模型进行分子的 de novo 生成的最新进展
2.1 生成模型与判别模型
我们从区分生成模型和判别模型开始讨论。这两者的主要区别在于分布类型——判别模型直接学习条件概率分布,而生成模型学习的是联合概率分布。就分子分析而言,如果要预测给定分子 x 的属性 y,我们既可以用判别模型直接计算 P(y|x),也可以用生成模型计算 P(x,y)——再通过贝叶斯规则推导 P(y|x)。应用生成模型的优势在于可以用它们以监督(即建模 P(x,y))或无监督(即建模 P(x))的方式推断真实数据的分布。这种学习数据分布的方式可以用于数据模拟或新数据合成。
生成模型旨在学习训练集的真实数据分布以便生成具有变化的新数据点。但它不可能总是能以显式或隐式的方式了解数据的确切分布。因此,需要对与真实数据分布相似的分布进行建模。和传统的浅层模型(如高斯混合模型和朴素贝叶斯模型)相比,深度生成模型利用了深度神经网络的强大力量,它旨在学习近似真实分布的函数。下文讨论了深度生成模型及其在分子的 de novo 生成方面的应用。
2.2 用于分子的 de novo 生成的深度生成模型分类
2.2.1 问题设定
就下列所有不同的深度生成模型而言,输入数据集一般都包含 T 个带有特定标签的训练分子,标记为,其中 x_i 表示一般由特征向量表示的分子(如 SMILES 表征或结构分子指纹),y_i 表示分子活性的数值,或指向某个特定分子属性的离散值。以下生成模型的目的是根据这些训练数据生成特定的数据分布,该分布可用于数据采样以及生成 N 个新分子。这些分子应该来自于同样的训练域,它们属性相似但分子结构不同。在实践中,训练数据的标签 y_i 不是必须的,而整个训练过程能够以无监督的方式进行。
图1:用于分子 de novo 生成的不同深度生成模型:(a) 基于自编码器的模型;(b) 基于生成对抗网络的模型;(c) 基于循环神经网络的模型;(d) 与强化学习结合的混合模型
我们一般将深度生成模型分为四类,它们分别是:基于自编码器的模型、基于生成对抗网络的模型、基于循环神经网络的模型以及将深度生成模型和强化学习结合在一起的混合模型(图 1,表 1)。
2.2.2 基于自编码器的模型:变分自编码器和对抗自编码器
自编码器是一种针对无监督特征表征学习的、基于神经网络的架构。基本的自编码器包括编码器、解码器以及距离函数。编码器是高维输入数据到低维表征的映射,而解码器则是在给定低维表征的情况下对原始输入的重建。距离函数量化了原始输入和重建输出之间偏差的损失信息。但是基础的自编码器不能直接应用于分子的 de novo 生成,因为模型可能只学习到了一些训练数据的显式映射,而不是分子的泛化样本函数。因此,这些模型要根据这一约束进行修改,如变分自编码器或对抗自编码器即需要从输入数据中学习隐变量 z。变分自编码器提供了一个公式,其中连续表征 z 被解释为概率生成模型中的隐变量。假设 P(z) 为连续表征上的先验分布,Q(z|x) 是概率编码分布,P(x|z) 为概率解码分布。Q(z|x) 和 P(x|z) 的参数可以在变分自编码器的训练过程中通过反向传播推断出来(表 1a)。对变分自编码器而言,我们一般假设隐变量 z 的先验分布 P(z) 必须遵循零均值化和单位方差的多元高斯分布(图 1a)。至于对抗自编码器,它与变分自编码器的差别在于其架构中添加了额外的判别器神经网络来强化编码器 Q(z|x) 的输出,使其遵循特定的目标分布,同时解码器的重构误差被最小化(图 1b)。这一想法借鉴了生成对抗网络模型的主流思想(图 1c)。对这两个模型来说,通过解码器学到 P(x|z),即可以实现分子的 de novo 生成。
表 1 分子 de novo 生成的深度生成模型的分类
已经有研究者提出了一些在分子的 de novo 生成上应用 VAE 和 AAE 模型的研究(表 1)。通过 VAE 或 AAE 从 ZINC 分子数据库定向采样了 2 型多巴胺受体和 MCF-7 细胞系化合物,但没有很好地记录其模型生成能力,也没有对这些模型进行比较。Lim 等人提出使用条件 VAE 生成有五个目标属性的类药性分子。Dai 等人通过在解码器上引入句法和语义约束提出了一种新的句法导向的变分自编码器(SD-VAE)来生成句法有效且语义合理的化合物。这种方法极具启发性和创造性,因为在分子的 de novo 设计方面,生成合理的分子也是一个具有挑战性的问题。和 VAE 相比,AAE 一般会更灵活,也更适用于分子的 de novo 生成,因为从理论上讲,AAE 可以在不需要之前的高斯分布要求的情况下拟合特定分布。此外,AAE 中分子生成时的重构误差也比 VAE 更低。但这两种模型都缺少在大范围训练数据集上的综合客观的表现基准。
2.2.3 基于 GAN 的模型
GAN 是一个极具吸引力的 AI 模型,该模型由两个在零和博弈中存在竞争关系的神经网络的框架实现。其中,一个网络生成候选数据(生成模型),另一个评估这些数据(判别模型)。一般而言,生成网络学习从潜在空间到想要的特定数据分布的映射,而判别网络判断真实的数据分布和由生成器产生的候选数据的距离(图 1c)。和基于 AE 的模型相比:1)通过同时最小化生成器和判别器的损失,GAN 可以具备更强的约束;2)和基于 AE 的模型相比,GAN 没有先验分布的要求;3)基于 AE 的模型本质上还是侧重于特征表征和隐变量的建模,生成任务是次要的。因此,为优化生成任务而生的 GAN,会更有效更直接地生成分子。尽管 GAN 广泛应用于图像生成,但在 de novo 分子生成方面应用得很少(表 1)。在 RL 设置中提出了目标强化的生成对抗网络(ORGAN),这是 GAN 框架中第一个用于分子生成的研究工作。随后提出了基于 ORGAN 框架的分子 GAN(MolGAN)模型,该模型的设计是为了解决在 ORGAN 中的分子图表征而非 SMILES 表征的问题。我们推测将 GAN 应用于 de novo 分子生成的最大阻碍是通过维持两个对抗过程的平衡来训练 GAN。在训练 GAN 时出现的这样的问题常称作模式崩塌(mode collapse)。基本思想是生成器可能会意外产生几个完全相同的样本(完全崩塌),或者是有一些共同属性的相似的样本(部分崩塌)。在这样的情况下,生成器生成的样本会呈现出很差的多样性,这就限制了学习后的 GAN 的有用性。这在分子生成中是一个大问题,因为生成分子的多样性是评估生成模型性能的一个重要指标。
也有人提出了一些改进 GAN 中模式崩塌(mode collapse)问题的办法。有人将提出的不同形式的 GAN 收集在 GAN ZOO(https://github.com/hindupuravinash/the-gan-zoo)中,但对模型的训练来说依旧存在巨大的挑战。研究者热切期望未来能解决这一问题并将 GAN 应用于 de novo 分子的生成过程中。
2.2.4 基于 RNN 的模型
基于 RNN 的模型被广泛用于自然语言处理中的统计语言模型。最近的一些研究提出了将 RNN 用于 de novo 分子生成的方法(见表 1)。Segler 等人探索了通过首先训练通用的先验模型使用 RNN 生成针对特定目标的库的可能性,接着,基于一小组针对特定目标的活性化合物对我们所关注的模型进行微调。这种迁移学习的理念在图像识别中得到了成功的应用。RNN 的基本架构维护一个内部状态,这对于跟踪序列中前面看到的符号是必要的。通过使用如长短期记忆(LSTM)单元和门控循环单元(如图 1d)等微架构,RNN 的性能得到了很大的提高。为了将分子设计和自然语言处理联系起来,我们可以用一种序列形式表示分子,例如使用 SMILES 表征。在大量的 SMILES 字符串上进行训练后,RNN 模型可以被用来生成新的没有被包含在训练集中的有效 SMILES 字符串。在这种情况下,RNN 可以被看做是分子结构的生成模型。RNN 的应用已经成为近年来 de novo 分子生成的主流方式。与基于自编码器(AE)和对抗生成网络(GAN)的模型相比,RNN 具有以下的优势:(a)序列化的分子的 SMILES 表征天生适用于 RNN 模型;(b)RNN 模型可用于处理各种长度的表征,而基于自编码器或生成对抗网络的模型通常要求分子由固定长度的向量表示;(c) 与训练基于自编码器和生成对抗网络的模型相比,训练 RNN 模型较为容易一些。
2.2.5 将深度生成模型和强化学习相结合的混合模型
研究人员已经提出了一些将深度生成模型与强化学习相结合的混合模型用于 de novo 分子生成的方法(见表 1)。强化学习是用于解决动态决策问题的人工智能的一类人工智能算法。在分子生成中使用强化学习的基本思想是通过强化学习引导或约束整个分子生成过程,以获得所需的性质。在这一动态过程中,通常会设计出一个用于分子生成的生成模型,并用一个预测模型进行分子评估。评估结果会被作为奖励或惩罚反馈给系统,从而引导生成器以一种交互的方式生成所需的分子(见图 1e)。目前有两种典型的将深度生成模型与强化学习相结合的模式,即包括 ORGAN 、MolGAN 在内的基于 GAN 的模型,以及基于 ANC 的(对抗性神经计算机)模型。前者是自然语言处理研究社区之前使用的 SeqGAN 模型的扩展,使用 RNN 或简单的多层感知器作为核心生成器。后者是基于对抗性神经计算机的模型,包括基于对抗性阈值神经计算机(ATNC)的和基于增强对抗性神经计算机(RANC)的模型,它们使用可微神经计算机(DNC)作为核心生成器,比基于 GAN 的模型更有效。将深度生成模型和强化学习耦合的混合模型是未来深度生成 de novo 分子生成的方向,但这种较高的模型复杂度和模型训练方法仍然是十分具有挑战性的问题。
3 新分子生成领域的深度生成模型面临的挑战
3.1 分子表征——阿基琉斯之踵
对于所有可以用于 de novo 分子生成的模型来说,恰当的分子表征是应用程序成功的关键。不恰当的分子表征可能成为 de novo 分子生成任务中的阿基琉斯之踵。在这个特定的应用场景中,分子表征任务需要考虑的关键因素是:(a)表征应该尽可能信息丰富,以表示分子属性;(b)表征应该能够容易地逆向生成分子式。如表 1 所示,我们总结了两类目前用于生成分子的分子表示,包括基于 SMILE 表征和基于分子图表征的 one-hot 编码。
目前,大多数深层生成模型使用 SMILE 表征和 one-hot 编码来表示小分子。SMILE 是一种从分子图推导而来的基于字符串的表征方式。因此,RNN 是处理此类表示的理想候选模型。RNN 模型的缺点是既要学习句法规则又要学习表征的顺序歧义。SMILE 字符串是由基于图的分子表示生成的,而在原始图空间中工作可以去除额外开销。最近的进展还包括直接应用 GAN 等其它深度生成模型来处理这种图表征。例如,MolGAN 是一种基于 GAN 的用于分子生成的深度生成模型,专门用于处理图表征 [18 ]。Li 等人 [39] 还提出了多目标 de novo 药物设计的两种图生成模型,即基于马尔可夫过程的图生成(MolMP)和基于 RNN 的图生成(MolRNN)。然而,这两种类型的表征都不能完全、具体地表示分子信息(见第 3.4 节)。新的和信息丰富的分子表征需要被继续关注并应用于深度生成模型。
3.2 模型对比基准测试—如何评估生成样本的合理性和多样性
de novo 分子生成的模型对比基准测试和验证是非常具有挑战性的。验证新生成的分子最直接的方法是合成它们并通过实验验证它们的预期特性。显然,以这种方式定量评估生成模型的性能是不可能的。为此,现有的对比基准常常涉及到设计各种评价指标来评估生成样本的质量和多样性。在这里,医药化学家和统计学家做出了很大的贡献。通常,这些指标可以被分为四类,它们包括:(a)用于评估模型重构能力的指标,即模型在潜在空间中将数据编码为一种表征方法的能力,并通过对这种表征解码来重构输入。这些指标特别适合对基于自编码器的模型进行评估;(b)用来评估生成样本多样性的指标,包括 Fréchet Chembl——净距离 [42],内部化学多样性、外部的化学多样性 [43,44];(c)用来评估生成样本的有效性的指标,包括生成有效分子的比率;(d)用来评估生成分子特性的指标,包括分子成药性,可合成性及可溶解性。多数现有模型通过使用 RDKit [45] 评估生成样本的有效性来进行评估。一些其它的模型评估了生成样本的多样性(见表 1)。然而,目前的深度生成模型尚不能完全重现待生成的分子的自然化学多样性 [43]。研究人员提出了一个协作平台 DiversityNet(见表 2),它可以对化学领域的人工智能生成模型进行对比基准测试。我们在这里还提出了一些新的指标,这些指标从 GAN 社区借鉴,并期望可以用于分子生成模型进行对比基准测试,这些指标包括核最大平均差(MDD)、推土机距离(Wasserstein)和 1-近邻分类器 [48]。这些指标本质上是为了评估两种不同分布的距离而设计的,在这里可以将它们用于评估基于 GAN 的 de novo 分子生成模型。
表 2:与深度生成分子 de novo 设计相关的开源平台
3.3 需要开源工具和平台实现可重用性和可复现性
训练用于 de novo 分子生成的深度生成模型是非常具有技术性和挑战性的。迫在眉睫的是,我们需要开发开源工具和平台实现可重用性和可复现性。表 2 列出了一些与 de novo 分子生成相关的开源平台。其中,ChemTS 提供了一个 python 库,用于使用 RNN 实现蒙特卡洛树搜索,用以 de novo 分子生成。ORGANIC 和 REINVENT 分别实现了相关文献中提出的特定模型。当前所有可用的平台都没有被专门设计用来解决 de novo 分子生成问题,或者说他们只实现一个特定的算法,但这限制了这些工具(见表 2)的广泛使用。研究人员还需要再接再厉,设计出更全面、有效的工具来专门解决 de novo 分子生成问题。
3.4 从图像和文本生成到分子生成还有很长的路要走!
最后,这些深度学习模型起源于图像处理和文本挖掘研究社区。这些社区已经开发出了鲁棒性很强的技术,我们可以借鉴这些技术来设计 de novo 分子。例如,最初用于大规模图像数据库 ImageNET 的图像处理的基于迁移学习的微调技术已经被成功应用于 de novo 分子生成。虽然分子生成可以与图像和文本生成进行类比,但是将这些模型直接应用到分子上是非常具有挑战性的,原因如下:(a)图像和文本的表征与分子的表征有很大的不同。用整个像素或整个单词的集合来具体地表示一个完整的图像或句子是很直接的,基于这些表征的重构也是如此。同时,深度学习模型的抽象能力可以直接应用到图像和文本中进行特征表示学习,从而避免了手动标注的特征工程。然而,像 SMILE 模式这样的分子表征是手工设计的,并且是基于线性的,通常不能表示关于分子的其他有意义的信息。目前,我们缺乏一个有效的分子表征,包含适合深度生成模型解析的完整分子信息。(b)图像和文本具有容错性。修改单个像素或单个字母一般不会影响对整个图像或文本的理解。然而,分子对错误是十分敏感的。原子水平的变化将极大地影响分子的性质,因此,为了获得所需的性质,产生一个分子的生成模型必须是高精度的。
4 结语
总而言之,从图像和文本生成到分子生成还有很长的路要走!我们希望利用图像和文本挖掘社区开发的技术来设计更有针对性的深度学习技术,这些技术可以成功地被用来解决 de novo 分子生成的特定需求。这一特殊领域未来的前景是光明的,我们现在只是刚刚开始将复杂的人工智能技术应用于药物研发。
作者介绍:本论文由同济大学刘琦教授课题组受邀撰稿完成,刘琦教授课题组以 AI 和机器学习计算技术为基础,重点关注关于药物研发、肿瘤精准治疗及基因编辑领域的交叉计算问题研究,曾获 2017 年吴文俊人工智能自然科学奖三等奖。同时积极进行计算机科学和生物医学交叉领域的科普宣传。