编辑 | 绿萝
深度学习模型可以准确预测分子特性,有助于更快、更高效地搜索潜在的候选药物。许多现有的方法都是纯粹的数据驱动。高度的数据依赖性使其难以推广到更广泛的化学空间,并导致缺乏预测的可解释性。
为了解决这个问题,来自浙江大学和阿里巴巴的研究人员,引入了一个面向化学元素的知识图谱来总结元素及其密切相关的官能团的基本知识。进一步提出了一种使用功能提示(KANO)进行知识图增强分子对比学习的方法,在预训练和微调中利用外部基础领域知识。
具体来说,以面向元素的知识图谱为先验,研究人员首先在基于对比的预训练中设计了一个元素引导的图增强,以在不违反分子语义的情况下探索微观原子关联。然后,在微调中学习功能提示,以唤起预训练模型获得的下游任务相关知识。
大量实验表明,KANO 在 14 个分子特性预测数据集上的表现优于最先进的基线,并为其预测提供了化学合理的解释。该研究通过提供高质量的先验知识、可解释的分子表征和卓越的预测性能,有助于更有效的药物设计。
该研究以「Knowledge graph-enhanced molecular contrastive learning with functional prompt」为题,于 2023 年 5 月 4 日发布在《Nature Machine Intelligence》上。
研究背景
分子特性预测是药物发现中最重要的任务之一。传统的湿实验室实验非常耗时,并且需要持续不断的巨大投资。借助 AI,研究人员研究了分子特性预测模型,以评估候选药物的临床试验成功率和治疗潜力,甚至直接预测化合物是否会获得 FDA 的批准,从而大大加快药物开发速度,并避免昂贵的后期失败。
当前关于分子的自我监督学习 (SSL) 方法中的大多数都是纯粹的数据驱动,专注于在没有任何先验化学知识的情况下利用分子图的内在信息。此外,模型缺乏泛化性和可解释性。
对比学习作为一种典型的 SSL 学习方法,越来越受到研究者的关注。然而,这些技术可能不适合分子图。此外,大多数现有方法仅考虑原子之间通过化学键建立的联系,没有充分探索分子图中原子的潜在关系。另一个被忽视的问题是预训练任务与下游任务有很大不同。直接将预训练表示应用于下游任务可能会导致性能不佳。
KANO
在此,为了解决这个问题,研究人员建议在基于基础化学知识的微调过程中提供化学提示,以弥合这一差距。受 prompt-tuning 的启发,根据基本化学知识为分子图设计适当的提示,以实现更可靠的预测。
为此,研究人员提出了一种面向化学元素的知识图谱(ElementKG),它将元素和官能团的基础知识以有组织、标准化的方式整合在一起。然后,利用包含的基础化学知识作为预训练和微调的先验,并提出了一种新的基于功能提示的知识图增强分子对比学习方法(KANO)。
KANO 由三个主要部分组成:(1)ElementKG 构建和嵌入,(2)基于对比的预训练和(3)提示 - 增强微调。
首先,研究人员基于元素周期表 (https://ptable.com) 和维基百科页面(https://en.wikipedia.org/wiki/Functional_group) 构建了一个化学 ElementKG。ElementKG 从化学元素的角度提供了一个全面和标准化的视图,这是研究的基础。ElementKG 涵盖了元素的类层次结构、元素的化学属性、元素之间的关系、对应的官能团、官能团与其组成元素之间的联系。
其次,在对比预训练中引入了元素引导的图增强。具体来说,在 ElementKG 中元素知识的指导下增强了原始分子图,提取了元素之间丰富的关系以及共享相同元素类型但不直接通过化学键连接的原子之间的关联。由此产生的增强图尊重分子内的化学语义,并在原子之间建立超越结构信息的基本联系。最重要的是,开发了一个对比学习框架,以避免不加选择地植入外部知识,并通过允许两个图视图相互补充来减轻注入噪声。
第三,提出了功能提示来弥合预训练对比任务和下游分子特性预测任务之间的差距。作为以特定模式结合在一起的原子组,官能团在确定母体分子的特性方面起着至关重要的作用,因此与下游任务密切相关。因此,在微调中,利用 ElementKG 中的官能团知识生成功能提示,提示预训练模型回忆任务相关知识。
最后,在 14 种不同的分子特性预测任务上对 KANO 进行了全面评估,证明了其优于竞争基线的优势。还进行了广泛的实验来验证 KANO 每个组件的必要性,并研究其稳健性和可解释性。
未来研究方向
KANO 通过利用 ElementKG 在 14 个分子基准测试中取得了优异的性能。KG 引导的预训练让 KANO 获得了高质量的分子表征空间,而功能提示捕获了与下游任务相关的有意义的化学子结构。
虽然 KANO 表现出了良好的性能,但它可能仍有一些局限性。例如,ElementKG 可能无法完全捕获分子系统的复杂性,而当前的功能提示可能无法捕获子结构之间的远程相互作用。
为了解决这些限制,研究人员提出了几个有趣的未来方向。
首先,将 ElementKG 扩展到化学的其他领域,并将其与其他现有的 KG 相结合,可以提供对分子系统更全面的理解。
其次,研究 KANO 学习表示的可解释性和功能提示捕获的化学知识可以为分子设计和优化提供见解。
最后,探索将 KANO 与其他技术相结合以提高其在小型数据集上的性能并加速药物发现的可能性,这可能是一个有希望的方向。
论文链接:https://www.nature.com/articles/s42256-023-00654-0